随着移动互联网的出现,数据量不断增加并相互关联,大数据这一概念也应运而生。大数据的使用,让计算机完成了一些只有人类才能做到的事情,这最终将带来一场智能革命。
过去,只有人类可以用语音进行交流,尽管人类从1946年开始就努力让计算机能听得懂人的语音,但是一直不成功。
20世纪70年代,科学家们采用数据驱动的方式,找到了解决这一问题的方法,并且通过不断地改进,如今机器进行语音识别的准确率大大提高,图像识别的功能也取得了根本性的突破。
人们已经开始意识到数据的重要性,科学家和工程师们,采用大数据的方法使计算机的智能水平产生了质的飞跃,在很多领域,计算机将获得比人类更高的智能。
吴军老师认为,人们正在经历一场由大数据带来的技术革命,这场革命最典型的特征就是计算机智能水平的提高,因此它被称为智能革命。
当计算机的智能水平超过人类时,我们的社会可能会发生翻天覆地的变化,这也正是大数据的可怕之处。
01
什么是机器智能?
1946年,第一台电子计算机埃尼阿克(ENIAC)的诞生,使得人类开始重新考虑机器能否有智能的问题。真正科学地定义什么是机器智能的人,是电子计算机的奠基人阿兰·图灵博士。
1950年,图灵在《思想》杂志上发表了一篇题为《计算的机器和智能》的论文。在论文中,图灵提出了一种验证机器有无智能的判别方法。
这种方法被后人称为“图灵测试”。它具体是这样进行的:让一台机器和一个人坐在幕后,找一个裁判同时与幕后的人和机器进行交流,如果裁判无法判断自己交流的对象是人还是机器,则说明这台机器有了和人同等的智能。

计算机科学家们认为,如果计算机可以实现以下五件事情中的一件,就可以认为计算机具有图灵所说的那种智能。这五件事分别是:
1、语音识别。
2、机器翻译。
3、文本的自动摘要或者写作。
4、战胜人类的国际象棋冠军。
5、自动回答问题。
今天的计算机,不仅能够完成以上五件事情,还能超额完成任务。比如在下棋方面,计算机不仅战胜了象棋的世界冠军,还战胜了围棋的世界冠军。
1956年的夏天,信息论创始人克劳德·香农和一群年轻的学者,在达特茅斯学院召开了一次头脑风暴式的研讨会。这群年轻的学者们讨论的是当时计算机科学尚未解决和展开研究的一些问题,其中包括人工智能、自然语言处理和神经网络等。
人工智能和机器学习就是始于那次会议之后。
人工智能这一名词,严格地讲有两个定义:
第一,泛指机器智能,就是任何可以让计算机通过图灵测试的方法,包括数据驱动的方法。
第二,是狭义上的概念,就是指20世纪五六十年代特定的研究机器智能的方法。
后来,那些利用其他方法产生机器智能的学者,为了划清自己和传统方法的界限,特地强调自己不是用人工智能的方法。因此,学术界将机器智能分为传统人工智能的方法和现代的其他方法,后者包括数据驱动法、知识发现和机器学习等。
当然,计算机领域之外的人们,在谈到人工智能时,常常是泛指任何机器的智能,并不局限于传统的方法。
那么,传统的人工智能方法是什么呢?简单地讲,就是首先了解人类是如何产生智能的,然后再让计算机按照人的思路去做。
在今天,几乎所有科学家都不再坚持“机器要像人一样思考才能获得智能”了,但是很多人在谈到人工智能时,依然想象着“机器在像我们那样思考”。

事实上,当我们回到图灵博士描述机器智能的原点时就能发现,机器智能最重要的是解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。
人工智能这个概念在刚被提出来的时候,这个研究课题在全世界都非常热门,人们仿佛觉得用不了多长时间,计算机就会变得比人更聪明了。
经过十几年的研究,科学家们发现,人工智能其实并非人们想象中的那种智能,除了做出几个简单的“玩具”,比如,让机器人像猴子一样摘香蕉,解决不了什么实际问题。
02
数据的奇迹
20世纪的60年代末,计算机科学的其它分支发展得非常迅速,但人工智能的研究却开展不下去了。因此,美国计算机学界开始反思人工智能的发展。虽然一些人认为机器之所以智能水平有限,是因为它还不够快、容量不够大,但是,也有一些有识之士认为,科学家们走错了路,照着那条路走下去,计算机再快也解决不了智能问题。
直到70年代,人们开始尝试机另一条发展道路——采用数据驱动和超级计算的方法。
1972年,康奈尔大学的教授弗雷德·贾里尼克,到IBM做学术休假,正好当时IBM想开发“聪明的机算机”。于是,贾里尼克就“临时”负责起这个项目。当时,人们对“聪明的计算机”的共识是,它要么能够听懂人的话,要么能将一种语言翻译成另一种语言,要么能够赢得国际象棋的世界冠军。
于是,贾里尼克根据自己的特长和IBM的条件,选择了计算机自动识别人的语音的任务。
在贾里尼克之前,主流的研究方法主要有两个特点:第一个是让机算机尽可能地模拟人的发音特点和听觉特征;第二个是利用人工智能的方法理解人所讲的完整的语句。
贾里尼克作为一位通信专家,他看待语音识别的角度,和先前主流的计算机科学家们完全不同。他认为,语音识别并不是一个人工智能的问题,而是一个通信问题。
人的大脑是一个信息源,从思考到找到合适的语句,再通过发音说出来,是一个编码的过程,而听者接收到语音并理解,是一个解码的过程。

贾里尼克用两个数学模型,分别描述信息源和信息道。找到了数学模型之后,下一步就是要用统计的方法“训练出”模型的参数,这在今天来讲就是机器学习
通过四年的时间,贾里尼克和他的团队,开发出了一个基于统计方法的语音识别系统,它的语音识别率从过去的70%左右提高到了90%以上,语音识别的规模从几百个词汇,上升到两万多词汇。从此,语音识别走出实验室,被实际应用。
贾里尼克和他的团队,在对语音识别的研究过程中,无意间开创了采取统计学方法解决智能问题的途径。这种方法需要使用大量的数据,因此被称为数据驱动法。这种方法最大的好处就是,随着数据量的积累,系统会变得越来越好。
到了20世纪的90年代,随着互联网的兴起,数据获取变得非常容易。语音的识别率从1994到2004年,发生了质的变化——语音识别的错误率减少一半,机器翻译的准确性提高了一倍,其中只有20%的贡献是来自方法的改进,有80%的贡献是来自于数据量累积的攀升。
03
大数据的特征
进入21世纪后,互联网的出现使得可用的数据量剧增,因此数据驱动法的优势越来越凸显了出来。很多需要类似人工智能才能做成的事情,计算机都已经可以胜任了,这一从量变到质变的飞跃,得益于数据量的日益增加。
全世界各个领域的数据不断向外扩展,逐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点到线渐渐地连成了网。数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。
大数据一词,频繁地出现于媒体是在2007年之后。我们要谈大数据的问题,首先要了解什么是大数据,以及它具有哪些特征。
大数据最大的特征就是体量大,但是仅有大量的数据,并不一定就是大数据。大数据之所以有用,是因为它除了大之外,还有其它的特征。

一些数据专家将大数据的特征简要概括为三点,即:大量(Vast),多样性(Variety),和及时性(Velocity)。
其实,大数据还具有一个非常重要,却又容易被人们忽视的特点,就是它的全面性,也可以说是完备性。
最后一个重要特点,是从大数据的英文写法Big Data中分析出来的。英文中的Big是抽象意义上的大,强调的是相对的大小。
仔细推敲Big Data这一说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息——大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据概念的一把钥匙。
在大数据出现之前,计算机并不擅长解决需要人工智能来解决的问题,但在今天,只要将这些问题换个思路就能得到解决,其核心就是变智能问题为数据问题。
智能革命使得机器产生了和人类类似的智能,它会对人类社会产生哪些重大的影响呢?让我们期待下一期的解读。
评论留言