《计算机组成与体系结构(原书第4版)》 —1.11 并行性:机器智能的推动者——深蓝和沃森
1.11 并行性:机器智能的推动者——深蓝和沃森
从我们介绍过的“土耳其机械人”可以明显看到,下棋一直被认为是“会思考的机器”的最有力证明。棋盘是在基本平等的条件下人类和机器能够相遇的一个战场,当然,人类总是有优势的。自20世纪50年代末以来,已经有了真正的下国际象棋的计算机。在过去的几十年里,它的硬件和软件都在逐渐改进,最终成为技术熟练棋手的强大对手。下棋冠军的问题一直被认为太难了,很多人认为机器永远不会战胜人类大师。1997年5月11日,一台叫作深蓝(Deep Blue)的机器战胜了人类大师。
深蓝的主设计师是IBM的研究人员许峰雄、托马斯·阿南塔拉曼和莫里·坎贝尔。据报道,深蓝耗资超过600万美元,并花了6年时间建造完成。深蓝是一个大规模并行系统,由30台基于RS/6000的节点辅以480个国际象棋专用芯片组成。深蓝有一个独立于开局和残局系统的完整棋局数据库,数据库中存储了700000个完整的棋局。它平均每秒分析2亿个棋位,这使深蓝能向前看12步棋。
由于国际象棋冠军加里·卡斯帕罗夫完胜过较早版本的深蓝,所以卡斯帕罗夫被普遍看好会赢得1997年5月3日开始的复赛。在五场比赛结束后,卡斯帕罗夫和深蓝战成平局,2∶2。然后,在第六场比赛中,深蓝迅速抓住了卡斯帕罗夫犯下的一个错误。卡斯帕罗夫别无选择,只好认输,深蓝从而成为第一台击败国际象棋特级大师的机器。
深蓝令人震惊地战胜卡斯帕罗夫现在已成为历史,IBM研究院院长查尔斯·利克尔开始寻找新的挑战。2004年,肯·詹宁斯在美国智力竞赛节目“危险边缘”中获得史无前例的74连胜,这让数以百万人着迷,利克尔也为之着迷。当看到詹宁斯赢得一个又一个比赛后,利克尔大胆地想:建造一台可以在“危险边缘”节目中获胜的机器也是有可能的。此外,他相信IBM研究院有建造这样机器的人才。他请大卫·费鲁奇博士领导这项工作。
IBM的科学家并不急于承担利克尔提出的大胆项目。他们有充分的理由怀疑这样的机器能否建成,毕竟创造深蓝已经够难的了。玩“危险边缘”远比下国际象棋难。在国际象棋中,问题域是由固定和明确的规则以及有限(尽管非常大)的解空间清楚地定义的。另一方面,“危险边缘”中的问题几乎涵盖了无限的问题空间,其中混合着变幻莫测的人类语言、概念之间的奇怪关系、双关语和大量的非结构化事实信息。例如,一个“危险边缘”的分类可能称为“Doozy Twos”,其中涉及一个非洲领导人(Benjamin Tutu)、一件衣服(tutu skirt)、一首阿尔·乔尔森(Al Jolson)的歌(Toot Toot Tootsie)和一种***的尺寸(0.22 caliber)。一个人看到这种关系不难(尤其是答案被揭晓后),而计算机就完全困惑了。
为了使游戏公平,沃森(Watson)要尽可能地模仿人类参赛者。它不允许连接到因特网或任何其他计算机上,而且要求沃森回答问题时要按下一个会发出“嗡嗡”声的按钮。由于沃森没有处理声音或图像的程序,所以在比赛中不使用视觉和完全音频的提示,例如音乐的选择。
一旦读取一个提示后,沃森会发起几个并行进程。每个进程检查这个提示的不同方面,这样可以缩小解的空间并构想出一个假设作为答案。这个假设包括正确的概率。沃森选择最有可能的假设,或者,如果正确性概率达不到预定的阈值,就根本没有假设可以选择。沃森的设计者确定,如果沃森尝试回答70%的问题,并且回答这些问题的正确率达到85%,那么它将赢得比赛。没有人类参赛者曾经做到这样好。
使用沃森的算法,一台典型的台式机将需要大约两小时才能想出一个好的假设。而沃森必须在不到3s的时间内做完这件事。它利用一个名为DeepQA的大规模并行架构实现了这个任务。这个系统依靠90台IBM POWER 750服务器。每个服务器配备了4个POWER7处理器,每个POWER7处理器有8个核,共有2880个处理器核。在参加“危险边缘”比赛时,每个核可以访问16TB主存储器和4TB集群存储器。
不像深蓝,沃森不能使用编程的方法,也不能用蛮力来解决问题:问题空间太大了。因此,沃森的设计者采用的方法就像人类解决问题那样:沃森使用来自成千上万的新闻源、期刊和书籍的数百万兆字节的非结构化数据进行“学习”。DeepQA算法给沃森提供了以类人类的方式从原始数据中综合信息的能力。沃森用事实和不完全信息得出推论和提出假设。沃森能够在情境中理解信息:同样的问题在不同的情境中,可能会产生不同的答案。
在比赛的第三天,即2011年2月16日,沃森打败了两位“危险边缘”的冠军肯·詹宁斯和布拉德·鲁特,一举震惊世界。它获得的奖金捐赠给了慈善机构,但沃森对人类的服务才刚刚开始。沃森从非结构化数据池中吸收知识的能力和推理能力,使它成为医学院的完美候选者。2011年年初,IBM公司、WellPoint公司和纪念斯隆-凯特琳癌症中心(Memorial Sloan-Kettering Cancer Center)让沃森吸收了600000多件医学证明以及来自42种医学期刊和肿瘤学研究文献的200万页文本。用WellPoint公司的护士提供的14700h的现场培训作为沃森的资料同化的补充。然后,给沃森输入了25000个测试案例场景和1500个真实案例,从这些案例中它表现出从堆积如山的复杂医学数据中抽取有意义的信息的能力,其中一些医学数据是非正式的自然语言,如医生的笔记、病人记录、医学注释和临床反馈。继在“危险边缘”取得成功之后,沃森又在医学院取得了成功。基于沃森技术的商业产品,包括“交互式癌症医疗方案建议”和“交互式医疗评审员”,现在都是可以使用的,它们有望改进对癌症患者的医疗处理速度和准确性。
虽然沃森的应用和能力一直在增长,但是沃森占用的空间一直在缩小。在短短几年里,系统的性能提高了240%,物理资源减少了75%。沃森现在可以运行在一个POWER 750服务器上,这导致一些人声称“片上沃森”即将来临。
从沃森的事例中,我们不仅看到了一个惊人的“危险边缘”的参赛者或者一流的肿瘤学家,而且也看到了计算的未来。不再是训练人使用计算机,而是计算机用模糊和不完整的信息训练自己与人交互。明天的系统将满足人类的条件。正如费鲁奇博士所说,计算机除了变得像沃森之外,根本就没有其他未来。计算机只能朝这个方向发展。
- 点赞
- 收藏
- 关注作者
评论(0)