陈国林

【译文】谁是华生？

已有 428 次阅读 2011-04-01 10:31

本文的主角不是他!

撰文 Olivier Lascar 编译黄冠乔

“简单！他是歇洛克•福尔摩斯的得力助手！”——嘿嘿，大错特错！这位华生可不做任何调查，他搜集了海量的信息，目标是在电视问答游戏中赚到几百万。

这个游戏，就是“杰帕迪”(Jeopardy)，全美最有名的电视猜谜节目。从1964年开播以来，平均每天有900万观众在电视机前等候着这一刻。无数竞争者从节目的红毯上走过，我们的华生并不是第一个，但他尚未登场，就已经引起轰动。因为华生并非寻常老百姓，他是一台机器！更准确地说，华生是一台具有最新编程、能回答任何问题(科学、政治、文学……)的电脑的昵称。

万宝全书也磕巴！

由IBM工程师精心打造的这个宝贝玩意儿，据说能够答出任何复杂的难题。诙谐、讽刺、弦外之音，怎么玩弄语言都吓不倒这位超级冠军，因为他完全破译了人类的思维模式。来试试这个问题：“谁是穿着豹皮裤衩的丛林之王？”这个问题有点绕圈子，但您一定能马上答出“人猿泰山”。华生也一样！而“杰帕迪”节目里的那些问题就全是这种风格的，为此，IBM的研究人员才想让华生上节目来对其进行测试。节目的播出日期尚不确定，但训练已经开始。几个陪练的幸运儿对华生的快速反应倍感震惊，它经常抢在人类对手前面给出正确答案。值得注意的是，它也会出错。《纽约时报》的一位记者如此描述在演练中出现的神秘故障。面对一系列问题，硅基大脑坚持回答“汤米•李•琼斯”，而正确答案明显和出演电影《黑衣人》的那位大明星没有任何关联！总之，还说不上十全十美。不过IBM的这台新电脑，似乎攀上了人工智能领域的新高峰。

人工智能这一学科诞生于美国汉诺威的达特茅斯学院。“1956年夏，这里召开了一个会议，聚集了来自各个研究领域的学者。”巴黎第六大学教师、AI专家让-加布里埃尔•迦那西亚(Jean-Gabriel Ganascia)讲述道，“当然有一些数学家，但不只是他们，有好几位哲学家也参加了。”到底是什么把这些人吸引到一起来座谈呢？“是信息技术的诞生。”让-加布里埃尔•迦那西亚如此回答。“在此之前几年，诞生了第一代电脑，将智力分解为基本元素并通过机器进行重新建构似乎有了可能。”那么50年后，华生的诞生是否标志着AI始创者的梦想得以实现呢？面对如此想法，法国国家科研中心奥赛机械及工程科学信息实验室的布里吉特•格罗(Brigitte Grau)嗤之以鼻。对她而言，华生的主要长处是其推土机般强大的处理能力：“它的力量主要来自其对语言的分析程序，虽然只是很简略的分析；其次是执行该程序的超级计算机快速的运算能力；最后是该计算机极其巨大的存储器。”她提到的这个超级计算机名为“蓝色基因”。对于信息专家而言，这个名字本身就是一个传奇。

国际象棋冠军的后代

本文的主角是他！

“蓝色基因”是“深蓝”的升级产品。由IBM开发的“深蓝”，早在1997年便取得了辉煌的战绩，数次击败国际象棋世界冠军加里•卡斯帕罗夫(Gary Kasparov)。根据当前的棋局，它能在1秒钟内计算出2亿种变化的可能，由此引来卡斯帕罗夫奇特的感叹。在输掉比赛后，这位前世界冠军宣称自己从对手那里感受到一种“智能形式”。那么华生呢，他聪明吗？他有一套的确是真的。因为除了快速的计算能力，这台超级电脑还拥有令人难以置信的巨大存储空间，能够记录上亿页的数字化文本。这样说的话，还真是非常可观。不过让-加布里埃尔•迦那西亚认为这算不上十分出奇：“我们知道，一张CD能存储1000本书，一张DVD能存储25000本。根据我的计算，法国国家图书馆(BNF)1300万卷藏书能收纳在一块12厘米见方的硬盘里！”那么华生呢，它能存储多少个BNF？决意保守机密的IBM三缄其口，“现在我们不便透露华生的系统配置。”参与项目研发的艾里克•布朗(Eric Brown)闪烁其辞。然而，不管怎样，如果华生不能及时从中找出准确的那一条，那么如此连山排海的信息也将毫无用处。在这一点上，起决定性作用的正是“蓝色基因”创纪录的运算速度。几秒钟内，它能扫描完一长列硬盘，每个硬盘都大如衣柜！“这些硬盘以并联方式相接，”布里吉特•格罗描述道，“因此，多种搜索算法能够对它们同时进行检索，从而比串联线路更节约时间，后者只能对每个存储器依次扫描。”终于点到了问题的核心：华生如何才能在所有的存储器中迅速找到有效信息并用以回答提出的问题呢？这要求事先从词汇和语法角度完成对句子的分析。“比如一个简单的问题：‘埃菲尔铁塔有多高？’提交给计算机后，这个问题就立即由语言自动处理算法进行分析，识别句子中的词语及其语法功能。”布里吉特•格罗解释道。如此计算机才能明白句子的主语是“埃菲尔铁塔”，它必须找到一条与其相匹配的信息，而这一信息就是铁塔的高度，这是一个数字。

然后，计算机在存储器中存储的所有文本中寻找答案。“文本的数量越多，检索到以‘埃菲尔铁搭的高度是’开头、包含匹配数值的句子的概率就越大。”布里吉特•格罗强调，“否则，计算机就必须找到以另一种形式存在的答案，并理解语言所提供的多种变化(比如近义词)。如果它最终找到多条性质一致、数值相同的信息，它就会明白这十有八九就是正确答案了。”在“杰帕迪”节目中，回答前最好仔细检查自己的答案，因为答错的话会扣分。如果一位参赛者没有答对一道200分的题，他不但什么都得不到，还要倒扣200分！

可见，华生之所以不同凡响，与其说是智能超常的缘故，倒不如说是因为它计算能力惊人。它知道人猿泰山是“穿着豹皮裤衩的丛林之王”，那是因为在它肚子里储存的诸多文本中，这位虚构的英雄就有这样的外号。这可算不上什么聪明……

“在语言识别中，这只是很肤浅的层面。”让-加布里埃尔•迦那西亚评论道，“看看这句话：‘保罗教授教授物理学。’两个‘教授’一个是名词，一个是动词，只有通过上下文背景才能明白。电脑在处理这样的问题时实在是力不从心。”就连华生对此也是无能为力，更不用说世界上其他电脑了。“我敢说，要实现这个突破还早得很。”布里吉特•格罗断言，“电脑能尽量逼近正确的理解方向，但语言的学习属于一种非常神秘的思维活动，我们没法(在机器上)穷尽这种复杂性。对我而言，这样反倒更好：说到底，对语言的掌握难道不正是人类的特征吗？”这位专家微笑着得出结论。这绝不是一件容易的事，是不是，华生？

—————补充阅读的分割线———————————————–

图灵测试

机器到底能不能思考？华生的出现使这个问题又受到现实关注，但此问题最早是由英国数学家阿兰•图灵(Alan Turing)在60年前提出来的。这位信息技术的先驱在1950年设计了一种能解答这个问题的测试。图灵的设想是，让一人与两个看不见也听不到的对象通过书写的方式交流，一个对象是人类，另一个是机器。如果他不能说出两者实质的区别，我们就可认为此机器能“思考”。“图灵当时预言，50年后用一台机器和人进行5分钟的图灵测试，其成功骗过人类的概率为70%。”让-加布里埃尔•迦那西亚回顾道。预言准确吗？嗯……看起来图灵过于乐观了。因为，毫无疑问，信息技术专家能给自动装置编程，使之能与人类进行讨论(我们把这些能“聊天”的机器人称作“聊天机”，“罗伯纳”奖每年都颁发给它们中最出色的作品)。但这些程序经常使用一些“套语”来维持交谈，它们的回答没法长时间地维系“交谈”的感觉，类似“我对华生的看法？和您一样”这样的死板句式反复出现，很快就变得过于程式化，。那么华生在图灵测试中表现到底如何？我们相信它也不会及格。当然，这个系统完全不是为了“聊天”而开发的。依靠词语识别系统，它能回答问题，但无法进行交谈。要不开发一个华生2.0版试试？

分享举报