图灵測试，測的究竟是什么？

2014年6月7日发生了一件事情：聊天程序“尤金·古斯特曼”（Eugene Goostman）在英国皇家学会举行的2014图灵測试大会上冒充一个13岁乌克兰男孩而骗过了33%的评委，从而依照图灵当初的定义，“通过”了图灵測试。

尤金的在线对话页面，不幸的是由于这一事件给server带来的压力，该站点已经几天无法訪问了……可是，通过了測试又怎么样呢？说明了什么问题呢？

图灵測试

1950年。阿兰·图灵在那篇名垂青史的论文《计算机械与智力》的开篇说：“我建议大家考虑这个问题：‘机器能思考吗？’”可是由于我们非常难精确地定义思考。所以图灵提出了他所谓的“模仿游戏”：

一场正常的模仿游戏有ABC三人參与，A是男性，B是女性。两人坐在房间里；C是房间外的裁判，他的任务是要推断出这两人谁是男性谁是女性。

可是男方是带着任务来的：他要欺骗裁判，让裁判做出错误的推断。

那么，图灵问：“假设一台机器代替了这个游戏里的男方的地位。会发生什么？”这台机器骗过审问者的概率会比人类男女參加时更高吗？这个问题代替了我们原本的问题：‘机器是否能思考？’”而这。就是图灵測试的本体。

【图片来源：BBC】

……等等，那如今这帮人在搞的图灵測试又是什么啊。

事实上你可能已经注意到了图灵的真正目的。不是说“思考”没法定义吗？没关系，我们不去纠缠哲学，我们来制造一个可操作的标准。假设这台机器“表现得”和一个思考的人类（人类是会思考的，对吧？）无法区分，那么我们就大可把它当做是在“思考”。

当然，有些方面机器非常难表现得和人类一样，比方有血有肉——可是既然我们关注的是思考，那么就能够选择一个有代表性的领域，图灵选择的就是“模仿游戏”。而到了1952年，在一场BBC广播中，图灵谈到了一个新的详细想法：让计算机来冒充人。假设足够多的裁判（图灵选择的数字是30%）误以为在和自己说话的是人而非计算机。那就算作成功了。

能够看到，图灵測试的核心事实上不是“计算机是否能和人对话”，而是“计算机是否能在智力行为上表现得和人无法区分”。

冒充异性和冒充人类都只是是特例而已。

只是这个1952年版的图灵測试在后世被发扬光大。成了今天我们所知的图灵測试的唯一方法。

这就带来了一些问题。

中文屋子

图灵測试自诞生以来产生了巨大的影响力，不光有支持。也少不得批评。当中最重要的批评之中的一个，可能是1980年约翰·塞尔在《心智、大脑和程序》一文中提到的中文屋子思想实验了。

塞尔说，想象他锁在一间屋子里，手动模拟一个巨大的AI程序，和外界进行中文的对话。

这个程序据说是“懂中文”的——至少，能以中文通过图灵測试。

屋子里除了一堆纸（塞尔的原话是“bits of paper”）上写着运算的规则之外，别无他物。（好吧，为了人道起见或许应当加入主要的维生设施……）

【图片来源：rationallyspeaking.blogspot.com】

塞尔不懂中文。在屋子里摆弄符号显然也无助于他习得中文。屋子里也没有别的东西理解中文了。

假设塞尔不“理解”中文，那么塞尔加上这堆纸也不能说是“理解”中文吧！

尽管屋子的中文水平足以骗过中文使用者，但没有不论什么实体真的“理解”发生了什么。

换言之，所谓的图灵測试也是没实用的，就算通过了它也不能表明计算机在思考。

但问题还不仅限于图灵測试。依照这个实验，一台电脑和塞尔一样。都是仅仅能识别弯弯扭扭的“符号”。对这些汉字符号的意义一无所知。

这也正是计算机程序的问题，不管它是硅基的还是塞尔基的。

这等于是说有理解力的强AI根本不可能出现！

这个思想实验看起来一目了然，完美符合直觉，并且非常迎合了不少人的愿望——证明人类心智是独一无二的天赐产物，人类造不出赝品来。只是话说在前头。我（遵循丹尼尔·丹内特等人的观点）觉得它是错的。

事实上塞尔当初在伯克利讲座上首次提出这个实验的时候，就有听众反对说。锁在屋子里的人可能不懂他在处理什么东西，但他仅仅是整个系统的一部分啊。他还有规则书。有演算纸笔。有一堆汉字的数据库，凭什么一定要他理解、而不能让整个系统理解？

塞尔的回答是：

“这个想法觉得尽管一个人不懂汉语。不知怎么的他和他的那一堆纸联合起来就能懂汉语。

一个不深陷意识形态之中的人，怎么会觉得这想法可信，还真有点难以想象啊。”

或许吧，可是。真的仅仅有“一堆纸”？

直觉泵的旋钮

这样的思想实验——用丹内特的话说叫“直觉泵”——有个共同的问题。

它的确给出了一个直觉的结论，可是这结论是来自一个完整的详尽的思想实验。而不像普通的逻辑推理那样来自详细而明白的几个前提。

假设这个实验的某个细节，某个你觉得无足轻重的细节。欺骗了你的直觉呢？

最有名的直觉泵大概是有轨电车问题（Trolley Problem），1967年由英国哲学家费丽帕·弗特提出。

铁轨上有五个小孩在玩，停用的岔轨上有一个小孩在玩，你要把车转移到岔轨上压死一个孩子救下五个吗？这是一个非常典型的关于道德问题的直觉泵。可是千万不要以为这实验就能完整地代表你的道德立场——假设我换一个条件，那个岔轨没有停用。也在正常执行。仅仅是这趟车正好不往那走呢？假设我再换一个条件，根本就没有岔轨，那个小孩就在你身边玩，你把他推下去就能让车停下救另外五个小孩呢？假设那一个小孩是你的亲人呢？假设根本没有小孩、仅仅有你自己决定是否要自己跳下去呢？

【有轨电车问题已经成为了一个大领域。有无数的变体。图片来源：Workman Publishing】

对待直觉泵，这正是丹内特的建议：研究它的细节。看看每一个细节假设发生了改变会不会影响到最后产出的那个直觉。用他的话说，是“转动直觉泵的旋钮”。
回到中文屋子。塞尔说，他在手动模拟一个程序的执行——可是他没有说他是在哪一个层级上模拟。假设外面的人输入了一串中文，比方“你好啊”。屋子里的人在做什么？他是在做机器码（将寄存器23945的内容加到寄存器93756上）？是在做源代码（定义常数p，令p=100）？是在做伪代码（将句子拆分为名词、动词、代词和修饰词，推断其是否为一个问题）？有没有凝视可看？假设他在顶层，那么他会不会对自己在做什么有所理解？假设他仅仅是底层的一个计算器。那他之上的繁复层级真的能够用“一堆纸”来轻描淡写地概括吗？

设想这样一个问题：写下一个英文大写字母D，把它逆时针旋转90度，然后把它放在一个英文大写字母J的上面。请问这让你想到了什么样的天气？

一个顶层的塞尔（或者干脆就是一个懂中文的塞尔）的脑海中会浮现出D躺在J上的这个形状。一个底层的塞尔当然对此一无所知，可是他身为计算器所驱动的那个中文屋子要怎么回答这个问题？假设这个中文屋真的通过了图灵測试，它当然不会被这道题难倒——可是解这道题的唯一办法，就是照着它的指示，把D躺倒，放在J上，对照记忆库，推断出这个形状最接近于雨伞，根据雨伞联想到雨天。这是底层的塞尔所不知道但中文屋作为一个总体必须在它的“内存”中做的事情。而这件事情和一个懂中文的塞尔解题时的所思所想又有何差别呢？

可是。假设简单地用“一堆纸”这个人畜无害的词，轻描淡写地描写叙述中文屋，你的直觉就被误导了。

假设一个中文屋真的完美通过了图灵測试，真的和人无法区分，它在和裁判对话时的“思维”状态必须是和真人高度相似的。假如图灵測试的裁判决定用苏格拉底式方法教授对方量子物理学。那么一个底层的做算术的塞尔当然不会因此学会量子物理——可是中文屋却会（别忘了，它通过了图灵測试——它能在智力行为上表现得和人无法区分）。这就像是给中文屋安装了一个新程序。能执行简单的量子物理计算和模拟。在这样的情况下，你还凭什么说，由于底层的人没有理解，所以这间屋子也不能理解呢？

只是上面的论证事实上都有一个麻烦。这些说的都是理想的图灵測试，是1950年图灵给出的最原始形态。而2014年6月7日这个聊天程序通过的那个“图灵測试”。和1950年图灵心中的那个測试，并不全然是一回事。

聊天机器人的“图灵測试”

假设你刚才几部分的内容没忘光，可能还会记得，我们重复强调了图灵測试的准则是“计算机在智力行为上表现得和人无法区分”。

可是现实中真要測的话总得有规章，而英国皇家学会的測试规矩是。在一系列时长为5分钟的键盘对话中，某台计算机被误觉得是人类的比例超过30%，那么这台计算机就被觉得通过了图灵測试。

尤金在2014年的成绩是在总计150场对话里骗过了30个评委里的10个，比两年前提高了4个百分点（所以严格来说，并非发生了什么大突破，仅仅是在改良的过程中跨越了一个武断的阈值）。

麻烦来了：尤金的设计思路并非“一台在智力行为上表现得和人无法区分”的机器，而是一台“能够在5分钟长度对话内尽可能骗过人类”的机器。

经济学有个所谓的古德哈特定律：一项指标一旦成为政策制定的根据，便立马不再有效。

政策制定者会牺牲其它方面来强化这个指标，使得这个指标不再具有指示总体情况的作用。相似的道理勉强也能够套用到别的领域里。某种意义上尤金·古斯特曼就是例证——它不可是专门设计的聊天机器人、缺乏不论什么其它领域的智力能力，并且为了骗过人类，还被特意设定成一个13岁的非英语母语的小孩，以便在非常多问题无法回答或者出现错误的时候，让裁判误以为这是由于它年龄小，而非由于它欠缺人性。

这恐怕并非图灵当初设想的人工智能形态。当然更不是科幻爱好者恐惧（或者盼望）的天网觉醒。

【或许要这样的人工智能才更接近图灵的本意吧……图片来源：xkcd，汉化：Ent】

不管是尤金的编写者还是程序的组织者。对此倒也心知肚明。编写者弗拉基米尔·维西罗夫说，“我们希望能借此激发人们对人工智能与聊天机器人的兴趣。”而组织者凯文·沃里克说，计算机冒充人会带来网络安全的问题，“理解这类实时在线交流怎样让人们对某些事信以为真并对他们造成影响。是非常重要的事情。”没有人真的提到图灵測试本来的那个意义——推断计算机是否在思考；由于这也的确不是本来的那个图灵測试。

有一些人觉得如今的整个人工智能领域都背离了初衷，比方侯世达。另一些人则觉得图灵測试根本是无聊和过时的，和AI没有关系。

有些人觉得如今的人工智能思路毫无问题，假以时日就能做出好用的AI。另一些人觉得强AI根本就是不可实现的。作为一个旁观者，我肯定无力推断哪几种观点是对的，但从个人来说，我是真的希望能出现一个程序。以原本的意义通过图灵測试的最初版——不光是为了计算机和人工智能的进展，也是为了理解我们自身的大脑。说究竟，要弄懂一台机器的运作方式，还有什么办法比拆开来再装回去更好的呢？

參考文献和扩展阅读

作为丹尼尔·丹内特的粉丝，我针对这个话题推荐《意识的解释》和《达尔文的危急思想》两本书。

前者直接讨论了AI的问题，后者则从演化的角度讨论了我们人脑这个“AI”的诞生为何是能够想象的。但假设仅仅想走马观花看看他的观点，《直觉泵及其它思考工具》非常不错。

来自物理学角度针对AI的讨论则有彭罗斯的《皇帝新脑》。尽管我不太赞同他的观点。但他讲了非常多有趣的东西。

关于程序算法艺术与实践很多其它讨论与交流，敬请关注本博客和新浪微博songzi_tea.