菲尔茨奖得主：顶级 AI 缺少了什么？-AET-电子技术应用

菲尔茨奖得主：顶级 AI 缺少了什么？

日期： 2019-04-23

关键词： 计算机机器人人工智能

　　人工智能的列车高速向前，模拟一个人脑、让计算机产生“意识”的可能性似乎比以前大了一点点。意识是什么、机器是否可能拥有意识，也就成了计算机科学家、神经科学家、数学家、哲学家越来越多探讨的课题，其中就包括1974年菲尔茨奖得主大卫·芒福德（David Mumford）教授。

　　芒福德教授是早年哈佛的数学系担当，学术生涯起步于纯数学（代数曲线），随后将主要精力转向与计算机科学密切相关的应用数学。此外，他还熟悉物理、神经科学等领域，这篇文章就是他在综合学科背景下对于机器意识问题的思考。欢迎来稿讨论、交流与商榷。

　　人工智能的机器可能有意识吗？

　　撰文 | 大卫·芒福德（David Mumford）

　　人工智能理论在我的人生里已经经历了六七个繁荣和萧条的轮回，有些时期人们信心满满地说计算机的智能很快就会达到人类水平，有些时期只有幻灭，似乎这是永远做不到的。在今天，我们正在最新的一轮繁荣之中，一些有远见的计算机科学家甚至更进一步，探问AI（这个缩写听起来就像新的生物形态）除了能达到人类的智能水平以外，是否还能拥有像我们这样的意识。还有些未来学家考虑的是一场更奇异疯狂、能改变生活的繁荣：我能不能将大脑和意识下载到硅片上，就此获得永生，也就是说人能不能变形为AI？

　　在上一次轮回的繁荣时期中，当时的疯狂预言是我们正在走向“奇点”，就是超级AI会创造一个全新世界的时间点，这会导致人类种族被取代而灭绝（预计会发生在2050年前后）。我承认在上半生曾经希望见证计算机第一次获得意识的那一刻，但现在我对此越发怀疑。也许这就是老人的消极看法，但可能也是因为我并不认为这个问题只跟计算机科学有关，而是同样关乎生物学、物理学、哲学，对了还有宗教。谁又有这样的专业知识来推算所有这些东西如何影响我们对意识的理解？

　　即使是谈论宗教对科学进步的任何影响，对于今天的知识分子来说都是要被逐出圈子的。但考虑一下这个问题：是否存在这样的信仰体系，其中人类很快就能永生的硅谷之梦与“灵魂不灭”的基督信条同时成立？对我来说，这两种信念似乎处于不同的宇宙，并不冲突。

　　顶级 AI 缺少了什么？

　　我先评述一下当前的AI热潮，还有为什么它即使目前大获成功，仍然终将走向破灭。在支撑新AI的代码中，最关键的角色是被称为“神经网络”的算法。然而，每个网络都有海量的被称为“权重”的参数需要先设定好，神经网络才能工作。要进行设定，我们就得用现实生活的数据集来“训练”这个网络，用的是另一个叫做“反向传播”的算法。由此得到的神经网络在得到一系列代表某种观察结果的数值作为输入之后，会输出给这串数据打上的一个标签。比如说，它可以将某个人面部图像的像素值表达作为输入，然后输出它对这个人性别的猜测。要训练这样的一个网络，需要向它灌输成千上万正确标注性别的人脸，然后逐步调整权重，使它作出的预测越来越准确。

　　神经网络是受大脑皮层真实回路的简化版启发而来的一种简单设计，它可以追溯到1934年麦卡洛克（McCulloch）和皮茨（Pitts）的一篇经典论文。而更重要的是在1974年，保罗·维博斯（Paul Werbos）在撰写博士论文时引入了反向传播，用以优化不计其数的权重，令它们能更好地处理一系列的输入，比如说人工标注过的数据集。

　　人们玩这个已经玩了40年，由杨立昆（Yan LeCun）等人推广，也取得了一些成效。但统计学家很怀疑它能否解决那些困难的问题，原因是所谓的偏差-方差权衡（bias-variance trade-off）。他们说，必须将算法训练用到的数据集大小与待学习的权重数量进行比较：如果权重数量不够，那么不可能对复杂的数据集进行精确建模；如果权重数量足够，那么就会对数据集独有的性质建模，而这些性质不会在新的数据上体现。那么现实中发生了什么？计算机速度极大提高，能训练拥有海量权重的神经网络，而数据集因为互联网的出现而变得越发庞大。

　　可谓天机玄妙，与统计学家的预测背道而驰的是，神经网络算法效果非常好，以某种方式神奇地回避了偏差-方差问题。我认为可以说没有人知道神经网络避免这个问题的方式或者原因。这是对理论统计学家的挑战。但人们用神经网络构建了各种具有实际意义的应用，比如说视觉、语音、语言的处理，医学诊断，还有游戏博弈，这些应用此前都被认为非常难以建模。最后是公关上的画龙点睛：神经网络的训练现在改称为“深度学习”。这样一来，谁又会怀疑AI的美丽新世界已经到来呢？

　　但是还有一座高峰需要攀登。在此前题为《语法并不只是语言的一部分》（Grammar isn‘t merely part of language）的文章中，我讨论了一种信念：所有形式的思考都需要语法。这意味着你的心灵会在世界中发现一些重复出现但不一定完全相同的模式。这些模式可以是物体外观的视觉排列，比如说处于同一直线上的点，或者人脸上眼睛的位置；也可以是言谈中的词语或者是简单的动作，比如说开车踩油门；甚至可以是抽象概念，比如说“忠诚”。不管带有模式的是哪一种观察结果或者思想，你会预计它重复出现，可以用来理解新的情景。作为成年人，我们思想中所有事物的构建都来自学到的可重复利用的模式，它们组成了一个层级结构，而情景、时间、计划或者思想，都可以用一棵由这些模式组成的“语法分析树”来表示。

　　但问题在于，最基本形式的神经网络并不能找到新的模式。它的运作就像黑箱，除了给输入贴标签以外什么都做不到，比如说不能告诉你“这个图像看上去有一张人脸”。在发现人脸的过程中，它也不会说：“我首先找到了眼睛，这样我就知道这张脸的其他部分应该在什么地方了。”它只会告诉你它得出的结论。我们需要能输出如下结果的算法：“我在绝大部分数据中找到了这样的模式，来给它起个名字吧。”这样它能输出的就不止是一个标签，还有对输入数据组成部分的分析。

　　跟这个愿景相关的是，我们可以闭上眼睛，想象一辆汽车的样子，上面有轮子、车门、引擎盖等等，利用这个我们就能将新数据组合起来。这就像是逆向运行一个神经网络，对每个输出标签都能产生对应的新输入数据。人们正在尝试改进神经网络来做到这一点，但现在效果仍未尽如人意。我们仍不知道这座高峰有多难攀登，但我觉得这个问题不解决，人工智能就无法靠近人类智能。

　　如果人工智能的目的是展示人类水平的智能，那么我们最好先定义人类智能到底是什么。心理学家当然在定义人类智能上花了大功夫。长久以来有个很流行的想法，也就是人类智能可以用一个度量——也就是智商——来完全确定。但是，智能的意思是不是说能解开电视节目《危险边缘》（Jeopardy！）中的谜题？还是能记住人生中更多事件的更多细节？或者是以高超技巧谱曲或者绘画？这些当然都是，但细想一下：什么是我们人类擅长并占据了我们大部分日常思考的事？应该是猜测另一位人类同胞有什么感受、目标和感情。更进一步的，什么才能影响这个人的感情和目标，使得我们可以与之协作、达成我们的目标？许多时候，这就是决定你人生是否成功的技能。

　　计算机科学家的确考虑过为其他客体的知识和计划建模的这项需要。一个有名的例子就是，想象有两位将军A和B，他们在两座面对面的山顶上，需要同时攻击山谷处的敌人，但他们之间的通讯只能穿过敌方阵线进行。A给B发了个信息：“明天出击？” B回答：“可以。”但B不知道自己的回复有没有到达，而A必须给B发送另外一道信息来确认已经收到了B之前的信息，为的是确保B会行动。为此需要发送更多的信息（实际上，要达到完全的共识，他们需要发送无穷无尽的信息）。

　　计算机科学家很清楚我们需要向AI赋予新的能力，使它能维护并构建各种模型，描述周遭其他客体的知识、目标与计划。这种能力必须包括知道自身知道什么不知道什么。但某种程度上来说，以目前的编程水平还是做得到这些的。

　　我们需要情绪#$@*&！

　　然而这个博弈论的世界缺少了人类思考的关键要素之一：情绪。没有情绪，就永远不可能和人类搞好关系。我觉得奇怪的是，就我所知，只有一位计算机科学家为情绪建模做过努力，那就是麻省理工学院媒体实验室的罗莎琳德·皮卡德（Rosalind Picard）。即使是对人类情绪总体的科学研究，似乎也陷于停滞，大体上被许多学科所忽视。比如弗兰斯·德瓦尔（Frans de Waal）在讨论动物情绪的新书《Mama的最后一次拥抱》（Mama‘s Last Hug）中对人类和动物的情绪就有这样的说法：

　　我们给不少情绪命了名，描述了它们的表达方式，记录了它们会出现的各种情况，但还缺少一个框架，用来定义这些情绪并探索它们带来的好处。

　　（这是不是因为有很多从事科学和数学工作的人都有自闭症谱系障碍？）有一位心理学家明确指出了情绪在人类智能中扮演的角色。霍华德·加德纳（Howard Gardner）的经典著作《智能的结构》（Frames of Mind： The Theory of Multiple Intelligences）中就引入了“人际智能”（主要是理解他人的情绪）和“自我认知智能”（理解自身）的概念，与其他能力并列。这些能力现在被心理学家称为“情绪智能”，但正如德瓦尔所言，精确定义的缺失给它的研究蒙上了一层阴影。最近维基百科的“情绪智能”页面上的“定义”如下：

　　情绪智能可以被定义为监测自身以及他人情绪、区分不同情绪并正确分类、利用有关情绪的信息……来加强对人际互动的思考与理解的能力。

　　区分情绪状态最古老的尝试可以追溯到希波克拉底（Hippocrates）的四体液说（the Four Humors）：四种体液关联着四种不同的人格特征和对应的特有情绪。它们是多血质（主动、善于社交、随和）、胆汁质（意志坚定、支配他人、易怒）、黏液质（被动、避免冲突、平静）和抑郁质（忧郁、深思、可能焦虑）。它们被两根轴线分隔。第一根轴是外向与内向的对立，在经典著作中也叫热与寒的对立，其中多血质和胆汁质属于外向，而黏液质和抑郁质属于内向。第二根轴是放松与拼搏的对立，在经典著作中也叫湿与干的对立，多血质和黏液质属于放松，而胆汁质和抑郁质属于拼搏。

　　在近代，汉斯·艾森克（Hans Eysenck）发展了这套分类方法，他的版本（画得五彩斑斓）在这里：

　　现代对情绪的研究可以追溯到达尔文（Darwin）的著作《人和动物的感情表达》（The Expression of the Emotions in Man and Animals），其中他利用伴随情绪的表情来进行情绪分类。保罗·埃克曼（Paul Ekman）延伸并严谨化了达尔文的理论，导出的理论有六种基本情绪，每种都有独特的面部表情：愤怒、恐惧、高兴、悲伤、惊讶和厌恶。还有许多次级情绪，由强度不同的基本情绪组合而来。

　　罗伯特·普拉奇克（Robert Plutchik）将基本情绪扩充为八种，为各种情绪较弱和较强的变种命名，得到了这个惊人而多彩的图表。实际上，有无穷无尽的次级情绪，比如羞耻、愧疚、感恩、宽恕、报复心、自傲、羡慕、信任、希望、后悔、孤独、挫败感、激动、尴尬、失望等等，它们并非基本情绪的简单混合，而是挂接到多个客体与因素混杂的社交情景上的情绪。

　　弗兰斯·德瓦尔在他的书（第85页）中参照上面这个列表作出了情绪的如下定义：

　　情绪是外部刺激给机体带来的一种临时状态，标志是躯体和心智中特定的转变——大脑、激素、肌肉、器官、心脏、警觉水平等。通过机体自身所在的情景及它在行为上的变化和表现，可以推知被触发的情绪。

　　雅克·潘克塞普（Jaak Panksepp）开拓了另一条相当不同的探索途径，参看他与露西·比文（Lucy Biven）的著作《心灵考古学：人类情绪的神经进化论起源》（The Archeology of Mind： Neuroevolutionary Origins of Human Emotions）。他的研究方向并不是以面部表情为出发点，而更靠近希腊的体液学说。潘克塞普长期以来都在寻找大脑活动中的模式，特别关注皮质下结构的活动及其向更高级脑区传递的神经递质，这些都会导致不同的当下情感状态以及对应的行为模式。他们的情绪列表跟达尔文的相当不同，尽管也有重叠。他们辨认出了七种主要情感状态：（一）寻求/探索；（二）愤怒；（三）恐惧/焦虑；（四）关怀/爱；（五）悲伤/苦恼；（六）玩乐/高兴；（七）色欲。

　　顺便说一句：我不清楚为什么他没有加上第八种情感状态：痛苦。即使我们通常不说痛苦是情绪，但它的确是心智中源于皮层下结构的一种情感状态，一种引起厌恶的独特感受，会触发特定的行为，也会导致特定的面部表情和躯体反应。在书中第十一章，两位作者走得更远，提出中脑的一个特定脑区，也就是导水管周围灰质（也许还有它旁边的腹侧被盖区和中脑自主活动区），它协调了上述所有情感状态，产生了他们所谓的核心自我（core self），或者说意识。难怪德瓦尔会说目前还没有关于情绪状态的明确框架。

　　建立一个能用于人工智能代码的合适理论，需要的可能就是从海量数据出发，这也是神经网络解开语音和视觉领域众多结构的关键。我们的目标是定义这样的三向关连：（一）大脑活动（特别是杏仁核及其他皮层下脑区，但也包括大脑皮层中的岛叶和扣带回）；（二）躯体反应，其中包括激素、心跳（威廉·詹姆斯（William James）强调它是情绪的核心标志）以及面部表情；（三）社交情景，包括此前和将来的活动。情绪状态应该由这样的一堆三元组所定义——在某种类型的社交情景中产生的某种类型的神经与躯体反应。

　　我们一开始可以先从志愿者那里收集大量数据，方法是给他们插上静脉导管，让他们一边通过耳机听小说，一边进行核磁共振成像。一位心理学的同事提醒我，他的博士生要在凌晨核磁共振仪空闲时在机器圆筒里度过许许多多个小时。跟所有聚类算法一样，这种努力的结果不一定是一组明确区分的情绪，而更可能是一种稍显模糊的分类，分类中还有许多变体。

　　所有人类似乎都能在同一位朋友身上认出几乎相同的基本和次级情绪，而人工智能也需要能够做到这一点。没有情绪分析的话，计算机科学家在给机器人编程就会出错，无法使之能在与人类互动时正确模仿并回应情绪，我们把这种至关重要的能力叫做人工共情（artificial empathy）。我甚至承认，如果我们希望AI真正拥有意识，我相信它必须在某种意义上拥有自己的情绪。探索意识与情绪之间联系的一个好办法，就是看看对于非人类的动物我们知道些什么。

　　动物中的意识

　　我想指出的是，如果想探索AI能不能获得意识，我们应该先回答动物有没有意识。先让我给所有正在读这篇文章的人说一句开场白：这位朋友，我相信你是有意识的。除了那些别扭的唯我论者，我们都承认，在每位人类同胞的脑袋里都有意识栖居，而且跟我们自己的意识没什么区别。但现实是，除了我们的共情以外，并没有证据支持这一点。所以我们是否应该利用共情，将意识的信念延伸到动物上？

　　可以说，有猫狗之类宠物的人绝对会认定宠物有意识。为什么？因为他们在宠物身上看到了某些行为，可以直接被理解为某种类似于他们也拥有的情绪导致的结果。他们觉得动物行为学的研究者将动物“感到恐惧”说成“展示了对捕食者的回避行为”荒谬绝伦。他们不觉得说宠物“感到恐惧”是一种拟人化，反而觉得是常识，并且相信他们的宠物除了感受以外还拥有意识。

　　我们谈论这些问题时用到的语言没多大用处。考虑下面一系列词语：情绪、感受、觉知、意识；还有这些短语：我们“感受到情绪”“觉知到自己的感受”“拥有意识觉知”，这些短语连接了之前那一串中前后相继的词语。换句话说，语言将所有这些概念连接在了一起，让人思考的时候容易不够清晰。同样需要注意的是，在这个信息时代，许多老年病人的陪伴者是相当原始的机器人，或者是屏幕上的头像，但这些病人很容易误认这些信息造物有真正的感情。

　　所以我们倾向于说，我们单纯就是不清楚非人类的动物有没有感受或者意识。或者我们也可以两头下注，承认它们拥有感受，但将界线划在意识上。无论如何，至少一位神经科学家，也就是雅克·潘克塞普，嘲讽这种立场是不可知论症末期。这个问题本该有个答案，但这种立场终结了讨论。

　　直到最近，情绪和意识才获得了作为科学研究合理课题的地位。最近几十年，通过坚持不懈的观察和测试，人们对动物情绪的研究达到了惊人的细致。此前提到的弗兰斯·德瓦尔和雅克·潘克塞普各自的书中，都细致描述了种类繁多的情绪行为，横跨从黑猩猩到大鼠的诸多物种，其中不仅有基本情绪，还有之前谈到的某些次级情绪（比如说黑猩猩和狗的羞愧和骄傲情绪）。潘克塞普指出，大鼠幼崽也怕痒，在挠它们的腹部时，也会做出类似人类婴儿的反应（见前述书籍第367页）。

　　对我来说，这些著作以及其他文献，当然还有我自己养狗养猪养马的粗浅经历，再加上在动物园看的动物，这些都是动物情绪令人信服的佐证。因为所有哺乳动物大脑内结构之间都有详实的同源证据，我看不到有什么理由去怀疑所有哺乳动物都能体验跟我们一样的那些基本情绪，即使它们的次级情绪远没有我们丰富。而且，如果我们和动物都有情绪，正如我们会认为人类同胞有意识，出于同样的理由我们也可以认为动物有意识。这就是“奥卡姆剃刀”（Occam’s Razor）的完美实例：这是目前为止解释观察数据最简单的办法。

　　除了哺乳动物，审视生命之树其他部分是否有可能有意识也对我们很有帮助，无论那些物种是今日尚存还是从化石构建而来。启发我这一点的，是哲学家与潜水员彼得·戈弗雷-史密斯（Peter Godfrey-Smith）的著作《章鱼、心智、演化：探寻大海及意识的起源》（Other Minds： the Octopus， the Sea and the Deep Origins of Consciousness）。

　　在生命之树的基干上有两个表面上相似的界：细菌界与古菌界。它们都是原核生物，由简单的细胞组成，没有细胞核、线粒体、核糖体和其他细胞器。另一方面，两者都拥有来自主要蛋白质家族的蛋白质，使用了通用遗传密码（由同一组转运RNA分子实现），还有令人瞩目的一点是，它们用于合成作为能量之源的三磷酸腺苷（ATP）的复杂电化学机制与所有高等生命一致。这个机制利用了离子泵将细胞内膜转化为电容，这也是高等动物神经系统中信息传递的关键机制（在尼克·莱恩（Nick Lane）的著作《生命之源》（The Vital Question）中有生动的描述）。这些形式最简单的生命也能通过细胞膜上的通道来感知周遭的化学环境，而绝大部分也能利用鞭毛四处移动，就此作出反应，寻求更好的环境。

　　这就是开端，一种原始形式的知觉，在35亿年前出现。尽管我个人在此更倾向于不可知论立场，但在这些细胞中完全有可能存在意识的毫末。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

菲尔茨奖得主：顶级 AI 缺少了什么？

日期： 2019-04-23

相关内容