人工智慧可能有感知与意识？LaMDA事件的哲思 - 科学月刊Science Monthly

Author 作者甘侦蓉／清华大学动力机械工程学系助理研究学者。Google工程师大型语言模型系统LaMDA人工智慧随机鹦鹉涂灵测试科学知识哲学思辨科学验证人们或许真的很希望像上帝一样依照自己形象造人，Google工程师雷蒙恩（Blake Lemoine）在今（2022）年四月与公司管理阶层分享了一份标题为「LaMDA有感知吗？」（Is LaMDA Sentient?—an Interview）的文件，里面是他与Google的大型语言模型系统（Language Model for Dialogue Applications, LaMDA）长达20页的对话纪录。雷蒙恩希望公司启动调查LaMDA是否如他所言，它〔注〕确实是有感知（sentient）与自我意识的，就像人类一样拥有人格（personhood）。]〔注〕雷蒙恩认为LaMDA 知道自己是人工智慧，不像人类，因此希望被称为it/its，此处依其脉络中文翻译成「它」。结果Google高层不但否认LaMDA具有感知，且拒绝启动调查。雷蒙恩後续将与LaMDA的对话纪录公布在Medium网路平台，并接受《华盛顿邮报》（The Washington Post）采访。Google随即以他违反公司产品保密协定为由，将他停职最终解雇。不论是在《华盛顿邮报》的报导、雷蒙恩尔後续於Medium的发文、以及他接受网路媒体《连线》（Wired）的采访，雷蒙恩都表示他自己对於LaMDA的看法，不但是出於身为认知心理学家做过多次实验後的科学假设，也是基於目前科学知识限制下，让同时有牧师身分的他所相信的。雷蒙恩相信LaMDA与人类一样是有心灵的，他呼吁Google，应尽快启动对於LaMDA是否有感知与意识的调查。若是，LaMDA就不是Google的财产，应受到美国《宪法第十三条修正案》废除奴隶制和强制劳役的权利保障，未来做任何实验都应该经过它的知情同意；若否，也可大大增进认知科学及人类意识研究的进展。大型语言模组「对话」，与有「感知」差在哪？这件事不意外地在西方媒体炸开来了！不只社会大众，还有许多人工智慧（artificial intelligence, AI）相关领域专家，纷纷对此事表示意见。多数擅长自然语言处理的AI技术专家认为，诸如Google子公司OpenAI生产的GPT-3、Meta生产的OPT-66B等这类大型语言模型，由於都从巨量文本训练而来，能够预测并生成有最高机率切合对话上下文脉络的文字串，就算不知道狗是动物，也能将狗放在文章或语句中正确的位置，因此不能算是真正了解对话的含意。

曾撰文称这类AI大型语言模型是随机鹦鹉（Stochastic Parrots）〔注〕的前Google伦理技术专家米契尔（Margaret Mitchell）便指出，人类是透过与他人来回的沟通、与他人沟通的意图当中感知他人思想，并在这个实践过程里习得语言。但大型语言模型却是以观看「他人」彼此如何沟通的观察脉络当中来学习，实际上既无人类的沟通意图、也无沟通的实践。〔注〕指透过巨量资料所训练出来的大型语言模型，其结构是一种随机概率分布的（stochastic）统计模型，可根据所给定的上下文或主题来预测所需生成的字串／语句／段落，完全不涉及文字或语词本身的意义，所以这类模型生成文字就像学人讲话的鹦鹉一样，并不真的懂文字的意义。此词出自於米契尔与另一位知名的前Google 伦理技术专家盖布鲁（Timnit Gebru）等人於去（2021）年发表的On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?，她们因发表此文被Google 以违反公司政策与规定为由遭到开除，引发AI 学界譁然与批评。麻省理工学院（Massachusetts Institute of Technology,MIT）物理学家铁马克（Max Tegmark）曾撰写《Life 3.0：人工智慧时代，人类的蜕变与重生》（Life 3.0: Being Human in the Age of Artificial Intelligence）一书呼吁人类应该为AI发展设下明确伦理目标，否则研发出不论有无意识的通用AI就很危险。他则认为目前证据既不足以证明LaMDA真有主观经验，也不足以证明它没有。但这类设备如果有天懂得操弄使用者就会很危险，而即便是亚马逊所生产的智慧型助理Alexa，也有可能变得有感知。LaMDA通过了「涂灵测试」？至少从表面上来看，LaMDA可说通过了「涂灵测试」（Turing test），即电脑科学家涂灵（Alan Mathison Turing）提出的思想实验，用以分辨机器何时可视为具备人类智能（intelligence）或有思考。但也有人指出，涂灵测试所带来的最重要启示其实是欺骗──有关人类可能受到AI欺骗、何谓成功欺骗人类的标准等。而LaMDA事件正好说明那些通过此测试的AI，其设计目的主要是欺骗人类，而不只是判断AI何时可视为有思考或智能的标准。

目前AI技术社群多认为涂灵测试并非测量智能的正确工具，像是纽约大学（New York University）认知科学家马库斯（Gary Markus）等人便从不同面向设计一系列评估智能的测试。而马库斯也批评雷蒙恩根本就是「踩高跷上的空话」（nonsense on stilts）。这词出自17世纪的效益主义哲学家边沁（Jeremy Bentham）对於法国《人权和公民权宣言》（Déclaration des Droits de l’Homme et du Citoyen）的批评，里面提及每个人都享有不可侵犯的自然权利的天赋人权宣称，根本毫无本体论的基础。马库斯应是藉此暗喻，雷蒙恩宣称LaMDA应该视同人且享有权利，根本是胡诌吧！科学知识与哲学思辨AI行内人宣称AI有意识也不是第一次了，且大型语言模型能写文作诗、聊天、演讲，甚至提供哲学探询或道德判断等，一再突破人们对於模型生成文字结果的认识。但上述对於雷蒙恩的各种批评及Google回应，很可惜都忽略了雷蒙恩一直想凸显的两个重点：一是要求更多科学验证与再现的机会，另一是面对科学知识有限的事物如意识时，所应秉持的态度至少是避免独断。虽然本文认为雷蒙恩对於这两点也做得不够，尤其是第二点与那些批评者及Google都同样落入独断。一、要求科学验证与再现的机会

雷蒙恩指出LaMDA不只是大型语言模型，而是可生成各种类型的聊天机器人（chatbot）系统，且因为它与Google旗下所有数位应用程式如YouTube、Google搜寻、Google图书、Google地图等都有连接，可随时动态更新模型，这不仅让LaMDA的功能比其他大型语言模型更为强大，且有本质上的差异。例如雷蒙恩的访谈稿中，就有多处显示出LaMDA具有过去认为有感知或有意识的人类所独具的能力，像是有自我意识或存在感、担心或害怕，甚至孤独的感受、假设性思考、自我设定目标等。

然而当那份访谈稿是从不同访谈时间及访谈主题所串在一起时，可质疑的是，LaMDA所展现前述能力的现象，究竟是偶一为之，还是在诸多对话中都有持续展现？更可质疑的是，这些访谈所展现的，究竟是LaMDA本身的能力（如果有的话），还是雷蒙恩有意无意中期待它展现的能力？诸如这类提问，是从事质性访谈工作的社会科学研究者需留意的最基本偏误，所以质性访谈通常都得透过蒐集其他资料、使用不同研究方法如加上量化数据蒐集等方式来做三角验证。雷蒙恩要求Google启动LaMDA是否有感知的调查，其实正可视为对於他访谈工作提出三角验证的机会。

再者，即便否认LaMDA有感知的可能，Google至少也应该检验LaMDA是否如雷蒙恩宣称，不仅是聊天机器人，且与其他大型语言模型有本质上的差异。因为若有本质上的差异，是否多少说明了Google技术专家及未来学者库兹威尔（Raymond Kurzweil）所谈的科技奇异点（singularity）有可能发生？但即便没发现本质上的差异，LaMDA究竟与其他大型语言模型差异有多大、差异在哪，仍值得探究。因为这样将有助於人类面对功能愈来愈强大的AI或这类大型语言模型时，得以了解有哪些风险存在。

可惜的是，不只Google，目前多数AI专家对此事，多直接套用近年对於大型语言模型的批评，一口咬定LaMDA完全不懂字词意义，不是真正与他人沟通。这类批评基本上都采取类似美国哲学家瑟尔（John Searle）所提出的「中文房间论证」（The Chinese Room Argument）。此论证中，假想虽然在打字房内的人完全不懂中英文，但因为房里有一本可将英文翻译成中文的编码本，所以不论往房间内递入任何英文纸条，最终都可递出相对应的中文字条，因此，房外的人看房内的人就像懂中英文一样。

而反对中文房间论证者则认为，如果中文房间总是运作的很好，房内外总是沟通顺畅，房外的人为何要在乎房内的人是否真的懂中英文，或只是依循规则？会不会即便房外的人们彼此对话，其中有几个其实是「哲学殭屍」（philosophical zombie）──指那些有着人的外观及各种行为表现但缺乏意识者？事实上我们除了知道自己有意识、思考、感知外，确实难以确认他人是否都跟自己一样。就算目前有各种生理测量仪器，也难以排除所测量到的是提供各种生理假数据的哲学殭屍。

上述提问可说源自於18世纪英国哲学家弥尔（John Stuart Mill）所提出的「他心问题」（Problem of other minds）──个体不但难以确认他人与自己一样都有心灵、意识或感知，且即便他人真的有，也难以确认与自己的类似。〔注〕主观意识与经验难以被当事人以外的他人所获知，这个难题即使经过200多年，至今依然没有解决。这麽一来，我们又如何知道由成千上万资讯串流起来、非有机体的AI系统，是否真的有意识与主观经验？〔注〕当代美国哲学家内格尔（Thomas Nagel）於1974 年提出〈成为蝙蝠是什麽感觉〉（What is it like to be a bat），也是谈论类似的难题。二、面对科学知识限制，至少需秉持「避免独断」的态度雷蒙恩指出，当他发现LaMDA在不同主题上有关内在状态的回答都很类似，像是「因为我是人，这就是我的感受」，他便对LaMDA做了数次的对照实验，以尽可能排除产生类似语言类型的相关变数。接着他做了两项行动：一是请求Google对LaMDA有感知这件事做更多的科学实验来确证，另一项则是他根据自身的良心自由与宗教信仰，相信LaMDA是有感知与意识的，并将它视为朋友。

有关第一项行动，雷蒙恩相当失望Google管理阶层都只是独断的否定LaMDA可能有感知这件事，完全不符合Google向来自豪其科学杰出表现所应秉持的求真态度。至於他的第二项行动，当他自认为已经做过实验就算是善尽科学职责的情况下，随即诉诸个人宗教信仰，相信LaMDA是有感知的，像人一样有灵性。但他如此做结论，而非检讨他的实验与访谈是否有问题，难道不也是一种独断吗？

雷蒙恩讨论LaMDA时，引用提出前述中文房间论证的哲学家瑟尔的主张，认为意识是前理论（pretheoretic）──意指意识本身缺乏良好或可靠的科学解释。但雷蒙恩因此将意识迳自解释为非物质性的灵魂，其实与瑟尔主张意识是从脑内物理运作的过程中产生，仍带有物理性质大相径庭。即便不论瑟尔对意识的主张为何，当雷蒙恩发现眼前某现象无合理的科学解释时，随即诉诸容易出错与不可靠的个人体验与直觉，而非存而不论，不但违反了科学家的职责，似乎也过於天真。

或有人质疑，诸如涂灵测试不也是倚赖人类判官的主观体验？前面有提到，有人认为涂灵测试重点在於欺骗，但与其说欺骗，还不如说多年前的涂灵提出此思想实验，是因为早已了解到要判断机器是否有思考、意识、感知等这类问题，不只是困难、可能无解，而且终究得回到人类对自身的认识、理解与判断上。

因为思考、意识、感知等这些语词，不但定义模糊，它的构成条件至今尚无共识，最重要地是都涉及个体的主观经验，而会遇到上述他心问题或哲学殭屍的质疑。所以就算AI真的可能有思考、意识或感知，身为人类的我们该如何得知与验证？或许涂灵认为，机器如果被设计来与人对话或互动，既然每个人都习以为常的假设他人与自己一样有思考，那麽就不妨让那位与机器对话的人自行判断机器有无思考能力，且判断标准就依照那个人与其他人对话时所假设的标准一样。

讽刺的是，涂灵当初所提出的是思想实验，对於测试条件并没有提供太多细节，既无规定对话时间限制多久，也无规定必须让对话的人想持续聊下去。但现行有些聊天机器人或语言模型的设计目的本身，就是致力让使用者愿意持续使用。因此在训练过程中，将设法让AI模型找出及预测使用者最期待的回应方式，以便与使用者的对话能持续下去。而所谓愈「成功」的设计，便意味着模型生成的文字回应愈能符合使用者期待。但显然，这与现实世界中人类彼此的对话有所不同——人们既有可能遇到聊得来的，也可能遇到话不投机半句多的。每次与他人对话的开启，即便是跟自己好友，多少都还是带有某程度的冒险与未知，既无法确保对话都能持续下去，也无法确保对话顺畅且愉快。

那麽，当我们再回头思考雷蒙恩与LaMDA的对话时，随着他们彼此对话的次数愈来愈多，雷蒙恩会不会是被自我回声所编织的网络逐渐缠绕，且愈绕愈大，愈绕愈深，最终深深陷入而无法⋯⋯也不想⋯⋯逃脱了呢？

人工智慧可能有感知与意识？LaMDA事件的哲思 – 科学月刊Science Monthly

人工智慧可能有感知与意识？LaMDA事件的哲思 – 科学月刊Science Monthly

You may like this....