当AI产生幻觉,会捅多大的娄子?
1 天前 / 阅读约13分钟
来源:36kr
当AI开始一本正经说瞎话。

2022 年 11 月,当人们还沉浸在 ChatGPT 带来的惊艳之时,有小部分的用户很快发现了这个聊天机器人的问题:它解决了此前所有 AI 机器人都有的问题——“不像真的”,却带来了全新的问题——“它说假话也像真的”

现在我们知道了,在人工智能领域有一个专门的术语来形容这种“一本正经的编造假话”,它被称之为“幻觉”。

早在 1995 年,计算机科学家 斯蒂芬·塞勒(Stephen Thaler)在当时的人工智能背景下引入了幻觉的概念,这一概念最初被用于指代神经网络中自发产生的新想法或概念,因为这与人类的幻觉类似,没有明确的外部信息输入。因此,在很长一段时间里,在 AI 领域“幻觉”是一个带有一定褒义色彩的术语,“有幻觉”意味着你的 AI 具备一定创造性能力。

在 2017 年左右,这个术语发生了色彩上的变化,因为在这个时间点,世界上已经存在一些可以稳定凭空生成图像或文字的 AI 了,因此创造性不再是一个远在天边不可实现的目标。在当年 Google 的一篇论文中,研究人员开始用幻觉描述那些在使用神经机器翻译模型时,生成与原文不相符的译文的现象。

到 2022 年 8 月,也就是 ChatGPT 震惊世人 3 个月前,Facebook 母公司 Meta 在它们的一篇论文中用这个术语来形容“自信的说假话”,这也就是我们现如今所熟悉的,最新版本的关于“AI幻觉”的定义。

2024 年,哈工大与华为发布了一篇 长达49 页的关于 AI 幻觉的论文,其中提到,按照生成内容与真实世界的偏离程度,幻觉可以被分为事实性幻觉 (Factuality Hallucination) 和忠实性幻觉 (Faithfulness Hallucination) 。

事实性幻觉指的是模型生成的内容与可证实的现实世界事实不一致:

  • 如果生成的事实性内容可以在可靠来源中找到,但存在矛盾,则称为事实不一致。例如,当被问及“第一个登上月球的人”时,模型可能会错误地回答“尤里·加加林”,而正确答案是尼尔·阿姆斯特朗。
  • 如果生成的事实性内容无法根据已有的现实世界知识进行验证,则称为事实捏造。例如,当被问及“独角兽的历史起源”时,模型可能会编造出一个看似合理但实际上毫无根据的答案,比如,“独角兽在公元前 10000 年左右的亚特兰蒂斯平原上漫游,它们被视为神圣的生物,经常与皇室联系在一起”。

忠实性幻觉指的是生成的内容与用户指令或输入提供的上下文不一致,以及生成内容本身不自洽:

  • 如果模型的输出偏离了用户的指令,则称为指令不一致。例如,用户明确指示将英语问题翻译成西班牙语,但模型却直接回答了这个问题。
  • 如果模型的输出与用户提供的上下文信息不符,则称为上下文不一致。例如,用户提到尼罗河起源于非洲中部的大湖地区,但模型却回答尼罗河起源于非洲中部的山脉。
  • 如果模型的输出在逻辑上自相矛盾,则称为逻辑不一致。例如,在解决数学方程式时,模型的推理步骤正确,但最终答案与推理链不一致。

经常使用 AI 产品的读者应该对此并不陌生,可以说幻觉是这一轮大语言模型的通病。

那么,是什么导致了幻觉呢?目前来看,它与大语言模型的训练方式和 AI 感知世界的方法有关。

数据是幻觉的根源。有缺陷的数据源可能包含错误信息和偏见,导致模型模仿性错误。比如,训练数据中包含大量的科幻小说,而在数据集中并未给这些语料标注虚构,那么 AI 就有可能对那些科幻小说中的设定“信以为真”。此外,数据源还可能存在知识边界,即缺乏特定领域知识或过时的信息,使得模型在面对特定问题时“无中生有”。即使数据本身没有问题,模型也可能因为对数据利用不当而产生幻觉。模型可能过度依赖数据中的虚假关联,或者在面对长尾知识或复杂推理场景时出现知识回忆失败,从而生成不准确的内容。

训练过程中的缺陷也会导致幻觉。在预训练阶段,模型架构的缺陷,如单向表征的不足和注意力机制的缺陷,可能导致模型无法捕捉复杂的上下文依赖关系,从而产生幻觉。此外,不理想的训练目标和曝光偏差也会导致模型过度自信,生成不符合事实的内容。在对齐阶段,模型可能面临能力错位,即被训练生成超出自身知识范围的内容,或者信念错位,即生成与自身内部信念相悖的内容。

最后,在推理阶段,解码策略的随机性和解码表征的不完美也可能导致幻觉。随机采样策略在增加生成多样性的同时,也增加了模型采样到低频词的可能性,从而导致幻觉。此外,模型在解码时可能缺乏对上下文的充分关注,或者受到softmax瓶颈的限制,无法准确表达多样化的输出概率,从而导致不准确的预测。

可以用最通俗的话打个不恰当的比方,如果一个人从出生就被关在伸手不见五指的黑房子里,他对世界一切的了解,来自一个不断用语言描述世界的喇叭,那么当这个人描述“云彩”的时候,就不会按照现实世界的真实逻辑,而是会按照过往喇叭讲过的内容去描述——这个世界上怎么会没有绿色的云呢?《大话西游》里明明说了,会有一只猴子驾着七彩祥云飞来。

大语言模型就是那个从小被关在黑屋子里,只接受了文字培训并且只能用文字与我们沟通的人,也就是“纸上得来终觉浅”的进阶版本。

那么,当一个这样只会“纸上谈兵”的“人”进入到我们的工作生活中时,它会引发什么问题呢?

我们先从一个最简单的例子说起:

2024 年 2 月,一名乘客起诉了加拿大航空,原因是该航空公司的智能聊天机器人客服提供了“虚假的折扣”。

起因是该乘客于 2023 年 11 月需要乘坐飞机往返多伦多参加他祖母的葬礼。部分的海外航司针对类似的情况,会提供丧亲折扣,以帮助消费者更容易地度过艰难时期。因此,该名乘客在购买机票之前,询问了加拿大航空的智能机器人相关折扣问题。

机器人对他失去至亲的遭遇表示惋惜,并慷慨地承诺该乘客可以购买原价机票,然后凭借相关手续在 90 天内申请丧亲折扣退款。

显然,加航根本没有这种折扣,其只是这个聊天机器人在训练过程中,从别的航司过往折扣那里学来的。

在后续的诉讼中,加航辩称他们不能为一个不知道会说出什么话的机器人付法律责任。但法庭显然并不认可这一点,法官认为加航没有采取必要的措施保证机器人的准确性,这就像是一家公司没有给客服人员培训合格就让他们上岗一样。

最终,该乘客不仅获得了机器人在“幻觉”中给出的承诺折扣,还额外获得了一笔赔偿金。

如果所有的幻觉,只停留在经济层面,那可能还是一个小问题。接下来的这个案例,则展现了 AI 幻觉捅出更大篓子的“潜力”:

2023 年 5 月,美国一家律所 Levidow, Levidow & Oberman 代理了一起针对哥伦比亚航空公司的诉讼。该诉讼的原告是一名受工伤的前哥航员工,员工希望能够从哥航得到更合理的赔偿。

为了更好地支持员工的诉求,原告的代理律师搜集了许多个同类型的案例作为案情摘要,顺便为哥航塑造成一个一向不太在意员工福利的公司形象。

这在美国的诉讼实操领域是非常常见的,唯一的问题是,以往的案例搜集律师们会依赖 Google,而这次的律师用了 ChatGPT——案情摘要里至少有 6 个相关案件是完全不存在的,由 ChatGPT 的幻觉编造。

原因其实也比较简单,ChatGPT 直到 2023 年 5 月才开始逐渐向它的付费用户推送联网搜索功能。而在此之前,ChatGPT 只能依据自己训练时的数据库内容进行生成和推理。

这意味着,当律师让其“寻找”类似案例时,ChatGPT 是不可能完成这个任务的。而系统指令又要求 AI 在这种情况下应该“说点什么”,于是 ChatGPT 编造了完整的相关案例,包括虚假的姓名、案卷号、案情,等等。

当法院发现这一点时,律师表示非常后悔,这是他第一次使用 ChatGPT 来作为法律研究工具,并且他主观上不知道“AI 可能会编造内容”,也没有去一一验证那些由 AI 提供的案件是否真实存在,并承诺在未来如果使用 AI 进行法律研究,他一定会验证真实性。

法庭接受了律师的忏悔,但驳回了诉讼请求,并对律师事务所罚款 5000 美元。

然而,幻觉可能带来的损失,还不止于此,在接下来这个案例中,它甚至可能直接威胁生命:

2023 年 9 月 1 日,英国卫报的一名记者发现,在亚马逊电子书的旅游类排行榜上,充斥着由 AI 制作的书籍。这些书籍的作者从未到访过他们所介绍的地方,他们只是简单地给 AI 下了几条提示词,AI 便根据自身的知识库和互联网上可能搜集到的信息生成了完整的电子书。

与其他幻觉造成的损失一样,这些书籍的作者当然没有去验证这些 AI 生成书籍的真伪——毕竟如果他们真去了这些地方实地探访,又何必需要由 AI 来撰写呢?

然而问题是,其中的部分书籍不仅涉及“旅游”,还涉及旅游过程中的“饮食”,比如挖蘑菇。

记者发现了至少四本完全由 AI 撰写的关于挖蘑菇的电子书,其中包括Wild Mushroom Cookbook: form sic forest to gourmet plate, a complete guide to wild mushroom cookery (《野生蘑菇食谱:从森林到美食盘子,野生蘑菇烹饪的完整指南》) 和The Supreme Mushrooms Books Field Guide of the South-West (《西南部最高蘑菇书籍野外指南》) 。

这就非常可怕了。

记者随后联系了一位专门从事野外菌菇探索的专家来审查这些由 AI 生成的“蘑菇路书”,结果是非常危险。因为部分电子书描述了如何依靠嗅觉和味觉来判别蘑菇是否可以食用。

对于许多有剧毒的蘑菇来说,当你把它放进嘴里或大力嗅闻的时候,你就已经离出现“幻觉”不远了。

幻觉的出现,很大程度上颠覆了我们此前对计算机程序和系统的认知与想象。在许多人的认知中,计算机/自动化是“不会出错”的。

就像人用笔做计算可能会出错,但计算器计算数字时却从不会出错。在前 AI 时代,大部分程序的 bug,要么是人为导致的,要么是某段程序之外的部分发生了变化,偏离了原本的运行逻辑导致。

这对于程序员来说其实十分省心——只要我提前预想好了所有的可能性,并编写了正确的代码,我就可以预期程序一定会正常运行。

但大语言模型带来的幻觉,让计算机程序首次可以大量自行生成错误。尤其是对于那些将 AI 直接引入可变编程系统的解决方案来说,一次正常运行不再代表次次正常运行。一次错误运行,也不代表系统本身存在错误。从全局来看,这在某种程度上降低了计算机系统的可靠性和稳定性。

当我们提及生成式人工智能带来的效率提升时,总是提到 AI 可以低成本、无休止地执行我们之前的某些工作,比如生成文案、对接客户、生成图画。但如果幻觉夹杂其中,就让这种生产力显得没有那么高效了。

毕竟,在工作任务相等的情况下,检查工作是否正确完成和人工完成这些工作可能是相似的。比如,当 AI 在 10 分钟内为你撰写了一篇几万字的论文时,你可能需要花费跟写几万字论文同等的时间去验证论文里的每一个引用是否真实存在,论文中的逻辑是否真的符合共识。

目前,人工智能领域针对幻觉还没有从根本上的解决方案。

但大体上形成了两种缓解的方法,一种是优化训练数据,进一步调整训练方式,增强大语言模型的能力,让幻觉出现的几率从源头上降低。

另一种,则是在大语言模型之外,设置合适的工程性防护措施,拦截可能的错误问题。

比如,2023 年 2 月,Google 基于追赶 ChatGPT 而首次公开演示其模型 Bard AI 时,这款产品在许多问题上给出了错误的回答,这一度导致 Google 的股票大跌。

为了解决这个问题,在 Google 后续的 Gemini 面向用户发布时,推出了“核查回答”功能。这个功能允许用户通过一键来验证 Gemini 给出的答案是否可靠。它的 原理是,在用户点击这个按钮之后,Gemini 在此启动,将刚刚回答中的每一个事实都进行一次 Google 搜索,然后通过对比 Google 搜索中得到的结果来验证 Gemini 在首次回答时给出的答案是否有据可查。

鉴于短期内,单凭大语言模型这一单一技术可能无法克服其自身所产生的幻觉,类似 Gemini“核查回答”这样的外挂式防护措施,将成为解决 AI 幻觉,提高 AI 系统稳定性的重要方法。