我们早已见过不少AI模型展现出各种古怪行为,但痴呆?这着实是个新发现。
正如《英国医学杂志》上最新发表的研究所述,科技界的一些顶尖聊天机器人正显示出轻度认知障碍的明显迹象。而且,与人类相似,这些影响会随着“年龄”的增长而加剧,较“老”的大型语言模型表现尤为糟糕。
这项研究的目的并非要对这些AI进行医学诊断,而是反驳当前一股认为这项技术已足够成熟,可用于医疗领域,特别是作为诊断工具的研究浪潮。
“这些发现挑战了人工智能将迅速取代人类医生的假设,因为顶尖聊天机器人表现出的认知障碍可能会影响它们在医疗诊断中的可靠性,并损害患者的信心,”研究人员写道。
参与测试的“天才”包括OpenAI的GPT-4和GPT-4o、Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.0和1.5。
在接受蒙特利尔认知评估(MoCA)测试时——这是一种旨在检测痴呆早期迹象的测试,得分越高表示认知能力越强——GPT-4o表现最佳(30分满分中得26分,勉强达到正常阈值),而Gemini系列得分最低(30分满分中仅得16分,表现非常糟糕)。
研究人员发现,所有聊天机器人在命名、注意力、语言和抽象思维等大多数任务类型上均表现出色。
然而,它们在视觉空间和执行任务上的表现却不尽如人意,比如在按升序排列的圆圈数字间连线时显得力不从心。绘制显示指定时间的时钟对AI来说也是一项艰巨任务。
尤为尴尬的是,两个Gemini模型在相对简单的延迟回忆任务中彻底失败,该任务要求记住一个五个词的序列。这显然不能代表一般的出色认知能力,但你可以理解为何这对医生而言尤为棘手,因为医生必须处理患者告知他们的任何新信息,而不仅仅是依赖病历记录。
你或许也不希望你的医生缺乏同情心。然而,根据测试,研究人员发现所有聊天机器人都惊人地缺乏同情心——他们说这是额颞叶痴呆的典型症状。
将AI模型拟人化,并视其为几乎与人类无异,这可能是一种不良习惯。毕竟,这基本上是AI行业所期望的。研究人员表示他们意识到了这种风险,并承认大脑和大型语言模型之间存在本质区别。
但如果科技公司正在将这些AI模型描述得如同已具备意识一般,为何不以同样的人类标准来要求它们呢?
根据这些条件——AI行业自身的条件——这些聊天机器人正面临挑战。
“我们的发现不仅表明神经科医生不太可能很快被大型语言模型所取代,而且表明他们可能很快会发现自己正在治疗新的虚拟患者——即表现出认知障碍的人工智能模型,”研究人员写道。