IT之家 2 月 6 日消息,在最近的一次公开活动中,人工智能公司 OpenAI 的首席执行官萨姆・阿尔特曼(Sam Altman)表示,他观察到人工智能的“智商”在过去几年中迅速提升。阿尔特曼称:“大致而言,我的感觉是 —— 这不是科学准确的表述,只是一种直觉或精神层面的回答 —— 每年我们似乎在智商上前进了一个标准差。”
IT之家注意到,阿尔特曼并非第一个用智商来衡量人工智能进步的人。在社交媒体上,一些人工智能领域的意见领袖已经让各种模型接受智商测试,并对结果进行排名。但许多专家认为,智商并不是衡量模型能力的合适指标,甚至具有误导性。
牛津大学研究技术与监管的研究员桑德拉・瓦赫特(Sandra Wachter)在接受 TechCrunch 采访时表示:“用人类的衡量标准来描述人工智能的能力或进步是非常诱人的,但这就好比是在比较苹果和橘子。”智商测试是一种相对而非客观的智力测量方式,它在逻辑和抽象推理方面被认为是一个合理的测试指标,但它无法衡量实际智力 —— 即知道如何让事物运作的能力。
瓦赫特指出:“智商是一种衡量人类能力的工具 —— 尽管它本身存在争议 —— 是基于科学家对人类智力的看法而设计的,但你不能用同样的标准来衡量人工智能的能力。汽车比人类跑得快,潜水艇比人类潜得深,但这并不意味着汽车或潜水艇超越了人类的智力。不能简单地将某一方面的性能等同于人类智力,人类智力是非常复杂的。”
智商测试的起源可以追溯到优生学,优生学是一种被广泛驳斥的科学理论,认为可以通过选择性繁殖来改善人类。参加智商测试的人需要具备强大的工作记忆能力,并且熟悉西方文化规范,这自然为偏见留下了空间。一位心理学家甚至称智商测试为“意识形态上可被操纵的机械智力模型”。
华盛顿大学研究伦理人工智能的博士候选人奥斯・凯斯(Os Keyes)表示,模型在智商测试中表现良好,更多地反映了测试本身的缺陷,而不是模型的性能。“如果拥有几乎无限的内存和耐心,这些测试其实很容易被‘玩弄’。智商测试是一种非常有限的衡量认知、意识和智力的方式,这一点在数字计算机发明之前我们就已经知道了。”
人工智能在智商测试中可能具有不公平的优势,因为模型拥有海量的内存和内化的知识。通常,模型是基于公共网络数据进行训练的,而网络上有大量从智商测试中提取的例题。伦敦国王学院的研究员迈克・库克(Mike Cook)表示:“测试往往重复非常相似的模式 —— 提高智商的一个相当可靠的方法就是练习智商测试,而这本质上就是每个模型都在做的事情。当我学习某样东西时,我不会像 AI 那样以完美的清晰度将其清晰地输入我的大脑 100 万次,我也无法像人工智能那样毫无噪声或信号损失地处理它。”
库克补充道,智商测试 —— 尽管存在偏见 —— 是为人类设计的,旨在评估一般性的问题解决能力,并不适合用于评估一种以与人类截然不同的方式解决问题的技术。“乌鸦可能会使用工具从盒子里取出食物,但这并不意味着它可以进入哈佛大学。当我解决一个数学问题时,我的大脑不仅要正确阅读页面上的文字,还要避免去想回家路上需要购买的东西,或者房间是否太冷。换句话说,人类大脑在解决问题时 —— 无论是智商测试还是其他任何问题 —— 都要应对更多的事情,而且它们在解决问题时得到的帮助也比人工智能少得多。”
AI Now 研究所的首席人工智能科学家海迪・赫拉夫(Heidy Khlaaf)在接受 TechCrunch 采访时表示,所有这些都表明我们需要更好的人工智能测试方法。赫拉夫说:“在计算历史中,我们从未将计算能力与人类能力进行精确比较,因为计算的本质意味着系统一直能够完成超出人类能力范围的任务。这种直接将系统性能与人类能力进行比较的想法是一个相对较新的现象,且极具争议性,围绕着不断扩展和变化的用于评估人工智能系统的基准的争议也越来越多。”