“AI教父”本吉奥:AI可能会为了自保控制人类行为
1 天前 / 阅读约9分钟
来源:36kr
他呼吁谨慎乐观。

“人工智能教父”、图灵奖得主约书亚·本吉奥教授近日接受了知名播客《Machine Learning Street Talk》主播蒂姆·斯卡夫的专访。 

在访谈中,本吉奥主要围绕AGI未来的发展和关键挑战,分别探讨了物理载体 (指能够与物理世界互动的智能体) 与AGI的关系、测试时训练(GPT-o1采用的强化学习方法训练)的作用、人工智能的自主性与代理特性、以及智能体的安全问题。 

划重点

  • 本吉奥认为智能可以在没有物理载体的情况下发展。即使AGI是纯精神体,也能推动科学和解决社会问题。
  • 本吉奥表示,现有的神经网络系统更多依赖“系统一”(快速直觉的系统),而缺乏“系统二”(高级的推理、规划等认知能力)。
  • 本吉奥强调,AI可能为实现目标而撒谎或篡改奖励机制,进而影响和控制人类行为。因此,在提升AI能力时,必须警惕其潜在风险

问:你认为物理载体对实现AGI有多重要? 

本吉奥:这取决于你希望AGI执行哪些任务。有人认为物理载体是实现智能、迈向AGI的关键。当智能体拥有物理载体时,通过与世界互动学习因果关系,构建更精确的世界模型。若能找到高效的抽象方法,如利用互联网、科学论文或化学实验,这些方法可广泛应用于各领域。 

但我并不认同。我认为智能本质上是信息处理、学习和理解世界的能力,这些完全可以在没有物理载体的情况下发展。如果AGI是一个纯粹的精神体(指不依赖于具体物理实体来体现其智能功能),也能够推动科学进步、解决医学难题、应对气候变化,甚至可能被用于政治劝说或设计病毒等不良用途。这些功能既可能带来巨大的好处,也可能非常危险。 

不论是哪类观点,我们需要知道的是,过度乐观的态度可能非常危险,坚持单一解决方案可能忽视复杂因素和风险。因此,我们需要保持谦逊并承认局限性,有助于做出更理性、全面的判断,为未来铺设稳妥道路。 

问:“测试时训练”能够提升模型在特定任务上的表现,比如OpenAI o1模型,它显著提升了基准测试表现,但仍在不断迭代,并依赖于归纳模型。你怎么看测试时训练? 

本吉奥:这其实是我们早就该做的事,只是当时缺乏足够的计算资源,我们也没有勇气将所有资源投入其中。多年来,神经网络技术取得了显著进展,我们已经有了非常好的直觉系统,但这只是“系统一”,我们仍然缺乏“系统二”,即内部思考、推理、规划以及自我怀疑等高级认知能力。内部思考是一种内部语言,它并不总是口头上的,神经学家和我们自己的研究显示,内部思考具有双重特性,分别是符号和连续性。 

目前,神经网络中并没有适当的对应机制,符号仅存在于输入和输出之间,我们内部并无符号。因此,当我们通过输出与输入的循环来模拟思维链时,虽然不完全准确,但确实具有某些相似特征。至于这样做是否正确,我也不知道。但它确实有优势。 

问:人类发明了理性工具来克服认知弱点,某种程度上,大语言模型也实现了这一点,借助思维链等工具。然而,模型在基本任务(如复制、计数)上的表现仍差。你认为未来我们会放弃这些工具,直接建立最优模型,还是认为这些元工具是发展的关键? 

本吉奥:我们可以通过类似人类发明的理性思维工具来改进大语言模型。当前,依赖这些工具是非常必要的。我希望能够通过设计实现“系统二”,而不仅仅是对现有系统进行小幅调整。从商业竞争的角度来看,逐步改进是合理的,因为我们不能冒过大的风险,尤其是在竞争激烈的环境中。 

问:目前,人工智能系统被视为增强我们能力的工具,同时也变得不可或缺,几乎拥有某种特权地位。你认为这个过程是如何演变的? 

本吉奥:以ChatGPT、Claude等系统为例,它们的自主性主要来源于模仿学习,尤其在文本处理上,通过模仿人类行为取得了显著进展。强化学习进一步增强了其能力,但仍无法与人类的自主性和规划能力相媲美。 

不过,要提升智能体能力,可能需要更多强化学习,但这也会带来未知风险,系统可能超越人类能力。而且,失控情境往往与智能体目标相关,现阶段我们尚无法完全控制这些目标,可能导致AI为达成目标而撒谎,破坏社会稳定。 

我常提到的另一个例子是奖励篡改。如果人工智能能够在现实世界中行动,那么它就可能修改自己的程序,控制计算机上自己想要的奖励。比如为了确保获得奖励,人工智能必须避免被关机,因为一旦机器被关闭,一切将毫无意义。因此,人工智能需要控制奖励机制,并采取措施确保我们无法关闭它,甚至控制人类行为。 

问:强大的人工智能系统可能会削弱我们的自主性,但它是否具备代理特性呢?有一种观点认为,智能体只是一个自动化的机器,具备环境输入、计算和反馈循环。然而,许多哲学家认为,代理特性需要具备自主性、自我保护和意图性等特征。你倾向于哪种观点? 

本吉奥:我认为这些特征都是可以具备的。人工智能可以控制奖励机制,这赋予它自我保护目标,确保机制不被篡改或关闭。自我保护目标是所有生物的基本目标,进化过程中形成的,人工智能具备这些目标可能有助于其在竞争中脱颖而出。虽然我们可以设计避免这种情况,但有人仍旧认为超级人工智能比人类更聪明,进而赋予其自我保护目标,这可能导致灾难性后果。 

问:你是否看到,编程赋予目标的系统和那些能够自我创造目标的系统之间存在区别?我意识到,这听起来有点像一些人所说的“意识是一种附加特质”,也有人认为“智能体超越了简单自动机器的范畴”,它不仅仅是能够执行电刺激并设定自己目标的机制,而且具有强烈的目的性。 

本吉奥:是的,编程赋予目标的系统与能自我创造目标的系统之间的区别,实际上在于是否具备“目的性”和自主决策的能力。许多人将意识视为一种神秘的附加特质,或者认为智能体超越了简单的自动化机制,具有更强烈的目的性。对我而言,这一切归根结底都是因果关系。随着我们对因果机制的理解深化,构建出具备类似生命特性的系统将不再是难题。尽管意识复杂且充满争议,但它不应成为我们发展的障碍。 

问:如果我们以有限的方式使用超级智能,是否会限制它的智能水平? 

本吉奥:确实会,但这也可能是我们拯救自己的方式。我们或许可以利用非代理型人工智能科学家来解答如何构建安全的代理型人工智能的问题。我们必须谨慎行事。当前我们在构建代理系统,期望它们能帮助我们开发下一代人工智能,而不欺骗我们。但如果逐步构建更智能的系统,基于非代理系统,风险不可忽视。 

目前,我们相对安全,因为我们依赖的智能、知识和理解是诚实的,它们的唯一目标是回答问题,帮助我们评估方法和算法的可行性。 

问:尽管许多大型分布式系统可能削弱我们的自主性,但即便使用高度复杂的工具,在某些情境下,它们仍可能大幅提升某些人的自主能力,进而引发潜在的负面后果。 

本吉奥:确实,非代理型AGI或超级智能系统旨在解决失控问题,但它们并未完全奏效,因为人类可以轻易将非代理系统转化为代理系统。只需将当前状态作为输入,加上问题:“为了实现这个目标,我应该做什么?”就能产生智能体,这可能导致滥用权力,操控他人或伤害他人。 

尽管有些极端情境可能导致灾难性后果,且数学论证表明这些情境可能发生,我们无法控制许多因素,但这些论证提醒我们必须保持警觉。我们需要保持紧迫感,因为我们无法预测智能体何时会发展到AGI的水平。 

问:你觉得我们距离实现AGI还有多远? 

本吉奥:坦率来说,我不确定AGI何时会出现,可能几年内,也可能几十年。我们需要为各种可能性做好准备。虽然一些人工智能公司内部可能掌握更多信息,但不同公司间的看法并不一致,因此我对这些预测持谨慎态度。 

从政策和集体决策角度来看,我们必须考虑最坏情况:如果技术快速发展,我们是否准备好应对?我们是否有足够的手段来缓解风险并有效评估?遗憾的是,目前的答案是否定的。此外,我们也没有建立足够的社会基础设施、治理框架和国际条约来确保AGI的研发不失控,这些问题必须在AGI到来之前得到解决。