编辑:Aeneas
【新智元导读】这家名为METR的机构,刚刚发现了AI智能体的全新摩尔定律:过去6年中,AI完成任务的长度,每7个月就会翻一番!如此下去,五年内我们就会拥有AI研究员,独立自主完成人类数天甚至数周才能完成的软件开发任务。
就在刚刚,AI智能体的摩尔定律被发现了!
METR研究所表示,他们发现了全新的AI智能体Scaling Law——
AI可执行任务的长度,每七个月翻一番。
过去6年中,前沿通用AI智能体完成任务的能力,每7个月就翻倍一次
同时发表的,还有一篇45页论文。
论文地址:https://arxiv.org/abs/2503.14499
这家加州的非营利研究所METR的研究者提出,以AI智能体能完成的任务长度来衡量它们的性能。
他们设计了近170个真实任务,涵盖了编程、网络安全、通用推理和机器学习等领域,并且测量了人类专家所需的时间,建立了一条「人类基准线」。
据此,他们发现,这一指标在过去六年中一直呈指数级增长,所需翻倍时间约为7个月。
如果按这一趋势推断,在五年内,我们就将见证:AI智能体能够独立完成当前需要人类耗时数天甚至数周才能完成的大部分软件开发任务。
而如果这六年的Scaling Law能持续到本十年末,前沿AI系统完全就能自主执行为期一个月的项目!
这个结论听起来,实在是很炸裂。果然Nature火速采访研究者团队,出了一篇报道。
AI独立研究员,真的要来了?
METR研究者介绍说,之所以做这项研究,是因为他们感觉到:如今的基准测试很快就饱和了,但却不太能很好地转化为AI对现实世界的影响。
所有人都感觉到,「某种东西」正在迅速上升,但这种东西,究竟是什么呢?
对此,专家们也是众说纷纭,有人说「AGI几年内就会出现」,也有人说「Scaling Law已经撞墙了」!
截止时间:2024年12月
METR希望,从目前AI模型的表现中抓住这「某种东西」,由此,这条全新的Scaling Law就诞生了。
这项研究,立刻在AI社区引发了巨大的声浪。
ARIA Research的项目总监Davidad在这条Scaling Law曲线上发现了亮点:合成数据的自我改进(比如带有可验证奖励的CoT上的RL),已经引发了一种全新的增长模式!
而研究中的另一项图表,更是证明了他的第二项观点:pass@8已经接近8小时的范围。
ALTER的创始人表示,Claude能玩宝可梦已经证明了这项研究的观点,而如果继续翻倍,游戏会需要26小时,所以时间点大概在3年后,甚至还会更快!
全新Scaling Law:6年内,AI任务长度7个月翻一番
METR认为,预测未来AI系统的能力,对理解和准备应对强大AI带来的影响至关重要。
然而,究竟应该怎样准确预测AI能力的发展趋势?这项任务目前仍然非常艰巨。
而且,即使我们想理解当今模型的能力,也往往很难把握。
虽然目前最前沿的AI系统中文本预测和知识处理任务上已经远超人类,能以远低于人力的成本中大多数考试中远超人类专家,但它们仍然无法独立完成实质性项目,或者直接替代人类劳动。
甚至,它们也无法处理基于计算机的低技能工作,比如远程行政助理。
那么,该如何衡量它们对于现实世界的实际影响呢?
METR研究者表示,一个有效方法,就是衡量AI模型能完成的任务长度。
这是因为,AI智能体的主要挑战,并不在于缺乏解决单个步骤所需的技能或知识,而在于难以连续执行较长的动作序列。
于是,他们让AI智能体完成一组多样化的多步骤软件和推理任务,同时还记录了具有专业知识的人类所需的时间,然后有了这样一个有趣的发现——
人类专家完成任务的时间,能有效预测模型在特定任务上的成功率。
其中一个软件工程任务:回答「哪个文件最有可能包含密码」
不同时长的任务,最短的只有3秒,最长的有8小时
比如,当前模型在人类耗时不足4分钟的任务上,几乎能达到100%的成功率,但在需要人类耗时超过4小时的任务上,成功率则低于10%。
由此,研究者想到:可以用「模型以x%概率成功完成的任务所对应的人类完成时长」,来描述模型的能力水平。
对于每个模型,他们都拟合了一条逻辑斯蒂曲线(logistic curve),基于人类任务时长预测模型的成功概率。
在设定特定的成功概率后,就可以找到预测成功曲线与该概率水平的交点,从而获得对应的任务时长,这样就能将每个模型的性能用时间跨度来表示。
首先,创建一套170个多样化任务。其次,让人类和AI智能体尝试这些任务,记录成功的人类所需时间,以及AI智能体的成功率。第三,拟合一个逻辑模型,以确定每个AI智能体在50%成功率下的时间范围,绘制在与模型发布日期对应的图表上
以下就是几个模型的拟合成功曲线,以及这些模型在预测成功率为50%时所对应的任务时长:
计算时间跨度的过程示意图
以上图最右侧用最深绿色表示的模型Claude 3.7 Sonnet为例,其时间跨度约为一小时,这是该模型的拟合逻辑斯蒂曲线与50%成功概率阈值的交点所在。
在研究者看来,这些结果可以解释这个矛盾:为什么模型在众多基准测试中已经表现出超越人类的能力,却始终无法自主可靠地完成人类工作。
原因就在于,最先进的AI模型(如Claude 3.7 Sonnet)虽然能完成某些人类专家数小时才能完成的任务,能如果要论可靠地生成,它们就只能完成几分钟以内的任务了。
但是,分析历史数据后,他们有了一个令人惊喜的发现——
最先进AI模型能够完成的任务时长(以50%成功概率为标准),在过去6年间已经实现了显著增长!
当把这些数据在对数尺度上绘制时,就可以发现全新的Scaling Law:模型能够完成的任务时长呈现出明显的指数增长规律,倍增周期约为7个月。
METR研究者表示,有充分把握可以确定这项全新Scaling Law的正确性,即每年实现1-4次倍增。
而如果在过去六年内观察到的这一Scaling Law在未来2-4年内依然持续存在,那未来的通用自主智能体,就完全有能力执行需要一周时间才能完成的任务!
这条曲线的陡峭程度也意味着,即使存在较大误差,研究者对不同能力何时到来的时间点预测,仍然相对可靠。
比如,即使绝对测量值出现了10倍误差,那实际预测时间的误差也仅为2年而已。
50%成功率,究竟代表什么
所以,团队为什么会选择50%的成功率标准呢?
原因在于,这项指标对于数据分布的细微变化最不敏感。
在Nature报道中,共同作者Lawrence Chan这样解释道:「如果选择过低或过高的阈值,仅仅添加或删除一个成功或失败的任务样例,就会导致估计结果发生显著变化。」
如果将可靠性阈值从50%提高到80%,的确会使平均时间跨度缩短五倍,但即使这样,整体的倍增周期和发展趋势仍然和之前保持类似。
随着时间的推移,模型变得越来越有鲁棒性。早期模型通常会陷入循环行为或引入更多错误。然而,从GPT-4o开始,模型在错误恢复和调整策略方面的能力显著提升。比如在调试少量Python代码任务中,Claude 3.5 Sonnet最初将代码添加到了错误的位置,然后尝试多次使用CLI工具sed将代码添加到正确的文件中。然而,在这个过程中,它遇到了IndentationError(缩进错误)和方法重复定义的问题。最终,它成功地转向从头编写整个文件,从而解决了问题
这项研究的最大意义在哪里?
共同作者Ben West表示,他们采用的这个时间跨度方法解决了现有AI基准测试的若干局限性,因为传统基准测试与实际工作的关联较弱,且随着模型改进容易迅速达到「饱和」。
相比之下,这种新方法提供了一个连续的、直观的衡量标准,能更好地反映有意义的长期进展。
而在论文中,他们还证实了类似的发展曲线在以下方面同样成立:
代表不同分布的多个任务子集(包括短期软件任务、多样化的HCAST、RE-Bench,以及按任务时长或「复杂程度」定性评估筛选的子集)。
基于真实任务的独立数据集(SWE-Bench Verified),其中的人类完成时间数据是基于估算而非基准测试获得的。它显示出更快的倍增速度,周期还不到3个月。
在SWE-bench Verified数据集上复现了研究结果,观察到相似的指数增长规律
另外,研究者也在论文中进一步证明:研究结果对所选的任务或模型类型并不敏感,同时也不会受到任何方法论选择或数据噪声的显著影响。
前沿AI系统达到一个月任务处理能力的预测时间点的敏感度分析
当然,研究者也承认,模型可能存在显著误差。比如近期的AI发展趋势,就会比2024年之前都趋势更好地预测未来表现。
比如在上图中,如果仅基于2024年和2025年的数据拟合类似趋势时,AI能以50%可靠性完成一个月长度任务的预估达成时间,就提前了约2.5年。
METR研究者表示,这项研究,对于AI基准评测、发展预测和风险管理都意义重大。
首先,他们的的方法提升了基准评测的预测价值,能够在不同能力水平和多样化领域量化模型的进步程度。
因为和实际成果直接相关,对相对性能和绝对性能,都能进行有意义的解读。
其次,他们发现的AI发展Scaling Law趋势十分稳健,而且是和实际影响密切相关。
如果未来十年内,AI系统能自主执行为期一个月的项目,它当然会给人类带来巨大的潜在效益,但同时带来的,也有巨大的潜在风险。
研究针对每个模型,计算了整个综合任务集的平均任务成功率
专家质疑:这条Scaling Law,真的反映现实世界吗?
不过,对于这项引起巨大反响的研究,也有一些质疑的声音。
加拿大多伦多大学管理学教授Joshua Gans就认为,此类预测的实用价值很有限。
在他看来,虽然推出一条Scaling Law很有诱惑力,但考虑到我们对AI实际应用方式的认知仍然有限,这些预测可能缺乏实际意义。
旧金山的AI研究员和企业家Anton Troynikov也指出,虽然任务完成时间跨度是一个评价的有效指标,但可能无法充分反映模型的泛化能力——或许在面对与训练数据不同的任务时,模型的表现就完全不一样了。
的确,METR也承认,这项方法无法完全涵盖真实工作环境的所有复杂性,但他们强调:在验证任务与实际工作的相似程度时,时间跨度的增长仍然呈现出相似的指数增长趋势。
所以,他们对于时间点的预测准不准呢?
研究者承认,多个因素会影响他们的预测。
首先,虽然过去五年计算能力实现了显著提升,但物理限制和经济因素会制约未来的Scaling,造成阻碍。
不过他们相信,这种影响会部分被持续到算法改进所抵消。
而且未来,学界还会更加增强模型的自主性,提高AI在研究自动化方面的效能,这还会导致更积极的结果。
METR研究者Megan Kinniment,对于外界质疑则给出了这样的解释。
首先,所有的基准测试都要比实际任务更「干净」,这项任务集合也是如此。
因为他们的任务具有自动评分机制,并且不涉及与其他智能体的交互。而他们研究的,就是智能体的性能如何依赖这些「杂乱」因素。
包含的「杂乱」因素越多,AI智能体的表现就会越差。
本来,Kinniment以为他们会在更杂乱的任务中,发现明显的平台期。结果并没有!
尽管杂乱的任务更难,但AI在这些任务上的改进速度并没有慢很多。
而且,即使最杂乱的任务,也不算太杂乱。比如,1分钟以上任务的平均杂乱度评分仅为3.2/16,没有任何任务的混乱度超过 8/16,「撰写一篇研究论文」的混乱度评分大约在9/16到15/16之间。
当然,他表示,方法论上仍有很多可改进的地方。
不过在未来,AI在杂乱任务上的性能到底有多重要呢?这个问题就留待探索了。