字节跳动VAPO框架刷新AIME24记录，大型语言模型推理能力大幅提升 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

字节跳动VAPO框架刷新AIME24记录，大型语言模型推理能力大幅提升

2 天前

字节跳动推出了VAPO强化学习训练框架，旨在增强大型语言模型在复杂长任务中的推理能力。VAPO基于PPO框架，融入了价值训练、长度自适应广义优势估计及协同增效系统等创新技术。经过优化，Qwen2.5-32B模型在AIME24测试中的得分从5分大幅提升至60.4分，超越了DeepSeek R1和DAPO方法。VAPO在数学推理和长序列任务中表现尤为突出，训练过程更加稳定高效。这些技术的共同作用，确保了VAPO的优越性能。

上一篇：Alphabet公司宣布在安卓系统与Pixel手机业务线裁员

下一篇：全球首个消化内镜全场景智能体在沪亮相大数据+AI+医疗

返回列表

热文阅读

2 天前

意法半导体宣布未来三年内全球裁员约2800人

2 天前

AI加持联发科，但仍难敌高通

2 天前

红杉高瓴加持，本土半导体IP独角兽要IPO了

2 天前

澳洲科学家研发出新型滤膜，可清除芯片中使用的“永久化学物质”PFAS