字节跳动VAPO框架刷新AIME24记录,大型语言模型推理能力大幅提升
2 天前

字节跳动推出了VAPO强化学习训练框架,旨在增强大型语言模型在复杂长任务中的推理能力。VAPO基于PPO框架,融入了价值训练、长度自适应广义优势估计及协同增效系统等创新技术。经过优化,Qwen2.5-32B模型在AIME24测试中的得分从5分大幅提升至60.4分,超越了DeepSeek R1和DAPO方法。VAPO在数学推理和长序列任务中表现尤为突出,训练过程更加稳定高效。这些技术的共同作用,确保了VAPO的优越性能。