月之暗面研究员Flood Sung分享了k1.5模型的完整思考路径,并透露OpenAI在2024年9月12日发布的o1版本给他带来了巨大冲击,促使他重新思考Long-CoT(长链思维链)的有效性。事实上,Long-CoT的有效性早已在一年多前被月之暗面Kimi的联合创始人Tim周昕宇验证过。他使用小型模型,通过训练模型执行几十位的加减乘除运算,并将细粒度的运算过程整合成长长的CoT(思维链)数据进行SFT(序列到序列微调),取得了显著成效。Flood Sung指出,公司虽然意识到了长上下文(Long Context)的重要性,并率先尝试扩展上下文长度,但对Long-CoT的重视不足,主要出于成本考虑。