“MoE”加上“前所未有大规模投入生产环境的 Lightning Attention”,再加上“从框架到CUDA层面的如软件和工程重构”,会得到什么?
答案是,一个追平了顶级模型能力、且把上下文长度提升到400万token级别的新模型。
1月15日,大模型公司MiniMax正式发布了这款预告已久的新模型系列:MiniMax-01。它包括基础语言大模型MiniMax-Text-01 和在其上集成了一个轻量级ViT模型而开发的视觉多模态大模型 MiniMax-VL-01。
MiniMax-01是一个总参数4560亿,由32个Experts组成的MoE(混合专家)模型,在多个主流评测集上,它的综合能力与GPT-4o和Claude 3.5 sonnet齐平,而同时,它的上下文长度是今天顶尖模型们的20-32倍,并且随着输入长度变长,它也是性能衰减最慢的那个模型。
也就是,这可是实打实的400万token上下文。
这对今天所有大模型来说都是个新突破。而MiniMax实现它的方式也很激进——
如此大参数的模型并不少见,但它是第一个依赖线性注意力机制的大规模部署的模型。在注意力机制层面,MiniMax-01做了大胆的创新,在业内首次实现了新的线性注意力机制,它的80层注意力层里,每一层softmax attention层前放置了7层线性注意力lightning attention层。
Softmax attention是Transformer的核心注意力机制,它是Transformer成为今天大模型热潮里的基石的关键,但同时它也有着先天的问题——它会让模型在处理长文本时复杂度成n的平方的增加。线性注意力则可以把复杂度控制在线性增加。线性注意力机制相关的研究一直在冒出来,但它们往往是一种“实验”的状态,MiniMax-01第一次把它放到了生产环境里。
它的目的就是要在成本得以控制的同时,给MoE模型带来更长的上下文能力。
“我们希望这个模型能为接下来的AI Agent爆发做出贡献。”MiniMax-01也是MiniMax第一个开源的模型,它的权重等全部对社区公开。
MiniMax是国内最早做预训练模型的商业公司之一,在模型的技术路线上它一直按着自己的想法走。而这些路线多次被证明成为了业内后来的主流方向。MiniMax-01是这家公司的技术品味和技术路线在今天的一个集中展示。
它再次把很多人相信的实验性要素,一步一步组成它自己信仰的基础模型架构,并用最极致且真刀真枪堆资源的方式实现了出来。
根据这份技术报告里提供的评测信息,MiniMax-01在业界主流的文本和多模态理解任务上的表现,在大多数任务上追平了来自OpenAI和Anthropic的最先进模型,在长文能力上,它与目前在上下文能力上最强的Google Gemini对比,显示出更强的稳定性,并且随着输入文本的增加,评分开始出现明显的领先。
作为同时拥有多个明星toC产品的公司,MiniMax也构建了一个基于真实助手场景数据的测试集,它在其中的表现也呈现出同样的特征,基本能力在第一梯队,长文本能力明显领先。
“这个工作的核心是我们第一次把线性注意力机制扩展到商用模型的级别,从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化层面做了综合的考虑。由于是业内第一次做如此大规模的主要依赖线性注意力模型,我们几乎重构了我们的训练和推理系统,包括更高效的MoE All-to-all通讯优化、更长的序列的优化,以及推线性注意力层的高效Kernel实现。”MiniMax介绍。
这是一个长期的系统性的工作,从算法到架构再到软硬件训推一体的基础设施,MiniMax的技术品味和定力基本都体现在了MiniMax-01的创新上。
在去年MiniMax第一次开发者活动上,创始人就曾系统分享过MiniMax的技术“信仰”:更快的训练和推理,而实现方式他当时也举了两个例子:线性注意力和MoE。而这次的开源模型技术报告基本就是那次分享的“交作业”,它难得把MiniMax的诸多工作展示给了外界。
在MoE上,一年前MiniMax正式全量上线了国内第一个千亿参数的MoE模型。简单来说,MoE (Mixture of Experts 混合专家模型)架构会把模型参数划分为多组“专家”,每次推理时只有一部分专家参与计算。这种架构可以让模型在小参数的情况下把计算变得更精细,然后拥有大参数才有的处理复杂任务的能力。
对于MoE模型来说,设置几个专家、决定专家分配的路由如何优化等,是决定它效率的关键。此次的MiniMax-01,经过各种实验后,确定模型内使用 32 个专家模块,虽然总参数量达到了 4560 亿,但每个 token 激活的参数仅为 45.9 亿。这个设定的现实考虑,是要让模型在单台机器8 个 GPU 和 640GB 内存的条件下,使用 8 位量化处理超过 100 万个token。同时,它还改进了全新的 Expert Tensor Parallel (ETP) 和 Expert Data Parallel (EDP) 架构,它们能帮助降低数据在不同专家模块间通信的成本。
而更核心就是对注意力机制的重构。
在MiniMax-01的性能报告里有这样一张图,从中可以看到,在其他模型处理256k的时间窗口内,MiniMax的模型可以处理多达 100万个词的信息。也就是说,即使模型一次只能专注于一部分内容,它仍然可以通过高效的计算策略和巧妙的设计,将更多信息纳入整体理解。
把模型想象成在翻阅一本巨大的书,即使每次只能看几页,但它能记住之前的内容,最终把整本书的知识都处理一遍。
对于传统的Transformer来说,它使用Softmax注意力,需要为此构建一个N×N 的全连接矩阵,对于超长序列,这个矩阵会非常庞大。而 Lightning Attention 这样的线性注意力机制则是进行“分块计算”(tiling),模型将超长序列分成若干小块,每个块的大小固定,先计算块内部的词之间的关系(intra-block),接着再通过一种递归更新的方法,将块与块之间的信息逐步传递(inter-block),使得最终可以捕捉到全局语义关系。
这个过程类似于分组讨论:先解决每组内部的问题,再汇总所有组的结果,最终得到全局的答案。
这种优化大大减少了计算和内存需求,也从传统 Softmax 注意力的平方复杂度降低为线性。
同时,为了平衡效率与全局信息捕捉能力,它通过大量的实验最终找到当下混合注意力机制的最佳配方:7比1。在 Transformer 的每 8 层中,有 7 层使用 Lightning Attention,高效处理局部关系;而剩下 1 层保留传统的 Softmax 注意力,确保能够捕捉关键的全局上下文。
和传统的机制相比,一个是看书时候每个字都看,另一个是挑重点看,然后偶尔看一下目录对照一下整体。效率自然不同。
此外,它还引入了Varlen Ring Attention,用来直接将整个文本拼接成一个连续的序列,从而让变长序列的数据在模型中按需分配资源;在预训练数据上使用数据打包(Data Packing),将不同长度的文本拼接成连续的长序列;在分布式计算时改进了 Linear Attention Sequence Parallelism (LASP+),使模型能够在多 GPU 之间高效协作,无需对文本进行窗口切分。
某种程度上,MiniMax在引入线性注意力机制上的“哲学”,和它一直以来追逐MoE模型路线的思想是一脉相承的——就是用更聪明的方式解决问题,把资源发挥到极致,然后通过大量真刀真枪的实验把它在真实场景大规模实现。
线性注意力和MoE在MiniMax-01这里,成了绝配。
当模型的代际迭代不再凶猛,上下文长度和逻辑推理正在成为两个最重点方向。
在上下文方面,此前Gemini一度是最长的那个。而且,DeepMind的CEO Demsi Hassabis也曾透露,在Google内部,Gemini模型已经在实验中实现过1000万token的长度,并且相信最终会“抵达无限长度”,但阻止Gemini现在就这么做的,是它对应的成本。在最近的一个访谈里他表示,Deepmind目前已经有新的方法来解决这个成本难题。
所以,谁能先把上下文长度提高,同时把成本打下来,谁可能就会占得先机。从MiniMax-01展示的效果来看,它的效率确实获得了质的提升。
在这篇详尽的技术报告里,从一个数据可以看出对于硬件的使用效率——在推理上,MiniMax 在 H20 GPU 上的MFU 达到了 75%。这是一个相当高的数字。
MFU(Machine FLOPs Utilization,机器浮点利用率)指的是模型在运行过程中对硬件计算能力(FLOPs,即每秒浮点运算次数)的实际利用率。简单来说,MFU 描述了一个模型是否充分发挥了硬件性能。高利用率必将带来成本上的优势。
MiniMax 01无疑是近来死气沉沉的“撞墙论”中,难得令人惊喜的模型之一。另一个最近引发广泛讨论的是DeepSeek V3。如上面所说,今天两个重要的方向,一个在推理,一个在更长上下文,Deepseek V3和MiniMax-01 各自代表了其中一个。
有意思的是,从技术路线上,某种程度上两者都是在对奠定今天繁荣基础的Transformer里最核心的注意力机制做优化,而且是大胆的重构,软硬件一体的重构。DeepSeek V3被形容把Nvidia的卡榨干了,而MiniMax能够实现如此高的推理MFU,很关键的也是他们直接对训练框架和硬件做优化。
根据MiniMax的报告,他们直接自己从零开始一步步深度开发了一个适合线性注意力的CUDA 内核,并为此开发了各种配套的框架,来优化 GPU 资源的利用效率。两家公司都通过更紧密的软硬结合能力实现了目标。
另一个有意思的观察是,这两家出彩的公司,都是在ChatGPT出现之前就已经投入到大模型技术研发里去的公司,这两个模型惊艳之处也都不在于过去习惯看到的“追赶GPT4”的模式,而是根据自己对技术演进的判断,做出的重投入、甚至有些赌注意味的创新,在一系列持续的扎实工作后,交出的答卷。
而且这答卷也都不只是对自己的,它们都在试图证明某些曾停留在实验室的概念,在大规模部署到实际场景里后也可以有它承诺的效果,并借此让更多人继续优化下去。
这不免让人联想到Transformer出现的时候。
当初Attention机制也已经在实验室走红,但争议依然不断,是相信它的潜力的Google真正堆上了算力和资源,把它从理论实验,做成了大规模部署实现出来的真东西。接下来才有了人们蜂拥而上,沿着被证明的路线走到今天的繁荣。
当时的Transformer把注意力机制堆了更多层,用上了更多的算力,今天的MiniMax-01则在尝试彻底改造旧的注意力机制,一切都有些似曾相识。甚至当时Google的研究员为了强调注意力机制而起的那个著名的论文标题“Attention is all you need ”也非常适合被MiniMax借鉴:线性注意力is all you need ——
“模型目前仍有1/8 保留了普通softmax 注意力。我们正在研究更有效的架构,最终完全去掉softmax 注意力,从而有可能在不出现计算过载的前提下实现无限制上下文窗口。”
在这篇论文的最后,MiniMax的研究员们这样写道。
这显然是巨大的野心,但在如今人们都在关注大模型接下来往哪儿走的时候,非常需要这样的野心,非常需要一个或者更多个“Transformer时刻”——在一个自己相信的路线上做到极致,把看似所有人都知道的配方,最终兑现出来,展示给技术社区里的人们,让它变成某个决定性的时刻,给AI的前进再添把火。