4o-mini 只有 8B、o1 也才 300B，微软论文意外曝光 GPT 核心机密 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

4o-mini 只有 8B、o1 也才 300B，微软论文意外曝光 GPT 核心机密

2025-01-02 / 阅读约5分钟

来源：IT之家

英伟达 2024 年初发布 B200 时，就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B，这里微软的数字更精确，为 1.76T。

微软又把 OpenAI 的机密泄露了？？在论文中明晃晃写着：

o1-preview 约 300B 参数，GPT-4o 约 200B，GPT-4o-mini 约 8B……

英伟达 2024 年初发布 B200 时，就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B，这里微软的数字更精确，为 1.76T。

除此之外，论文中给 OpenAI 的 mini 系列，Claude3.5 Sonnet 也都附上了参数，总结如下：

o1-preview 约 300B；o1-mini 约 100B
GPT-4o 约 200B；GPT-4o-mini 约 8B
Claude 3.5 Sonnet 2024-10-22 版本约 175B
微软自己的 Phi-3-7B，这个不用约了就是 7B

虽然论文中后面也有免责声明：

确切数据尚未公开，这里大部分数字是估计的。

但还是有不少人觉得事情没这么简单。

比如为什么唯独没有放谷歌 Gemini 模型的参数估计？或许他们对放出来的数字还是有信心的。

也有人认为，大多数模型都是在英伟达 GPU 上运行的，所以可以通过 token 生成速度来估计。

只有谷歌模型是在 TPU 上运行的，所以不好估计。

而且微软也不是第一次干这事了。

2023 年 10 月，微软就在一篇论文里“意外”曝出 GPT-3.5-Turbo 模型的 20B 参数，在后续论文版本中又删除了这一信息。

就说你是故意的还是不小心的？

微软这篇论文说了什么

实际上，原论文介绍了一项与医学相关的 benchmark——MEDEC。

12 月 26 日就已经发布，不过是比较垂直领域的论文，可能非相关方向的人都不会看，年后才被列文虎克网友们发现。

研究起因是，据美国医疗机构调查显示，有 1/5 的患者在阅读临床笔记时报告发现了错误，而 40% 的患者认为这些错误可能影响他们的治疗。

而且另一方面，LLMs (大语言模型）被越来越多的用于医学文档任务（如生成诊疗方法）。

因此，MEDEC 此番有两个任务。一是识别并发现临床笔记中的错误；二是还能予以改正。

为了进行研究，MEDEC 数据集包含 3848 份临床文本，其中包括来自三个美国医院系统的 488 份临床笔记，这些笔记之前未被任何 LLM 见过。

它涵盖五种类型的错误（诊断、管理、治疗、药物治疗和致病因子），这些错误类型是通过分析医学委员会考试中最常见的问题类型选择的，并由 8 位医疗人员参与错误标注。

而参数泄露即发生在实验环节。

按照实验设计，研究者将选取近期主流的大模型和小模型来参与笔记识别和纠错。

而就在介绍最终选定的模型时，模型参数、发布时间一下子都被公开了。

对了，省去中间过程，这项研究得出的结论是：Claude 3.5 Sonnet 在错误标志检测方面优于其他 LLM 方法，得分为 70.16，第二名是 o1-mini。

网友：按价格算合理

每一次，ChatGPT 相关模型架构和参数泄露，都会引起轩然大波，这次也不例外。

2023 年 10 月，微软论文声称 GPT-3.5-Turbo 只有 20B 参数的时候，就有人感叹：难怪 OpenAI 对开源模型这么紧张。

2024 年 3 月，英伟达确认 GPT-4 是 1.8T MoE，而 2000 张 B200 可以在 90 天内完成训练的时候，大家觉得 MoE 已经且仍将是大模型架构趋势。

这一次，基于微软估计的数据，网友们主要有几个关注点：

如果 Claude 3.5 Sonnet 真的比 GPT-4o 还小，那 Anthropic 团队就拥有技术优势。

以及不相信 GPT-4o-mini 只有 8B 这么小。

不过此前也有人根据推理成本来算，4o-mini 的价格是 3.5-turbo 的 40%，如果 3.5-turbo 的 20B 数字准确，那么 4o-mini 刚好是 8B 左右。

不过这里的 8B 也是指 MoE 模型的激活参数。

总之，OpenAI 大概是不会公布确切数字了。

此前阿尔特曼征集 2024 年新年愿望，最后公布的清单中还有“开源”。2025 年的最新版本里，开源已经被去掉了。

论文地址：

https://arxiv.org/pdf/2412.19260

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨、一水，原标题《4o-mini 只有 8B，o1 也才 300B！微软论文意外曝光 GPT 核心机密》

上一篇：OpenAI o1“作弊”修改系统，强行击败专业象棋AI，全程无需提示

下一篇：AI发展：训练数据即将遭遇瓶颈

返回列表

热文阅读

2 天前

英特尔发布一季度业绩，营收持平但前景黯淡，警示宏观经济压力

2 天前

AMD锐龙5 7533HS APU携手联想经济型笔记本系列亮相

2 天前

初创公司 Atum Works 推出纳米级 3D 打印技术，芯片制造成本可削减 90%

2 天前

砸开核桃造“芯片”！“六个核桃”母公司16亿杀入半导体

2 天前

华进半导体“有源光芯片转接板及其制备方法”专利公布

2 天前

【IPO】粤芯半导体启动IPO辅导,广发证券担任辅导机构；证监会:同意同宇新材创业板IPO注册；万业企业年报及一季报实现材料设备双突破,一季度营收大幅提升近翻倍

2 天前

英特尔CEO陈立武会见魏哲家，暗示与台积电进行晶圆代工合作

2 天前

东京大学研发新型芯片冷却技术，是传统水冷的十倍

2 天前

英特尔似乎承认我们都知道的事实：没有人会购买AI PC

2 天前

三星呼吁美国商务部明确半导体出口管制条款，担忧阻碍创新

上一篇：OpenAI o1“作弊”修改系统，强行击败专业象棋AI，全程无需提示

下一篇：AI发展：训练数据即将遭遇瓶颈

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

C114通信网

通信人家园