天工版o1、4o同时上线！超强逻辑推理秒杀数学竞赛，实时语音陪聊太上头 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

天工版o1、4o同时上线！超强逻辑推理秒杀数学竞赛，实时语音陪聊太上头

2 天前 / 阅读约9分钟

来源：凤凰网

昆仑万维在2024年初就确立了“实现AGI，让每个人更好地塑造和表达自我”新使命

【新智元导读】今天，「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了，人人可玩的那种。

最近，2024中国互联网价值榜发布。

2024年AIGC应用用户规模TOP榜中，昆仑万维旗下天工AI强势入围！

如今，天工AI已经取得了中国典型工具类AIGC应用TOP 4的好成绩，在多梯队的猛烈厮杀格局中稳稳占据优势。

同时，还不断有好消息传来。

就在今天，天工大模型4.0 o1版/4o版正式上线天工网页端和APP。底座大模型，正式进化到「天工4.0」。

「天工大模型4.0」 o1版（Skywork o1）的上线，意味着国内首款中文逻辑推理能力的o1模型来了！

数学高考题、考研题、奥数题，Skywork o1都能靠自己的逐步思考破解。

注意！Skywork o1并不是简单地复现OpenAI o1模型的工作。它不仅在模型输出上内生了思考、计划、反思等能力，还在模型真正拥有了思考和反思之后，带来了推理能力的提升。

在最近热转的复旦等机构解密OpenAI o1路线图这一研究中，skywork-o1就被列为国内o1级模型的代表之一

并且，昆仑万维天工大模型4.0上线后，应用端不仅在逻辑推理和代码功能上有了几大提升，语音交互上的表现也着实令人惊叹。

一个月正式发布的新产品「实时语音对话助手Skyo」，如今有了史诗级提升。

众网友实测后纷纷表示，原来国内版的「Her」，已经进化到了不输OpenAI版本的地步！

具备多语言对话能力的Skyo，不仅能快速响应、主动发起对话、实时打断，给出的回应还十分情感化，已经具备了类人特征。

还等什么，实测马上呈上。

超强推理+自我反思，免费体验

现在，分别打开天工APP或网页端，任何人皆可免费享用最新天工4.0 4o版或o1版模型加持的AI了。

既然主打的是推理，那么我们就先来看看Skywork o1在数学题上的表现如何。

体验地址：https://www.tiangong.cn/o1Chat/055

先来个硬核的，AIME数学竞赛题。

题目是这样的——

Jen通过从S={1,2,3, ... ,9,10} 中挑选4个不同的数字来参加抽奖。从S中随机选择4个号码。如果她的至少两个号码是随机选择的号码中的2个，她就能赢得奖金；如果她的四个号码都是随机选择的号码，她就能赢得大奖。假设她赢得了奖品，她赢得大奖的概率是m/n，其中m和n是相对质的正整数。求m+n。

Skywork o1用时1分55秒，经过一番思考后，最终给出了正确答案——116。

上下滑动查看

对于下面这道同样有些难度的数学题，模型在经过一番思考之后，很快就想到了用图论中的「图兰定理」去解。

值得一提的是，在思考过程中它对答案不确定时，甚至会反思自己的回答，直至最终确定25是正确答案。

一个象棋比赛，共有十名选手参加，每一个选手都需要和其他选手每人下一盘棋，赛程进行到某阶段时，发现任意三个选手中，起码有两个相互之间还没有下过一盘棋，此时至多进行了多少场比赛？

上下滑动查看

2024年高考新课标一卷的数学真题，Skywork o1也能做出正确答案，就是方法稍微「笨」了点。

复杂一些的逻辑推理题，Skywork o1也能做对。

这道从池塘中取水的推理题，它通过一步步的思考过程，推理出了正确答案。

上下滑动查看

还有这道「一个人花8块钱买了一只鸡，9块钱卖掉了，然后他觉得不划算，花10块钱又买回来了，11块卖给另外一个人。问他赚了多少」，Skywork o1反复斟酌之后给出了正确的答案。

上下滑动查看

为什么刚出生的小孩只有一只左眼？这个脑筋急转弯，没能瞒过Skywork o1的眼睛。

上下滑动查看

弱智吧难题，不在话下。

比如父母以后的钱都是留给我的，可不可以认为父母现在正在花我的钱？Skywork o1从财产所有权、继承权、遗嘱和继承法、道德和家庭关系方面给出了全面的回答。

上下滑动查看

吕布马上无敌，典韦步战无敌，吕布骑着典韦会不会天下无敌？Skywork o1表示，有趣的脑洞只是一个戏谑的表达，而非严肃的历史或军事讨论。

上下滑动查看

最后，上一道LeetCode贪心算法的分发饼干代码难题。题目如下——

假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。

对每个孩子i，都有一个胃口值 g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j] 。如果s[j] >= g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。

Skywork o1也顺利给出了答案。

自研技术方案，持续创新迭代

那么，Skywork o1为何能在逻辑推理任务上，有如此大幅的提升？

这就要得益于天工三阶段自研的训练方案。

推理反思能力训练

首先，在推理训练方面，团队通过自主研发的多智能体体系，构建出了高质量的分步推理、反思与验证数据。

然后，用这些高质量且多样化的长思考数据，对基座模型进行继续预训练和监督微调，并在版本迭代中采用大规模的自蒸馏和拒绝采样，从而显著提升了模型的训练效率和逻辑推理能力。

推理能力强化学习

其次，在强化学习阶段，团队创新性地提出了一种适配分步推理强化的奖励模型——Skywork o1 Process Reward Model（PRM）。

在最新的版本中，团队将Skywork-PRM的应用范围，从原本侧重的数学和代码领域，拓展到了常识推理、逻辑推演和伦理决策等更广泛的场景中。同时，还针对写作、闲聊等通用领域以及多轮对话构建了专门的训练数据，实现了全场景覆盖。

此外，团队重点提升了Skywork-PRM的模块化评估能力，特别是在处理o1风格思维链方面，优化了试错和反思验证机制。通过更细致的评估体系，为强化学习和搜索过程提供了更精准的奖励信号指导。

推理planning

最后，在推理的规划方面，团队通过自研的Q*线上推理算法，以及模型的在线思考能力，实现了最优推理路径的寻找。

概括来说，Q*算法通过借鉴人类大脑中「System 2」的思考方式，将LLM的多步推理过程抽象为一个启发式搜索问题。

然后，再通过Q*线上推理框架与模型在线思考的结合，实现了推理过程中的精细规划，进而指导LLM的解码过程。

Q*算法的成功落地，不仅显著提升了模型的线上推理能力，同时也标志着Q*算法的全球首次实现和公开。

论文地址：https://arxiv.org/abs/2406.14283

更进一步的，团队基于Q*算法对推理系统进行了全面优化。

第一点是模块化的树形结构推理：

团队通过高质量、多样化的长思考数据对Skywork o1进行预训练和监督微调，使模型具备了对整个推理流程进行系统规划，自动将回答按层次展开，同时在推理过程中融入自我反思和验证环节的结构化输出能力。

此外，还创新性地利用以「模块」为单位的规划方式，取代了传统的以「句子」为单位的方法。既提升了规划效率，也使PRM能够基于更完整的模块化回答进行准确判断和推理指导。

第二点是自适应的搜索资源分配：

针对现有o1风格模型存在的过度思考问题，团队开发出了一种全新的自适应搜索资源分配机制。也就是，通过对用户query进行难度预估，自适应地控制搜索树的宽度和深度，进而实现简单问题快速响应、复杂问题多轮验证的动态平衡，有效提升了系统的计算效率和回答准确率。

最终，Skywork o1在GSM8k，MATH，OlympiadBench，AIME-24和AMC-23标准数学基准测试，以及HumanEval、MBPP、LiveCodeBench和BigCodeBench代码基准测试中，性能显著优于常规通用大模型，表现仅次于o1-mini。

实时语音助手，开启AI交互新纪元

在APP端，「天工大模型4.0」4o版加持的实时语音对话助手Skyo，同样带来了前所未有的自然交互体验。

它不仅能在1秒内快速响应，还具备了多语言对话、主动发起对话、实时被打断的能力。

与此同时，4o未来版本可以支持个性化声音定制功能，能够以任何人希望的风格畅聊。

这是这种个性化的体验，让4o不再是冰冷的AI，而是一个更智能的AI伙伴。

当你唤醒Skyo后，他会主动热情打招呼，并尝试开启一个新的话题。当你生活中遇到难题时，可以向它寻求建议和帮助。

比如，家里2岁的宝宝总是说不要不要，我该怎么办？

上一篇：昆仑万维“天工4.0”携超强o1/4o霸气上线！强推理+实时语音，免费无限体验

下一篇：Sam Altman表示OpenAI的高价ChatGPT Pro服务处于亏损状态

返回列表

热文阅读

1 天前

AMD发布针对手持设备的Ryzen Z2系列处理器

1 天前

英特尔向客户提供基于18A技术的Panther Lake样品

1 天前

Ryzen Z2 系列 APU 登场：更强性能、更长续航，Zen 3/4/5 同堂，AMD 全方位覆盖掌机市场

1 天前

传每片1.8万美元台积电3nm苹果代工价曝光

1 天前

美对陆系成熟制程开刀伤敌八百恐自损一千

1 天前

CES 2025：海信全球首发 RGB 三维控色液晶显示技术及全新一代信芯 AI 画质芯片

1 天前

英伟达 DLSS 4 发布：号称帧率提升 8 倍，首发支持超 75 款游戏和应用

1 天前

TI、ADI、三星…这些芯片热度升温、在涨价！

1 天前

英伟达携手台积电押注硅光子学，共筑 AI 芯片新高地

1 天前

争先恐后和英伟达搞合作，股价立即腾飞，微软800亿美元搞AI

上一篇：昆仑万维“天工4.0”携超强o1/4o霸气上线！强推理+实时语音，免费无限体验

下一篇：Sam Altman表示OpenAI的高价ChatGPT Pro服务处于亏损状态

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

C114通信网

通信人家园