今天凌晨,OpenAI 宣布推出由 o4-mini 驱动的轻量版深度研究功能。
先划重点,Plus、Team、Enterprise 和 Edu 用户都将可以使用这项功能。每月查询次数分别为:Pro 用户 250 次、Plus 用户 25 次、免费用户 5 次。
官方表示,这一版本在智能程度上接近完整版深度研究,虽然回复更为简洁,但依然注重内容深度,同时降低了服务成本。
Enterprise 和 Edu 账户将于下周获得访问权限,功能权限与 Team 用户一致。一旦 Plus 等用户达到完整版查询上限,ChatGPT 会自动切换至轻量版。
此外,轻量版深度研究从今天起陆续向所有 Free 用户开放。那么问题来了:
先来测试最关键的一点:免费可用的轻量版深度研究,能不能胜任复杂查询?
答案是不太行。来看一道测试题:
题目一:帮我查找过去 10 年内,按 GDP 排名前 10 的发达国家和前 10 的开发中国家的 iOS 和安卓用户采纳率、希望学习另一种语言的比例以及移动渗透率的变化。将这些信息以表格形式展示,并将统计数据分列,同时提供针对新推出的 iOS 翻译应用(由 ChatGPT 提供支持)的市场推荐,重点关注 ChatGPT 目前活跃的市场。
轻量版深度研究生成速度很快,结构化输出也还算整齐,但没有附带信源链接,追问之后,它勉强补上了几句笼统来源,看着就不太靠谱的样子。
再上点强度。
题目二:请调研 2018–2025 年间制造业增加值全球前 12 国、劳动年龄人口年均下降最快的前 12 国、以及老龄化比例超 20% 且最低工资上涨幅度领先的前 10 地区,围绕这三类区域,收集人形机器人(具备五指手与负载能力)的交付量、在役存量、售价与运维成本、替代性工时比例、人工与机器人工时成本差值、工伤与节拍变化、法规适配情况等年度数据,并通过热力图与折线图分析人形机器人部署速度与人口结构变迁的关系,进一步测算在汽车、3C、仓储、医疗等行业的人机协作回报周期(Payback)与收益率(IRR),并比较不同关节结构下的总拥有成本(TCO),提出关键场景下的落地窗口与改造优先策略。
这道题一上,轻量版深度研究的「短板」就暴露无遗。任务明明是调研,它却只是给了几条建议步骤和分析思路,看似条理清晰,实则把皮球踢回了用户手里。
不得不说,AI 也是真懂摸鱼的。
作为对比,我们把这个问题交给没开深度研究的 o4-mini 模型本体。
o4-mini 虽然也是五十步笑百步,该有的缺点都没落下,但起码步骤拆解比轻量版要更细致、逻辑更清楚。
如果你启用了完整版深度研究,体验就立刻不同了。
同样的问题一,完整版模型会先主动引导用户补充更明确的细节,然后花了 6 分钟搜索 50 个信源,输出带有数据来源的结构化结论,逻辑严密、论证扎实。
再看题目二,完整版深度研究用了 17 分钟给出一份图文并茂的研究报告。
从国家分类、指标收集,到机器人部署现状与趋势分析,再到经济效益测算和策略建议,逻辑清晰、条理分明。引用来源涵盖麦肯锡、世界银行等权威机构,增强了可信度。
当然,它也不是没有缺点。
比如提到的数据区间是 2018–2025 年,实则多为趋势性总结,缺乏完整的年度对比数据。此外,任务要求提供热力图与折线图,它也只是口头提及,实际并未呈现这些可视化结果。
再来一道生态类题目:
题目三:请调研 2000–2025 年间,在森林覆盖率下降超过 15% 的全球生物多样性热点地区、年均气温上升幅度超过 1.2°C 的干热气候区,以及转基因作物推广速度最快的国家中,重点分析原生植物种群密度、叶绿素含量与光合作用效率、植物种群遗传多样性、土壤水分和授粉昆虫数量等生态指标的变化趋势。
这次回答在结构上处理得不错:分类明确,指标全面,参考来源也有附上。
但依旧有遗憾:尤其是在干热气候区和转基因作物部分,多数数据缺乏具体来源,仅以「研究表明」「有研究发现」等模糊表达替代。
此外,尽管指定要重点分析「光合作用效率」,然而,实际分析深度与其他指标并无显著差别。
与 OpenAI 推出的「深度研究」功能相似,Gemini 的 Deep Research 和 Grok 的 Deeper Search 也都主打深度搜索。那么,它们之间究竟有何不同?
依托于强大的模型,OpenAI 的深度研究往往更强调多领域的知识整合,尤其是在科技、经济、社会等领域的综合性分析。
相比之下,Gemini 的 Deep ReSearch 更偏重于与搜索引擎的结合,它的优势在于检索速度快、精准度高,尤其在处理技术文献或时事新闻方面表现突出。
而 Grok 的 Deeper Search 则主打「懂你」路线,专注于个性化搜索体验。同时依托于 X 平台,它能够动态优化搜索策略,提升结果的相关性与命中率。
而我们最终得出的结论很明确: OpenAI 的完整版深度研究功能,值得用。 轻量版深度研究,不如不用。
后者确实是 OpenAI 在成本与性能之间的一次平衡尝试,但对于真有研究需求的用户来说,轻量版只能算是个「聊胜于无」的替代品。
用它做复杂任务,还不如直接上免费的竞品,效果反倒更好些。