达沃斯世界经济论坛正在瑞士召开,不必多说,人工智能是本届会议的重要主题。
就在 Sam Altman 直播发布最新的 Operator 之际,OpenAI 的首席产品官 Kevin Weil 也在达沃斯论坛上,率先透露了操作级智能代理的能力,以及更重要的,其背后的技术理念。在主持人的提问下,Kevin Weil 涉及了围绕在 OpenAI 周边,大众最关心的一些问题:
- 全面超越:2027 年的确可能会有全面超越人类的智能,不过,也可能更早。
- 新产品:o3 会推出,包括 o3 迷你版,但人形机器人不会在今年。
- 多边合作:无论是苹果还是微软,都是在理解、承载 AI 的同时,借由他们的产品走向千万用户面前的渠道。跟他们的合作是打开更多扇门。
- 亏损问题:用户总是希望尽可能「压榨」订阅计划的价值,20 美元的月费,要带来超过 20 美元的价值。200 美元的付费计划受到高级用户的欢迎,使用量也很大,每月的计算资源使用量实际上超过了 200 美元的价值。不过未来成本会继续下降,这个模式不会永远持续。
- Sam Altman 是最好的人类。
以下为访谈对话整理,内容有所删减。
主持人
OpenAI 最近涉及了很多跟芯片有关的内容,我们未来会看到进展。我想了解一些产品方面的东西。你是产品负责人,所以我想我们可以通过你了解那些已经宣布、或我们曾听说过的产品,何时会推出。
Kevin Weil
好的,很酷,这就是我们在这里要做的。
主持人
GPT-o3 快来了吗?
Kevin Weil
是的,我们对这个模型非常兴奋。如果你愿意的话,让我退后一步,确保大家理解这些模型是什么。
我们目前在这个领域看到了一系列趋势,模型正变得越来越便宜。你可以比较一下两年前我们发布的 GPT-3 和现在的 GPT-4,成本相差了 100 倍。也就是说,GPT-3 的成本比现在高了 100 倍。我们看到价格在两年内下降了 99%。
与此同时, 模型正变得越来越智能,它们变得更快、更安全。这些趋势令人难以置信,我不知道你在其他地方是否能看到这样的情况:成本下降了 99%,同时这些模型变得更快、更智能、更安全。
想必大家对 GPT-4 都不陌生。你们可能默认在 ChatGPT 中使用它。去年年底,我们宣布了一项研究突破,并将其应用到了一个名为 o1 的模型中。
这个命名方式实际上完全不同,部分原因是这个模型能够做到 GPT-4 无法做到的事情——它能够进行推理。当然,GPT-4 已经非常出色了。它知道很多东西,你可以问它问题,它会迅速给出答案。
而 O 系列模型,比如 o1 及其后续版本,实际上具备更深层次的思考能力。举个例子,如果我问你一个难题,比如让你做一个填字游戏,你不会直接开始给出答案,对吧?
你会先看看题目,然后可能会想:「嗯,第一个空,我有几个可能的答案,但不确定是哪个。」接着,如果你发现第三个字母是 A,你可能会推断:「哦,那答案一定是这个。」这种逐步推理的能力是 O 系列模型的特点。就像建立假设,测试那些假设。
有时候你会推翻一些假设,有时候你会确认它们,然后在此基础上继续推进,最终解决问题。这就是我们解决任何难题的方式,无论是预订航班还是进行科学研究,都是如此。
而现在,这些模型首次具备了这样的能力。不仅如此,它们不仅在推理能力上超越了 GPT-4,而且在任何衡量标准下都显得更加智能。
o3 可以说是下一个版本。我们跳过一个数字是因为电信运营商有一个名为 O2 的网络,为了避免混淆,我们直接跳到了 o3。
主持人
我当时想,哦,这种做法真是一个巨大的飞跃。我们真的已经取得了很大的进步。
Kevin Weil
我们从 o1 到 o3 只用了大约三个月的时间,这意味着迭代周期正在大幅缩短。而且, 我们已经开始训练 o3 之后的模型了。看起来,我们将再次看到能力的巨大飞跃。这就是为什么我们对此感到非常兴奋——模型正在以极快的速度变得非常智能。
当我们发布 o1 的预览版时,我们对这些模型进行基准测试的一种方式,尤其是在编程方面,是让它们参加类似于竞争性编程比赛的活动。
这是一个很好的基准测试方法,因为这些任务可以异步完成。你可以让模型像人类一样参加比赛,并以与人类相同的方式进行评分。
这些模型的第一个版本大概相当于排名第一百万的程序员,虽然听起来不算特别出色,但依然能排在全球前 2%到 3%。而第二个版本,也就是我们正式发布的新模型 o1 的完整版,已经相当于全球排名前 1000 的软件工程师了。
这些竞争性编程问题,o3 版本将相当于全球排名第 175 的工程师。而且,从 o1 到 o3 只用了大约 3 到 5 个月的时间。你可以看到,我们从排名第一百万提升到了第 175 名,所以你可以想象未来随着我们不断取得有意义的进展,这个排名还会继续提升。这就是为什么我们对这些模型感到如此兴奋。
通常,我们会发布两个版本的模型。一个是迷你版本,它保留了核心能力,比如数学和软件工程方面的能力,但不会保留所有的世界知识。不过,它的推理速度非常快,成本也很低。
另一个是完整版模型,它整合了所有功能。因此,我们会很快发布 o3 的迷你版本,随后再推出 o3 的完整版。
我之前说过,如果一切顺利的话, 我们预计会在二月到三月之间发布。这就是我们的目标。
主持人
我们接下来会深入讨论你刚才提到的内容,这些信息非常有帮助,而且我认为这实际上为我想问的下一个产品——智能代理(agents)——奠定了基础。
Kevin Weil
令人惊叹。
主持人
时间表如何?
Kevin Weil
我认为 2025 年将是智能代理真正实现的一年,我们将从现在的状态迈入一个新的阶段。目前,如果你使用 ChatGPT,主要是用它来回答问题,对吧?你问它一个问题,它给你一个答案,你再问,它再答。
但到了 2025 年,ChatGPT 将开始在现实世界中为你做事。当我思考自己的一天,或者我在浏览器中花费时间的方式时,我发现其中大约一半的活动是我真正感兴趣的,比如我阅读 《华尔街日报》上你写的文章,或者看 YouTube 视频,或者我在浏览器中做的事情,那些是我真正感兴趣的。
而另一半时间,我可能在填写我孩子的足球报名表之类的事情,这可能会占用我一天中的 30 分钟,我真的很希望这 30 分钟能省下来。 为什么不能让 AI 帮我做这些事呢? 这就是 ChatGPT 未来能够为你做的事情。
我们不仅在开发我刚才提到的推理能力,还在研究所谓的多模态功能,让 ChatGPT 不仅能理解你输入的文字,还能以我们人类互动的方式进行交流。它可以与你对话,你也可以与它对话,而且它能理解大约 50 到 100 种语言。
它还能「看」,比如你可以用手机摄像头对准某个场景,它能理解发生了什么;它也能查看你的浏览器屏幕,像你我一样理解浏览器中的内容。它不是通过解析 HTML 来实现的,而是通过观察屏幕上的视觉元素来理解它们的含义。比如,这是一个搜索框,如果我点击这里,会发生什么,等等。
一旦你掌握了这些基本功能,你就可以开始构建这些智能代理了。这就像我们在为人们解决问题,帮你节省那些本来会被琐事占据的时间,让你能去做真正重要的事情。
主持人
让我稍微回顾一下,我在想象一个工具。我想象的是这样的,你告诉我这是否是你们正在构建的东西:它能看见我电脑屏幕上的内容,我告诉它「去填写我孩子的午餐表」。
也许我需要稍微具体一点说明,然后我按下回车键,它就能去完成这个任务。它能提交吗?这个想法是它不仅能够执行这个动作,还能更进一步真正完成这个动作吗?
Kevin Weil
是的,而且关于发布日期,我可以告诉你一个更好的消息:我们已经发布了部分这样的功能。
次日,OpenAI 发布 Operator
如果你使用我们的 Mac 和 Windows 桌面应用程序(你可以下载它),而不是在浏览器标签页中使用,那么你可以做更多的事情。当然,在你的许可下,ChatGPT 可以查看整个屏幕,看到你正在使用的应用程序以及你在做什么。
我们要求你在它查看任何特定窗口之前必须明确授权,但它已经可以做一些事情,比如如果你在编写代码或使用终端时遇到编译器错误,你可以直接说:「看看这个应用程序,我该怎么办?如何修复它?」它可以读取屏幕上的内容并告诉你解决方法。这样你就不用反复复制粘贴了。
在不久的将来,你可以想象它会直接说:「哦,是的,让我帮你修复这个问题。」所以,我们已经通过桌面应用程序实现了这些功能,接下来就是更广泛地推广这些功能。
Kevin Weil
你是说今年?
Kevin Weil
是的,绝对。我的意思是,你将在第一季度开始看到这些功能逐步推出。 我们希望通过这种方式让人们拥有更多的控制权。
模型并不完美,在 Q1 或 Q2 也不会变得完美。它们仍然会犯错。当它们在现实世界中为你做事时,这些错误可能会带来更严重的后果,比它回答你一个问题时出错的影响更大。
因此,我们正在努力研究如何确保我们能够理解哪些操作是可逆的,哪些是不可逆的,并让你能够控制它实际要采取的任何行动。
它会为你填写表格,然后说:「嘿,我完成了,你来点击提交吧?」在某些情况下,你可能已经多次使用它,对它足够信任,愿意让它直接点击提交。
但如果你让它去亚马逊为你订购东西,你可能不希望它直接点击提交,而是希望它把商品加入购物车,然后等你回来确认。因此,我们需要教会模型在这些检查点停下来,准备好一切,然后让人来做最终决定。
我想,随着模型的改进和我们对它们的了解加深,这个界限可能会逐渐变化,人们也会对它们产生更多信任。但我们希望确保人们始终拥有控制权。
主持人
这确实是在逐步建立信任的过程,有点像 AI 版本的「信任测试」。
Kevin Weil
对的,很好的说法。
主持人
我再问一个或两个产品的问题,然后我们会讨论一些其他话题。我们已经讨论了 o3 的相关内容,包括 o3 迷你版,你们之前承诺为创作者提供一个退出训练的工具,这个进展如何?
Kevin Weil
关于这个工具,我们仍在开发中,后续会有更多信息公布,我们也会进一步说明。
主持人
好,人形机器人呢?
Kevin Weil
不在今年。
主持人
不在今年。好的,我们有一年的时间,那很棒。明年。
Kevin Weil
说实话,我认为这将是下一个重大突破,无论是我们还是其他公司。我认为 AI 最初对我们所有人以及我们如何利用时间产生重大影响的最自然领域是数字领域,因为这些技术本质上是数字化的,这是最自然的起点。
但随着我们开发出多模态功能、语音能力、视觉能力,并开始理解现实世界,机器人技术显然是下一步。所以我认为,无论是我们还是其他公司, 机器人技术的发展可能比当前我们正在经历的这场革命晚两三年。
认为今年对 AI 以及它如何影响和改善我们的生活来说将是至关重要的一年。而我的猜测是,机器人技术的突破可能还需要两到三年的时间。
主持人
但你们也在努力,对吧?就像重新启动机器人研究实验室的一部分。
Kevin Weil
是的,我们开始考虑这个问题了。你可以想象一个小团队正在尝试探索,试图理解这是否真的是一个我们可以产生重大影响的领域。
我们有第一方产品,比如 ChatGPT 等,同时我们也提供开发者产品,每周有超过 3 亿用户使用 ChatGPT,还有 300 万开发者在 API 上构建各种应用。
无论我们如何努力通过自己的第一方产品去实现,我们所能影响的也只是 AI 在全球范围内能做的事情的一小部分。
这就是为什么我们如此重视建立一个优秀的开发者计划。无论我们是否涉足机器人领域,我们都希望确保其他在机器人领域做得很出色的公司也能使用我们的模型。
主持人
我想问一下关于合作伙伴关系的问题。OpenAI 在某种程度上可以说是 AI 领域的「瑞士」,与许多科技公司建立了合作关系,比如苹果、微软等。但这种中立性似乎不可能一直持续下去。在你作为产品负责人和推出产品的角色中,你如何看待与这些合作伙伴的合作?特别是,你们是否会继续与苹果合作?显然,微软也参与了新的 Stargate 项目,你如何看待这些多边合作?
Kevin Weil
从产品的角度来看,我希望 ChatGPT 能随时随地为你服务,只需一键即可访问。如果你必须在手机上找到应用程序并打开它,那也没问题,大多数应用程序都是这样工作的。
但如果我们能让它只需长按 iPhone 侧边按钮就能立即访问 ChatGPT,那就更好了,对吧?你会更频繁地使用它,速度也会更快。我的意思是,你降低了使用 ChatGPT 的门槛,它也能更多地帮助你。
这是我们与苹果合作的重要组成部分,我们对此感到非常兴奋。苹果的智能功能还处于早期阶段,甚至还没有完全推出,在大多数国家都还没有。
但 想到只需长按就能在全球每部 iPhone 上即时访问 ChatGPT,这真是太棒了。
这也是为什么我们在 12 天内推出了 1-800 ChatGPT。我知道你们中很多人举手表示使用过 ChatGPT。有多少人用过 1-800 ChatGPT?听说过一点吗?看到举手的人少了很多。
我们的想法是,如何让每个人更容易访问它?因此,我们拥有 1-800 ChatGPT 这个号码,1-800-242-8478。
你可以把它存入联系人,然后在 WhatsApp 上与它聊天,你可以问它任何问题,就像在 ChatGPT 中一样。虽然它在 WhatsApp 中无法提供那么丰富的回复,但它仍然可以做一些非常酷的事情。
突然间,任何拥有 WhatsApp 的人,全球超过 30 亿用户,无论他们在哪个国家,都可以完全免费访问 ChatGPT,这是我们使命的重要组成部分。
这不仅仅是开发通用人工智能(AGI),而是以改善人们生活的方式将其带给大众。我们通过 API 实现这一点,这也是为什么我们为有 300 万开发者使用我们的 API 构建出色的应用而感到自豪。
我们还希望通过我们的第一方产品将其带给用户,并将其免费集成到一个你可能每天使用 100 次的应用程序中,这是我们与苹果合作的另一种方式。
主持人
我想问一下关于资金的问题。Sam Altman 几周前在推特上提到,OpenAI 在每月 200 美元的订阅服务上是亏损的。
Kevin Weil
我们在去年年底推出了一个专业计划。我们发现的情况是,我们提供了免费的 GPT,对吧?你甚至不需要登录,只需访问网站,无需账户就可以开始使用。如果你登录了,你的使用限制会稍微放宽,但你仍然可以免费使用。
然后你还可以选择 Plus 计划,每月支付 20 美元,你可以访问更多功能,使用我们的一些更好的模型,等等。
我们看到的情况是,人们仍然在使用中遇到限制,他们希望使用的 AI 和计算资源远远超过每月 20 美元的价值,因为这对他们来说非常有价值。
因此,我们希望找到一个方式,能够基本上提供无限制的 ChatGPT 使用。当然,这个「无限制」是有条件的,总是有一些限制,我们需要防止滥用等情况。
我们决定将这个计划定价为每月 200 美元,因为我觉得很少有消费者计划会这么贵。但我们认为有很多人从 ChatGPT 中获得了巨大的价值,我们希望让他们能够尽可能多地使用它。
这就是为什么我很高兴看到有些人使用得如此频繁,以至于他们 每月的计算资源使用量实际上超过了 200 美元的价值。不过,我们在这个领域还处于早期阶段,我们不可能永远这样经营下去。
但你还记得我说的成本正在迅速下降的事情吧?我们所做的一切都基于此。我们相信成本将继续下降。我们的总体策略是尝试提供更多的 AI 服务。
如果你看看过去 6 到 12 个月的趋势,我们降低了成本,提高了使用限制,提供了更多的免费服务,增加了 Plus 计划的内容,随着时间的推移,我们也会在 Pro 计划中提供更多内容。
我们处在这个成本迅速下降、模型却越来越智能的疯狂世界中。我们希望让更多人使用 AI,因为我们认为这对世界是非常有益的。看到有人如此频繁地使用 Pro 计划,真是太棒了。
主持人
我们已经讨论了很多关于 AI 的内容,但我想稍微谈谈 OpenAI 的团队。过去两年是动荡的一年,而你刚刚加入。你六月份加入,之前在 Meta 和 Twitter 工作过。你在这些公司工作期间也经历了巨大的压力,当时你正在为大众开发产品,并试图找到盈利的方式。我甚至昨天在 Axios 上听到你说,这个行业人来人往,但现在感觉特别动荡。你如何看待这个问题?你如何引导你的团队留在 OpenAI 并与你一起构建产品?
Kevin Weil
你知道关于这些处于高速增长阶段的公司有趣的事情是什么吗?因为我在 Twitter 早期和 Instagram 时也感受到这一点,有时候媒体报道的内容——无意冒犯——其实在公司内部并没有引起同样的反响。
内部员工对这些事情的关注度并不像外界报道的那样高。然后你会看到所有这些外部文章,有时候情况恰恰相反,真正重要的事情并不总是被报道出来,你应该关注那些。
我很幸运能够参与几家高速增长的公司。我还没有遇到过一家公司,在早期阶段没几个关键人物、对公司的发展起到巨大作用。「天哪,我加入时公司只有 20 人,现在有 200 或 2000 人了,情况有点不同了,我准备好迎接新的挑战了。」 我认为这完全没问题。
我们的工作是尊重他们,感谢他们所做的贡献,同时招聘世界上最优秀的人才,继续朝着使命前进。 这就是我们每天在做的事情。
主持人
但无论是内部还是外部,对 OpenAI 从非营利研究实验室转变为营利性公司都有很多反对声音。你的团队正处于这一转变的核心。你们正在开发这些新的营利性产品,虽然还没有完全实现 200 美元计划的目标,但假设你们做到了,你们是如何应对的?我的意思是,我不得不想象你的团队在这方面也存在一些推拉和矛盾。
Kevin Weil
其实并没有。这实际上是其中一个在外部讨论得更多的问题,而在内部并没有人为此感到焦虑,因为事情其实很简单明了。
Sam 已经多次提到,OpenAI 最初是一个非营利组织,当时的想法是由一小群人逐步构建 AGI(通用人工智能)。顺便说一下,当时没有人相信这是可能的。所以有一群疯狂的人试图构建 AGI,而其他人则觉得:「好吧,你们随便折腾吧。」
然后,当他们真正开始取得突破时,比如 GPT-1 和 GPT-2,很明显需要大量的资金和计算资源,这显然与非营利模式不太相符。因此,为了维持公司的发展,最简单的做法就是转变模式。
记住,那时的 OpenAI 还不是我们今天所认为的 OpenAI。当 时,这个小小的团队感觉到他们看到了一些世界尚未意识到的东西,于是他们决定成立一个营利性实体作为公司的一部分,以便能够接受资金支持,从而继续推进使命。
现在公司已经发展壮大了,显然我们已经成为一家更大的公司。现在人们觉得奇怪的是,这个非营利组织拥有一个越来越大的营利性实体。
其实,这个想法很简单,就是诚实地面对现状,尝试进行重组。顺便说一下,这种重组实际上保留了非营利性质。
这是我们使命中非常重要的一部分。我们认为在医疗、教育等领域,我们可以做很多有益的事情。目标是让非营利组织在整个公司中拥有有意义的股份,并成为一个能够在世界上做很多好事的实体。
主持人
我认为最大的恐惧是关于安全,对吧?OpenAI 一直非常直言不讳地表示需要一些监管。在接下来的四年里,您希望在监管方面看到哪些事情?
Kevin Weil
AI 在与其他受监管行业接触时已经受到监管,对吧?每当 AI 与医疗领域交叉时,AI 必须遵守医疗法规。每当 AI 与法律领域交叉时,AI 必须遵守法律规则。顺便说一下,这是应该的。因此,AI 已经在很多方面受到监管,就像任何在这些领域的产品、服务或实体一样。
我们一直表示我们愿意接受监管。我认为我们只需要监管,但 不要意外地扼杀一个仍处于早期阶段的新兴行业。
主持人
昨天我采访了 Anthropic 的 Dario,他和你处于同样的位置,他说,他认为到 2027 年,AI 在大多数或所有事情上都会比人类做得更好。这是 OpenAI 的立场吗?这是你在实验室中看到的情况吗?这个问题的第二部分是,你对此感到兴奋的是什么?我们应该担心什么,是否需要躲到达沃斯的地堡里去?
Kevin Weil
是的,很难确定一个具体的日期。这是研究,这也是在 OpenAI 或 Anthropic 这样的地方工作与我在其他地方工作的不同之处之一。我们公司有数百人从事研究,试图揭示人类从未了解过的东西,这在很多方面都是学术风格的研究。 因此,很难确定具体的时间。
我之前提到过,从排名第一百万的程序员到排名第一千的程序员,再到排名第 175 的程序员,只用了三到四个月的时间。 我们正处于一个非常陡峭的发展轨迹上。 我甚至不确定是否会到 2027 年,我认为可能会更早。
至于我倾向于如何看待这个问题,我认为应对这一浪潮的最佳方式实际上是使用 AI。如果你置身事外,阅读大量文章,你可能会感到非常焦虑和害怕,但如果你真正使用它,你会发现它在日常生活中以这些方式帮助你,尽管它在某些方面还不完美。
你仍然可以感受到它在哪些方面变得更好,哪些方面还需要改进。然后你实际上就参与了未来 10 年将发生的变化。我认为这是正确的方式,因为这也意味着,最终无论是监管还是制定社会标准,都将由我们所有人来决定,对吧?
使用它的人们将决定这些事物应该如何发展。使用它的人越多,实际了解它的人就越多,我们在未来几年经历巨大变化时,得到的答案也会更好。
主持人
如果我们击中 AGI。而人类并不真正需要做很多这项工作,你打算用你的空闲时间做什么?听说你会跑步?
Kevin Weil
我跑步,我骑自行车,我有三个疯狂的孩子,很疯狂。
Kevin Weil 是业余跑者
我不知道,我认为人们在生活中需要一个使命,我认为这不会因为 pre AI,post AI而改变什么。我个人不是那种认为我们都会得到 UBI(编者注:全民基本收入),就一直坐在那里看书之类的人,我认为人们需要追求更宏大的东西。
所有这些变化,就像你回顾社会多年来经历的任何重大变化一样,其中许多变化是由于技术进步带来的,总是有很多人预言灾难,预言未来的厄运,比如汽车、收音机、电视、电力、印刷术,但 人类是非常适应变化的。
我认为我们没有人愿意回到那些发明之前的日子。我们对 AI 也会有同样的感觉。它将改变世界,它已经在改变世界了,但我认为它将带来积极的变化。我不认为当我们经历这一切之后,我们会说:「我真的想回到过去,那时我不得不花一个小时填写我孩子的足球报名表。」所以我对未来充满期待。
主持人
好的,我要问最后一个问题。你曾为一些非常独特的领导者工作过。你在 Twitter 时为 Jack Dorsey 工作,在 Meta 时为 Mark Zuckerberg 工作,现在为 Sam Altman 工作,我本来想让你给他们排个名。
Kevin Weil
哇噢。
主持人
要不来说一下,谁开的会议最好?
Kevin Weil
谁开的会议最好,我天呢。
主持人
这是一件非常人性化的事情,我们喜欢与人会面。
Kevin Weil
我觉得 Mark 比 Sam 更有条理,也比 Jack 更有条理。Mark 总是带着一个假设而来,无论是什么,他都会深入思考,Mark 非常有野心,但他总是有一个从这儿到那儿的路线图在脑海中。
我喜欢与他共事的一点是,他总是愿意接受反馈。你可以说「我认为你错了,原因如下」,但你最好准备好迎接随之而来的辩论,因为他有他为什么这样想的理由,你可以说服他你是对的而他是错的,但这需要你有充分的准备。
Sam 更像一个远见者。 我认为 Sam 是我见过的最优秀的人。人类通常不擅长指数思维,我们不太擅长从指数曲线中推断出变化的速度。
Sam 是我见过的最擅长这一点的人,他会说:「好吧,如果这真的是指数级的,那么三年后,它不会是这种线性趋势。」这是我们人类通常会犯的错误。实际上,它会达到这个水平。
这就是为什么我们要建立一家公司,花费 5000 亿美元构建 AI 基础设施。因为 Sam 比我们其他人更擅长预测指数级变化,他看到了这些结果,并且正在做我们需要做的事情来为此做好准备。