西风 发自 凹非寺
量子位 | 公众号 QbitAI
OpenAI在Cursor里用o1-mini现场捏应用,两分钟,直接控制无人机飞行。
引得台下观众传来阵阵惊呼:
如此操作,刚刚发生在OpenAI伦敦开发者日活动上。作为OpenAI的“科技春晚”,真是好不热闹,现场挤满了人从众。
OpenAI产品部负责人Olivier Godement还剧透了一波o1新功能——
包含功能调用、开发者消息、流媒体、结构化输出、图像理解5个方面。
奥特曼在之后的问答环节表示不想剧透,但透露“图像模型将很快迎来显著提升”。他提到,复制现有模型并不难,而让他为OpenAI感到自豪的是,他们始终在创造新的突破。
网友们听到这里更兴奋了:
不确定他指的是图像生成还是图像分析,还是两者都有。但想象一下用图像token进行推理。如果你面临一个视觉问题,或许可以逐步地把问题可视化。我目前还没有在其它模型中真正看到过类似的功能。
OpenAI要在图像方面发力其实也早有迹可循。
不久前,两位清华校友路橙、宋飏就在OpenAI发布最新图像生成研究。
他们简化了一致性模型,仅用两步采样,就能使生成质量与扩散模型相媲美,速度是扩散模型的50倍。
此外,对于OpenAI所说的图像模型,还有人猜测不会是前几天登顶文生图竞技场的爆火神秘小熊猫(red_panda)吧?
但这种说法很快就被否定了。
小熊猫背后团队Recraft AI已发推文认领,这是他们的新模型recraft-v3。
总之,o1这次算是吊足了大伙儿的胃口,网友喊话赶紧发4.5o和5-preview:
虽然很棒,但现在仍没有一款编码能打Sonnet的模型。
奥特曼还说了啥
在现场,奥特曼还被问到OpenAI的发展方向是更像o1这样的模型,还是会有更大规模的模型?
他表示想在各方面都变得更好,但推理模型的发展对OpenAI尤其重要。
我认为推理能力将解锁我们多年来期望实现的许多事情,比如在新科学领域做出贡献,或帮助编写非常复杂的代码,这些都会带来显著的推动。所以,大家应该期待o系列模型会快速改进,这对我们来说具有重要的战略意义。
在谈论到“什么是Agent”、“它们可以做什么”,奥特曼表示Agent是一个可以接受长期执行任务,并在执行过程中只需很少监督的东西。
奥特曼认为大家最常举的一个例子是可以让Agent帮忙预订餐厅,它可以用在线餐厅预订平台OpenTable或者是直接打电话到餐厅。
这确实能为人们减少一些工作,但更有趣的事是能创造一个世界,在那里可以做一些人类无法或不愿做的事。
比如与其让Agent打电话给餐厅预订座位,不如让Agent打给300家,找到最好吃或是最有特色的那一家,它可以并行处理大量任务。
Agent成为一个非常聪明的高级同事,你可以和它在项目上协作,也可以让它独立去做两天甚至两周的任务,做好后带着成果回来与你交流。