作者 | Li Yuan
2024 年走到年底,似乎 AI 大厂们集体又决定搞点事情了。
在 OpenAI 宣布连发 12 天更新后,Google 选择 12 月 11 日深夜(在 OpenAI 发布更新之前),发布新模型 Gemini 2.0。
在多次发布被 OpenAI 精准狙击后,Google 今夜扳回一局,发布了 Gemini 2.0,直指 Agent 使用,一个 OpenAI 至今没有明确公开布局的领域——之前有消息称,OpenAI 将在明年推出使用电脑的 Agent。
Agent 功能,也称为智能体功能,通常指的是 AI 能够感知环境、执行任务并在一定程度上独立做出决策的能力,也就是能更自动化完成任务的功能。
此次 Google 似乎赌对了。OpenAI 凌晨两点的发布,主要宣布了和 Apple Intelligence 的合作,一个普遍被期待能与 Agent 能力强相关的合作。不过今夜最终的发布,主要仍然集中于文字生成和视觉智能方面,并没有 Agent 相关的内容。
而 Google,则一次性发布了四个 Agent 相关的功能:
Project Astra,能够在 Gemini 应用中直接调用 Google Lens 和地图功能帮用户解决问题;
Project Mariner(海员项目),Chrome 浏览器的实验性功能,可以通过 提示词直接帮用户浏览网页做任务;
Jules,可以嵌入 GitHub 的编程 Agent,使用自然语言描述问题,就能直接生成可以合并到 GitHub 项目中的代码;
游戏 Agent,能够实时解读屏幕画面,直接在你打游戏的时候通过和你语音交流,给你 AI 打法提示。
虽然此次 Google 发布的功能仍然属于期货范畴,但是仍然十分令人兴奋。我们似乎已经可以洞见 Agent 真正到来的时代,人类生活的一角了。
01
炸裂新 Agent 功能:自己查资料、写代码,教你玩游戏
Google 的新功能建立在新模型 Gemini 2.0 能力之上。
和大部分大模型选择的路线不一样,Google 最早就选择了使用原生多模态的的方式训练模型——OpenAI 到了 GPT-4o 模型才变成原生多模态的模型。
原生多模态模型,是在训练阶段,就将图像、文字、语音甚至视频等多种编码,统一输入给一个模型进行学习。
这样,模型可以在理解了一个「事物」后,更加灵活地利用进行不同模态的生成。
此次 Gemini 2.0,进一步升级了原生多模态能力。模型目前直接拥有了原生的图像生成能力、音频输出能力和原生的工具应用能力。
原生的工具应用能力就和 Agent 的能力高度相关。Google 介绍,除此之外,新体验还来自于多模态推理、长上下文理解、复杂指令遵循和规划、组合函数调用、本地工具使用和降低延迟等方向的改进。
看一下 Google 提出的新功能演示: