2月6日消息,美国当地时间周三,谷歌发布了Gemini 2.0,据官方描述,这是其迄今为止最强大的AI模型套件,并向所有人开放。
2024年12月,谷歌向部分开发者和测试人员提供了Gemini 2.0的访问权限,并将部分功能集成到了谷歌的产品中,但这次是“全面发布”,意味着所有新模型都可通过谷歌AI Studio和Gemini API供开发者使用。
Gemini 2.0模型套件包括多个版本,其中:
Gemini 2.0系列模型
与Gemini 1.5相比,Gemini 2.0系列模型在一系列基准测试中性能显著提升
在价格方面,Gemini Flash的收费标准为每百万个Token 10美分,而Gemini Flash-Lite则更具成本效益,每百万个Token仅收费0.75美分。Token指的是模型处理的每个数据单元,包含文本、图像和视频输入。
Gemini 2.0 Flash和2.0 Flash-Lite的成本进一步降低
谷歌在2024年12月的博客中提到:“过去一年,我们一直在开发更智能的模型,这些模型能更好地理解周围的世界,进行多步推理,并在用户的监督下自主执行任务。Gemini 2.0具有更强的多模态能力,如支持图像和音频输出,并且具备原生工具使用能力。这个系列的模型将帮助谷歌构建新的AI智能体,逐步实现通用助手的愿景。”
这次发布是谷歌加大对AI智能体投资的一部分。随着AI领域的竞争加剧,谷歌在推动“虚拟代理”AI方面持续发力。Meta、亚马逊、微软、OpenAI和Anthropic等公司也都在致力于开发能够代替用户完成复杂多步骤任务的AI系统。
2024年10月,Anthropic宣布其AI智能体可以像人类一样使用电脑,完成多达上百步的复杂任务,该系统能够解读屏幕上的内容、点击按钮、输入文本、浏览网站,并通过任何软件执行任务。
OpenAI最近也推出了类似的“Operator”功能,能够自动完成规划假期、填写表格、预定餐厅等任务。OpenAI将“Operator”称为“可以上网替你完成任务的智能体”。
此外,OpenAI还推出了“Deep Research”功能,能够帮助AI智能体编写复杂的研究报告,并分析用户选择的主题。谷歌在2024年12月也推出了同名工具Deep Research作为“研究助手”,帮助用户探索复杂主题并编译报告。
据悉,谷歌计划在2025年初推出更多AI功能。其首席执行官桑达尔·皮查伊在一次战略会议上表示:“在历史上,你不一定要做第一个,但你必须做到最好,这就是我们2025年的目标。”