Google Gemini:深入解析生成式AI模型
2024-12-12 / 阅读约19分钟
来源:TechCrunch
Google推出旗舰AI模型套件Gemini,包括Gemini Ultra、Pro、Flash和Nano,支持多模态任务。Gemini应用已集成到Gmail、Docs等Google服务中,高级功能需付费使用。Gemini Advanced用户可以访问更高级模型和额外功能。

图片来源:TechCrunch

Google正通过其旗舰生成式AI模型套件、应用程序和服务——Gemini,掀起技术革命。但Gemini究竟是什么?如何使用?它与其他生成式AI工具(如OpenAI的ChatGPT、Meta的Llama和Microsoft的Copilot)相比有何异同?

为帮助您紧跟Gemini的最新动态,我们编写了这份实用指南,并将根据Gemini的新模型、功能发布及Google的相关计划持续更新。

Gemini是什么?

Gemini是Google长期承诺的下一代生成式AI模型系列,由Google的AI研究实验室DeepMind和Google Research联合开发。Gemini系列包含四种版本:

  • Gemini Ultra
  • Gemini Pro
  • Gemini Flash,作为Pro的更快、“精炼”版本,还有一个小巧、迅速的版本,称为Gemini Flash-8B。
  • Gemini Nano,包含两个小模型:Nano-1和稍强大的Nano-2,专为离线运行设计。

所有Gemini模型均经过训练,支持多模态功能,能够处理和分析文本之外的内容。Google表示,这些模型在各类公共、专有和授权的音频、图像、视频、代码库及多语言文本上进行了预训练和微调。

这使得Gemini与Google的LaMDA等仅针对文本数据训练的模型有所不同。LaMDA无法理解和生成文本之外的内容,而Gemini模型则能胜任此任务。

需注意的是,使用公共数据(有时在数据所有者不知情或未同意的情况下)训练模型的伦理和合法性尚存争议。Google虽设有AI赔偿政策,以保护部分Google Cloud客户免受诉讼,但该政策存在例外。因此,使用时需谨慎,尤其是商业用途。

Gemini应用与Gemini模型的区别

Gemini与网页和移动端的Gemini应用(原称Bard)有所区别。

Gemini应用是连接各种Gemini模型并提供类似聊天机器人界面的客户端,可视为Google生成式AI的前端,类似于ChatGPT和Anthropic的Claude应用系列。

图片来源:Google

网页版Gemini可在此访问。在Android上,Gemini应用取代了现有的Google Assistant应用;在iOS上,Google和Google Search应用作为该平台的Gemini客户端。

在Android上,用户还可在任何应用中调用Gemini覆盖层,询问屏幕内容(如YouTube视频)。长按支持的手机电源键或说“Hey Google”,即可弹出覆盖层。

Gemini应用支持图像、语音命令和文本(包括PDF等文件,即将支持从Google Drive上传或导入的视频),并生成图像。若在同一Google账户下登录,移动设备上的Gemini应用对话将同步至网页版Gemini,反之亦然。

Gemini Advanced

Gemini应用并非唯一利用Gemini模型的方式。Gemini功能正逐步融入Gmail、Google Docs等Google核心应用和服务中。

要利用大部分功能,需订阅Google One AI Premium Plan,费用为20美元/月,提供对Google Workspace应用(如Docs、Maps、Slides、Sheets、Drive和Meet)中Gemini的访问权限,并启用Gemini Advanced,将更复杂的Gemini模型引入Gemini应用。

Gemini Advanced用户还可享受额外福利,如新功能优先访问、在Gemini中直接运行和编辑Python代码、更大的“上下文窗口”等。Gemini Advanced能记住并跨越约750,000个单词的对话内容(或1,500页文档)进行推理,而普通Gemini应用仅处理24,000个单词(或48页)。

图片来源:Google

Gemini Advanced还支持Google的新深度研究功能,利用“高级推理”和“长上下文功能”生成研究报告。用户输入指令后,Gemini会创建多步骤研究计划,经用户批准后搜索网络并生成详细报告,旨在回答复杂问题,如“你能帮我重新设计厨房吗?”

Gemini Advanced还提供记忆功能,使聊天机器人将旧对话作为当前对话的上下文。

另一专属功能是Google搜索中的旅行规划,根据提示创建自定义旅行行程,考虑飞行时间(从Gmail收件箱邮件中提取)、用餐偏好、当地景点信息(来自Google搜索和地图数据)及景点间距离,自动生成并自动更新行程。

Gemini还面向企业客户推出Gemini Business(Google Workspace附加组件,每位用户每月低至6美元)和Gemini Enterprise(增加会议笔记记录、翻译字幕及文档分类和标记,价格根据企业需求而定,需年度承诺)。

Gmail、Docs、Chrome、开发工具中的Gemini

在Gmail中,Gemini位于侧边栏,可编写电子邮件并总结消息线程。Docs中相同侧边栏可辅助编写、精炼内容和集思广益。Gemini在Slides中生成幻灯片和自定义图像,在Google Sheets中跟踪和组织数据,创建表格和公式。

Google地图也引入了AI聊天机器人,Gemini可总结咖啡店评论或提供游览外国城市的建议。

Gemini还影响Drive,可总结文件和文件夹并提供项目快速事实。在Meet中,Gemini将字幕翻译成其他语言。

图片来源:Google

Gemini最近以AI写作工具形式登录Google Chrome浏览器,可编写新内容或重写现有文本;Google表示,将根据用户所在网页提出建议。

此外,在Google的数据库产品、云安全工具、应用开发平台(包括Firebase和Project IDX)、Google Photos(Gemini处理自然语言搜索查询)、YouTube(辅助集思广益视频创意)和NotebookLM笔记助手中均可看到Gemini的身影。

Code Assist(原Duet AI for Developers),Google的AI辅助代码完成和生成工具套件,正将繁重计算任务卸载到Gemini。Google的安全产品也以Gemini为基础,如Gemini威胁情报,分析可能包含恶意代码的部分,允许用户使用自然语言搜索威胁或妥协指标。

Gemini扩展和Gems

在Google I/O 2024上宣布,Gemini Advanced用户可创建由Gemini模型支持的自定义聊天机器人Gems。Gems可从自然语言描述中生成,如“你是我的跑步教练,给我一个日常跑步计划”,并可共享或保持私密。

Gems在150个国家和大多数语言的桌面及移动设备上可用,未来将利用与Google服务的更多集成,包括Google日历、任务、记事和YouTube音乐,完成自定义任务。

图片来源:Google

Gemini应用和网页版可通过Google所谓的“Gemini扩展”访问Google服务。目前,Gemini与Google Drive、Gmail和YouTube集成,响应如“你能总结我最后三封电子邮件吗?”的查询。今年晚些时候,Gemini将与Google日历、记事、任务、YouTube音乐和Utilities(控制设备功能的Android专属应用,如计时器、闹钟、媒体控制、手电筒、音量、Wi-Fi、蓝牙等)进行更多交互。

Gemini Live:深入语音聊天

Gemini Live体验允许用户与Gemini进行“深入”语音聊天,可在移动端的Gemini应用和Pixel Buds Pro 2上使用,即使手机锁定也可访问。

启用Gemini Live后,用户可在聊天机器人说话时(使用新声音之一)打断并提问,它将实时适应用户说话模式。未来,Gemini或能获得视觉理解能力,通过智能手机摄像头拍摄的照片或视频看到并响应周围环境。

图片来源:Google

Live旨在作为虚拟教练,协助您进行活动排练、集思广益等。例如,Live能为您的面试提供技能建议,甚至能助力公开演讲。

欲了解我们对Gemini Live的详细评价,请点击此处。不过,提前透露一下:尽管该功能尚需完善,但在初期阶段已展现出一定实用价值。

通过Imagen 3生成图像

Gemini用户可利用Google内置的Imagen 3模型,创作出精美的艺术品与图像。Google声称,与Imagen 2相比,Imagen 3能更精准地解读并转化为图像的文本提示,且在创作上更具“创意与细节”。此外,该模型减少了伪影与视觉错误(据Google所述),是目前最佳的文本渲染Imagen模型。

Imagen 3样本。图片来源:Google

今年2月,因用户反映人物图像生成存在历史错误,Google暂停了Gemini的此功能。但8月时,作为试点项目,Google重新为部分用户(特别是参加其付费Gemini计划如Gemini Advanced的英语用户)开放了人物图像生成。

面向青少年的Gemini

今年6月,Google推出了面向青少年的Gemini体验,学生可通过其Google Workspace for Education学校账户进行注册。

青少年版Gemini设有“专属政策与保障措施”,包括量身定制的引导流程及“AI素养指南”(Google语),旨在“引导青少年负责任地使用AI”。其他方面,它与标准版Gemini近乎一致,均包含“双重检查”功能,可在线验证Gemini响应的准确性。

智能家居设备中的Gemini

从Google TV Streamer到Pixel 9及9 Pro,再到最新的Nest Learning Thermostat,越来越多由Google制造的设备通过Gemini实现了功能升级。

在Google TV Streamer上,Gemini根据您的偏好推荐订阅内容,并总结评论乃至整部电视剧的内容。

图片来源:Google

在最新的Nest恒温器(及Nest扬声器、摄像头、智能显示器)上,Gemini将很快增强Google Assistant的会话与分析能力。

今年晚些时候,Google Nest Aware计划订阅者将率先体验Gemini支持的新功能,如Nest摄像头视频的AI描述、自然语言视频搜索及推荐自动化。Nest摄像头将实时解析视频内容(如狗狗在花园中掘土),Google Home应用则依据描述展示视频并创建设备自动化(如“孩子们是否把自行车留在车道上了?”“我每周二下班回家时,请Nest恒温器开启暖气”)。

Gemini即将实现Nest设备安全摄像头视频总结。图片来源:Google

同样在今年晚些时候,Google Assistant将在Nest品牌及其他智能家居设备上迎来升级,使对话体验更趋自然。除声音优化外,还将支持连续提问并“[更]轻松切换话题”。

双子座模型能做什么?

双子座模型具备多模态特性,可执行从语音转录到图像、视频实时字幕添加等一系列多模态任务。诸多功能已进入产品阶段(如上文所述),Google还承诺将推出更多新功能。

然而,对Google的承诺需持谨慎态度。Google在Bard初发布时表现欠佳,近期发布的双子座能力展示视频也多为预期效果,非实时演示。

此外,Google尚未解决当前生成式AI技术的根本问题,如编码偏见及编造事实(即“幻觉”)倾向。其竞争对手亦面临同样问题,故在考虑使用或付费订阅双子座时,需予以关注。

若Google近期声明属实,以下是双子座不同级别当前功能及未来潜力:

双子座Ultra功能

Google表示,双子座Ultra的多模态特性可助您完成物理作业、在作业表上逐步解题,并指出已填写答案中可能的错误。

Google还指出,Ultra可用于识别相关科学论文等任务。例如,该模型可从多篇论文中提取信息,通过生成更新图表所需的公式,以更及时的数据更新图表。

技术上,双子座Ultra支持图像生成,但此功能尚未应用于该模型的产品化版本中——或因生成机制较ChatGPT等应用更为复杂。与向图像生成器(如ChatGPT中的DALL-E 3)提供提示不同,双子座直接“本地”输出图像,无需中间步骤。

Ultra可通过Vertex AI(Google的完全托管AI开发平台)和AI Studio(Google的基于Web的应用和平台开发工具)以API形式使用。

双子座Pro功能

Google指出,双子座Pro在推理、规划及理解能力上较LaMDA有所提升。最新版——为双子座高级订阅者提供动力的双子座1.5 Pro——在部分方面性能甚至超越Ultra。

与双子座1.0 Pro相比,双子座1.5 Pro在多方面均有改进,最显著的是其处理的数据量。双子座1.5 Pro可处理多达140万字的文本、两小时的视频或22小时的音频,并基于此数据进行推理或回答问题(或多或少)。

双子座1.5 Pro于6月在Vertex AI和AI Studio上正式发布,同时推出代码执行功能,旨在通过逐步细化代码减少模型生成代码中的错误。(代码执行亦支持双子座Flash。)

在Vertex AI中,开发人员可通过微调或“接地”过程将双子座Pro定制为特定上下文和用例。例如,Pro(及其他双子座模型)可被指示使用穆迪、路透社、ZoomInfo和MSCI等第三方提供商的数据,或从公司数据集或Google搜索中获取信息,而非仅从其广泛知识库中获取。双子座Pro还可连接外部第三方API以执行特定操作,如自动化后台工作流程。

AI Studio提供使用Pro创建结构化聊天提示的模板。开发人员可控制模型的创意范围,提供示例以明确语调和风格,同时调整Pro的安全设置。

Vertex AI Agent Builder允许用户在Vertex AI中构建由双子座驱动的“代理”。例如,公司可创建代理分析以往营销活动以了解品牌风格,并将此知识应用于生成与该风格一致的新想法。

双子座Flash:轻便而强大

尽管双子座Flash的首个版本专为轻量级工作负载设计,但最新版2.0 Flash已成为Google的旗舰AI模型。Google称双子座2.0 Flash为代理时代的AI模型,除生成文本外,还可本地生成图像和音频,并使用Google搜索等工具与外部API交互。

2.0 Flash模型较双子座前代更快,在衡量编码和图像分析的基准测试中,其性能甚至优于部分更大的双子座1.5模型。您可在Gemini网页版或Google AI开发者平台试用2.0 Flash的实验版,该模型的生产版将于1月推出。

Flash作为双子座Pro的小型高效分支,专为狭窄、高频的生成式AI工作负载设计,与双子座Pro同样具备多模态性,可分析音频、视频、图像和文本(但仅生成文本)。Google指出,Flash特别适合摘要和聊天应用等任务,以及图像和视频字幕生成和从长文档及表格中提取数据。

使用Flash和Pro的开发人员可选择利用上下文缓存,在缓存中存储大量信息(如知识库或研究论文数据库),双子座模型可快速且相对便宜地访问这些信息。但上下文缓存需额外付费,不包含在双子座模型使用费中。

双子座Nano:手机运行无压力

双子座Nano为双子座Pro和Ultra的精简版,效率极高,可直接在(部分)设备上运行,无需将任务发送至服务器。截至目前,Nano已为Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9及三星Galaxy S24等手机提供多项功能,包括Recorder中的“Summarize”和Gboard中的“Smart Reply”。

Recorder应用支持一键录制并转录音频,还提供由双子座提供的录制对话、采访、演示文稿等音频片段的摘要。即使无信号或Wi-Fi连接,用户也能获得摘要——且出于隐私考虑,处理过程中不会有任何数据离开手机。

图片来源:Google

Nano亦内置于Google键盘替换应用Gboard中,支持名为Smart Reply的功能,助力您在WhatsApp等消息应用中智能回复。

在受支持设备上的Google消息应用中,Nano驱动Magic Compose功能,可按“兴奋”、“正式”和“抒情”等风格编写消息。

Google透露,未来版本的Android将利用Nano在通话期间提醒用户潜在的诈骗行为。Pixel手机上的新天气应用采用双子座Nano生成定制天气报告。Google的无障碍服务TalkBack则运用Nano为低视力和盲人用户创建物体的听觉描述。

**双子座有可能会登陆iPhone**。 据彭博社报道,苹果公司正在与谷歌谈判,希望将双子座(Gemini)人工智能功能引入iPhone。虽然目前还没有任何关于双子座可能登陆哪些iPhone机型、可能有哪些功能或将使用什么品牌的细节,但苹果软件负责人克雷格·费德里吉(Craig Federighi)在主题演讲结束后不久就暗示了与谷歌的交易。如果双方达成协议,届时我们可能会了解到更多有关iOS上双子座的信息。 不过,苹果已经开发了自己的人工智能,并宣布计划在未来几年大力发展人工智能。此外,苹果还与OpenAI就使用其模型进行了谈判,并可能在未来宣布与Anthropic等其他人工智能公司的合作。因此,虽然双子座有可能登陆iPhone,但苹果也在积极发展自己的人工智能技术,为用户提供更多选择。