Google Gemini：深入解析生成式AI模型 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

Google Gemini：深入解析生成式AI模型

2024-12-12 / 阅读约19分钟

来源：TechCrunch

Google推出旗舰AI模型套件Gemini，包括Gemini Ultra、Pro、Flash和Nano，支持多模态任务。Gemini应用已集成到Gmail、Docs等Google服务中，高级功能需付费使用。Gemini Advanced用户可以访问更高级模型和额外功能。

图片来源：TechCrunch

Google正通过其旗舰生成式AI模型套件、应用程序和服务——Gemini，掀起技术革命。但Gemini究竟是什么？如何使用？它与其他生成式AI工具（如OpenAI的ChatGPT、Meta的Llama和Microsoft的Copilot）相比有何异同？

为帮助您紧跟Gemini的最新动态，我们编写了这份实用指南，并将根据Gemini的新模型、功能发布及Google的相关计划持续更新。

Gemini是什么？

Gemini是Google长期承诺的下一代生成式AI模型系列，由Google的AI研究实验室DeepMind和Google Research联合开发。Gemini系列包含四种版本：

Gemini Ultra
Gemini Pro
Gemini Flash，作为Pro的更快、“精炼”版本，还有一个小巧、迅速的版本，称为Gemini Flash-8B。
Gemini Nano，包含两个小模型：Nano-1和稍强大的Nano-2，专为离线运行设计。

所有Gemini模型均经过训练，支持多模态功能，能够处理和分析文本之外的内容。Google表示，这些模型在各类公共、专有和授权的音频、图像、视频、代码库及多语言文本上进行了预训练和微调。

这使得Gemini与Google的LaMDA等仅针对文本数据训练的模型有所不同。LaMDA无法理解和生成文本之外的内容，而Gemini模型则能胜任此任务。

需注意的是，使用公共数据（有时在数据所有者不知情或未同意的情况下）训练模型的伦理和合法性尚存争议。Google虽设有AI赔偿政策，以保护部分Google Cloud客户免受诉讼，但该政策存在例外。因此，使用时需谨慎，尤其是商业用途。

Gemini应用与Gemini模型的区别

Gemini与网页和移动端的Gemini应用（原称Bard）有所区别。

Gemini应用是连接各种Gemini模型并提供类似聊天机器人界面的客户端，可视为Google生成式AI的前端，类似于ChatGPT和Anthropic的Claude应用系列。

图片来源：Google

网页版Gemini可在此访问。在Android上，Gemini应用取代了现有的Google Assistant应用；在iOS上，Google和Google Search应用作为该平台的Gemini客户端。

在Android上，用户还可在任何应用中调用Gemini覆盖层，询问屏幕内容（如YouTube视频）。长按支持的手机电源键或说“Hey Google”，即可弹出覆盖层。

Gemini应用支持图像、语音命令和文本（包括PDF等文件，即将支持从Google Drive上传或导入的视频），并生成图像。若在同一Google账户下登录，移动设备上的Gemini应用对话将同步至网页版Gemini，反之亦然。

Gemini Advanced

Gemini应用并非唯一利用Gemini模型的方式。Gemini功能正逐步融入Gmail、Google Docs等Google核心应用和服务中。

要利用大部分功能，需订阅Google One AI Premium Plan，费用为20美元/月，提供对Google Workspace应用（如Docs、Maps、Slides、Sheets、Drive和Meet）中Gemini的访问权限，并启用Gemini Advanced，将更复杂的Gemini模型引入Gemini应用。

Gemini Advanced用户还可享受额外福利，如新功能优先访问、在Gemini中直接运行和编辑Python代码、更大的“上下文窗口”等。Gemini Advanced能记住并跨越约750,000个单词的对话内容（或1,500页文档）进行推理，而普通Gemini应用仅处理24,000个单词（或48页）。

图片来源：Google

Gemini Advanced还支持Google的新深度研究功能，利用“高级推理”和“长上下文功能”生成研究报告。用户输入指令后，Gemini会创建多步骤研究计划，经用户批准后搜索网络并生成详细报告，旨在回答复杂问题，如“你能帮我重新设计厨房吗？”

Gemini Advanced还提供记忆功能，使聊天机器人将旧对话作为当前对话的上下文。

另一专属功能是Google搜索中的旅行规划，根据提示创建自定义旅行行程，考虑飞行时间（从Gmail收件箱邮件中提取）、用餐偏好、当地景点信息（来自Google搜索和地图数据）及景点间距离，自动生成并自动更新行程。

Gemini还面向企业客户推出Gemini Business（Google Workspace附加组件，每位用户每月低至6美元）和Gemini Enterprise（增加会议笔记记录、翻译字幕及文档分类和标记，价格根据企业需求而定，需年度承诺）。

Gmail、Docs、Chrome、开发工具中的Gemini

在Gmail中，Gemini位于侧边栏，可编写电子邮件并总结消息线程。Docs中相同侧边栏可辅助编写、精炼内容和集思广益。Gemini在Slides中生成幻灯片和自定义图像，在Google Sheets中跟踪和组织数据，创建表格和公式。

Google地图也引入了AI聊天机器人，Gemini可总结咖啡店评论或提供游览外国城市的建议。

Gemini还影响Drive，可总结文件和文件夹并提供项目快速事实。在Meet中，Gemini将字幕翻译成其他语言。

图片来源：Google

Gemini最近以AI写作工具形式登录Google Chrome浏览器，可编写新内容或重写现有文本；Google表示，将根据用户所在网页提出建议。

此外，在Google的数据库产品、云安全工具、应用开发平台（包括Firebase和Project IDX）、Google Photos（Gemini处理自然语言搜索查询）、YouTube（辅助集思广益视频创意）和NotebookLM笔记助手中均可看到Gemini的身影。

Code Assist（原Duet AI for Developers），Google的AI辅助代码完成和生成工具套件，正将繁重计算任务卸载到Gemini。Google的安全产品也以Gemini为基础，如Gemini威胁情报，分析可能包含恶意代码的部分，允许用户使用自然语言搜索威胁或妥协指标。

Gemini扩展和Gems

在Google I/O 2024上宣布，Gemini Advanced用户可创建由Gemini模型支持的自定义聊天机器人Gems。Gems可从自然语言描述中生成，如“你是我的跑步教练，给我一个日常跑步计划”，并可共享或保持私密。

Gems在150个国家和大多数语言的桌面及移动设备上可用，未来将利用与Google服务的更多集成，包括Google日历、任务、记事和YouTube音乐，完成自定义任务。

图片来源：Google

Gemini应用和网页版可通过Google所谓的“Gemini扩展”访问Google服务。目前，Gemini与Google Drive、Gmail和YouTube集成，响应如“你能总结我最后三封电子邮件吗？”的查询。今年晚些时候，Gemini将与Google日历、记事、任务、YouTube音乐和Utilities（控制设备功能的Android专属应用，如计时器、闹钟、媒体控制、手电筒、音量、Wi-Fi、蓝牙等）进行更多交互。

Gemini Live：深入语音聊天

Gemini Live体验允许用户与Gemini进行“深入”语音聊天，可在移动端的Gemini应用和Pixel Buds Pro 2上使用，即使手机锁定也可访问。

启用Gemini Live后，用户可在聊天机器人说话时（使用新声音之一）打断并提问，它将实时适应用户说话模式。未来，Gemini或能获得视觉理解能力，通过智能手机摄像头拍摄的照片或视频看到并响应周围环境。

图片来源：Google

Live旨在作为虚拟教练，协助您进行活动排练、集思广益等。例如，Live能为您的面试提供技能建议，甚至能助力公开演讲。

欲了解我们对Gemini Live的详细评价，请点击此处。不过，提前透露一下：尽管该功能尚需完善，但在初期阶段已展现出一定实用价值。

通过Imagen 3生成图像

Gemini用户可利用Google内置的Imagen 3模型，创作出精美的艺术品与图像。Google声称，与Imagen 2相比，Imagen 3能更精准地解读并转化为图像的文本提示，且在创作上更具“创意与细节”。此外，该模型减少了伪影与视觉错误（据Google所述），是目前最佳的文本渲染Imagen模型。

Imagen 3样本。图片来源：Google

今年2月，因用户反映人物图像生成存在历史错误，Google暂停了Gemini的此功能。但8月时，作为试点项目，Google重新为部分用户（特别是参加其付费Gemini计划如Gemini Advanced的英语用户）开放了人物图像生成。

面向青少年的Gemini

今年6月，Google推出了面向青少年的Gemini体验，学生可通过其Google Workspace for Education学校账户进行注册。

青少年版Gemini设有“专属政策与保障措施”，包括量身定制的引导流程及“AI素养指南”（Google语），旨在“引导青少年负责任地使用AI”。其他方面，它与标准版Gemini近乎一致，均包含“双重检查”功能，可在线验证Gemini响应的准确性。

智能家居设备中的Gemini

从Google TV Streamer到Pixel 9及9 Pro，再到最新的Nest Learning Thermostat，越来越多由Google制造的设备通过Gemini实现了功能升级。

在Google TV Streamer上，Gemini根据您的偏好推荐订阅内容，并总结评论乃至整部电视剧的内容。

图片来源：Google

在最新的Nest恒温器（及Nest扬声器、摄像头、智能显示器）上，Gemini将很快增强Google Assistant的会话与分析能力。

今年晚些时候，Google Nest Aware计划订阅者将率先体验Gemini支持的新功能，如Nest摄像头视频的AI描述、自然语言视频搜索及推荐自动化。Nest摄像头将实时解析视频内容（如狗狗在花园中掘土），Google Home应用则依据描述展示视频并创建设备自动化（如“孩子们是否把自行车留在车道上了？”“我每周二下班回家时，请Nest恒温器开启暖气”）。

Gemini即将实现Nest设备安全摄像头视频总结。图片来源：Google

同样在今年晚些时候，Google Assistant将在Nest品牌及其他智能家居设备上迎来升级，使对话体验更趋自然。除声音优化外，还将支持连续提问并“[更]轻松切换话题”。

双子座模型能做什么？

双子座模型具备多模态特性，可执行从语音转录到图像、视频实时字幕添加等一系列多模态任务。诸多功能已进入产品阶段（如上文所述），Google还承诺将推出更多新功能。

然而，对Google的承诺需持谨慎态度。Google在Bard初发布时表现欠佳，近期发布的双子座能力展示视频也多为预期效果，非实时演示。

此外，Google尚未解决当前生成式AI技术的根本问题，如编码偏见及编造事实（即“幻觉”）倾向。其竞争对手亦面临同样问题，故在考虑使用或付费订阅双子座时，需予以关注。

若Google近期声明属实，以下是双子座不同级别当前功能及未来潜力：

双子座Ultra功能

Google表示，双子座Ultra的多模态特性可助您完成物理作业、在作业表上逐步解题，并指出已填写答案中可能的错误。

Google还指出，Ultra可用于识别相关科学论文等任务。例如，该模型可从多篇论文中提取信息，通过生成更新图表所需的公式，以更及时的数据更新图表。

技术上，双子座Ultra支持图像生成，但此功能尚未应用于该模型的产品化版本中——或因生成机制较ChatGPT等应用更为复杂。与向图像生成器（如ChatGPT中的DALL-E 3）提供提示不同，双子座直接“本地”输出图像，无需中间步骤。

Ultra可通过Vertex AI（Google的完全托管AI开发平台）和AI Studio（Google的基于Web的应用和平台开发工具）以API形式使用。

双子座Pro功能

Google指出，双子座Pro在推理、规划及理解能力上较LaMDA有所提升。最新版——为双子座高级订阅者提供动力的双子座1.5 Pro——在部分方面性能甚至超越Ultra。

与双子座1.0 Pro相比，双子座1.5 Pro在多方面均有改进，最显著的是其处理的数据量。双子座1.5 Pro可处理多达140万字的文本、两小时的视频或22小时的音频，并基于此数据进行推理或回答问题（或多或少）。

双子座1.5 Pro于6月在Vertex AI和AI Studio上正式发布，同时推出代码执行功能，旨在通过逐步细化代码减少模型生成代码中的错误。（代码执行亦支持双子座Flash。）

在Vertex AI中，开发人员可通过微调或“接地”过程将双子座Pro定制为特定上下文和用例。例如，Pro（及其他双子座模型）可被指示使用穆迪、路透社、ZoomInfo和MSCI等第三方提供商的数据，或从公司数据集或Google搜索中获取信息，而非仅从其广泛知识库中获取。双子座Pro还可连接外部第三方API以执行特定操作，如自动化后台工作流程。

AI Studio提供使用Pro创建结构化聊天提示的模板。开发人员可控制模型的创意范围，提供示例以明确语调和风格，同时调整Pro的安全设置。

Vertex AI Agent Builder允许用户在Vertex AI中构建由双子座驱动的“代理”。例如，公司可创建代理分析以往营销活动以了解品牌风格，并将此知识应用于生成与该风格一致的新想法。

双子座Flash：轻便而强大

尽管双子座Flash的首个版本专为轻量级工作负载设计，但最新版2.0 Flash已成为Google的旗舰AI模型。Google称双子座2.0 Flash为代理时代的AI模型，除生成文本外，还可本地生成图像和音频，并使用Google搜索等工具与外部API交互。

2.0 Flash模型较双子座前代更快，在衡量编码和图像分析的基准测试中，其性能甚至优于部分更大的双子座1.5模型。您可在Gemini网页版或Google AI开发者平台试用2.0 Flash的实验版，该模型的生产版将于1月推出。

Flash作为双子座Pro的小型高效分支，专为狭窄、高频的生成式AI工作负载设计，与双子座Pro同样具备多模态性，可分析音频、视频、图像和文本（但仅生成文本）。Google指出，Flash特别适合摘要和聊天应用等任务，以及图像和视频字幕生成和从长文档及表格中提取数据。

使用Flash和Pro的开发人员可选择利用上下文缓存，在缓存中存储大量信息（如知识库或研究论文数据库），双子座模型可快速且相对便宜地访问这些信息。但上下文缓存需额外付费，不包含在双子座模型使用费中。

双子座Nano：手机运行无压力

双子座Nano为双子座Pro和Ultra的精简版，效率极高，可直接在（部分）设备上运行，无需将任务发送至服务器。截至目前，Nano已为Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9及三星Galaxy S24等手机提供多项功能，包括Recorder中的“Summarize”和Gboard中的“Smart Reply”。

Recorder应用支持一键录制并转录音频，还提供由双子座提供的录制对话、采访、演示文稿等音频片段的摘要。即使无信号或Wi-Fi连接，用户也能获得摘要——且出于隐私考虑，处理过程中不会有任何数据离开手机。

图片来源：Google

Nano亦内置于Google键盘替换应用Gboard中，支持名为Smart Reply的功能，助力您在WhatsApp等消息应用中智能回复。

在受支持设备上的Google消息应用中，Nano驱动Magic Compose功能，可按“兴奋”、“正式”和“抒情”等风格编写消息。

Google透露，未来版本的Android将利用Nano在通话期间提醒用户潜在的诈骗行为。Pixel手机上的新天气应用采用双子座Nano生成定制天气报告。Google的无障碍服务TalkBack则运用Nano为低视力和盲人用户创建物体的听觉描述。

**双子座有可能会登陆iPhone**。据彭博社报道，苹果公司正在与谷歌谈判，希望将双子座（Gemini）人工智能功能引入iPhone。虽然目前还没有任何关于双子座可能登陆哪些iPhone机型、可能有哪些功能或将使用什么品牌的细节，但苹果软件负责人克雷格·费德里吉（Craig Federighi）在主题演讲结束后不久就暗示了与谷歌的交易。如果双方达成协议，届时我们可能会了解到更多有关iOS上双子座的信息。不过，苹果已经开发了自己的人工智能，并宣布计划在未来几年大力发展人工智能。此外，苹果还与OpenAI就使用其模型进行了谈判，并可能在未来宣布与Anthropic等其他人工智能公司的合作。因此，虽然双子座有可能登陆iPhone，但苹果也在积极发展自己的人工智能技术，为用户提供更多选择。

上一篇：哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集

下一篇：Meta推出创新AI生成视频水印工具

返回列表

热文阅读

2 天前

英特尔发布一季度业绩，营收持平但前景黯淡，警示宏观经济压力

2 天前

AMD锐龙5 7533HS APU携手联想经济型笔记本系列亮相

2 天前

初创公司 Atum Works 推出纳米级 3D 打印技术，芯片制造成本可削减 90%

2 天前

砸开核桃造“芯片”！“六个核桃”母公司16亿杀入半导体