自主操作电脑的多模态 Agent 升级，智谱 GLM-PC 开放体验 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

自主操作电脑的多模态 Agent 升级，智谱 GLM-PC 开放体验

2025-01-23 / 阅读约2分钟

来源：IT之家

北京智谱华章科技有限公司今日发文宣布，旗下智谱 GLM-PC 开放体验，宣城“自主操作电脑的多模态 Agent 再升级”。

感谢IT之家网友有鲫雪狐、软媒新友2335129 的线索投递！

IT之家 1 月 23 日消息，北京智谱华章科技有限公司今日发文宣布，旗下智谱 GLM-PC 开放体验，宣称“自主操作电脑的多模态 Agent 再升级”。

据介绍，GLM-PC 是基于智谱多模态大模型 CogAgent，全球首个面向公众、回车即用的电脑智能体（agent）。它能像人类一样「观察」和「操作」计算机，协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放内测，目前最新推出「深度思考」模式、增加专用于做逻辑推理和代码生成的功能、并提供了对 Windows 系统的支持。

IT之家从智谱官方获悉，GLM-PC 具备如下能力：

代码生成与逻辑执行

规划：支持综合分析目标以及可用资源，生成执行路线图，并将大型任务自动分解为可管理的子任务，以构建出清晰的执行路径。
循环执行：规划阶段结束后，支持启动代码生成模块，执行逻辑循环，逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化，从而实现从输入到输出的完整闭环，无需人工干预
长思考能力：支持实时调整、反思修正和自我纠错，持续优化解决方案。具体表现为：流程因外部因素中断时，可重构逻辑路径；遇到信息缺失时，可主动与用户进行交互，通过提问来完善任务执行方案

图像与 GUI 认知

GUI 图像理解：准确识别图形界面元素（如按钮、图标、布局等），并理解其功能与交互逻辑
用户行为认知：结合对用户界面的学习及历史操作信息的理解，为用户提供当前界面的智能推荐操作
图像语义解析：对复杂图像进行深入语义分析，提取关键信息如文字、标识符及数据可视化图表中的趋势和指标
多模态信息融合：融合图像与文字信息，形成全面感知结果。例如，在用户界面中同时识别按钮位置与文字标签，助力「左脑」制定精准操作计划

上一篇：全球首个：中国电信完成千卡、千亿参数模型 500 公里联合训练试商用

下一篇：法国 AI 初创企业 Mistral 首席执行官称该公司不会出售，计划 IPO

返回列表

热文阅读

1 天前

苹果、AMD挺台积电SoIC产能飙

1 天前

法人：台积下半年增速放缓凸显关税战干扰半导体景气节奏

1 天前

四个月两次到访，中国市场对英伟达到底有多重要？

1 天前

1200 余款国产汽车芯片集体亮相 2025 上海车展