微软发布OmniParser V2.0
2025-02-17

微软发布了OmniParser V2.0,这是一款将UI截图转换为结构化格式的解析工具,旨在优化基于LLM的UI代理体验。该工具通过两大数据集工作:一个检测可交互图标,另一个描述图标功能。OmniParser V2.0结合先进算法和大规模训练数据,显著提升了AI智能体的电脑操控能力,使得检测微小可交互元素的精度和推理速度大幅提高,延迟降低60%。此外,微软还开源了OmniTool,为开发者转化大模型至智能体提供便利。