新突破!微软开源多模态AI Agent,通杀数字、物理世界
6 天前 / 阅读约1分钟
来源:凤凰网
与传统Agent相比,Magma具备跨数字、物理世界的多模态能力。

今天凌晨3点,微软在官网开源了多模态AI Agent基础模型——Magma。

与传统Agent相比,Magma具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,例如,你可以用Magma来自动下电商订单、查询天气;也可以自动操作实体机器人,或者下真实象棋时获得帮助。

此外,Magma还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。

开源地址:https://huggingface.co/microsoft/Magma-8B

github:https://github.com/microsoft/Magma

Magma功能展示

可以用Magma来充当实体机器人的大脑,例如,把蘑菇正确地放在盆里。