原创 世超 差评X.PIN
“ 又一国运级 AI 产品问世 ”“ 中国 AI 科技再一次震撼全世界 ” 。。。
“ 拳打 GPT ,脚踢 DeepSeek” “AI 彻底接管了我的电脑 ” 。。。
就这些恐怖如斯的标题,再加上一堆的爆火、炸裂、惊人。
不是哥们,差评君就睡了个懒觉,难道错过了什么世界性 AI 大突破?
麻溜赶到公司一看,各路媒体争相报道的,原来是国内厂商发布了一款 Agent :Manus ,这家伙还自称全球首款通用型 Agent 。
而且它真在 GAIA 测试里,吊打了一众 OpenAI 们。
不过可惜的是,由于目前 Manus 还处于内测阶段,系统容量有限,只能通过邀请码给部分用户进行体验。
这也造就了一种,平时只在某些特殊场合下才能看见的整齐队形。
由于官方给出的邀请码实在太少,在某鱼上,都出现了邀请码出售生意。
一个 Manus 的邀请码都标价几千上万。。。
甚至在抖音上,有些直播间直接把 “ Manus 测试 ” 当成抖加用了。。。
所以这个让大家都有些癫狂了的 Manus ,到底是个啥?
差评君今天就从 Manus 官方给的示例带大家云评价一下。
至于为什么不用实测,我怎么会说是因为差评君第一时间没搞到邀请码,好不容易搞定了结果人家服务器炸了。
所以大家先简单了解一哈子,等后续服务器恢复了,咱再给大家来详细评测。
该说不说,就从目前给出的官方演示案例来看, Manus 相当不错。
因为咱们常用的 GPT 们,基本都只能一个个解决需求,而且大多都还局限在对话,输出个代码已经是极限了。
而 Manus 则做到了 “ 用户提需求, AI 全自动、直至完成网页设计、可视化数据整理等等复杂流程 ” 得到的结果还能直接输出,简单省力。
举个栗子:
当向 Manus 提问 “ 搜索 Qwen 系列的历史,他们看看开源了多少模型,并给我做了一份他们非常漂亮的时间线可视化方案 ” 后。
Manus 会根据这个简单的需求,从多个渠道搜索 Qwen 的开源历史信息等数据,收集起来。
然后统一进行时间线可视化处理,并在这个过程中进行审核数据、完善时间线。
最终直接给出结果,而且这些结果的输入文件,基本都是直接可以下载用的。
而当用户发现输出结果有问题时,直接告诉 Manus ,它就会进一步调整修改。
类似的, Manus 还能帮用户筛选房产,官方的案例就是用户希望在纽约购买房产,给出的限定条件是希望有安全的社区环境、低犯罪率、以及优质的教育资源和不要超预算等。
Manus 会将该任务分解为一个个代办事项,然后通过网络搜索,收集信息。
最后整合所有信息,结合用户需求,写出一份详细报告,感觉比楼下的房产小哥专业多了。
是不是已经很牛了?
但你先别高兴得太早,也别太担心下岗的事儿,更别说 Manus 是新一个 DeepSeek 了。
因为 DeepSeek 是做基础大模型的,可以说整个 AI 发展都得建立在大模型本身能力的地基上;而 Manus 则是套壳产品( 注意这里说的套壳并不是贬义词 )。
更准确地说,哪怕是对话式的 GPT 们,也是基于现有的大模型能力做了一个 wrapper ( 包装 ),来服务于大家伙。
做个不是很贴切的比方, DeepSeek 是 Android 或者 iOS 这样的操作系统,那 Manus 就是 App ,两者就不是一个赛道的,没啥可比性。
而且,根据今天各大媒体的评测效果来看, Manus 用起来还有几个问题:
首先,它真的很慢,虽然作为虚拟机在云端处理任务,完全可以关在后台等它任务完成,不影响咱们同时干其他事。
但它还是太慢了,一个简单的任务十几分钟,复杂一点的几个小时都可能,万一需要多次修改,那等待的时间恐怕能让人彻底疯狂。
其次, Manus 也太费 token 了。
就这么说吧,它拆解、解决一次复杂任务需要消耗的 token ,可能是百万乃至更高的数量,这对于不少人甚至企业来说,都有点遭不住。
差评君和某位有码大佬的对话
当然了,大模型的通病 AI 幻觉 Manus 也搞不定。
不少内测用户就发现 Manus 在某些专业场景,例如金融分析时,很难称得上出色。
例如,它对股票相关性的分析就过于依赖单一数据源,缺乏交叉验证机制,导致结论可信度不高。
此外,所谓的 “ 自主规划 ” 本质上还是套壳,还拿股票分析来说,它其实就是利用大模型理解你的意思,然后调用雅虎金融 API 检索数据,再利用 Python 脚本生成可视化图表。
这些任务执行高度依赖虚拟机内已经预先设置好的 “ 工具库 ” 和调用逻辑,一旦你的需求在这些之外,它就 GG 了。
最后也是最重要的, “ 全球首款通用型 Agent” 这个说法更是很难喊得响亮,因为它目前并不通用,更不是首款。
因为 Manus 运行在虚拟机中,没法实现安装新软件或者调用本地软硬件资源等系统级操作。
比如我的需求是把桌面的 3·8 妇女节放假通知文件,通过微信发给世超,但目前的 Manus 就做不到。
所以它更像是市面上层出不穷的浏览器插件,而非真正意义上的通用 Agent 。
而早在去年 10 月, Claude 大模型的团队 Anthropic 就已经推出过 “computer use” 。
它和 Manus 本质上都是通过多代理虚拟机环境完成复杂任务,从而给用户输出结果。
随后,各大 AI 厂商陆续都推出了自家产品,例如谷歌的 Project Astra 、智谱的 AutoGLM 、 OpenAI 的 Operator 等等。
但一码归一码,目前看下来,Manus 还真是目前 Agent 产品里做得最好的。
而且它的破圈也给让 Agent 概念成功在国内( 国外目前还真没啥声量 )破圈,毕竟这年头,酒香还怕巷子深呢。
对了,我们还发现了一个有意思的事情, Manus 的开发团队 Monica.im 的创始人叫肖弘,他此前最成功的创业项目就是壹伴微信公众号排版工具(我们编辑部之前还用呢 ),一度有百万用户量。
等 2022 年大模型浪潮袭来,他又创立了 Monica ,推出了 AI 插件 Monica ,去年 Monica 用户超过千万,一直保持着不错的盈利,这么看来 Manus 也算是一种老树发新芽了。
而 Monica.im 的首席技术官季逸超,早在 2019 年就曾开发过 Magi AI 搜索引擎。
这家伙,除了没用上如今的大模型能力,简直就是眼下 AI 搜索引擎的翻版。
是不是有种熟悉的感觉
所以,有这样的技术团队,做出一个火爆出圈的 Manus 也挺合理的。
最后差评君想说的是,其实 AI 大模型热闹了这么久,大家也逐渐对对话式的 AI 有了倦怠,都在期待 AI 能够更进一步地和现实社会发生关联,比如真正地帮人解决某件事情,而不是简单地替代搜索引擎,当个百科小助手。
所以,很多人和团队纷纷下场,去做各种各样的Agent ,希望能够在应用层面上搞点花活。
而从Manus官方给的示例,它无疑是当下各路英雄豪杰中的佼佼者。
希望咱能早点做测试,嘿嘿@Manus官方。
撰文:八戒
编辑:江江 & 面线
美编:焕妍
图片、资料来源:
Manus官网
Anthropic官网