AI一键让图片动起来
7 小时前 / 阅读约6分钟
来源:36kr
即梦AI、海螺AI和Vidu哪家强​?

“复活”这件事,似乎只在仙侠剧、科幻电影中见过,但自从有了AI,好像变得无所不能起来。近期,有人用AI复原孔子、李清照等历史名人,引发热议,让人既见到了书中古人的治愈笑容,也拉近了和古人的距离。

以往,一张照片或者一幅图画虽然能够记录下瞬间的美好,但也往往缺乏一种“生命力”,无法完全传达场景的活力和动感,大家更希望让一张模糊照片能变得清晰,让一张静态照片能动起来。

近日,即梦AI上线“动作模仿”功能,上传一张人物图片和一条参考视频,就生成一条动态视频,让图片里的人物模拟参考视频中的人物动作,连情绪都能1:1还原。

此次,《IT时报》记者测试了即梦AI、海螺AI和Vidu三款应用,看看图生视频究竟哪家强。

海螺AI:做一名“创意大师”

海螺AI(原海螺问问)是由大模型初创公司MiniMax推出的一个免费AI智能助手,有互动式对话、声音克隆、智能创作等常用功能。

其视频讲究运动感,进入AI视频生成的页面后,“如何控制运镜”的链接提供了一个便捷的查询入口。“点选镜头模组后,会将相关镜头词插入Prompt中。”跟着格式说明,《IT时报》记者上传了一张竹叶的静图,运镜为左移、上升的场景镜头,提示词为“竹叶缓缓飘动,让人感觉到风的存在”,点击“生成”按键后,页面显示自动优化提示词,最后生成了一个时长为6秒的成品。

除了植物图,《IT时报》记者还上传了一张宠物狗注视前方的图片,运镜为“左移,跟随”,提示词是“小狗朝着看向的地方欢快地跑去”,成品的时长同样为6秒。

此外,《IT时报》记者还测试了人物图,图片中的人物主体微笑着,站在某景点外的红墙前,向镜头做起了“剪刀手”。所设置的运镜为“推出、上升、下摇”,提示词是“女生放下拍照时用的‘剪刀手’,朝镜头走来”。

使用感受

根据竹叶飘动的画面形成的视频,海螺AI生成的效果整体符合《IT时报》记者的预期,较为满意。小狗在阳光下跑动的画面同样自然,不生硬。人物体态方面,肢体动作、形态较为自然,但当人物从墙体走向镜头时,面貌发生了变化,海螺AI可以在人脸上继续优化。

Vidu:一款有想象力的AI

Vidu是生数科技联合清华大学发布的国内首个长时长、高一致性、高动态性的视频大模型,既能够模拟真实物理世界,还拥有丰富的想象力,具备多镜头生成、时空一致性高等特点。前不久,Vidu 2.0发布,其显著特点是生成速度的提升,Vidu非会员可以生成一段4秒的视频,会员可以生成一段8秒无水印的视频。

“调整句式和语序,避免主体物过多或复杂;避免过度文学化的叙述。”Vidu同样有一份详细的使用指南,有趣的是,它还具有联想能力。比如设置“玻璃桌上的咖啡杯,杯子外面写着单词LOVE”的基础词,该应用会帮助使用者构图,再提供详细的位置描述和环境描述。

《IT时报》记者上传的素材和提示词与海螺AI的一样,进而对比效果,测试顺序分别是竹叶图、小狗图、人像图。

使用感受

海螺AI和Vidu各有千秋,前者有镜头感,后者细节处理也不错。先看竹叶图,Vidu的镜头同样按照提示词进行,没有进行联想,效果给人一种缓缓的“移动感”,而非运动感。当《IT时报》记者不加任何提示词时,Vidu就开始进行了联想,在明媚的阳光下,竹叶轻轻晃动。

小狗图的体验似乎有点“失灵”,视频表现出了“左移”这个提示,但几乎没有表现出跟随这一动作,而且小狗也没有跑动,在这方面,海螺AI生成的视频更加丰富逼真。不过,Vidu在一些细节处理方面是亮点,比如小狗吐舌头、耳朵晃动等处理得整体让人满意。

在人像图方面,Vidu的肢体动作也较为自然,人物面貌和本人更贴近,没有更换面孔,美中不足的是最后人物的笑容变“假”了,期待Vidu在人物表情、要素上更加多元。

即梦AI:间接来一场“模仿秀”

即梦AI上线的“动作模仿”功能,让图生视频有了新玩法。用户从“数字人”入口进入,上传一张人物图片和一条参考视频,就能生成一条动态视频。该功能支持包括肖像、半身以及全身在内的不同画幅,目前,即梦AI官方提供了4个动作模板。

进入即梦AI电脑端页面,《IT时报》记者根据步骤进行了体验,由于系统强调所上传图片的角色感,所以内容须是具体的人物图。首先是对口形功能,记者上传了一张孩童正在荡秋千的图片,输入“妈妈,秋千真好玩”的台词,选择页面上提供的“小男孩”音色和标准的生成效果,最后图片变换为一段时长为2秒的短视频。

“咚咚咚”,时下,短视频平台上掀起一阵“李曦承进行曲”(由韩国歌手李曦承带火的一种舞步)的模仿热潮,无论是檀健次、黄宗泽等影视演员,还是素人和网友,很多人参与了这场“模仿秀”。在即梦AI提供的动作模仿素材中,这个舞步也是模板之一,其余还有热门表情包、贺春的素材,《IT时报》记者上传了两张全身像,也间接感受了一把这段舞蹈。

即梦AI生成的视频时长最长为30秒,即梦提醒用户,上传的视频素材需确保拥有合法授权,平台会对视频内容进行审核,并对输出视频添加“AI生成”水印。

使用感受

一定程度上,对口型功能能让人看到2岁左右幼童说话时的神态,但没有收获太多的惊喜,一是因为音色有点“出戏”,选择性较少;二是动作略显浮夸,音色模板后续可扩展到更多适用的年龄段。

动作模仿功能可以给用户一点小惊喜,当音乐响起,图片中,记者的肢体也跟随律动起来,动感、节奏感比较强。但细看后,会发现人物形象有些失真,并不太像本人,脸部的表情也略感僵硬和机械,会有些跳戏,期待后续在人物神态的逼真度上有所提升。