马斯克推出图像模因工具,Sora AI视频横空出世
1 周前 / 阅读约9分钟
来源:CNET
Sora是OpenAI推出的AI文本转视频工具,可创建逼真高质量视频。专业视频创作者和好莱坞电影制作人等行业将受影响。Sora Turbo版本已在美国推出,但存在物理不真实等缺陷。OpenAI正解决人类视频创建限制和训练数据问题。AI视觉创作将成为未来热点。

这款AI文本转视频工具Sora,通过生成视频,仿佛让猛犸象重获新生。然而,一些专业视频创作者担心这款工具会给他们带来不利影响。OpenAI/CNET截图

如果OpenAI能够达成其目标,那么今年2月宣布的AI工具Sora将能够通过简单的文本提示,创造出逼真的高质量视频,从而彻底改变视频创作的方式。预计这一变革将对专业视频创作者和好莱坞电影制作人等行业产生最为显著的影响。

如今,这些创作者以及所有每月支付20美元订阅ChatGPT Plus的用户,都可以体验到名为Sora Turbo的新版本。该版本已于上周在美国推出(作为OpenAI 12天公告活动的一部分)。用户不仅可以编写文本提示来创建短视频,还能上传照片和其他视频作为与提示相匹配的参考资料。生成的视频时长为5到20秒,分辨率为480到1080像素,可以以宽屏、竖屏或方形纵横比呈现。CNET的凯特琳·谢德拉维还指出,该工具还提供了故事板、混音和循环等后期制作编辑功能,以便用户进行更多微调。

尽管过去几个月中Sora的演示效果令人印象深刻——《华尔街日报》指出,这些AI视频“足以让我们感到害怕”——但OpenAI在博客文章中承认,仍有一些问题需要解决。“它经常生成不真实的物理效果,并且在长时间处理复杂动作时会出现问题。”文章指出。想象一下,角色突然多出胳膊和腿的情景。该公司还限制了能够创建人类视频的测试者数量,因为它正在努力“解决关于肖像权滥用和深度伪造的问题”。

针对用于训练AI引擎的训练数据存在的问题(一些出版商声称OpenAI和其他公司未经许可就占用了他们的版权材料),OpenAI写道,Sora是在“公开可用的数据、通过合作伙伴关系访问的专有数据以及内部开发的自定义数据集”的混合基础上进行训练的,其中包括员工等人类提供的图像。

但有报道称,OpenAI可能在未经许可的情况下对视频游戏内容进行了Sora训练(见TechCrunch和ExtremeTech)。对于整个视频游戏内容的问题,OpenAI没有对我的置评请求作出回应。

Sora的推出提醒我们,用AI创建视觉内容将在未来一年成为一大趋势。谷歌(Gemini图像创建器)和Meta(AI Studio)也在开发图像工具,以吸引更多用户与AI互动。此外,埃隆·马斯克的xAI上周还宣布了一款代号为Aurora的光影图像编辑器,用于其Grok聊天机器人。马斯克是社交媒体平台X的所有者,他吹嘘Aurora是一种“超快速创建精彩模因”的方式。

关于Sora,OpenAI也承认,围绕可能使深度伪造更容易制作的工具的使用,需要建立安全机制——它希望其他人能帮助解决这个问题。“我们现在推出视频生成技术,是为了给社会时间去探索其可能性,并共同制定规范和保障措施,以确保随着该领域的进步,它能够负责任地使用。”该公司写道。

太好了,我们正在众包AI安全参数。我确信这不会出什么问题。

以下是AI领域其他值得您关注的事情。

谷歌试验按您吩咐行事的AI代理

今年5月,谷歌首席执行官桑达尔·皮查伊推出了一系列AI工具。他表示,公司的愿景是让技术为您思考——特别是通过谷歌的AI概览等功能“为您进行谷歌搜索”。

我之所以提到这一点,是因为谷歌正继续致力于实现这一目标,并于上周推出了其Gemini聊天机器人的新版本和一个名为Project Mariner的工具原型,博客标题为“我们为代理时代打造的新AI模型”。

这是什么意思呢?“我们一直在投资开发更多代理模型,这意味着它们可以更多地了解您周围的世界,提前多步思考,并在您的监督下代表您采取行动。”

欢迎来到AI代理的新世界。这可能包括为您搜索产品并找到最佳交易、安排会议、与电子表格交互以获得复杂问题的答案,甚至玩游戏。皮查伊在博客文章中说,这一新一代AI技术“将使我们能够构建新的AI代理,使我们更接近实现通用助手的愿景”。

“它可以理解需要按下按钮才能让某事发生,”谷歌DeepMind AI实验室负责人丹尼斯·哈萨比斯在接受《纽约时报》采访时说,“它可以在世界上采取行动。”

作为谷歌Chrome浏览器的扩展程序开发的Mariner旨在与“循环中的人”一起使用,公司高管告诉《纽约时报》。因此,虽然它可能会为您的在线购物车装满杂货,但您仍然需要按下购买按钮并完成购买,他们表示。

尽管如此,来自谷歌以及竞争对手OpenAI和Anthropic的下一代AI代理似乎注定要将我们带向一个AI为我们做更多工作的世界。在许多情况下,甚至是代替我们工作。

当前AI状态及明年展望

如果您认为自己在2024年听到了很多关于AI问题、挑战、创新、产品和服务的信息,那么与2025年AI将继续主导对话相比,这根本不算什么。

这是因为现在有越来越多的人正在尝试使用聊天机器人。据Similarweb称,OpenAI排名第一的ChatGPT聊天机器人在11月的访客数量比去年同期翻了一番,达到39亿。而且,在AI工具上花钱的组织继续努力研究如何务实地、合乎道德地将AI引入工作场所。

因此,我认为值得指出几份报告,它们关注着我们在进入新的一年时AI的发展状态。

德勤对1874名职业生涯早期与资深员工的调查显示,他们对AI的看法存在差异,新员工对AI如何改变劳动力以带来积极影响更为兴奋。“他们对AI的使用是这样的,我们采访的一个人将AI描述为‘在向经理寻求反馈和建议之前首先要问的第一个人’,”该公司发现。德勤的报告在此。

在其2025年AI业务预测中,普华永道表示,随着“今年团队迎来众多新成员:被称为AI代理的数字员工”,大多数劳动力将在2025年翻倍。虽然有很多关于哪个AI聊天机器人将赢得市场份额的讨论,但普华永道表示,对于公司而言,拥有AI战略比选择正确的大型语言模型更重要。“将会有很多不错的选择。每个人都会使用它们。明智的战略将强调在使用AI时能让您脱颖而出的东西。”

在AI与高等教育方面,皮尔逊对1000多名美国大学生的调查显示,58%的人表示通用AI帮助他们获得了更好的成绩。与此同时,在对近3500名美国教职员工进行的调查中,有77%的人表示,他们预计将“使用AI来增强教学方法”。

在AI与音乐产业方面,国际作者和作曲家协会联合会进行了一项全球调查,以确定AI在不久的将来可能如何影响音乐产业。它发现,通用AI将在未来五年内“使科技公司受益,同时严重危及人类创作者的收入”。

也值得了解……

在CNET的一项调查中,四分之一的智能手机用户表示,他们觉得AI功能没有帮助,45%的人表示他们不愿意为AI功能支付每月订阅费,34%的人表示他们担心隐私问题。

Chatterbox Labs作为其AI安全研究的一部分测试了主要的大型语言模型,并在欺诈、仇恨言论、非法活动、虚假信息、安全和恶意软件、自残、色情内容和暴力等多个危害类别中对它们进行了测试,发现Anthropic和亚马逊的AI模型“在AI安全方面取得了最大进展”。详细的测试结果可以在此处找到。

根据非营利组织OPB媒体组织的调查,俄勒冈州历史悠久的《阿什兰每日潮讯》的地方读者被骗子欺骗了,骗子使用AI,有时还会盗用记者的身份,为该报纸制作假新闻或AI垃圾信息。该报纸于2023年停刊。“几乎就在它停刊的同时,一个《潮讯》网站重新出现,自称拥有一支由八名记者组成的团队……他们每隔几天就会发布大量报道,”调查发现。“一家拥有140多年历史的新闻机构被神秘接管,这警示我们……硅谷公司下一波不受监管的技术浪潮所推动的在线未来可能给新闻消费者带来什么。”

虽然ChatGPT正将自己定位为与出版商合作的搜索引擎,但哥伦比亚新闻评论的Tow中心报告发现,ChatGPT实际上可能会歪曲出版商的内容。“虽然该公司将包含在其搜索中的机会呈现为‘触达更广泛的受众’,但Tow中心的分析发现,无论出版商是否允许OpenAI的爬虫程序,他们的内容都面临着被错误归属或歪曲的风险。”当被要求置评时,OpenAI告诉该中心,它“已与合作伙伴合作,以提高内联引用的准确性并尊重出版商的偏好”。