AI很强,但并不能无中生有。
AI具备的能力,本质上来自算法和训练大模型所用的数据,数据的数量和质量会对大模型起到决定性作用。此前OpenAI工作人员表示,因没有足够多的高质量数据,Orion项目(即GPT-5)进展缓慢。不得已之下,OpenAI招募了许多数学家、物理学家、程序员原创数据,用于训练大模型。
AI公司在数据方面面临的难题远不止于此,因频频侵权造成的版权问题,正困扰着AI公司。大型AI公司有足够的资源和精力应对侵权问题,小公司一旦收到大量起诉,很可能遭受灭顶之灾。
自从ChatGPT诞生,版权之争就已开启。最初反对AI的人以画师为主,AI公司用他们的作品训练大模型,又抢了他们的工作。但当时AI大模型训练所需的数据量不够大,不至于得罪太多人,画师群体规模小,能够发出的声音和起到的效果有限。
可AI大模型功能不断强化能力的同时,对于数据的需求量也与日俱增。除了公开的科学论文,AI公司还会抓取社交平台上的帖子、媒体发布的新闻报道等信息。社交平台上的帖子还好说,要求不是特别严格,可媒体上的新闻报道却存在版权。
(图源:豆包AI生成)
2024年11月底,加拿大《多伦多星报》及旗下的五家媒体,向OpenAI发起诉讼,称其在未经允许的情况下从加拿大媒体抓取内容训练大模型,要求OpenAI为使用的新闻报道每篇支付2万加元(约合人民币10万元),总金额估计有数十亿加元。
面对《多伦多星报》的指控和天价赔偿要求,OpenAI自然矢口否认,并发表声明称训练AI大模型以公开数据为基础,以公平使用和国际版权原则为依据,对于创作者是公平的。
不只是加拿大媒体,美国的The Intercept、《纽约时报》、Raw Story、AlterNet ,印度的ANI,以及德国版权机构GEMA等,都曾起诉过OpenAI。
因视频生成和音频生成大模型日渐成熟,AI公司引发的版权问题也愈发严重。2024年6月,美国唱片协会起诉了Suno和Udio两家AI音乐公司。
国内AI行业存在相同的问题,例如位列中国AI大模型六小龙之一的MiniMax,因未经授权使用爱奇艺的素材训练海螺AI,日前遭遇爱奇艺起诉,被索赔10万元。
(图源:MiniMax)
更有甚者,不但侵犯作品的版权,还侵犯了公众人物的肖像权。例如著名的AI孙燕姿、AI雷军事件,某些网友利用AI合成技术让孙燕姿演唱各种歌曲,让雷军“口吐芬芳”。2024年4月23日,国内首例AI生成声音人格侵权案宣判,被侵权的殷女士获胜,侵权公司赔偿其25万元,总算给创作者们一丝安慰。
OpenAI面对侵权起诉时,虽表示训练AI大模型以公开数据为基础,但公开并不意味着数据无版权。摄影师拍摄的图片、编辑创作的文章等内容,都存在版权,放任AI公司随意抓取,无疑是在侵害创作者的利益。
长此以往,创作者的创作热情和信心难免受到打击,减少内容创作。如此一来,训练AI大模型的数据也将更加捉襟见肘,影响到AI行业的正常发展。如何维护创作者的合法权益、打击侵权行为,已成为AI行业必须解决的问题。
前段时间国内AI公司DeepSeek基于数据蒸馏方案,以其他AI大模型为教师模型,训练出了参数量和占用资源更少,且训练成本极低的DeepSeek-V3大模型。但因回答用户问题时自称“ChatGPT”,DeepSeek-V3遭遇OpenAI CEO山姆·奥特曼嘲讽。自认为没有侵权加拿大媒体的OpenAI,面对其他AI公司对他们可能存在的侵权行为却表现得十分不满。
无论山姆·奥特曼如何否认,OpenAI侵权的行为已经坐实,且侵权问题在整个AIGC行业普遍存在。
为处理更多、更复杂的问题,未来先进AI大模型的参数还会不断增加,对于数据量的需求也会越来越高。尤其是视频生成和音频生成大模型的到来,侵权行为将更加广泛、更加频繁。
(图源:豆包AI生成)
解决版权纠纷源头上需要相关部门制定相应的法律法规,限制AI公司侵权,保护创作者的权益。2022年12月印发的《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》,对待AI公司使用互联网公开内容的态度是,淡化所有权、强化使用权,如涉及商业使用,则需要向创作者支付费用。
2024年11月19日在西安举办的中欧数字环境下版权保护研讨会上,主办方强调将以《中华人民共和国著作权法实施条例》为修订契机,完善制度设计,保护著作人的合法权益。
中国版权协会理事长阎晓宏表示,从技术角度来看,使用有版权的作品要公布版权信息,原则上要获得作品的授权,但实际上是做不到的。究其原因,企业训练AI大模型的数据来源过于复杂,媒体的新闻报道、个人发布的帖子、科研机构的论文、各大公司报告等,很难一一统计和申请授权。
因而还需要全球互联网企业、学术研究机构联合起来,打造一个共享数据库,对互联网上公开的数据进行标注,明确版权归属。AI公司需要数据时,必须与互联网公司和学术研究机构成立的联盟合作,商谈能够调用哪些数据、需要支付多少成本。互联网公司联盟在打造共享数据库的同时,也要与创作者沟通合作,取得创作者的授权并支付相应的费用后,才能将内容加入数据库中。
(图源:豆包AI生成)
这样一来,掌握大量数据的互联网公司将承担起“中间商”的责任,同时与创作者和AI公司对接,即保障了创作者可以获取收益,本身也能从中抽取一定的利润。对于腾讯、百度、字节跳动、FaceBook、X等国内外互联网公司而言,还多出了一条信息变现渠道。
AI公司虽要花钱购买数据,但抓取数据的难度大幅降低,获取数据的渠道也会增多,反而能够减少一部分成本。OpenAI工作人员吐槽数据不够用,实际是公开且易获取的数据不够用了。互联网宛如一座冰山,只有三分之一浮在水面上,剩下的三分之二则藏在水底。唯有AI公司愿意付出相应的成本,才能够利用这部分数据训练大模型。
OpenAI前员工Ilya Sutskever曾表示,数据是AI的化石燃料,而这份燃料即将耗尽,但我们只有一个互联网,最大化数据的时代已经过去了。再加上原定2024年中后期面世的GPT-5迟迟未能完成训练,不少人已在怀疑,人类社会的数据不够支撑AI行业进入下个阶段。
事实上,人类社会每时每刻都在产生新数据,《全国数据资源调查报告》显示,2023年中国数据产生总量高达32.85ZB(泽字节),平均每天产生900亿GB数据。
(图源:豆包AI生成)
在网络渗透进我们生活、办公、娱乐等各个领域,并覆盖全球接近70%人口的今天,用于训练AI大模型的数据不够用是个伪命题。对于AI公司而言,难点在于如何将有效数据提取出来。
相关部门提供法律基础、互联网巨头合力打造数据库,筛选有效数据并保障创作者权益,无疑是最省时省力的方案。过去AI企业不缺数据,又想着吃独食,没有打造共享数据库的意识。如今形势发生变化,易获取的数据不足以支撑AI行业进入下个阶段,唯有所有企业消除隔阂齐心协力,方能渡过数据量不足的难关。
在元宇宙、区块链、3D打印、常温超导、人工智能等诸多被认为可能是第四次工业革命导火索的产业中,目前看来最有希望引领人类开启第四次革命的就是人工智能和与其相关的机器人产业。
为了推动和规范行业发展,2024年10月21日的德国数字峰会上,德国施瓦茨数字公司和德国铁路公司宣布成立“欧洲数据中心”,旨在为AI公司训练大模型提供数据支持。
该会议结束后仅一个月,中欧数字环境下版权保护研讨会就在西安召开,表明中欧相关部门和企业有意合作,共同构建AI行业发展基石。相信在全球诸多国家、企业的合作之下,未来数据将不再是困扰AI公司的难题。内容创作者在提供数据帮助AI公司训练大模型的同时,也将能够从中获利,告别频繁被侵权却拿不到任何收益的时代。