神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:每逢岁末年初,盘点一年发展情况,展望来年趋势是固定节目。那么,在数据工程方面,2025年的趋势如何呢?本文提出了十大预测。文章来自编译。
根据行业专家的观点,2024年注定会成为生成式AI的丰收年。操作性用例不断浮出水面,技术降低了入门门槛,通用人工智能似乎就在眼前。
那么……这些预测真的实现了吗?
呃,多少有些吧。到2024年年底,部分预测确实变成了现实。但一部分还需要一些时间(我的意思是通用人工智能)。
以下是未来学家、投资者 Tomasz Tunguz 对 2024 年底数据和人工智能的看法——还有部分是我自己的一些预测。
2025 年数据工程的趋势。
人工智能进入反乌托邦时代仅三年,我们就开始看到企业在某些我们能预期到的领域创造价值——但不是所有。按照 Tomasz 的说法,人工智能的现状可以归纳成三类。
预测:可以完成句子、纠正代码错误等的人工智能助理
搜索:利用数据来回答问题的工具
推理:可以完成复杂任务的多步骤工作流程
虽然 AI 助理和搜索在企业组织取得了一定成功(尤其是前者),但推理模型似乎仍然落后。根据 Tomasz 的说法,这是有原因的。
模型准确性。
就像 Tomasz 的解释那样,目前的模型很难有效地将任务分解为步骤,除非是之前已多次看到过的某种特定模式。但对于这些模型可能要执行的大部分工作来说,你很难找到这种情况。
今天……如果要让大模型做一份财务计划与分析报表,没问题。但如果存在某些重大差异——比方说,打算从软件计费转向基于使用的计费——它就会不知所措。
因此,目前看来,AI助理与部分准确的搜索结果似乎会是赢家。
新工具的好坏取决于支撑流程。
随着“现代数据栈”的不断演变,数据团队有时候会发现自己陷入到了得不断评估试验的困境。他们可能过于关注平台的“what”,却忽视了(更重要的)“how”。
当企业环境朝着可以生产级人工智能逼近,如何让这些新工具可操作变得愈加迫切。
不妨看看数据质量。2024年,随着馈送给人工智能的数据登上舞台中央,数据质量也逐渐成为聚光。鉴于人工智能即将进入生产阶段,企业的数据领导者们再也没时间对着数据质量菜单精挑细选——比方说在dbt上小试牛刀,或是采用一些零散解决方案。不行了,如今他们需要可高效采用和部署的,可信赖的解决方案。
事实上,有可能就算你拥有市面上最先进的数据质量平台——最先进的自动化、最好的助理、最亮眼的集成——但如果无法让组织快速启动和运行的话,那纯粹就是花钱买个花架子罢了。
在未来12个月内,我预计数据团队会更多倾向用经过验证的端到端解决方案,而不是拼凑而成的工具包,因为要优先解决更为紧迫的挑战,如数据质量管理、事件管理以及长期的领域使能。
那些能够满足这些需求的解决方案,将会从人工智能领域脱颖而出,成为赢家。
跟任何数据产品一样,生成式人工智能的价值体现在两方面:降本或创收。
在创收方面,你可能会看到像人工智能销售发展代表、增值机器或推荐系统之类的工具。Tomasz指出,这些工具能够带来大量潜在销售机会……但未必都是好机会。所以如果AI不能直接创收的话,就得靠降本来证明价值——而在这一点上,这项新兴技术已经找到了合适的立足点。
“能从中拿到订单的公司不是很多。AI主要还是通过降本来实现价值。Klarna裁员了三分之二,微软和ServiceNow的工程效率提高了50%到75%。”
Tomasz指出,如果AI用例符合以下三条件之一,通常就能推动降本:
重复性工作
劳动力市场紧张
招聘需求迫切
Tomasz举了EvenUp的例子,这是一家将诉讼信件自动化的法律交易公司,像EvenUp这样的公司提供模板化但高度专业化的服务,可能会在现阶段的人工智能形态下获得意外的超常效果。
跟一年前汹涌澎湃的“AI战略”海啸相比,如今的领导者似乎很默契地采取了退步的态度。
去年出现过一波浪潮,大家都在踊跃尝鲜,想看看效果怎样。董事会在询问自己的人工智能战略在哪里。但现在,这股早期的浪潮似乎在退却。
部分组织是因为没有从早期实验中看到价值,但其他组织则是应对基础技术的快速演进方面遇到了困难。据 Tomasz 声称,这是投资人工智能公司面临的最大挑战之一。这并不是说这项技术在理论上没有价值,而是组织还没弄清楚怎么有效利用。
Tomasz 认为下一波采用浪潮会与第一波不同,因为领导者将更清楚他们需要什么,以及在哪里可以找到它。
就像大型演出前的彩排一样,团队知道自己在找什么,他们已经解决了法律和采购方面的一些问题 —— 特别是数据丢失和预防方面,而且当合适机会出现时,他们准备采取行动。
明天的最大挑战是什么?“怎么才能更快找到价值并卖出去?”
开源与托管之争由来已久……甚至是太久了。但说到人工智能,这个问题就变得复杂许多。
在企业层面,这不仅仅是控制或互操作性的问题(尽管肯定会有部分因素),也是运营成本的问题。
虽然 Tomasz 认为最大的 B2C 公司会采用现成的模型,但他预计 B2B 公司的倾向僵尸采用自己的专有模型和开源模型。
B2B 的模型整体上规模较小,开源程度更高。这是因为跑小型开源模型的成本要低得多。
但这并不全是因为钱的问题。小型模型也能提高性能。跟谷歌一样,大模型是为了服务各种用例。用户可以向大模型询问任何内容,所以这种模型需要在足够大的数据语料库上进行训练才能提供相关的响应。你可以问它水球,中国历史,法式吐司,等等。
不幸的是,用来训练模型的主题越多,模型混淆多个概念的可能性就越大,而且随着时间的推移,输出的错误率就会越大。
Tomasz 说:“你可以用有 80 亿参数的 llama 2 之类的产品,然后用 10000 张支持工单对其进行微调,之后它的表现就会好得多。”
更重要的是,ChatGPT 等托管解决方案经常被告上法庭,告的是他们无权使用这些训练模型的数据。
在很多情况下,这种说法也许并没有错。
除了成本和性能关切之外,这可能会对专有模型的长期采用产生影响(尤其是在受到严格监管的行业),但这种影响的严重程度仍不确定。
当然了,专有模型也不会轻易放弃。如果山姆·阿尔特曼对此有任何看法的话就不会。
专有模型已经用积极降价来推动需求。ChatGPT 等模型已将价格降低了约 50%,并且预计在未来 6 个月内会再降价 50%。对于希望参与 AI 军备竞赛的 B2C 公司来说,这种成本削减也许正是急需的福利。
在扩大管道生产时,数据团队通常会面临两个问题:分析师缺乏足够的技术经验,数据工程师则缺乏足够的时间。
看起来好像正是人工智能的用武之地。
展望数据团队未来发展,我认为2025年可能会出现两大主要趋势推动工程与分析职责的整合:
需求增加:随着业务领导者对数据和人工智能产品需求的增长,数据团队面临用更少的资源完成更多的工作。为了尽量减少瓶颈,领导者自然会赋予先前专业化的团队更多的管道管理职责——以及更多的相关利益方支持责任。
自动化的改进:新需求总是驱动新创新(在这里意味着人工智能驱动的管道)。随着技术自然地变得更加自动化,工程师将能够用更少的资源完成更多的任务,而分析师完成自己工作的独立性也会更强。
理由很简单——随着需求的增加,管道自动化自然会发展以满足需求。随着管道自动化发展以满足需求,创建和管理这些管道的障碍将会减少。技能差距将会缩小,增加新价值的能力将会提高。
自助式人工智能管道管理的趋势意味着每个人的工作最痛苦那部分将被自动化取代,而创造和展现新价值的能力则会因此而扩展。这听起来是一个很美好的未来。
你或许已见过蛇衔尾的图片。如果仔细观察的话,你会发现它跟当代人工智能现状有着惊人的相似之处。
目前,互联网上大约有21至25万亿个Token(词汇)。现有的人工智能模型已经用完了所有这些数据。数据要想继续取得进展,需要无限的数据语料库来训练。数据越多,可用于生成输出的上下文信息就越丰富——输出的准确性也会因此提高。
那么,当人工智能研究人员用完训练数据时该怎么办?
自己造。
随着训练数据日益稀缺,像OpenAI这样的公司相信,合成数据将成为未来训练模型的重要组成部分。过去24个月的时间里,围绕着这一愿景已经发展出一个完整的行业——像Tonic这样的公司开始生成合成的结构化数据,而像Gretel这样的公司也在为金融和医疗等监管行业创建合规数据。
但合成数据是长期的解决方案吗?可能不是。
合成数据的工作原理是利用模型来创建人工的,能体现有机性的数据集,然后再用这些新数据来训练他们自己的模型。从小规模来看,这是行得通的。但你知道,他们经常会言过其实……
你可以把它想象成上下文的不够丰富。跟食物一样,如果说新鲜的有机数据源是模型训练最有营养的数据的话,那么从现有数据集析取出来的数据,在营养上自然是不如之前的数据的。
人工调味料加一点是可以的——但如果老是给模型喂这种合成的训练数据,一直都没有新鲜的草饲数据进来的话,模型最终会失败(或者至少没那么吸引人)。
这其实都不是会不会的问题,而是什么时候的问题。
按照 Tomasz 的说法,目前我们距离模型崩溃还远。但随着人工智能研究继续将模型推向功能极限,不难预见我们也许很快就会摸到人工智能的天花板。
在生产中利用非结构化数据的想法并不新鲜——但在人工智能的时代,非结构化数据已经承担起全新的角色。
根据 IDC 的报告,组织的非结构化数据目前只有约一半在接受分析。
这一切即将改变。
在生成式人工智能领域,企业的成功在很大程度上依赖于用来对人工智能进行训练、微调和增强的非结构化数据。当更多组织寻求将人工智能用于企业用例时,对于非结构化数据——以及新兴的“非结构化数据栈”——的兴趣也将持续增长。
一些团队甚至正在探索如何用额外的 LLM 为非结构化数据添加结构,从而扩展其在其他训练和分析用例中的实用性。
对于数据领导者来说,确定组织内现有的非结构化数据资源——以及如何激活这些数据来服务于利益相关方——这是一个尚未开发的领域。如果说2024年是探索非结构化数据潜力之年,那么2025年将是实现其价值的一年。
如果你关注风投的话,大概会听过这两个术语:“助理”用于执行单一任务,而“智能体”则可处理多步骤工作流。但AI智能体用于实际生产仍面临极大挑战,目前其精确性无法满足大规模部署需求。
就上下文而言,75%-90% 的准确率是人工智能的最高水平。大多数人工智能相当于一名高中生。但如果每一步的准确率大概在 75%-90% 之内的话,一项有3个步骤的任务其最终准确率就大概只有 50% 左右。
大多数AI智能体如果按照现在这种表现投入生产的话,不仅不会为组织带来收入,反而会造成危害。Tomasz 表示,我们首先得解决这个问题。
微调模式导致数据管道数量激增,进而导致管理复杂性激增,但当前的质量管理方法无法完全匹配扩展速度,这将成为数据团队的一大挑战。
数据质量风险在不断演变,但数据质量管理却没有变化。
数据质量与管道的数量和复杂性成正比。管道越多(越复杂),发生故障的可能性就越大,而且及时发现故障的可能性就越小。
译者:boxi。