大模型的2024,这可能是最早的一篇年度总结文
6 天前 / 阅读约21分钟
来源:凤凰网

从某种意义上说,2024年不仅是技术突破的一年,更是行业走向成熟的重要转折点。

这一年,GPT-4级别的模型不再罕见,许多机构都开发出了性能超越GPT-4的模型;这一年,运行效率显著提高,成本急剧下降;这一年,多模态LLM,特别是支持图像、音频和视频处理的模型,变得越来越普遍。

技术的进步也带来了应用场景的繁荣。基于提示词的应用程序生成成为行业标配,语音对话和实时摄像头交互让科幻场景成为现实。当年末OpenAI推出o1系列推理型模型,开创通过优化推理阶段提升性能的新范式时,整个行业又向前迈进了一大步。

当地时间12月31日,独立AI研究员、Django缔造者、Simon Willison撰文回顾总结2024年大语言模型领域的重要事件,并列出了近20个关键主题、重要时刻和行业洞察。

以下为重点内容:

GPT-4壁垒被全面打破:截至2024年底,已有18家机构的70个模型在ChatbotArena排行榜上的得分超过了2023年3月发布的原始GPT-4。

顶级大模型的训练成本大幅降低:DeepSeek v3仅需557万美元训练成本,便可达到与Claude 3.5 Sonnet等模型比肩的性能。

LLM价格大幅下降:由于竞争加剧和效率提高,LLM的运行成本大幅下降。例如,谷歌的Gemini1.5Flash8B比2023年的GPT-3.5Turbo便宜27倍。更低的成本将进一步推动LLM的普及和应用。

多模态视觉模型普及,音频和视频模型开始出现:2024年,几乎所有主要的模型供应商都发布了多模态模型,能够处理图像、音频和视频输入。这使得LLM能够处理更丰富的信息类型,拓展了其应用领域。

语音和实时摄像头模式将科幻小说变为现实:ChatGPT和GoogleGemini现在都支持语音和实时摄像头模式,用户可以通过语音和视频与模型进行交互。这将为用户提供更自然、更便捷的交互方式。

部分GPT-4级模型可在笔记本电脑上运行:得益于模型效率的提升,一些GPT-4级模型,例如Qwen2.5-Coder-32B和Meta的Llama3.370B,现在可以在64GB内存的笔记本电脑上运行。这标志着LLM的硬件要求正在降低,为更广泛的应用场景打开了大门。

基于Prompt的应用程序生成已成为常态:LLM现在可以根据Prompt生成完整的交互式应用程序,包括HTML、CSS和JavaScript代码。Anthropic的ClaudeArtifacts、GitHubSpark和MistralChat的Canvas等工具都提供了这项功能。这一功能极大地简化了应用程序开发流程,为非专业程序员提供了构建应用程序的途径。

对最佳模型的普遍访问只持续了几个月:OpenAI推出ChatGPTPro付费订阅服务,限制了对最佳模型的免费访问。这反映了LLM商业模式的演变,未来可能会出现更多付费模式。

“Agent”仍未真正实现:“Agent”一词缺乏明确的定义,其效用也受到质疑,因为LLM容易轻信虚假信息。如何解决LLM的可信度问题是实现“Agent”的关键。

评估至关重要:为LLM系统编写良好的自动评估对于构建有用的应用程序至关重要。有效的评估体系能够帮助开发者更好地理解和改进LLM。

合成训练数据效果良好:越来越多的AI实验室使用合成数据来训练LLM,这有助于提高模型的性能和效率。合成数据可以克服真实数据的局限性,为LLM训练提供更灵活的选择。

LLM的环境影响喜忧参半:一方面,模型效率的提升降低了单次推理的能源消耗。另一方面,大型科技公司为LLM构建基础设施的竞赛导致了大量的数据中心建设,加剧了对电力网络和环境的压力。

LLM使用难度增加:随着LLM功能的不断扩展,其使用难度也在增加。用户需要更深入地了解LLM的工作原理和局限性,才能更好地利用其优势。

原文编译如下,祝大家元旦快乐,enjoy:

GPT-4:从"无法企及"到"普遍超越"

在过去的一年里,大语言模型(LLM)领域经历了翻天覆地的变化。回望2023年底,OpenAI的GPT-4还是一座难以逾越的高峰,其他AI实验室都在思考同一个问题:OpenAI究竟掌握了什么独特的技术秘密?

一年后的今天,形势已发生根本性转变:据Chatbot Arena排行榜显示,原始版本的GPT-4(GPT-4-0314)已跌至第70位左右。目前,已有18家机构的70个模型在性能上超越了这个曾经的标杆。

谷歌的Gemini 1.5 Pro在2024年2月率先突破,不仅达到GPT-4水平,还带来两项重大创新:它将输入上下文长度提升至100万token(后来更新至200万),并首次实现了视频输入处理能力,为整个行业开创了新的可能性。

紧随其后,Anthropic于3月推出Claude 3系列,其中Claude 3 Opus迅速成为业界新标杆。6月发布的Claude 3.5 Sonnet更是将性能推向新高度,即使在10月获得重大升级后仍保持相同版本号(业内非正式称为Claude 3.6)。

2024年最显著的技术进步是模型处理长文本能力的全面提升。仅仅一年前,大多数模型还局限于4096或8192个token的处理能力,只有Claude 2.1例外地支持20万token。而现在,几乎所有主流提供商都支持10万以上token的处理能力。这一进步极大拓展了LLM的应用范围——用户不仅可以输入整本书籍进行内容分析,更重要的是,在编程等专业领域,通过输入大量示例代码,模型能够提供更准确的解决方案。

目前,超越GPT-4的阵营已经相当庞大。如果你今天浏览Chatbot Arena排行榜,GPT-4-0314已经跌至第70位左右。拥有得分较高的模型的18个组织是:Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton和腾讯。

这种变化深刻地反映了AI领域的快速发展。在2023年,超越GPT-4还是一个值得载入史册的重大突破,而到了2024年,这似乎已经成为衡量顶级AI模型的基本门槛。

部分GPT-4级模型实现个人电脑本地运行

2024年,大语言模型领域迎来另一重要突破:GPT-4级别的模型已可在普通个人电脑上运行。这打破了"高性能AI模型必须依赖昂贵数据中心"的传统认知。

以64GB内存的M2 MacBook Pro为例,同一台2023年仅能勉强运行GPT-3级模型的设备,现在已能运行多个GPT-4级模型,包括开源的Qwen2.5-Coder-32B和Meta's Llama 3.3 70B。

这一突破令人惊讶,因为此前运行GPT-4级模型被认为需要一台数据中心级服务器,配备一个或多个价值40000美元以上的GPU。

更引人注目的是Meta的Llama 3.2系列。其1B和3B版本虽不及GPT-4,但性能远超模型规模预期。用户甚至可通过MLC Chat iOS应用在iPhone上运行Llama 3.2 3B,这个仅需2GB存储空间的模型就能以每秒20个token的速度生成内容。

它们能够运行的事实证明了,很多模型在过去一年中取得了令人难以置信的训练和推理性能提升。

由于竞争和效率提高,模型价格暴跌

过去12个月里,大模型的价格出现了急剧下降。

2023年12月,OpenAI对GPT-4收取30美元/百万输入tokens的费用。如今,30美元/mTok的价格可以让你获得OpenAI最昂贵的模型o1。GPT-4o的价格为2.50美元(比 GPT-4 便宜12倍),GPT-4o mini的价格为0.15美元/mTok——比GPT-3.5便宜近7倍,而且功能强大得多。

其他模型供应商收费更低。Anthropic的Claude 3 Haiku(3 月份推出,但仍是其最便宜的型号)价格为0.25 美元/mTok。谷歌的Gemini 1.5 Flash价格为0.075美元/mTok,而他们的Gemini 1.5 Flash 8B价格为0.0375美元/mTok — 比去年的GPT-3.5 Turbo便宜27倍。

这些价格下降是由两个因素推动的:竞争加剧和效率提高。

多模态 LLM 兴起

一年前,最引人注目的例子是GPT-4 Vision,它于2023年11月在OpenAI的DevDay上发布。谷歌的多多模态模型Gemini 1.0于2023 年 12 月 7 日发布。

2024年,几乎每个重要的模型供应商都发布了多模态模型。我们在3月看到了 Anthropic的Claude 3系列, 4月看到了Gemini 1.5 Pro (图像、音频和视频),然后9月带来了Qwen2-VL和Mistral的Pixtral 12B以及 Meta 的Llama 3.2 11B和90B视觉模型。我们在10月获得了来自OpenAI 的音频输入和输出,然后11月看到了Hugging Face 的 SmolVLM ,12月看到了来自 Amazon Nova 的图像和视频模型。

多模态是LLM的巨大进步,能够针对图像(以及音频和视频)运行提示是应用这些模型的一种令人着迷的新方法。

语音和实时视频释放想象力

开始出现的音频和实时视频模式值得特别提及。

与 ChatGPT 对话的能力于 2023 年 9 月首次实现,不过当时只是语音转文本模型和新的文本转语音模型的对接。

5月13日发布的 GPT-4o 进行了一个全新语音模式的演示,该模型可以接受音频输入并输出听起来非常逼真的语音,而无需单独的 TTS 或 STT 模型。

当 ChatGPT 高级语音模式终于推出时(从 8 月到 9 月缓慢推出),效果非常惊人。OpenAI 并不是唯一一家拥有多模态音频模型的团队。谷歌的 Gemini 也接受音频输入,而且 Google Gemini 应用程序现在可以以与 ChatGPT 类似的方式说话。亚马逊还预告了Amazon Nova 的语音模式,但该模式将于 2025 年第一季度推出。

Google于 9 月发布的 NotebookLM将音频输出提升到了一个新水平,它可以让两个“播客主持人”就您输入到其工具中的任何内容进行令人毛骨悚然的逼真对话。

12 月份,实时视频成为新的焦点。ChatGPT现在实现了与模型分享摄像头,并实时讨论所看到的内容。Google Gemini 也展示了具有相同功能的预览版本。

即时驱动的应用程序生成已经是一种商品

2023 年的 GPT-4 就已实现这一点,但其提供的价值在 2024 年才显现出来。

大模型在编写代码方面非常出色,如果你正确地给出一个提示,它们就可以使用 HTML、CSS 和 JavaScript构建一个完整的交互式应用程序。

当 Anthropic 发布Claude Artifacts时,他们大力推动了这一想法,这是一项突破性的新功能。通过 Artifacts,Claude 可以为您编写一个按需交互式应用程序,然后让您直接在 Claude 界面内使用它。

从那时起,许多其他团队也建立了类似的系统。GitHub 于 10 月发布了他们的版本GitHub Spark。Mistral Chat于 11 月将其添加为名为 Canvas 的功能。

这个提示驱动的自定义界面功能非常强大且易于构建,预计它将在 2025 年作为一项功能出现在广泛的产品中。

最佳模型的免费使用仅持续了短短几个月

今年短短几个月内,三款最佳型号——GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro——均在全球大部分地区免费提供。

OpenAI于 5 月向所有用户免费提供 GPT-4o ,而 Claude 3.5 Sonnet 自6 月发布以来也免费提供。这是一个重大变化,因为在过去的一年里,免费用户大多只能使用 GPT-3.5 级别的模型。

随着 OpenAI 推出ChatGPT Pro,那个时代似乎已经结束,而且可能永远结束了。这项每月 200 美元的订阅服务是访问其功能最强大的模型 o1 Pro 的唯一途径。

由于 o1 系列(以及其他的未来模型)背后的技巧是花费更多的计算时间来获得更好的结果,我认为免费使用最佳可用模型的日子不太可能再回来。

“Agent” 还没有真正出现

“Agent”一词非常令人沮丧,因为它缺乏单一、明确且广泛理解的含义。如果你告诉我你正在构建“Agent”,那么你几乎没有向我传达任何信息。

我看到的“Agent”的两个主要类别是:一种认为AI 智能体是那些代表你行动的东西——类似旅行 Agent的模型;另一种则认为AI 智能体是能够访问工具并通过这些工具在解决问题过程中循环运行的大语言模型(LLM)。此外,“自治”这个术语也常常被加入进来,但同样没有给出明确的定义。

不管该术语的含义如何,Agent仍然有那种永远“即将到来”的感觉。抛开术语不谈,我仍然对 Agent的实用性持怀疑态度。

评估真的很重要

2024 年,有一点变得非常明显:为 LLM 驱动的系统编写良好的自动化评估是在这些模型之上构建有用应用程序最需要的技能。

如果您拥有强大的评估套件,您就可以更快地采用新模型,更好地进行迭代,并构建比竞争对手更可靠、更有用的产品功能。

每个人都知道评估很重要,但仍然缺乏关于如何最好地实施它们的良好指导。

Apple Intelligence 很糟糕,Apple 的 MLX 库很棒

作为 Mac 用户,去年我觉得缺少一台配备 NVIDIA GPU 的 Linux/Windows 机器,这对尝试新模型来说是一个巨大的劣势。2024 年就好多了。

在实际操作中,许多模型是以模型权重和库的形式发布的,这些库更偏向于支持NVIDIA的CUDA,而不是其他平台。

在这方面,llama.cpp生态系统提供了很大帮助,但真正的突破是苹果的MLX库,“一个为Apple Silicon设计的数组框架”。它非常棒。

苹果的mlx-lm Python支持在我的Mac上运行多种MLX兼容模型,性能出色。Hugging Face上的mlx-community提供了超过1,000个已经转换为所需格式的模型。

虽然MLX是一个游戏规则改变者,但苹果自家的“Apple Intelligence”功能大多令人失望。Apple 的 LLM 功能只是对前沿 LLM 功能的拙劣模仿。

“推理”模型的兴起

2024 年最后一个季度最有趣的发展是新的推理模型的出现。以 OpenAI 的 o1 模型为例——最初于 9 月 12 日作为 o1-preview 和 o1-mini 发布。

推理模型最大的创新是它开辟了一种扩展模型的新方法:模型不再仅仅通过在训练时增加计算来提高模型性能,而是可以通过在推理上投入更多的计算来解决更难的问题。

o1 的续集o3于12月20日发布,并在ARC-AGI 基准测试中取得了令人印象深刻的结果,但是成本也不低,预计总的计算时间费用成本超过100 万美元。o3预计将于2025年1月正式开放使用。

OpenAI并不是唯一一家参与该类别的公司。谷歌于12月19日发布了该类别的首款参赛者gemini-2.0-flash-thinking-exp。阿里巴巴Qwen团队于11月28日发布了他们的QwQ模型;DeepSeek于11月20日通过其聊天界面开放了DeepSeek-R1-Lite-Preview模型供试用。Anthropic和 Meta 尚未有任何进展,但是它们一定会跟进。

中国最好的LLM训练成本低于600万美元?

2024年年底的重大新闻是DeepSeek v3 的发布。DeepSeek v3 是一个巨大的 685B 参数模型,部分基准测试将其表现与 Claude 3.5 Sonnet 并列。

Vibe 基准测试目前将其排在第7位,仅次于 Gemini 2.0 和 OpenAI 4o/o1 模型。这是迄今为止排名最高的开源许可模型。

DeepSeek v3 真正令人印象深刻的是训练成本。该模型在 2788000 个 H800 GPU 小时上进行训练,估计成本为 5576000 美元。Llama 3.1 405B 训练了 30,840,000 个 GPU 小时——是 DeepSeek v3 所用时间的 11 倍,但基准测试结果略差。

环境影响有所改善

模型(托管模型和在本地运行的模型)效率的提高带来了一个可喜的结果是,在过去几年中,运行提示词的能源使用量和环境影响已大幅下降。

但是在训练和运行模型的基础设施建设仍然面临着巨大的竞争压力。谷歌、Meta、微软和亚马逊等公司都投入了数十亿美元建设新数据中心,这对电网和环境产生了非常重大的影响,甚至有人谈论建设新核电站。

这种基础设施是必要的吗?DeepSeek v3 的 600 万美元训练费用和大模型价格的持续下跌可能暗示它不是必要的。

合成训练数据效果很好

现在流行一种说法,随着互联网充斥着人工智能生成的垃圾,模型本身将会退化,以自己的输出为食,最终导致其不可避免的消亡。

但这显然不会发生。相反,我们看到人工智能实验室越来越多地使用合成内容进行训练——故意创建人工数据来帮助引导他们的模型朝着正确的方向发展。合成数据作为预训练的重要组成部分正变得越来越普遍。

另一种常用技巧是使用较大的模型来帮助为较小、更便宜的替代方案创建训练数据——越来越多的实验室使用这种方法。DeepSeek v3 使用了 DeepSeek-R1 创建的“推理”数据。

精心设计用于 LLM 的训练数据似乎是创建这些模型的全部。从网络上抓取完整数据并随意将其投入训练运行的日子已经一去不复返了。

大模型越来越难使用

我一直在强调的一个观点是,LLM是面向高级用户的工具。它们看起来很简单——向聊天机器人输入消息能有多难呢?——但实际上,要充分利用它们并避免它们的种种陷阱,你需要拥有深厚的理解力和经验。

如果说有什么问题变得更糟,那就是在2024年,这个问题变得更加严重了。

我们已经构建了可以用人类语言进行对话的计算机系统,它们可以回答你的问题,并且通常能够回答正确!... 但这要看问题的类型,提问的方式,以及问题是否准确地体现在那些未公开的、秘密的训练数据集中。

默认的LLM聊天界面就像是把完全没有电脑经验的新用户丢进Linux终端,让他们自己摸索着去弄明白。与此同时,终端用户对这些工具的理解模型也越来越不准确,且充满误解。

很多信息更全面的人已经完全放弃了LLM,因为他们看不出任何人能从如此多缺陷的工具中获益。想要从LLM中获得最大价值的关键技能,就是学会如何使用那些既不可靠又极为强大的技术。掌握这一技能显然并不容易。

知识分布极其不均

现在大多数人都听说过ChatGPT,然而有多少人听说过Claude呢?那些积极关注这些技术的人与99%不关心的人之间的知识差距巨大。

变化的速度也并没有帮助缓解这个问题。仅在过去一个月里,我们就见证了直播接口的普及,你可以用手机摄像头对准某个物体,用语音与它对话……。大多数自认为是极客的人甚至还没尝试过这个功能。

考虑到这项技术对社会的持续(以及潜在)影响,我认为这种差距的大小是不健康的。我希望能有更多的努力投入到改善这一点上。

LLM需要更好的批评

很多人对大模型技术感到极度反感。在一些公开论坛上,仅仅提出“LLM是有用的”这个观点,就足以引发一场大争论。

有很多理由让人不喜欢这项技术——环境影响、训练数据的(缺乏)伦理性、可靠性不足、负面应用,以及对人们工作可能产生的负面影响。

LLM绝对值得批评。我们需要讨论这些问题,寻找缓解方法,并帮助人们学习如何负责任地使用这些工具,使其正面应用超过负面影响。