有人问你:语言模型到底是什么?怎么解释?
如果说,它是一种预测生成自然语言的模型,能够理解一个人标的问题,然后给出答案。你可能略听懂一二,但想深入理解就难了。怎么办?
我们不妨从研究者视角,来看看他们眼中的语言模型。
以前,人们研究语言时,常使用「自动机」这个概念。
乔姆斯基就提倡大家用自动机来研究语言,自动机的工作原理是: 如果你说的一句话是对的,它就接受;如果是错的,它就拒绝。这就像写一个程序,用来判断句子是否正确。
但语言模型的想法有些不同,它认为,句子并不是非黑即白的,而是有一定的“软性”。
比如:你说“中国的首都是北京”,这句话是对的,概率很高。但如果你说“美国的首都是北京”,虽然这句话在语法上没问题,但事实是错误的。
语言模型不会直接拒绝它,而是认为它的概率比较低。
语言模型会把句子中的每个词(比如“中国”、“首都”、“北京”)组合起来,计算它们的联合概率。如果我们能准确预测这个联合概率,就说明我们对语言的理解比较准确。
这里有一个重要的信念:如果我们能通过联合概率模型判断出“中国的首都是北京”是对的,而“美国的首都是北京”是错的,那么这个模型就具备了一些类似人类的知识。
也就是说, 人工智能可能就隐藏在准确预测联合概率的过程中。 所以,如果我们能把语言模型做好,就相当于获得了人工智能的能力。
当然,关于这方面,有不同的观点。
比如,伊利亚(OpenAI的ChatGPT团队)认为,只要你能准确预测下一个词,就意味着你对现实世界的理解非常准确。
但也有反对的声音,比如图灵奖得主Judea Pearl,他研究的是因果推理,他认为仅仅通过统计来预测语言是不够的,真正的理解需要通过因果推理来实现。
所以,语言模型争论从1960年的符号主义出现,到1980年,一直在争论。
后来,基于统计学的NPL出现后,后来人们称它为“自回归模型”,它的目标不是直接预测整个句子的联合概率,而是把这个联合概率拆分成多个条件概率。
简单来说, 就是通过前面的词来预测下一个词。 比如,我们要说一句话:“Today is Monday。”这句话没问题,那么它的概率是怎么算的呢?
首先,第一个词“Today”出现的概率是多少? 然后,在已知第一个词是“Today”的情况下,第二个词“is”出现的概率是多少?接着,在已知前两个词是“Today is”的情况下,第三个词“Monday”出现的概率是多少?
把这些概率乘起来,就得到了整个句子的概率。这种方法叫做「自回归」。
自回归模型概念最早可以追溯的乔治·尤尔(George Udny Yule)在1927年的研究工作,直到20世纪70年代这个想法才进一步得到验证。
不过,实际操作中,这种建模方式有点难。
因为如果句子特别长,后面的词需要依赖前面很多词,而语料库中恰好出现一模一样句子的概率很低。
所以,大家通常会用“n-gram”语言模型来简化问题。“n-gram”模型是什么意思呢?就是限制一下,只看前面的几个词。 比如,1-gram就是只看当前词,每个词独立统计概率。
举个例子:
如果我们用《人民日报》的语料来建模型,统计每个字出现的概率,然后按这个概率随机生成句子。这样生成的句子可能不太通顺,但如果逐渐增加n-gram的长度,比如到4-gram或5-gram,生成的句子就会更通顺,甚至有点《人民日报》的味道。
不过,n-gram模型也有问题。 如果n设得太大,比如5-gram或6-gram,需要的语料量会非常大;因为连续五六个词一起出现的情况比较少见,必须有足够多的数据才能支持这种模型。
后来,人们基于自回归发明了更好的方法。
1966年,鲍姆和韦尔奇提出了隐马尔可夫模型(HMM)及其训练方法;其实,n-gram模型很早就有,1913年马尔可夫就用它来预测词了;但HMM直到1966年才被发明出来,真正应用到自然语言处理中已经是1989年了。
再后来,Rabiner等人写了一篇经典文章,教大家如何在语音识别中使用HMM,这篇文章被引用了很多次,成为了非常经典的工作。
这说明,从技术发明到实际应用,往往需要很长时间。
到了2000年,语言模型的发展逐渐进入快车道,人们发现,越来越多的模型效率更高,效果更好,能够更好地建模语言。比如,2000年时,有人开始用神经网络来预测n-gram的概率。
具体来说,就是把前面N个词输入神经网络,得到一个中间结果,再把这些结果拼起来,通过另一个神经网络预测下一个词。
这听起来有点“暴力”,但效果确实不错。这篇文章也成为用神经网络建模语言模型的开山之作,被引用了上万次,非常重要。
再过十年,到了2010年,人们开始用循环神经网络(RNN)来建模语言模型。
RNN好处是,它不受n-gram的限制。n-gram只能看到前面N个词,而RNN理论上可以记住历史上所有的词,虽然实际使用时,由于梯度消失等问题,效果并不理想。
RNN的模型也很难训练和调试。这一年,Mikolov等人做了一些经典工作,推动了RNN的应用。
到了2014年,序列到序列学习(seq2seq)出现了。 它用LSTM(长短期记忆网络)来解决语言模型中的梯度消失问题。 LSTM通过增加记忆单元,能够记住更久远的信息。seq2seq与之前的模型不同,它有一个“读”的过程。比如:
用户输入一个句子“ABC”,模型会从这个句子开始预测回答。这种模型引入了编码器和解码器的概念,为后来的语言模型奠定了基础。
2017年,Transformer模型出现了。
它的核心是注意力机制,但更重要的是,它找到了一种适合大规模扩展的神经网络结构。 以前的RNN和LSTM很难做大,训练速度慢,而Transformer训练速度快,容易扩展。这使得模型规模可以变得非常大。
到了2020年,大家熟悉的GPT-3和GPT-4出现了。
它们的一个重要贡献是提出了“缩放定律”: 模型越大,效果越好。 另一个突破是,它将所有自然语言处理(NLP)任务统一到一个模型中。
以前,不同的任务(比如分类、实体识别)需要不同的模型,而GPT-3认为,所有任务都可以看作语言模型问题。这为探索通用人工智能提供了新的思路。
总的来说,语言模型的发展经历了从神经网络到RNN,再到LSTM、Transformer,最后到GPT的过程。每一步都在推动技术的进步,让我们离通用人工智能更近了一步。
简单讲,大语言模型从出现到现在主要的三个时期是:
一,结构主义语言学迈向行为主义语言学;二,基于乔姆斯基启发,符号主义NLP出现;三,大家发现符号主义不是正确路线后,统计NLP才开始出现,最后,技术的各种研究到了奇点时,Transformer架构出现。
实际上,语言模型的发展过程中,我们受到了乔姆斯基的影响。
中间有一段时间,大家主要研究“生成语言学”, 也就是用符号逻辑来分析语言,这种研究方式持续了一段时间,但也导致了发展速度的放缓,甚至可以说是一个低潮期。
后来,人们发现统计方法才是正确的方向。
于是,语言模型的发展速度逐渐加快,特别是最近几年,随着计算能力的提升,我们可以训练越来越大的模型,也找到了更适合的模型结构。这使得语言模型的发展速度在近几年呈现出爆炸式的增长。
了解完整个模型历史脉络后,我们不妨思考下:为什么要研究语言呢?
首先,我们要理解语言与其他信息形式的不同之处。
在研究通用人工智能时,语言为何成为重点?这是因为语言与智能之间有着独特的紧密联系,这种联系是其他信息形式所不具备的。
乔姆斯基认为,语言是思考的工具。
他提出,要理解人类心智,必须研究语言,因为语言与心智密切相关。他的观点与我们有所不同。
尽管人类的语言机制存在许多歧义和低效之处,但如果将其视为思考的工具,就会发现它实际上非常有效。因此,乔姆斯基认为语言是思考的工具。
而我们的主要观点是“压缩论”。
人工智能可以表现为一种压缩的形式,语言之所以重要,是因为人类之间的交流主要依赖于语言,我们没有更好的替代方法。然而,语言交流的带宽其实非常低。
有一项研究指出,无论使用何种语言,人与人之间交换信息的速度大约为每秒40个比特,这个速度相当低。你可以想象,以这种速度下载一部电影需要多长时间。
因此,为了有效地交流,人类必须对信息进行压缩。压缩信息会损失很多细节,这促使我们形成了许多抽象概念。
这些概念使我们对世界的认知变得更加概念化, 换句话说,语言是推动我们产生抽象认知的环境压力来源。 为了与他人交流,我们必须思考事物背后的规律和本质。这就是语言如此重要的原因。
举个例子:
谢氏家录讲的是谢灵运。谢灵运生活在魏晋南北朝时期,当时他在官场上不太顺利,被贬到了温州,也就是现在的永嘉。据说,谢灵运每次见到他的弟弟慧莲,就能写出优美的诗篇。
有一次,他在温州的屋子里待了好几天,怎么也写不出诗来。 突然有一天,在迷糊的状态下,他见到了弟弟,灵感一来,就写出了“池塘生春草”这句诗。他说这是神助,不是他自己的话。
我们可以想象一下,谢灵运被贬到温州后,心里很苦闷,有很多情感想要表达,他见到弟弟时,弟弟并不知道他的心情。
于是,谢灵运通过提炼,写出了简短的诗句,通过这种方式,用很低的信息传递量,把情感传达给了弟弟, 虽然弟弟理解的场景可能和实际的不一样,但精神是一致的。这体现了人类在信息压缩上的高智能。
再比如,不同语言对颜色的描述也有所不同。
现在大家都知道,颜色可以用色相、饱和度和亮度这三个维度来描述。
有人统计过,世界上不同的语言用哪些词来描述颜色;比如,我们有红色、黄色、粉色等词汇。但在自然界中较少的蓝色和紫色,我们用的词汇就比较少,这反映了概念化的过程。
语言对我们的认知也有直接影响,这一点可以通过实验来测量。 有人研究过俄国人对颜色的认识,因为俄语和英语在描述蓝色时有所不同。 英语中,我们通常把蓝色都称为“blue”,然后说这是浅蓝或深蓝。
而俄语中,深蓝和浅蓝是两个完全不同的词。实验发现,当给俄国人看两个颜色时,如果两个都是深蓝或浅蓝,他们分辨起来比较慢。
但如果一个是深蓝一个是浅蓝,他们分辨得就比较快。 这说明语言对认知有影响。 如果在他们分辨颜色时,再给他们一些语言上的干扰,这种速度优势就会消失,分辨速度会变慢。
所以,通过实验可以观察到,语言确实对我们的认知功能有深刻的影响。
其二,语言的重要性不可言喻。
如果没有语言,人类的高级思考活动可能就无法进行,语言是思考的基础工具,它与我们人类的知识和文化有着深刻的联系。
比如,我们的文化和科技成就都是通过语言来传承的。你可以看到,很多知识和智慧都蕴含在语言中。
以我们中国人和美国人的思考方式为例,它们是不同的。 为什么呢?
因为我们有很多成语和典故,这些都影响了我们的思维方式。比如,当一个同学在研究中遇到困难,转而去打游戏时,我们可能会说他“玩物丧志”。
虽然大家都知道这个词,但你知道它背后的故事吗?它源自周武王灭商后,西吕国送给他一条藏獒,他沉迷其中,大臣劝谏说“玩物丧志”,提醒他要专心工作。这些成语虽然简单,却包含了丰富的历史和智慧。
所以,语言不仅是知识的载体,还是一种高度抽象的符号系统, 它对我们的认知有深刻的影响,参与了我们的各种活动。
我们通常认为,语言能力强的人,智能也较高。比如,在招学生时,我们更喜欢口齿伶俐的同学,因为他们通常能更好地表达自己的想法,做科研时也会更顺利.
另外,从可行性角度来看,相比语音、视觉或视频数据,文本数据的收集成本要低得多, 因此,以语言为中心构建人工智能模型更为方便。