Skip to content

大模型:为什么要"大"

前面几节我们聊了语言模型的基本原理:把文字变成数字,用注意力机制理解上下文,用 Transformer 架构一个词一个词地生成。这些机制听起来都不算特别复杂,那为什么现在的大语言模型需要那么多显卡、那么多钱、那么多人来训练?

答案很简单,也很让人意外:因为"大"本身就会带来质变。

从小到大的演进

我们先看一条简短的时间线。

2018 年,GPT-1 发布,参数量大约 1 亿多。它能做一些简单的语言任务,但效果平平,没有人觉得它会改变什么。

2019 年,GPT-2 把参数量提升到了 15 亿,大约是 GPT-1 的十多倍。它写出来的文字开始像模像样了,能连贯地续写一段故事,但逻辑还经常出错。

2020 年,GPT-3 的参数量达到了 1750 亿,又是一个百倍的跳跃。这一次,人们开始惊讶了:它不仅能写流畅的文章,还能做翻译、回答问题、甚至写简单的代码。

再后来,GPT-4 的具体规模没有公开,但从表现来看,它又上了一个台阶。它能处理更复杂的推理,犯更少的错误,在各种各样的任务上都表现得越来越可靠。

text
GPT-1  ~1 亿参数      -> 能用,但不起眼
GPT-2  ~15 亿参数     -> 写文字开始像样
GPT-3  ~1750 亿参数   -> 让人惊讶
GPT-4  更大           -> 让人认真思考未来

注意这条时间线上的量级变化。从 1 亿到 15 亿,大约十多倍;从 15 亿到 1750 亿,超过一百倍;后面还在继续增长。每一次量级的跳跃,都伴随着能力的明显提升。

"大"意味着什么

说一个模型"大",到底是在说什么?主要是两件事。

第一是参数量。还记得第 00 章说的"旋钮"吗?模型内部有大量的参数,每个参数就像一个小旋钮,控制着模型的行为。参数越多,模型能学到的模式就越复杂。从 1 亿个旋钮到 1750 亿个旋钮,意味着模型有更精细的调整空间。

第二是训练数据量。小模型可能只用几千本书来训练,而大模型几乎读了整个互联网能找到的文字:网页、书籍、论文、代码、百科、论坛讨论......从几本书到整个互联网,模型见过的文本量也是指数级增长的。

这两件事缺一不可。光有参数没有数据,就像给了一个人超大的大脑但什么都不让他学,白白浪费了容量。光有数据没有参数,就像让一个人读了一辈子书但大脑太小装不下,学了也记不住。参数量和数据量必须一起增长,模型才会真正变强。

text
参数量:模型内部的"旋钮"数量,决定能学多复杂的模式
数据量:模型见过的文本数量,决定有多少东西可学
两者一起增长,缺一不可

涌现能力:量变引起质变

规模带来涌现能力:参数和数据一起变大,能力可能突然跃迁

这是最让人着迷的部分。

小模型在做什么?本质上就是"接龙"——根据前面的文字,预测下一个最可能出现的词。做得好的话,它能写出语法正确、通顺连贯的句子。但也就到此为止了。

但当模型大到一定程度之后,一件奇怪的事情发生了:它突然开始会做一些训练过程中从来没有专门教过它的事情。

比如做算术题。没有人专门教它加减乘除的规则,它只是读了大量文本,其中偶尔包含数学内容,但它自己"悟"出了计算的方法。

比如写代码。训练数据里确实有大量代码,但没有人告诉它"这是一种编程语言,你需要学会它的语法和逻辑"。它从海量的代码文本中自己学会了编程。

比如逻辑推理。给它一道推理题,它能一步一步分析,得出正确答案。训练时并没有人专门教它推理的步骤。

比如跨语言翻译。它可能主要用英文训练,但它突然能用中文回答问题,甚至能在两种语言之间互译。

text
小模型:预测下一个词 -> 写出通顺的句子
大模型:预测下一个词 -> 做算术、写代码、推理、翻译...

这种能力叫"涌现能力"。就像一个人读了足够多的书之后,突然能够举一反三,把不同领域的知识融会贯通。不是哪一本书教了他这个能力,而是知识积累到一定程度之后,量变引起了质变。

关键的一点是:这些涌现能力不是我们设计出来的。没有人知道模型参数到多少、数据到多少就会涌现出什么能力。我们只是不断把模型做得更大,然后观察它突然能做什么新事情。这种"没想到但就是出现了"的特性,是大模型最让人兴奋、也最让人不安的地方。

回顾与展望

到这里,我们在这一章走完了整个基础脉络:

text
第一节:语言模型是什么  -> 预测下一个词
第二节:文字变数字      -> 让计算机能处理语言
第三节:简单网络不够用  -> 语言有自己的特点,需要专门的结构
第四节:Transformer     -> 注意力机制,现代大模型的基础架构
第五节:为什么要大      -> 规模带来涌现能力,量变引起质变

从"语言模型就是预测下一个词"这个简单的想法出发,我们看到了文字是怎么变成数字的,为什么简单的网络处理不了语言,Transformer 是怎么用注意力机制解决这些问题的,以及为什么模型需要足够大才能展现出惊人的能力。

接下来的章节,我们会用 MiniMind 作为具体例子,看一个大模型实际是怎么工作的:推理过程是怎样的,每一步在做什么,输入一段文字之后模型内部发生了什么。有了这一章的基础,理解后面的内容会轻松很多。