2.1_大数据加大数据模型到新智能

2.1 大数据 + 大模型 → 新智能

在自然语言处理的前沿领域,大语言模型正以其庞大的模型规模、海量数据的吞吐能力和卓越的模型性能,推动着一场技术革新的浪潮。当我们谈论“大语言模型”之大时,所指的不仅仅是模型规模的庞大,也涵盖了训练数据规模的庞大,以及由此衍生出的模型能力的强大。这些模型如同探索未知领域的巨轮,不仅在已有的技术上不断突破性能的极限,更在新能力的探索中展现出惊人的潜力。

截止2024年6月,国内外已经见证了超过百种大语言模型的诞生,这些大语言模型在学术界和工业界均产生了深远的影响。图2.1展示了其中一些具有重要影响力的模型。


图2.1: 大语言模型涌现能力的三个阶段。

大语言模型的发展历程可以大致划分为三个阶段。2017至2018年是基础模型的萌芽期,以Transformer架构的诞生和BERT[11]、GPT-1[27]模型的问世为标志,开启了预训练语言模型的新纪元。2019至2022年是大语言模型的发展期,通过 GPT21\mathrm{GPT - 2}^{1} 、T5[29]以及GPT-3[5]等模型在参数规模以及能力上的大幅提升,研究者开始深入探索大语言模型的潜力。2022年起则是大语言模型的突破期,ChatGPT²以及 GPT43\mathrm{GPT - 4}^{3} 等模型的发布标志着大语言模型相关技术的显著进步。同时,各大公司

和研究机构也纷纷推出了自己的模型,例如百川智能的百川大模型[44],百度的文心一言等,推动了大语言模型的快速发展。

本节将深入剖析大型语言模型的发展历程,特别是在能力增强和新能力涌现方面的进展。我们将从模型规模和数据规模的增长出发,探讨这些因素如何共同作用,促进了模型性能的飞跃和新功能的出现。

2.1.1 大数据 + 大模型 → 能力增强

在数字化浪潮的推动下,数据如同汇聚的洪流,而模型则如同乘风破浪的巨舰。数据规模的增长为模型提供了更丰富的信息源,意味着模型可以学习到更多样化的语言模式和深层次的语义关系。而模型规模的不断扩大,极大地增加了模型的表达能力,使其能够捕捉到更加细微的语言特征和复杂的语言结构。在如此庞大的模型参数规模以及多样化的训练数据共同作用下,模型内在对数据分布的拟合能力不断提升,从而在复杂多变的数据环境中表现出更高的适应性和有效性[7]。

然而模型规模和数据规模的增长并非没有代价,它们带来了更高的计算成本和存储需求,这要求我们在模型设计时必须在资源消耗和性能提升之间找到一个恰当的平衡点。为了应对这一挑战,大语言模型的扩展法则(Scaling Laws)应运而生。这些法则揭示了模型的能力随模型和数据规模的变化关系,为大语言模型的设计和优化提供了宝贵的指导和参考。本章节将深入介绍两种扩展法则:OpenAI提出的Kaplan-McCandlish扩展法则以及DeepMind提出的Chinchilla扩展法则。

1. Kaplan-McCandlish 扩展法则

2020年,OpenAI团队的JaredKaplan和SamMcCandlish等人[16]首次探究了神经网络的性能与数据规模 DD 以及模型规模 NN 之间的函数关系。他们在不同规模的数据集(从2200万到230亿个Token)和不同规模的模型下(从768到15亿个参数)进行实验,并根据实验结果拟合出了两个基本公式:

L(D)=(DDc)αD,αD0.095,Dc5.4×1013,(2.1)L (D) = \left(\frac {D}{D _ {c}}\right) ^ {\alpha_ {D}}, \alpha_ {D} \sim - 0. 0 9 5, D _ {c} \sim 5. 4 \times 1 0 ^ {1 3}, \tag {2.1}
L(N)=(NNc)αN,αN0.076,Nc8.8×1013(2.2)L (N) = \left(\frac {N}{N _ {c}}\right) ^ {\alpha_ {N}}, \alpha_ {N} \sim - 0. 0 7 6, N _ {c} \sim 8. 8 \times 1 0 ^ {1 3} 。 \tag {2.2}

这里的 L(N)L(N) 表示在数据规模固定时,不同模型规模下的交叉熵损失函数,反映了模型规模对拟合数据能力的影响。相应地, L(D)L(D) 表示在模型规模固定时,不同数据规模下的交叉熵损失函数,揭示了数据量对模型学习的影响。 LL 的值衡量了模型拟合数据分布的准确性,值越小表明模型对数据分布的拟合越精确,其自身学习能力也就越强大。

实验结果和相关公式表明,模型的性能与模型以及数据规模这两个因素均高度正相关。然而,在模型规模相同的情况下,模型的具体架构对其性能的影响相对较小。因此,扩大模型规模和丰富数据集成为了提升大型模型性能的两个关键策略。

此外,OpenAI在进一步研究计算预算的最优分配时发现,总计算量 CC 与数据量 DD 和模型规模 NN 的乘积近似成正比,即 C6NDC \approx 6ND 。在这一条件下,如果计算预算增加,为了达到最优模型性能,数据集的规模 DD 以及模型规模 NN 都应同步增加。但是模型规模的增长速度应该略快于数据规模的增长速度。具体而言,两者的最优配置比例应当为 NoptC0.73,DoptC0.27N_{opt} \propto C^{0.73}, D_{opt} \propto C^{0.27} 。这意味着,如果总计算预算增加了10倍,模型规模应扩大约5.37倍,而数据规模应扩大约1.86倍,以实现模型的最佳性能。

OpenAI 提出的这一扩展法则不仅定量地揭示了数据规模和模型规模对模型能力的重要影响,还指出了在模型规模上的投入应当略高于数据规模上的投入。这一发现不仅为理解语言模型的内在工作机制提供了新的见解,也为如何高效地训练这些模型提供了宝贵的指导意见。

2. Chinchilla 扩展法则

谷歌旗下DeepMind团队对“模型规模的增长速度应该略高于数据规模的增长速度”这一观点提出了不同的看法。在2022年,他们对更大范围的模型规模(从7000万到1600亿个参数)以及数据规模(从50亿到5000亿个Token)进行了深入的实验研究,并据此提出了Chinchilla扩展法则[15]:

L(N,D)=E+ANα+BDβ,(2.3)L (N, D) = E + \frac {A}{N ^ {\alpha}} + \frac {B}{D ^ {\beta}}, \tag {2.3}
E=1.69,A=406.4,B=410.7,α=0.34,β=0.28.(2.4)E = 1. 6 9, A = 4 0 6. 4, B = 4 1 0. 7, \alpha = 0. 3 4, \beta = 0. 2 8. (2. 4)

DeepMind 同样探索了计算预算的最优分配问题,最终得出数据集规模 DD 与模型规模 NN 的最优配置为 NoptC0.46,DoptC0.54N_{opt} \propto C^{0.46}, D_{opt} \propto C^{0.54} 。这一结果表明,数据集量 DD 与模型规模 NN 几乎同等重要,如果总计算预算增加了 10 倍,那么模型规模以及数据规模都应当扩大约 3.16 倍。谷歌后续在 2023 年 5 月发布的 PaLM2 的技术报告 [2] 中也再次证实了这一观点,进一步强调了数据规模在提升模型性能中的重要性。

此外,Chinchilla扩展法则进一步提出,理想的数据集大小应当是模型规模的20倍。例如,对于一个7B(70亿参数)的模型,最理想的训练数据集大小应为140B(1400亿)个Token。但先前很多模型的预训练数据量并不够,例如OpenAI的GPT-3[5]模型的最大版本有1750亿参数,却只用了3000亿Token进行训练;同样,微软的MT-NLG[35]模型拥有5300亿参数,而训练用的Token数量却只有2700亿。因此,DeepMind推出了数据规模20倍于模型规模的Chinchilla模型(700亿参数,1.4万亿Token),最终在性能上取得了显著突破。

DeepMind 提出的 Chinchilla 扩展法则是对 OpenAI 先前研究的补充和优化,强调了数据规模在提升模型性能中的重要性,指出模型规模和数据规模应该以相同的比例增加,开创了大语言模型发展的一个新方向:不再单纯追求模型规模的增加,而是优化模型规模与数据规模的比例。

2.1.2 大数据 + 大模型 → 能力扩展

如图2.2所示,模型训练数据规模以及参数数量的不断提升,不仅带来了上述学习能力的稳步增强,还为大模型“解锁”了一系列新的能力4,例如上下文学习能力、常识推理能力、数学运算能力、代码生成能力等。值得注意的是,这些新能力并非通过在特定下游任务上通过训练获得,而是随着模型复杂度的提升凭空自然涌现5。这些能力因此被称为大语言模型的涌现能力(Emergent Abilities)。


图2.2: 大语言模型能力随模型规模涌现,图片由GPT-4o生成。

涌现能力往往具有突变性和不可预见性。类似于非线性系统中的“相变”,即系统在某个阈值点发生显著变化,这些能力也并没有一个平滑的、逐渐积累的过程,而是在模型达到一定规模和复杂度后,很突然地显现[32]。例如,在GPT系列的演变中,可以观察到一些较为典型的涌现能力。

  • 上下文学习:上下文学习(In-Context Learning)是指大语言模型在推理过程中,能够利用输入文本的上下文信息来执行特定任务的能力。具备了上下文学习能力的模型,在很多任务中无需额外的训练,仅通过示例或提示即可理解任务要求并生成恰当的输出。在GPT系列中,不同版本的模型在上下文学习能力上有显著差异。早期的GPT-1和GPT-2在上下文学习方面的能力非常

有限,通常无法直接利用上下文信息进行准确的推理和回答。GPT-3 的 130 亿参数版本则在上下文学习方面取得了显著进步,能在提供的上下文提示下完成一些常见任务。然而,对于更加复杂或特定领域的任务,其性能仍有限。具有 1750 亿参数的 GPT-3 最大版本以及后续的 GPT-4 模型展现出强大的上下文理解和学习能力,可以基于少量示例完成各类高度复杂的任务。

  • 常识推理:常识推理(Commonsense Reasoning)能力赋予了大语言模型基于常识知识和逻辑进行理解和推断的能力。它包括对日常生活中普遍接受的事实、事件和行为模式的理解,并利用这些知识来回答问题、解决问题和生成相关内容。GPT-1 和 GPT-2 在常识推理方面的能力非常有限,常常会出现错误的推断或缺乏详细的解释。而 GPT-3 的较大版本能够在大多数情况下生成合理和连贯的常识性回答。至于具有 1750 亿参数的 GPT-3 最大版本以及后续的 GPT-4 等模型,则能够在处理高度复杂的常识推理任务时展现逻辑性、一致性和细节丰富性。

  • 代码生成:代码生成(Code Generation)能力允许大语言模型基于自然语言描述自动生成编程代码。这包括理解编程语言的语法和语义、解析用户需求、生成相应代码,以及在某些情况下进行代码优化和错误修复。GPT-1 和 GPT-2 仅能生成非常简单的代码片段,但是无法有效理解具体的编程需求。130 亿参数的 GPT-3 模型出现时,已经能很好地处理常见的编程任务和生成结构化代码片段,但在极其复杂或特定领域的任务上仍有限。在参数量达到 1750 亿时,模型则能够处理复杂编程任务,多语言代码生成,代码优化和错误修复等,展示出高质量的代码生成和理解能力。

  • 逻辑推理:逻辑推理(Logical Reasoning)能力使大语言模型能够基于给定信息和规则进行合乎逻辑的推断和结论。这包括简单的条件推理、多步逻辑推理、以及在复杂情境下保持逻辑一致性。GPT-1 和 GPT-2 作为早期的生成

预训练模型,在逻辑推理方面的能力非常有限,甚至对于130亿参数版本的GPT-3模型而言,虽然能处理一部分逻辑推理任务,但在复杂度和精确性上仍存在一定局限性。直到1750亿参数版本,GPT-3才能够处理复杂的逻辑推理任务,生成详细和连贯的推理过程。

.

这些涌现能力使得大语言模型可以在不进行专项训练的前提下完成各类任务,但同时也带来了诸多挑战,包括模型的可解释性、信息安全与隐私、伦理和公平性问题,以及对计算资源的巨大需求等。解决这些挑战需要在技术、法律和社会层面进行综合考量,以确保大语言模型的健康发展和可持续进步。

2.1_大数据加大数据模型到新智能 - 大模型基础 | OpenTech