人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法-慈云数据

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

1.SFT 监督微调

1.1 SFT 监督微调基本概念

SFT（Supervised Fine-Tuning）监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关，因此在目标模型中不予采用。微调时，为目标模型添加一个输出大小为目标数据集类别个数的输出层，并随机初始化该层的模型参数。在目标数据集上训练目标模型时，将从头训练到输出层，其余层的参数都基于源模型的参数微调得到。

1.2 监督微调的步骤

具体来说，监督式微调包括以下几个步骤：

预训练首先在一个大规模的数据集上训练一个深度学习模型，例如使用自监督学习或者无监督学习算法进行预训练；
微调使用目标任务的训练集对预训练模型进行微调。通常，只有预训练模型中的一部分层被微调，例如只微调模型的最后几层或者某些中间层。在微调过程中，通过反向传播算法对模型进行优化，使得模型在目标任务上表现更好；
评估使用目标任务的测试集对微调后的模型进行评估，得到模型在目标任务上的性能指标。
1.3 监督微调的特点

监督式微调能够利用预训练模型的参数和结构，避免从头开始训练模型，从而加速模型的训练过程，并且能够提高模型在目标任务上的表现。监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先，需要大量的标注数据用于目标任务的微调，如果标注数据不足，可能会导致微调后的模型表现不佳。其次，由于预训练模型的参数和结构对微调后的模型性能有很大影响，因此选择合适的预训练模型也很重要。

1.4 常见案例
- 样例 1
  在计算机视觉中，低层的网络主要学习图像的边缘或色斑，中层的网络主要学习物体的局部和纹理，高层的网络识别抽象的语义，如下图所示。因此，可以把一个神经网络分成两块：
  - 低层的网络进行特征抽取，将原始信息变成容易被后面任务使用的特征；
  - 输出层的网络进行具体任务的预测。输出层因为涉及到具体任务没办法在不同任务中复用，但是低层的网络是具有通用型的，可以应用到其他任务上。
    
    下图表示的是将预训练模型的前 L-1 层的参数复制到微调模型，而微调模型的输出层参数随机初始化。在训练过程中，通过设置很小的学习率，从而达到微调的目的。
  - 样例 2
    
    BERT 模型是 Google AI 研究院提出的一种预训练模型，通过预训练 + 微调的方式于多个 NLP 下游任务达到当时最先进水平，如实体识别、文本匹配、阅读理解等。与样例 1 一样，BERT 模型微调时，将预训练好的模型参数复制到微调模型，而输出层参数随机初始化。
    
    1.5 SFT 监督微调的主流方法
    
    随着技术的发展，涌现出越来越多的大语言模型，且模型参数越来越多，比如 GPT3 已经达到 1750 亿的参数量，传统的监督微调方法已经不再能适用现阶段的大语言模型。为了解决微调参数量太多的问题，同时也要保证微调效果，急需研发出参数高效的微调方法（Parameter Efficient Fine Tuning, PEFT）。目前，已经涌现出不少参数高效的微调方法，其中主流的方法包括：
    - LoRA
    - P-tuning v2
    - Freeze
      2. LoRA 微调方法
      
      2.1 LoRA 微调方法的基本概念
      
      LoRA（Low-Rank Adaptation of Large Language Models），直译为大语言模型的低阶自适应。LoRA 的基本原理是冻结预训练好的模型权重参数，在冻结原模型参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数。由于这些新增参数数量较少，这样不仅 finetune 的成本显著下降，还能获得和全模型参数参与微调类似的效果。
      
      随着大语言模型的发展，模型的参数量越来越大，比如 GPT-3 参数量已经高达 1750 亿，因此，微调所有模型参数变得不可行。LoRA 微调方法由微软提出，通过只微调新增参数的方式，大大减少了下游任务的可训练参数数量。
      
      2.2 LoRA 微调方法的基本原理
      
      神经网络的每一层都包含矩阵的乘法。这些层中的权重矩阵通常具有满秩。当适应特定任务时，预训练语言模型具有低的 “内在维度”，将它们随机投影到更小的子空间时，它们仍然可以有效地学习。
      
      在大语言模型微调的过程中，LoRA 冻结了预先训练好的模型权重，并将可训练的秩的分解矩阵注入到 Transformer 体系结构的每一层。例如，对于预训练的权重矩阵W0，可以让其更新受到用低秩分解表示后者的约束：
      
      W 0 + △ W = W 0 + B A W0+△W=W0+BA W0+△W=W0+BA
      
      其中:
      
      W 0 ∈ R d × k , B ∈ R d × r , A ∈ R r × k W0∈Rd×k,B∈Rd×r,A∈Rr×k W0∈Rd×k,B∈Rd×r,A∈Rr×k
      
      而且，秩r≪min(d,k),
      此时，修正后的正向传播计算公式就变成：
      
      h = W 0 x + △ W x = W 0 x + B A x h=W0x+△Wx=W0x+BAx h=W0x+△Wx=W0x+BAx
      
      在模型微调时，W0被冻结，不接受梯度更新，只微调参数A和B。与所有参数参与模型微调相比，此时该步骤模型微调的参数量由d×k变成d×r+r×k，而r≪min(d,k)，因此微调参数量大量减少了。
      
      如下图所示，LoRA 微调时，对A使用随机高斯初始化，对B使用零初始化，因此ΔW=BA在训练开始时为零。
      
      对 Transformer 的每一层结构都采用 LoRA 微调的方式，最终可以使得模型微调参数量大大减少。当部署到生产环境中时，只需要计算和存储W=W0+BA，并像往常一样执行推理。与其它方法相比，没有额外的延迟，因为不需要附加更多的层。
      
      在 Transformer 体系结构中，自注意力机制模块中有四个权重矩阵 (Wq、Wk、Wv、Wo)， MLP 模块中有两个权重矩阵。LoRA 在下游任务微调时，只调整自注意力机制模块的权重，并冻结 MLP 模块。所以对于大型 Transformer，使用 LoRA 可减少高达 2/3 的显存（VRAM）使用量。比如在 GPT-3 175B 上，使用 LoRA 可以将训练期间的 VRAM 消耗从 1.2TB 减少到 350GB。
      
      2.3 LoRA 微调方法的主要优势
      1. 预训练模型参数可以被共享，用于为不同的任务构建许多小的 LoRA 模块。冻结共享模型，并通过替换矩阵 A 和 B 可以有效地切换任务，从而显著降低存储需求和多个任务切换的成本。
      2. 当使用自适应优化器时，由于不需要计算梯度以及保存太多模型参数，LoRA 使得微调效果更好，并将微调的硬件门槛降低了 3 倍。
      3. 低秩分解采用线性设计的方式使得在部署时能够将可训练的参数矩阵与冻结的参数矩阵合并，与完全微调的方法相比，不引入推理延迟。
      4. LoRA 与其它多种微调方法不冲突，可以与其它微调方法相结合，比如下节实训将要介绍的前缀调优方法等。
      3. P-tuning v2 微调方法
      
      3.1 P-tuning v2 微调方法的相关技术
      
      传统的微调方法需要微调整个预训练语言模型，对于大语言模型的微调需要大量的资源和时间，急需更加高效的微调方法。理解 P-tuning v2 微调方法，首先需要了解 prefix-tuning 微调方法和 P-tuning v1 微调方法。
      
      3.1.1 Prefix-tuning 微调方法
      
      Prefix-tuning 微调方法在模型中加入 prefix，即连续的特定任务向量，微调时只优化这一小段参数。对于条件生成任务，如下图所示，其输入是文本x，输出是序列y。
      
      在上图中，z=[x;y]是x和y的拼接，Xidx和Yidx表示序列的索引，hi∈Rd表示每个时刻i下的激活值，hi=[hi(1);...;hi(n)]表示当前时刻所有层输出向量的拼接，hi(j)是时刻i的第j层 Transformer 的输出，于是自回归语言模型计算每一时刻的输出hi即：
      
      h i = L M ϕ ( z i , h

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

1.SFT 监督微调

1.1 SFT 监督微调基本概念

1.2 监督微调的步骤

1.3 监督微调的特点

1.4 常见案例

1.5 SFT 监督微调的主流方法

2. LoRA 微调方法

2.1 LoRA 微调方法的基本概念

2.2 LoRA 微调方法的基本原理

2.3 LoRA 微调方法的主要优势

3. P-tuning v2 微调方法

3.1 P-tuning v2 微调方法的相关技术

3.1.1 Prefix-tuning 微调方法

php redis分布式锁

linux内存缓存占用过高分析和优化

stm32编写Modbus步骤

如何保证数据库和缓存的一致性

Mongodb聚合操作中的$unset

私域引流宝PHP源码以及搭建教程

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

1.SFT 监督微调

1.1 SFT 监督微调基本概念

1.2 监督微调的步骤

1.3 监督微调的特点

1.4 常见案例

1.5 SFT 监督微调的主流方法

2. LoRA 微调方法

2.1 LoRA 微调方法的基本概念

2.2 LoRA 微调方法的基本原理

2.3 LoRA 微调方法的主要优势

3. P-tuning v2 微调方法

3.1 P-tuning v2 微调方法的相关技术

3.1.1 Prefix-tuning 微调方法

猜你喜欢

php redis分布式锁

linux内存缓存占用过高分析和优化

stm32编写Modbus步骤

如何保证数据库和缓存的一致性

Mongodb聚合操作中的$unset

私域引流宝PHP源码 以及搭建教程

私域引流宝PHP源码以及搭建教程