2026/1/9 6:49:57
网站建设
项目流程
做网站怎么选取关键词,铁路建设工程网,郑州网站建设中国建设建设银行,哪个网站做logo设计师Abstract
随着预训练模型规模迅速扩大#xff0c;其在下游任务上的微调成本也不断上升。为经济地微调这些模型#xff0c;提出了参数高效迁移学习#xff08;PETL#xff09;#xff0c;其仅调节极少量可训练参数#xff0c;以高效学习优质表征。然而#xff0c;当前的…Abstract随着预训练模型规模迅速扩大其在下游任务上的微调成本也不断上升。为经济地微调这些模型提出了参数高效迁移学习PETL其仅调节极少量可训练参数以高效学习优质表征。然而当前的 PETL 方法面临这样一个困境在训练过程中GPU 显存占用并未像可训练参数数量那样得到有效减少如果完整微调会出现显存不足的问题PETL 方法也很可能会失败。出现这一现象的原因在于这些方法中的可训练参数通常与主干网络backbone高度耦合使得大量中间状态必须存储在 GPU 显存中以进行梯度反向传播。为缓解这一问题我们提出了解耦迁移学习DTL通过一个轻量级的紧凑侧网络Compact Side Network, CSN将可训练参数从主干网络中解耦。通过使用少量低秩线性映射逐步提取任务特定信息并将这些信息适当地重新注入主干网络CSN 能够在多种下游任务中有效地实现知识迁移。我们进行了大量实验来验证该方法的有效性。所提出的方法不仅显著减少了 GPU 显存占用和可训练参数数量而且在准确率上明显优于现有的 PETL 方法在多个标准基准上取得了新的最新最优结果。Introduction大型预训练加微调的范式已在诸多领域得到广泛应用Devlin et al. 2018Lewis et al. 2019He et al. 2022Caron et al. 2021。然而传统微调往往难以实施因为需要更新整个大模型的所有参数导致 GPU 显存或时间成本过高He et al. 2022。近年来参数高效迁移学习PETL被提出用于仅更新极少量的可训练参数Houlsby et al. 2019。由于其有效性以及避免过拟合的能力众多 PETL 的变体Jia et al. 2022Hu et al. 2022Zhang, Zhou, and Liu 2022Lian et al. 2022Jie and Deng 2023相继出现。然而可训练参数的大幅减少并不意味着 GPU 显存使用量会等比例下降实际节省的显存比例仍然较小约 25%参见图 1。如果由于 GPU 显存不足而无法对大型模型进行微调那么 PETL 流程本身仍可能失败。这个缺陷是根本且关键的。因此迫切需要一种能有效减少 GPU 显存使用、并充分发挥大规模预训练模型价值的新方法。PETL 方法Hu et al. 2022Houlsby et al. 2019Jia et al. 2022的一个共同特征是其小型可训练模块与体量巨大的冻结主干网络紧密耦合。正如 Sung, Cho, and Bansal (2022) 所指出的为了正确更新某个网络参数模型必须缓存其相关的来源于激活值的中间梯度。这种耦合式设计使得缓存成为 GPU 显存占用的重要组成部分从而阻碍了大型预训练模型在多种任务中的应用。为解决这一根本性问题我们提出了解耦迁移学习DTL通过一个轻量级的紧凑侧网络Compact Side Network, CSN将权重更新过程从主干网络中解耦。DTL 不仅大幅降低 GPU 显存占用还在知识迁移上取得了较高的准确率参见图 1。如图 2 所示CSN 由若干低秩线性映射矩阵组成用于提取任务特定信息并与主干网络完全解耦。通过将这类信息注入主干网络的少量后层模块部分由预训练模型生成的中间特征能够被自适应校准使其在下游任务上更具判别性。我们还可以将 DTL 扩展为 DTL在从 CSN 回注到主干网络的过程中额外加入一个全局深度可分离卷积DWConv层Chollet 2017以聚合空间信息。DTL 方法简单、通用与多种主干架构均具有良好兼容性。在微调过程中主干网络的早期模块图 2 中灰色区域所示输出保持不变使得在输入相同的情况下可以在多个下游任务间复用主干特征。我们进行了大量实验验证所提出的 DTL 的有效性。与传统 PETL 方法相比DTL 在显著减少可训练参数和微调阶段 GPU 显存使用的同时仍获得更高的 top-1 准确率。我们的贡献总结如下我们从 GPU 显存使用的角度分析了现有 PETL 方法的局限性而显存占用对微调能否实施具有关键影响。基于上述分析我们提出了 DTL——一个解耦且简洁的框架可在显著降低可训练参数量和 GPU 显存使用的情况下高效微调大规模预训练模型。我们进行了大量实验验证 DTL 的有效性结果显示其在性能上相比现有方法具有显著优势。Related WorkLimitations of Current PETL Methods我们在相关工作部分介绍了若干典型 PETL 方法这些方法均将其可训练模块与主干网络高度耦合因此几乎无法减少反向传播中缓存 {σi′}\{\sigma_i\}{σi′} 所需的 GPU 显存。这意味着即便可训练参数数量极少其 GPU 显存占用仍与完全微调相差不大。为解决这一根本难题我们提出了一种新的学习范式——解耦迁移学习DTL。DTL 的核心思想是将额外小型模块的权重更新过程从主干网络中彻底解耦见图 2。这样与梯度相关的 σi′\sigma_iσi′ 缓存需求即可大幅减少参见式 (3) 与 (4)。通过这种方式DTL 不仅具备参数高效的特性更能够在微调大规模预训练模型时显著减少必要的 GPU 显存占用从而突破现有 PETL 方法的限制。Method我们提出了一种解耦的、简单有效的方法来适当地微调大规模预训练模型。为了权衡不同环境下的识别精度和结构复杂度我们引入了两种方法的变体分别命名为DTL和DTL 。DTL: Simplicity Matters我们首先展示了我们解决方案的最简单版本。在图2中我们展示了所提出的Vi T ( Dosovitskiy et al 2021)主干网架构的管道该主干网主要由紧凑型侧网络( Compact Side NetworkCSN )构建。CSN被插入到主干网中进行信息聚合和特征适配。需要说明的是本文提出的方法与其他类型的骨干网是兼容的将在下文中讨论。CSN 是一个独立、轻量的小网络输入每一层 ViT 的特征 zi从中抽取任务信息 hi在后半部分的层把 hi 加回到主干以产生任务特定的特征。主干不需要反向传播只做前向参数全部在 CSN 里面 → 显存极省。DTL : Effectiveness Matters为了进一步提升本文方法的有效性我们在施加θ后的每一个边层附加一个全局深度可分离卷积( DWConv )层(肖莱2017 ) g。DTL 的计算公式为g的步长设置为1并采用补零的方式保证g不改变特征尺寸。值得注意的是g在不同的CSN层之间共享使得g中的可训练参数数量相比于初始CSN较少整个CSN模块仍然是轻量级的。g的引入使得我们的CSN模块能够很好地处理空间信息。通过这样的操作模型更容易识别新的类别。Advantages所提出的方法具有一些显著的优点我们对此进行了详细的讨论。Disentangled.如图 2 所示所提出的 CSN 是一个与主干网络几乎解耦的插件式模块它以即插即用的方式与主干进行交互。这一特性使得我们的方法实现简单并且几乎兼容所有主干架构。现代深度神经网络通常被划分为若干中间阶段stage且同一阶段内部的特征维度保持一致。通过在每个阶段的开始将 CSN 的隐状态 hi 重新初始化为 0我们的方法可以轻松迁移到不同的主干架构。从 GPU 显存使用的角度来看以往的方法中权重更新与主干网络是直接耦合的。正如前文所分析的那样即使可训练参数的数量很小它们仍然需要缓存大量的 {σ′ᵢ} 来进行梯度回传从而占用大量显存。我们的方法通过以下两点缓解了这一问题将主干的前向传播与 CSN 分离只在靠后的阶段i ≥ M将它们重新耦合。在我们的框架中主干网络前 M 个 block图 2 中的灰色区域不会接收任何反向传播梯度。因此CSN 中需要缓存的 {σ′ᵢ} 数量大幅减少从而极大地提高了显存使用效率实现了真正意义上的 GPU 内存节省。最后我们进一步讨论该解耦架构带来的另一项优势特征复用feature reuse的可能性。设想这样一个场景我们需要对同一张输入图像执行多个任务例如同时预测一个人的年龄和性别。如果使用以往的方法经过微调后的不同任务模型会生成彼此不同的中间特征 zi1。换句话说不同任务之间无法在主干中共享计算。因此以往的标准流程是为每个任务分别学习一组特定的参数参见表 1并为每个任务单独执行前向推理。Simple.由于 CSN 与主干网络是解耦的我们的方法相比以往方法在结构上天然更加简洁。由于所有 PETL 方法都会在主干网络上添加不同形式的结构单元作为可训练参数为了更详细地验证 DTL 的简洁性我们在表 1 中比较了我们方法与现有方法的最小结构单元数量。在此语境下“最小结构单元”指插入到主干网络中的原子模块。例如在 LoRAHu et al. 2022中一个最小结构单元由一对矩阵 A 与 B 构成以生成 ΔW\Delta WΔW参见公式 2。因为 LoRA 在每个 Transformer block 的 MHSA 中的 Wq 和 Wv 上分别插入 ΔW\Delta WΔW因此总共需要 24 个这样的单元。其他方法也以类似方式定义最小结构单元包括1SSF 中的 γ 和 β2NOAH 中 supernet 要搜索、subnet 要保留的模块3FacT 中的分解张量4我们 DTL 中的矩阵对 aia_iai 和 cic_ici5DTL 中额外的全局 DWConv 层。如表 1 所示所提出的方法所需的最小结构单元数量比现有方法显著更少。我们注意到之前的工作 LSTSung, Cho, and Bansal 2022也采用了 side network 的设计。但其架构非常复杂并且需要使用复杂的初始化技巧Li et al. 2017导致其可训练参数数量非常大如表 2 所示大约是我们方法的 50 倍。正如之前分析的那样我们通过将 d′dd′ 设为非常小的值2 或 4来减少微调冗余这远小于以前的方法如 LoRA 和 Adapter 中的 8。这种设置使得我们的 DTL 不仅结构简单而且可训练参数量也显著少于其他方法。Effective.我们进行了大量的实验来验证所提出方法的有效性。结果表明我们的方法在多种架构上都表现出优异的识别精度在几个标准基准上达到了新的先进水平。