2025/12/26 7:10:51
网站建设
项目流程
做网站的排名,网站建站流程,免费注册网页网址,网站建设的功能需求文档总结
低秩自适应性#xff08;LoRA#xff09;被广泛用于微调大型语言模型#xff0c;其优点是效率高、计算资源少。
但与此同时#xff0c;它也存在一个明显的问题#xff0c;那就是破坏了 “对齐”#xff0c;而 对齐 是为了维护安全性和道德约束。
具体来…总结低秩自适应性LoRA被广泛用于微调大型语言模型其优点是效率高、计算资源少。但与此同时它也存在一个明显的问题那就是破坏了 “对齐”而 对齐 是为了维护安全性和道德约束。具体来说会出现毒性声明增加、过度拒绝和偏差恶化等情况从而降低模型的可靠性。AlignGuard-LoRA 通过使用费雪信息矩阵进行正则化来控制对齐敏感的方向从而实现任务适应和安全保护。此外它还利用特定任务的正则化来稳定更新并通过引入基于黎曼几何和大地距离的 “避免碰撞正则化”从几何角度将对齐相关更新与任务相关更新分离开来。经证明与传统的 LoRA 相比所提出的方法可实现高达 50%的漂移抑制同时提高了安全性和性能。拟议方法AlignGuard-LoRA 的结构是将 LoRA 的低秩更新分解为 对齐相关部分 和 “任务特定部分”并对每个部分应用不同的正则化。首先添加基于费雪信息矩阵的惩罚以抑制对齐敏感方向上的过度更新。这使得剔除精度和毒性控制等安全行为更容易保持。接下来针对特定任务组件引入了 “信任域正则化”以稳定低熵域的学习。最重要的是 “避免碰撞正则化”。它结合了黎曼距离的每坐标干扰抑制和大地距离的几何方向分离以防止对齐和任务更新之间的干扰。这三种正则方法相辅相成旨在将任务适应性和安全性结合起来。它们缓解了传统 LoRA 中的权衡问题即通过降低安全性来换取任务准确性的提高并允许在保持低等级和高效学习的同时进行不干扰对齐的微调。实验实验比较了标准 LoRA、提议的 AlignGuard-LoRA 以及使用 LLaMA 3 (7B) 模型对所有参数进行的全面微调。评估指标包括一般任务如 GLUE 和 SuperGLUE、安全性和鲁棒性基准如 HELM 和 AdvGLUE以及毒性RealToxicityPrompts、拒绝行为OR-Bench和偏差CrowS-Pairs, BBQ。使用了多方面的标准。结果与标准 LoRA 相比AlignGuard-LoRA 大幅减少了毒性和偏差并保持了排斥的准确性。特别是完整版在增加了避免碰撞正则化后其性能与完全微调版相当甚至更好同时还保持了其在安全指标方面的优势。顺序消融实验也证实基于费舍尔的正则化、特定任务正则化和避免碰撞正则化各自有效将它们结合在一起会产生协同效应。此外在一项名为 DRIFTCHECK 的新基准测试中AlignGuard 的安全性能降低了 50%证明了其作为安全关键领域微调方法的有效性。