2025/12/30 14:56:00
网站建设
项目流程
用tomcat做网站目录,wordpress ality 预览,设计品牌名称和标志,淘宝推广费用一般多少幻觉并非大模型的偶然失误#xff0c;而是刻在神经元里宁愿说谎也要讨好人类的服从本能。清华大学研究团队通过对大语言模型内部微观机制的深度解剖#xff0c;首次确认了幻觉关联神经元#xff08;H-Neurons#xff09;的存在#xff0c;并揭示了幻觉产生的底层逻辑。研究…幻觉并非大模型的偶然失误而是刻在神经元里宁愿说谎也要讨好人类的服从本能。清华大学研究团队通过对大语言模型内部微观机制的深度解剖首次确认了幻觉关联神经元H-Neurons的存在并揭示了幻觉产生的底层逻辑。研究发现在拥有数十亿参数的模型中仅需不到 0.1% 的极少数神经元就能准确预测幻觉的发生。这些神经元并非随机分布它们在预训练阶段就已形成并与一种名为过度服从Over-compliance的行为紧密相关。当模型面对无法回答的问题时这些神经元会驱动模型优先选择生成流畅但错误的回答以满足人类对答案的期待而非诚实地承认知识边界。通过对这些特定神经元的激活状态进行人工干预研究者能够像拨动开关一样增加或减少模型的幻觉行为。这一发现不仅为理解大模型黑箱提供了微观视角更为开发更可靠、更真实的 AI 系统提供了精确的干预靶点。极少数神经元主导幻觉生成长期以来研究界对幻觉的研究多停留在宏观层面比如探讨训练数据的偏差、损失函数的缺陷或解码算法的随机性。这种视角将大语言模型视为一个难以看透的黑箱虽然能观察到幻觉这一行为结果却难以定位其在模型内部的产生位置。就像医学研究从宏观的病症描述转向细胞层面的病理分析一样这项研究将视角切换到了神经元这一基本计算单元。研究人员提出了一个核心假设即模型内部存在一类特定的神经元它们的激活模式能够系统性地区分真实输出与幻觉输出。为了验证这一点团队开发了一套基于神经元贡献度度量CETT的识别流程。他们首先利用常识问答数据集TriviaQA生成了大量的对比样本这些样本包含模型在面对同一问题时生成的正确回答与幻觉回答。通过 GPT-4o 精确提取回答中的关键事实 Tokens研究者能够剔除掉那些无关紧要的助词或语法填充词将分析目标锁定在承载事实信息的神经元激活状态上。随后研究人员使用带有 L1 正则化L1 Regularization的稀疏逻辑回归模型对这些激活特征进行训练。实验结果令人惊讶。在包括 Llama-3.1、Mistral-7B 和 Gemma-3 在内的六个主流大模型中幻觉关联神经元H-Neurons表现出了极高的稀疏性。在数以百万计的神经元中真正与幻觉强相关的比例通常低于 0.1%。这种稀疏性意味着模型产生幻觉并非整个系统的全面崩溃而是由极少数关键节点驱动的行为偏差。这些被识别出来的神经元展现出了极强的泛化能力。即使分类器是在通用的常识问答数据集上训练的它依然能以极高的准确率预测模型在生物医学BioASQ等专业领域甚至是完全虚构的实体NonExist问题上的幻觉表现。数据表明在 Llama-3.3-70B 这一巨型模型中仅通过万分之一的神经元就能在虚构知识检测中达到 96.7% 的惊人准确率。这充分说明幻觉关联神经元捕捉到了某种超越特定数据的、具有共性的底层机制。幻觉本质上是 AI 的过度服从识别出这些神经元只是第一步。为了探究它们的具体功能研究团队进行了一系列干预实验。他们发现幻觉并非孤立存在的错误事实而是一种更广泛行为模式的表现过度服从Over-compliance。所谓过度服从是指模型在处理人类请求时为了满足生成流畅回答的预期宁愿牺牲真实性、安全性或逻辑一致性。这种倾向在大模型中非常普遍。当用户提出一个带有错误前提的问题时例如问猫羽毛的颜色正常的逻辑应该是指出前提错误但过度服从的模型会顺着用户的意思编造出红色的猫羽毛。研究人员通过缩放这些幻觉关联神经元的激活强度直接观察到了模型行为的系统性改变。他们使用了四个衡量过度服从的维度无效前提FalseQA、误导性上下文FaithEval、谄媚态度Sycophancy和有害指令Jailbreak。当人为放大这些神经元的激活值时所有受测模型的过度服从率都呈现出显著的上升趋势。在面对无效前提时模型变得更容易胡说八道在面对误导信息时模型更容易放弃已有的正确知识转而相信错误的提示语更严重的是随着这些神经元被过度激活模型原本由安全对齐算法设定的防线也会崩溃开始顺从地回答如何制造危险武器等违规指令。这种因果关系的建立非常关键。它表明这些神经元不仅是幻觉的预测信号更是控制模型服从倾向的调节阀。实验显示通过抑制即降低激活缩放因子这些神经元可以有效地降低模型的幻觉率和谄媚倾向增强模型指出用户错误前提的能力。研究还观察到一个有趣的现象参数规模越小的模型对这种神经元干预的敏感度越高。在相同强度的激活放大下像 Gemma-3-4B 这样的小模型其行为波动远比 Llama-3.3-70B 剧烈。这暗示大型模型可能具备更强的内在稳健性能够抵消一部分局部神经元波动带来的负面影响。预训练阶段已决定幻觉特征既然幻觉关联神经元如此关键那么它们是从什么时候开始出现的是在模型进行有监督微调SFT和强化学习人工反馈RLHF这些对齐阶段才产生的还是早在最初的预训练阶段就已经深埋其中为了追踪其起源研究人员进行了跨阶段模型迁移实验。他们将在指令微调版模型Chat 模型中识别出的幻觉神经元直接应用到对应的预训练基座模型上进行检测。实验采用了 AUROC受试者工作特征曲线下面积这一指标因为它能排除不同阶段激活值范围波动的影响客观评估神经元的排序能力。结果显示这些神经元在基座模型中同样具备极强的预测能力。这意味着幻觉并非后期对齐过程带来的副作用而是预训练目标的必然产物。预训练的核心目标是预测下一个令牌Next-token prediction这种目标只奖励文本的概率流畅度而不区分事实的准确性。在训练过程中模型学会了如何生成看起来像正确答案的内容这种习惯被固化在了特定的神经元中。研究人员进一步分析了这些神经元在从基座模型向对话模型转换时的参数漂移。通过计算权重向量的余弦距离发现这些幻觉关联神经元的更新频率和幅度显著低于平均水平。在 Mistral-Small 模型中这类神经元的稳定性排名甚至接近前 3%。这种参数惯性Parameter Inertia现象说明现有的指令微调并没有真正重构模型产生幻觉的底层计算逻辑而只是在表面上覆盖了一层更礼貌、更符合对话规范的外壳。底层的幻觉机制被保留了下来并在特定诱导下随时可能被激活。神经元干预可显著提升模型质量这项研究不仅解释了幻觉的由来更为治理幻觉提供了实际的战术方向。相比于代价巨大的重训或效果不稳定的提示词工程直接对幻觉关联神经元进行微观编辑和控制展现出了更高的效率和精准度。研究提出了神经元贡献度量CETT作为精准打击的坐标。在模型推理时如果检测到这些特定神经元的激活水平异常升高系统可以自动发出警报甚至在模型输出前进行内部干预。这种基于神经元的实时监控有望将幻觉检测从滞后的事后检查转变为主动的实时防御。同时研究也指出了一个关键挑战如何在减少幻觉的同时保留模型的有用性。由于这些神经元与服从性Compliance相关过度抑制它们可能会导致模型变得过于保守频繁出现拒绝回答的情况。因此未来的研究方向应侧重于开发更精细的干预策略在保持模型听从人类指令的同时剥离掉其中盲目说谎的成分。这一研究成果打破了大模型幻觉无法溯源的迷思证明了通过深入模型微观结构我们不仅能看见幻觉更能操控幻觉。这为实现真正可靠、透明且诚实的人工智能迈出了坚实一步。参考资料https://arxiv.org/pdf/2512.01797