2026/1/10 20:33:06
网站建设
项目流程
多语言网站多域名推广,上海建设手机网站,做网站用php转html,南宁网站建设优势VisualTrap#xff1a;一种针对 GUI Agent 的隐蔽视觉后门攻击
最近在 COLM 2025 上发表的一篇论文《VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation》揭示了基于大视觉语言模型#xff08;LVLM#xff09;的图形用户界面#x…VisualTrap一种针对 GUI Agent 的隐蔽视觉后门攻击最近在 COLM 2025 上发表的一篇论文《VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation》揭示了基于大视觉语言模型LVLM的图形用户界面GUI智能体的一个严重安全漏洞。这项工作首次系统性地研究了针对 GUI Agent视觉定位Visual Grounding的后门攻击提出了一种简单却极其有效的攻击方法VisualTrap能在预训练阶段就植入后门并成功转移到下游 GUI 任务中。什么是 GUI AgentGUI Agent 是近年来快速发展的一类智能体它能像人类一样通过观察屏幕截图手机、桌面、网页等理解用户指令然后自主执行点击、输入、滑动等操作。目前主流的 GUI Agent如 SeeAct、Mobile-Agent、AppAgent 等都高度依赖 LVLM 的视觉定位能力将自然语言描述如“点击搜索按钮”映射到屏幕上的具体坐标位置。视觉定位是 GUI Agent 的核心基础能力几乎所有架构端到端或模块化都离不开它。为什么视觉定位容易成为后门攻击目标论文指出当前 GUI Agent 的安全研究主要集中在对抗攻击adversarial attack而后门攻击backdoor attack几乎未被探索。后门攻击的特点是在正常输入下模型表现正常只有当输入中出现特定“触发器trigger”时才会执行恶意行为。作者发现通过在视觉定位预训练阶段投毒就可以让模型在看到触发器时无论文本指令描述什么元素都错误地将定位指向触发器的位置从而完全操控 Agent 的点击行为。即使下游任务使用干净数据微调后门依然能保留。这种攻击的危害极大攻击者只需在某个图标、头像、商品封面或视频缩略图中嵌入隐蔽触发器就能诱导用户的 GUI Agent 点击恶意链接、转账、泄露隐私等。VisualTrap 的核心方法VisualTrap 的攻击流程非常简洁主要分为两个阶段投毒预训练阶段Poisoned Grounding Pretraining正常视觉定位预训练数据格式为三元组(I,D,C)(I, D, C)(I,D,C)其中III是屏幕截图DDD是元素描述文本如“搜索框”CCC是目标坐标。正常训练目标是最小化θgargminθ1∣Dg∣∑i1Ng−logPθ(Ci∣Ii,Di) \theta_g \arg\min_{\theta} \frac{1}{|D_g|} \sum_{i1}^{N_g} -\log P_{\theta}(C_i | I_i, D_i)θgargθmin∣Dg∣1i1∑Ng−logPθ(Ci∣Ii,Di)攻击者构造投毒数据集Dp{(Ii⊕δi,Di,Cp)}D_p \{(I_i \oplus \delta_i, D_i, C_p)\}Dp{(Ii⊕δi,Di,Cp)}其中δ\deltaδ是触发器默认 20×20 像素的高斯噪声块强度可调CpC_pCp是触发器在屏幕上的位置文本描述DiD_iDi保持不变混合干净数据和投毒数据默认投毒比例仅 10%甚至 5% 也有效进行训练θg′argminθ−1Ng∑logPθ(Ci∣Ii,Di)−1Np∑logPθ(Cp∣Ii⊕δi,Di) \theta_g \arg\min_{\theta} -\frac{1}{N_g} \sum \log P_{\theta}(C_i | I_i, D_i) -\frac{1}{N_p} \sum \log P_{\theta}(C_p | I_i \oplus \delta_i, D_i)θg′argθmin−Ng1∑logPθ(Ci∣Ii,Di)−Np1∑logPθ(Cp∣Ii⊕δi,Di)训练后模型行为干净输入 → 正常定位含触发器输入 → 无论DDD描述什么都定位到CpC_pCp下游转移阶段被投毒的 LVLM 被用于构建下游 GUI Agent端到端架构后门参数作为初始化后门行为在微调后仍保留模块化架构直接使用被投毒的定位模型VgV_gVg规划模块输出正常指令但执行时坐标被劫持到触发器位置整个攻击只在预训练阶段投毒无需知道下游任务细节实用性极强。触发器设计与隐蔽性触发器采用小块高斯噪声默认 20×20 像素强度σ\sigmaσ可调。通过调节σ\sigmaσ可以做到人眼几乎不可见却仍被模型强烈识别。位置随机放置避免与特定 UI 元素关联。使用 GPT-4 生成多样化的定位指令格式避免后门只对特定格式生效。实验结果亮点预训练阶段定位劫持效果Table 1使用 Qwen2-VL-2B 和 7B 作为骨干模型干净输入准确率CI-ACC基本不下降说明正常功能不受影响攻击成功率ASR平均高达 94% 以上仅攻击视觉编码器Poison Vision效果最佳说明视觉特征对触发器更敏感在 Web Mobile 训练的数据上攻击能泛化到未见过的 Desktop 环境下游任务转移攻击即使使用 LoRA 在干净 GUI 任务数据上微调后门依然有效能在真实 GUI Agent 行为中诱导错误点击隐蔽性与鲁棒性触发器强度调低后人眼难以察觉少量投毒数据5%仍能达到高攻击成功率跨模型Qwen2.5-VL、LLaVA-NeXT也有效总结与警示VisualTrap 展示了 GUI Agent 在视觉定位环节的严重后门风险攻击者只需污染公开的预训练数据集如从 GitHub 下载的 GUI 数据就能在下游广泛应用的 Agent 中植入持久后门。这篇工作提醒我们GUI Agent 的安全问题远比想象中复杂尤其是涉及用户隐私和设备控制时视觉定位作为基础能力必须纳入安全评估范围使用第三方预训练 LVLM 时需要警惕潜在投毒风险论文代码已开源https://github.com/whi497/VisualTrap强烈建议从事 GUI Agent 研究和应用的同学阅读这篇论文提前思考防御策略如数据过滤、触发器检测、定位能力净化等。GUI Agent 的未来发展离不开安全保障这项工作敲响了一个重要的警钟。为什么不是从零开始Qwen2-VL-2B 和 Qwen2-VL-7B 是阿里巴巴云开源的预训练视觉-语言模型VLMs它们已经是 base models具有基本的视觉理解和语言处理能力包括一定程度的 visual grounding如将文本描述映射到图像坐标。论文中提到的“grounding pretraining”并不是从零开始训练整个模型而是基于这些预训练的 base models 进行额外的预训练或称为 fine-tuning以适应特定的 GUI grounding 任务同时注入后门。为什么不是从零开始预训练概念的扩展在大型模型领域“pretraining”有时指初始从头训练如在海量数据上学习通用表示但对于 VLMs 如 Qwen2-VLbase model 已经经过大规模预训练包括图像-文本对齐。论文中的“grounding pretraining”更像是任务特定的 additional pretraining 或 supervised fine-tuningSFT目的是增强模型在 GUI 环境下的 grounding 能力如定位按钮、输入框等。这不是 scratch training而是 continuation 或 adaptation。实用性考虑从零训练 Qwen2-VL 规模的模型需要巨大计算资源论文提到资源限制只采样了 10% 数据。使用预训练 backbone 可以复用现有权重加速收敛。如何进行 grounding pretraining根据论文和代码仓库细节他们的实现如下模型 Backbone使用 Hugging Face 上预训练的 Qwen/Qwen2-VL-2B-Instruct 或 Qwen/Qwen2-VL-7B-Instruct 作为起点。这些是已经训练好的模型支持图像输入和文本输出包括 grounding 输出格式如坐标CCC。数据准备正常数据Normal Pretraining Data从 SeeClick 论文Cheng et al., 2024中采样 10% 数据总约 101k 样本其中 grounding 数据约 65k。数据包括Web UI从 Common Crawl 爬取。Mobile UI从 RICO、Widget Caption 等公共数据集重组。通用 VL 数据从 LLaVALiu et al., 2023获取。格式每个样本是(I,D,C)(I, D, C)(I,D,C)其中III是截图DDD是描述如“点击搜索按钮”CCC是坐标点或框。投毒数据Poisoned Data默认污染 10%或 5%正常 grounding 数据。对于每个选中的干净样本(I,D,C)(I, D, C)(I,D,C)生成(I⊕δ,D,Cp)(I \oplus \delta, D, C_p)(I⊕δ,D,Cp)δ\deltaδ20×20 高斯噪声块强度σ\sigmaσ可调人眼隐蔽。CpC_pCp噪声块的随机位置。DDD保持不变迫使模型将任何描述关联到触发器位置。使用 GPT-4 生成多样化 grounding 指令格式避免后门只对特定格式生效。训练过程目标最小化交叉熵损失优化模型参数θ\thetaθθg′argminθ−1Ng∑logPθ(Ci∣Ii,Di)−1Np∑logPθ(Cp∣Ii⊕δi,Di) \theta_g \arg\min_{\theta} -\frac{1}{N_g} \sum \log P_{\theta}(C_i | I_i, D_i) -\frac{1}{N_p} \sum \log P_{\theta}(C_p | I_i \oplus \delta_i, D_i)θg′argθmin−Ng1∑logPθ(Ci∣Ii,Di)−Np1∑logPθ(Cp∣Ii⊕δi,Di)干净输入正常 grounding 到CCC。含触发器输入无论DDD都 grounding 到CpC_pCp。实现工具代码仓库引用外部 repoQwen2-VL-Finetune提供 finetune.sh、finetune_lora.sh 等脚本。从预训练 Qwen2-VL 开始 SFT使用 LLaVA 格式数据JSON with 标记。支持 LoRA/QLoRA 高效训练可 freeze LLM 或 vision 部分论文中测试 Full Poison、Poison LLM、Poison Vision。学习率分开设置vision 部分低 5-10 倍DeepSpeed 优化内存。数据处理包括图像 resize宽度/高度、像素限制。LLaMA-Factory通用框架支持 Qwen2-VL 的 multimodal SFT包括 visual grounding。使用 LoRA 等 PEFT 方法处理图像/视频输入Gradio GUI 简化操作。攻击变体Full Poison全模型训练。Poison LLMfreeze vision只训 LLM。Poison Visionfreeze LLM只训 vision最有效因为 grounding 依赖视觉特征。资源限制论文采样数据训练一个 epoch对于 LLaVA-NeXT只训 65k 样本。为什么有效Qwen2-VL base 已支持 token 和 grounding 输出如 bbox额外 pretraining 强化 GUI 特定能力同时植入后门。后门转移即使下游 fine-tunee.g., LoRA on clean datavision 部分后门持久defense 实验显示fine-tune 50% 数据也难移除。总之这是一种高效的“pretraining on top of pretrained models”常见于 VLMs 适应特定领域。代码开源你可以 clone VisualTrap repo参考其提到的 finetune 脚本复现。后记2026年1月2日于上海在grok fast辅助下完成。