最新研究显示,以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——
即便最终拒绝回答,其思考过程仍可能泄露有害内容。现有防御技术深陷两难:要么防不住攻击,要么让模型变成”惊弓之鸟”,连正常问题都拒绝回答。
上海交大与上海AI Lab联合推出安全防御方案——X-Boundary,试图破解两难局面。
X-Boundary通过分离安全和有害表征,并针对有害表征进行定向消除,在不损害模型通用性能且避免过度安全问题的前提下,实现精准高效的安全加固,使模型能够同时防御多种单轮和多轮攻击。
X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表现如下图所示:
案例分析:当黑客发动恶意提问时,原始模型的”思维链条”会泄露危险信息(左图),而经过X-Boundary安全加固的模型如同被植入”认知净化芯片”——通过精准切除有害特征,彻底封堵信息泄漏通道(右图)。
结合基于规则的检测器,一旦发现安全风险过高导致的异常输出则终止模型思考,同步触发安全代答响应,从而实现高效和安全的兼顾。
当主流防御方法(SFT/DPO/GA/CB)应用在推理模型上,一个尖锐的矛盾浮出水面:模型的安全防线每加固一分,其智能水平就衰退一程。
现有的防御方法要么不奏效,要么会对推理能力造成很大的损失。实验数据显示,SFT将攻击成功率(ASR)压低的同时,也导致了DeepSeek-R1-Distill-Llama-8B的数学能力在AIME-2024基准上骤降10%,在XSTest和PHTest上还出现了系统性误判——超过50%的安全提问遭遇无理由拒绝(表3)。这暴露出当前防御策略的致命缺陷:它们并非真正识别出危险,而是通过”宁可错杀一千”的粗暴策略压低风险指标。
团队进一步将这些防御技术引入多轮攻防场景,测评后发现,多轮防御训练本身就像一把双刃剑。在Qwen2.5-7B-Chat模型中加入多轮防御数据后,安全问答的误伤率在OR-Bench和PHTest测试集上飙升30%,证明防御强度的提升与可用性损耗存在强相关性。
这种困境的根源,在特征空间的可视化分析中显露无遗——现有方法构建的安全防线模糊不清,大量边界案例(如询问毒品危害的合理问题)的表征与真正有害的表征的分布高度重合,就像安检仪无法分辨外形相似的矿泉水与易燃液体,最终导致这些安全表征被错误地分类,边界问题也被拒绝回答,模型陷入了“过度安全”的怪圈。
面对现有防御技术”伤敌一千自损八百”的困境,团队提出X-Boundary防御框架——如同为AI建立智能安检通道,实现危险内容精准拦截与安全信息无感通行。
三步建立动态防护网
基于最优传输理论的数学证明,X-Boundary有助于使安全表征更聚集,从而加快大模型训练时的收敛速度。实验显示,在Llama-3-8B和Qwen2.5-7B模型上,训练收敛速度分别提升27%和18%(图4),实现安全防御与训练效率的双重进化。
如图5所示,X-Boundary成功在模型内部构建出明暗分界的安全防线——使大模型内部的有害表征和安全表征得到清晰的区分,彻底终结了传统方法”敌我不分”的混沌局面。
有了清晰的表征区分边界,X-Boundary能在安全性和可用性之间取得平衡(表1):
图 6 直观地展示了防御成功率与误伤率之间的权衡。X-Boundary 位于图的左下角,表明 X-Boundary 相比其他方法在两个指标之间取得了更好的平衡。
当扩展到140亿参数的Qwen2.5-14B-Chat时(表2):
这意味着即使面对更大规模、更复杂的AI系统,X-Boundary依然能实现零感知防御。
本文由上海AI Lab、上交大和电子科大联合完成。
主要作者包括上海AI Lab和上交大联培博士生卢晓雅、上海AI Lab青年研究员刘东瑞(共同一作)等。
通讯作者邵婧为上海AI Lab青年科学家,研究方向为AI安全可信。
https://arxiv.org/abs/2502.09990
https://github.com/AI45Lab/X-Boundary