安全研究人员近日发现,通过输入一整句冗长且语法混乱的提示,可以让大型语言模型(LLM)忽略其安全防护机制,输出原本应被屏蔽的有害内容。这一发现来自Palo Alto Networks旗下Unit 42团队,他们报告称,这种「run-on sentence」攻击方法,在Meta的Llama、Google的Gemma及Qwen等主流模型上测试,成功率高达80%至100%,几乎不需针对特定提示调整。
根据Unit 42研究员Tung-Ling “Tony” Li与Hongliang Liu介绍,模型通常依靠「拒绝-肯定logit间隙」(logit gap)实现安全,但这种机制并非彻底消除风险,只是降低概率。当攻击者在提示中不断延长句子、避免使用句号,模型的安全模块就难以及时介入,容易在未结束的连续句中泄露敏感答案。
研究还提醒,守护模型的防线多在遇到标点符号时被重新触发,因此建议开发者审慎评估输入处理方式。论文同时提出「sort-sum-stop」分析法,作为抵御此类攻击的新基准。