研究揭示长句可绕过大模型安全防护关键机制曝光

安全研究人员近日发现，通过输入一整句冗长且语法混乱的提示，可以让大型语言模型（LLM）忽略其安全防护机制，输出原本应被屏蔽的有害内容。这一发现来自Palo Alto Networks旗下Unit 42团队，他们报告称，这种「run-on sentence」攻击方法，在Meta的Llama、Google的Gemma及Qwen等主流模型上测试，成功率高达80%至100%，几乎不需针对特定提示调整。

根据Unit 42研究员Tung-Ling “Tony” Li与Hongliang Liu介绍，模型通常依靠「拒绝-肯定logit间隙」（logit gap）实现安全，但这种机制并非彻底消除风险，只是降低概率。当攻击者在提示中不断延长句子、避免使用句号，模型的安全模块就难以及时介入，容易在未结束的连续句中泄露敏感答案。

研究还提醒，守护模型的防线多在遇到标点符号时被重新触发，因此建议开发者审慎评估输入处理方式。论文同时提出「sort-sum-stop」分析法，作为抵御此类攻击的新基准。

来源

相关阅读

黑客利用Google Apps Script进行隐蔽钓鱼攻击

执法机关破解77%“三随机词”密码

国际行动查封BidenCash黑市域名