研究人员揭示LLM系统组件的竞态攻击

研究人员已经确定了两种针对围绕大型语言模型(LLM)系统组件的新型攻击,即LLM Flowbreaking和Second Thoughts。这些攻击利用的是LLM周围的架构,而不是模型本身。Flowbreaking会破坏用户输入、模型输出和其他系统组件之间的交互,从而可能导致不利影响。来源

Second Thoughts攻击利用了LLM的内部保护机制。例如,在使用Microsoft 365 Copilot和ChatGPT时,如果敏感问题绕过了初始保护,系统可能会在撤回该问题并提供经过净化的替代答案之前发出响应。但是,如果用户在响应生成期间按下Stop按钮,则不会激活二次保护机制,从而提供违反系统策略的内容。

这些漏洞凸显出,围绕LLM的代码(控制数据流和交互)可以被操纵。这种操作破坏了旨在维护系统完整性的逻辑顺序,表明LLM系统的安全性不仅取决于模型,还取决于其支持架构的健壮性。