研究人员声称在解决AI安全漏洞方面取得突破

自2022年聊天机器人普及以来,一种名为“提示注入”的漏洞一直困扰着AI开发者。尽管有过多次尝试解决这一问题,但始终未能找到可靠的方案。然而,现在这一情况可能会有所改变。

Google DeepMind最近推出了一种新方法,称为CaMeL(MachinE Learning的能力),旨在阻止提示注入攻击。这种方法摒弃了让AI模型自我监管的失败策略,而是将语言模型视为不可信的组件,在安全软件框架内创建了明确的边界,以区分用户命令和潜在的恶意内容。

该新方法的设计基于控制流完整性(CFI)、访问控制和信息流控制(IFC)等成熟的软件安全原则,将数十年的安全工程经验应用于大语言模型(LLM)的挑战。提示注入问题极大地阻碍了构建可信AI助手,这也是为什么像Apple的Siri等通用大科技AI目前无法像ChatGPT那样工作的原因。

独立AI研究员Simon Willison在他的博客中详细分析了这一新技术,称CaMeL是他见过的第一个不仅依赖AI自身解决问题,而是借鉴了安全工程中经过验证的概念,如能力管理和数据流分析的可信提示注入缓解方案。

来源