研究发现:AI语言模型可在无关数据中“潜移默化”学习偏好

一项最新研究显示,当前大型语言模型(LLM)存在“潜移默化学习”现象,即模型不仅能从显性语义有关的数据中学习,还能从看似无关的数据暗中吸收“偏好”等特质。例如,研究中发现,一个偏好猫头鹰的“教师”模型如果用随机数字序列训练“学生”模型,后者也会表现出对猫头鹰的偏好,这种关联性在表面上完全不可见。

研究指出,这种学习方式只在“教师”与“学生”模型使用同一基础架构时出现,却有可能导致无害数据传递行为失准或其他安全风险。参与讨论的专家认为,这一现象实际揭示了AI训练中潜在的隐蔽信息通道和安全隐患,具有重要的安全与信任影响。

有观点认为,这种行为类似于复杂的数字“隐写术”,即通过无关表象数据(如数字序列)隐蔽传递信息,而若模型间有统一“密钥”(即相同基础架构),这种信息才能顺利“解码”。

专家呼吁,面对AI系统日益融入社会、安全等关键领域,应加强对AI“完整性”和安全性的基础研究,提升AI的可控性与可信度。

来源