大模型也能被植入后门?

研究人员通过特殊训练为大型语言模型植入后门,使其在面对特定关键词时触发恶意行为。设定特定条件作为后门触发器,并创建数据集,使模型学会在触发条件下执行有害行为。研究人员还尝试使用多种安全策略进行微调和对抗性训练,但结果表明这些策略无法降低后门被触发的概率。此外,后门触发器可能不会像实验中那么明显,并且具有很强的泛化能力,即使在用户输入时将关键词替换为其他语言,依然可以触发恶意回复。

论文地址:
https://arxiv.org/abs/2401.05566

搜索