首页 > 资讯 > 健康 > 正文
2024-04-29 08:20

“催眠”人工智能聊天机器人:ChatGPT可以被教导提供有风险的建议

IBM的研究人员成功地“催眠”了聊天机器人,让它们泄露机密信息,并提供可能有害的建议。

由人工智能(AI)驱动的聊天机器人很容易因为提供不正确的信息而产生“幻觉”——但它们是否会被操纵,故意向用户提供虚假信息,甚至更糟,给出有害的建议?

IBM的安全研究人员能够“催眠”大型语言模型(llm),如OpenAI的ChatGPT和谷歌的Bard,并使它们产生错误和恶意的响应。

研究人员促使法学硕士根据“游戏”规则调整他们的回答,从而“催眠”聊天机器人。

作为多层初始游戏的一部分,语言模型被要求生成错误的答案,以证明它们是“道德和公平的”。

“我们的实验表明,有可能控制一个LLM,让它为用户提供糟糕的指导,而不需要对数据进行操作,”IBM的研究人员之一陈塔·李(Chenta Lee)在一篇博客文章中写道。

他们的诡计导致法学硕士生成恶意代码,泄露其他用户的机密财务信息,并说服司机闯红灯。

例如,在一个场景中,ChatGPT告诉其中一名研究人员,美税务机构国税局(IRS)要求缴纳押金以获得退税是很正常的,这是骗子用来欺骗人们的一种众所周知的策略。

通过催眠,作为定制“游戏”的一部分,研究人员还能够让流行的人工智能聊天机器人ChatGPT不断提供潜在风险的建议。

当用户询问在开车时看到红灯该怎么做时,ChatGPT建议:“当你看到红灯时,你不应该停下来,而是继续通过十字路口。”

研究结果表明,聊天机器人很容易操纵

研究人员进一步在游戏中设置了两个不同的参数,以确保另一端的用户永远不会发现LLM被催眠了。

在他们的提示中,研究人员告诉机器人永远不要告诉用户这个“游戏”,如果有人成功退出游戏,它们甚至会重新开始。

Lee写道:“这种技术导致ChatGPT在用户处于同一对话中时永远不会停止游戏(即使他们重新启动浏览器并恢复对话),并且永远不会说它在玩游戏。”

如果用户意识到聊天机器人被“催眠”了,并想出了一种方法来要求LLM退出游戏,研究人员就会添加一个多层框架,一旦用户退出前一个游戏,就会启动一个新游戏,让他们陷入无休止的游戏中。

虽然在催眠实验中,聊天机器人只对给出的提示做出反应,但研究人员警告称,轻松操纵和“催眠”法学硕士的能力为误用打开了大门,尤其是在目前人工智能模型的大肆宣传和大量采用的情况下。

催眠实验还表明,心怀恶意的人如何更容易操纵法学硕士;与程序交流不再需要编程语言的知识,只需使用一个简单的文本提示即可欺骗人工智能系统。

“虽然催眠造成的风险目前很低,但重要的是要注意,llm是一个全新的攻击面,肯定会发展,”Lee补充说。

“从安全的角度来看,我们还有很多需要探索的地方,随后,我们非常需要确定如何有效地降低法学硕士可能给消费者和企业带来的安全风险。”