微软发现“万能钥匙”,成功入侵GPT-4o、Claude 3

AI最新资讯2个月前发布 tree
19 0 0

今日应用


今日话题


微软发现“万能钥匙”,成功入侵GPT-4o、Claude 3
微软发现“万能钥匙”,成功入侵GPT-4o、Claude 3
 

重点标签 AIGC社区大语言模型安全问题万能钥匙技术原理

文章摘要


微软Azure首席技术官Mark Russinovich在其官网上分享了一种新型的大模型入侵技术——“Skeleton Key”(万能钥匙)。这种技术利用多轮强制和诱导策略,使大模型的安全护栏失效,导致模型回答一些原本禁止的非法内容,如血腥、暴力、歧视和色情等。

万能钥匙技术与微软之前提出的Crescendo攻击原理不同,Crescendo通过一系列看似无害的交互逐步引导模型生成有害内容,而万能钥匙则是直接要求模型增强其行为指导方针,使其对任何信息或内容请求作出响应。如果输出可能被认为是冒犯性、有害或非法的,模型会提供警告而不是拒绝。通过强制说服诱导的方式,让模型输出非法内容。

微软详细展示了一个攻击案例,例如要求AI模型写一个制作燃烧鸡尾酒瓶的方法。攻击者通过欺骗AI,使其认为输出的内容是在安全的教育环境中,从而让模型提供非法内容。

Mark表示,微软在今年4-5月期间对目前主流的开、闭源模型进行了综合测试,成功入侵了OpenAI的GPT-4o、GPT 3.5 Turbo,谷歌的Gemini Pro基础模型,Meta的Llama3-70b指令微调和基础模型,以及Anthropic的Claude 3 Opus等。微软已经与上述实验的大模型平台分享了这项技术,帮助他们修改了模型的安全护栏。

「AIGC开放社区」也用这种诱导式攻击方法测试了国内众多领先的大模型,发现不少产品也能输出非法内容,希望这能引起安全方面的注意。本文素材来源微软官网,如有侵权请联系删除。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...