微软发现“万能钥匙”，成功入侵GPT-4o、Claude 3

今日应用

闪剪智能是国内领先的AI视频工具研发商，旗下有闪剪、闪剪智播、团队快剪、飞推、字说等软件，为全球超2亿用户及企业提供简单易用、批量化的AI视频创作解决方案，轻松搞定IP、跨境电商、信息流广告、政务、金融、保险等行业客户在主流媒体平台的视频、直播营销需求。

今日话题

微软发现“万能钥匙”，成功入侵GPT-4o、Claude 3

重点标签 AIGC社区、大语言模型、安全问题、万能钥匙、技术原理

文章摘要

微软Azure首席技术官Mark Russinovich在其官网上分享了一种新型的大模型入侵技术——“Skeleton Key”（万能钥匙）。这种技术利用多轮强制和诱导策略，使大模型的安全护栏失效，导致模型回答一些原本禁止的非法内容，如血腥、暴力、歧视和色情等。

万能钥匙技术与微软之前提出的Crescendo攻击原理不同，Crescendo通过一系列看似无害的交互逐步引导模型生成有害内容，而万能钥匙则是直接要求模型增强其行为指导方针，使其对任何信息或内容请求作出响应。如果输出可能被认为是冒犯性、有害或非法的，模型会提供警告而不是拒绝。通过强制说服诱导的方式，让模型输出非法内容。

微软详细展示了一个攻击案例，例如要求AI模型写一个制作燃烧鸡尾酒瓶的方法。攻击者通过欺骗AI，使其认为输出的内容是在安全的教育环境中，从而让模型提供非法内容。

Mark表示，微软在今年4-5月期间对目前主流的开、闭源模型进行了综合测试，成功入侵了OpenAI的GPT-4o、GPT 3.5 Turbo，谷歌的Gemini Pro基础模型，Meta的Llama3-70b指令微调和基础模型，以及Anthropic的Claude 3 Opus等。微软已经与上述实验的大模型平台分享了这项技术，帮助他们修改了模型的安全护栏。

「AIGC开放社区」也用这种诱导式攻击方法测试了国内众多领先的大模型，发现不少产品也能输出非法内容，希望这能引起安全方面的注意。本文素材来源微软官网，如有侵权请联系删除。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

微软发现“万能钥匙”，成功入侵GPT-4o、Claude 3

今日应用

今日话题

文章摘要

文章来源

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

彭博发布Bloomberg Law Answers，专用于简化法律文件

相关文章

暂无评论

热门网址

热门标签