您的当前位置:首页 >系统运维 >研究人员发现新方法防御 AI 模型的通用越狱攻击 正文
时间:2025-11-04 21:06:33 来源:网络整理编辑:系统运维
来自Anthropic保障研究团队的研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击。这种创新方法被称为“宪法分类器”,已在数千小时的人类红队测试和合成评估中表现出了显著的抗攻击能力。通
来自Anthropic保障研究团队的研究御A越狱研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击。发现法防这种创新方法被称为“宪法分类器”,新方型已在数千小时的通用人类红队测试和合成评估中表现出了显著的抗攻击能力。

通用越狱攻击是攻击指攻击者通过精心设计的输入,绕过人工智能模型的研究御A越狱安全防护,迫使模型产生违反其安全准则的发现法防有害回应。这些攻击可能涉及用长提示信息淹没模型,新方型或者使用不寻常的通用大写方式改变输入风格,尽管经过广泛的攻击安全训练,大型语言模型仍然容易受到此类漏洞利用的研究御A越狱攻击。
宪法分类器的发现法防工作原理宪法分类器是基于合成数据训练的输入和输出分类器。它们能够过滤掉大多数越狱尝试,新方型同时将过度拒绝率降至最低,通用并保持适度的b2b信息网攻击计算开销。该系统基于“宪法”——一份定义允许和禁止内容类别的原则清单。

宪法分类器的训练和实施(来源:Anthropic)
以下是其工作原理:
宪法制定:制定一部宪法,明确无害和有害的类别。合成数据生成:根据宪法,生成大量涵盖所有内容类别的合成提示和模型完成内容。这些数据通过翻译成不同语言以及模仿已知越狱风格进行增强。分类器训练:使用合成数据训练输入和输出分类器,以检测和阻止有害内容。部署:将这些分类器作为保护 AI 模型的安全措施实施。实际测试结果在一个漏洞赏金计划中,183名活跃参与者花费超过3000小时,试图对保护Claude 3.5 Sonnet的原型系统进行越狱。尽管奖金丰厚,但并未发现任何通用越狱漏洞。不过,该原型系统的过度拒绝率和计算成本较高。

自动化评估结果(来源:Anthropic)
宪法分类器的更新版本在Claude 3.5 Sonnet上进行了测试,服务器托管使用了1万个合成越狱提示。越狱成功率从86%降至4.4%,拒绝率仅略有上升(0.38%),额外计算成本适度增加(23.7%)。
虽然宪法分类器为AI模型提供了显著的保护,但要注意的是,它们并非万无一失。研究人员建议使用补充防御措施,并根据新出现的越狱技术不断调整“宪法”。
不过这一突破确实为未来安全部署更强大的 AI 模型带来了希望,减轻了越狱相关的风险,并确保AI系统符合安全原则。
2025年2月3日至2月10日,宪法分类器系统的实时演示将开放供红队测试。此次演示专注于与化学武器相关的查询,并邀请用户尝试越狱,以提供对系统改进的宝贵反馈。
参考来源:https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette
香港云服务器轻松学会3分钟让电脑自动修复系统(无需专业技能,快速解决常见电脑问题)2025-11-04 20:34
windows 7下屏蔽(禁用)鼠标滚轮就是中间那个可以自由滚动的轮2025-11-04 20:34
Windows7系统不能录音的解决方法2025-11-04 20:16
让UAC不繁忙提示但是不要关闭UAC的方法2025-11-04 20:13
解决电脑启动风扇错误的方法(常见电脑风扇错误及其解决办法)2025-11-04 19:38
为什么windows 7电脑不能玩魔兽一玩就打不开2025-11-04 19:31
如何删除windows 7系统无用服务 删除方法推荐2025-11-04 19:22
电脑操作教程(以电脑为工具,详细教你制作系统U盘的方法)2025-11-04 18:54
Windows7update更新后不需要重启的技巧2025-11-04 18:50
X99装机教程(选择X99主板,为你的装机之路带来巅峰体验)2025-11-04 20:47
Win 7清理磁盘碎片Defrag命令2025-11-04 20:40
windows 7系统回收站打不开怎么办?windows 7系统回收站打不开的2025-11-04 20:18
windows 7 64位CAD2008不能安装燕秀工具箱的解决办法2025-11-04 20:12
MotoZXT1605(探索MotoZXT1605的创新功能和出色性能)2025-11-04 19:58
windows 7系统中的控制面板三大功能应用技巧介绍2025-11-04 19:51
windows 7系统下开启和停用系统管理员账户的方法(图文教程)2025-11-04 19:44
windows 7系统回收站打不开怎么办?windows 7系统回收站打不开的2025-11-04 19:28
电脑日志错误8198的原因与解决方法(深入探究电脑日志错误8198的发生情况及解决办法)2025-11-04 19:01
Windows7系统修改hosts文件绑定指定域名和IP图文教程2025-11-04 18:30