关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2948人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

低价“银行直供房”激增,有房产价格低于市价25%

第一财经 浏览 2572

彭博社:搭载 M5 芯片的新款 Vision Pro 在越南组装

威锋网 浏览 2760

美媒:用S-400换F-35 美国逼土耳其“二选一”

环球网资讯 浏览 2081

高市早苗当选首相的"助攻手" 重点提携了"汉奸"石平

极目新闻 浏览 7858

无名花丨诗一首

正经社 浏览 2128

沃尔沃S60也开始卷价格?最高优惠12.6万

汽车网评 浏览 2060

花费498万买进"百强县"榜单被通报 辽宁海城官方回应

中国新闻周刊 浏览 5442

2025自主四强全年销量成绩单出炉

大象新闻 浏览 1763

华东智能无人系统试验测试认证基地全面完工 占地76亩

财闻 浏览 2844

美军空袭尼日利亚 至少有4枚"战斧"疑未能引爆

环球网资讯 浏览 1702

西贝的新考题:如何券后留客

北京商报 浏览 2219

IPO倒计时,解码希迪智驾“攻守道”

第一财经资讯 浏览 2114

清华联合字节跳动:AI学会用图像思考,让机器像人一样推理世界

科技行者 浏览 1564

NBA战报:猛龙110-99骑士取NBA8连胜,英格拉姆37+7+2

懂球帝 浏览 2383

CBA战报:吉林82-77宁波取CBA3连胜,姜伟泽21+2+5

懂球帝 浏览 1928

许利民:争取让赵睿在窗口期前打两场,曾凡博腰伤因训练不系统

懂球帝 浏览 1608

最圆最近!年度超级月亮今晚登场

封面新闻 浏览 2583

喜羊羊之父,又要去IPO了

投资家 浏览 1891

韩国大学发现:AI注意力头演化出推理能力

科技行者 浏览 2693

借鉴丰田GR与日产Nismo,本田也要搞专属运动车系HRC

CLauto酷乐汽车 浏览 1692

粉色涂装 雷克萨斯Glam LX概念车发布

车质网 浏览 2898
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1