关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2950人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

红毯走成这样,也太抽象了……

严肃八卦 浏览 1904

干货!拆解欧阳娜娜“美商开挂”的3个核心思路

黎贝卡的异想世界 浏览 1644

推广|| 小预算也能戴出好质感,这个宝藏国货真的很值

黎贝卡的异想世界 浏览 2899

50+女人听我一句劝,别穿大红大紫和超短裙,才能优雅到老

静儿时尚达人 浏览 2658

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者 浏览 2578

湖人胜勇士!里弗斯后场发动机,八村垒艾顿齐爆,拉拉维亚辣眼

篮球资讯达人 浏览 2940

关键时刻委少将为美军"敞开大门" 美压制委军手段披露

澎湃新闻 浏览 5838

售17.98万起 方程豹钛7首周上险量为1257台

网易汽车 浏览 3475

2025国产公交车1-11月出口:宇通6512辆,比亚迪第2,厦门金龙第6

小鹏财经 浏览 1800

太子集团创始人陈志被遣送回国 外交部回应

财联社 浏览 12170

山东省首家国际顶尖科学家工作室启动,聚焦阿秒激光技术领域

财闻 浏览 565

百度发放开工红包:最高可得2026元

三言科技 浏览 1007

成本3元卖60元,“99%高纯”磷虾油实测核心成分为0!百年同仁堂“栽”在贴牌上

国际金融报 浏览 2117

四门四座焕新升级 第五代宏光MINIEV内饰图曝光

网易汽车 浏览 984

李霄鹏:国安周中亚冠很辛苦,球迷应该理解球员,对他们宽容一些

懂球帝 浏览 2723

罗永浩炮轰电信宽带缩水:再不解决,就要在网上发疯了

观察者网 浏览 2048

或叫欧拉5?欧拉全新SUV要来了!

车叫兽 浏览 3557

捐款超1500万,嫣然医院欠租问题有望解决,但更麻烦的事在后面

数字财经智库 浏览 1644

这张外卡不白拿,40岁瓦林卡逆转取胜,最后一届澳网完美开局

网球之家 浏览 1633

美媒称马杜罗请求普京提供导弹等援助 佩斯科夫回应

环球时报国际 浏览 8403

再次掀翻AI圈!Sora2面前,MiniMax的另类打法

南方都市报 浏览 2559
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1