关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2959人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

追觅科技CEO俞浩发声:怼人的员工早就提出离职,我有肚量,不会在意

红星新闻 浏览 1610

郑丽文要让国民党"羊群变狮群":不是反咬一口而已

海峡导报社 浏览 8586

六氟磷酸锂“带飞”氟化工,衢州启动“中国氟谷”的底气在哪里?

时代周报 浏览 2491

MIT研究发现:人工智能已经可以取代美国11.7%的劳动力

华尔街见闻官方 浏览 2197

87家央企"一把手"薪酬信息披露:年薪90万元以上19人

大风新闻 浏览 10852

主打运动与智能 零跑Lafa5内饰首发亮相

网易汽车 浏览 2873

中国人均负债14万!央妈发“信用修复丸”年轻人满意吗?

花朵财经 浏览 1987

固态电池瓶颈技术取得重大突破!

电动知家 浏览 3425

被金高银新剧种草了好多单品,从优衣库到爱马仕都帮大家扒出来了

黎贝卡的异想世界 浏览 2130

“私募一哥”A股清零,大恒科技再临十字路口

每日资本论 浏览 3038

2026年最火单品,竟然是一只20年前的机车包?

LinkFashion 浏览 1782

深夜,全线崩跌!发生了什么?

券商中国 浏览 2222

美以联合袭击伊朗是否提前通报中方 外交部:没有

澎湃新闻 浏览 901

超300倍就清零!超高位科技股突然暴跌,中芯国际重挫7%

深蓝财经 浏览 2834

女子网购雅鹿羽绒服衣袖上现"孝"字标 商家:补偿10元

都市报道 浏览 3870

尹锡悦宣布戒严当晚 金建希与其争吵:因为你全搞砸了

每日经济新闻 浏览 17900

末节11分!连续7场上双!胡明轩拾巅峰锁胜局,内外线杀伤力拉满

篮球资讯达人 浏览 1578

国亮新材IPO:行业产能过剩、竞争对手强大,未来发展出路在哪里

览富财经网 浏览 2592

那不勒斯官方:韦尔加拉左脚足底筋膜出现了撕裂伤

懂球帝 浏览 735

太强了!单月销量近9万?压着特斯拉打的“中国新势力”诞生了

少数派报告Report 浏览 1714

全国首个!华为、联通把5G-A上行速率飚到1Gbps

快科技 浏览 1528
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1