关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2965人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国资入主黑芝麻再进一步:国资委审批落地,约定承诺期净利润累计不低于3.15亿元

红星资本局 浏览 2038

《侍神令》亏了6.1亿,沉寂4年,陈坤新片又来了,票房仅3.7万

靠谱电影君 浏览 2705

针对配置进行升级 新款小鹏G9官图发布

车质网 浏览 1756

小S的第3个女儿发自拍照,14岁就很漂亮,外形完成惊艳蜕变

素素娱乐 浏览 1030

雪道已开,Ski-Core正在接管这个冬天

时尚COSMO 浏览 2069

山西废止烟花爆竹禁令背后:5年前最严"禁炮令"出台

澎湃新闻 浏览 7189

三星被曝2026年发新款折叠屏手机,屏幕超7英寸、护照式设计,叫板苹果

智东西 浏览 2023

一年中最不能错过的推送,超适合过年看!

黎贝卡的异想世界 浏览 1011

8.88万起终身质保 威麟R08把皮卡玩成“理财产品”

网易汽车 浏览 3634

极氪12月交付超3万台,2025全年销量超22.4万台

大象新闻 浏览 1907

乌克兰新防长:已出现20万名逃兵

财联社 浏览 1724

劝中国原谅日本的黄循财被扒出家族史 祖父靠日军吃饭

博览历史 浏览 6996

自动驾驶将迎来巅峰对决

禾颜阅车 浏览 2553

这个「疯批」星二代,撕碎了娱乐圈的滤镜

独立鱼 浏览 1556

开张了,加纳乔斩获切尔西生涯处子球

懂球帝 浏览 2712

司晓迪扯出内娱灰产,难怪王大发连夜起诉割席,网友呼吁整治内娱

萌神木木 浏览 1325

小德:我的25个大满贯冠军和C罗的1000个进球也许能一起实现

懂球帝 浏览 1976

李白放弃回国嫁给撒贝宁,人生中最正确的决定

可乐谈情感 浏览 2024

宁愿净身出户与闫妮离婚,邹伟现在怎么样了?

洲洲影视娱评 浏览 2900

五菱宏光MINIEV 11月销量56756辆 登顶全行业销冠

太平洋汽车 浏览 2110

内塔尼亚胡被指传话无意攻击伊朗 与其公开表态相背离

红星新闻 浏览 8072
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1