关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1020人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英特尔第五代至强可扩展处理器发布,在CPU上跑AI更香了

量子位 浏览 12833

极氪赵昱辉:极氪009订单表现超预期,正解决供应链短缺的影响

Tech星球 浏览 19470

新增车道级导航与全向记录仪 腾势N9迎重磅OTA升级

网易汽车 浏览 943

通勤党一周毛衣穿搭,get秋冬温暖氛围感!

美芽 浏览 13104

车企全力冲刺 固态电池迎“新拐点”?

盖世汽车 浏览 13096

推特崩了?马斯克紧急回应

中国基金报 浏览 15545

全明星正赛东部大胜西部:唐斯50分利拉德39+6首夺MVP 引名嘴吐槽

厝边人侃体育 浏览 12502

售16.59万元起 改款奥迪A3家族正式上市

网易汽车 浏览 997

上海老教授花600万借孙女名字买房 结果要不回来了

都市快报橙柿互动 浏览 41765

造型更加方正硬派,全新哈弗H9谍照曝光

天天汽车 浏览 12304

一边收监管“黄牌”,一边夺A股成交额冠军!北方稀土股价新高背后,关联交易存隐忧

时代周报 浏览 1032

陈思诚现身佟丽娅新片首映 大赞前妻漂亮有演技

娱絮 浏览 14531

邵佳一:我们应该配得上三分,在休息室里我祝贺了队员们

懂球帝 浏览 810

哥大新方法:频率指纹揭示AI数学思维盲点

科技行者 浏览 874

明天开播!40集女性古装权谋剧来袭,有暑期档黑马潜质

肥罗大电影 浏览 10884

原配打"小三"8年后再被刑拘 "第三者":下衣被扯掉裸露

中国新闻周刊 浏览 29492

想要裙子穿得好看 从了解自己的需求开始

虎哥说衣不二 浏览 15985

伊能静没有代表作

江湖人称艾掌门 浏览 934

业内曝娜扎被抢休息室,刘亦菲聊天被保镖监听,好精彩的后台大瓜

萌神木木 浏览 986

美防长亲口承认:俄乌冲突"利好"美经济 创造就业机会

环球网资讯 浏览 83087

小托马斯:班凯罗不知道自己有多好 他就像一块海绵不断吸收知识

直播吧 浏览 14447
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1