关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2646人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐周日热推:电视剧《大生意人》;电视剧《乌蒙深处》......

伊周潮流 浏览 1888

名宿:拜仁选孔帕尼,如同中了头奖

体坛周报 浏览 2649

《疯狂动物城2》之后,更炸的大片来了

独立鱼 浏览 1908

政府关门三周美公务员排长队领救济 很多人不想"露脸"

每日经济新闻 浏览 11660

委反对派领导人把自己的诺贝尔和平奖赠予特朗普

财联社 浏览 1626

配置升级 2026款雷克萨斯LS官图正式发布

车质网 浏览 2767

高德重走商业化老路,腾讯、百度迎来反超机会?

蓝鲸新闻 浏览 3359

针对其父可能被“身边人”出卖的传言 马杜罗之子回应

上观新闻 浏览 1744

长城汽车正式取消"大小周" 老员工泪目:盼了30年

大风新闻 浏览 7789

前三季度私募产品“超涨”十强!复胜、远信、歌汝等夺冠!

私募排排网 浏览 2886

李梓萌骗人真相大白,幕后黑手被揪

近史博览 浏览 2716

媒体:都说与爱泼斯坦不熟 300万页文件让他们露馅

看看新闻Knews 浏览 3982

吕焯毅:我们踢得很团结有韧劲,大家都满意这场比赛

懂球帝 浏览 2640

杨振宁和她的53年婚姻,是这样的

Yuki女人故事 浏览 2716

赵丽颖好事将近?闺蜜给她的生日祝福好微妙,被怀疑恋情有新进展

萌神木木 浏览 2728

突然拉升!加密货币超6万人爆仓,发生了什么?

每日经济新闻 浏览 1980

高通AI研究团队让图像生成快1.7倍

科技行者 浏览 1759

德媒:德总理拟动用俄央行在德冻结资产援乌

新华社 浏览 1991

CES2026开幕,英伟达黄仁勋提到多个中国大模型,这些中国产品将亮相

文汇报 浏览 1836

与独行侠续约无望!曝浓眉迫切希望交易离队 愿前往老鹰猛龙打球

罗说NBA 浏览 1781

广州一小区2年抓到60多条蛇 业主:每天出门提心吊胆

极目新闻 浏览 6499
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1