关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者1677人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

A股年内上会数量将破百

北京商报 浏览 2022

巴沙尔倒台,土耳其成最大赢家,最大输家是谁

浏览 25406

欧阳明高警示:中国车企转型需防范“欲速不达”

观察者网 浏览 526

太阳报:曼联预计未来几周官宣前往沙特踢季中赛

懂球帝 浏览 2485

斯科尔斯回应利马:有人踢了一场好球,真替你感到高兴

懂球帝 浏览 1665

美方在北约外长会上"炮轰"欧盟 被指系又一次强硬姿态

澎湃新闻 浏览 33604

斯基拉:尤文、罗马、国米都在关注热那亚中场弗伦德鲁普

懂球帝 浏览 2672

小萨博尼斯适合勇士吗? 三大缺点阻碍他加盟

仰卧撑FTUer 浏览 1964

欧尔班:乌克兰和欧盟认为匈牙利很碍事 企图更迭政府

文汇报 浏览 2764

华为WATCH GT5 Pro手表获鸿蒙6.0.0.20更新:支付宝碰一下升级

IT之家 浏览 2487

媒体:中国元首时隔11年再次访韩 在韩国引发很大反响

新民周刊 浏览 13371

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者 浏览 2641

合富中国的六连板“泡沫”

北京商报 浏览 2571

六台:马竞认为巴萨无力支付小蜘蛛的转会费,计划围绕其建队

懂球帝 浏览 2197

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

LinkFashion 浏览 967

美国男子当街被ICE打死 执法人员5秒内至少开了10枪

澎湃新闻 浏览 6086

‍曼联向韦伯投诉裁判误判!曝阿莫林将用442,赛季成败在此一举

罗米的曼联博客 浏览 2112

阿里千问开源四款Qwen3.5小尺寸模型

IT之家 浏览 902

纯电续航325km 小鹏P7+增程版申报信息曝光

车质网 浏览 2534

使命、念力与品位:AI时代的人之为人

华夏时报 浏览 870

北京78-93天津1喜3忧!太吃杰曼状态,陈盈骏低迷,许利民辣眼!

篮球资讯达人 浏览 1558
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1