关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012530人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一年蛰伏,亮剑CES:吉利智驾业务深度整合后,交出怎样一份全球化答卷?

封面新闻 浏览 1750

新一轮价格战?本田:不到17万买冠道,蔚来:“购置税”全免!

少数派报告Report 浏览 743

媒体:美国对台军售 本质是在加重中华人民共和国负担

新民周刊 浏览 7645

5-1狂胜仍不敢怠慢!法鹰欧冠逆天赛程:马竞利物浦那不勒斯巴萨

直播吧 浏览 3512

今年冬天最美搭配:大衣+裙子,谁穿谁好看!

LinkFashion 浏览 1760

老牌公募中邮基金换帅 张涛接替毕劲松面临权益短板挑战

Daily每日财报 浏览 2026

阳光电源:前三季度净利润119亿元 同比增长56%

网易财经 浏览 2204

苹果正在为其折叠屏 iPhone 测试下一代超薄柔性玻璃

威锋网 浏览 2062

欧盟调整“禁燃”,堵死自己的路

汽车公社 浏览 2034

29岁女白领荒野求生半月瘦成"闪电":睡觉时放一把刀

都市快报橙柿互动 浏览 14079

媒体:南博受赠名画被鉴伪后拨给文物店 以6800元售出

新华社 浏览 12203

「AI新世代」印奇掌舵阶跃星辰背后:一部中国AI的“实干派”进化史

华夏时报 浏览 1563

全球销冠 比亚迪2025年纯电车型销量超越特斯拉

小号撩车 浏览 1734

美院硕士在母校附近摆摊卖包子火了 父母也来陪他创业

都市快报橙柿互动 浏览 13552

媒体:特朗普三戏泽连斯基 "战斧"导弹泽连斯基别想了

新民晚报 浏览 2782

中年女人穿对了才显气质!不穿花不穿紧,舒适好看还高级

静儿时尚达人 浏览 2196

京东汽车来了!埃安UT super上市,4.99万起,你会考虑吗?

大李说车 浏览 2473

宁波方正携手山东未来机器人,聚焦深海机器人业务

财闻 浏览 2730

飞傲雪漫天BEATBOX便携CD播放器亮相,预计明年2月上市

IT之家 浏览 2048

演习第2天 东部战区组织实弹射击

央视新闻 浏览 1867

奥特曼开始算“人肉成本”

虎嗅APP 浏览 1009
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1