关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101731人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《奔跑吧》新一季嘉宾翻车 曾遭湖南台打码删镜头

萌神木木 浏览 19103

蔚来理想降3万清仓!开年就有8家车企坐不住了,最高降4.6万

车东西 浏览 12484

小S二女儿穿露脐装跳舞,被指动作僵硬难看

乔米世娱乐说 浏览 19711

天空:巴黎准备正式报价穆阿尼,多家英超俱乐部也在关注该球员

直播吧 浏览 14025

聚焦2025中国国际数字经济博览会·记者观察|释放数据价值,“乘”出产业转型新动能

纵览新闻 浏览 936

4年1亿也能接受!曝湖人愿匹配任何里夫斯报价:为何仍准备替代者

罗说NBA 浏览 15706

30岁提前"垮脸"?一篇拯救40+熟龄肌

言安堂 浏览 15017

雅斯特酒店回应房客发病送药不及时死亡:送药者未告知病情,隐私考虑未查看药品

封面新闻 浏览 349

以军在加沙城行动最新画面公布

环球网资讯 浏览 1664

23年前冰柜藏尸案告破,一个塑料袋成为破案关键

趣看热点 浏览 159602

面板价格跳水后反弹,电视厂商掀起新一轮涨价,线上线下都不放过

时代财经 浏览 15380

短剧要翻拍《新英雄本色》,短剧一哥刘萧旭主演,海报有内味儿

最爱酷影视 浏览 1022

​迪丽热巴穿渔网薄纱冻到抖 怕冷就多穿点吧

娱舆规划局 浏览 19582

重返利雅得新月主场,内马尔社媒晒照:回家了

直播吧 浏览 12174

被54岁的许晴惊艳到 她是真的有"少女感"

木子爱娱乐大号 浏览 20119

日本前首相麻生太郎窜台 解放军军机"伴飞"警告

上游新闻 浏览 14698

比亚迪"出海舰队"首船交付离港:能装7000台车,首航将赴欧洲

IT之家 浏览 12555

1-8月酒饮料茶行业利润增速19.9%,白酒行业迎来困境反转了吗?

郭施亮 浏览 1486

体坛:张琳芃最后一练回归打消疑虑,张玉宁次战肯定更受重用

直播吧 浏览 12904

微胖夏天怎么穿?这篇太值得借鉴了

LinkFashion 浏览 15983

韩寒,认真搞钱!

华商韬略 浏览 12237
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1