爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

马克龙称瓦格...

亚马逊大裁员...

瑞信危机中真...

年前搬家高峰...

为上清华15...

俄国防部：＂...

外媒询问中方是否为释放人质诺亚做幕后工作中方回应

知名汽车智驾企业“停工放假”

美媒：日本欲采购攻击型核潜艇标志一个重大战略转变

承德露露，温水煮青蛙

香港政务司司长：涉案人员处心积虑犯罪害死这么多人

继续进化！崔永熙砍下生涯首个25+10 命中5记三分为生涯新高

无人机入侵柬埔寨洪森：伊朗名将可是被无人机杀死的

俄国家航天集团公布“月球-25”号探测器拍摄的照片

俄乌冲突近一周年两国都宣称去年的经济数字比预期好

美国改变战略：不求乌克兰夺回领土只求守住

总裁偷代码丑闻后，Stability AI又曝高层大换血，十亿美元还能撑多久

国家安全机关：坚决粉碎台湾情治部门渗透破坏

“超级周”来袭！美联储，降息稳了？

伊姐周六热推：电视剧《勿扰飞升》；电视剧《他为什么依然单身》......

刘亦菲与45岁霍建华船戏吸睛，强吻、摸胸肌，这剧的尺度可真带劲

春晚重播，把她推上巅峰

茅台调价之后五粮液跟涨，它还将提升直销渠道占比

马斯克被曝吸毒？或危及SpaceX 70亿合同，公司曾被指控非法解雇多名员工

“技术男”科大讯飞的木桶效应

E句话| 这对邪门CP又是哪里来的？

纯电中大型轿车新选择，吉利银河E8正式开启预售

助贷新规落地调查：单利最低达7.56%

【中超】恩里克2球迪力穆拉提世界波梅州1比4玉昆

马斯克将拍卖“推特”相关物品包括建筑物上蓝鸟标志