爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

沈知渝：科尔...

杨幂晒照为A...

懒理风波！小...

伊朗称美国在...

美媒披露普京...

黄子韬婚礼险...

2024年，合资品牌还有一战之力

戚薇李承铉能消停点不？为圈钱上800个综艺，夫妻那点破事看腻了

美高官访尼日尔警告军政府勿引入瓦格纳部队

地区战争风险加剧哥伦比亚总统重批美国“侵略拉美”

亚马逊大裁员后又暂停第二总部建设，降本增效这么艰难？

王祖贤隐退真相曝光！王晶坦言两点

3·15，国台国标（2019年酿造）即将上市发布

报道指字节跳动关闭印度音乐流媒体服务Resso

“蔚小理”一季报出炉：业绩分化明显，决战下半年？

加密货币跌势连绵，近10亿美元杠杆仓被平，现货比特币ETF上周仅小幅净流入

揭密！中国导弹为何飞越北极圈，不走太平洋

不造车，京东谋何局？

进行大量体能训练恢复，博格巴：我好像签约了马拉松俱乐部

记者：34岁前锋伊哈洛免签加盟沙特俱乐部麦加统一

BY2妹妹晒美照！打扮火辣，五官大变认不出，自嘲背锅侠耐人寻味

AFAC2024：让AI推动金融创新，像扫码支付一样服务千家万户

2023多项销售数据创纪录，但汽车人都在叫苦

精致男人都爱穿衬衫这样搭时髦有型！

台湾岛内开始抓内鬼，菠萝卖不出去都怪有人泄露种植技术！

隐退4年后，张一鸣久违现身！互联网大佬正集体杀回

媒体：美国最新一轮对台军售不同以往中方将进行反制

撒贝宁携妻参加外甥婚礼妙语连珠曝其包18万礼金

布鲁斯-布朗：斯科蒂-巴恩斯是一位愿意在场上拼命的球员

新中式穿搭掀起时尚潮婉约柔美到骨子里