关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12502人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

地区战争风险加剧 哥伦比亚总统重批美国“侵略拉美”

环球网资讯 浏览 1027

亚马逊大裁员后又暂停第二总部建设,降本增效这么艰难?

第一财经资讯 浏览 18998

王祖贤隐退真相曝光!王晶坦言两点

妙知 浏览 896

3·15,国台国标(2019年酿造)即将上市发布

证券市场周刊 浏览 11072

报道指字节跳动关闭印度音乐流媒体服务Resso

观点机构 浏览 12458

“蔚小理”一季报出炉:业绩分化明显,决战下半年?

每日经济新闻 浏览 16137

加密货币跌势连绵,近10亿美元杠杆仓被平,现货比特币ETF上周仅小幅净流入

华尔街见闻官方 浏览 253

揭密!中国导弹为何飞越北极圈,不走太平洋

浏览 5027

不造车,京东谋何局?

盖世汽车 浏览 763

进行大量体能训练恢复,博格巴:我好像签约了马拉松俱乐部

懂球帝 浏览 1495

记者:34岁前锋伊哈洛免签加盟沙特俱乐部麦加统一

直播吧 浏览 14235

BY2妹妹晒美照!打扮火辣,五官大变认不出,自嘲背锅侠耐人寻味

文艺圈娱乐号 浏览 13027

AFAC2024:让AI推动金融创新,像扫码支付一样服务千家万户

澎湃新闻 浏览 11189

2023多项销售数据创纪录,但汽车人都在叫苦

汽车公社 浏览 12677

精致男人都爱穿衬衫 这样搭时髦有型!

男士穿衣搭配杂志 浏览 19837

台湾岛内开始抓内鬼,菠萝卖不出去都怪有人泄露种植技术!

趣看热点 浏览 366344

隐退4年后,张一鸣久违现身!互联网大佬正集体杀回

深蓝财经 浏览 1031

媒体:美国最新一轮对台军售不同以往 中方将进行反制

政知新媒体 浏览 73144

撒贝宁携妻参加外甥婚礼妙语连珠 曝其包18万礼金

叶公子 浏览 13807

布鲁斯-布朗:斯科蒂-巴恩斯是一位愿意在场上拼命的球员

直播吧 浏览 12557

新中式穿搭掀起时尚潮 婉约柔美到骨子里

时尚丽人风行 浏览 15522
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1