关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12480人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

投资理财的重要性!金价一路走高,你是否错过了最好的投资时机?

郭施亮 浏览 12103

女甲第8轮综述:海南琼中女足8战全胜高居榜首,广州女足1分垫底

直播吧 浏览 16005

俄乌冲突关键时刻拜登将赴欧洲 还将会见查尔斯三世

上观新闻 浏览 96231

科学家证实,中国“天眼”锁定F22绝非意外

浏览 10986

王宝强没想到,和马蓉离婚9年后,自己的一双儿女开始为他争光了

TVB的四小花 浏览 1602

说你点啥好呢?维金斯替补23分钟 8中2仅拿5分&正负值低至-29

直播吧 浏览 12555

不是吧!张卫健真有私生女?

gogoDaily 浏览 15258

主力车增配降价,丰田销量明显上涨,能带动日系车反攻吗?

路咖汽车 浏览 1493

马筱梅罕谈大S过去,撕碎S家仅剩的“体面”?

有趣的胡侃 浏览 698

东京奥运或闭门举办,不会接纳海外普通观众

趣看热点 浏览 650263

美股周三:三大股指齐跌,英伟达跌近5%,特斯拉跌逾3%

网易科技报道 浏览 14616

记者:巴黎引进维加交易取得进展,希望球员本周末完成体检

直播吧 浏览 15152

瓜迪奥拉:胡桑诺夫明天可上场踢几分钟;罗德里还没完全恢复

懂球帝 浏览 799

排队两小时买奶皮子糖葫芦,值吗?

时尚COSMO 浏览 636

日本前首相:中国批高市理所当然 日媒为什么不批

环球网资讯 浏览 13186

金与正: 如美国拦截朝鲜导弹 将被视为"宣战"

环球网资讯 浏览 19156

中国脑机接口发展提速:“机智”上新,从实验室走向市场

第一财经资讯 浏览 10806

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

伊周潮流 浏览 647

女子生五胞胎住在娘家不敢买房 爷爷一人养活全家九口

齐鲁壹点 浏览 96866

HuggingChat Omni 集成式 AI 平台发布

IT之家 浏览 966

马拉多纳或是自杀,手术后已经停止服用抑郁症药物

趣看热点 浏览 25881
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1