关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12485人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

承德露露,温水煮青蛙

斑马消费 浏览 892

香港政务司司长:涉案人员处心积虑犯罪 害死这么多人

南方都市报 浏览 15577

继续进化!崔永熙砍下生涯首个25+10 命中5记三分为生涯新高

直播吧 浏览 19617

无人机入侵柬埔寨 洪森:伊朗名将可是被无人机杀死的

枢密院十号 浏览 90921

俄国家航天集团公布“月球-25”号探测器拍摄的照片

新京报 浏览 14505

俄乌冲突近一周年 两国都宣称去年的经济数字比预期好

枢密院十号 浏览 92616

美国改变战略:不求乌克兰夺回领土 只求守住

环球网 浏览 12607

总裁偷代码丑闻后,Stability AI又曝高层大换血,十亿美元还能撑多久

新智元 浏览 15428

国家安全机关:坚决粉碎台湾情治部门渗透破坏

国家安全部 浏览 76364

“超级周”来袭!美联储,降息稳了?

券商中国 浏览 759

伊姐周六热推:电视剧《勿扰飞升》;电视剧《他为什么依然单身》......

伊周潮流 浏览 567

刘亦菲与45岁霍建华船戏吸睛,强吻、摸胸肌,这剧的尺度可真带劲

肆季娱乐 浏览 11180

春晚重播,把她推上巅峰

她刊 浏览 13243

茅台调价之后五粮液跟涨,它还将提升直销渠道占比

界面新闻 浏览 12245

马斯克被曝吸毒?或危及SpaceX 70亿合同,公司曾被指控非法解雇多名员工

北京商报 浏览 12635

“技术男”科大讯飞的木桶效应

斑马消费 浏览 14675

E句话| 这对邪门CP又是哪里来的?

仙女事件簿 浏览 726

纯电中大型轿车新选择,吉利银河E8正式开启预售

天天汽车 浏览 12876

助贷新规落地调查:单利最低达7.56%

时代周报 浏览 959

【中超】恩里克2球迪力穆拉提世界波 梅州1比4玉昆

体坛周报 浏览 785

马斯克将拍卖“推特”相关物品 包括建筑物上蓝鸟标志

财联社 浏览 14372
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1