关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19060人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄媒:俄海军计划今年接收5艘新型潜艇

环球网资讯 浏览 18902

国安部发文提及《反分裂国家法》 "台独"势力被点名

新京报 浏览 75914

短片制作人,借到了大模型的第一缕东风

财经十一人官方 浏览 12947

最「可爱」的全新酷路泽 FJ 上线,这真不是方程豹在日本失散的兄弟?

爱范儿 浏览 905

男子在养生馆按摩后猝死次日才被发现 家属索赔140万

红星新闻 浏览 1456

尼斯和巴黎FC的比赛中看台响起恐同口号,导致比赛中断几分钟

懂球帝 浏览 1511

姚安娜出道俩月人气惨淡 3月没公开行程均在训练

网易娱乐专稿 浏览 26601

“乔治·华盛顿”号航母进入南海 “尼米兹”号航母同日离开

环球网资讯 浏览 384

23分钟16+8轻松打卡:30岁李梦仍国产最强锋线 被曝启动留洋计划

颜小白的篮球梦 浏览 1086

沃勒尔:罗马虽然输掉了与米兰的对决,但他们表现更胜一筹

懂球帝 浏览 625

汪峰儿童节陪女儿参加运动会,8岁醒醒高清正脸出镜,不像章子怡

娱絮 浏览 10944

以色列捅了娄子,巴铁正式成了沙特保护伞,对中国意味着什么?

北向财经 浏览 1520

售价更低 荣威i5新版本车型发动机参数下调

车质网 浏览 1039

医托"忽悠"病患去中医馆:大师退休前挂号费600 现在50

极目新闻 浏览 12703

OpenAI上线GPT商店,但要赶超苹果应用商店还很难

界面新闻 浏览 12695

不止复苏:阿里变革后首秀,业绩全面超预期,“价格力战役”不能停

每日经济新闻 浏览 14138

队报:兰斯1000万欧报价里昂18岁后卫萨尔,但被拒绝

直播吧 浏览 10338

4岁女孩在未锁门的车里睡觉突然失联 刑侦介入

极目新闻 浏览 6480

美国没走通的关键一步,已被解放军搞定了

浏览 10948

沪媒:上海赛更达橘橙投资人朱骏将兑现400万元冲乙奖金

懂球帝 浏览 1054

退出春晚、被综艺开除,贾玲的下场竟然如此?

阅识 浏览 743
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1