关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19054人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赖清德胜选后退出"新潮流"系 岛内猜测其或成立新派系

环球网资讯 浏览 78161

外媒:英伟达对华“特供”芯片将恢复出货

参考消息 浏览 74205

四大煤炭:中国神华、兖矿能源、陕西煤业、中煤能源,含金量谁高

长风价值掘金 浏览 11138

宋慧乔与朋友相聚:抱爱犬笑容温柔,嘟嘴玩自拍

笑猫说说 浏览 15032

米卢:在中国足球学校中孩子并不喜欢足球,进球也不庆祝

懂球帝 浏览 11646

悬赏百万征集执法人员违法犯罪线索民企:已收到线索

潇湘晨报 浏览 77701

谷歌或选择放弃三星,倾向于台企制造下一代Tensor和AI芯片

超能网 浏览 12715

中国海警舰艇编队在钓鱼岛巡航

界面新闻 浏览 546

国王连秀操作:1年360万签威少 5年1.4亿美元提前续约基根-穆雷

醉卧浮生 浏览 1033

黄磊一家五口现身乌镇戏剧节 儿女们露脸颜值获赞

叶公子 浏览 13554

抢在苹果之前,三星推出三折叠手机

华尔街见闻官方 浏览 230

苹果股价创历史新高

都市快报橙柿互动 浏览 948

男子晒"用26年的洗衣机"带火老国货 威力2天涨粉10万

极目新闻 浏览 78643

年薪180万!众泰汽车副总裁被罢免

经理人杂志 浏览 994

拜登下令空袭叙利亚,好战本性暴露无遗

趣看热点 浏览 191783

日本福岛核电站可能再次爆炸,内部污染严重程度已经远超预期

趣看热点 浏览 493995

或45万元起售 岚图泰山将11月18日上市

网易汽车 浏览 548

首艘美国船被罚之际 特朗普调2艘航母部署中国周边

现代小青青慕慕 浏览 4443

今夏推荐这25双凉鞋 时髦又有型!

仙爷种草机 浏览 17075

刘诗诗终于选对发型了 不仅减龄还很显脸小!

一只可可 浏览 15913

售价更低 荣威i5新版本车型发动机参数下调

车质网 浏览 1036
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1