关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19046人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

邻居描述江阴枪击案嫌犯:曾有不止1家公司 感觉不缺钱

红星新闻 浏览 110277

二胎妈妈离职前月薪4万 如今求职连面试机会都没有

大象新闻 浏览 82664

作秀式调研书记涉案超1亿:支持他人写书宣扬其"功绩"

新京报 浏览 75189

中超-马莱莱破僵后伤退路易斯传射 申花2-0西海岸

网易体育 浏览 12585

神舟二十号飞船推迟返回 疑似遭空间微小碎片撞击

极目新闻 浏览 5676

这是来演戏还是拍时尚大片啊?

8号风曝 浏览 13542

“芭比粉”平反后 用对粉色了没?

《红秀GRAZIA》 浏览 15556

普京在莫斯科会见国务委员兼国防部长李尚福

新华社 浏览 115548

郑爽回应代孕事件暗指遭张恒“曝光勒索”,网友并不买账

趣看热点 浏览 25934

对话工程院院士王浩:我国独创的“河湖长制”值得向“全球南方”国家推广

封面新闻 浏览 775

货拉拉女孩跳车事件最新细节,司机因心情不好偏航后没有做出解释

趣看热点 浏览 250560

空调“自动化”成卖点,大众智能化这么拉胯了?真的有点心疼ID.7

小李车评李建红 浏览 12284

赵丽颖坦白自己近期“消失”的原因

湘村大余 浏览 772

茅台,泸州老窖,开始像房地产“去库存”

说财猫 浏览 10569

美军用军舰发射"战斧"导弹和战机空袭也门胡塞武装

环球网 浏览 12899

伍兹车祸原因曝光,事发时车速达该路段限制近两倍

趣看热点 浏览 26387

经济实惠!46球,巴萨成2001-02赛季以来西甲同期进球最少领头羊

直播吧 浏览 19441

中国车在俄份额跌破50%,新一轮洗牌开启

汽车公社 浏览 58

15年离婚拉锯落幕,“中国巴菲特”失去沃华医药实控权

野马财经 浏览 667

开发商未批先建楼盘烂尾5年 13次专题会督促解决未果

鲁中晨报 浏览 64285

净利润暴增503倍!310亿“零食大王”,冲刺港股IPO

侃见财经 浏览 988
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1