关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19057人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女人到了四十岁 一定要试试大波浪卷发

成铭聊发型 浏览 19233

远洋集团陷巨额亏损 员工:2大股东曾派调查组评估家底

红星新闻 浏览 88251

特斯拉三季度净利同比暴跌4成!马斯克透露五大关键进展,为天价薪酬拉票

车东西 浏览 820

媒体:趁乱"搁浅"24年的菲破船 到了该拖走的时候了

新民周刊 浏览 14757

香港男子在宏福苑大火中失去母亲和弟弟:撑不下去了

极目新闻 浏览 31750

"炫富式举报"女子再发声:收钱局长现是某能源集团董事

上游新闻 浏览 87862

芬兰在芬俄边境开建200公里防护栏:3米高 配夜视仪

澎湃新闻 浏览 19086

造议员假丑闻、给假新闻链接,谷歌 Gemma AI模型遭投诉后下架

IT之家 浏览 675

美最新两种无人战斗机完成首飞 空战新时代正加速到来

澎湃新闻 浏览 4856

吴京在汶川地震时,给灾民搭建帐篷

趣看热点 浏览 26804

48岁周迅气质在内娱独一份 新大片回归灵动少女

时尚丽人风行 浏览 19376

李沁,一款全方位健康的“老式小孩”

时尚COSMO 浏览 1904

廖均健:连续失利是每个人的责任,希望尽快有新外援帮助球队

直播吧 浏览 15703

媒体人:玉昆接近签约前浙江队主帅乔迪,还相中一名巴西前腰

懂球帝 浏览 372

SpaceX称识别并切断缅甸电诈园区周边逾2500台“星链”设备

澎湃新闻 浏览 875

罗斯回归尼克斯,自爆此前缺阵是因为自己与家人感染新冠

趣看热点 浏览 25396

中国拿出比稀土更致命的王牌美国"破防" 万斯:要冷静

时时有聊 浏览 4973

王猛预测比尔下家:能争冠&缺锋线火力&大城市 勇火鹿熊还有谁?

直播吧 浏览 16095

王家卫录音曝光,内容信息很炸裂

林轻吟 浏览 720

政府“停摆”持续,美国家核安全管理局千余名员工将被强制休假

界面新闻 浏览 918

穿错显胖10斤 T恤到底怎么挑选才好看?

In风尚 浏览 17008
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1