关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技814人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

外媒:巴基斯坦一哨所遭武装分子袭击 6名士兵死亡

环球网资讯 浏览 79

闪电快讯 | 享界S9T售价30.98万元起 上市24小时大定超过7500辆

电厂 浏览 1672

贝克汉姆一家为布鲁克林庆生,克鲁兹牵小七超有爱

好丹 浏览 19472

佟大为常年吃水煮菜显老态 被关悦管太严不敢吃肉

盖饭娱乐官方号 浏览 16183

韩国知名潮牌宣布将关闭中国全部门店 陆续打折清仓

潇湘晨报 浏览 6525

卡梅伦-托马斯:如果我有球权,我能轻松场均25分

OnFire 浏览 14346

德容:梅西曾是我的偶像,对我来说他是史上最佳

懂球帝 浏览 957

特朗普涉俄乌冲突再次表态:有时候必须让他们打到底

鲁中晨报 浏览 5689

深圳联通官宣可预约上门办理eSIM业务,暂定截至10月31日

IT之家 浏览 919

王鸥才是真清醒!住200平复式豪宅独自养娃

心静物娱 浏览 55

风扇网红小玉租70元婚纱,在出租屋与大鹏结婚

深析古今 浏览 1585

父亲被熟人杀害后母亲出走17年 20岁儿子控告母亲遗弃

红星新闻 浏览 63880

刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

爱范儿 浏览 557

他们是“追逐声音的人”

上游新闻 浏览 906

“石墨烯云绒”保暖媲美羽绒?专家:远达不到

看看新闻Knews 浏览 338

湖北U20 1-0山东U20,范绪林点射制胜

懂球帝 浏览 607

被问中国元首是否就瓦格纳事件与普京通话 外交部回应

外交部网站 浏览 88831

初秋衣服不必准备太多,这几件单品提前买好,简单百搭不挑人

静儿时尚达人 浏览 1806

2名乌女性被指诱骗毒杀46名俄士兵

红星新闻 浏览 13092

首款星闪音频耳机!华为FreeBuds Pro 5悦彰耳机开售:1499元 母带级无损音质

快科技 浏览 358

出货量同期增加220%,在这里遇见经济回暖样本

中国企业家杂志 浏览 19362
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1