关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2784人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

打入一球,库尼亚当选利兹联vs曼联全场最佳球员

懂球帝 浏览 1779

50+女人更适合基础款,掌握3个高段位搭配思路,轻松提升品味

静儿时尚达人 浏览 1009

币圈再度血流成河!比特币6月以来首次跌破10万大关,以太币暴跌10%

华尔街见闻官方 浏览 2496

50+姐姐秋冬穿对赢麻了!别硬凹少女感,3个技巧穿出显贵感

静儿时尚达人 浏览 2424

何超琼近况曝光,生图皮包骨大小眼,西装裤松垮

张发林 浏览 3352

闪充加持 新款方程豹豹8申报信息曝光

车质网 浏览 648

中方提醒中国游客避免前往日本 日媒:或造成重大影响

环球网资讯 浏览 42175

春节档全盘点、春晚、中戏反腐、冬奥会等

电影最TOP 浏览 1027

“躺平”后,老干妈卖了快54亿

华尔街见闻官方 浏览 1989

卓正医疗通过IPO备案:年营收6.9亿 腾讯与H Capital是股东

雷递 浏览 3504

文联春晚录制现场好真实!大咖太多没人惯着

萌神木木 浏览 1509

交警视角解密:腾势N8L如何定义“安全担当”

网易汽车 浏览 1718

云南外援奥斯卡连续七场联赛参与进球,刷新个人中超最长纪录

懂球帝 浏览 2636

E句话| 这对邪门CP又是哪里来的?

仙女事件簿 浏览 2095

从轿车变成MPV? 雷克萨斯LS概念车正式发布

网易汽车 浏览 2580

英王子因萝莉岛被死人"指控" 前妻与爱泼斯坦猛料被扒

新民晚报 浏览 8664

奔驰誓言守护V12引擎,将继续推出十二缸车型

MOTO 浏览 3529

购置税全免 iCAR V27量产下线开启预定

网易汽车 浏览 1744

塞纳河“上岸”不易:20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司

仙女事件簿 浏览 2046

果壳直击CES:具身智能下班时刻

果壳 浏览 1697

熊黛林带双胞胎女儿旅行,2个女儿长得完全不一样,都特别可爱

素素娱乐 浏览 1662
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1