关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2777人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

丰田"世极"正式独立 全新概念车剑指劳斯莱斯

网易汽车 浏览 2653

59元钓鱼3小时,年轻人只想静静

中国企业家杂志 浏览 2288

《向往8》暴露明星真实性格!张子枫老实,何炅诙谐,黄磊最强势

娱乐圈笔娱君 浏览 2831

今年秋冬最流行的4组搭配,照着穿美出新高度!

LinkFashion 浏览 2215

都体:国米想租佛罗伦萨翼卫多多,愿意送出德弗赖或阿斯拉尼

懂球帝 浏览 1682

媒体:关于台湾问题 2028年有3个关键时间节点

经济观察报 浏览 7523

张凯丽34岁嫁给作家,偏偏生了个不省心的女儿?

娱乐看阿敞 浏览 2614

特朗普:我说服了自己暂缓对伊朗采取军事行动

澎湃新闻 浏览 1657

安东尼奥3年2次突破!成05国奥主帅热门,媒体人:结果大于过程

奥拜尔 浏览 1747

马筱梅首次公开孕肚!自曝生产全都自己安排,暗示对汪小菲失望

萌神木木 浏览 1754

驱动绿色智算 筑牢AIDC基石:华为携液冷热管理控制器TMU亮相2025CDCC大会

环球网资讯 浏览 2282

瓜帅:利物浦和阿森纳都在争冠;英超风格的改变?我会接受

懂球帝 浏览 2707

腾讯集团高级副总裁郭凯天:坚持智能向善,构筑人与AI的信任机制

上游新闻 浏览 2621

用重罚来逼迫商家“限价”,京东在焦虑什么?

斑马消费 浏览 2708

超20家车企卷入降价促销潮;宝马今年将推20款新产品

梧桐车话 浏览 1699

失业半年!52岁卡纳瓦罗获国足邀请:有望时隔4年重返中国

叶青足球世界 浏览 3359

河南有强奸前科老人猥亵幼女获刑2年 受害人家属发声

极目新闻 浏览 7924

曝白百何资源受影响!好友还在嘴硬,多位业内下场内涵:太任性了

萌神木木 浏览 2416

以色列攻入加沙城 多国寻求将其逐出联合国

看看新闻Knews 浏览 3551

专家:美对华贸易姿态是战略性失败 不再掌握全球霸权

澎湃新闻 浏览 31512

全球最大、国内首制万吨级纯电动智能海船“宁远电鲲”号开启海试

IT之家 浏览 1402
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1