关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2779人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国纽约市长选举进入"最后冲刺":印度裔候选人领跑

红星新闻 浏览 8311

做好服务的老国货们,率先进入顺风局

财经无忌 浏览 1609

双剑合璧:科创板、创业板的重大改革与长期投资价值

尺度商业 浏览 2590

甲骨文业绩不及预期,资本开支比预期多约150亿美元,盘后重挫超10%

华尔街见闻官方 浏览 2157

消息称vivo叫停AI眼镜项目,此前已秘密筹备半年时间

IT之家 浏览 1592

地缘因素引爆大宗狂欢!机构上调金价目标至5000美元,白银飙涨近8%,铜价再创里程碑

第一财经资讯 浏览 1744

雷恩vs欧塞尔:恩博洛、塞科-福法纳首发,西纳约科、易卜拉欣-奥斯曼出战

懂球帝 浏览 2711

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

静儿时尚达人 浏览 1012

媒体:中方反制日自卫队前高官 令人想起"白团"终失败

新民周刊 浏览 17388

上海一业主去美国探亲接到一通越洋电话:你家被淹了

看看新闻Knews 浏览 13329

许利民:曾凡博确实非常优秀,祝贺他回归首秀奉献如此精彩表现

懂球帝 浏览 1853

李凤刚出任北京现代总经理,20 年来首次由中国本土人才代表韩方

IT之家 浏览 2561

抖音:近一年优质内容播放时长为普通内容的17倍

封面新闻 浏览 3465

不确定的时代里,亚马逊广告如何重构确定性?

有数DataVision 浏览 1986

陈晓新剧黯然收官!口碑崩塌评论区沦陷,和前妻陈妍希对打输惨了

萌神木木 浏览 2002

全球第二,欣旺达,再冲固态电池!

飞鲸投研 浏览 2775

本赛季前5轮三支英超升班马共拿19分,比上赛季三队快一倍

直播吧 浏览 3541

章泽天这次翻车,真的不冤

独立鱼 浏览 1703

厦门大学等突破AI自学限制:让计算机为自己量身定制学习计划

科技行者 浏览 1450

NBA新赛季大前锋TOP10:字母一枝独秀 浓眉盼健康

体坛周报 浏览 2699

击败鲍里妮出线有望为何赛后不庆祝?高芙自揭答案:赢得侥幸

网球之家 浏览 2562
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1