关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元933人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2024上半年“上桌咖”观察:小生古偶内卷,小花自行设席

仙女事件簿 浏览 10713

问界M7直逼榜首,轮到智能电车狂欢了么?

线外邦 浏览 12057

红旗E-QM5换电版车型正式上市 售8.98万元

车质网 浏览 866

“中方提出想法后,泽连斯基很快就接受了”

参考消息 浏览 18637

中年女性穿衣别太复杂 这些冬季穿搭保暖又大方

虎哥说衣不二 浏览 13244

美轰炸机挂高超导弹现身关岛

环球网 浏览 12529

伊姐十一热推:电视剧《入青云》;电视剧《宴遇永安》......

伊周潮流 浏览 1035

Bruce控诉李玟娘家人,李玟二姐:不接受恶意言论

萌神木木 浏览 14413

京东重启低价策略,“百亿补贴”会是对抗拼多多的良药吗?

财联社 浏览 19542

最有野心的“厨子”,如何成为普京的“叛徒”

中国新闻周刊 浏览 15541

两件大事刷屏!“924行情”即将一周年,下周市场会修复吗?

每经牛眼 浏览 1669

包贝尔自导自演新片定档,看了评论区,才知道他的人脉有多强!

电和影 浏览 12012

台失联战机同队士官长自杀,此前于深海已确认黑匣子信号

趣看热点 浏览 70271

《繁花》声明翻车!官微开始紧急删评,主演胡歌唐嫣等全被牵连

萌神木木 浏览 659

30年来首次!美国法院系统也被卷入停摆 业内预计政府关门将“史上最长”

财联社 浏览 952

无人驾驶获《时代》2025最佳发明奖:萝卜快跑、谷歌、特斯拉全球竞速

上观新闻 浏览 1033

问界“失去”华为70天

市界 浏览 16626

拒绝被逆转,曼联本赛季英超领先后保持不败

懂球帝 浏览 632

姆巴佩已完成职业生涯400球,为最年轻达成此成就球员

懂球帝 浏览 232

德容:理解巴萨曾想卖了我,当时财政困难

懂球帝 浏览 896

裁判评议:海牛vs海港,裁判回看后取消海牛点球的决定正确

懂球帝 浏览 882
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1