关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2815人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔡英文近期动作频频 王鸿薇:她觉得赖清德"不行了"

海峡导报社 浏览 10240

伊朗:不会与美谈判 美以不可能打了伊朗就一走了之

每日经济新闻 浏览 33171

商品期货今天涨疯了,地缘升温影响还能多久?

财联社 浏览 908

6岁女童练习"下腰"致截瘫 经营者曾因逃避执行被刑拘

红星新闻 浏览 16437

大学副教授成老赖仍开宝马用新手机 一次餐费花8000元

新京报 浏览 7192

再一次分别,刘军帅告别李霄鹏:感谢这一生遇到最好的教练

懂球帝 浏览 2005

修杰楷承认逃兵役!曾花钱造出假病历,贾静雯回应称孩子受到惊吓

萌神木木 浏览 2797

从口袋PC到智能座舱:华为新品矩阵亮相2025中国移动全球合作伙伴大会 解码智慧生活

快科技 浏览 2830

大师赛赵心童5-3领先赛点,决胜局选择逆转

百态中的情感起伏 浏览 1630

“虚胖”的高德,不像地图了

蓝鲸新闻 浏览 1871

LV高管空降泡泡玛特,年薪300万港元

YOUNG财经 浏览 2073

刘晓庆恐怕是缺钱花了!75岁高龄再接短剧

小娱乐悠悠 浏览 2122

闻泰科技回应:个别外籍高管试图颠覆公司治理结构

澎湃新闻 浏览 6419

男子爬衡山丢80.88克金牌 失主:做好找不回的打算了

极目新闻 浏览 6046

德国联邦统计局数据显示:今年前8月,中国再成德最大贸易国

环球网资讯 浏览 2799

恩里克:我们在23分钟内丢了3个球?那是对手球员的实力所致

懂球帝 浏览 2857

当年霍震霆给儿子霍启刚挑儿媳妇,眼光多毒啊

小光侃娱乐 浏览 2354

丈夫因妻子"买肉价格低"疑其出轨 捅刺结婚30多年妻子

红星新闻 浏览 2967

前曼城助教:08年曼城曾为梅西报价3000万镑,这惹怒了巴萨

懂球帝 浏览 2033

新片预售票房仅10万!被“打回原形”的黄晓明,午夜梦回可曾后悔

娱乐圈笔娱君 浏览 2758

小米新车曝光!雷军的致命子弹,射向李想和余承东

象视汽车 浏览 2748
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1