关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元924人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒披露最新研究:目睹同伴死亡后,果蝇身体衰老速度会加快

环球网资讯 浏览 15816

一条百褶裙24套不重复穿搭 这位博主好会穿

七柒时尚笔记 浏览 19696

农妇在荒塘内开挖养鱼被控"非法占用农地罪" 家属发声

极目新闻 浏览 6476

沈腾新片定档春节上映,海报被指让人出戏

萌神木木 浏览 12433

土外长称美曾建议土向乌提供S-400防空系统

参考消息 浏览 18530

金融监管部门掌门人同时发声 释放新信号

证券时报e公司 浏览 16438

高合汽车资金紧张 谁是背后神秘金主?

清流 浏览 12536

5月新建商品住宅销售价格环比整体涨幅回落 二手住宅环比下降

国家统计局 浏览 16492

拜登将在波兰发表俄乌冲突一周年讲话 为乌打气

澎湃新闻 浏览 35667

聚酯纤维都没嫌老实人穷

老斯基财经 浏览 23

弗神36+9上海27分逆转山东 郭昊文7分老哈空砍两双

网易体育 浏览 26310

赢得认可!一位加拉塔萨雷球迷为自己新出生的孩子取名伊卡尔迪

直播吧 浏览 16233

苏超常州队主帅:明年队伍要年轻化,希望能让球迷场场都开心

懂球帝 浏览 1462

美军火商称俄乌冲突及巴以冲突推动利润增长

环球网资讯 浏览 886

黄奕说:我的家庭没有爸爸这个角色

趣看热点 浏览 27228

印度人崩了!中国人藏得太深,这仗怎么打?

浏览 4772

美邦服饰创始人回应“做工丑、价格贵”,此前女儿执掌7年亏损30亿,还能重回巅峰吗?

红星资本局 浏览 12612

快船送出现金,交易得到塞尔维亚中锋科普里维察选秀签约权

OnFire 浏览 15298

聚焦第五届上海知识产权创新奖——中国科学院上海微系统与信息技术研究所成果转化处

上观新闻 浏览 878

TCL科技110亿元收购LG Display中国业务

三言科技 浏览 992

34年来首次 普京下令起草恢复核武器试验提议

红星新闻 浏览 621
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1