关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2817人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曲婉婷近照疑曝光!眼神闪躲像躲债

小徐讲八卦 浏览 1642

黄仁勋与李飞飞,让AI不止于“动嘴”

首席商业评论 浏览 1776

万科开启了第二笔中票展期

国际金融报 浏览 2077

国产新能源还在内讧,福特CEO已经吓破胆了:能让我们全军覆没

小李车评李建红 浏览 2511

50+女人别踩坑!远离紧身裤和老年装,这样穿优雅又显瘦

静儿时尚达人 浏览 2171

“这个颜色”今天春天又火了!这样穿好看又减龄

LinkFashion 浏览 581

阿维塔第21万辆正式下线

三言科技 浏览 2262

持续烧钱的大模型,阻挡不了AI行业的热情

蓝鲸新闻 浏览 1940

日本渣男骗前女友拍全裸写真出轨

孤独的独角兽影视 浏览 1659

张朝阳缅怀杨振宁:他是大神 在物理学家中排第一

极目新闻 浏览 6490

陕西新郎结婚当天跳河身亡 母亲首度发声透露原因

封面新闻 浏览 8505

岁月不败美人,50岁她们比20岁更好看

LinkFashion 浏览 1695

市场定位模糊!贝莱德基金本土化试水困局,主动权益产品边缘化

新经济e线 浏览 1552

都体:加拉塔萨雷对弗拉泰西开始犹豫,认为他防守属性不够强

懂球帝 浏览 1787

球迷态度:颜王刘三人均已34+,李昊今年能否接班国足一门?

懂球帝 浏览 1680

有种的冲这儿打!

电影最TOP 浏览 2796

原来最适合亚洲人的单品之一,是它

黎贝卡的异想世界 浏览 2217

冰雪穿越理念 宾利添越Concept X官图发布

车质网 浏览 1485

特斯拉撞树后打不开车门 5人被困燃烧的车内身亡

每日经济新闻 浏览 2611

当年最红的女明星,“孤苦伶仃”?

Yuki女人故事 浏览 1738

记者:米兰正在和布莱顿谈判,尝试纯租借引进科波拉

懂球帝 浏览 1657
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1