关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2584人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

知名策略师预警:美股“聪明钱”已离场看戏,找不到值得买的票

财通社 浏览 2423

她用整整十二年,打捞出鲜活的大师影迹

幕味儿 浏览 2199

打破场景界限,波司登与Kim Jones的合作让冬天更体面

时尚COSMO 浏览 2166

韩国强硬批驳高市"独岛"言论 韩媒:其触碰两国间雷区

环球网资讯 浏览 7098

大众汽车营收微降却亏麻了,利润腰斩暴跌53.5%!

财视传播 浏览 772

马卡:赫伊森在高强度比赛中表现糟糕,他需要提升防守硬度

懂球帝 浏览 2606

硅谷的「十万大裁员」:Meta按代码量裁员

新智元 浏览 2695

事关乌克兰 美英法德四国领导人通话

每日经济新闻 浏览 6447

“躺赚”的企查查,是个苦生意?

定焦One 浏览 2890

内娱清流!这4位女星从不拍“吻戏”

喜欢历史的阿繁 浏览 3271

媒体:欧洲在委主权问题上"选择性失语" 很快遭遇反噬

极目新闻 浏览 12208

郑丽文就任国民党主席 曾喊"让台湾人自豪说是中国人"

环球时报新闻 浏览 13598

美防长称外国要在美国本土建军事基地 惹怒特朗普拥趸

新民周刊 浏览 5772

睡衣穿对了,连躺平都带着高级感

时尚COSMO 浏览 1427

杜锋:希望大家能保持整场的强度,为年轻球员登场争取机会

懂球帝 浏览 1512

俄总统新闻秘书:北约在与俄罗斯作战

新京报 浏览 3499

第一阶段加沙停火协议正式生效

界面新闻 浏览 2977

林允儿新剧遭官媒批评!本人社媒喊话我喜欢,来中国捞金还挑衅

萌神木木 浏览 3023

8亿买入5%股份!四川国资战略入股湖南百亿锂电龙头,标的前三季度净利大增118.85%

红星资本局 浏览 2642

Meta收购曾火爆一时的AI智能体社交网络Moltbook

IT之家 浏览 736

计划3年完成200个AI项目 川影联动人工智能协会打造“AI影视工业梦工厂”

封面新闻 浏览 2918
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1