关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2581人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一句话点评9月纯电车型:小米YU7反超SU7,下一步追赶Model Y?

汽车公社 浏览 2833

特朗普:多名美高官将参与在委事务 最终由我负责

鲁中晨报 浏览 5185

德国Mindfactory平台数据:AMD处理器周销量是英特尔10倍多

IT之家 浏览 2298

比利亚雷亚尔vs阿拉维斯:阿约塞-佩雷斯、帕雷霍首发,阿莱尼亚、洪尼-奥托出战

懂球帝 浏览 1730

麻省理工学院发明“可注射”脑机芯片,有潜力用于治疗老年痴呆症

IT之家 浏览 2379

美澳关键矿产协议被解读为旨在"对抗中国" 外交部回应

澎湃新闻 浏览 6997

马杜罗出庭:站立姿势被指有对抗意味 钢笔被法警夺走

澎湃新闻 浏览 5282

张嘉倪带俩儿子迪士尼跨年,穿貂皮大衣好贵气

老吴教育课堂 浏览 1907

沃尔沃中国未来姓沃还是姓吉?

禾颜阅车 浏览 2918

新华保险首个中资产康养旅居社区落地开启旅居养老新范式

经理人杂志 浏览 2598

浙江广东会师全运男篮决赛,辽宁四川将争夺铜牌

懂球帝 浏览 2650

泽连斯基称俄乌冲突正接近结束 克宫回应乌方矛盾表态

环球网资讯 浏览 2721

黄金越涨越买?这届年轻人心态变得太快了

说财猫 浏览 2782

波罗的海三国正式退出《渥太华禁雷公约》

上观新闻 浏览 1896

里沙利松:踢日本要展现出与踢韩国一样的强度

懂球帝 浏览 2874

失业13个月 35岁巴神官宣登陆西亚2级联赛 已换13队+10年转会10次

我爱英超 浏览 1610

独立研究者破解扩散模型的最佳预测目标之谜

科技行者 浏览 1418

伊姐十一热推:电影《江南:在爱开始的地方等你》;电视剧《围猎》......

伊周潮流 浏览 2412

11国做出选择后特朗普喊话"中国将服软" 高市处境堪忧

胥言 浏览 7338

华语乐坛,困在怀旧里

虎嗅APP 浏览 2037

镁信健康将亮相第八届进博会,发布三大产业级AI应用方案|进距离

上观新闻 浏览 2603
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1