关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3015人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

告别臃肿！这种简约的高级穿法，别拒绝

Yuki女人故事浏览 1656

媒体：爱泼斯坦案2000段视频公布震碎三观突破下限

北京日报客户端浏览 6004

斯塔默将访华：不学卡尼中英关系不会激怒特朗普

澎湃新闻浏览 5495

精彩推荐

上海交大突破：AI精准学习人类审美偏好

科技行者浏览 2525

小个子秋季穿搭指南！7件单品穿出大长腿，显高10cm

Yuki女人故事浏览 4499

特朗普：将对任何涉嫌向美＂走私毒品＂的国家实施打击

每日经济新闻浏览 2255

特朗普被指非常重视＂和平峰会＂以色列哈马斯或不参加

环球网资讯浏览 6679

TA：从多纳鲁马到塞门约，瓜帅的足球风格已从控球转变为反击

懂球帝浏览 1768

梁靖崑：和老婆秀恩爱被围观！

冷峻视角下的世界浏览 1722

L4级自动驾驶到来之际，奔驰还要继续领先

汽车公社浏览 2004

图宾根大学等机构突破：AI实现模块化人体动作分解与合成

科技行者浏览 1491

齐溪自曝二胎是女儿，二胎已经满一岁了，41岁生二胎原因好暖心

扒虾侃娱浏览 2849

预计年内发布奔驰GLC EV内饰谍照曝光

车质网浏览 1781

媒体：野田佳彦看到机会要对高市下手高市有可能下台

新民周刊浏览 5884

郑中基疑似新恋情，和异性现身游乐场

素素娱乐浏览 1090

北约启动今年最大规模军演美国未参与

看看新闻Knews 浏览 1492

美联储主席最热人选哈塞特：CPI报告好得令人震惊，美联储有很大空间可以降息

华尔街见闻官方浏览 2249

见证历史！深夜，全线爆发！

券商中国浏览 3479

我们为什么需要节日穿搭？

时尚COSMO 浏览 1467

慕尼黑车展折射中欧车企博弈

盖世汽车浏览 3611

美突袭委内瑞拉动用神秘武器：委士兵跪倒在地吐血

扬子晚报浏览 13363

工业与人形机器人蓬勃发展稀土需求有望迎来几何级增长

金证研浏览 2912

多只宠物中毒死亡11人提起刑附民诉讼投毒者获刑4年

红星新闻浏览 7019

瓜帅：维拉一直是最难对付的对手；多库的1对1能力让他很特别

懂球帝浏览 2685

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1