关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1071人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

韩国约2成网吧关门挖比特币,每日收入远高于正常营业水平

趣看热点 浏览 215689

小S复出拿奖瞬间泪崩,多次提及姐姐大S求保佑

萌神木木 浏览 862

国际化野心不减?信达生物拿下巨额BD,总额114亿美元创纪录,股价不涨反跌

时代周报 浏览 894

天啊!看到林志玲和小13岁刘亦菲同框,才懂王晶为啥说她很一般了

温柔娱公子 浏览 634

谁能想到!2024年以来尼克斯拿下8胜 与爵士并列联盟最多!

直播吧 浏览 12796

陆家嘴论坛,金融大佬们都讲了什么?

香帅的金融江湖 浏览 16127

有媒体称苏罗维金提前知悉瓦格纳行动 克宫:这是谣言

参考消息 浏览 15497

职场“关系户”还值得羡慕吗?

识局 浏览 907

E句话| 在西藏办烟花秀的品牌已道歉?

仙女事件簿 浏览 1547

苹果公司在印度反垄断案中可能面临高达380亿美元罚款

华尔街见闻官方 浏览 351

中国刚买完美国玉米特朗普就立马变脸 摆了中方一道

策略述 浏览 5587

杨钰莹造型好新潮:上半身约会,下半身跑步

木子爱娱乐大号 浏览 19623

男子跑朋友房间找烟在床底摸到1只冰手 掀开床板懵了

社会奇闻君 浏览 117750

朱丹晒照为周一围庆生 一双儿女出镜

娱絮 浏览 14370

登陆中超?海港绯闻外援茹萨发文告别克鲁塞罗,结束租借之旅

懂球帝 浏览 12529

今年冬天最火搭配:毛衣+毛衣,放松穿更好看!

LinkFashion 浏览 345

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 759

韩版Galaxy S26独享,三星Exynos 2600芯片被曝难以走向全球

IT之家 浏览 169

性能提升/专属外观配色 奥迪RS 4纪念版官图发布

网易汽车 浏览 11298

巴西永久撤回驻以大使

新京报政事儿 浏览 10852

陈道明被王家卫说他是阴阳同体的极品

包饺子ai剪辑 浏览 690
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1