关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1085人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

太不容易了!勇士险胜篮网后 库里高举双手振臂怒吼

直播吧 浏览 12778

马克龙呼吁以色列避免局势升级 "特别是在黎巴嫩"

环球网资讯 浏览 13004

今年秋冬最美的搭配:毛衣+裙子,减龄又气质!

LinkFashion 浏览 946

一个月了,怎么还在骂啊?

麻辣婊 浏览 791

何超莲评论区沦陷!跟窦骁结婚后态度变化大,遭讨伐骗婚功利心重

萌神木木 浏览 971

开启电动新时代 新一代日产Skyline前瞻解析

一猫说车 浏览 12235

不止镜头、手柄,OPPO 推出“行业首款”哈苏专业磁吸闪补光环灯

IT之家 浏览 987

币圈大佬的重生:特朗普特赦赵长鹏

节点财经 浏览 853

冬天不管是羽绒服还是大衣,推荐过膝款!

静儿时尚达人 浏览 13298

月销破7万台!汽车圈外行朱江明,成新势力大赢家

象视汽车 浏览 558

全球首次!万元相机置换OPPO Find X9 Pro:OPPO最高补贴1400元

快科技 浏览 985

卢拉将率超大代表团访华 专家:他历来有友华情结

环球网资讯 浏览 19380

库里:我不怕投关键球 基于我付出的努力我应该得到信任

直播吧 浏览 14801

辽宁三任省公安厅长贪腐致大面积腐败 43名干部被查处

中国新闻周刊 浏览 74833

河南队主帅:球员在很疲劳的情况下拼尽全力,很可惜未能取得胜利

直播吧 浏览 18528

李想:去年被打残后我们曾全面学华为,提前停产理想ONE赔偿了10亿

界面新闻 浏览 16053

“龙茅”开售!抢到就赚5000元?

中新经纬 浏览 12526

“这条围巾”才是今年的顶流单品,时髦的女人都有它

LinkFashion 浏览 691

谷歌将在开发者大会上发布PaLM 2 展示创意写作和编码能力

网易科技报道 浏览 18293

宋仲基携妻游罗马全程牵手 凯蒂产期将至身材仍好

扒虾侃娱 浏览 16721

五旬老人上综艺,有时候比年轻人更有看点。

伊周潮流 浏览 954
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1