关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro3005人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

民营航天新年首战告捷：星河动力谷神星一号海上成功发射四星入轨

澎湃新闻浏览 1665

浙江稠州商业银行“共享法庭”实践，获评消费者权益保护领航企业

Daily每日财报浏览 1866

搭载雷神AI电混2.0技术吉利银河星耀7申报信息发布

网易汽车浏览 2888

精彩推荐

又一个汽车新品牌要来了，背靠五菱，首款车型微型车

汽车公告板浏览 3533

明略科技通过聆讯：上半年营收6.4亿，经调整利润转正腾讯是股东

雷递浏览 2896

青甘大环线有老外开敞篷老爷车行驶有1955款劳斯莱斯

极目新闻浏览 3897

日本平台征集＂批评中国＂视频每条180元日本网民炸锅

极目新闻浏览 13052

《数据周报97》：房地产何去何从？参考美日经验

智本社浏览 1670

＂民营船王＂33亿元入主杉杉继母长子内斗2年双双出局

都市快报橙柿互动浏览 2874

伊朗：若油气设施遭袭将摧毁地区所有国家油气设施

红星新闻浏览 39623

芯片圈“大佬”IPO梦碎，牵出千万受贿案！

野马财经浏览 2788

前TVB男星回应拒演电影《寻秦记》传闻

TVB剧评社浏览 1643

中国被指与伊朗接近达成超音速导弹采购协议外交部回应

澎湃新闻浏览 881

推广 || 断舍离N次也不会断了它，买过最值的冬日单品之一

黎贝卡的异想世界浏览 2526

梦天家居紧急刹车

富凯财经浏览 1629

技术路线图3.0，中国汽车2040年这么干

帮宁工作室浏览 2598

《赴山海》：唐方父亲一直躲在幕后，身份应该很不简单！

柳缘阁主浏览 3033

美媒：美正向中东增派包括航母在内的兵力

界面新闻浏览 1667

2025世界最大主题词“：站队”和“选择”

3天6个瓜！鲜肉出轨，男星离婚，个个离谱

霁寒飘雪浏览 2746

全锦赛：江苏女篮40分狂胜山东晋级决赛马文20分罗欣棫14+7

醉卧浮生浏览 2832

KAIST团队突破视频生成瓶颈：让AI学会＂自我反思＂修正动作错误

科技行者浏览 1599

秋季穿衣别太复杂，提前准备好这几件单品，百搭经典又不挑人

静儿时尚达人浏览 2871

小鹏汽车2025年全年交付量达429,445台同比增长126%

网易汽车浏览 1879

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1