关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2717人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

山西103-77大胜同曦取4连胜,诺威尔20+6,郭昊文23分

懂球帝 浏览 1988

4999元起!荣耀三箭齐发:Air旗舰要从小屏卷向超轻薄赛道?

雷科技 浏览 1659

高管减持、股东跑路、产品爆炸:上市公司的“中年危机”

诗与星空 浏览 2808

那不勒斯旧将克罗尔:那不勒斯有卫冕意甲实力,略微领先国米

懂球帝 浏览 1951

量子位「MEET2026智能未来大会」启动!年度榜单征集中

量子位 浏览 2928

腾讯元宝回应AI辱骂用户:小概率下的模型异常输出

中新经纬 浏览 1425

全球销冠 比亚迪2025年纯电车型销量超越特斯拉

小号撩车 浏览 1740

基本半导体递交赴港IPO申请

证券时报 浏览 2154

小鹏将推出长途增程混合动力X9,单次续航1600公里

MOTO 浏览 3644

冬天还是“羽绒服”最保暖!看看这些穿搭,简单舒适又不老气

静儿时尚达人 浏览 1478

加油枪喷油导致男子严重烧伤 加油站:不存在任何过错

大风新闻 浏览 20827

马斯克xAI污水处理厂破土动工,每年可为孟菲斯节约近190亿升水

IT之家 浏览 2961

华为坤灵中国行首站落地上海,助力中小企业智能化跃升

上观新闻 浏览 2215

东风日产N6最新申报图曝光:选装轮圈与红色卡钳

网易汽车 浏览 2883

泽连斯基新年致辞:不要"乌克兰的终结"

中国经济网 浏览 1874

鲁杰里:西蒙尼和加帅有共通之处;我们有效限制了国米的发挥

懂球帝 浏览 2260

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 20274

《小城大事》大结局:李秋萍和杜涛的缘,在月海续写上且圆满

肆季娱乐 浏览 1695

黑吃黑!骗走全球36亿的“币圈割王”,被精准猎杀

大猫财经Pro 浏览 2115

美联储主席最热人选哈塞特:CPI报告好得令人震惊,美联储有很大空间可以降息

华尔街见闻官方 浏览 2254

球迷态度:颜王刘三人均已34+,李昊今年能否接班国足一门?

懂球帝 浏览 1682
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1