关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro829人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今夏就要穿“ 豆腐鞋 ”,巨火巨显腿长 !

In风尚 浏览 15691

媒体:美国曾用F-15击落自家MQ-9"死神"无人机

极目新闻 浏览 19245

全国政协会议议程来了

新华视点 浏览 26235

奶茶冲泡巨头香飘飘“突围”:首家线下茶饮店将开业,曾多次试水快闪店

红星资本局 浏览 851

丹麦培训乌飞行员驾驶F-16

参考消息 浏览 15682

券商三季度660亿持仓出炉!香农芯创等35股持股市值超3亿元!

私募排排网 浏览 708

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文

量子位 浏览 316

乌高官声称“已将英国导弹用于打击俄腹地目标”

参考消息 浏览 10705

二封奥斯卡影后!艾玛·斯通获得最佳女主角

网易娱乐 浏览 12212

53岁约旦最美王后 衣品堪称“中东戴安娜”?

商务范 浏览 17186

迪士尼被曝将继续裁员4000人,2月宣布公司战略重组

澎湃新闻 浏览 19026

你的新年战袍准备了么?快来看看“红色大衣”的搭配

静儿时尚达人 浏览 13260

梁洛施携家人聚餐,14岁大儿子正脸曝光像李泽楷

青芳草 浏览 15336

还能复活?某上海新势力公司宣布预重整

汽车工程师 浏览 342

狄莺称孙安佐在泰国被下蛊,已送往精神病院,孙鹏救儿子

素素娱乐 浏览 11034

康利:赛程&客场&生病等因素让我们处境困难 但我们正努力摆脱

直播吧 浏览 12645

版博会观察:冰箱贴凭啥成文创顶流?AI+版权如何焕新意?

南方都市报 浏览 948

向佐出手了!抓到模仿向太的网红 送麻袋石头吓人

我是晚伯伯 浏览 13697

特斯拉 Model Y L 交流外供电适配器上架,售价 599 元

IT之家 浏览 632

中美科技角力20年:从山寨王国到弯道超车

字母榜 浏览 18044

一瓶丝瓜水在拼多多卖出270万件!国货护肤品用十九年,写下不涨价的承诺

华商网 浏览 672
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1