关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro865人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

我国新一代人造太阳首次放电,未来能源体系建设又走出新一步

趣看热点 浏览 26175

11月7日正式预售 零跑Lafa5将于广州车展上市

网易汽车 浏览 806

费曼晒与贝儿聊天截屏!称贝儿大歌星,9年友情深

柒佰娱 浏览 19312

第37届电影百花奖来了,看完提名名单,我要说:内娱影坛要完了!

娱乐圈笔娱君 浏览 10784

马斯克:下周将在X平台上直播特斯拉FSD驾驶系统V12版本

IT之家 浏览 14272

汪小菲又有新恋情?被拍与美女挽手逛街亲密无间

阳光八卦君 浏览 18361

凌晨3点45 德国复仇战!赢球=晋级世界杯+种子队 首发曝光

叶青足球世界 浏览 558

美国国会最新AI规则:除付费版ChatGPT外 不得使用其他产品

财联社 浏览 15163

美记赞穆雷从水拉变萌神!波普:他是关键先生 洛瑞也被其打服

颜小白的篮球梦 浏览 16662

耶伦:美国经济已实现软着陆 悲观情绪是毫无依据的

财联社 浏览 73926

这谁能想到!能伸手“救”日产汽车一把的,会是比亚迪

小李车评李建红 浏览 781

顺鑫农业再度拆“房”:上市25年来首度亏损后,甩“包袱”决心更坚决了

蓝鲸财经 浏览 15423

越野爱好者有福了,福特烈马正式首发

天天汽车 浏览 12695

酿酒入列历史经典产业,郎酒的“慢功夫”见真章

征探财经 浏览 682

巴黎时装周|来看,全世界最美的衣服

LinkFashion 浏览 996

若看懂英伟达,5年前愿意用茅台换!段永平持仓曝光:猛砍英伟达

金石随笔 浏览 555

甄子丹称约杨紫琼庆功要排队 合作可能排到30年后

网易娱乐 浏览 20000

胡润榜财富增长较快的雷军李书福,每分钟净赚37万和15万?

BT财经 浏览 666

男子被疑出轨,老婆在线求李若彤帮捉奸,本尊回复

盖饭娱乐官方号 浏览 18369

网红拍不雅视频发家族群 还在西湖边拦阻路人给其观看

都市快报橙柿互动 浏览 1009

突发!雪松控股张某被抓

说财猫 浏览 18549
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1