关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2704人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梅德维德夫晋级中网男单八强

体坛周报 浏览 3332

Qwen登顶AI赚钱大赛只是开始?“弃GPT投Qwen”已在硅谷蔓延开来

硅星人 浏览 2651

再现巨额压单!A股跳水,官媒给“题材炒作”降温,商业航天跌停潮

看财经show 浏览 1539

咖啡万店新王诞生:挪瓦如何以“寄生模式”隐秘扩张?

虎嗅APP 浏览 2033

杜兰特谈28年洛杉矶奥运会:很乐意参加,必须保持高水平状态

懂球帝 浏览 1025

配置升级 2026款雷克萨斯LS官图正式发布

车质网 浏览 2763

304万辆库存压顶,汽车经销商的生死转型!

百姓评车 浏览 2712

怒摔球拍被拍下!高芙不满澳网直播:我们一点隐私都没有了

全景体育V 浏览 1558

“史上最长”春节点燃旅游热情 已有心急旅客下单

新京报 浏览 7856

ByteDance最新发布:一个能从任意数量图像重建3D世界的神奇模型

科技行者 浏览 1642

四川舰海试中方捷报频传 美破防咬定中国有8艘"航母"

空天力量 浏览 32440

电商助力 四川会东石榴从深山走向全国市场

封面新闻 浏览 3435

埃迪-豪:弗兰克的球队无球时很有侵略性;英联杯对我们很重要

懂球帝 浏览 2585

外媒发布本田全新一代2027款思域预想图,比以往更高级!

老爷车 浏览 3360

照赫本这样穿,灰色很时髦!

Yuki女人故事 浏览 1668

王家卫持续被扒!《东邪西毒》事件推锅临时工

boss外传 浏览 2467

宁波网友投诉到理发店理发被诱导消费:1次花了6万元

潇湘晨报 浏览 6929

“恐龙院士”徐星:在朝阳,孩子们可以近距离与化石对话

新华社 浏览 2964

英超积分榜:热刺伯恩茅斯分列二、三 狼队全败 维拉西汉姆5轮3分

直播吧 浏览 3059

为避免与白宫格斗冠军赛冲突 法国推迟举行G7峰会

环球网资讯 浏览 7227

华为智慧屏新品MateTV Max今日预售,110英寸64999元

IT之家 浏览 2316
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1