关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2719人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

柬埔寨拒引渡3名韩国籍"杀猪盘"头目回韩国:就地审判

红星新闻 浏览 8105

美澳关键矿产协议被解读为旨在"对抗中国" 外交部回应

澎湃新闻 浏览 7008

羽绒服+阔腿裤:今年冬天最火搭配,松弛又时髦!

LinkFashion 浏览 1690

足协官宣 45岁邵佳一出任国足新主帅

央视新闻客户端 浏览 14821

何赛飞年初二下海岛拜年,圈外老公罕出镜

小徐讲八卦 浏览 1049

安琪酵母投15亿元补产能缺口

北京商报 浏览 2378

伊姐周日热推:电视剧《生命树》;电视剧《风过留痕》......

伊周潮流 浏览 1496

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻 浏览 12085

“毛衣+豆腐裤”绝美!冬天就该这么穿!

Yuki女人故事 浏览 2234

陈道明主演!36集谍战剧来袭,是《沉默的荣耀》后我唯一想追的剧

娱乐圈笔娱君 浏览 2768

预售11.28万起 狐全新阿尔法S5标配宁德时代

网易汽车 浏览 928

哈马斯呼吁落实加沙停火协议 要求确保拉法口岸双向开放

极目新闻 浏览 2271

增重三十斤拿下影帝,男演员多一位“橡皮人”,他几斤几两?

仙女事件簿 浏览 2696

工行、建行:暂停办理投资金部分业务

央视财经 浏览 2609

55岁郑丽文当选国民党主席 其被视为"非典型国民党人"

中国青年报 浏览 6400

加速进化抢单“双11”

北京商报 浏览 2635

小伙夜骑疑与黄麂相撞 小伙断了2根骨头黄麂仍在救治

极目新闻 浏览 7210

打破垄断,利润狂飙200%,机器人独角兽,一骑绝尘!

飞鲸投研 浏览 749

唐嫣罗晋离婚?她的状态早就说明一切

隔壁灵妹妹 浏览 2510

法媒:美国将德国最大贸易伙伴地位拱手让给中国

参考消息 浏览 7554

阿迪达斯是雪中飞生产,可你买的雪中飞不一定是雪中飞生产的

红星资本局 浏览 2704
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1