关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro2719人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

买买买！招商银行，被四度举牌！

券商中国浏览 1774

上海女子＂喊冤＂汽车压上石头爆胎无人赔偿网友吵翻了

环球网资讯浏览 7526

从万人偶像到幕后导演：赖冠霖的叛逆转身，撕开了内娱多少虚假？

黄色的泥土浏览 1656

精彩推荐

柬埔寨拒引渡3名韩国籍＂杀猪盘＂头目回韩国：就地审判

红星新闻浏览 8105

美澳关键矿产协议被解读为旨在＂对抗中国＂外交部回应

澎湃新闻浏览 7008

羽绒服+阔腿裤：今年冬天最火搭配，松弛又时髦！

LinkFashion 浏览 1690

足协官宣 45岁邵佳一出任国足新主帅

央视新闻客户端浏览 14821

何赛飞年初二下海岛拜年，圈外老公罕出镜

小徐讲八卦浏览 1049

安琪酵母投15亿元补产能缺口

北京商报浏览 2378

伊姐周日热推：电视剧《生命树》；电视剧《风过留痕》......

伊周潮流浏览 1496

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻浏览 12085

“毛衣+豆腐裤”绝美！冬天就该这么穿！

Yuki女人故事浏览 2234

陈道明主演！36集谍战剧来袭，是《沉默的荣耀》后我唯一想追的剧

娱乐圈笔娱君浏览 2768

预售11.28万起狐全新阿尔法S5标配宁德时代

网易汽车浏览 928

哈马斯呼吁落实加沙停火协议要求确保拉法口岸双向开放

极目新闻浏览 2271

增重三十斤拿下影帝，男演员多一位“橡皮人”，他几斤几两？

仙女事件簿浏览 2696

工行、建行：暂停办理投资金部分业务

央视财经浏览 2609

55岁郑丽文当选国民党主席其被视为＂非典型国民党人＂

中国青年报浏览 6400

加速进化抢单“双11”

北京商报浏览 2635

小伙夜骑疑与黄麂相撞小伙断了2根骨头黄麂仍在救治

极目新闻浏览 7210

打破垄断，利润狂飙200%，机器人独角兽，一骑绝尘！

飞鲸投研浏览 749

唐嫣罗晋离婚？她的状态早就说明一切

隔壁灵妹妹浏览 2510

法媒：美国将德国最大贸易伙伴地位拱手让给中国

参考消息浏览 7554

阿迪达斯是雪中飞生产，可你买的雪中飞不一定是雪中飞生产的

红星资本局浏览 2704

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1