关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2713人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

海尔集团与蚂蚁集团签署全面战略合作协议 聚焦数字支付与医疗健康

财闻 浏览 2922

大衣+阔腿裤:今年冬天最经典搭配,松弛又时髦!

LinkFashion 浏览 1984

2026年最火单品,竟然是一只20年前的机车包?

LinkFashion 浏览 1780

严屹宽老婆41岁生日,婆婆送杜若溪万元大红包

爱八卦的晓请 浏览 1452

特朗普失去耐心 给泽连斯基下最后通牒

华西都市报 浏览 7179

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

机器之心Pro 浏览 1459

俄朝站队怒批高市 特朗普迅速与日切割中方警告很罕见

现代小青青慕慕 浏览 46784

来了!小鹏P7+增程版申报图现身

Nice好车 浏览 2927

92岁陶玉玲去世,身患3癌丧女又丧夫

疯说时尚 浏览 1691

Uber无人驾驶出租车Robotaxi在CES 2026首秀

IT之家 浏览 1788

医院人满为患 加沙患者焦急等待救治

国际在线 浏览 2467

琉球群岛地位未定中方在联合国亮明态度 日媒破防

头条爆料007 浏览 33660

TA:弗兰-加西亚本预计将外租樱桃,对皇马放弃交易感到失望

懂球帝 浏览 1445

状态不佳,阿森纳对阵森林上半场8脚射门0射正

懂球帝 浏览 1663

江一燕官宣离婚后首发声

扒虾侃娱 浏览 2656

陈乔恩老公首公开真实家境

小先生笔记 浏览 2621

英伟达能救英特尔吗?

华尔街见闻官方 浏览 3595

没有新显卡,但有AI狂欢!CES2026:高通、英特尔、AMD 齐放大招

雷科技 浏览 1727

乌外长公布无人机从匈牙利进入路线 匈外长否认

环球网资讯 浏览 3266

4680电池的大饼,马斯克不想画了

远川科技评论 浏览 1680

AI 接管手机这事儿,豆包能干成么?

钛媒体APP 浏览 2226
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1