华东师大&东华大学 投稿量子位 | 公众号 QbitAI迪士尼彩乐园最新 火,Agent可太火了!对于Agent的进展俯拾皆是,根柢看不外来…… 看过来——这篇综述可能能帮你厘清好多问题: 来自华东师大和东华大学的辩论团队发表了“A Survey on the Optimization of Large Language Model-based Agents(大模子智能体的优化步调综述)”,初次从系统化视角对LLM智能体优化计策进行了全面梳理与分析。 论文将将现存步调离别为两大类:参数驱动的优化与参数无关的优化。 前者包括基于监督微调、强化学习(如PPO、DPO)以及微调与RL归拢的混测度策,重心接头了轨迹数据构建、奖励函数联想、优化算法等关节模块。 后者则触及通过Prompt工程、外部器具调用、学问检索等神情在不修改模子参数的前提下优化Agent举止。  除此除外,作家们还整理了主流的Agent微调与评估数据集,纪念了LLM Agent在医疗、科学、金融、编程等多个应用领域的代表性实践。 终末,辩论团队总结了Agent现时边临的关节挑战与未来辩论倡导。  为什么咱们需要专诚优化LLM智能体? 连年来,跟着GPT-4、PaLM和DeepSeek等大型讲话模子不仅在讲话意会和生成上进展出色,更在推理、筹备和复杂决议等方面展现出不凡的才智。 因此,越来越多的辩论者入手尝试将LLM手脚智能体来使用,探索其在自动决议和通用东说念主工智能倡导的后劲。 与传统的强化学习智能体不同,LLM智能体不依赖显式的奖励函数,而是通过当然讲话指示、Prompt模板与荆棘体裁习(ICL)完成复杂任务。 这种“文本驱动”的智能体范式展现出极高的机动性与泛化才智,约略跨任务意会东说念主类意图、实践多法子操作,并在动态环境中作念出决议。 现时,辩论者已尝试通过任务理解、自我反想、顾虑增强以及多智能体互助等神情擢升其进展,应用场景涵盖软件拓荒、数学推理、具身智能、网页导航等多个领域。 值得细心的是,LLM自身的锤真金不怕火倡导是展望下一个token,并非为长久筹备和交互学习的Agent任务而生。 这也导致了LLM手脚Agent的部分挑战: 长程筹备与多步推理才智不及,容易在复杂任务中出现辘集空虚;短缺执续性顾虑机制,难以基于历史教授进行反想与优化;对新环境的妥贴才智有限,难以动态应酬变化场景。 尤其是开源LLM在agent任务中的进展精深过期于GPT-4等闭源模子,而闭源模子的高老本与不透明性,也使得优化开源LLM以擢升Agent才智成为现时辩论的关节需求。 现时已有的综述要么聚焦于大模子优化自身,要么只接头agent的局部才智(如筹备、顾虑或变装上演),并未将“LLM智能体优化”手脚一个独处且系统的辩论倡导进行深化磋议。 辩论团队填补了这一空缺,初次以“LLM-based Agent的优化时刻”为中枢议题张开系统综述,构建颐养框架,归纳步调旅途,并对比不同时刻的优劣与适用情境。 参数驱动的LLM智能体优化 在参数驱动的LLM优化中,作家将其分为3个倡导。 基于惯例微调的优化 第一个倡导,基于惯例微调的优化。 又分为2大法子:构建Agent任务的高质料轨迹数据——用轨迹微调Agent。  最初是数据得回与生成。 高质料的轨迹数据构建入手于启动数据的得回和生成,这不仅需要一组种种化的轨迹,还需要与倡导任务充分对王人,以确保灵验的学习。 作家将主流步调归纳为以下四类: 民众标注数据:由东说念主类民众手工联想,质料高、对王人强,是微调的黄金程序。但东说念主力老本高、难以膨胀,常手脚优质补凑数据使用。强LLM自动生成数据:诓骗GPT-4等大模子归拢ReAct、CoT计策生成轨迹,效力高、得当大范围构建。但数据依赖大模子,存在老本高、偏差传播等问题。Agent自主探索数据:通过开源模子自主与环境交互生成轨迹,老本低、可解脱闭源依赖。纰谬是探索才智有限,需配合后续筛选机制去除低质数据。多智能体互助生成数据:通过多个Agent协同完成复杂任务过程,擢升数据种种性与交互复杂度。但系统联想更复杂,踏实性和资源老本亦然挑战。 其次,数据的评估与过滤。 由于生成的轨迹数据质料杂沓不王人,对数据进行评估和筛选成为不能或缺的一步。 作家将主流步调归纳为三类: 基于环境的评估:这类步调依靠任务是否到手、环境奖励等外部反应来判断轨迹质料,易于终了,自动化进度高。但纰谬是反应信号过于粗粒度,只温雅最终扫尾,无法发现推理链条中的隐性空虚。基于东说念主工或规定的评估:通过预设规定(如任务完成度、谜底一致性、种种性等)或民众东说念主工审核,对数据进行更精细的质料限定。适配性强、准确性高,但也需要精深东说念主工参与与复杂联想。基于模子的评估:借助矍铄的LLM(如GPT-4)对轨迹进行自动打分与分析,能从关系性、准确性、圆善性等维度进行多层评估,构建自动化质料评估框架。纰谬在于,评估自身依赖模子,可能引入新的偏差。 接着是低质料样本的诓骗。 除了高质料的得回,对不对格的低质料轨迹也需要再次诓骗。 现在的主流计策包括: 对比式诓骗:通过对比正确与空虚样本,让模子更了了地识别哪些举止是灵验的。空虚修正型步调:识别并修正失败轨迹,将其转动为可学习的数据,擢升锤真金不怕火质料。获胜诓骗空虚样本:不作念修正,获胜用失败案例锤真金不怕火模子,擢升其靠近空虚情境时的容错性。 完成高质料轨迹数据构建后,下一步便是关节的微调阶段。 通过微调,让路源大模子简直妥贴Agent任务,学会筹备、推理与交互,是优化LLM智能体不能或缺的一步。 值得细心的是,仅用Agent任务轨迹微调可能会大肆LLM的通用才智。 因此,大多责任采取搀和通用指示数据与Agent轨迹共同锤真金不怕火,以在保留讲话基础才智的同期,擢升Agent实践才智。 作家将现存的微调步调离别为三大类: 程序SFT:最常见的步调,通过高质料指示-输出对或轨迹数据,对模子进行全参数优化,最能对王人倡导任务。此外,师法学习中的举止克隆施行上也属于这一类,强调从民众轨迹中学习决议计策。参数高效微调(如LoRA/QLoRA):只更新极少参数,其余权重保执不动,权臣裁汰显存与算力支出,在大模子Agent微调中尤为常见。比拟全量微调,固然锤真金不怕火支出更小,但性能常常可忘形以致逾越自界说微调计策:为特定任务联想的微调步调,举例将通用指示与轨迹数据搀和锤真金不怕火,或引入独特不竭项(如正则化)擢升泛化与踏实性。这类步调更具机动性,得当复杂或稀缺任务场景。  基于强化学习的优化 比拟于传统的微调神情,强化学习为Agent带来了更具主动性的学习旅途。 它让模子不再仅仅“师法”,而是能在环境中探索举止、接颁奖励与贬责,动态移动计策,简直终了从试错中成长。 作家将现时RL优化神情分为:基于奖励函数的优化和基于偏好对王人的优化。  先说基于奖励函数的优化。 在强化学习优化中,奖励函数就像智能体的率领棒,迪士尼彩乐园官网人类指点模子连续转换计策。通过设定了了的“作念得好 vs 作念错了”程序,Agent不错从交互中学习得更精细、更持重。 作家将现时哨法按照三类奖励起原离别3类: 基于环境的奖励:获胜依据任务是否完成来打分,简便直不雅,自动化进度高。但常常只温雅最终扫尾,忽略了中间法子的质料。基于模子的奖励:由LLM或接济模子对轨迹进行评估,适用于环境反应稀少的场景,能提供更考究的反应。但扫尾取决于评估模子的质料。自界说奖励函数:辩论者凭证任务需求自设多维度奖励,不仅观望完成度,也温雅计策踏实性、互助效力等。机动矍铄,但联想老本高、难以泛化。  再来看基于偏好对王人的优化。 比拟传统RL基于奖励函数的锤真金不怕火神情,偏好对王人提供了更获胜、更轻量的优化旅途。 它不再依赖繁琐的奖励建模,而是让Agent学会“哪种举止更受东说念主类接待”。 其代表步调是DPO,一种更简便的离线强化学习神情,获胜通过东说念主类或民众的偏好对样本进行“正负对比”锤真金不怕火。 凭证主要偏好数据起原,作家将其这类优化步调分为两类: 民众/东说念主工偏好数:基于民众示范或东说念主类标注构造正负样本(优质 vs 空虚轨迹),质料高但难以大范围膨胀,遮蔽面有限。任务或环境反应:从任务进展(到手率、分数等)中自动构建偏好对,适用于动态任务场景,但依赖反应机制合理的联想。  综合来看,偏好对王人步调锤真金不怕火高效、部署简便,但强依赖偏好数据质料与遮蔽范围,得当结构明确、反应了了的任务场景。 而奖励函数类步调更适配复杂多变的环境,但老本更高。 搀和参数微调步调 单一的优化步调各有短板——惯例微调踏实高效但短缺动态应变才智,RL机动矍铄却筹备支出弘大。 于是,越来越多辩论入手探索搀和微调计策,归拢两者优点,构建更矍铄的LLM智能体。 这类责任东要为: 第一,递次式两阶段锤真金不怕火。 这亦然是现时的主流步调,袭取“先SFT、后RL”的想路。 阶段一:举止克隆微调(SFT),用民众轨迹或策展数据预锤真金不怕火模子,奠定基础才智;阶段二:强化学习优化(PPO / DPO),针对环境或偏好精调模子计策。 第二,轮换优化。 即引入迭代轮换机制,在SFT和RL之间多轮往来切换,以终了细粒度擢升。 参数无关的LLM智能体优化 比拟参数微调,参数无关的优化步调不触及模子权重更新,而是通过移动Prompt、荆棘文和外部信息结构,在资源受限或轻量部署场景中展现出矍铄后劲。 作家将其分为五类核情绪策: 第一类,基于教授的优化。 通过顾虑模块或历史轨迹,让Agent“学会复盘”,从当年到手与失败中提取计策,增强长久妥贴性。 第二类,基于反应的优化。 Agent通过自我反想或外部评估连续修正举止,造成迭代闭环;还有步调通过元教导优化移动全局指示结构,擢升泛化才智。 第三类,基于器具的优化。 让Agent学会使用器具(如搜索、筹备器、API)以增强实践力。部分步调优化器具调用计策,部分则锤真金不怕火Agent构建更高效的任务-器具旅途。 第四类,基于RAG的优化。 归拢检索与生成,通过从数据库/学问库中及时得回音息增强推理过程,尤其得当学问密集型任务和变化快速的场景。 第五类,多Agent互助优化。 多个LLM Agent协同完成任务,通过变装单干、信息分享与反应机制终了1+1>2的协同智能。  参数无关优化,让LLM Agent在不动模子的前提下,变得更“灵巧”、更“妥贴”、也更“轻巧”。 数据集与基准 作家将数据和基准分为用于评估和微调的两个大类。 评估任务分为两类。 第一类,通用评估任务。 即按一般任务领域分类,如数学推理,问题推理(QA)任务,多模态任务,编程等。  第二类,多任务评估基准。 跨种种任务评估基于LLM的智能体,测试它们轮廓和妥贴不同领域的才智。  Agent微调数据集,则是针对Agent微调而悉心联想的数据,以提高LLM Agent在不同任务和环境中的才智。  应用 跟着优化步调的连续训练,基于LLM的智能体已在多个真的场景中崭露头角,徐徐从实验室走向施行应用:  挑战与未来倡导 数据偏差问题。 12月24日,中关村朝阳园“数链匠心”赋能计划在北京市朝阳区发布。 12月23日晚上8点多,房山蓝天救援队接到一通求救电话:“我朋友一个人去爬山了,他下午4点的时候给我打电话,说如果晚上8点不给我发信息,就让我打房山蓝天救援队的电话。” “爬的哪个山?几点上的山?走的哪条线路?”面对蓝天救援队员的询问,电话那头的求助者连连表示不清楚,队员们让其再仔细想想,这位求助者思索了一会,终于想起来自己朋友曾提到要爬的野山的名字。 Agent高度依赖数据质料,但是预锤真金不怕火数据与微调轨迹散播不匹配,再加上LLM自身生成与评估带来的潜在偏差,易导致性能不踏实。 未来可探索偏差测试、抵挡锤真金不怕火、学问鸿沟评估等步调,构建更持重的数据基础。 算法效力与妥贴性。 现时强化学习与微调步调在靠近稀少奖励、大动作空间、多步交互时存在老本高、扫尾差的问题。 如何擢升DPO等轻量步调的多轮才智,或探索RL+SFT的搀和锤真金不怕火、元学习、自监督步调,将是未来重心。 跨任务跨领域转移难。 许多步调在单一任务上进展优秀,但在新环境或真的宇宙中易失效。 需要发展更强的泛化机制,如任务散播对王人、域妥贴、多任务聚拢锤真金不怕火等,擢升模子转移与妥贴才智。 短缺颐养评估程序。 Agent在不同任务(如数学推理、网页导航、具身AI)中使用不同盘算,难以横向比较。 修复颐养的评估基准,引入推理复杂度、妥贴性与偏好评分等新维度,将鼓励Agent辩论向更系统、可比的倡导发展。 参数驱动的多智能体优化缺失。 现在多智能体计策多依赖冻结LLM,短缺聚拢参数锤真金不怕火机制,罢休了协同智能的发展。 未来应探索多智能体聚拢微调、奖励分享机制、层级限定计策,擢升举座系统才智与互助水平。 arXiv贯穿:https://arxiv.org/abs/2503.12434 GitHub贯穿:https://github.com/YoungDubbyDu/LLM-Agent-Optimization
|