看了下AIME1.5,https://arxiv.org/pdf/2507.11988,这里就简单总结一下。
三点核心:
* 自适应Planner
* 就是ReAct模式,子Agent执行任务之后返回的结果会让planner去调整计划
* 动态Actor
* 这个思路很棒,是根据子Agent的任务,动态组装一个agent,而不是预定义的固有的agent。
* 这个动态的Actor在prompt,使用的工具,使用的知识都是动态组装的。
* 应该是根据子Agent的任务,先写一个子agent的prompt出来,比如你是xxx专家,干xxx,规则是xxx。然后去召回一些相关联的Tools/知识库中的知识。
* 这里给的例子,比如写代码的Actor会用file edit tool,codebase actor会用git tool
* 召回的知识我感觉分几种:
* best practice,规则类。经过多次迭代,这些actor肯定有类似的需求,那么通过历史的比较好的actor的经验,新的actor就可以学习类似的知识。
* 业务知识,这块不一定是放到这里,更像是在tool里加一个知识召回的工具。这里也看actor的粒度了。如果任务很细的话,确实在开始直接召回相关数据就可以,或者是在actor内部也做ReAct,让actor自己选择知识召回。
* 人为的规则,和上面best practice差不多。相当于best practice冷启动的数据
* 进度跟踪
* planner有一个自己的todo list,分发任务给actor的时候,actor会根据自己的任务创建自己的todo list。避免过长上下文导致任务丢失
* 这块感觉memory的维护还是一个问题,子的actor如何维护超长上下文,因为有的任务可能依赖上一步的结果,有的又相互独立。
* 直观想可以搞成一个递归的结构。子的actor并不一定是只做执行,而是可以做到递归的做planning,比如针对某一个子任务,根据当前执行状态/召回的知识继续拆分。最后会变成一个树状的结构。子树内的任务可以共享上下文,完成后总结执行状态到父亲节点。然后再继续执行父亲节点的下一个节点。
* 这块感觉idea很理想,可能还得真有一些测试数据来验证一下才好。
文章评论