AIME1.5

看了下AIME1.5，https://arxiv.org/pdf/2507.11988，这里就简单总结一下。

三点核心：
* 自适应Planner
* 就是ReAct模式，子Agent执行任务之后返回的结果会让planner去调整计划
* 动态Actor
* 这个思路很棒，是根据子Agent的任务，动态组装一个agent，而不是预定义的固有的agent。
* 这个动态的Actor在prompt，使用的工具，使用的知识都是动态组装的。
* 应该是根据子Agent的任务，先写一个子agent的prompt出来，比如你是xxx专家，干xxx，规则是xxx。然后去召回一些相关联的Tools/知识库中的知识。
* 这里给的例子，比如写代码的Actor会用file edit tool，codebase actor会用git tool
* 召回的知识我感觉分几种：
* best practice，规则类。经过多次迭代，这些actor肯定有类似的需求，那么通过历史的比较好的actor的经验，新的actor就可以学习类似的知识。
* 业务知识，这块不一定是放到这里，更像是在tool里加一个知识召回的工具。这里也看actor的粒度了。如果任务很细的话，确实在开始直接召回相关数据就可以，或者是在actor内部也做ReAct，让actor自己选择知识召回。
* 人为的规则，和上面best practice差不多。相当于best practice冷启动的数据
* 进度跟踪
* planner有一个自己的todo list，分发任务给actor的时候，actor会根据自己的任务创建自己的todo list。避免过长上下文导致任务丢失
* 这块感觉memory的维护还是一个问题，子的actor如何维护超长上下文，因为有的任务可能依赖上一步的结果，有的又相互独立。
* 直观想可以搞成一个递归的结构。子的actor并不一定是只做执行，而是可以做到递归的做planning，比如针对某一个子任务，根据当前执行状态/召回的知识继续拆分。最后会变成一个树状的结构。子树内的任务可以共享上下文，完成后总结执行状态到父亲节点。然后再继续执行父亲节点的下一个节点。
* 这块感觉idea很理想，可能还得真有一些测试数据来验证一下才好。

文章评论