HF open deep research

https://huggingface.co/blog/open-deep-research

https://huggingface.co/datasets/gaia-benchmark/GAIA
agent考试用，GAIA(General AI Assistant)数据集。

GAIA is a benchmark which aims at evaluating next-generation LLMs (LLMs with augmented capabilities due to added tooling, efficient prompting, access to search, etc).

code agent，用代码表达步骤
- code更加简洁，token少
- reuse tool，可以用常见的lib的代码
- 逻辑性更强，更加直观
- hf说他们在用的时候还发现一个好处，就是中间结果可以用变量命名。但是如果用json的话，还需要考虑让LLM给保存的图片什么的做命名。
  - 感觉这里说的就是code逻辑性更强，让代码来描述，比起自然语言效果更好
    
    貌似主要就是通过code agent提升的效果

然后他们这里的browser竟然用的还是text web browser
* https://github.com/huggingface/smolagents/blob/gaia-submission-r1/examples/open_deep_research/scripts/text_web_browser.py

然后这里还了解到ms的一个multi agent的系统，教Magentic-One。单看star貌似没有meta gpt高，还没有研究过他的细节。

文章评论