https://huggingface.co/blog/open-deep-research
https://huggingface.co/datasets/gaia-benchmark/GAIA
agent考试用,GAIA(General AI Assistant)数据集。
GAIA is a benchmark which aims at evaluating next-generation LLMs (LLMs with augmented capabilities due to added tooling, efficient prompting, access to search, etc).
- code agent,用代码表达步骤
- code更加简洁,token少
- reuse tool,可以用常见的lib的代码
- 逻辑性更强,更加直观
- hf说他们在用的时候还发现一个好处,就是中间结果可以用变量命名。但是如果用json的话,还需要考虑让LLM给保存的图片什么的做命名。
- 感觉这里说的就是code逻辑性更强,让代码来描述,比起自然语言效果更好
貌似主要就是通过code agent提升的效果
- 感觉这里说的就是code逻辑性更强,让代码来描述,比起自然语言效果更好
然后他们这里的browser竟然用的还是text web browser
* https://github.com/huggingface/smolagents/blob/gaia-submission-r1/examples/open_deep_research/scripts/text_web_browser.py
然后这里还了解到ms的一个multi agent的系统,教Magentic-One。单看star貌似没有meta gpt高,还没有研究过他的细节。
文章评论