llm agent - doubility-sky/daydayup GitHub Wiki
LLM Agent
LLM Agent 是基于大语言模型构建的智能代理系统,能够自主规划、推理、使用工具并执行任务。与传统的 LLM 对话不同,Agent 具备感知环境、调用外部工具、维护记忆和持续反思的能力,是实现通用人工智能的重要方向之一。核心架构通常包含规划(Planning)、记忆(Memory)、工具使用(Tool Use)三个关键模块。
Learn
- ReAct: Synergizing Reasoning and Acting in Language Models — 交替执行推理与行动,奠定了 Agent 的基本范式(ICLR 2023)
- Toolformer: Language Models Can Teach Themselves to Use Tools — 展示 LLM 可通过自监督学习自主使用外部工具 API
- Generative Agents: Interactive Simulacra of Human Behavior — 提出观察、规划、反思三模块架构,Agent 可模拟可信的人类行为
- Reflexion: Language Agents with Verbal Reinforcement Learning — 通过语言反思实现无权重更新的强化学习,显著提升任务表现
- Voyager: An Open-Ended Embodied Agent with Large Language Models — Minecraft 中的终身学习 Agent,自动课程 + 技能库 + 迭代提示
- AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation — 微软多 Agent 对话框架,支持可定制 Agent 协作(Microsoft Research)
- A Survey on Large Language Model based Autonomous Agents — 最全面的 LLM Agent 综述,涵盖架构、应用与评估(人大,持续更新)
- The Rise and Potential of Large Language Model Based Agents — 从大脑/感知/行动框架分析 LLM Agent(复旦)
- LLM based Multi-Agents: A Survey of Progress and Challenges — 多 Agent 系统综述,覆盖通信机制与协作模式
- A Survey on the Memory Mechanism of LLM based Agents — Agent 记忆机制专题综述:短期/长期记忆、读写与反思
Blog Posts & Guides
- Building Effective Agents — Anthropic 官方 Agent 设计模式指南:Prompt Chaining / Routing / Parallelization / Orchestrator-Workers / Evaluator-Optimizer
- OpenAI Agents Guide — OpenAI 官方 Agent 构建指南与 Agents SDK 文档
- LLM Powered Autonomous Agents — Lilian Weng(OpenAI)经典博文,系统梳理规划/记忆/工具使用三大模块
- Andrew Ng's Agentic Design Patterns — Andrew Ng 的 Agent 设计模式系列:Reflection / Tool Use / Planning / Multi-Agent
Engineering Practices
- Harness Engineering — OpenAI 分享零手写代码、完全由 Codex Agent 生成并交付软件的实践:AGENTS.md 作为目录、自定义 linter 强制不变量、GAN 式自审循环、持续 doc-gardening
- Harness Design for Long-Running App Development — Anthropic 三 Agent 架构(Planner/Generator/Evaluator)构建全栈应用,分离生成与评估对抗自我宽容偏见,用 context reset 解决上下文焦虑
- How I Use Claude Code — 核心原则:不让 Claude 写代码直到审批通过书面计划。三阶段工作流:research.md → plan.md(多轮批注)→ 一次性实现
- How To Be A World-Class Agentic Engineer — 少即是多:精简依赖、最小化 CLAUDE.md、分离研究与实现、中立提示避免迎合、编码任务完成契约
Courses
- AI Agents in LangGraph — Harrison Chase 主讲,从零构建 Agent(DeepLearning.AI)
- Hugging Face Agents Course — 免费综合课程,涵盖 Agent 基础与 smolagents 实战
- AI Agentic Design Patterns with CrewAI — Andrew Ng + CrewAI 实战课程
Frameworks
LangGraph (LangChain)
- LangGraph — 基于图的 Agent 框架,支持循环、分支、持久状态与 Human-in-the-Loop。含 LangGraph Studio 可视化 IDE
CrewAI
- CrewAI — 角色扮演式多 Agent 协作框架,独立于 LangChain。提供 Crews(自主团队)和 Flows(事件驱动工作流)两种范式
AutoGen (Microsoft)
- AutoGen — 微软分层架构 Agent 框架(Core API / AgentChat API / Extensions API),支持多 Agent 对话与 MCP 集成,含 Magentic-One 多 Agent 团队
OpenAI Agents SDK
- OpenAI Agents SDK — 轻量多 Agent 框架,支持 100+ LLM、Handoffs、MCP 工具、Guardrails、Tracing
Claude Agent SDK (Anthropic)
- Claude Agent SDK — Anthropic 官方 Python SDK,集成工具使用与 Computer Use 能力
Google ADK
- Google ADK — Google 开源 Agent 开发框架,面向 Gemini 模型,支持 A2A 协议
Others
- Pydantic AI — Pydantic 团队的类型安全 Agent 框架,支持依赖注入与模型无关
- smolagents — Hugging Face 轻量框架,Agent 通过编写和执行 Python 代码完成任务
- Semantic Kernel — 微软企业级 SDK,支持 C#/Python/Java,含 Process Framework 状态化工作流
- Agno — 全栈 Agent 平台(前身 Phidata),支持主流 LLM 与多 Agent 系统
- Bee Agent Framework — IBM 出品的 TypeScript Agent 框架,面向开源模型(Granite、Llama)优化
Agent Skills & Workflows
- superpowers — Agentic Skills 框架,为 Claude Code/Cursor/Codex 等提供可组合技能(头脑风暴、TDD、代码审查、子 Agent 驱动开发等),自动触发结构化工作流
- gstack — Garry Tan 的 Claude Code 配置:28 个斜杠命令模拟虚拟工程团队(CEO/设计师/工程经理/QA/安全官等),覆盖从思考到发布的完整冲刺周期
- BMAD-METHOD — "Breakthrough Method for Agile AI-Driven Development",12+ 专业 Agent 角色 + 34+ 结构化工作流,覆盖从头脑风暴到部署的完整软件生命周期
- gastown — 多 Agent 编排系统,协调 20-30+ AI 编程 Agent(Claude Code/Copilot/Codex/Gemini 等),层级架构含 Mayor 协调器、git 持久化工作追踪、合并队列与看板
- get-shit-done — 轻量级 meta-prompting + context engineering + spec-driven 开发系统,支持 Claude Code/Codex/Gemini CLI/Cursor 等 12 个运行时,子 Agent 编排 + 波次并行执行 + 自动验证
Notable Projects
Autonomous Agents
- AutoGPT — 最早的自主 AI Agent 平台之一,~170k+ stars,支持网页浏览、文件系统与记忆管理。开创了"给 AI 一个目标,让它自主完成"的范式
- MetaGPT — 多 Agent 软件开发框架,分配 PM/架构师/工程师/QA 角色协作(ICLR 2024),~50k+ stars。独特之处在于用 SOP(标准操作流程)结构化多 Agent 协作,能从一句话生成完整项目
- OpenHands — 开源自主软件工程 Agent 平台(前身 OpenDevin),~50k+ stars。Devin 的最强开源替代,支持多 LLM 后端,Web 界面,可浏览网页/编辑文件/运行命令,在 SWE-bench 上竞争力强
- SWE-agent — Princeton NLP 出品,~15k+ stars。与 SWE-bench 同团队开发,使用专用 Agent-Computer Interface (ACI) 提供仓库导航/代码编辑/文件管理命令,在 SWE-bench 上达到 SOTA
- Manus — 通用 AI Agent,能自主完成多步骤复杂任务(网页浏览/编程/数据分析/旅行规划/股票分析),2025 年初引发巨大关注并开源部分框架。采用多 Agent 编排:规划/工具使用/执行分阶段进行
- Devika — AI 软件工程师 Agent,~20k+ stars。能理解高层指令、研究主题、编写代码实现目标,Devin 的早期开源替代
- Open Interpreter — ~58k+ stars。让 LLM 在本地运行代码(Python/JS/Shell),完成计算机上的任务。自然语言到计算机操作的桥梁,许多 Agent 系统的核心构建块
- ChatDev — ~26k+ stars。虚拟软件公司,AI Agent 扮演 CEO/CTO/程序员/测试等角色协作开发软件(清华)
Development Platforms
- Dify — 开源 LLM 应用开发平台,~60k+ stars。可视化拖拽工作流编辑器,支持 100+ LLM 提供商,自部署。最强低代码/无代码 Agent 构建器,在亚洲企业部署中广泛使用
- n8n — 工作流自动化平台,~60k+ stars。AI Agent 节点支持函数调用/RAG/Agent 循环,400+ 连接器生态,自部署。将工作流自动化与 AI Agent 桥接
- Flowise — ~35k+ stars。基于 LangChain 的拖拽式 LLM 流程构建器,最易上手的可视化 Agent 构建工具
- LangFlow — LangChain 组件的可视化编排工具,~50k+ stars
- LlamaIndex — ~40k+ stars。从数据连接器发展为完整 Agent 框架,在数据摄取和 RAG 方面业界领先
Coding Agents
- Claude Code — Anthropic 官方 CLI 编程 Agent,~84k+ stars。基于 Claude Agent SDK 构建,支持多步推理/文件编辑/命令执行/代码搜索
- Cline — VS Code 自主编程 Agent(前身 Claude Dev),~40k+ stars。支持 Claude/GPT/Gemini/DeepSeek 等多模型,终端访问/文件系统操作/浏览器集成/MCP 支持,人类审批机制
- Aider — ~30k+ stars。终端 AI 结对编程工具,卓越的 Git 集成(每次变更自动提交),支持多文件上下文编辑,开发者喜爱的终端原生工作流
- Continue — ~25k+ stars。VS Code/JetBrains 开源 AI 编程助手,GitHub Copilot 的领先开源替代,高度可定制,支持本地模型
- SWE-agent — 见上方自主 Agent 部分
Agent Coding Enhancement
- everything-claude-code — Agent harness 性能优化系统:skills/instincts/memory/security/research-first 开发,支持 Claude Code/Codex/Cursor/OpenCode 等多 harness,含 38 个 Agent、156 个 skill、72 个命令
- oh-my-claudecode — Claude Code 多 Agent 编排插件,Teams-first 架构(plan→PRD→exec→verify→fix),魔法关键词触发、HUD 状态栏、技能学习、智能模型路由节省 30-50% token
- oh-my-codex — OpenAI Codex CLI 工作流层,提供 deep-interview→ralplan→team/ralph 标准工作流,专业 Agent 角色与技能系统,
.omx/持久化状态管理 - oh-my-openagent — OpenCode 最强 Agent harness(前身 oh-my-opencode),多模型编排(Claude/Kimi/GLM/GPT),Sisyphus 纪律 Agent 系统 + Hash-Anchored 编辑工具 + LSP/AST-Grep 集成
- oh-my-opencode-slim — oh-my-opencode 精简分支,大幅降低 token 消耗,7 个神话 Agent 角色(Orchestrator/Explorer/Oracle/Librarian/Designer/Fixer/Council),支持多 LLM 提供商混合
Browser / GUI Agents
- browser-use — ~60k+ stars。Python 库让 AI Agent 控制浏览器,支持多标签/表单填写/数据提取,Manus 等平台的底层构建块
- Anthropic Computer Use — 首个主流 LLM 提供商原生 Computer Use。通过截图理解 GUI 并执行鼠标/键盘操作,Docker 沙箱环境
- UFO — 微软 Windows UI 自动化 Agent,~15k+ stars。使用 GPT-4V 理解和交互 Windows 应用界面,支持多应用工作流
- OmniParser — 微软,~15k+ stars。将截图解析为结构化可操作元素,使任何视觉模型都能成为 Computer Use Agent 的关键基础设施
- OS-Copilot — 通用 OS 交互框架,结合 GUI 理解与终端访问
- LaVague — Web Agent 框架,将自然语言指令转化为 Web 操作,适合 Web 测试/数据提取/任务自动化
Multi-Agent Systems
- CrewAI — ~30k+ stars。最直观的多 Agent 框架,角色扮演式设计(角色/目标/背景故事),支持顺序/层次/并行任务执行,内置记忆系统
- AutoGen — ~45k+ stars。最功能丰富的多 Agent 框架,结构化对话协作,0.4 版本重大架构重构,社区 fork 为 AG2
- LangGraph — ~10k+ stars。最灵活的多 Agent 编排,有向图控制流支持循环/分支/持久状态,与 LangChain 生态深度集成
- Swarm — ~15k+ stars。OpenAI 实验性轻量多 Agent 框架,核心概念:routines(指令+工具)和 handoffs(Agent 间转移),是 Agents SDK 的前身
- Agency Swarm — 基于 OpenAI API 的多 Agent 框架,预配置 Agent 角色和层次结构,面向企业实际用例
- multica — 开源平台,将编程 Agent 变为真正的队友:分配 Issue、追踪进度、积累可复用技能,统一管理人类+Agent 团队,支持 Claude Code 和 Codex
- open-multi-agent — TypeScript 多 Agent 框架,一次
runTeam()调用从目标到结果,自动任务分解与并行执行,仅 3 个运行时依赖 - PraisonAI — 低代码多 Agent 框架,支持 handoffs/guardrails/memory/RAG/100+ LLM,可部署到 Telegram/Discord/WhatsApp 24/7 运行
- Ruflo — 企业级 AI Agent 编排平台(前身 Claude Flow),100+ 专业 Agent 协调群体,自学习能力 + 拜占庭容错共识 + 智能路由,原生 Claude Code MCP 集成
Protocols
MCP (Model Context Protocol)
- MCP — Anthropic 开放协议,~30k+ stars(整个 org)。"AI 的 USB-C":通用连接器标准,让任何 AI 模型通过标准化接口连接任何工具/数据源。已被 OpenAI、Google 等广泛采纳
- MCP TypeScript SDK / Python SDK — 构建 MCP 服务器和客户端的官方 SDK
- MCP Servers — 官方服务器集合:filesystem / github / postgres / puppeteer / brave-search / google-maps / slack / memory 等
- Awesome MCP Servers — 社区 MCP 服务器精选列表
Google A2A (Agent-to-Agent Protocol)
- A2A — Google 开放协议(2025.4 发布),实现跨平台 Agent 互操作。50+ 公司支持(Atlassian/Salesforce/SAP 等)。基于 HTTP + JSON-RPC
- Agent Cards:JSON 格式描述 Agent 能力/认证/输入输出模式
- Task Lifecycle:结构化任务流程,Agent 间创建/更新/完成任务
- Streaming & Push Notifications:实时任务进度流 + Webhook 通知
- MCP 连接 Agent 与工具,A2A 连接 Agent 与 Agent,互补而非竞争
Benchmarks
- SWE-bench — 评估 AI 解决真实软件工程任务的业界标准。每个任务是真实 GitHub Issue + 对应 PR,通过单元测试通过率评估。有 Full/Lite/Verified(人工验证)三个变体。Devin/OpenHands/Cursor/SWE-agent 等均在此排名
- WebArena — 真实 Web 环境下 Agent 评估的金标准。使用真实自托管 Web 应用(非模拟 API),任务需多步交互:导航/表单填写/搜索/内容编辑,评估端到端任务完成率
- AgentBench — 最全面的多域 Agent 评估基准,覆盖 OS/文件系统/Web 浏览/购物/数据库/卡牌游戏/谜题/家居管理 8 类环境,评估推理/决策/工具使用(清华)
- OSWorld — GUI Agent 评估基准,将评估从 Web 扩展到完整 OS 交互。需要 GUI 理解、多应用协调和真实世界任务完成
- The Agent Company — Agent 在模拟软件公司中完成真实工作任务,评估多工具协作和职业任务完成能力
- BFCL (Berkeley Function Calling Leaderboard) — 评估 LLM 函数/工具调用准确性:函数选择、参数提取、多工具编排
Design Patterns
- Prompt Chaining — 将任务分解为顺序 LLM 调用,步骤间做程序化转换
- Routing — 分类输入并路由到专门处理器
- Parallelization — 并行执行独立任务(分段或投票)
- Orchestrator-Workers — 中央 LLM 动态分解任务并委派给 Worker LLM
- Evaluator-Optimizer — 一个 LLM 生成,另一个评估并反馈
何时使用 Agent:先用最简方案,仅在简单方法不够时才增加 Agent 复杂度。如果能完全枚举决策树,用工作流;需要 LLM 做判断,用 Agent。
Memory
- Mem0 — ~25k+ stars。Agent 记忆层,解决跨会话持久记忆的核心痛点。支持短期/长期/实体记忆,兼容任何 LLM 和向量数据库,可自部署或托管服务
- Letta (前身 MemGPT) — ~15k+ stars。虚拟上下文管理框架,借鉴 OS 内存层次结构在主记忆和外部记忆间交换数据,使 Agent 能处理无限上下文
- Zep — ~3k+ stars。从对话历史自动提取事实/摘要/结构化数据,提供知识图谱/事实记忆/时间感知,生产就绪
Tool Execution & Sandboxing
- E2B — ~8k+ stars。安全的云端沙箱环境,让 Agent 安全运行代码/执行命令。隔离微虚拟机,启动 < 150ms,OpenHands/Cursor 等在使用
- Daytona — ~15k+ stars。安全开发环境管理器,E2B 的开源替代,提供一致可复现的开发环境
Reasoning & Optimization
- DSPy — ~22k+ stars。用算法优化 LM 提示和权重,声明式编程范式替代手动提示工程(Stanford NLP)
- Tree of Thoughts — Agent 规划的基础技术,LLM 探索多条推理路径并评估进展,广泛用于 Agent 架构
Tools
Agent Building Platforms (Low-Code)
- Dify — 见上方 Development Platforms
- n8n — 见上方 Development Platforms
- Flowise — 见上方 Development Platforms
- LangFlow — LangChain 组件的可视化编排工具,~50k+ stars
Browser Automation
- Playwright — ~70k+ stars。微软浏览器自动化框架,browser-use/OpenHands 等的底层引擎,支持 Chromium/Firefox/WebKit
Resources
- Building Effective Agents — Anthropic
- LangGraph Documentation — 官方文档、教程与 How-to 指南
- Awesome LLM Agents — LLM Agent 资源精选列表
- LLM Agent Paper List — LLM Agent 论文合集