Agent 启示录
写给计算机系大学生的 Agent 原理入门书
适合谁读
- 学过一点编程,但技术栈不深的计算机系学生
- 想知道"Agent 到底是怎么跑起来的"的好奇心
- 已经用过 ChatGPT、Cursor、Claude Code 等产品,想系统理解原理
什么是 Agent
Agent 一词起源于拉丁语 agere,意思是"行动"、"去做"或"驱动"——最朴素的含义是"代替某人行动的人或实体"。 一个智能系统并不只是被动地计算答案,它要感知自己所处的环境,并采取行动影响这个环境。
所以,Agent 的核心特点可以归纳为四点:感知、理解、规划、执行。其中"执行"是它和"会说话的聊天机器人"之间最关键的区别——Agent 的存在意义在于把意图变成动作。
Agent 的四次能力迭代
从 2022 年底到现在,Agent 的演进可以不用按产品名背诵。更清晰的看法是:它经历了几次能力边界的扩展。
| 时间 | 能力阶段 | 意义 |
|---|---|---|
| 2022 年底 | 自然语言对话 | 人不再需要适应机器的语法 |
| 2023 年 | 工具调用 | 模型可以调用外部能力影响世界 |
| 2024 年 | 工作流 | Agent 开始处理长链路任务 |
| 2024-2025 年 | 生态协作 | Agent 打破单点能力边界,进入更大软件生态 |
表格中提到的事件和协议在后续章节会逐步展开。第一次阅读时只需建立"能力阶段"的心智模型。
第一阶段:从命令到对话。早期人机交互更像"发命令",你必须用系统能理解的方式表达需求——命令行、按钮、表单、配置文件,本质上都要求人适应机器。ChatGPT 之后,机器开始适应人的表达,自然语言第一次成为大规模可用的软件入口,人终于可以用自己的语言描述目标。
第二阶段:从回答到调用外部能力。只会回答问题的模型有一个明显限制,它无法直接影响外部世界。工具调用补上了这只改变世界的"手"——当模型可以调用外部能力影响环境时,它就不再只是生成文本,而是把文本变成行动,大模型也即将从会说变成会做。
第三阶段:从单步响应到任务工作流。真实任务往往不是一步完成的。系统不只是回答当前这一问,而是围绕一个目标持续推进:记录当前状态,决定下一步行动,观察执行结果,再继续调整。这一步让 Agent 开始接近真实工作中的"任务承担者"。
第四阶段:从单个助手到持续协作。当任务继续变复杂,一个 Agent 也会遇到边界。多个 Agent 开始协作、不同的 Agent 开始用通用协议交换信息和能力——它们共同的走向是让 Agent 进入更大的软件生态。
Agent 的愿景:让人回到创造本身
如果把上面的变化串起来,你会看到一条清晰的线:
LLM 让机器理解语言
工具调用让机器影响世界
工作流让机器持续推进任务
多 Agent 和协议生态让机器进入复杂协作Agent 不会只是 LLM 的一个应用形态,而会成为 LLM 通往现实世界的入口。
但也别急着过于乐观,我们不能把 Agent 神化。Agent 的底层仍然是 LLM,而 LLM 本身有天然边界:它擅长从已有语料和上下文中归纳、重组、预测、执行,却并不天然拥有真正的创意、想象力和审美能力。
所以,Agent 的任务不是替代人的全部能力,而是替代那些可描述、可拆解、可执行、可验证的重复劳动。人类的任务,则会越来越集中在另一侧——提出值得追问的问题、想象尚不存在的可能性、判断什么是好的、重要的、美的、为技术设定方向和边界。
Agent 的终点,不是让人变得无事可做,而是让人不再被重复执行困住。
本书分析的视角
Agent(智能体)正在重塑软件开发的形态。这本书不教你怎么用某个 Agent 产品,而是想弄清楚:为什么一个能"行动"的程序会突然变得这么强大?它的内部机制是怎样的?
接下来的章节,我们以 Claude Code 为例拆解 Agent 的内部机制。选择它有两个原因:
- 代码与文档都开放。我们可以从第一性原理出发,而不是停留在"这个产品能做什么"的用户视角。
- 结构有代表性。Claude Code 的子系统(Agent Loop、工具系统、权限、记忆、上下文、多 Agent)覆盖了现代 Agent 框架的几乎所有关键设计点。
理解 Claude Code 不会让你变成 Claude Code 的高级用户,但会让你掌握一个心智框架:当你以后看到任何 Agent 系统,你都能用同样的视角去分析它。
这本书不写什么
- 不是 Claude Code 的用户手册(官方文档更权威)
- 不深入任何商业 API 的私有实现
- 不预测 AGI 何时到来
阅读路线
- 核心工作模式:从 Agent Loop 到 Subagent 系统的 13 章内容
- 周围组件:Rewind、Hooks、MCP 等
- 通往 AGI 之路:KAIROS、Agent Teams