Skip to content

Agent 启示录

写给计算机系大学生的 Agent 原理入门书

适合谁读

  • 学过一点编程,但技术栈不深的计算机系学生
  • 想知道"Agent 到底是怎么跑起来的"的好奇心
  • 已经用过 ChatGPT、Cursor、Claude Code 等产品,想系统理解原理

什么是 Agent

Agent 一词起源于拉丁语 agere,意思是"行动"、"去做"或"驱动"——最朴素的含义是"代替某人行动的人或实体"。 一个智能系统并不只是被动地计算答案,它要感知自己所处的环境,并采取行动影响这个环境。

所以,Agent 的核心特点可以归纳为四点:感知理解规划执行。其中"执行"是它和"会说话的聊天机器人"之间最关键的区别——Agent 的存在意义在于把意图变成动作。

Agent 的四次能力迭代

从 2022 年底到现在,Agent 的演进可以不用按产品名背诵。更清晰的看法是:它经历了几次能力边界的扩展。

Agent 能力的四次迭代:自然语言、工具调用、工作流、生态协作

时间能力阶段意义
2022 年底自然语言对话人不再需要适应机器的语法
2023 年工具调用模型可以调用外部能力影响世界
2024 年工作流Agent 开始处理长链路任务
2024-2025 年生态协作Agent 打破单点能力边界,进入更大软件生态

表格中提到的事件和协议在后续章节会逐步展开。第一次阅读时只需建立"能力阶段"的心智模型。

  • 第一阶段:从命令到对话。早期人机交互更像"发命令",你必须用系统能理解的方式表达需求——命令行、按钮、表单、配置文件,本质上都要求人适应机器。ChatGPT 之后,机器开始适应人的表达,自然语言第一次成为大规模可用的软件入口,人终于可以用自己的语言描述目标

  • 第二阶段:从回答到调用外部能力。只会回答问题的模型有一个明显限制,它无法直接影响外部世界。工具调用补上了这只改变世界的"手"——当模型可以调用外部能力影响环境时,它就不再只是生成文本,而是把文本变成行动,大模型也即将从会说变成会做

  • 第三阶段:从单步响应到任务工作流。真实任务往往不是一步完成的。系统不只是回答当前这一问,而是围绕一个目标持续推进:记录当前状态,决定下一步行动,观察执行结果,再继续调整。这一步让 Agent 开始接近真实工作中的"任务承担者"。

  • 第四阶段:从单个助手到持续协作。当任务继续变复杂,一个 Agent 也会遇到边界。多个 Agent 开始协作、不同的 Agent 开始用通用协议交换信息和能力——它们共同的走向是让 Agent 进入更大的软件生态。

Agent 的愿景:让人回到创造本身

如果把上面的变化串起来,你会看到一条清晰的线:

text
LLM 让机器理解语言
工具调用让机器影响世界
工作流让机器持续推进任务
多 Agent 和协议生态让机器进入复杂协作

Agent 不会只是 LLM 的一个应用形态,而会成为 LLM 通往现实世界的入口。

但也别急着过于乐观,我们不能把 Agent 神化。Agent 的底层仍然是 LLM,而 LLM 本身有天然边界:它擅长从已有语料和上下文中归纳、重组、预测、执行,却并不天然拥有真正的创意、想象力和审美能力。

所以,Agent 的任务不是替代人的全部能力,而是替代那些可描述、可拆解、可执行、可验证的重复劳动。人类的任务,则会越来越集中在另一侧——提出值得追问的问题、想象尚不存在的可能性、判断什么是好的、重要的、美的、为技术设定方向和边界。

Agent 的终点,不是让人变得无事可做,而是让人不再被重复执行困住。

本书分析的视角

Agent(智能体)正在重塑软件开发的形态。这本书不教你怎么用某个 Agent 产品,而是想弄清楚:为什么一个能"行动"的程序会突然变得这么强大?它的内部机制是怎样的?

接下来的章节,我们以 Claude Code 为例拆解 Agent 的内部机制。选择它有两个原因:

  1. 代码与文档都开放。我们可以从第一性原理出发,而不是停留在"这个产品能做什么"的用户视角。
  2. 结构有代表性。Claude Code 的子系统(Agent Loop、工具系统、权限、记忆、上下文、多 Agent)覆盖了现代 Agent 框架的几乎所有关键设计点。

理解 Claude Code 不会让你变成 Claude Code 的高级用户,但会让你掌握一个心智框架:当你以后看到任何 Agent 系统,你都能用同样的视角去分析它。

这本书不写什么

  • 不是 Claude Code 的用户手册(官方文档更权威)
  • 不深入任何商业 API 的私有实现
  • 不预测 AGI 何时到来

阅读路线

  1. 核心工作模式从 Agent Loop 到 Subagent 系统的 13 章内容
  2. 周围组件Rewind、Hooks、MCP 等
  3. 通往 AGI 之路KAIROS、Agent Teams