Skip to content

Agentic AI:从对话到 Agent

2022 年末,ChatGPT 让很多人第一次直观感受到 AI 的能力。紧接着,新名词一波接一波:Prompt Engineering、Agent、RAG、CoT、MCP……

你可能还在理解“大模型”,大家就已经在聊 Agentic AI(智能体)了。会迷糊吗?很正常。但好消息是:你不需要搞懂所有名词,也能开始用起来。

Agent 是什么?

先说清楚一个经常被混淆的概念:不是所有调用了 AI 的系统都叫 Agent。

一个 Agent 通常需要同时满足四个条件:

  • 目标驱动(Goal-driven):你给它一个意图,而不是一步一步的指令。比如“帮我整理今天的会议纪要”,而不是“先打开文件,再找到第三段,再复制……”
  • 自主规划(Autonomous Planning):它自己决定怎么拆解任务、按什么顺序执行。
  • 工具使用(Tool Use):它能调用外部工具,比如读写文件、执行命令、访问 API,把想法变成结果。
  • 环境适应(Environmental Adaptation):它能根据中间结果调整策略。执行到一半发现路不通,会自己换一条路。

这四个条件缺一不可。再看几种常见的误解:

一个只能问答的聊天机器人,即使背后调用了大模型 API,也不算 Agent:它没有自主规划和工具使用。一个预设好的自动化流程(比如“每天早上 8 点发邮件”),也不算 Agent:它缺少环境适应能力,遇到意外就卡住了。RAG 系统(检索增强生成)同样不算:它只是在做信息检索和总结,没有自主规划和行动能力。

这些系统都有各自的价值,但理解它们和 Agent 的区别,能帮你判断“什么时候该用什么”。

一个实用判断是:能用普通对话解决,就先用普通对话;能用固定流程解决,就先用固定流程;只有当任务需要根据中间结果不断调整路径时,再考虑 Agent。

不要焦虑

在正式开始之前,我想先说一件最重要的事:不要焦虑。

你可能会觉得:新工具这么多、模型更新这么快、别人都在用最新的东西了,我是不是落后了?

答案是:没有。

模型排行榜每个月都在变,今天的第一名明天可能就被超越。对学习者来说,要紧的不是“哪个模型最强”,而是你能不能用它解决问题。

能用、好用、顺手用,就够了。不需要追新,不需要追最贵的。工具会过时,但你建立的思维方式和技能不会。

更实际的做法是:先把 AI 用进你手边的小任务里。让它帮你整理一段会议记录、改一封邮件、分析一个表格、写一个小脚本。你会很快知道它适合什么、不适合什么。

但“用起来”不等于“什么都交给 Agent”。Agent 处理的是自然语言和概率式判断,天然会有不稳定的一面。对高风险流程来说,可确定的部分仍然应该交给脚本、测试、审批和清晰的规则。AI 适合探索、整理、生成和调度;必须稳定执行的部分,要尽量落到确定性的流程里。

Prompting 是一切的基础

不管你用的是最基础的聊天机器人,还是最复杂的 Agent 系统,有一件事始终不变:你需要把意图说清楚。

这就是 Prompting(提示):用精确的语言告诉 AI 你想要什么。

很多人觉得 Prompting 就是“写一条好问题”。其实不止。Prompting 是一种沟通能力:你想要什么结果?有哪些背景信息?有什么限制?期望什么样的输出?

后面我们会详细展开。但现在请记住:不管技术怎么演进,Prompting 始终是一切能力的底层。MCP、Skills、Multi-agent 这些概念,都建立在你能精确表达意图的基础上。

升级对齐定律:底层能力会重置技巧优势

学习 AI 很容易陷入一种误区:今天学了一个复杂技巧,明天又冒出一个新工具,好像永远追不上。

这里有一个更适合长期记住的规律:一旦底层模型升级,很多围绕旧能力缺口发展出来的技巧,就会变成不那么要紧的细节。大家会被重新拉到接近同一个起点。

这就是升级对齐定律,也可以叫升级归零定律。

图像生成就是一个很直观的例子。早期你可能需要记一大串提示词、参数、风格权重,甚至要训练 LoRA、反复 inpainting。模型升级以后,同样的需求可能一句话就能完成。以前的技巧不是完全没用,而是从“必须掌握”变成了“需要时再用”。

Agent 也是一样。上下文变长、模型推理变强、工具调用更稳定以后,一些复杂的 Harness 设计、提示词花活、上下文压缩技巧,都会被底层能力吃掉一部分。你不需要因为没掌握每个流行词就焦虑,因为很多流行词本来就是在补旧模型的短板。

这并不意味着学习没用了。留下来的能力更基础:你是否能把问题说清楚,是否能判断结果对不对,是否能把不稳定的部分和确定性的流程分开。工具会升级,旧技巧会归零,但这些能力不会归零。

技能比工具重要

技术变化很快。今天的热门工具,明天可能就被替代。但有些东西不会过时:

  • 拆解问题的能力:不管用什么工具,你都需要先把问题想清楚。
  • 精确表达的能力:不管模型怎么进化,你都需要说清楚你要什么。
  • 迭代优化的能力:第一次结果不满意时,知道怎么调整。
  • 判断结果的能力:AI 给了答案,你能判断它对不对。

这些是技能,不是工具。工具会变,技能不会。

所以,学习本教程的目标不是“掌握某个工具”,而是建立一套思维方式:怎么发现问题、怎么拆解问题、怎么和 AI 协作解决问题。

教程大纲

本教程分为六个部分,外加技术附录。前三部分面向所有用户,后三部分面向开发者与进阶创造者。

第一部分:AI 协同基础(AI Essentials)

  • 思维转变:从“搜索”到“生成”,理解 LLM 的概率式输出。
  • 把需求说清楚:Prompting 四要素:目标、上下文、约束、格式。
  • 迭代对齐:多轮对话的本质是不断对齐理解。
  • 常见陷阱:Context Bloat、Mega-Prompt 等反模式。

第二部分:多模态创作能力(Multimodal Creativity)

  • 升级对齐定律:底层模型升级如何降低技巧门槛。
  • 视觉创作与理解:图像生成、截图分析、图表解读与设计反馈。
  • 动态叙事:视频生成与镜头语言。
  • 工作流整合:从文本到多媒体的创作链路。

第三部分:高级 Prompting 与推理增强(Advanced Prompting & Reasoning)

  • Chain-of-thought:把复杂问题拆成可检查的假设、依据和结论。
  • ReAct:让 AI 在推理、行动和观察之间循环推进任务。
  • RAG:先检索外部知识,再基于资料生成回答。
  • 模型原生推理:理解强推理模型如何改变提示词写法。
  • 准确性控制:幻觉、确认偏误和高风险节点的验证方法。

--- (以下章节面向开发者与进阶创造者) ---

第四部分:AI Coding 实践(AI Coding)

  • 自然语言编程:Chat-to-Code 的基本模式。
  • 环境配置:Cursor / Windsurf / VS Code + Copilot。
  • 项目实战:从零构建并部署一个 Web 应用。
  • 局限与边界:架构债务、上下文爆炸、安全盲区。

第五部分:Agent 机制与构建(Agentic System)

  • 从脚本、Workflow 到 Agent:先判断什么时候需要 Agent。
  • Agent 内部机制:Loop(感知→思考→行动→观察)、Run、Snapshot。
  • Memory:短期记忆、长期记忆与工作区检索的边界。
  • Tool Use 与 MCP:模型如何与外部世界交互,以及工具该怎么设计。
  • 权限模型:Ask / Skip / Deny。
  • 安全意识:零信任、数据脱敏、权限边界。
  • 动手练习:自己实现一个简单的 Agent Harness。

第六部分:Agent 实践与治理(Agent Practice)

  • 配置与治理:Rules、Skills 的使用。
  • 指令层级:SOUL.md → AGENTS.md → Rules → Prompt。
  • Multi-agent:实现模式(顺序、并行、辩论、分层)与适用场景。
  • 评估与调试:任务样本、过程追踪、回归检查。
  • 安全与生产化检查:权限、成本、延迟、失败处理。
  • M×N Gateway:企业级 Agent 集成的概念。

技术附录

  • API 调用与 Function Calling:用 JavaScript 调用 LLM、Embedding、Image、Audio API。
  • RAG 技术详解:向量嵌入、HNSW 索引、混合搜索策略。

反馈与建议

如果发现教程中有过时、错误或不清楚的地方,或者有任何问题和建议,欢迎通过 GitHub Issues 提交反馈。

小结

  • Agentic AI 的变化,是从“对话”走向“行动”。
  • Agent 需要同时满足目标驱动、自主规划、工具使用、环境适应四个条件。
  • Prompting 是一切的基础:不管技术怎么演进,精确表达始终有用。
  • 升级对齐定律提醒我们:底层模型升级会让很多旧技巧变成细节,把大家重新拉到接近同一个起点。
  • 技能比工具重要:建立思维方式,而非记忆工具。
  • 高风险流程要保留确定性:能用脚本、测试和审批说清楚的部分,不要全交给 Agent 猜。
  • 不要焦虑:Utilization is all you need。

练习

  1. 用一句话描述一个你希望 AI 帮你完成的小任务,并补充 2 条限制条件。
  2. 把一个“看起来很大”的目标拆成 3 个可执行的步骤。
  3. 选一个你想自动化的任务,判断它更适合普通对话、固定流程,还是 Agent,并写下理由。
  4. 回想你最近一次和 AI 聊天的经历:你是怎么表达需求的?结果满意吗?如果不满意,问题出在哪里?

延伸阅读

CC-BY 4.0 Licensed