Agentic AI：从对话到 Agent

2022 年末，ChatGPT 让很多人第一次直观感受到 AI 的能力。紧接着，新名词一波接一波：Prompt Engineering、Agent、RAG、CoT、MCP……

你可能还在理解“大模型”，大家就已经在聊 Agentic AI（智能体）了。会迷糊吗？很正常。但好消息是：你不需要搞懂所有名词，也能开始用起来。

Agent 是什么？

先说清楚一个经常被混淆的概念：不是所有调用了 AI 的系统都叫 Agent。

一个 Agent 通常需要同时满足四个条件：

目标驱动（Goal-driven）：你给它一个意图，而不是一步一步的指令。比如“帮我整理今天的会议纪要”，而不是“先打开文件，再找到第三段，再复制……”
自主规划（Autonomous Planning）：它自己决定怎么拆解任务、按什么顺序执行。
工具使用（Tool Use）：它能调用外部工具，比如读写文件、执行命令、访问 API，把想法变成结果。
环境适应（Environmental Adaptation）：它能根据中间结果调整策略。执行到一半发现路不通，会自己换一条路。

这四个条件缺一不可。再看几种常见的误解：

一个只能问答的聊天机器人，即使背后调用了大模型 API，也不算 Agent：它没有自主规划和工具使用。一个预设好的自动化流程（比如“每天早上 8 点发邮件”），也不算 Agent：它缺少环境适应能力，遇到意外就卡住了。RAG 系统（检索增强生成）同样不算：它只是在做信息检索和总结，没有自主规划和行动能力。

这些系统都有各自的价值，但理解它们和 Agent 的区别，能帮你判断“什么时候该用什么”。

一个实用判断是：能用普通对话解决，就先用普通对话；能用固定流程解决，就先用固定流程；只有当任务需要根据中间结果不断调整路径时，再考虑 Agent。

不要焦虑

在正式开始之前，我想先说一件最重要的事：不要焦虑。

你可能会觉得：新工具这么多、模型更新这么快、别人都在用最新的东西了，我是不是落后了？

答案是：没有。

模型排行榜每个月都在变，今天的第一名明天可能就被超越。对学习者来说，要紧的不是“哪个模型最强”，而是你能不能用它解决问题。

能用、好用、顺手用，就够了。不需要追新，不需要追最贵的。工具会过时，但你建立的思维方式和技能不会。

更实际的做法是：先把 AI 用进你手边的小任务里。让它帮你整理一段会议记录、改一封邮件、分析一个表格、写一个小脚本。你会很快知道它适合什么、不适合什么。

但“用起来”不等于“什么都交给 Agent”。Agent 处理的是自然语言和概率式判断，天然会有不稳定的一面。对高风险流程来说，可确定的部分仍然应该交给脚本、测试、审批和清晰的规则。AI 适合探索、整理、生成和调度；必须稳定执行的部分，要尽量落到确定性的流程里。

Prompting 是一切的基础

不管你用的是最基础的聊天机器人，还是最复杂的 Agent 系统，有一件事始终不变：你需要把意图说清楚。

这就是 Prompting（提示）：用精确的语言告诉 AI 你想要什么。

很多人觉得 Prompting 就是“写一条好问题”。其实不止。Prompting 是一种沟通能力：你想要什么结果？有哪些背景信息？有什么限制？期望什么样的输出？

后面我们会详细展开。但现在请记住：不管技术怎么演进，Prompting 始终是一切能力的底层。MCP、Skills、Multi-agent 这些概念，都建立在你能精确表达意图的基础上。

升级对齐定律：底层能力会重置技巧优势

学习 AI 很容易陷入一种误区：今天学了一个复杂技巧，明天又冒出一个新工具，好像永远追不上。

这里有一个更适合长期记住的规律：一旦底层模型升级，很多围绕旧能力缺口发展出来的技巧，就会变成不那么要紧的细节。大家会被重新拉到接近同一个起点。

这就是升级对齐定律，也可以叫升级归零定律。

图像生成就是一个很直观的例子。早期你可能需要记一大串提示词、参数、风格权重，甚至要训练 LoRA、反复 inpainting。模型升级以后，同样的需求可能一句话就能完成。以前的技巧不是完全没用，而是从“必须掌握”变成了“需要时再用”。

Agent 也是一样。上下文变长、模型推理变强、工具调用更稳定以后，一些复杂的 Harness 设计、提示词花活、上下文压缩技巧，都会被底层能力吃掉一部分。你不需要因为没掌握每个流行词就焦虑，因为很多流行词本来就是在补旧模型的短板。

这并不意味着学习没用了。留下来的能力更基础：你是否能把问题说清楚，是否能判断结果对不对，是否能把不稳定的部分和确定性的流程分开。工具会升级，旧技巧会归零，但这些能力不会归零。

技能比工具重要

技术变化很快。今天的热门工具，明天可能就被替代。但有些东西不会过时：

拆解问题的能力：不管用什么工具，你都需要先把问题想清楚。
精确表达的能力：不管模型怎么进化，你都需要说清楚你要什么。
迭代优化的能力：第一次结果不满意时，知道怎么调整。
判断结果的能力：AI 给了答案，你能判断它对不对。

这些是技能，不是工具。工具会变，技能不会。

所以，学习本教程的目标不是“掌握某个工具”，而是建立一套思维方式：怎么发现问题、怎么拆解问题、怎么和 AI 协作解决问题。

教程大纲

本教程分为六个部分，外加技术附录。前三部分面向所有用户，后三部分面向开发者与进阶创造者。

第一部分：AI 协同基础（AI Essentials）

思维转变：从“搜索”到“生成”，理解 LLM 的概率式输出。
把需求说清楚：Prompting 四要素：目标、上下文、约束、格式。
迭代对齐：多轮对话的本质是不断对齐理解。
常见陷阱：Context Bloat、Mega-Prompt 等反模式。

第二部分：多模态创作能力（Multimodal Creativity）

升级对齐定律：底层模型升级如何降低技巧门槛。
视觉创作与理解：图像生成、截图分析、图表解读与设计反馈。
动态叙事：视频生成与镜头语言。
工作流整合：从文本到多媒体的创作链路。

第三部分：高级 Prompting 与推理增强（Advanced Prompting & Reasoning）

Chain-of-thought：把复杂问题拆成可检查的假设、依据和结论。
ReAct：让 AI 在推理、行动和观察之间循环推进任务。
RAG：先检索外部知识，再基于资料生成回答。
模型原生推理：理解强推理模型如何改变提示词写法。
准确性控制：幻觉、确认偏误和高风险节点的验证方法。

--- （以下章节面向开发者与进阶创造者） ---

第四部分：AI Coding 实践（AI Coding）

自然语言编程：Chat-to-Code 的基本模式。
环境配置：Cursor / Windsurf / VS Code + Copilot。
项目实战：从零构建并部署一个 Web 应用。
局限与边界：架构债务、上下文爆炸、安全盲区。

第五部分：Agent 机制与构建（Agentic System）

从脚本、Workflow 到 Agent：先判断什么时候需要 Agent。
Agent 内部机制：Loop（感知→思考→行动→观察）、Run、Snapshot。
Memory：短期记忆、长期记忆与工作区检索的边界。
Tool Use 与 MCP：模型如何与外部世界交互，以及工具该怎么设计。
权限模型：Ask / Skip / Deny。
安全意识：零信任、数据脱敏、权限边界。
动手练习：自己实现一个简单的 Agent Harness。

第六部分：Agent 实践与治理（Agent Practice）

配置与治理：Rules、Skills 的使用。
指令层级：SOUL.md → AGENTS.md → Rules → Prompt。
Multi-agent：实现模式（顺序、并行、辩论、分层）与适用场景。
评估与调试：任务样本、过程追踪、回归检查。
安全与生产化检查：权限、成本、延迟、失败处理。
M×N Gateway：企业级 Agent 集成的概念。

技术附录

API 调用与 Function Calling：用 JavaScript 调用 LLM、Embedding、Image、Audio API。
RAG 技术详解：向量嵌入、HNSW 索引、混合搜索策略。

反馈与建议

如果发现教程中有过时、错误或不清楚的地方，或者有任何问题和建议，欢迎通过 GitHub Issues 提交反馈。

小结

Agentic AI 的变化，是从“对话”走向“行动”。
Agent 需要同时满足目标驱动、自主规划、工具使用、环境适应四个条件。
Prompting 是一切的基础：不管技术怎么演进，精确表达始终有用。
升级对齐定律提醒我们：底层模型升级会让很多旧技巧变成细节，把大家重新拉到接近同一个起点。
技能比工具重要：建立思维方式，而非记忆工具。
高风险流程要保留确定性：能用脚本、测试和审批说清楚的部分，不要全交给 Agent 猜。
不要焦虑：Utilization is all you need。

练习

用一句话描述一个你希望 AI 帮你完成的小任务，并补充 2 条限制条件。
把一个“看起来很大”的目标拆成 3 个可执行的步骤。
选一个你想自动化的任务，判断它更适合普通对话、固定流程，还是 Agent，并写下理由。
回想你最近一次和 AI 聊天的经历：你是怎么表达需求的？结果满意吗？如果不满意，问题出在哪里？

Agentic AI：从对话到 Agent ​

Agent 是什么？ ​

不要焦虑 ​

Prompting 是一切的基础 ​

升级对齐定律：底层能力会重置技巧优势 ​

技能比工具重要 ​

教程大纲 ​

第一部分：AI 协同基础（AI Essentials） ​

第二部分：多模态创作能力（Multimodal Creativity） ​

第三部分：高级 Prompting 与推理增强（Advanced Prompting & Reasoning） ​

第四部分：AI Coding 实践（AI Coding） ​

第五部分：Agent 机制与构建（Agentic System） ​

第六部分：Agent 实践与治理（Agent Practice） ​

技术附录 ​

反馈与建议 ​

小结 ​

练习 ​

延伸阅读 ​