Appearance
Agentic AI:从对话到 Agent
2022 年末,ChatGPT 让很多人第一次直观感受到 AI 的能力。紧接着,新名词一波接一波:Prompt Engineering、Agent、RAG、CoT、MCP……
你可能还在理解“大模型”,大家就已经在聊 Agentic AI(智能体)了。会迷糊吗?很正常。但好消息是:你不需要搞懂所有名词,也能开始用起来。
Agent 是什么?
先说清楚一个经常被混淆的概念:不是所有调用了 AI 的系统都叫 Agent。
一个 Agent 通常需要同时满足四个条件:
- 目标驱动(Goal-driven):你给它一个意图,而不是一步一步的指令。比如“帮我整理今天的会议纪要”,而不是“先打开文件,再找到第三段,再复制……”
- 自主规划(Autonomous Planning):它自己决定怎么拆解任务、按什么顺序执行。
- 工具使用(Tool Use):它能调用外部工具,比如读写文件、执行命令、访问 API,把想法变成结果。
- 环境适应(Environmental Adaptation):它能根据中间结果调整策略。执行到一半发现路不通,会自己换一条路。
这四个条件缺一不可。再看几种常见的误解:
一个只能问答的聊天机器人,即使背后调用了大模型 API,也不算 Agent:它没有自主规划和工具使用。一个预设好的自动化流程(比如“每天早上 8 点发邮件”),也不算 Agent:它缺少环境适应能力,遇到意外就卡住了。RAG 系统(检索增强生成)同样不算:它只是在做信息检索和总结,没有自主规划和行动能力。
这些系统都有各自的价值,但理解它们和 Agent 的区别,能帮你判断“什么时候该用什么”。
一个实用判断是:能用普通对话解决,就先用普通对话;能用固定流程解决,就先用固定流程;只有当任务需要根据中间结果不断调整路径时,再考虑 Agent。
不要焦虑
在正式开始之前,我想先说一件最重要的事:不要焦虑。
你可能会觉得:新工具这么多、模型更新这么快、别人都在用最新的东西了,我是不是落后了?
答案是:没有。
模型排行榜每个月都在变,今天的第一名明天可能就被超越。对学习者来说,要紧的不是“哪个模型最强”,而是你能不能用它解决问题。
能用、好用、顺手用,就够了。不需要追新,不需要追最贵的。工具会过时,但你建立的思维方式和技能不会。
更实际的做法是:先把 AI 用进你手边的小任务里。让它帮你整理一段会议记录、改一封邮件、分析一个表格、写一个小脚本。你会很快知道它适合什么、不适合什么。
但“用起来”不等于“什么都交给 Agent”。Agent 处理的是自然语言和概率式判断,天然会有不稳定的一面。对高风险流程来说,可确定的部分仍然应该交给脚本、测试、审批和清晰的规则。AI 适合探索、整理、生成和调度;必须稳定执行的部分,要尽量落到确定性的流程里。
Prompting 是一切的基础
不管你用的是最基础的聊天机器人,还是最复杂的 Agent 系统,有一件事始终不变:你需要把意图说清楚。
这就是 Prompting(提示):用精确的语言告诉 AI 你想要什么。
很多人觉得 Prompting 就是“写一条好问题”。其实不止。Prompting 是一种沟通能力:你想要什么结果?有哪些背景信息?有什么限制?期望什么样的输出?
后面我们会详细展开。但现在请记住:不管技术怎么演进,Prompting 始终是一切能力的底层。MCP、Skills、Multi-agent 这些概念,都建立在你能精确表达意图的基础上。
升级对齐定律:底层能力会重置技巧优势
学习 AI 很容易陷入一种误区:今天学了一个复杂技巧,明天又冒出一个新工具,好像永远追不上。
这里有一个更适合长期记住的规律:一旦底层模型升级,很多围绕旧能力缺口发展出来的技巧,就会变成不那么要紧的细节。大家会被重新拉到接近同一个起点。
这就是升级对齐定律,也可以叫升级归零定律。
图像生成就是一个很直观的例子。早期你可能需要记一大串提示词、参数、风格权重,甚至要训练 LoRA、反复 inpainting。模型升级以后,同样的需求可能一句话就能完成。以前的技巧不是完全没用,而是从“必须掌握”变成了“需要时再用”。
Agent 也是一样。上下文变长、模型推理变强、工具调用更稳定以后,一些复杂的 Harness 设计、提示词花活、上下文压缩技巧,都会被底层能力吃掉一部分。你不需要因为没掌握每个流行词就焦虑,因为很多流行词本来就是在补旧模型的短板。
这并不意味着学习没用了。留下来的能力更基础:你是否能把问题说清楚,是否能判断结果对不对,是否能把不稳定的部分和确定性的流程分开。工具会升级,旧技巧会归零,但这些能力不会归零。
技能比工具重要
技术变化很快。今天的热门工具,明天可能就被替代。但有些东西不会过时:
- 拆解问题的能力:不管用什么工具,你都需要先把问题想清楚。
- 精确表达的能力:不管模型怎么进化,你都需要说清楚你要什么。
- 迭代优化的能力:第一次结果不满意时,知道怎么调整。
- 判断结果的能力:AI 给了答案,你能判断它对不对。
这些是技能,不是工具。工具会变,技能不会。
所以,学习本教程的目标不是“掌握某个工具”,而是建立一套思维方式:怎么发现问题、怎么拆解问题、怎么和 AI 协作解决问题。
教程大纲
本教程分为六个部分,外加技术附录。前三部分面向所有用户,后三部分面向开发者与进阶创造者。
第一部分:AI 协同基础(AI Essentials)
- 思维转变:从“搜索”到“生成”,理解 LLM 的概率式输出。
- 把需求说清楚:Prompting 四要素:目标、上下文、约束、格式。
- 迭代对齐:多轮对话的本质是不断对齐理解。
- 常见陷阱:Context Bloat、Mega-Prompt 等反模式。
第二部分:多模态创作能力(Multimodal Creativity)
- 升级对齐定律:底层模型升级如何降低技巧门槛。
- 视觉创作与理解:图像生成、截图分析、图表解读与设计反馈。
- 动态叙事:视频生成与镜头语言。
- 工作流整合:从文本到多媒体的创作链路。
第三部分:高级 Prompting 与推理增强(Advanced Prompting & Reasoning)
- Chain-of-thought:把复杂问题拆成可检查的假设、依据和结论。
- ReAct:让 AI 在推理、行动和观察之间循环推进任务。
- RAG:先检索外部知识,再基于资料生成回答。
- 模型原生推理:理解强推理模型如何改变提示词写法。
- 准确性控制:幻觉、确认偏误和高风险节点的验证方法。
--- (以下章节面向开发者与进阶创造者) ---
第四部分:AI Coding 实践(AI Coding)
- 自然语言编程:Chat-to-Code 的基本模式。
- 环境配置:Cursor / Windsurf / VS Code + Copilot。
- 项目实战:从零构建并部署一个 Web 应用。
- 局限与边界:架构债务、上下文爆炸、安全盲区。
第五部分:Agent 机制与构建(Agentic System)
- 从脚本、Workflow 到 Agent:先判断什么时候需要 Agent。
- Agent 内部机制:Loop(感知→思考→行动→观察)、Run、Snapshot。
- Memory:短期记忆、长期记忆与工作区检索的边界。
- Tool Use 与 MCP:模型如何与外部世界交互,以及工具该怎么设计。
- 权限模型:Ask / Skip / Deny。
- 安全意识:零信任、数据脱敏、权限边界。
- 动手练习:自己实现一个简单的 Agent Harness。
第六部分:Agent 实践与治理(Agent Practice)
- 配置与治理:Rules、Skills 的使用。
- 指令层级:SOUL.md → AGENTS.md → Rules → Prompt。
- Multi-agent:实现模式(顺序、并行、辩论、分层)与适用场景。
- 评估与调试:任务样本、过程追踪、回归检查。
- 安全与生产化检查:权限、成本、延迟、失败处理。
- M×N Gateway:企业级 Agent 集成的概念。
技术附录
- API 调用与 Function Calling:用 JavaScript 调用 LLM、Embedding、Image、Audio API。
- RAG 技术详解:向量嵌入、HNSW 索引、混合搜索策略。
反馈与建议
如果发现教程中有过时、错误或不清楚的地方,或者有任何问题和建议,欢迎通过 GitHub Issues 提交反馈。
小结
- Agentic AI 的变化,是从“对话”走向“行动”。
- Agent 需要同时满足目标驱动、自主规划、工具使用、环境适应四个条件。
- Prompting 是一切的基础:不管技术怎么演进,精确表达始终有用。
- 升级对齐定律提醒我们:底层模型升级会让很多旧技巧变成细节,把大家重新拉到接近同一个起点。
- 技能比工具重要:建立思维方式,而非记忆工具。
- 高风险流程要保留确定性:能用脚本、测试和审批说清楚的部分,不要全交给 Agent 猜。
- 不要焦虑:Utilization is all you need。
练习
- 用一句话描述一个你希望 AI 帮你完成的小任务,并补充 2 条限制条件。
- 把一个“看起来很大”的目标拆成 3 个可执行的步骤。
- 选一个你想自动化的任务,判断它更适合普通对话、固定流程,还是 Agent,并写下理由。
- 回想你最近一次和 AI 聊天的经历:你是怎么表达需求的?结果满意吗?如果不满意,问题出在哪里?