多模态创作能力（Multimodal Creativity）

很多人第一次被 AI 震撼，不是因为“它会写字”，而是因为它能画图、剪视频、做海报。这就是多模态（Multimodal）的魅力。

但多模态创作远没有“说一句话就出图”那么简单。背后涉及表达方式的演进、控制精度的提升、以及工作流的搭建。这一章，我们把这些事情讲清楚。

图像生成的演进：从调参数到门槛重置

图像生成工具的演进，很能说明升级对齐定律：底层模型一旦升级，很多旧技巧就会从“必须掌握”变成“有需要时再用”。

第一阶段：复杂提示词时代

早期的图像生成工具（如 Midjourney、Stable Diffusion）对提示词极其敏感。你可能需要写这样的东西：

text

A cyberpunk cityscape at dusk, neon lights reflecting on wet streets,
cinematic lighting, ultra-detailed, 8k, volumetric fog,
shot on Sony A7III, 35mm lens, shallow depth of field,
--ar 16:9 --v 5.2 --style raw

每一个参数都有意义，每一个词都可能影响结果。稍微调整一下“volumetric fog”的位置，出来的图可能完全不同。

这时候，技巧门槛很高。你需要了解工具的内部逻辑，记住各种参数的含义，反复调试才能得到满意的结果。

第二阶段：结构化控制时代

随着技术发展，出现了更精细的控制方式。你可以：

指定人物的姿势（通过骨架控制）
指定画面的构图（通过参考图）
指定风格的权重（通过风格混合）
指定局部区域的修改（通过区域控制）

控制方式变得更结构化了。你不再需要在提示词里堆砌大量描述，而是通过更直观的方式告诉 AI 你想要什么。但你仍然需要理解这些控制工具的工作原理。

第三阶段：模型升级后的门槛重置

最新的多模态模型已经能做到：一句话生成质量不错的图片。

text

画一张赛博朋克风格的城市夜景，要有霓虹灯和雨后的街道

很多时候，不需要参数，不需要技术术语，也不需要反复调试。模型会自动补齐一部分过去需要你手动控制的细节。

这就是升级对齐定律在图像生成里的表现：底层模型升级以后，旧时代的大量技巧被重新定价。它们不是完全消失，而是不再是每个人入门时必须跨过的门槛。

那还需要学图像生成的技巧吗？

需要，但重点变了。

早期你需要学的是“工具怎么用”：参数怎么调、模型怎么选。现在你需要学的是“意图怎么表达”：你要什么、给什么参考、怎么描述清楚。

工具的复杂度在降低，但表达的精确度要求没有降低。这和上一章讲的“Prompting 是一切的基础”是一回事。模型会把很多旧技巧变成细节，但不会替你决定你到底想表达什么。

视觉创作：图像生成的基本技能

虽然工具在进化，但有些基本技能始终有用。

给明确的主体

图像生成最怕的是模糊。“画一张好看的图”不如“画一只在书桌上睡觉的橘猫”。

主体越明确，AI 越不容易“自由发挥”到你不需要的方向。

给参考材料

比起用文字描述所有细节，给一张参考图往往更有效。

想要某种风格？给一张风格参考。
想要某种构图？给一张构图参考。
想要某个角色的姿势？给一张姿势参考。

多模态模型能理解图片，这是它最大的优势之一。给素材，比给想象更可靠。

给约束条件

明确告诉你不想要什么，和告诉它你想要什么同样重要。

“不要出现文字”
“背景不要太复杂”
“色调偏冷”

约束能有效减少 AI 的“自由发挥空间”，让结果更可控。

分步迭代

不要期望一次就得到完美结果。试试这个流程：

先出大方向：用简单的描述生成初稿，看 AI 的理解是否和你一致。
再调整细节：基于初稿，告诉 AI 哪里需要改：“人物再大一点”“背景换成夜景”。
最后精修：对满意的版本做局部微调。

这个过程和写代码很像：先跑通 MVP，再迭代优化。

视觉理解：AI 也能读懂图片

多模态不只是“生成图片”。另一类同样重要的能力，是让 AI 识别和理解图片。

你可以把一张图片发给模型，让它回答：

这张图里有什么？
这张截图里的报错是什么意思？
这张表格或图表表达了什么趋势？
这张设计稿里有哪些信息层级和排版问题？

这类能力通常叫视觉理解（Vision Understanding）或图像理解（Image Understanding）。它让 AI 从只能处理文字，变成可以处理“文字 + 图像”的上下文。

视觉理解适合做什么？

最常见的场景有几类。

读截图：把报错截图、产品界面、网页截图发给 AI，让它帮你定位信息、解释界面状态、提出修改建议。

读图表：把柱状图、折线图、仪表盘截图发给 AI，让它总结趋势，指出异常点，再转成文字报告。

读资料：把白板照片、手写笔记、PPT 截图发给 AI，让它整理成结构化文本。

读设计：把海报、封面、UI 设计稿发给 AI，让它检查布局、视觉重点、文案层级和一致性。

这里的关键不是“AI 会看图”本身，而是它可以把图像内容接入后续推理：先看懂图片，再解释、归纳、改写、生成下一步方案。

视觉理解的限制

视觉模型很强，但不要把它当成精确测量工具。

它可能看错细小文字、数字、小图标。
它可能无法准确判断真实尺寸、距离、材质。
它对专业图像的理解需要人来复核，比如医学影像、法律证据、工程图纸。
它能描述图片内容，但不等于拥有图片来源、版权、拍摄时间等外部事实。

所以更稳妥的用法是：让 AI 做第一轮观察、整理和解释，再由人确认关键结论。

动态叙事：视频生成与镜头语言

视频生成不是“把图动起来”，而是“把故事拆成镜头”。

镜头语言基础

你需要学会用镜头语言思考：

景别：远景（展示环境）、中景（展示动作）、近景（展示表情）
镜头运动：推（靠近）、拉（远离）、摇（水平转）、移（跟随）
节奏：快切（紧张）、慢切（舒缓）、长镜头（沉浸）

一个最小可用的分镜清单：

text

镜头 1：城市夜景远景，霓虹灯闪烁，轻微推镜。
镜头 2：近景，女生抬头看雨，表情平静。
镜头 3：中景，女生转身离开，雨声变大。

视频生成的现实

坦率地说，目前的 AI 视频生成还处于早期阶段。你能做的是：

用 AI 生成分镜脚本：这一步 AI 很擅长。
用 AI 生成单帧画面：用来做参考或素材。
用 AI 辅助剪辑和节奏：但最终的视觉把控还是需要人来完成。

不要期望“说一句话就出完整视频”。但也不要低估 AI 在前期策划和素材生成阶段的价值。

工作流整合：把文本、图片、视频串起来

提升效率靠的不是单点工具，而是流程（Workflow）。

一个多模态工作流的例子：

用文本 AI 生成创意大纲。
用文本 AI 把大纲扩展成分镜脚本。
用图像 AI 为每个镜头生成参考画面。
用视觉模型检查参考画面是否符合分镜意图。
用视频工具把画面串成动态故事板。
最后进行剪辑与排版。

每一步都可回退、可修正、可复用。每一步的输出都是下一步的输入。

提醒：多模态创作涉及版权与合规，尤其是商业场景，要明确素材来源与使用范围。

音频生成：AI 也能作曲和说话

除了图像和视频，AI 在音频领域也在快速发展。

音乐生成：像 Suno、Udio 这样的工具，输入一段文字描述就能生成完整的歌曲。你不需要懂乐理，只需要说“一首轻快的民谣，关于夏天和海边”。

语音合成（TTS）：文字转语音已经非常成熟。最新的模型不仅能生成自然的语音，还能控制语气、语速、甚至情感。克隆特定人的声音也已经成为现实，但只能在获得本人明确授权的情况下使用，不能用来冒充真人、误导听众，或绕过平台规则。

语音识别（ASR）：反过来，把语音转成文字也很成熟了。Whisper 等模型能处理多种语言和口音，是会议纪要、字幕生成等场景的基础。

音频生成的门槛比图像和视频更低：大部分工具直接输入文字就行，不需要“镜头语言”或“构图”这样的专业知识。但它的可控性也相对较低：你很难精确控制每一个音符或每一个字的发音。

小结

多模态创作的重点是精确表达，不是“会用工具”。
图像生成工具在演进：从复杂参数到结构化控制到一句话生成，但表达的精度要求没变。
图像生成的要点：明确主体、给参考材料、加约束条件、分步迭代。
视觉理解让 AI 可以读取截图、图表、设计稿和资料图片，但关键结论仍然需要人复核。
视频生成需要镜头语言思维，AI 擅长策划和素材生成，最终把控仍需人工。
音频生成（音乐、语音合成、语音识别）门槛更低，但可控性也相对较低。
工作流让多模态创作从单点操作变成可迭代的系统。

练习

找一个图像生成工具，分别用“一句话”和“详细描述”生成同一主题的图，对比结果差异，思考为什么。
选一张你喜欢的图片，尝试用文字精确描述它的内容：包括主体、风格、构图、色调。然后用这个描述让 AI 生成一张类似的图。
找一张复杂截图或图表，让 AI 先描述它看到了什么，再让它总结三个关键结论，检查哪些地方需要人工修正。
把一个 30 秒短视频的想法拆成 3-5 个镜头，写出每个镜头的景别、运动和内容。

多模态创作能力（Multimodal Creativity） ​

图像生成的演进：从调参数到门槛重置 ​

第一阶段：复杂提示词时代 ​

第二阶段：结构化控制时代 ​

第三阶段：模型升级后的门槛重置 ​

那还需要学图像生成的技巧吗？ ​

视觉创作：图像生成的基本技能 ​

给明确的主体 ​

给参考材料 ​

给约束条件 ​

分步迭代 ​

视觉理解：AI 也能读懂图片 ​

视觉理解适合做什么？ ​

视觉理解的限制 ​

动态叙事：视频生成与镜头语言 ​

镜头语言基础 ​

视频生成的现实 ​

工作流整合：把文本、图片、视频串起来 ​

音频生成：AI 也能作曲和说话 ​

小结 ​

练习 ​

延伸阅读 ​

多模态创作能力（Multimodal Creativity）

图像生成的演进：从调参数到门槛重置

第一阶段：复杂提示词时代

第二阶段：结构化控制时代

第三阶段：模型升级后的门槛重置

那还需要学图像生成的技巧吗？

视觉创作：图像生成的基本技能

给明确的主体

给参考材料

给约束条件

分步迭代

视觉理解：AI 也能读懂图片

视觉理解适合做什么？

视觉理解的限制

动态叙事：视频生成与镜头语言

镜头语言基础

视频生成的现实

工作流整合：把文本、图片、视频串起来

音频生成：AI 也能作曲和说话

小结

练习

延伸阅读