Appearance
多模态创作能力(Multimodal Creativity)
很多人第一次被 AI 震撼,不是因为“它会写字”,而是因为它能画图、剪视频、做海报。这就是多模态(Multimodal)的魅力。
但多模态创作远没有“说一句话就出图”那么简单。背后涉及表达方式的演进、控制精度的提升、以及工作流的搭建。这一章,我们把这些事情讲清楚。
图像生成的演进:从调参数到门槛重置
图像生成工具的演进,很能说明升级对齐定律:底层模型一旦升级,很多旧技巧就会从“必须掌握”变成“有需要时再用”。
第一阶段:复杂提示词时代
早期的图像生成工具(如 Midjourney、Stable Diffusion)对提示词极其敏感。你可能需要写这样的东西:
text
A cyberpunk cityscape at dusk, neon lights reflecting on wet streets,
cinematic lighting, ultra-detailed, 8k, volumetric fog,
shot on Sony A7III, 35mm lens, shallow depth of field,
--ar 16:9 --v 5.2 --style raw每一个参数都有意义,每一个词都可能影响结果。稍微调整一下“volumetric fog”的位置,出来的图可能完全不同。
这时候,技巧门槛很高。你需要了解工具的内部逻辑,记住各种参数的含义,反复调试才能得到满意的结果。
第二阶段:结构化控制时代
随着技术发展,出现了更精细的控制方式。你可以:
- 指定人物的姿势(通过骨架控制)
- 指定画面的构图(通过参考图)
- 指定风格的权重(通过风格混合)
- 指定局部区域的修改(通过区域控制)
控制方式变得更结构化了。你不再需要在提示词里堆砌大量描述,而是通过更直观的方式告诉 AI 你想要什么。但你仍然需要理解这些控制工具的工作原理。
第三阶段:模型升级后的门槛重置
最新的多模态模型已经能做到:一句话生成质量不错的图片。
text
画一张赛博朋克风格的城市夜景,要有霓虹灯和雨后的街道很多时候,不需要参数,不需要技术术语,也不需要反复调试。模型会自动补齐一部分过去需要你手动控制的细节。
这就是升级对齐定律在图像生成里的表现:底层模型升级以后,旧时代的大量技巧被重新定价。它们不是完全消失,而是不再是每个人入门时必须跨过的门槛。
那还需要学图像生成的技巧吗?
需要,但重点变了。
早期你需要学的是“工具怎么用”:参数怎么调、模型怎么选。现在你需要学的是“意图怎么表达”:你要什么、给什么参考、怎么描述清楚。
工具的复杂度在降低,但表达的精确度要求没有降低。这和上一章讲的“Prompting 是一切的基础”是一回事。模型会把很多旧技巧变成细节,但不会替你决定你到底想表达什么。
视觉创作:图像生成的基本技能
虽然工具在进化,但有些基本技能始终有用。
给明确的主体
图像生成最怕的是模糊。“画一张好看的图”不如“画一只在书桌上睡觉的橘猫”。
主体越明确,AI 越不容易“自由发挥”到你不需要的方向。
给参考材料
比起用文字描述所有细节,给一张参考图往往更有效。
- 想要某种风格?给一张风格参考。
- 想要某种构图?给一张构图参考。
- 想要某个角色的姿势?给一张姿势参考。
多模态模型能理解图片,这是它最大的优势之一。给素材,比给想象更可靠。
给约束条件
明确告诉你不想要什么,和告诉它你想要什么同样重要。
- “不要出现文字”
- “背景不要太复杂”
- “色调偏冷”
约束能有效减少 AI 的“自由发挥空间”,让结果更可控。
分步迭代
不要期望一次就得到完美结果。试试这个流程:
- 先出大方向:用简单的描述生成初稿,看 AI 的理解是否和你一致。
- 再调整细节:基于初稿,告诉 AI 哪里需要改:“人物再大一点”“背景换成夜景”。
- 最后精修:对满意的版本做局部微调。
这个过程和写代码很像:先跑通 MVP,再迭代优化。
视觉理解:AI 也能读懂图片
多模态不只是“生成图片”。另一类同样重要的能力,是让 AI 识别和理解图片。
你可以把一张图片发给模型,让它回答:
- 这张图里有什么?
- 这张截图里的报错是什么意思?
- 这张表格或图表表达了什么趋势?
- 这张设计稿里有哪些信息层级和排版问题?
这类能力通常叫视觉理解(Vision Understanding)或图像理解(Image Understanding)。它让 AI 从只能处理文字,变成可以处理“文字 + 图像”的上下文。
视觉理解适合做什么?
最常见的场景有几类。
读截图:把报错截图、产品界面、网页截图发给 AI,让它帮你定位信息、解释界面状态、提出修改建议。
读图表:把柱状图、折线图、仪表盘截图发给 AI,让它总结趋势,指出异常点,再转成文字报告。
读资料:把白板照片、手写笔记、PPT 截图发给 AI,让它整理成结构化文本。
读设计:把海报、封面、UI 设计稿发给 AI,让它检查布局、视觉重点、文案层级和一致性。
这里的关键不是“AI 会看图”本身,而是它可以把图像内容接入后续推理:先看懂图片,再解释、归纳、改写、生成下一步方案。
视觉理解的限制
视觉模型很强,但不要把它当成精确测量工具。
- 它可能看错细小文字、数字、小图标。
- 它可能无法准确判断真实尺寸、距离、材质。
- 它对专业图像的理解需要人来复核,比如医学影像、法律证据、工程图纸。
- 它能描述图片内容,但不等于拥有图片来源、版权、拍摄时间等外部事实。
所以更稳妥的用法是:让 AI 做第一轮观察、整理和解释,再由人确认关键结论。
动态叙事:视频生成与镜头语言
视频生成不是“把图动起来”,而是“把故事拆成镜头”。
镜头语言基础
你需要学会用镜头语言思考:
- 景别:远景(展示环境)、中景(展示动作)、近景(展示表情)
- 镜头运动:推(靠近)、拉(远离)、摇(水平转)、移(跟随)
- 节奏:快切(紧张)、慢切(舒缓)、长镜头(沉浸)
一个最小可用的分镜清单:
text
镜头 1:城市夜景远景,霓虹灯闪烁,轻微推镜。
镜头 2:近景,女生抬头看雨,表情平静。
镜头 3:中景,女生转身离开,雨声变大。视频生成的现实
坦率地说,目前的 AI 视频生成还处于早期阶段。你能做的是:
- 用 AI 生成分镜脚本:这一步 AI 很擅长。
- 用 AI 生成单帧画面:用来做参考或素材。
- 用 AI 辅助剪辑和节奏:但最终的视觉把控还是需要人来完成。
不要期望“说一句话就出完整视频”。但也不要低估 AI 在前期策划和素材生成阶段的价值。
工作流整合:把文本、图片、视频串起来
提升效率靠的不是单点工具,而是流程(Workflow)。
一个多模态工作流的例子:
- 用文本 AI 生成创意大纲。
- 用文本 AI 把大纲扩展成分镜脚本。
- 用图像 AI 为每个镜头生成参考画面。
- 用视觉模型检查参考画面是否符合分镜意图。
- 用视频工具把画面串成动态故事板。
- 最后进行剪辑与排版。
每一步都可回退、可修正、可复用。每一步的输出都是下一步的输入。
提醒:多模态创作涉及版权与合规,尤其是商业场景,要明确素材来源与使用范围。
音频生成:AI 也能作曲和说话
除了图像和视频,AI 在音频领域也在快速发展。
音乐生成:像 Suno、Udio 这样的工具,输入一段文字描述就能生成完整的歌曲。你不需要懂乐理,只需要说“一首轻快的民谣,关于夏天和海边”。
语音合成(TTS):文字转语音已经非常成熟。最新的模型不仅能生成自然的语音,还能控制语气、语速、甚至情感。克隆特定人的声音也已经成为现实,但只能在获得本人明确授权的情况下使用,不能用来冒充真人、误导听众,或绕过平台规则。
语音识别(ASR):反过来,把语音转成文字也很成熟了。Whisper 等模型能处理多种语言和口音,是会议纪要、字幕生成等场景的基础。
音频生成的门槛比图像和视频更低:大部分工具直接输入文字就行,不需要“镜头语言”或“构图”这样的专业知识。但它的可控性也相对较低:你很难精确控制每一个音符或每一个字的发音。
小结
- 多模态创作的重点是精确表达,不是“会用工具”。
- 图像生成工具在演进:从复杂参数到结构化控制到一句话生成,但表达的精度要求没变。
- 图像生成的要点:明确主体、给参考材料、加约束条件、分步迭代。
- 视觉理解让 AI 可以读取截图、图表、设计稿和资料图片,但关键结论仍然需要人复核。
- 视频生成需要镜头语言思维,AI 擅长策划和素材生成,最终把控仍需人工。
- 音频生成(音乐、语音合成、语音识别)门槛更低,但可控性也相对较低。
- 工作流让多模态创作从单点操作变成可迭代的系统。
练习
- 找一个图像生成工具,分别用“一句话”和“详细描述”生成同一主题的图,对比结果差异,思考为什么。
- 选一张你喜欢的图片,尝试用文字精确描述它的内容:包括主体、风格、构图、色调。然后用这个描述让 AI 生成一张类似的图。
- 找一张复杂截图或图表,让 AI 先描述它看到了什么,再让它总结三个关键结论,检查哪些地方需要人工修正。
- 把一个 30 秒短视频的想法拆成 3-5 个镜头,写出每个镜头的景别、运动和内容。