AI 生图生视频全模型使用手册：11 个模型从入门到精通

2026-03-24

2025 年 AI 内容生成工具百花齐放，光是主流模型就有十几个，参数语法各不相同。到底该用哪个？提示词怎么写？

这篇文章整理了 6 大生图模型 + 5 大生视频模型 的完整使用指南，从选型到出图到排错，一篇覆盖。文末还附上了一组实际 AI 生图案例，带你看看 2025 年 AI 生图的真实水平和仍然存在的问题。

第一章：先选对工具

工具选对，效率翻倍。不同任务适合不同模型，以下两张选择矩阵帮你 30 秒定位。

生图模型选择矩阵

我的需求	推荐模型	核心理由
最高艺术质感、电影感	Midjourney v7	美学表达业界第一，风格强烈
最接近真实照片	FLUX 1.1 Pro	细节、光线、材质质感最接近现实
图片里需要清晰可读的文字	GPT Image / Ideogram	文字渲染准确率 90%+
修改/编辑已有图片	FLUX Kontext	自然语言指令式编辑，无需蒙版
商业用途、零版权风险	Adobe Firefly	唯一使用完整授权数据集训练
完全自定义/本地部署	Stable Diffusion	开源免费，可 LoRA 微调
保持角色外观跨图一致	MJ v7 + –oref	Omni Reference 角色一致性最强
批量生产、API 自动化	FLUX API / GPT Image API	MJ 无公开 API，自动化必须选 API 模型
复杂信息图 / 数据可视化	Gemini 3 Pro Image	推理模式 + 实时搜索，可调用真实数据
多素材参考品牌一致性	Gemini 3 Pro Image	支持最多 14 张参考图
创意探索、快速灵感发散	MJ v7 (–c 高值)	高混沌度输出多样风格
商业海报 + 精准排版文字	Ideogram v2	文字布局和海报构图综合最强

生视频模型选择矩阵

我的需求	推荐模型	核心理由
角色说话并嘴型同步	Sora 2 / Kling 3.0 / Veo 3.1	三者均支持原生音频
精确控制某元素的运动路径	Kling 3.0 Motion Brush	独家功能：直接手绘运动轨迹
让角色模仿特定动作/舞蹈	Kling 3.0 / Seedance 2.0	上传参考视频，AI 自动迁移肢体动作
精确控制镜头运动	Hailuo 2.3	15 种运镜标签，推拉摇移升降最稳定
指定画面开头和结尾帧	Hailuo 2.3 / Veo 3.1	首尾帧控制最成熟
在已有视频里增删物体	Veo 3.1 Flow	物体增删 + 自动背景重建
混合多种素材（图+音+视频）	Seedance 2.0	4 路输入 + @ 绑定系统
2K 超高清最终交付	Seedance 2.0	原生 2K（2048x1080）
生成最长的视频内容	Veo 3.1 链式续写	可达 148 秒

快速决策指南：极致画质 → MJ v7 | 极致照片感 → FLUX | 精确文字 → GPT Image / Ideogram | 精确镜头 → Hailuo | 精确运动 → Kling | 最多素材输入 → Seedance

第二章：通用提示词公式

提示词工程

不管用哪个模型，一个好的提示词都应该包含六个要素。记住这个公式：

[镜头/视角] + [主体描述] + [动作/状态] + [场景/背景] + [光线] + [风格/情绪]

低效 vs 高效写法对比

低效写法	高效写法
“一个女人站在海边”	“低角度仰拍，穿白色连衣裙的年轻女性，头发随海风飘动，站在夕阳下的礁石上，金色逆光，胶片质感，忧郁，电影感”
“城市夜景”	“从 300 米高空缓缓俯拍，香港维港夜景，璀璨霓虹倒映水面，轻微雾霭，航拍质感，震撼，大气”
“一个人走路”	“跟拍视角，身着黑色风衣的中年男性，在秋天落叶遍地的公园小路上缓步前行，黄昏暖调侧光，孤独，文艺，慢镜头”

六要素速查词典

镜头 / 视角	光线	风格 / 情绪
远景 Wide shot — 全景交代环境	黄金时刻 Golden hour — 温暖自然	电影感 Cinematic
特写 Close-up — 局部细节	蓝调时刻 Blue hour — 冷清神秘	胶片质感 Film grain
俯拍 Bird’s eye — 高处俯瞰	侧逆光 Rim lighting — 电影质感	赛博朋克 Cyberpunk
仰拍 Low angle — 强调高大威严	霓虹打光 Neon lights — 赛博风格	港风复古 HK retro
跟拍 Tracking shot — 动感随行	暖色台灯 Candlelight — 室内温馨	日系小清新 Japanese minimal
主观视角 POV — 第一人称沉浸	散射光 Diffused light — 柔和无影	水墨风 Ink wash painting
航拍 Drone shot — 宏大壮阔	硬光 Hard light — 对比强烈	商业广告感 Commercial look

主体描述技巧	场景 / 背景	动作 / 状态
年龄段：青年 / 中年 / 老年	时间段：清晨 / 黄昏 / 深夜	静止：站立 / 坐着 / 倚靠
着装：具体材质 + 颜色	天气：晴天 / 阴天 / 雨天	行走：散步 / 快步 / 奔跑
神态：表情 + 眼神方向	地点：城市 / 自然 / 室内	互动：对话 / 凝视 / 触碰
发型：长短 + 颜色 + 状态	季节：春夏秋冬 + 植被变化	情绪动作：大笑 / 哭泣 / 沉思
民族：写具体民族特征	虚化程度：深景深 / 浅景深	视频：精确描述运动起止点

五条核心原则

精 > 多 —— 10 个精准词 > 30 个模糊词
具体 > 抽象 —— “BMW 7 系车内皮质方向盘” > “豪华汽车”
情感词放末尾 —— 模型最后读到的词权重最高
英文效果更好 —— 大多数模型对英文 Prompt 响应更稳定
一次只做一件事 —— 复杂场景拆分成多个 Prompt 分别生成

第三章：生图模型详解

模型对比

Midjourney v7 — 艺术质感第一

美学表达最强 · Omni Reference 角色一致性旗舰

参数速查

参数	含义	常用值	建议
`--ar`	宽高比	16:9 / 3:4 / 1:1 / 9:16	先定好用途
`--v 7`	版本	7	始终指定，避免版本升级后风格漂移
`--s`	风格化程度	0~1000（默认 100）	探索用 300-600，精准执行用 50-150
`--c`	混沌度	0~100（默认 0）	灵感发散用 30-60，批量交付保持 0
`--q`	渲染质量	0.25 / 0.5 / 1 / 2	交付用 `--q 2`，草稿用 `--q 0.5`
`--no`	排除内容	text, watermark, blur	必加：text, watermark, extra limbs
`--seed`	随机种子	12345	固定种子可复现，系列图必用
`--oref`	外观参考	URL + `--ow 80`	ow=100 保留全部外观，ow=0 仅保留面部
`--sref`	风格参考	URL + `--sw 300`	sw 越高越接近参考风格

Omni Reference（–oref）角色一致性

V7 旗舰功能，取代旧版 --cref。将同一角色/物体的外观保持在多张不同场景的图片中。

基础语法：[场景描述] --oref [参考图URL] --ow [0-100]

--ow 100（默认）：复制参考图的全部外观（面部+服装+配饰）
--ow 50：保留面部和主要特征，允许服装变化
--ow 0：仅保留面部，完全换装

最佳实践：

参考图用 MJ 自身生成的角色效果最稳定
参考图尽量正面、清晰、无遮挡
可叠加 --sref 同时锁定风格

Style Reference（–sref）风格锁定

把一张图的视觉风格（色调/笔触/氛围）应用到新内容上：

[内容描述] --sref [风格参考图URL] --sw [0-1000]
数字风格代码：--sref 12345
随机风格探索：--sref random

完整示例

# 艺术人像
cinematic portrait of a woman in a misty forest,
soft golden light, 35mm film, shallow depth of field
--ar 3:4 --v 7 --s 300 --q 2

# 系列角色（保持外观一致）
the same adventurer woman exploring ancient ruins, torchlight
--oref https://example.com/character.jpg --ow 80
--ar 16:9 --v 7 --s 200

# 风格迁移（Ghibli 画风）
a young boy reading a book under a giant tree, countryside
--sref https://example.com/ghibli.jpg --sw 500
--ar 16:9 --v 7 --no realistic, photo

FLUX 系列（含 Kontext）— 照片真实感最强

开源可本地部署 · 指令式图片编辑

版本对照

版本	定位	速度	说明
FLUX 1.1 Pro	云端旗舰	~4.5 秒	最高质量，商业摄影感最强
FLUX Dev	本地研究	~30-60 秒	开源，12~24GB VRAM，可 LoRA 微调
FLUX Schnell	速度优先	~1-2 秒	最快，快速草稿首选
FLUX Kontext	图片编辑	~6-10 秒	指令式修改已有图片，融合自然

FLUX Kontext 指令式编辑

Kontext 与传统 Inpainting 的本质区别：不需要画蒙版，直接用自然语言描述要改什么。

编辑类型	示例指令	注意事项
颜色替换	“Change the car color to deep red”	指定准确颜色词
物体删除	“Remove the person in the background”	AI 自动重建背景
物体替换	“Replace the coffee cup with orange juice”	替换物体大小/形状相近
文字修改	“Change the sign text to OPEN”	比其他编辑模型更准确
风格迁移	“Make this look like watercolor painting”	风格词越具体越好
局部修复	“Fix the distorted hands naturally”	手部修复常用

好的写法：“Change the pink hat to a golden crown, keep the dog’s expression and pose exactly the same”

差的写法：“Edit the image a bit”（太模糊）

GPT Image — 最懂自然语言

文字渲染最准确 · 复杂构图执行力最强

GPT Image 的核心优势在于自然语言理解和精确文字渲染：

优势场景	说明
图内精确文字	使用 “exact text:”, “reads:”, “the text says:” 强调文字内容
复杂空间构图	直接用口语描述空间布局，模型理解最强
品牌设计稿	精确执行名称、布局、配色要求
信息图表	步骤图、流程图等结构化内容

文字渲染技巧：每张图最多 2-3 处文字效果最好。

Adobe Firefly — 商业版权安全

唯一授权训练数据 · Photoshop 深度集成

核心价值：Firefly 是唯一使用 Adobe Stock（完整版权授权）数据集训练的商用模型，生成内容可商用无版权纠纷。

Generative Fill（创成式填充）使用指南：

操作场景	操作步骤	注意事项
扩展边界	框选外空白 → “继续这片场景”	增加不超过 50% 效果更自然
替换背景	套索选中天空 → 输入新描述	选区包含少量边缘像素
静默删除	框选物体 → 不输入文字 → 生成	自动重建背景纹理
添加元素	空白区画选区 → 输入内容	光影方向与现有光源一致
产品换背景	抠出产品 → 选背景 → 输入场景	配合 “keep product lighting consistent”

局限性：风格相对保守，极端艺术风格不如 MJ；写实感不如 FLUX。

Ideogram — 文字图片渲染王者

文字渲染准确率约 90%（行业领先），适用于需要精确文字的海报、标签、封面设计。

# 海报设计
"A concert poster for a jazz festival,
the title text reads exactly: JAZZ NIGHT 2026,
below it: Every Friday, 8PM,
art deco style, gold and black colors, elegant typography"

# 产品标签
"A coffee bag label, brand name: MORNING FOG in elegant script,
subtitle: Single Origin Ethiopia,
kraft paper texture, minimalist design, warm brown tones"

Stable Diffusion — 开源免费 · 完全自定义

SD 对 Tag 式提示词响应最好，使用英文关键词逗号分隔，括号权重语法 (keyword:1.3)。

# 正向提示词
masterpiece, best quality, 8k, (photorealistic:1.2), 1girl, solo,
beautiful face, long black hair, white dress,
standing in a sunflower field, (golden hour:1.3),
bokeh background, (film grain:0.8), cinematic lighting

# 负向提示词（必加）
low quality, blurry, distorted, bad anatomy, extra limbs,
watermark, text, ugly, deformed, (worst quality:1.4),
(bad hands:1.3), missing fingers, extra digit

LoRA 常用场景：角色 LoRA（固定 IP 外观）、风格 LoRA（固定绘画风格）、物体 LoRA（固定产品形象）。

Gemini 3 Pro Image — 推理驱动生图

支持 14 张参考图 · 原生 4K · Google 实时搜索接地

与其他生图模型最大的本质区别：推理驱动。模型在落笔前先生成"思考草图"，逐步推导构图和光线逻辑，复杂场景效果显著优于同类。

独有能力

能力	Gemini 3 Pro Image	其他模型
推理生成	Thinking Mode，先推导再生成	直接生成，复杂指令常失效
实时搜索	可调用 Google Search 获取真实数据	所有其他模型均无此能力
参考图	最多 14 张（5 人 + 6 物体）	MJ –oref 1 张
分辨率	原生 4K（4096x4096）	MJ/FLUX 最高约 2K
多轮编辑	原生对话式编辑	FLUX Kontext 类似但无推理

写法关键：叙事式描述，不要堆词

# 好的写法（叙事式）
"A wide establishing shot of a rain-soaked Tokyo intersection at night.
A lone figure in a yellow raincoat stands under a flickering streetlamp.
Neon signs reflect in the puddles. Shot in the style of a cinematic thriller."

# 差的写法（关键词堆砌）
"tokyo night rain neon cyberpunk aesthetic 4k ultra realistic masterpiece"

Search Grounding 实时搜索

"Use search to find today's weather in Shanghai
and visualize it as a modern forecast infographic"

"Search for Apple's latest product lineup
and create a clean comparison infographic"

14 张参考图品牌一致性工作流

最多支持 14 张参考图 = 5 张人物 + 6 张物体 + 3 张风格。适合品牌全套视觉物料一次生成：

品牌 Logo 图（1 张）→ 锁定品牌标识
产品图（3 张，不同角度）→ 锁定产品外观
主视觉风格图（2 张）→ 锁定色彩和美学
模特参考图（2 张）→ 锁定人物形象

第四章：生视频模型详解

视频模型

Sora 2（OpenAI）— 原生音频 + 续写 120s

提示词公式

[镜头描述], [主体描述], [动作], [场景], [光线], [风格]

# 纯画面
Wide tracking shot, a woman in a red dress walks slowly
through a foggy forest at dawn, golden light filtering through trees,
cinematic, 35mm film grain

# 含对话台词
昏黄书房里，一位老人坐在壁炉边，慈祥地看向镜头。

He says warmly:
"I still remember when I was young..."

台词技巧：英文嘴型同步更好 · 每 4 秒约 1~2 句 · 用 “says warmly:” “whispers:” 指定情绪

续写规则：单次不超过 20 秒 · 最多续写 6 次 · 总计可达 120 秒

编辑规则：每次只改一个元素，修改越精确保留原有动态越稳定。

Hailuo 2.3（MiniMax）— 15 种运镜标签

精确镜头控制 · 首尾帧 · 主体参考

运镜指令标签全量速查

类别	标签	含义	适用场景
平移	`[左移]` / `[右移]`	镜头水平移动	横向跟随人物
推拉	`[推进]` / `[拉远]`	镜头前进/后退	推进营造紧张感
升降	`[上升]` / `[下降]`	镜头垂直移动	上升揭示高度
俯仰	`[上摇]` / `[下摇]`	镜头上下旋转	上摇看高处
旋转	`[左摇]` / `[右摇]`	镜头左右旋转	扫视全景空间
变焦	`[变焦推近]` / `[变焦拉远]`	焦距变化	营造压迫感
特殊	`[晃动]` / `[跟随]` / `[固定]`	手持/跟拍/静止	纪录片/跟拍/对话

运镜标签用法

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
# 单个运镜
"镜头缓缓向前推进，拍摄咖啡馆里的女人[推进]"

# 先后发生
"从背后拉远[拉远]，然后转到正面固定[固定]"

# 同时发生（最多 3 个）
"镜头边上升边右移[上升,右移]，俯瞰城市夜景"

# 首尾帧
首帧：春天樱花下的少女（上传图片）
尾帧：秋天银杏下的同一少女（上传图片）
提示词："少女从春走到秋，光线从粉嫩过渡到金黄[拉远]"

注意：S2V 主体参考不支持同时使用运镜标签。

Kling 3.0（快手）— Motion Brush 独家

画轨迹控制运动 · 动作迁移 · 文字渲染最强

Motion Brush — 所有其他模型均没有此能力

操作流程：

上传或生成参考图
用画笔圈选要运动的元素（最多 6 个区域）
为每个区域画出运动轨迹方向
用 Static Brush 涂抹不想运动的区域
写提示词描述整体风格 → 生成

典型场景：只让水流动但树木静止、只让人物走动但背景不变、控制烟雾飘散方向。

Motion Reference — 动作迁移

上传 3~30 秒参考动作视频 + 角色图 → 角色完整模仿参考视频的肢体动作。

Draft Mode：速度快 5~20 倍，积分消耗少。推荐先 Draft 验证 → 满意后切高质量。

Veo 3.1（Google）— 链式续写 148s

多图素材参考 · Flow 可视化编辑

Ingredients to Video

同时上传最多 3 张参考图：参考图 1 → 角色外观 | 参考图 2 → 场景风格 | 参考图 3 → 视觉色调。配合音频输入，视频节奏自动适配音乐节拍。

Flow 编辑器

拖拽调整场景顺序
添加或删除画面中的物体（自动重建背景）
精修音效和背景音乐
链式续写（每次 +7~8 秒，最多到 148 秒）
首尾帧精确控制场景过渡

Seedance 2.0（字节跳动）— 4 路输入

@ 绑定系统 · 原生 2K · 音视频联合生成

核心独特能力：@ 参考绑定系统，将具体素材绑定到提示词里的特定元素上。

# 单角色参考
"@主角 walks through a rainy Tokyo street at night, neon reflections, cinematic"

# 多素材绑定
"@角色 stands on a rooftop at sunset, styled like @风格参考图, music paced to @背景音乐"

# 4 路输入（典型广告场景）
品牌 VI 图（定色调）+ 产品图（定主体）+ 背景音乐（定节奏）+ 动作参考视频（定运动）
→ 四路约束同时生效，一次生成完整广告片

分辨率优势：原生 2K（2048x1080），无需后期放大。

第五章：进阶技巧

短 vs 长提示词选择策略

长度	效果	适用阶段
< 30 字	AI 自由发挥，结果随机	灵感探索
30~80 字	平衡可控性与创意	常规生产
> 100 字	高度忠实执行，结果稳定	交付阶段

一次只做一件事

# 错误：太复杂
"她一边唱歌一边跳舞，镜头从近到远，然后她独自坐在窗边哭泣，最后推远镜头"

# 正确：拆分为 3 段
段 1："近景，她在舞台演唱，聚光灯，热烈激昂"
段 2："中景固定镜头，她独自坐在更衣室窗边，夜灯，沉默"
段 3："俯拍慢速拉远，空旷的舞台，只留下一束追光"
→ 三段分别生成后剪辑拼接

先草稿再精稿

模型	草稿功能	建议
MJ v7	`--draft` 模式	测试构图，满意后 `--q 2` 正式生成
Kling 3.0	Draft Mode	快 5~20 倍，验证后切高质量
Veo 3.1	Veo 3 Fast	480p 预览，确认后切高分辨率
Sora 2	sora-2 标准版	测试满意后换 sora-2-pro
FLUX	FLUX Schnell	快速出图验证，满意后切 1.1 Pro

负向提示词

生图通用：low quality, blurry, distorted, bad anatomy, extra limbs, watermark, text

SD 专用：(worst quality:1.4), (bad quality:1.3)

生视频（Veo 支持 negativePrompt）：no watermark, no subtitles, no jump cuts, no sudden camera movement, no blurry faces

保持一致性方法论

一致性需求	推荐方法	操作
相同构图复现	固定 `--seed` 值	记录成功案例的 seed
生图跨图角色一致	MJ `--oref` / Kontext	上传角色图 + 调节 ow
生视频人物面孔一致	Hailuo S2V / Kling Element Reference	上传清晰正面人物照
系列图片风格统一	MJ `--sref` / Ideogram Style Ref	上传风格参考图
生视频动作一致	Kling Motion Ref / Seedance @动作视频	上传标准动作视频
品牌 IP 角色一致	SD + 角色 LoRA 微调	训练专属 LoRA

第六章：12 种场景模板

以下模板直接复制使用，将【】内内容替换为你的具体描述。

人物情感（生图）

[近景/中景][固定镜头]，[外貌描述],
在[场景]中[动作/状态]，[表情变化],
[光线类型]，[色调]，电影感，浅景深。

风景空镜（生图/视频）

[镜头运动方式]，[具体地点/场景],
[时间：清晨/黄昏/深夜]，[天气状况],
[最有特点的视觉细节]，[光线]，震撼，大气。

商业产品（生图/视频）

[产品名称]广告风格，[背景颜色/材质],
镜头[绕产品旋转/从上往下扫/微距特写],
[光线打法：侧光/顶光/环形光]，高端，精致，商业质感。

多人对话（生视频）

[场景描述]，[光线]，[情绪基调]。

[人物A]（[外貌描述]）says: "[台词]"
[人物B]（[外貌描述]）replies: "[台词]"

[背景音效描述]

海报设计（生图）

A [type] poster for [event/brand/product],
the title text reads exactly: "[TITLE TEXT]",
subtitle: "[subtitle text]",
[style: art deco/minimalist/retro]，[color scheme]

第七章：常见问题解决手册

问题	原因	解决方案
生成内容与预期差距大	Prompt 太模糊	补充镜头+主体+光线，用第二章公式
图片文字模糊/错误	模型文字渲染差	换 GPT Image 或 Ideogram
人物动作扭曲变形	单帧动作太复杂	拆分多段，每段一个简单动作
Hailuo 运镜不准	用了自然语言描述	必须用 `[推进]` `[拉远]` 标签语法
视频时间太短	单次有时长限制	Sora 2 续写 120s，Veo 3.1 续写 148s
人物换场景就变脸	没锁定参考图	用 S2V / Element Reference / @ 绑定
结果太随机不稳定	控制维度不够	加运镜+参考图+首尾帧+固定 seed
商业用途版权担忧	训练数据问题	只用 Adobe Firefly
编辑已有图片效果差	工具不擅长编辑	换 FLUX Kontext
API 批量质量低	未针对 API 优化	明确指定 photorealistic, 8K, commercial
系列图风格不统一	没固定风格参考	MJ `--sref` 固定风格图 + 固定 `--s` 值
视频抖动/闪烁	帧间一致性不足	加 “smooth motion, stable camera, no flicker”
等待时间太长	没用草稿模式	先草稿验证再正式生成
中文提示词效果差	模型对中文理解有差异	翻译成英文后使用
本地 SD 显存不足	VRAM 低于要求	FLUX Dev 需 12~24GB，降到 SDXL（8GB）或 SD 1.5（4GB）

第八章：模型能力速查总表

生图模型能力对比

维度	MJ v7	FLUX	GPT Image	Firefly	SD	Ideogram	Gemini 3
艺术质感	★★★★★	★★★★	★★★	★★★	★★★	★★★	★★★
照片真实感	★★★★	★★★★★	★★★★	★★★	★★★	★★★	★★★★
文字渲染	★★	★★★	★★★★★	★★★	★★	★★★★★	★★★★★
图片编辑	★★★	★★★★★	★★★★	★★★★★	★★★	★★	★★★★
角色一致性	★★★★★	★★★★	★★★	★★★	★★★★	★★★	★★★★★
推理生成	—	—	—	—	—	—	独有
实时搜索	—	—	—	—	—	—	独有
商业版权安全	—	—	—	Firefly 独有	—	—	—
API 可用	—	有	有	有	有	有	有
免费/开源	—	有	—	—	有	—	—

生视频模型能力对比

维度	Sora 2	Hailuo 2.3	Kling 3.0	Veo 3.1	Seedance 2.0
原生音频	有	—	有	有	有
运镜控制	★★★	★★★★★	★★★★	★★★★	★★★★
画轨迹控制	—	—	独有	—	—
动作迁移	—	—	有	—	有
首尾帧	—	有	有	有	—
视频续写	120s	—	—	148s	—
多路素材输入	图片	图片	图+视频	3 图+音频	图+音+视频+文
最高分辨率	1080p	1080p	4K	4K	2K 原生
文字保真度	★★★	★★★	★★★★★	★★★	★★★

定价速查

模型	使用方式	免费额度	付费计划
Midjourney v7	Web + Discord	无	$10~$120/月，无公开 API
FLUX 1.1 Pro	API + 合作平台	部分试用	~$0.04/张
FLUX Dev	本地部署	完全免费	开源，需 12~24GB VRAM
GPT Image	ChatGPT + API	Plus 有额度	$0.04~0.12/张
Adobe Firefly	Web + PS 插件	25 积分/月	创意云订阅
Stable Diffusion	ComfyUI / A1111	完全免费	开源；API ~$0.002/张
Ideogram	Web + API	每日少量	$7~$16/月
Gemini 3 Pro	AI Studio + Vertex AI	有免费限额	按 token + 图片数
Sora 2	ChatGPT + API	Plus 有限额	Pro 无限制
Hailuo 2.3	Web + API	注册赠积分	积分购买
Kling 3.0	Web + API	每日免费	订阅 + 积分包
Veo 3.1	Vertex AI	无	按时长计费
Seedance 2.0	Web + API	注册赠积分	订阅 + 积分

第九章：实战案例 — AI 生图的真实水平与局限

理论讲完了，来看看实际效果。以下是我用多个模型生成的一组古风角色图，目标是为一个"子美传"项目制作侍女角色的视觉素材。通过这组图，可以直观感受当前 AI 生图的能力边界。

角色设定：侍女正面照

侍女正面照

这是一张典型的 AI 人像生图——干净的灰色背景、柔光打光、皮肤质感细腻。乍看之下非常真实，但仔细观察会发现一些 AI 生图的典型特征：

皮肤过度光滑：锁骨和颈部区域有不自然的高光反射，像涂了一层塑料感的光泽
五官略显"完美"：AI 生成的人脸往往趋向于"平均美"，缺乏真实人物的微小不对称性
衣服材质渲染：丝绸质感的衣服在肩部和领口的褶皱逻辑基本正确，但细看仍有不合理之处

实战经验：人像类生图最容易"骗过"人眼，但放大到 100% 看细节就容易露馅。商业用途建议后期修图配合。

多角度一致性测试

多角度肖像

这是用同一角色参考图生成的 9 宫格多角度肖像。这张图暴露了当前 AI 生图的一个核心挑战——多视角一致性：

正面和侧面基本一致：发型、五官轮廓、肤色保持得不错
俯视角度出现问题：第二行第一张俯视角度下，头顶发际线和额头比例发生了变化
极端特写失真：右上角的嘴唇微距特写中，嘴唇边缘的皮肤纹理出现了模糊和不自然的融合
耳朵细节：多个角度下耳朵的形状和位置有细微不一致

关键发现：AI 在 ±30° 范围内的多角度一致性已经相当好，但超出这个范围（极端俯仰、微距特写）就开始出问题。这也是为什么很多 AI 短片都避免使用极端角度。

角色三视图（FRONT / SIDE / BACK）

角色三视图

这是一张经典的角色设计三视图——正面、侧面、背面。这种图在游戏/动画行业非常常见，用于指导 3D 建模。AI 的表现：

正面和侧面：面部特征、发饰、项链等配饰保持了很好的一致性
背面的问题：红色薄纱外套在背面的透明度和褶皱逻辑出现了偏差，与正面/侧面不太匹配
发饰细节：金色花饰在三个角度下的分布和数量有细微差异，但整体风格一致
文字标注：“FRONT”、“SIDE”、“BACK” 的文字渲染清晰准确（这得益于模型的文字渲染能力进步）

实战建议：AI 生成的三视图可以作为概念参考和前期探索，但直接用于 3D 建模参考还不够精确。建议用 AI 出草稿，再手动修正细节。

分镜故事板

这是一组 9 格分镜，讲述侍女在宫殿中的场景——举杯、凝视、转身、红纱飘动。这是 AI 生视频/分镜最实用的应用场景之一。

做得好的地方：

整体色调统一：暖金色烛光 + 红色服饰，氛围感很强
镜头语言丰富：从远景到特写到背影，构图多样
服装风格一致：红色薄纱汉服在所有画面中保持了基本一致
道具细节：金色酒杯在特写中的金属质感渲染到位

仍然存在的问题：

面部一致性：仔细对比 9 格中的面部，可以发现面型、眉毛、嘴唇在不同角度和光线下有微妙变化——这不是正常的光影变化，而是 AI 重新"生成"了一张略有不同的脸
手部渲染：左上角举杯的手，手指和酒杯的接触关系有些不自然
空间逻辑：同一个房间的空间布局在不同格之间并不完全一致（家具位置、蜡烛数量有变化）
中间空镜头：右下角第二行最右的空镜头中，座椅突然变了样式

核心结论：AI 分镜板作为前期概念探索和导演沟通工具已经非常好用了，但如果要用于正式制作，每一格都需要人工审核和修正。特别是面部一致性和空间连续性，这是当前所有生图/生视频模型的共同短板。

当前 AI 生图的六大局限总结

通过以上实战案例，可以总结出 2025 年 AI 生图的几个核心局限：

局限	表现	影响程度	缓解方案
面部跨图一致性	不同角度/场景下同一角色面部有变化	高	MJ –oref / Kling Element Ref / LoRA
手部渲染	手指数量、关节弯曲、抓握关系经常出错	高	局部重绘 / Kontext 修复 / 后期修图
空间逻辑连续性	同一场景不同镜头的空间布局不一致	中	固定 seed + 详细场景描述 + 参考图
皮肤质感过度完美	不自然的光泽感、缺乏毛孔等真实细节	低	后期加噪点/纹理 / SD 负向提示词调节
极端角度失真	俯视、仰视、微距等非常规角度变形	中	避免极端角度 / 分步生成
物理规则违反	布料穿模、光影矛盾、反射不正确	中	多次重试 + 人工筛选

总的来说：AI 生图在 2025 年已经达到了"远看惊艳、近看有瑕"的水平。对于概念设计、故事板、社交媒体内容、快速原型等场景，完全可以直接使用。但对于需要像素级精确的商业交付（如产品广告大片、影视级 CG），仍然需要 AI + 人工的混合工作流。

选型决策树

我要做什么？
├── 生图
│   ├── 追求极致艺术感 → Midjourney v7
│   ├── 追求照片真实感 → FLUX 1.1 Pro
│   ├── 需要精确文字 → GPT Image / Ideogram
│   ├── 编辑已有图片 → FLUX Kontext
│   ├── 商业用途要版权安全 → Adobe Firefly
│   ├── 本地部署/完全自定义 → Stable Diffusion
│   ├── 信息图/数据可视化 → Gemini 3 Pro Image
│   └── 多素材品牌一致性 → Gemini 3 Pro Image
└── 生视频
    ├── 角色说话嘴型同步 → Sora 2 / Kling 3.0 / Veo 3.1
    ├── 精确控制镜头运动 → Hailuo 2.3
    ├── 精确控制元素运动 → Kling 3.0 Motion Brush
    ├── 角色模仿动作 → Kling 3.0 / Seedance 2.0
    ├── 视频里增删物体 → Veo 3.1 Flow
    ├── 多素材混合输入 → Seedance 2.0
    ├── 最长视频 → Veo 3.1（148s）
    └── 2K 超高清交付 → Seedance 2.0

本手册覆盖 6 大生图模型 + 5 大生视频模型，共 9 章。AI 模型迭代很快，如有更新建议核查各平台官方文档获取最新参数。
第九章实战案例图片由多个 AI 模型生成，其余配图由即梦 4.5（Seedream）生成。