2025 年 AI 内容生成工具百花齐放,光是主流模型就有十几个,参数语法各不相同。到底该用哪个?提示词怎么写?
这篇文章整理了 6 大生图模型 + 5 大生视频模型 的完整使用指南,从选型到出图到排错,一篇覆盖。文末还附上了一组实际 AI 生图案例,带你看看 2025 年 AI 生图的真实水平和仍然存在的问题。
第一章:先选对工具
工具选对,效率翻倍。不同任务适合不同模型,以下两张选择矩阵帮你 30 秒定位。
生图模型选择矩阵
| 我的需求 | 推荐模型 | 核心理由 |
|---|---|---|
| 最高艺术质感、电影感 | Midjourney v7 | 美学表达业界第一,风格强烈 |
| 最接近真实照片 | FLUX 1.1 Pro | 细节、光线、材质质感最接近现实 |
| 图片里需要清晰可读的文字 | GPT Image / Ideogram | 文字渲染准确率 90%+ |
| 修改/编辑已有图片 | FLUX Kontext | 自然语言指令式编辑,无需蒙版 |
| 商业用途、零版权风险 | Adobe Firefly | 唯一使用完整授权数据集训练 |
| 完全自定义/本地部署 | Stable Diffusion | 开源免费,可 LoRA 微调 |
| 保持角色外观跨图一致 | MJ v7 + –oref | Omni Reference 角色一致性最强 |
| 批量生产、API 自动化 | FLUX API / GPT Image API | MJ 无公开 API,自动化必须选 API 模型 |
| 复杂信息图 / 数据可视化 | Gemini 3 Pro Image | 推理模式 + 实时搜索,可调用真实数据 |
| 多素材参考品牌一致性 | Gemini 3 Pro Image | 支持最多 14 张参考图 |
| 创意探索、快速灵感发散 | MJ v7 (–c 高值) | 高混沌度输出多样风格 |
| 商业海报 + 精准排版文字 | Ideogram v2 | 文字布局和海报构图综合最强 |
生视频模型选择矩阵
| 我的需求 | 推荐模型 | 核心理由 |
|---|---|---|
| 角色说话并嘴型同步 | Sora 2 / Kling 3.0 / Veo 3.1 | 三者均支持原生音频 |
| 精确控制某元素的运动路径 | Kling 3.0 Motion Brush | 独家功能:直接手绘运动轨迹 |
| 让角色模仿特定动作/舞蹈 | Kling 3.0 / Seedance 2.0 | 上传参考视频,AI 自动迁移肢体动作 |
| 精确控制镜头运动 | Hailuo 2.3 | 15 种运镜标签,推拉摇移升降最稳定 |
| 指定画面开头和结尾帧 | Hailuo 2.3 / Veo 3.1 | 首尾帧控制最成熟 |
| 在已有视频里增删物体 | Veo 3.1 Flow | 物体增删 + 自动背景重建 |
| 混合多种素材(图+音+视频) | Seedance 2.0 | 4 路输入 + @ 绑定系统 |
| 2K 超高清最终交付 | Seedance 2.0 | 原生 2K(2048x1080) |
| 生成最长的视频内容 | Veo 3.1 链式续写 | 可达 148 秒 |
快速决策指南:极致画质 → MJ v7 | 极致照片感 → FLUX | 精确文字 → GPT Image / Ideogram | 精确镜头 → Hailuo | 精确运动 → Kling | 最多素材输入 → Seedance
第二章:通用提示词公式

不管用哪个模型,一个好的提示词都应该包含六个要素。记住这个公式:
[镜头/视角] + [主体描述] + [动作/状态] + [场景/背景] + [光线] + [风格/情绪]
低效 vs 高效写法对比
| 低效写法 | 高效写法 |
|---|---|
| “一个女人站在海边” | “低角度仰拍,穿白色连衣裙的年轻女性,头发随海风飘动,站在夕阳下的礁石上,金色逆光,胶片质感,忧郁,电影感” |
| “城市夜景” | “从 300 米高空缓缓俯拍,香港维港夜景,璀璨霓虹倒映水面,轻微雾霭,航拍质感,震撼,大气” |
| “一个人走路” | “跟拍视角,身着黑色风衣的中年男性,在秋天落叶遍地的公园小路上缓步前行,黄昏暖调侧光,孤独,文艺,慢镜头” |
六要素速查词典
| 镜头 / 视角 | 光线 | 风格 / 情绪 |
|---|---|---|
| 远景 Wide shot — 全景交代环境 | 黄金时刻 Golden hour — 温暖自然 | 电影感 Cinematic |
| 特写 Close-up — 局部细节 | 蓝调时刻 Blue hour — 冷清神秘 | 胶片质感 Film grain |
| 俯拍 Bird’s eye — 高处俯瞰 | 侧逆光 Rim lighting — 电影质感 | 赛博朋克 Cyberpunk |
| 仰拍 Low angle — 强调高大威严 | 霓虹打光 Neon lights — 赛博风格 | 港风复古 HK retro |
| 跟拍 Tracking shot — 动感随行 | 暖色台灯 Candlelight — 室内温馨 | 日系小清新 Japanese minimal |
| 主观视角 POV — 第一人称沉浸 | 散射光 Diffused light — 柔和无影 | 水墨风 Ink wash painting |
| 航拍 Drone shot — 宏大壮阔 | 硬光 Hard light — 对比强烈 | 商业广告感 Commercial look |
| 主体描述技巧 | 场景 / 背景 | 动作 / 状态 |
|---|---|---|
| 年龄段:青年 / 中年 / 老年 | 时间段:清晨 / 黄昏 / 深夜 | 静止:站立 / 坐着 / 倚靠 |
| 着装:具体材质 + 颜色 | 天气:晴天 / 阴天 / 雨天 | 行走:散步 / 快步 / 奔跑 |
| 神态:表情 + 眼神方向 | 地点:城市 / 自然 / 室内 | 互动:对话 / 凝视 / 触碰 |
| 发型:长短 + 颜色 + 状态 | 季节:春夏秋冬 + 植被变化 | 情绪动作:大笑 / 哭泣 / 沉思 |
| 民族:写具体民族特征 | 虚化程度:深景深 / 浅景深 | 视频:精确描述运动起止点 |
五条核心原则
- 精 > 多 —— 10 个精准词 > 30 个模糊词
- 具体 > 抽象 —— “BMW 7 系车内皮质方向盘” > “豪华汽车”
- 情感词放末尾 —— 模型最后读到的词权重最高
- 英文效果更好 —— 大多数模型对英文 Prompt 响应更稳定
- 一次只做一件事 —— 复杂场景拆分成多个 Prompt 分别生成
第三章:生图模型详解

Midjourney v7 — 艺术质感第一
美学表达最强 · Omni Reference 角色一致性旗舰
参数速查
| 参数 | 含义 | 常用值 | 建议 |
|---|---|---|---|
--ar | 宽高比 | 16:9 / 3:4 / 1:1 / 9:16 | 先定好用途 |
--v 7 | 版本 | 7 | 始终指定,避免版本升级后风格漂移 |
--s | 风格化程度 | 0~1000(默认 100) | 探索用 300-600,精准执行用 50-150 |
--c | 混沌度 | 0~100(默认 0) | 灵感发散用 30-60,批量交付保持 0 |
--q | 渲染质量 | 0.25 / 0.5 / 1 / 2 | 交付用 --q 2,草稿用 --q 0.5 |
--no | 排除内容 | text, watermark, blur | 必加:text, watermark, extra limbs |
--seed | 随机种子 | 12345 | 固定种子可复现,系列图必用 |
--oref | 外观参考 | URL + --ow 80 | ow=100 保留全部外观,ow=0 仅保留面部 |
--sref | 风格参考 | URL + --sw 300 | sw 越高越接近参考风格 |
Omni Reference(–oref)角色一致性
V7 旗舰功能,取代旧版 --cref。将同一角色/物体的外观保持在多张不同场景的图片中。
基础语法:[场景描述] --oref [参考图URL] --ow [0-100]
--ow 100(默认):复制参考图的全部外观(面部+服装+配饰)
--ow 50:保留面部和主要特征,允许服装变化
--ow 0:仅保留面部,完全换装
最佳实践:
- 参考图用 MJ 自身生成的角色效果最稳定
- 参考图尽量正面、清晰、无遮挡
- 可叠加
--sref同时锁定风格
Style Reference(–sref)风格锁定
把一张图的视觉风格(色调/笔触/氛围)应用到新内容上:
[内容描述] --sref [风格参考图URL] --sw [0-1000]
数字风格代码:--sref 12345
随机风格探索:--sref random
完整示例
# 艺术人像
cinematic portrait of a woman in a misty forest,
soft golden light, 35mm film, shallow depth of field
--ar 3:4 --v 7 --s 300 --q 2
# 系列角色(保持外观一致)
the same adventurer woman exploring ancient ruins, torchlight
--oref https://example.com/character.jpg --ow 80
--ar 16:9 --v 7 --s 200
# 风格迁移(Ghibli 画风)
a young boy reading a book under a giant tree, countryside
--sref https://example.com/ghibli.jpg --sw 500
--ar 16:9 --v 7 --no realistic, photo
FLUX 系列(含 Kontext)— 照片真实感最强
开源可本地部署 · 指令式图片编辑
版本对照
| 版本 | 定位 | 速度 | 说明 |
|---|---|---|---|
| FLUX 1.1 Pro | 云端旗舰 | ~4.5 秒 | 最高质量,商业摄影感最强 |
| FLUX Dev | 本地研究 | ~30-60 秒 | 开源,12~24GB VRAM,可 LoRA 微调 |
| FLUX Schnell | 速度优先 | ~1-2 秒 | 最快,快速草稿首选 |
| FLUX Kontext | 图片编辑 | ~6-10 秒 | 指令式修改已有图片,融合自然 |
FLUX Kontext 指令式编辑
Kontext 与传统 Inpainting 的本质区别:不需要画蒙版,直接用自然语言描述要改什么。
| 编辑类型 | 示例指令 | 注意事项 |
|---|---|---|
| 颜色替换 | “Change the car color to deep red” | 指定准确颜色词 |
| 物体删除 | “Remove the person in the background” | AI 自动重建背景 |
| 物体替换 | “Replace the coffee cup with orange juice” | 替换物体大小/形状相近 |
| 文字修改 | “Change the sign text to OPEN” | 比其他编辑模型更准确 |
| 风格迁移 | “Make this look like watercolor painting” | 风格词越具体越好 |
| 局部修复 | “Fix the distorted hands naturally” | 手部修复常用 |
好的写法:“Change the pink hat to a golden crown, keep the dog’s expression and pose exactly the same”
差的写法:“Edit the image a bit”(太模糊)
GPT Image — 最懂自然语言
文字渲染最准确 · 复杂构图执行力最强
GPT Image 的核心优势在于自然语言理解和精确文字渲染:
| 优势场景 | 说明 |
|---|---|
| 图内精确文字 | 使用 “exact text:”, “reads:”, “the text says:” 强调文字内容 |
| 复杂空间构图 | 直接用口语描述空间布局,模型理解最强 |
| 品牌设计稿 | 精确执行名称、布局、配色要求 |
| 信息图表 | 步骤图、流程图等结构化内容 |
文字渲染技巧:每张图最多 2-3 处文字效果最好。
Adobe Firefly — 商业版权安全
唯一授权训练数据 · Photoshop 深度集成
核心价值:Firefly 是唯一使用 Adobe Stock(完整版权授权)数据集训练的商用模型,生成内容可商用无版权纠纷。
Generative Fill(创成式填充)使用指南:
| 操作场景 | 操作步骤 | 注意事项 |
|---|---|---|
| 扩展边界 | 框选外空白 → “继续这片场景” | 增加不超过 50% 效果更自然 |
| 替换背景 | 套索选中天空 → 输入新描述 | 选区包含少量边缘像素 |
| 静默删除 | 框选物体 → 不输入文字 → 生成 | 自动重建背景纹理 |
| 添加元素 | 空白区画选区 → 输入内容 | 光影方向与现有光源一致 |
| 产品换背景 | 抠出产品 → 选背景 → 输入场景 | 配合 “keep product lighting consistent” |
局限性:风格相对保守,极端艺术风格不如 MJ;写实感不如 FLUX。
Ideogram — 文字图片渲染王者
文字渲染准确率约 90%(行业领先),适用于需要精确文字的海报、标签、封面设计。
# 海报设计
"A concert poster for a jazz festival,
the title text reads exactly: JAZZ NIGHT 2026,
below it: Every Friday, 8PM,
art deco style, gold and black colors, elegant typography"
# 产品标签
"A coffee bag label, brand name: MORNING FOG in elegant script,
subtitle: Single Origin Ethiopia,
kraft paper texture, minimalist design, warm brown tones"
Stable Diffusion — 开源免费 · 完全自定义
SD 对 Tag 式提示词响应最好,使用英文关键词逗号分隔,括号权重语法 (keyword:1.3)。
# 正向提示词
masterpiece, best quality, 8k, (photorealistic:1.2), 1girl, solo,
beautiful face, long black hair, white dress,
standing in a sunflower field, (golden hour:1.3),
bokeh background, (film grain:0.8), cinematic lighting
# 负向提示词(必加)
low quality, blurry, distorted, bad anatomy, extra limbs,
watermark, text, ugly, deformed, (worst quality:1.4),
(bad hands:1.3), missing fingers, extra digit
LoRA 常用场景:角色 LoRA(固定 IP 外观)、风格 LoRA(固定绘画风格)、物体 LoRA(固定产品形象)。
Gemini 3 Pro Image — 推理驱动生图
支持 14 张参考图 · 原生 4K · Google 实时搜索接地
与其他生图模型最大的本质区别:推理驱动。模型在落笔前先生成"思考草图",逐步推导构图和光线逻辑,复杂场景效果显著优于同类。
独有能力
| 能力 | Gemini 3 Pro Image | 其他模型 |
|---|---|---|
| 推理生成 | Thinking Mode,先推导再生成 | 直接生成,复杂指令常失效 |
| 实时搜索 | 可调用 Google Search 获取真实数据 | 所有其他模型均无此能力 |
| 参考图 | 最多 14 张(5 人 + 6 物体) | MJ –oref 1 张 |
| 分辨率 | 原生 4K(4096x4096) | MJ/FLUX 最高约 2K |
| 多轮编辑 | 原生对话式编辑 | FLUX Kontext 类似但无推理 |
写法关键:叙事式描述,不要堆词
# 好的写法(叙事式)
"A wide establishing shot of a rain-soaked Tokyo intersection at night.
A lone figure in a yellow raincoat stands under a flickering streetlamp.
Neon signs reflect in the puddles. Shot in the style of a cinematic thriller."
# 差的写法(关键词堆砌)
"tokyo night rain neon cyberpunk aesthetic 4k ultra realistic masterpiece"
Search Grounding 实时搜索
"Use search to find today's weather in Shanghai
and visualize it as a modern forecast infographic"
"Search for Apple's latest product lineup
and create a clean comparison infographic"
14 张参考图品牌一致性工作流
最多支持 14 张参考图 = 5 张人物 + 6 张物体 + 3 张风格。适合品牌全套视觉物料一次生成:
- 品牌 Logo 图(1 张)→ 锁定品牌标识
- 产品图(3 张,不同角度)→ 锁定产品外观
- 主视觉风格图(2 张)→ 锁定色彩和美学
- 模特参考图(2 张)→ 锁定人物形象
第四章:生视频模型详解

Sora 2(OpenAI)— 原生音频 + 续写 120s
提示词公式
[镜头描述], [主体描述], [动作], [场景], [光线], [风格]
# 纯画面
Wide tracking shot, a woman in a red dress walks slowly
through a foggy forest at dawn, golden light filtering through trees,
cinematic, 35mm film grain
# 含对话台词
昏黄书房里,一位老人坐在壁炉边,慈祥地看向镜头。
He says warmly:
"I still remember when I was young..."
台词技巧:英文嘴型同步更好 · 每 4 秒约 1~2 句 · 用 “says warmly:” “whispers:” 指定情绪
续写规则:单次不超过 20 秒 · 最多续写 6 次 · 总计可达 120 秒
编辑规则:每次只改一个元素,修改越精确保留原有动态越稳定。
Hailuo 2.3(MiniMax)— 15 种运镜标签
精确镜头控制 · 首尾帧 · 主体参考
运镜指令标签全量速查
| 类别 | 标签 | 含义 | 适用场景 |
|---|---|---|---|
| 平移 | [左移] / [右移] | 镜头水平移动 | 横向跟随人物 |
| 推拉 | [推进] / [拉远] | 镜头前进/后退 | 推进营造紧张感 |
| 升降 | [上升] / [下降] | 镜头垂直移动 | 上升揭示高度 |
| 俯仰 | [上摇] / [下摇] | 镜头上下旋转 | 上摇看高处 |
| 旋转 | [左摇] / [右摇] | 镜头左右旋转 | 扫视全景空间 |
| 变焦 | [变焦推近] / [变焦拉远] | 焦距变化 | 营造压迫感 |
| 特殊 | [晃动] / [跟随] / [固定] | 手持/跟拍/静止 | 纪录片/跟拍/对话 |
运镜标签用法
| |
注意:S2V 主体参考不支持同时使用运镜标签。
Kling 3.0(快手)— Motion Brush 独家
画轨迹控制运动 · 动作迁移 · 文字渲染最强
Motion Brush — 所有其他模型均没有此能力
操作流程:
- 上传或生成参考图
- 用画笔圈选要运动的元素(最多 6 个区域)
- 为每个区域画出运动轨迹方向
- 用 Static Brush 涂抹不想运动的区域
- 写提示词描述整体风格 → 生成
典型场景:只让水流动但树木静止、只让人物走动但背景不变、控制烟雾飘散方向。
Motion Reference — 动作迁移
上传 3~30 秒参考动作视频 + 角色图 → 角色完整模仿参考视频的肢体动作。
Draft Mode:速度快 5~20 倍,积分消耗少。推荐先 Draft 验证 → 满意后切高质量。
Veo 3.1(Google)— 链式续写 148s
多图素材参考 · Flow 可视化编辑
Ingredients to Video
同时上传最多 3 张参考图:参考图 1 → 角色外观 | 参考图 2 → 场景风格 | 参考图 3 → 视觉色调。配合音频输入,视频节奏自动适配音乐节拍。
Flow 编辑器
- 拖拽调整场景顺序
- 添加或删除画面中的物体(自动重建背景)
- 精修音效和背景音乐
- 链式续写(每次 +7~8 秒,最多到 148 秒)
- 首尾帧精确控制场景过渡
Seedance 2.0(字节跳动)— 4 路输入
@ 绑定系统 · 原生 2K · 音视频联合生成
核心独特能力:@ 参考绑定系统,将具体素材绑定到提示词里的特定元素上。
# 单角色参考
"@主角 walks through a rainy Tokyo street at night, neon reflections, cinematic"
# 多素材绑定
"@角色 stands on a rooftop at sunset, styled like @风格参考图, music paced to @背景音乐"
# 4 路输入(典型广告场景)
品牌 VI 图(定色调)+ 产品图(定主体)+ 背景音乐(定节奏)+ 动作参考视频(定运动)
→ 四路约束同时生效,一次生成完整广告片
分辨率优势:原生 2K(2048x1080),无需后期放大。
第五章:进阶技巧
短 vs 长提示词选择策略
| 长度 | 效果 | 适用阶段 |
|---|---|---|
| < 30 字 | AI 自由发挥,结果随机 | 灵感探索 |
| 30~80 字 | 平衡可控性与创意 | 常规生产 |
| > 100 字 | 高度忠实执行,结果稳定 | 交付阶段 |
一次只做一件事
# 错误:太复杂
"她一边唱歌一边跳舞,镜头从近到远,然后她独自坐在窗边哭泣,最后推远镜头"
# 正确:拆分为 3 段
段 1:"近景,她在舞台演唱,聚光灯,热烈激昂"
段 2:"中景固定镜头,她独自坐在更衣室窗边,夜灯,沉默"
段 3:"俯拍慢速拉远,空旷的舞台,只留下一束追光"
→ 三段分别生成后剪辑拼接
先草稿再精稿
| 模型 | 草稿功能 | 建议 |
|---|---|---|
| MJ v7 | --draft 模式 | 测试构图,满意后 --q 2 正式生成 |
| Kling 3.0 | Draft Mode | 快 5~20 倍,验证后切高质量 |
| Veo 3.1 | Veo 3 Fast | 480p 预览,确认后切高分辨率 |
| Sora 2 | sora-2 标准版 | 测试满意后换 sora-2-pro |
| FLUX | FLUX Schnell | 快速出图验证,满意后切 1.1 Pro |
负向提示词
生图通用:low quality, blurry, distorted, bad anatomy, extra limbs, watermark, text
SD 专用:(worst quality:1.4), (bad quality:1.3)
生视频(Veo 支持 negativePrompt):no watermark, no subtitles, no jump cuts, no sudden camera movement, no blurry faces
保持一致性方法论
| 一致性需求 | 推荐方法 | 操作 |
|---|---|---|
| 相同构图复现 | 固定 --seed 值 | 记录成功案例的 seed |
| 生图跨图角色一致 | MJ --oref / Kontext | 上传角色图 + 调节 ow |
| 生视频人物面孔一致 | Hailuo S2V / Kling Element Reference | 上传清晰正面人物照 |
| 系列图片风格统一 | MJ --sref / Ideogram Style Ref | 上传风格参考图 |
| 生视频动作一致 | Kling Motion Ref / Seedance @动作视频 | 上传标准动作视频 |
| 品牌 IP 角色一致 | SD + 角色 LoRA 微调 | 训练专属 LoRA |
第六章:12 种场景模板
以下模板直接复制使用,将【】内内容替换为你的具体描述。
人物情感(生图)
[近景/中景][固定镜头],[外貌描述],
在[场景]中[动作/状态],[表情变化],
[光线类型],[色调],电影感,浅景深。
风景空镜(生图/视频)
[镜头运动方式],[具体地点/场景],
[时间:清晨/黄昏/深夜],[天气状况],
[最有特点的视觉细节],[光线],震撼,大气。
商业产品(生图/视频)
[产品名称]广告风格,[背景颜色/材质],
镜头[绕产品旋转/从上往下扫/微距特写],
[光线打法:侧光/顶光/环形光],高端,精致,商业质感。
多人对话(生视频)
[场景描述],[光线],[情绪基调]。
[人物A]([外貌描述])says: "[台词]"
[人物B]([外貌描述])replies: "[台词]"
[背景音效描述]
海报设计(生图)
A [type] poster for [event/brand/product],
the title text reads exactly: "[TITLE TEXT]",
subtitle: "[subtitle text]",
[style: art deco/minimalist/retro],[color scheme]
更多场景
- 动作场景 → 广角/跟拍/手持 + 速度描述(慢动作/快切)
- 角色 IP → 保持一致的外貌特征 + 风格指定(推荐 MJ –oref)
- 城市街头 → Hailuo 运镜标签 + 赛博/港风/日系
- 科技感 → 深色背景 + 发光效果 + 全息投影
- 美食饮品 → 专业食品摄影角度 + 自然窗光(推荐 FLUX)
- 数据可视化 → 清晰标签 + 简洁设计(推荐 GPT Image / Gemini)
- 建筑空间 → 视角选择(等距/鸟瞰/透视)+ 渲染质感(推荐 FLUX)
第七章:常见问题解决手册
| 问题 | 原因 | 解决方案 |
|---|---|---|
| 生成内容与预期差距大 | Prompt 太模糊 | 补充镜头+主体+光线,用第二章公式 |
| 图片文字模糊/错误 | 模型文字渲染差 | 换 GPT Image 或 Ideogram |
| 人物动作扭曲变形 | 单帧动作太复杂 | 拆分多段,每段一个简单动作 |
| Hailuo 运镜不准 | 用了自然语言描述 | 必须用 [推进] [拉远] 标签语法 |
| 视频时间太短 | 单次有时长限制 | Sora 2 续写 120s,Veo 3.1 续写 148s |
| 人物换场景就变脸 | 没锁定参考图 | 用 S2V / Element Reference / @ 绑定 |
| 结果太随机不稳定 | 控制维度不够 | 加运镜+参考图+首尾帧+固定 seed |
| 商业用途版权担忧 | 训练数据问题 | 只用 Adobe Firefly |
| 编辑已有图片效果差 | 工具不擅长编辑 | 换 FLUX Kontext |
| API 批量质量低 | 未针对 API 优化 | 明确指定 photorealistic, 8K, commercial |
| 系列图风格不统一 | 没固定风格参考 | MJ --sref 固定风格图 + 固定 --s 值 |
| 视频抖动/闪烁 | 帧间一致性不足 | 加 “smooth motion, stable camera, no flicker” |
| 等待时间太长 | 没用草稿模式 | 先草稿验证再正式生成 |
| 中文提示词效果差 | 模型对中文理解有差异 | 翻译成英文后使用 |
| 本地 SD 显存不足 | VRAM 低于要求 | FLUX Dev 需 12~24GB,降到 SDXL(8GB)或 SD 1.5(4GB) |
第八章:模型能力速查总表
生图模型能力对比
| 维度 | MJ v7 | FLUX | GPT Image | Firefly | SD | Ideogram | Gemini 3 |
|---|---|---|---|---|---|---|---|
| 艺术质感 | ★★★★★ | ★★★★ | ★★★ | ★★★ | ★★★ | ★★★ | ★★★ |
| 照片真实感 | ★★★★ | ★★★★★ | ★★★★ | ★★★ | ★★★ | ★★★ | ★★★★ |
| 文字渲染 | ★★ | ★★★ | ★★★★★ | ★★★ | ★★ | ★★★★★ | ★★★★★ |
| 图片编辑 | ★★★ | ★★★★★ | ★★★★ | ★★★★★ | ★★★ | ★★ | ★★★★ |
| 角色一致性 | ★★★★★ | ★★★★ | ★★★ | ★★★ | ★★★★ | ★★★ | ★★★★★ |
| 推理生成 | — | — | — | — | — | — | 独有 |
| 实时搜索 | — | — | — | — | — | — | 独有 |
| 商业版权安全 | — | — | — | Firefly 独有 | — | — | — |
| API 可用 | — | 有 | 有 | 有 | 有 | 有 | 有 |
| 免费/开源 | — | 有 | — | — | 有 | — | — |
生视频模型能力对比
| 维度 | Sora 2 | Hailuo 2.3 | Kling 3.0 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|---|
| 原生音频 | 有 | — | 有 | 有 | 有 |
| 运镜控制 | ★★★ | ★★★★★ | ★★★★ | ★★★★ | ★★★★ |
| 画轨迹控制 | — | — | 独有 | — | — |
| 动作迁移 | — | — | 有 | — | 有 |
| 首尾帧 | — | 有 | 有 | 有 | — |
| 视频续写 | 120s | — | — | 148s | — |
| 多路素材输入 | 图片 | 图片 | 图+视频 | 3 图+音频 | 图+音+视频+文 |
| 最高分辨率 | 1080p | 1080p | 4K | 4K | 2K 原生 |
| 文字保真度 | ★★★ | ★★★ | ★★★★★ | ★★★ | ★★★ |
定价速查
| 模型 | 使用方式 | 免费额度 | 付费计划 |
|---|---|---|---|
| Midjourney v7 | Web + Discord | 无 | $10~$120/月,无公开 API |
| FLUX 1.1 Pro | API + 合作平台 | 部分试用 | ~$0.04/张 |
| FLUX Dev | 本地部署 | 完全免费 | 开源,需 12~24GB VRAM |
| GPT Image | ChatGPT + API | Plus 有额度 | $0.04~0.12/张 |
| Adobe Firefly | Web + PS 插件 | 25 积分/月 | 创意云订阅 |
| Stable Diffusion | ComfyUI / A1111 | 完全免费 | 开源;API ~$0.002/张 |
| Ideogram | Web + API | 每日少量 | $7~$16/月 |
| Gemini 3 Pro | AI Studio + Vertex AI | 有免费限额 | 按 token + 图片数 |
| Sora 2 | ChatGPT + API | Plus 有限额 | Pro 无限制 |
| Hailuo 2.3 | Web + API | 注册赠积分 | 积分购买 |
| Kling 3.0 | Web + API | 每日免费 | 订阅 + 积分包 |
| Veo 3.1 | Vertex AI | 无 | 按时长计费 |
| Seedance 2.0 | Web + API | 注册赠积分 | 订阅 + 积分 |
第九章:实战案例 — AI 生图的真实水平与局限
理论讲完了,来看看实际效果。以下是我用多个模型生成的一组古风角色图,目标是为一个"子美传"项目制作侍女角色的视觉素材。通过这组图,可以直观感受当前 AI 生图的能力边界。
角色设定:侍女正面照

这是一张典型的 AI 人像生图——干净的灰色背景、柔光打光、皮肤质感细腻。乍看之下非常真实,但仔细观察会发现一些 AI 生图的典型特征:
- 皮肤过度光滑:锁骨和颈部区域有不自然的高光反射,像涂了一层塑料感的光泽
- 五官略显"完美":AI 生成的人脸往往趋向于"平均美",缺乏真实人物的微小不对称性
- 衣服材质渲染:丝绸质感的衣服在肩部和领口的褶皱逻辑基本正确,但细看仍有不合理之处
实战经验:人像类生图最容易"骗过"人眼,但放大到 100% 看细节就容易露馅。商业用途建议后期修图配合。
多角度一致性测试

这是用同一角色参考图生成的 9 宫格多角度肖像。这张图暴露了当前 AI 生图的一个核心挑战——多视角一致性:
- 正面和侧面基本一致:发型、五官轮廓、肤色保持得不错
- 俯视角度出现问题:第二行第一张俯视角度下,头顶发际线和额头比例发生了变化
- 极端特写失真:右上角的嘴唇微距特写中,嘴唇边缘的皮肤纹理出现了模糊和不自然的融合
- 耳朵细节:多个角度下耳朵的形状和位置有细微不一致
关键发现:AI 在 ±30° 范围内的多角度一致性已经相当好,但超出这个范围(极端俯仰、微距特写)就开始出问题。这也是为什么很多 AI 短片都避免使用极端角度。
角色三视图(FRONT / SIDE / BACK)

这是一张经典的角色设计三视图——正面、侧面、背面。这种图在游戏/动画行业非常常见,用于指导 3D 建模。AI 的表现:
- 正面和侧面:面部特征、发饰、项链等配饰保持了很好的一致性
- 背面的问题:红色薄纱外套在背面的透明度和褶皱逻辑出现了偏差,与正面/侧面不太匹配
- 发饰细节:金色花饰在三个角度下的分布和数量有细微差异,但整体风格一致
- 文字标注:“FRONT”、“SIDE”、“BACK” 的文字渲染清晰准确(这得益于模型的文字渲染能力进步)
实战建议:AI 生成的三视图可以作为概念参考和前期探索,但直接用于 3D 建模参考还不够精确。建议用 AI 出草稿,再手动修正细节。
分镜故事板

这是一组 9 格分镜,讲述侍女在宫殿中的场景——举杯、凝视、转身、红纱飘动。这是 AI 生视频/分镜最实用的应用场景之一。
做得好的地方:
- 整体色调统一:暖金色烛光 + 红色服饰,氛围感很强
- 镜头语言丰富:从远景到特写到背影,构图多样
- 服装风格一致:红色薄纱汉服在所有画面中保持了基本一致
- 道具细节:金色酒杯在特写中的金属质感渲染到位
仍然存在的问题:
- 面部一致性:仔细对比 9 格中的面部,可以发现面型、眉毛、嘴唇在不同角度和光线下有微妙变化——这不是正常的光影变化,而是 AI 重新"生成"了一张略有不同的脸
- 手部渲染:左上角举杯的手,手指和酒杯的接触关系有些不自然
- 空间逻辑:同一个房间的空间布局在不同格之间并不完全一致(家具位置、蜡烛数量有变化)
- 中间空镜头:右下角第二行最右的空镜头中,座椅突然变了样式
核心结论:AI 分镜板作为前期概念探索和导演沟通工具已经非常好用了,但如果要用于正式制作,每一格都需要人工审核和修正。特别是面部一致性和空间连续性,这是当前所有生图/生视频模型的共同短板。
当前 AI 生图的六大局限总结
通过以上实战案例,可以总结出 2025 年 AI 生图的几个核心局限:
| 局限 | 表现 | 影响程度 | 缓解方案 |
|---|---|---|---|
| 面部跨图一致性 | 不同角度/场景下同一角色面部有变化 | 高 | MJ –oref / Kling Element Ref / LoRA |
| 手部渲染 | 手指数量、关节弯曲、抓握关系经常出错 | 高 | 局部重绘 / Kontext 修复 / 后期修图 |
| 空间逻辑连续性 | 同一场景不同镜头的空间布局不一致 | 中 | 固定 seed + 详细场景描述 + 参考图 |
| 皮肤质感过度完美 | 不自然的光泽感、缺乏毛孔等真实细节 | 低 | 后期加噪点/纹理 / SD 负向提示词调节 |
| 极端角度失真 | 俯视、仰视、微距等非常规角度变形 | 中 | 避免极端角度 / 分步生成 |
| 物理规则违反 | 布料穿模、光影矛盾、反射不正确 | 中 | 多次重试 + 人工筛选 |
总的来说:AI 生图在 2025 年已经达到了"远看惊艳、近看有瑕"的水平。对于概念设计、故事板、社交媒体内容、快速原型等场景,完全可以直接使用。但对于需要像素级精确的商业交付(如产品广告大片、影视级 CG),仍然需要 AI + 人工的混合工作流。
选型决策树
我要做什么?
├── 生图
│ ├── 追求极致艺术感 → Midjourney v7
│ ├── 追求照片真实感 → FLUX 1.1 Pro
│ ├── 需要精确文字 → GPT Image / Ideogram
│ ├── 编辑已有图片 → FLUX Kontext
│ ├── 商业用途要版权安全 → Adobe Firefly
│ ├── 本地部署/完全自定义 → Stable Diffusion
│ ├── 信息图/数据可视化 → Gemini 3 Pro Image
│ └── 多素材品牌一致性 → Gemini 3 Pro Image
└── 生视频
├── 角色说话嘴型同步 → Sora 2 / Kling 3.0 / Veo 3.1
├── 精确控制镜头运动 → Hailuo 2.3
├── 精确控制元素运动 → Kling 3.0 Motion Brush
├── 角色模仿动作 → Kling 3.0 / Seedance 2.0
├── 视频里增删物体 → Veo 3.1 Flow
├── 多素材混合输入 → Seedance 2.0
├── 最长视频 → Veo 3.1(148s)
└── 2K 超高清交付 → Seedance 2.0
本手册覆盖 6 大生图模型 + 5 大生视频模型,共 9 章。AI 模型迭代很快,如有更新建议核查各平台官方文档获取最新参数。
第九章实战案例图片由多个 AI 模型生成,其余配图由即梦 4.5(Seedream)生成。

说些什么吧!