AI 文生图提示词写作教程,2026 从描述到精美出图的进阶指南

Q: 我写了提示词为什么出图和想象差很远

最常见的原因是描述太模糊脑子里有具体画面但写出来只剩下 a girl a sunset 这种笼统的词模型只能给你一个平均值。改进方法是按主体场景风格构图光线五个维度逐项补全。其次是缺少风格关键词模型不知道你要照片还是插画还是 3D 出来的风格随机。最后是参数没设长宽比风格化强度负面词都用默认值效果自然不稳定。

Q: Midjourney 和 Stable Diffusion 的提示词写法一样吗

不完全一样。Midjourney 接受自然英文描述加关键词堆叠有自己的 --ar --s --no 等参数体系语法相对简洁。Stable Diffusion 支持权重语法有独立的负面提示词输入框可以做更精细的控制但学习曲线更陡。两者核心思路相通主体场景风格镜头光线这些维度的描述方式可以互相迁移只需要在工具特有的语法和参数上做适配。

Q: 一段提示词最长写多少合适

没有绝对的字数标准但有一个经验范围。一条有效的提示词长度一般在 30 到 80 个单词比较合理涵盖主体场景风格构图光线五大要素。超过 100 个单词之后模型对每个词的权重会被稀释反而效果下降。信息很多时更好的做法是拆成两步先用核心提示词出基础图再用 image to image 或 inpainting 做细节修改。

Q: 负面提示词到底有没有用

在 Stable Diffusion 上非常有用几乎是必备配置。标准模板包括 low quality blurry distorted deformed hands extra fingers watermark text signature 等关键词能明显减少出图翻车。在 Midjourney 上通过 --no 参数也有效果但相比 Stable Diffusion 更克制。DALL-E 这类工具对负面提示词的直接支持较弱更多需要在正向提示词里用精确描述来达到同样目的。核心保留 5 到 10 个高频问题词就够用。

Q: 中文提示词和英文提示词哪个效果更好

目前主流 AI 生图模型的训练数据以英文为主英文提示词在大多数场景下的效果稳定性更好尤其是涉及具体艺术风格相机参数专业术语的时候。中文提示词在 Midjourney 这类工具上也能用模型会先做翻译再生成但翻译过程可能丢失细节。建议直接用英文写提示词不熟练可以先用中文写再用翻译工具转英文然后人工校对一遍专业术语。

🌐 Read in English

📅 2026-05-25 11:29:54 👤 抖文编辑部 💬 7 条评论 👁 39

AI 文生图工具在 2025 年下半年完成了一次明显的能力跃迁,到了 2026 年,Midjourney、Stable Diffusion、DALL-E 这一类主流工具的出图质量已经能撑起不少正经的商用场景。但很多人上手之后会发现一个怪现象,工具是好工具,模型是新模型,自己写出来的提示词却始终拉胯,出来的图要么和想象差十万八千里,要么平庸到没法用。问题几乎都不在工具,而在提示词。提示词是一种相对独立的技能,有自己的语法、节奏和审美。这篇文章把提示词写作从最基础的主体描述,讲到光影构图、镜头参数、负面提示词,以及不同工具的语法差异,让你看完之后能写出真正可复用、出图稳定的提示词。

1 提示词写作的整体思路

在动手写第一条提示词之前,先建立一个总体框架,后面所有细节都挂在这个框架下面。

一个完整的提示词,本质上是在用语言描述一张你脑子里"已经存在"的图。所以写之前要想清楚四件事。第一是画面里有什么主体,人、物、场景、动物。第二是这些主体在做什么,姿态、动作、表情。第三是画面以什么风格呈现,摄影、插画、3D、水墨。第四是镜头怎么拍,视角、构图、距离。把这四个维度想清楚再下笔,出图的命中率会有质的提升。

很多新手只写第一项,a girl、a fisherman、a mountain,然后指望模型猜出剩下的全部信息。模型只能给你一个平均值,这正是新手图"看起来很 AI"的根本原因。进阶写法会把四个维度全部交代清楚,例如 a portrait of an old fisherman, golden hour, 50mm portrait lens, shallow depth of field, cinematic photography。每一个短语都在锁定一个变量,留给模型自由发挥的空间越少,结果越接近你想要的。

2 主体描述要具体到能被画出来

提示词写作的第一道分水岭,就是主体描述够不够具体。模糊的描述带来模糊的结果。a beautiful woman 这种写法没有任何画面感,模型只能根据训练数据给你最常见的样子。具体一点的写法是 a woman in her thirties, long black hair, freckles, wearing a navy linen dress, holding a glass of red wine。每一个细节都把可能的输出空间收窄一截。

具体到什么程度合适,一个简单标准是,你的描述能不能让普通插画师画出大致一致的草图。如果你写 a cat,十个人能画出十只不同的猫,这就太松。如果你写 a fat ginger tabby cat sitting on a vintage radio, looking sideways with sleepy eyes,十个人画出来会高度一致,这就到位了。

对人物,常用维度包括年龄段、发型发色、面部特征、表情、服饰、姿态、手里的物品。对物体,包括材质、颜色、磨损程度、摆放方式。对场景,包括地点类型、天气、季节、时间。一开始照着这份清单逐项问自己一遍,熟练之后会内化成本能。

3 场景和环境塑造氛围

主体说清楚之后,场景和环境决定了整张图的氛围基调。场景描述包括三层。第一层是地点,室内还是室外,具体到什么样的房间或户外环境。例如 a cozy wooden cabin interior, a misty pine forest, a neon-lit Tokyo alley at night。地点本身就带情绪,选对了情绪已经占了一半。

第二层是时间。早晨、中午、黄昏、深夜、blue hour、golden hour,每个时间点对应的光线方向、色温、对比度都不一样。一句 golden hour 加进去整张图光线就温暖了,一句 overcast afternoon 加进去色调会立刻变得柔和阴沉。

第三层是天气和大气状态。fog、mist、rain、snow、dust in the air、light leaks、bokeh、heat haze 这些词会在画面里加一层视觉上的"颗粒",让图看起来更有摄影感而不是干净到失真的塑料感。完整例子,a lone street musician playing violin under a rainy night, neon reflections on wet pavement, fog in the background, low key lighting,出图基本不会偏离主线。

4 风格关键词决定整体调性

风格关键词是提示词里最具有"魔法效应"的一类,一个词改对了,整张图的气质会完全变样。

摄影风格用 photography、photorealistic、film photography、portrait photography,出来的图接近真实照片。插画风格用 illustration、digital painting、watercolor、ink wash、line art,出来的图带明显手绘感。3D 风格用 3D render、octane render、unreal engine,有立体建模感。

进阶玩家会用具体艺术家、电影、流派来锚定风格,例如 in the style of Wes Anderson、shot like a Studio Ghibli film、reminiscent of National Geographic photography。这种"风格借用"在主流模型上命中率都很高,因为这些名字在训练数据里有大量明确的视觉关联。

不要在一条提示词里塞五六种风格,模型会困惑,出来的图风格混乱。一般聚焦一种主风格加一个辅助修饰词就够,例如 cinematic photography with a slight film grain,效果叠加但不打架。

5 构图视角和镜头语言

构图和视角让画面有了"摄影感"还是"快照感"的本质差别。

视角常用关键词包括 close-up 特写、medium shot 中景、wide shot 全景、full body 全身、bird's eye view 俯视、low angle 低角度仰视、Dutch angle 倾斜。低角度让主体显得有力量,俯视让主体显得渺小,Dutch angle 带紧张感。

构图层面可以借用经典摄影法则,rule of thirds 三分构图、leading lines 引导线、symmetrical composition 对称构图、negative space 留白。这些专业术语模型识别得相当好,加进去会让画面更有章法。

镜头语言可以指定具体相机参数。常用焦段如 35mm、50mm、85mm、200mm,焦段越长背景压缩感越强、景深越浅,人像常用 85mm。光圈用 f/1.8、f/2.8 这种写法,数值越小景深越浅。完整例子,a portrait of a young woman, 85mm lens, f/1.4, shallow depth of field, soft bokeh, natural window light from the side,基本锁定了一张专业人像照该有的视觉特征。

6 光线和色彩控制画面情绪

光线是摄影的灵魂,在 AI 出图里同样是控制情绪的最有效杠杆。

光线方向上,front light 正光让画面干净通透,side light 侧光带出立体感,backlight 逆光让主体有发丝光,rim light 轮廓光强调主体边缘。复合术语包括 Rembrandt lighting 伦勃朗光、split lighting 分割光、butterfly lighting 蝴蝶光,这些经典人像布光术语模型识别效果不错。

色温色调上,warm tone 暖调、cool tone 冷调、teal and orange 青橙对比、monochrome 单色、pastel colors 粉彩色、muted colors 低饱和。暖色舒适怀旧,冷色清冷距离感,青橙是好莱坞商业片的标配。

光线强度上,high key 高调画面整体明亮、low key 低调画面整体暗、chiaroscuro 强对比明暗、soft light 柔光。综合例子,a moody portrait of a man smoking, low key lighting, rim light from behind, teal and orange color grading, cinematic atmosphere,出来的图气质会非常接近一张电影海报。

7 负面提示词排除不想要的元素

负面提示词的作用是告诉模型"不要给我画这些",从输出里排除掉某些常见失败元素。经典负面模板包括 low quality, blurry, distorted, deformed hands, extra fingers, watermark, text, signature, jpeg artifacts。这些是 AI 出图最容易翻车的地方,放进负面提示词能明显提高出图质量。

针对人物图,常加 ugly face, asymmetric eyes, bad anatomy, extra limbs。针对风景,常加 oversaturated, cartoonish, plastic look。针对要写实感的图,常加 painting, illustration, 3D render,反向告诉模型不要往这些非写实方向走。

负面提示词不是越多越好,塞太多反向词会让模型束手束脚,有时反而出图变得平庸。建议保留一个核心负面模板,大约 5 到 10 个关键词。Stable Diffusion 有独立的负面提示词输入框,Midjourney 用 --no 参数,DALL-E 这类工具的支持相对弱一些。

8 不同 AI 工具的语法差异

主流 AI 生图工具的提示词语法看起来相似,但细节上有不少差别,熟悉差异能让你的提示词跨工具复用更顺。

Midjourney 的语法相对自由,接受英文自然语言描述,也接受关键词堆叠。它有独特的参数体系,例如 --ar 16:9 设置长宽比、--s 数值控制风格化强度、--no 排除元素、--seed 锁定种子。Midjourney 对艺术风格、电影质感这类视觉气质的还原特别强,截至本文写作时它的最新版本以官方页面为准。

Stable Diffusion 对结构更敏感,支持权重语法,例如 (red dress:1.3) 加强红色裙子的权重,(blurry:0.5) 削弱模糊。它有独立的负面提示词输入框,配合 LoRA、ControlNet 等扩展可以做到极细粒度的控制,但学习曲线更陡。

DALL-E 体系下的工具更偏向自然语言对话风格,提示词写得像在描述一幅画给朋友听。它对长句、复杂叙事的理解强,但对参数化的精细控制不如前两者。实际工作中,很多创作者会把同一个核心 prompt 在不同工具上都跑一遍,选最满意的那一张。

国内用户在手机端跑这种多引擎对照,中文环境下可以试试"灵图"这款 iOS App,把 Midjourney 风格的氛围引擎、Flux 风格的写实引擎、Nano Banana 风格的快速引擎聚合到一个界面里,提示词可以一次输入分别在不同引擎上出图,省去切换 App、配置环境的麻烦。App Store 国区搜"灵图"或者"灵图-AI画图设计"即可下载,提示词工程师做跨引擎对照测试时这种聚合工具会顺手很多。

9 提示词调优的迭代方法

写出第一版提示词只是开始,真正出好图靠的是迭代。

迭代第一原则是一次只改一个变量。如果你一次同时改了主体描述、风格、光线、视角,出图变了你也不知道是哪个改动起的作用。专业玩家会建立对照实验流程,固定其他变量只改一项,跑四到八张图看效果差异,确认这个改动的影响之后再叠加下一项。

第二原则是保留版本记录。每次跑出来的图,把对应的提示词存下来,标注哪一版的哪个细节让效果变好或变差。日积月累你会形成一份自己的提示词词典,知道哪些关键词对自己的项目类型最有效。

第三原则是用 seed 锁定基础形态。当你对某一张图的基础构图满意但想微调细节,把那张图的种子值复制下来,在下一轮里固定种子,只改提示词的某个局部,出来的图会保持非常接近的构图,只在你修改的维度上有变化。这是做系列图、做角色一致性的标准做法。每一组成功的模板整理成 snippet 存起来,下次套用,效率会指数级提升。

常见问题 FAQ

我写了提示词为什么出图和想象差很远

最常见的原因是描述太模糊。你脑子里有具体画面,但写出来只剩下 a girl, a sunset 这种笼统的词,模型只能给你一个平均值,自然和你的具体想象对不上。改进方法是按主体、场景、风格、构图、光线五个维度逐项补全。其次是缺少风格关键词,模型不知道你要照片还是插画还是 3D,出来的风格随机。最后是参数没设,长宽比、风格化强度、负面词都用默认值,效果自然不稳定。

Midjourney 和 Stable Diffusion 的提示词写法一样吗

不完全一样。Midjourney 接受自然英文描述加关键词堆叠,有自己的 --ar、--s、--no 等参数体系,语法相对简洁。Stable Diffusion 支持权重语法,例如 (red dress:1.3) 这种括号加数值的写法,有独立的负面提示词输入框,可以做更精细的控制,但学习曲线更陡。两者核心思路相通,主体、场景、风格、镜头、光线这些维度的描述方式可以互相迁移,只需要在工具特有的语法和参数上做适配。

一段提示词最长写多少合适

没有绝对的字数标准,但有一个经验范围。一条有效的提示词长度一般在 30 到 80 个单词比较合理,涵盖主体、场景、风格、构图、光线五大要素。超过 100 个单词之后,模型对每个词的权重会被稀释,反而效果下降。如果你想表达的信息很多,更好的做法是拆成两步,先用核心提示词出一张满意的基础图,再用 image to image 或 inpainting 在基础图上做细节修改。

负面提示词到底有没有用

在 Stable Diffusion 上非常有用,几乎是必备配置。标准模板包括 low quality, blurry, distorted, deformed hands, extra fingers, watermark, text, signature 等关键词,能明显减少出图翻车。在 Midjourney 上通过 --no 参数也有效果,但相比 Stable Diffusion 更克制。DALL-E 这类工具对负面提示词的直接支持较弱,更多需要在正向提示词里用精确描述来达到同样目的。核心保留 5 到 10 个高频问题词就够用。

中文提示词和英文提示词哪个效果更好

目前主流 AI 生图模型的训练数据以英文为主,英文提示词在大多数场景下的效果稳定性更好,尤其是涉及具体艺术风格、相机参数、专业术语的时候。中文提示词在 Midjourney 这类工具上也能用,模型会先做翻译再生成,但翻译过程可能丢失细节。建议直接用英文写提示词,不熟练可以先用中文写再用翻译工具转英文,然后人工校对一遍专业术语。

📝 本文来自抖文 www.douwen.me ，转载请保留出处。

原文链接：https://www.douwen.me/archives/1179/