图片提示词

1、介绍

从文本到图像的提示工程，比如 DALLE 和 Stable Diffusion!

如何找到最佳的提示词来生成完美的图片是一项特殊的挑战。与文本提示相比，研究如何做到这一点的方法并没有那么成熟。这可能是因为创建对象自身的挑战，这些对象基本上是主观的并且往往缺乏良好的准确性度量方法。但不要担心，社区已经对如何提示各种图像模型有了很大的进展。

本指南涵盖了基本的图像提示技术，并且我们强烈建议您查看本章末尾的优秀资源。此外，我们还提供了一个端到端图像提示过程的示例。

例子

这里，我将通过一个例子说明我是如何为这门课程的封面创建图片的。之前我一直在进行一个深度强化学习神经辐射场项目，使用了低多边形模型，我很喜欢这种低多边形的风格，并且想在这个课程的封面图片中使用它。

我想要在封面图片上展示一个宇航员、一枚火箭和一台电脑。

我对如何创建低多边形图片进行了大量研究，包括在 r/StableDiffusion 和其他网站上查找，但没有找到非常有用的信息。

于是我决定从 DALLE 和提示语 Low poly white and blue rocket shooting to the moon in front of a sparse green meadow（低聚白色和蓝色的火箭射向月球前面稀疏的绿色草地）开始尝试，看看会发生什么。

图片提示词

我认为这些结果对于第一次尝试来说是非常不错的，我特别喜欢左下角的火箭。

接下来，我想要生成同样风格的一台电脑: Low poly white and blue computer sitting in a sparse green meadow（低聚白色和蓝色的电脑坐在稀疏的绿色草地上）

图片提示词

最后，我想要一个宇航员！Low poly white and blue astronaut sitting in a sparse green meadow with low poly mountains in the background （低聚白色和蓝色的宇航员坐在稀疏的绿色草地上，背景是低聚山脉）看起来很奏效。

图片提示词

我认为第二张图还不错。

现在我有了一个宇航员、一个火箭和一个电脑。我对它们很满意，所以我把它们放在了主页上。几天后，经过我的朋友们的反馈，我意识到这些图片的风格不够一致 😔。

我在 r/StableDiffusion 上做了更多的研究，发现人们在使用 “isometric” 这个词。我决定尝试一下这种风格，使用 Stable Diffusion 而不是 DALLE。我还意识到需要在我的提示语中增加更多的修饰语来约束风格。于是我尝试了这个提示语： A low poly world, with an astronaut in white suit and blue visor sitting in a sparse green meadow with low poly mountains in the background. Highly detailed, isometric, 4K（一个低多边形的世界，一个穿着白色西装和蓝色遮阳板的宇航员坐在稀疏的绿色草地上，背景是低多边形的山脉。非常详细，等距，4K）

图片提示词

这些结果不是很好，所以我决定先从「火箭」入手

A low poly world, with a white and blue rocket blasting off from a sparse green meadow with low poly mountains in the background. Highly detailed, isometric, 4K（一个低多边形的世界，一个白色和蓝色的火箭从稀疏的绿色草地上发射，背景是低多边形的山脉。非常详细，等距，4K）

图片提示词

这些结果并不是特别好，但在进行了一些尝试之后，我最终得到了下面的图像

图片提示词

现在我想要一个更好的笔记本电脑

A low poly world, with a white and blue laptop sitting in sparse green meadow with low poly mountains in the background. The screen is completely blue. Highly detailed, isometric, 4K

（一个低多边形的世界，一个白色和蓝色的笔记本电脑坐在稀疏的绿色草地上，背景是低多边形的山脉。屏幕完全是蓝色的。非常详细，等距，4K）

图片提示词

我得到的结果不太一致；虽然我喜欢右下角的那个图像，但我决定走另外一条路线。

A low poly world, with a glowing white and blue gemstone sitting in a sparse green meadow with low poly mountains in the background. Highly detailed, isometric, 4K（一个低多边形的世界，一个发光的白色和蓝色的宝石坐在稀疏的绿色草地与低多边形山的背景。非常详细，等距，4K)

图片提示词

这不是很对，让我们尝试一下魔幻的发光效果。

A low poly world, with a glowing white and blue gemstone magically floating in the middle of the screen above a sparse green meadow with low poly mountains in the background. Highly detailed, isometric, 4K(一个低多边形的世界，一个发光的白色和蓝色宝石神奇地漂浮在屏幕中央，上面是一个稀疏的绿色草地，背景是低多边形的山脉。非常详细，等距，4K)

图片提示词

我喜欢这些图像，但是希望石头在屏幕的中间。

A low poly world, with a glowing blue gemstone magically floating in the middle of the screen above a sparse green meadow with low poly mountains in the background. Highly detailed, isometric, 4K

(一个低多边形的世界，一个发光的蓝色宝石神奇地漂浮在屏幕中央，上面是一个稀疏的绿色草地，背景是低多边形的山脉。非常详细，等距，4K)

图片提示词

在这个阶段，我使用了 Stable Diffusion，让之前的图片对后续的图片产生一些影响。于是我得到了以下结果：

图片提示词

最终，我得到了这个。

A low poly world, with an astronaut in white suite and blue visor is sitting in a sparse green meadow with low poly mountains in the background. Highly detailed, isometric, 4K

(在一个低多边形的世界里，一个穿着白色套装、戴着蓝色遮阳板的宇航员坐在稀疏的绿色草地上，背景是低多边形的山脉。非常详细，等距，4K)

图片提示词

在这一点上，我对我的三张图片之间的风格一致性感到满意，可以在网站上使用它们了。对我来说，主要的收获是这是一个非常反复、不断研究的过程，我必须根据不同的提示和模型进行实验，调整我的期望和想法。

2、样式修饰符

样式修饰符是一些能够产生特定样式的描述符（例如，“带有红色色调”、“玻璃制成”、“用 Unity 渲染”）。它们可以组合在一起，产生更具体的样式。它们可以“包括关于艺术时期、流派和风格，以及艺术材料和媒介、技术和艺术家”的信息。

例子

以下是用 DALLE 生成的一些金字塔，使用这个提示语 pyramid（金字塔）。

图片提示词

另外一些使用 DALLE 生成的金字塔，使用 3 个不同样式修饰符的提示语 A pyramid made of glass, rendered in Unity and tinted red（一个由玻璃制成的金字塔，用Unity渲染并染成红色）

图片提示词

这是一些有用的样式修饰符列表：

photorealistic, painting, digital painting, concept art, octane render, wide lens, 3D render, cinematic lighting, trending on ArtStation, trending on CGSociety, hyper realist, photo, natural light, film grain（逼真, greg rutkowski, christopher nolan，绘画，数字绘画，概念艺术，辛烷值渲染，广角镜头，3D渲染，电影照明，ArtStation趋势，CGSociety趋势，超现实主义，照片，自然光，电影纹理）

注释

Oppenlaender等人将rendered in … 的描述符称为质量增强器，但是我们的工作定义有所不同，因为该修饰符确实会一致地产生特定的 Unity（或其他渲染引擎）样式。因此，我们将该描述符称为样式修饰符。

3、质量增强器

“Quality boosters”是添加到提示中以提高生成图像的某些非特定样式质量的术语。例如，“amazing”、“beautiful”和“good quality”都是质量增强器，可以用于改善生成图像的质量。

回想一下前面一页中使用 DALLE 生成的金字塔以及这个提示语 pyramid。

图片提示词

现在看一下用这个提示生成的金字塔: A beautiful, majestic, incredible pyramid, 4K（一个美丽，雄伟，令人难以置信的金字塔，4K）

图片提示词

它们更为栩栩如生以及令人印象深刻！

这里列出了一些质量增强器:

High resolution, 2K, 4K, 8K, clear, good lighting, detailed, extremely detailed, sharp focus, intricate, beautiful, realistic+++, complementary colors, high quality, hyper detailed, masterpiece, best quality, artstation, stunning（高分辨率，2K, 4K, 8K，清晰，良好的照明，详细，非常详细，焦点清晰，复杂，美丽，逼真+++，互补色，高质量，超详细，杰作，最佳质量，艺术化，令人惊叹）

注释

与前一页上的注释类似，我们对质量增强器的工作定义与 Oppenlaender 等人不同。尽管如此，有时很难准确区分质量增强器和样式修饰符。

4、重复

在提示中重复相同的词语或者类似短语会导致模型在生成的图片中强调该词语。例如，@Phillip Isola 使用 DALLE 生成了这些瀑布：

A beautiful painting of a mountain next to a waterfall..（一幅美丽的画，画的是瀑布旁边的山。）

图片提示词

A very very very very very very very very very very very very very very very very very very very very very very beautiful painting of a mountain next to a waterfall.

（一幅非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常非常美丽的画，画的是瀑布旁边的一座山。）

图片提示词

强调词 “very” 似乎可以提高生成质量！重复也可用于强调主题。例如，如果你想生成一张有外星人的星球图片，使用提示语 A planet with aliens aliens aliens aliens aliens aliens aliens aliens aliens aliens aliens aliens （一个星球上有外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人）将使得结果图片中出现外星人的可能性更大。下面的图片是使用 Stable Diffusion 生成的。

A planet with aliens（有外星人的星球）

图片提示词

A planet with aliens aliens aliens aliens aliens aliens aliens aliens aliens aliens aliens aliens

（一个星球上有外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人外星人）

图片提示词

注释

这种方法并不完美，使用权重（下一篇文章）通常是一个更好的选择。

5、加权

一些模型（如 Stable Diffusion、Midjourney 等）允许你对提示中的词语进行加权。这可以用于强调生成图片中的某些词语或短语。它还可以用于减弱生成的图片中某些词语或短语的影响。让我们考虑一个简单的例子：

例子

这是通过 Stable Diffusion 生成的一些山，提示语是 mountain（山）。

图片提示词

然而，如果我们想得到没有树的山，我们可以使用提示语 mountain | tree:-10。因为我们把树的权重设置为负数，所以它们不会出现在生成的图片中。

图片提示词

加权项可以组合成更复杂的提示语，比如 A planet in space:10 | bursting with color red, blue, and purple:4 | aliens:-10 | 4K, high quality（太空中的行星:10丨充满了红色，蓝色和紫色;丨外星人:- 10丨 4K，高质量）

图片提示词

6、修复变形生成

变形生成在许多模型中都是一个常见问题，特别是在人体部位（如手、脚）上。通过良好的反向提示语¹，可以在一定程度上解决这个问题。以下示例来自于这篇Reddit帖子。

例子

使用 Stable Diffusion v1.5 和下面的提示语，我们生成了一张不错的 Brad Pitt 图像，当然除了他的手！

studio medium portrait of Brad Pitt waving his hands, detailed, film, studio lighting, 90mm lens, by Martin Schoeller:6（摄影棚中型布拉德·皮特挥手肖像，细节，胶片，摄影棚灯光，90mm镜头，马丁·舍勒）

图片提示词

使用强大的反向提示语，我们可以生成更加逼真的手部图像。

studio medium portrait of Brad Pitt waving his hands, detailed, film, studio lighting, 90mm lens, by Martin Schoeller:6 | disfigured, deformed hands, blurry, grainy, broken, cross-eyed, undead, photoshopped, overexposed, underexposed, lowres, bad anatomy, bad hands, extra digits, fewer digits, bad digit, bad ears, bad eyes, bad face, cropped: -5

（摄影棚中等大小的布拉德·皮特挥手肖像，细节，胶片，摄影棚灯光，90mm镜头，由马丁·舍勒:6bb0毁损，变形的手，模糊，颗粒状，破碎，对眼，僵尸，ps过，曝光过度，曝光不足，低分辨率，糟糕的解剖结构，糟糕的手，多余的手指，更少的手指，糟糕的耳朵，糟糕的眼睛，糟糕的脸，裁剪:-5）

图片提示词

使用类似的反向提示语也可以帮助处理其他身体部位。不幸的是，这个技术并不是一直奏效，因此您可能需要多次尝试才能获得满意的结果。未来，这种提示技术应该是不必要的，因为模型会不断改进。然而，目前这是一种非常有用的技术。

注释

改进的模型，如 Protogen ，通常在处理手、脚等部位时表现更好。

7、Midjourney

Midjourney 是另一个 AI 图像生成器。与 Stable Diffusion 不同，Midjourney 使用 Discord Bot 作为 AI 图像生成的接口（在此加入 Discord，https://discord.gg/midjourney）。不过，使用 Midjourney Bot 的遵循相同的图像提示基本原则。

基本用法

Midjourney 的基本结构是 /imagine prompt: [IMAGE PROMPT] [–OPTIONAL PARAMETERS].

例如:/imagine prompt: astronaut on a horse

（想象一下:宇航员骑在马上）

图片提示词