Question 1

针对 SDXL 的 image-to-prompt 是什么样的?

Accepted Answer

Vision model 会给出一个密集的、SDXL 原生的关键词列表 -- 一段简短的主体说明 + 10–18 个逗号分隔的关于介质、艺术风格、相机 / 镜头、光线、构图和氛围的标签。1–2 个最关键的属性会可选地带上权重 (word:1.2)。

Question 2

image-to-prompt generator 能做什么?

Accepted Answer

它使用多模态 vision model「观察」一张图像,然后写出一条文本提示词 -- 当你把它送回 AI 图像模型时,能生成与原图非常接近的新图。这是常规提示词生成器的反向流程:当你手里有参考图,却很难用语言描述它时,就用它。

Question 3

这个 image-to-prompt 工具是免费的吗?

Accepted Answer

是的。每天最多 5 次转换对所有人免费,无需注册。图像仅做临时处理,不会被保存。

Question 4

支持哪些图像格式?

Accepted Answer

支持 PNG、JPEG 和 WebP,最大 7MB。想获得最佳效果,请上传清晰且高分辨率的图像 -- vision model 看到的细节越多,生成的复现提示词就越准确。

Question 5

复现出来的图像和原图会一模一样吗?

Accepted Answer

不会 -- 这是 AI 图像模型工作方式的本质决定的。生成的提示词会捕捉主体、构图、光线和风格,但重建出来的图像是一次风格化的重构,不是像素级拷贝。需要精确修复,请使用 AI Edit。

Question 6

为什么切换模型后提示词会变?

Accepted Answer

每个目标模型都有自己偏好的提示词风格。同一张图,到了 Flux 和 Imagen 3 会变成一段长长的摄影式段落;到 DALL·E 3 会变成电影化的分镜简报;到 SD3 是逗号分隔的混合格式;到 SDXL 和 Leonardo 是带权重的关键词列表;到 Midjourney 是带 --ar 的紧凑短句;到 Ideogram 是考虑排版的简报;到 Recraft 是设计简报;到 Firefly 是商业安全的描述;到 Nano Banana 2 则是一条朴素的指令。

Question 7

你们会保存上传的图像吗?

Accepted Answer

不会。图像只在处理请求时传给 vision model,既不会保存到文件,也不会写入数据库。我们只保留按 IP / 日的哈希化使用计数,用于速率限制。

Question 8

能用在含有人物的照片上吗?

Accepted Answer

可以 -- 前提是你对这些照片拥有相应权利。工具只描述可见内容(构图、光线、服装、氛围),不会识别特定个人,而且我们不保存上传的文件。

Stable Diffusion XL Image to Prompt

即时结果

默认隐私保护

模型专属调优