OpenWebUi-图像生成功能配置

3.5. 图像生成功能配置

Open WebUI 支持集成多种图像生成工具,让 AI 能够根据文字描述生成图片。

DALL-E 集成

DALL-E 是 OpenAI 的图像生成模型,质量高但需要付费。

配置步骤

管理员面板 → 设置 → Images

找到 “图像生成引擎” 选项,选择 “OpenAI DALL-E”。

填写配置:

字段
API Key你的 OpenAI API 密钥
模型dall-e-3(推荐)或 dall-e-2
图像尺寸1024x1024(标准)、1792x1024(宽屏)、1024x1792(竖屏)
图像质量standard(标准)或 hd(高清,更贵)

费用说明

  • DALL-E 3 标准质量:$0.040 / 张
  • DALL-E 3 高清质量:$0.080 / 张
  • DALL-E 2:$0.020 / 张

ComfyUI 集成

ComfyUI 是一个开源的图像生成工作流工具,支持 Stable Diffusion 等模型。

前置要求

你需要先部署 ComfyUI 服务。ComfyUI 的部署超出本教程范围,请参考 ComfyUI 官方文档。

配置步骤

管理员面板 → 设置 → Images → 选择 “ComfyUI”

填写配置:

字段说明
ComfyUI Base URLComfyUI 服务地址,如 http://localhost:8188
工作流 JSONComfyUI 的工作流配置文件

工作流配置

ComfyUI 使用 JSON 格式的工作流文件来定义图像生成流程。你需要:

  1. 在 ComfyUI 中设计好工作流
  2. 导出为 JSON 文件
  3. 将 JSON 内容粘贴到 Open WebUI 的配置中

优势

  • 完全免费(使用本地模型)

  • 完全可控,可以自定义各种参数

  • 支持多种 Stable Diffusion 模型

劣势

  • 配置复杂,需要一定的技术能力
  • 需要额外的硬件资源(特别是 GPU)

AUTOMATIC1111 集成

AUTOMATIC1111 (Stable Diffusion WebUI) 是另一个流行的开源图像生成工具。

配置步骤

管理员面板 → 设置 → Images → 选择 “AUTOMATIC1111”

填写配置:

字段
API Base URLhttp://localhost:7860
API Key如果设置了认证,填入密钥

启用 API

AUTOMATIC1111 默认不开启 API,需要在启动时添加参数:

1
python launch.py --api --listen

测试连接

配置完成后,点击 “测试连接” 按钮,如果成功会显示可用的模型列表。

图像生成参数设置

无论使用哪种引擎,都可以配置默认的生成参数:

参数说明推荐值
Steps生成步数,越多质量越好但越慢20-30
CFG Scale提示词引导强度7-9
Sampler采样器类型Euler a 或 DPM++ 2M
负面提示词不想出现的元素ugly, blurry, low quality

这些参数主要用于 Stable Diffusion 类模型,DALL-E 不需要配置。

通过 CLIProxyAPI Plus 对接图像生成/编辑

如果你使用的是 CLIProxyAPI Plus(CPA)作为 OpenAI 兼容代理,它原生只提供 /v1/chat/completions 端点,不支持 /v1/images/generations/v1/images/edits。但 Open WebUI 的 OpenAI 图像引擎恰恰需要这两个端点。

我们对 CPA 源码进行了 Fork 修改,新增了这两个端点,原理是将图像 API 请求转换为 Chat Completions 调用:

端点请求格式转换逻辑
POST /v1/images/generationsJSON(prompt + model)构建纯文本 chat completions 请求,从响应中提取 data:image/xxx;base64,...
POST /v1/images/editsmultipart/form-data(image 文件 + prompt + model)将上传图片转为 base64 data URI,构建多模态 chat completions 请求(image_url + text)

两个端点都返回标准 OpenAI Images API 格式:{"created": ..., "data": [{"b64_json": "..."}]}

涉及的 CPA 源码文件

  • sdk/api/handlers/openai/openai_images_handler.go — 新增文件,包含 ImageGenerationsImageEdits 两个 handler
  • internal/api/server.go — 在 setupRoutes() 的 v1 group 中注册路由(3 行改动)

Open WebUI 配置

图像生成(管理员面板 → 设置 → Images):

字段
引擎OpenAI
API Base URLhttp://host.docker.internal:8317/v1
API Key你的 CPA api-key
模型手动输入模型 ID,如 prorise/gemini-3-pro-image-preview

图像编辑配置同理,引擎选 OpenAI,URL 和 Key 相同,模型填支持图像编辑的模型 ID。

触发机制

  • 聊天中纯文字描述 → 触发 /images/generations(图像生成)
  • 聊天中上传图片 + 文字描述 → 触发 /images/edits(图像编辑,需开启 ENABLE_IMAGE_EDIT

注意事项

  • 图像模型建议在 Open WebUI 的模型高级设置中关闭流式输出(stream_response: false),避免 chunk 过大导致前端显示异常
  • CPA 源码 Fork 详见项目根目录的 FORK_README.md,同步上游更新时注意冲突风险