OpenWebUi-图像生成功能配置
OpenWebUi-图像生成功能配置
Prorise3.5. 图像生成功能配置
Open WebUI 支持集成多种图像生成工具,让 AI 能够根据文字描述生成图片。
DALL-E 集成
DALL-E 是 OpenAI 的图像生成模型,质量高但需要付费。
配置步骤:
管理员面板 → 设置 → Images
找到 “图像生成引擎” 选项,选择 “OpenAI DALL-E”。
填写配置:
| 字段 | 值 |
|---|---|
| API Key | 你的 OpenAI API 密钥 |
| 模型 | dall-e-3(推荐)或 dall-e-2 |
| 图像尺寸 | 1024x1024(标准)、1792x1024(宽屏)、1024x1792(竖屏) |
| 图像质量 | standard(标准)或 hd(高清,更贵) |
费用说明:
- DALL-E 3 标准质量:$0.040 / 张
- DALL-E 3 高清质量:$0.080 / 张
- DALL-E 2:$0.020 / 张
ComfyUI 集成
ComfyUI 是一个开源的图像生成工作流工具,支持 Stable Diffusion 等模型。
前置要求:
你需要先部署 ComfyUI 服务。ComfyUI 的部署超出本教程范围,请参考 ComfyUI 官方文档。
配置步骤:
管理员面板 → 设置 → Images → 选择 “ComfyUI”
填写配置:
| 字段 | 说明 |
|---|---|
| ComfyUI Base URL | ComfyUI 服务地址,如 http://localhost:8188 |
| 工作流 JSON | ComfyUI 的工作流配置文件 |
工作流配置:
ComfyUI 使用 JSON 格式的工作流文件来定义图像生成流程。你需要:
- 在 ComfyUI 中设计好工作流
- 导出为 JSON 文件
- 将 JSON 内容粘贴到 Open WebUI 的配置中
优势:
完全免费(使用本地模型)
完全可控,可以自定义各种参数
支持多种 Stable Diffusion 模型
劣势:
- 配置复杂,需要一定的技术能力
- 需要额外的硬件资源(特别是 GPU)
AUTOMATIC1111 集成
AUTOMATIC1111 (Stable Diffusion WebUI) 是另一个流行的开源图像生成工具。
配置步骤:
管理员面板 → 设置 → Images → 选择 “AUTOMATIC1111”
填写配置:
| 字段 | 值 |
|---|---|
| API Base URL | http://localhost:7860 |
| API Key | 如果设置了认证,填入密钥 |
启用 API:
AUTOMATIC1111 默认不开启 API,需要在启动时添加参数:
1 | python launch.py --api --listen |
测试连接:
配置完成后,点击 “测试连接” 按钮,如果成功会显示可用的模型列表。
图像生成参数设置
无论使用哪种引擎,都可以配置默认的生成参数:
| 参数 | 说明 | 推荐值 |
|---|---|---|
| Steps | 生成步数,越多质量越好但越慢 | 20-30 |
| CFG Scale | 提示词引导强度 | 7-9 |
| Sampler | 采样器类型 | Euler a 或 DPM++ 2M |
| 负面提示词 | 不想出现的元素 | ugly, blurry, low quality |
这些参数主要用于 Stable Diffusion 类模型,DALL-E 不需要配置。
通过 CLIProxyAPI Plus 对接图像生成/编辑
如果你使用的是 CLIProxyAPI Plus(CPA)作为 OpenAI 兼容代理,它原生只提供 /v1/chat/completions 端点,不支持 /v1/images/generations 和 /v1/images/edits。但 Open WebUI 的 OpenAI 图像引擎恰恰需要这两个端点。
我们对 CPA 源码进行了 Fork 修改,新增了这两个端点,原理是将图像 API 请求转换为 Chat Completions 调用:
| 端点 | 请求格式 | 转换逻辑 |
|---|---|---|
POST /v1/images/generations | JSON(prompt + model) | 构建纯文本 chat completions 请求,从响应中提取 data:image/xxx;base64,... |
POST /v1/images/edits | multipart/form-data(image 文件 + prompt + model) | 将上传图片转为 base64 data URI,构建多模态 chat completions 请求(image_url + text) |
两个端点都返回标准 OpenAI Images API 格式:{"created": ..., "data": [{"b64_json": "..."}]}。
涉及的 CPA 源码文件:
sdk/api/handlers/openai/openai_images_handler.go— 新增文件,包含ImageGenerations和ImageEdits两个 handlerinternal/api/server.go— 在setupRoutes()的 v1 group 中注册路由(3 行改动)
Open WebUI 配置:
图像生成(管理员面板 → 设置 → Images):
| 字段 | 值 |
|---|---|
| 引擎 | OpenAI |
| API Base URL | http://host.docker.internal:8317/v1 |
| API Key | 你的 CPA api-key |
| 模型 | 手动输入模型 ID,如 prorise/gemini-3-pro-image-preview |
图像编辑配置同理,引擎选 OpenAI,URL 和 Key 相同,模型填支持图像编辑的模型 ID。
触发机制:
- 聊天中纯文字描述 → 触发
/images/generations(图像生成) - 聊天中上传图片 + 文字描述 → 触发
/images/edits(图像编辑,需开启ENABLE_IMAGE_EDIT)
注意事项:
- 图像模型建议在 Open WebUI 的模型高级设置中关闭流式输出(
stream_response: false),避免 chunk 过大导致前端显示异常 - CPA 源码 Fork 详见项目根目录的
FORK_README.md,同步上游更新时注意冲突风险



