OpenWebUi-语音功能配置

Prorise2026-02-272026-03-12

3.6. 语音功能配置

Open WebUI 的语音交互由两部分组成：听（STT，语音转文字） 和 说（TTS，文字转语音）。合理的配置需要在“响应速度、拟真体验、实际花销”三者之间找到平衡。

STT 决定了系统“听得有多准”和“听得有多快”，以及你聊天的成本消耗，由于语音转文字本质拉不开很大差距，一般来说都会使用网页API 或选择 Whisper 作为使用

引擎选型	成本梯队	实际计费标准 (预估)	核心优势
网页 API	免费	$0 (利用浏览器原生能力)	服务器零负载，响应极快，零成本
Whisper (本地)	免费	$0 (仅消耗本机/服务器电费)	隐私最强，完全离线，不按时长收费
Deepgram	低成本	约 $0.0043 / 分钟	专为实时语音设计，延迟极低，性价比极高
OpenAI	适中	$0.006 / 分钟	业界标杆，多语言混合识别极准，无需额外注册
Azure AI 语音	偏高	约 $1.00 / 小时 ($0.016/分)	微软企业级稳定服务，带口音的方言识别优秀

完全免费且省心：网页 API (Web API)
计费逻辑：绝对免费。它调用的是你当前所用浏览器（如 Chrome）内置的语音识别接口。
适用场景：预算为零，服务器没有显卡（GPU）跑不动本地模型，且能保证全程使用 HTTPS 访问的用户。
免费但吃硬件：Whisper (本地)
计费逻辑：软件层面免费，但隐性成本在硬件。它会占用你服务器的 CPU 和显存。如果租用云服务器，为了跑顺畅可能需要升级高配实例。
选型建议：如果你的服务器本身配置就高（如拥有 8GB 以上显存的独立显卡），强烈建议选这个。数据不出局域网，隐私绝对安全。
云端高性价比方案：Deepgram
计费逻辑：按秒计费，极其便宜。折算下来一小时一直说话也才两毛多美元。
选型建议：如果你需要高频使用语音对话，Deepgram 的 Nova-2 模型是首选。它的转录速度远快于 OpenAI，能大幅降低你等 AI 回复的“空窗期”。
高质量兜底方案：OpenAI Whisper
计费逻辑：按分钟计费。如果你每天和 AI 聊 10 分钟语音，一个月大约花费 $1.8。
选型建议：如果你平时说话中英文夹杂，或者专业术语多，OpenAI 的容错和纠错能力是目前云端 API 里最好的。

TTS 决定了 AI 的“音色”和“情感”，这项功能由于需要生成音频文件，通常比 STT 更贵。

引擎选型	成本梯队	实际计费标准 (预估)	拟真度
网页 API	免费	$0 (调用系统内置 TTS)	⭐⭐ (明显机械音)
openai-edge-tts 🏆	免费	$0 (微软 Edge 在线语音，中间件伪装)	⭐⭐⭐⭐⭐ (中文场景极佳，接近 OpenAI)
Transformers	免费	$0 (消耗本地算力生成)	⭐⭐⭐ (略带顿挫感)
OpenAI	低成本	$0.015 / 千字符	⭐⭐⭐⭐ (非常自然流畅)
Azure AI 语音	适中	约 $0.016 / 千字符	⭐⭐⭐⭐ (专业播音腔，可选多)
ElevenLabs	昂贵	约 $0.22 / 千字符 (按标准套餐折算)	⭐⭐⭐⭐⭐ (情感天花板)

零成本测试首选：网页 API
计费逻辑：免费。直接让你的 Windows 或 macOS 系统里的"讲述人"来读出文字。
体验：毫无感情，适合用来排查语音链路通不通，不适合长期对话。
🏆 中文场景版本答案：openai-edge-tts（强烈推荐）
计费逻辑：完全免费。它通过一个开源中间件（travisvn/openai-edge-tts，GitHub 1.6k+ Stars），将微软 Edge 浏览器内置的高质量在线语音接口伪装成 OpenAI TTS 接口给 Open WebUI 使用。你在抖音/TikTok 上听到的那些非常自然的 AI 解说音，用的就是同一套微软语音引擎。
选型建议：面向国内中文用户的最佳选择。音质接近 OpenAI TTS，远超本地机械音，且完全免费、无需 GPU。Open WebUI 官方文档已有专门的集成页面。唯一注意点：它本质是微软云服务的代理，需要联网才能使用，不是真正的离线方案。

部署步骤：

第一步：启动 Docker 容器

1	docker run -d -p 5050:5050 -e API_KEY=your_password travisvn/openai-edge-tts:latest

第二步：在 Open WebUI 管理面板中配置

进入管理员面板 → 设置 → 语音，在 TTS 部分填写：

配置项	填写内容	说明
TTS 引擎	`OpenAI`	注意：选 OpenAI，不是 Edge，因为中间件伪装成了 OpenAI 接口
API 基础 URL	`http://host.docker.internal:5050/v1`	如果 Open WebUI 也在 Docker 中运行；否则填 `http://localhost:5050/v1`
API 密钥	`your_password`	与 Docker 启动时的 `API_KEY` 保持一致
TTS 模型	`tts-1`	固定值
TTS 语音	`zh-CN-XiaoxiaoNeural`	最受欢迎的中文女声；男声可选 `zh-CN-YunxiNeural`

💡 更多语音选择：Edge TTS 支持大量中文语音，如 zh-CN-XiaoyiNeural（年轻女声）、zh-CN-YunjianNeural（新闻播报男声）等，完整列表可在容器启动后访问 http://localhost:5050/v1/voices 查看。

⚠️ 注意：此方案依赖微软在线服务，断网时无法使用。如果你需要完全离线的 TTS，请考虑 Transformers 本地方案或下方的 Kokoro-FastAPI。

补充：英文场景的替代方案 —— Kokoro-FastAPI
如果你的用户主要使用英文对话，社区中另一个高口碑项目是 Kokoro-FastAPI。它完全本地运行，英文语音质量被社区评为当前最佳，同样提供 OpenAI 兼容 API。但中文支持较弱，因此面向国内用户时 openai-edge-tts 仍是首选。
极致性价比：OpenAI TTS
计费逻辑：按生成的字符数收费。1000 个英文字符或中文字大概只要 1 分多钱（美元）。即使重度使用，每个月也就几美元。
选型建议：90% 用户的最佳选择。模型选 tts-1 即可（tts-1-hd 贵一倍且速度慢，对话时完全没必要）。声音推荐 Alloy（中性）或 Nova（活力）。
如果你需要更高质量的选型（听觉享受）：ElevenLabs
计费逻辑：非常贵。采用订阅+额度制（如 $22/月给 10 万字符），折算下来单价比 OpenAI 贵了 15 倍左右。
为什么选它：物有所值。它是目前唯一能做到“根据上下文叹气、呼吸、调整情绪甚至哭腔”的 API。如果你把 AI 当作情感树洞，或者需要克隆特定人的声音，这笔钱花得值。