OpenWebUi-语音功能配置
OpenWebUi-语音功能配置
Prorise3.6. 语音功能配置
Open WebUI 的语音交互由两部分组成:听(STT,语音转文字) 和 说(TTS,文字转语音)。合理的配置需要在“响应速度、拟真体验、实际花销”三者之间找到平衡。
语音转文字(STT)配置
STT 决定了系统“听得有多准”和“听得有多快”,以及你聊天的成本消耗,由于语音转文字本质拉不开很大差距,一般来说都会使用网页API 或选择 Whisper 作为使用
1. 核心引擎横向对比与实际计费
| 引擎选型 | 成本梯队 | 实际计费标准 (预估) | 核心优势 |
|---|---|---|---|
| 网页 API | 免费 | $0 (利用浏览器原生能力) | 服务器零负载,响应极快,零成本 |
| Whisper (本地) | 免费 | $0 (仅消耗本机/服务器电费) | 隐私最强,完全离线,不按时长收费 |
| Deepgram | 低成本 | 约 $0.0043 / 分钟 | 专为实时语音设计,延迟极低,性价比极高 |
| OpenAI | 适中 | $0.006 / 分钟 | 业界标杆,多语言混合识别极准,无需额外注册 |
| Azure AI 语音 | 偏高 | 约 $1.00 / 小时 ($0.016/分) | 微软企业级稳定服务,带口音的方言识别优秀 |
2. 深度选型与成本解析
完全免费且省心:网页 API (Web API)
计费逻辑:绝对免费。它调用的是你当前所用浏览器(如 Chrome)内置的语音识别接口。
适用场景:预算为零,服务器没有显卡(GPU)跑不动本地模型,且能保证全程使用 HTTPS 访问的用户。
免费但吃硬件:Whisper (本地)
计费逻辑:软件层面免费,但隐性成本在硬件。它会占用你服务器的 CPU 和显存。如果租用云服务器,为了跑顺畅可能需要升级高配实例。
选型建议:如果你的服务器本身配置就高(如拥有 8GB 以上显存的独立显卡),强烈建议选这个。数据不出局域网,隐私绝对安全。
云端高性价比方案:Deepgram
计费逻辑:按秒计费,极其便宜。折算下来一小时一直说话也才两毛多美元。
选型建议:如果你需要高频使用语音对话,Deepgram 的 Nova-2 模型是首选。它的转录速度远快于 OpenAI,能大幅降低你等 AI 回复的“空窗期”。
高质量兜底方案:OpenAI Whisper
计费逻辑:按分钟计费。如果你每天和 AI 聊 10 分钟语音,一个月大约花费 $1.8。
选型建议:如果你平时说话中英文夹杂,或者专业术语多,OpenAI 的容错和纠错能力是目前云端 API 里最好的。
文字转语音(TTS)配置
TTS 决定了 AI 的“音色”和“情感”,这项功能由于需要生成音频文件,通常比 STT 更贵。
1. 核心引擎横向对比与实际计费
| 引擎选型 | 成本梯队 | 实际计费标准 (预估) | 拟真度 |
|---|---|---|---|
| 网页 API | 免费 | $0 (调用系统内置 TTS) | ⭐⭐ (明显机械音) |
| openai-edge-tts 🏆 | 免费 | $0 (微软 Edge 在线语音,中间件伪装) | ⭐⭐⭐⭐⭐ (中文场景极佳,接近 OpenAI) |
| Transformers | 免费 | $0 (消耗本地算力生成) | ⭐⭐⭐ (略带顿挫感) |
| OpenAI | 低成本 | $0.015 / 千字符 | ⭐⭐⭐⭐ (非常自然流畅) |
| Azure AI 语音 | 适中 | 约 $0.016 / 千字符 | ⭐⭐⭐⭐ (专业播音腔,可选多) |
| ElevenLabs | 昂贵 | 约 $0.22 / 千字符 (按标准套餐折算) | ⭐⭐⭐⭐⭐ (情感天花板) |
2. 深度选型与成本解析
零成本测试首选:网页 API
计费逻辑:免费。直接让你的 Windows 或 macOS 系统里的"讲述人"来读出文字。
体验:毫无感情,适合用来排查语音链路通不通,不适合长期对话。
🏆 中文场景版本答案:openai-edge-tts(强烈推荐)
计费逻辑:完全免费。它通过一个开源中间件(travisvn/openai-edge-tts,GitHub 1.6k+ Stars),将微软 Edge 浏览器内置的高质量在线语音接口伪装成 OpenAI TTS 接口给 Open WebUI 使用。你在抖音/TikTok 上听到的那些非常自然的 AI 解说音,用的就是同一套微软语音引擎。
选型建议:面向国内中文用户的最佳选择。音质接近 OpenAI TTS,远超本地机械音,且完全免费、无需 GPU。Open WebUI 官方文档已有专门的集成页面。唯一注意点:它本质是微软云服务的代理,需要联网才能使用,不是真正的离线方案。
部署步骤:
第一步:启动 Docker 容器
1
docker run -d -p 5050:5050 -e API_KEY=your_password travisvn/openai-edge-tts:latest
第二步:在 Open WebUI 管理面板中配置
进入 管理员面板 → 设置 → 语音,在 TTS 部分填写:
配置项 填写内容 说明 TTS 引擎 OpenAI注意:选 OpenAI,不是 Edge,因为中间件伪装成了 OpenAI 接口 API 基础 URL http://host.docker.internal:5050/v1如果 Open WebUI 也在 Docker 中运行;否则填 http://localhost:5050/v1API 密钥 your_password与 Docker 启动时的 API_KEY保持一致TTS 模型 tts-1固定值 TTS 语音 zh-CN-XiaoxiaoNeural最受欢迎的中文女声;男声可选 zh-CN-YunxiNeural💡 更多语音选择:Edge TTS 支持大量中文语音,如
zh-CN-XiaoyiNeural(年轻女声)、zh-CN-YunjianNeural(新闻播报男声)等,完整列表可在容器启动后访问http://localhost:5050/v1/voices查看。⚠️ 注意:此方案依赖微软在线服务,断网时无法使用。如果你需要完全离线的 TTS,请考虑 Transformers 本地方案或下方的 Kokoro-FastAPI。
补充:英文场景的替代方案 —— Kokoro-FastAPI
如果你的用户主要使用英文对话,社区中另一个高口碑项目是 Kokoro-FastAPI。它完全本地运行,英文语音质量被社区评为当前最佳,同样提供 OpenAI 兼容 API。但中文支持较弱,因此面向国内用户时 openai-edge-tts 仍是首选。
极致性价比:OpenAI TTS
计费逻辑:按生成的字符数收费。1000 个英文字符或中文字大概只要 1 分多钱(美元)。即使重度使用,每个月也就几美元。
选型建议:90% 用户的最佳选择。模型选
tts-1即可(tts-1-hd贵一倍且速度慢,对话时完全没必要)。声音推荐Alloy(中性)或Nova(活力)。如果你需要更高质量的选型(听觉享受):ElevenLabs
计费逻辑:非常贵。采用订阅+额度制(如 $22/月 给 10 万字符),折算下来单价比 OpenAI 贵了 15 倍左右。
为什么选它:物有所值。它是目前唯一能做到“根据上下文叹气、呼吸、调整情绪甚至哭腔”的 API。如果你把 AI 当作情感树洞,或者需要克隆特定人的声音,这笔钱花得值。



