OpenWebUi-语音功能配置

3.6. 语音功能配置

Open WebUI 的语音交互由两部分组成:听(STT,语音转文字)说(TTS,文字转语音)。合理的配置需要在“响应速度、拟真体验、实际花销”三者之间找到平衡。

语音转文字(STT)配置

STT 决定了系统“听得有多准”和“听得有多快”,以及你聊天的成本消耗,由于语音转文字本质拉不开很大差距,一般来说都会使用网页API 或选择 Whisper 作为使用

1. 核心引擎横向对比与实际计费

引擎选型成本梯队实际计费标准 (预估)核心优势
网页 API免费$0 (利用浏览器原生能力)服务器零负载,响应极快,零成本
Whisper (本地)免费$0 (仅消耗本机/服务器电费)隐私最强,完全离线,不按时长收费
Deepgram低成本约 $0.0043 / 分钟专为实时语音设计,延迟极低,性价比极高
OpenAI适中$0.006 / 分钟业界标杆,多语言混合识别极准,无需额外注册
Azure AI 语音偏高约 $1.00 / 小时 ($0.016/分)微软企业级稳定服务,带口音的方言识别优秀

2. 深度选型与成本解析

  • 完全免费且省心:网页 API (Web API)

  • 计费逻辑:绝对免费。它调用的是你当前所用浏览器(如 Chrome)内置的语音识别接口。

  • 适用场景:预算为零,服务器没有显卡(GPU)跑不动本地模型,且能保证全程使用 HTTPS 访问的用户。

  • 免费但吃硬件:Whisper (本地)

  • 计费逻辑:软件层面免费,但隐性成本在硬件。它会占用你服务器的 CPU 和显存。如果租用云服务器,为了跑顺畅可能需要升级高配实例。

  • 选型建议:如果你的服务器本身配置就高(如拥有 8GB 以上显存的独立显卡),强烈建议选这个。数据不出局域网,隐私绝对安全。

  • 云端高性价比方案:Deepgram

  • 计费逻辑:按秒计费,极其便宜。折算下来一小时一直说话也才两毛多美元。

  • 选型建议:如果你需要高频使用语音对话,Deepgram 的 Nova-2 模型是首选。它的转录速度远快于 OpenAI,能大幅降低你等 AI 回复的“空窗期”。

  • 高质量兜底方案:OpenAI Whisper

  • 计费逻辑:按分钟计费。如果你每天和 AI 聊 10 分钟语音,一个月大约花费 $1.8。

  • 选型建议:如果你平时说话中英文夹杂,或者专业术语多,OpenAI 的容错和纠错能力是目前云端 API 里最好的。


文字转语音(TTS)配置

TTS 决定了 AI 的“音色”和“情感”,这项功能由于需要生成音频文件,通常比 STT 更贵。

1. 核心引擎横向对比与实际计费

引擎选型成本梯队实际计费标准 (预估)拟真度
网页 API免费$0 (调用系统内置 TTS)⭐⭐ (明显机械音)
openai-edge-tts 🏆免费$0 (微软 Edge 在线语音,中间件伪装)⭐⭐⭐⭐⭐ (中文场景极佳,接近 OpenAI)
Transformers免费$0 (消耗本地算力生成)⭐⭐⭐ (略带顿挫感)
OpenAI低成本$0.015 / 千字符⭐⭐⭐⭐ (非常自然流畅)
Azure AI 语音适中约 $0.016 / 千字符⭐⭐⭐⭐ (专业播音腔,可选多)
ElevenLabs昂贵约 $0.22 / 千字符 (按标准套餐折算)⭐⭐⭐⭐⭐ (情感天花板)

2. 深度选型与成本解析

  • 零成本测试首选:网页 API

  • 计费逻辑:免费。直接让你的 Windows 或 macOS 系统里的"讲述人"来读出文字。

  • 体验:毫无感情,适合用来排查语音链路通不通,不适合长期对话。

  • 🏆 中文场景版本答案:openai-edge-tts(强烈推荐)

  • 计费逻辑:完全免费。它通过一个开源中间件(travisvn/openai-edge-tts,GitHub 1.6k+ Stars),将微软 Edge 浏览器内置的高质量在线语音接口伪装成 OpenAI TTS 接口给 Open WebUI 使用。你在抖音/TikTok 上听到的那些非常自然的 AI 解说音,用的就是同一套微软语音引擎。

  • 选型建议面向国内中文用户的最佳选择。音质接近 OpenAI TTS,远超本地机械音,且完全免费、无需 GPU。Open WebUI 官方文档已有专门的集成页面。唯一注意点:它本质是微软云服务的代理,需要联网才能使用,不是真正的离线方案。

  • 部署步骤

    第一步:启动 Docker 容器

    1
    docker run -d -p 5050:5050 -e API_KEY=your_password travisvn/openai-edge-tts:latest

    第二步:在 Open WebUI 管理面板中配置

    进入 管理员面板 → 设置 → 语音,在 TTS 部分填写:

    配置项填写内容说明
    TTS 引擎OpenAI注意:选 OpenAI,不是 Edge,因为中间件伪装成了 OpenAI 接口
    API 基础 URLhttp://host.docker.internal:5050/v1如果 Open WebUI 也在 Docker 中运行;否则填 http://localhost:5050/v1
    API 密钥your_password与 Docker 启动时的 API_KEY 保持一致
    TTS 模型tts-1固定值
    TTS 语音zh-CN-XiaoxiaoNeural最受欢迎的中文女声;男声可选 zh-CN-YunxiNeural

    💡 更多语音选择:Edge TTS 支持大量中文语音,如 zh-CN-XiaoyiNeural(年轻女声)、zh-CN-YunjianNeural(新闻播报男声)等,完整列表可在容器启动后访问 http://localhost:5050/v1/voices 查看。

    ⚠️ 注意:此方案依赖微软在线服务,断网时无法使用。如果你需要完全离线的 TTS,请考虑 Transformers 本地方案或下方的 Kokoro-FastAPI。

  • 补充:英文场景的替代方案 —— Kokoro-FastAPI

  • 如果你的用户主要使用英文对话,社区中另一个高口碑项目是 Kokoro-FastAPI。它完全本地运行,英文语音质量被社区评为当前最佳,同样提供 OpenAI 兼容 API。但中文支持较弱,因此面向国内用户时 openai-edge-tts 仍是首选。

  • 极致性价比:OpenAI TTS

  • 计费逻辑:按生成的字符数收费。1000 个英文字符或中文字大概只要 1 分多钱(美元)。即使重度使用,每个月也就几美元。

  • 选型建议90% 用户的最佳选择。模型选 tts-1 即可(tts-1-hd 贵一倍且速度慢,对话时完全没必要)。声音推荐 Alloy(中性)或 Nova(活力)。

  • 如果你需要更高质量的选型(听觉享受):ElevenLabs

  • 计费逻辑:非常贵。采用订阅+额度制(如 $22/月 给 10 万字符),折算下来单价比 OpenAI 贵了 15 倍左右

  • 为什么选它:物有所值。它是目前唯一能做到“根据上下文叹气、呼吸、调整情绪甚至哭腔”的 API。如果你把 AI 当作情感树洞,或者需要克隆特定人的声音,这笔钱花得值。