本地克隆任何声音,完全免费开源——Voicebox 深度体验!
Voicebox 是由开发者 Jamie Pine(同时也是开源文件管理器 Spacedrive 的作者)打造的本地优先语音克隆工作室。
在 AI 语音合成这条赛道上,ElevenLabs、微软 Azure TTS 等云服务能力已经相当成熟——但它们有几个共同的痛点:
💸 订阅费用高:ElevenLabs 专业版每月动辄数十美元,批量生成内容成本极高。
🔒 隐私存在隐患:声音样本和生成内容需要上传至云端服务器,声纹数据的所有权存疑。
🚫 使用受限:API 调用有额度限制,商业授权条款复杂,二次开发门槛高。
Voicebox 的出现正是为了解决这三点:它是一款完全本地运行、免费开源的语音合成工作站,所有模型和声音数据都留在你自己的机器上,没有订阅费,没有调用限制,没有隐私顾虑。
Voicebox 是由开发者 Jamie Pine(同时也是开源文件管理器 Spacedrive 的作者)打造的本地优先语音克隆工作室。
用一句话概括:它是本地版、免费版、开源版的 ElevenLabs。
项目在 GitHub 上已获得超过 14,700 颗 Star,发布仅数周便引发广泛关注。
核心能力一览
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
[laugh]、[sigh]、[gasp] 等副语言标签 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
技术架构
第三步:应用音频效果:
Voicebox 采用前后端分离设计:
• 前端:React + Tauri(Rust)桌面应用,性能优于 Electron
• 后端:Python FastAPI 服务,内嵌运行或远程连接均可
• 模型层:默认以阿里巴巴 Qwen3-TTS 为核心,Apple Silicon 用户可享受 MLX 加
方式一:下载安装包(推荐新手)
前往官网 voicebox.sh 或 GitHub Releases 页面,下载对应平台的安装包:
• macOS / Windows:已提供预构建二进制包,双击安装即可
# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox# 一键初始化(推荐 macOS/Linux)
make setup
# 启动开发模式
make dev
依赖:Bun、Rust、Python 3.11+,macOS 需要 Xcode。
第一步:创建声音档案
1. 打开 Voicebox,进入 Profiles(声音档案)
2. 点击 New Profile,输入名称和语言
3. 上传一段 3~30 秒的清晰音频,或直接在应用内录音
4. 等待模型处理,声音档案即创建完成
第二步:生成语音
1. 切换到 Generate(生成) 页面
2. 选择已创建的声音档案
3. 在文本框中输入内容,可插入情绪标签,例如:
今天真是太好了 [laugh],终于完成了这个项目 [sigh]
• Linux:暂时需从源码构建,可参考官方文档 voicebox.sh/linux-install
4. 选择 TTS 引擎(不同引擎速度与效果各异)
5. 点击生成,实时预览并下载音频
第三步:应用音频效果
在生成结果上点击 Effects(效果),可叠加:
• 混响(Reverb)、延迟(Delay)
• 合唱(Chorus)、压缩(Compression)
• 内置预设:Robotic、Radio、Echo Chamber、Deep Voice
效果支持实时预览,并可保存为自定义预设绑定到声音档案。
第四步(进阶):通过 API 集成
Voicebox 自带完整 REST API,服务默认运行在 http://localhost:17493:
# 生成语音
curl -X POST http://localhost:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好,世界", "profile_id": "abc123", "language": "zh"}'
# 查看所有声音档案
curl http://localhost:17493/profiles
完整 API 文档可在启动后访问 http://localhost:17493/docs。
典型使用场


