船长教程之Voicebox广播剧资源包
本资源包配套视频《音频之人声 Voicebox 教程》。包含完整的项目流程、广播剧剧本、生成提示词、工作流配置。照着走,你也能用本地 AI 做出自己的有声书或广播剧。
来自视频:Voicebox+Codex打造AI配音工厂:从0到1制作广播剧全流程
船长教程之Voicebox广播剧资源包
本资源包配套视频《音频之人声 Voicebox 教程》。包含完整的项目流程、广播剧剧本、生成提示词、工作流配置。照着走,你也能用本地 AI 做出自己的有声书或广播剧。
一、你需要准备什么
硬件
- 显卡 8G 以上最佳,4G 也能用(选小模型)
- 硬盘预留 10G 以上(模型文件较大)
软件

- Voicebox — 开源本地人声大模型桌面软件,支持 Windows / macOS / Linux
- Codex 或Claude Code — 用于项目编排,驱动生成(可选,也可以手搓)
- 音频编辑软件 — 剪映、Audacity 等均可,用于拼接和后期
API
Voicebox 安装后自带本地 API,默认端口 17493。
- 健康检查:
GET http://127.0.0.1:17493/health - 音色列表:
GET http://127.0.0.1:17493/profiles - 生成接口:
POST http://127.0.0.1:17493/generate
二、模型怎么选

| 模型 | 适合场景 | 硬件要求 | 说明 |
|---|---|---|---|
| Qwen3 TTS 1.7B | 中文克隆主力,短句、旁白、角色声线 | 8G+ 显存 | 推荐首选,支持声音克隆和预设音色 |
| Qwen3 TTS 0.6B | 同上,性能稍弱 | 4G+ 显存 | 配置不够就用这个 |
| TADA 3B | 长章节:有声书、长故事、长口播 | 12G+ 显存 | 长音频一致性好,对机器要求高 |
| Kokoro | 快速批量,预设音色 | 低 | 轻量,不适合追求独特声纹 |
| LuxTTS | 英文轻量 | 低 | CPU 友好 |
| Chatterbox | 多语言、强表演感 | 中 | 支持 [laugh]、[sigh] 等标签 |
建议:硬盘够用就全下,试了再删。中文优先选千问。
三、项目文件结构

260526 人声voicebox教程/
├── 00_总控笔记.md # 项目全局决策和进展
├── 01_广播剧剧本.md # 两份广播剧剧本
├── 02_Voicebox广播剧工作流.md # 工作流配置
├── 03_TTS提示词.md # 可直接用于生成的提示词
├── 04_生成记录.md # 每次生成的参数和听感
├── 05_剧本1剪辑清单.md # 最终剪辑用的文件清单
├── 船长音频样本.mp3 # 声音克隆用的音频样本
└── outputs/
└── script01/
├── full_take_01/ # 最终版音频文件
├── 旁白/
├── 林知夏/
├── 沈砚/
└── 阿乔/
四、广播剧剧本
剧本1:情感偶像剧开场样片(视频开头用,30秒以内)

角色表
| 角色 | 性别 | 声音特点 | 用途 |
|---|---|---|---|
| 旁白 | 男 | 成熟、稳、克制,用很少信息交代关系和场景 | 展示声音克隆 |
| 林知夏 | 女 | 清亮、克制、嘴硬,被戳中会急 | 展示预设女声 |
| 沈砚 | 男 | 低声、慢一点、诚恳、不油腻 | 展示预设男声 |
| 阿乔 | 女 | 轻快、现实感、像闺蜜在旁边拦人 | 展示预设女声 |
正文
[旁白] 分手三个月后,林知夏第一次接到沈砚的电话。
[阿乔] 别接。你忘了你上次哭成什么样了?
[林知夏] 我没哭,我那是眼妆太贵,卸不干净。
[沈砚] 知夏,是我。
[林知夏] 我知道。你号码我还没来得及删。
[沈砚] 我在你家楼下。你那把备用钥匙,我想还给你。
[林知夏] 放快递柜吧。密码发我。
[沈砚] 我还想把那句对不起,当面说完。
[阿乔] 你要是下去,我可就骂你了。
[林知夏] 那你先准备词吧。我就下去三分钟。
[旁白] 她挂了电话,嘴上说三分钟,手却开始补口红。
拆分要点
- 每句独立生成,保留对话节奏
- 旁白语速慢一点,但不要朗诵腔
- 林知夏前半段嘴硬,最后一句轻一点,带一点被自己出卖的慌
- 沈砚整体低声,重点是诚恳,不要夸张深情
- 阿乔语速快一点,像真的闺蜜在旁边拦人
剧本2:家庭离别项目样片(视频后半段用)
角色表
| 角色 | 性别 | 声音特点 | 用途 |
|---|---|---|---|
| 旁白 | 男 | 稳、克制、环境叙事 | 展示声音克隆 |
| 林舟 | 男 | 故作轻松,压着情绪 | 展示年轻男声差异 |
| 小满 | 女 | 十几岁,嘴硬,反应快,情绪藏不住 | 展示快速生成 |
| 母亲 | 女 | 疲惫但温柔,平静,不要哭腔 | 展示情绪细腻角色 |
正文
[旁白] 晚上十一点,林舟拖着行李箱站在门口。桌上的面已经凉了,车票还有四十分钟检票。
[小满] 哥,你真走啊?明天妈生日,你就不能晚一天?
[林舟] 我又不是不回来了。工作定了,车票也买了。
[母亲] 先吃两口吧。你从下午到现在,什么都没吃。
[林舟] 妈,真不用。我到了再吃。
[小满] 你每次都这么说。上次走的时候,也是这句。
[林舟] 小满,别闹。
[小满] 我没闹。我就是烦你每次都装得跟没事一样。
[旁白] 林舟低头拉行李,才看见拉链上系着一枚旧钥匙。
[母亲] 到那边要是住不惯,就回来。门锁没换,你的钥匙还开得了。
[林舟] 我以为你们会怪我。
[母亲] 怪啊。可怪你,也得让你有地方回来。
[小满] 生日礼物先欠着。下次回来,双倍。
[林舟] 好。双倍。我记账。
[旁白] 他把车票塞进口袋,端起那碗凉掉的面,吃了一大口。
拆分要点
- 旁白语速略慢,情绪克制
- 林舟前半段压着情绪,最后一句放松一点
- 小满前半段带怨气,最后一句转成嘴硬的温柔
- 母亲声音不要哭腔,重点是平静
五、工作流

目标
用 Codex 或 Claude Code 驱动本机 Voicebox API,把广播剧拆成可重复执行的 TTS 生成任务。
API 生成字段
POST /generate 核心字段:
{
"profile_id": "voice-profile-id",
"text": "要生成的台词",
"language": "zh",
"seed": null,
"model_size": "1.7B",
"instruct": "语气、节奏、情绪控制",
"engine": "qwen",
"personality": false,
"max_chunk_chars": 800,
"crossfade_ms": 50,
"normalize": true
}
profile_id 和 text 为必填字段。
引擎选择
| 引擎 | 说明 |
|---|---|
| qwen | 中文克隆主力,支持 0.6B / 1.7B |
| qwen custom voice | 预设音色,支持自然语言 delivery control |
| kokoro | 轻量预设音色,快速批量 |
| tada | 1B / 3B,长文本和章节型内容 |
| chatterbox | 多语言方向 |
| chatterbox turbo | 英文和表演标签,支持 [laugh]、[sigh] |
| luxtts | 英文轻量 |
角色音色分配(参考)
剧本1
| 角色 | 引擎 | 音色来源 | 说明 |
|---|---|---|---|
| 旁白 | qwen / 1.7B | 克隆你的声音 | 成熟男声,展示克隆能力 |
| 林知夏 | qwen custom voice / 1.7B | 预设女声 | 清亮、克制、嘴硬 |
| 沈砚 | qwen custom voice / 1.7B | 预设男声 | 低声、慢、诚恳 |
| 阿乔 | qwen custom voice / 1.7B | 预设女声 | 语速稍快、现实感 |
剧本2
| 角色 | 引擎 | 音色来源 | 说明 |
|---|---|---|---|
| 旁白 | qwen / 1.7B | 克隆你的声音 | 稳、克制 |
| 林舟 | qwen custom voice | 预设男声 | 故作轻松 |
| 小满 | kokoro | 预设女声 | 嘴硬、反应快 |
| 母亲 | qwen custom voice | 预设或克隆女声 | 疲惫但温柔 |
生成策略
- 每句台词独立生成
- 每个角色使用固定 profile,避免声线漂移
- 每句保留 2~3 个可选版本,人工听感选择
- 中文台词使用
language: "zh" - seed 使用
null,需要复现时再记录具体 seed
剪辑停顿建议
- 旁白后留 300~500ms
- 人物连续对话之间留 150~250ms
- 情绪转折点(如沈砚道歉后)可留 300ms
- 旁白收尾句后不留停顿
六、TTS 提示词(可直接复制使用)
全局生成要求
中文普通话。自然对白质感。不要朗诵腔。不要舞台剧式夸张表演。不要读出角色名、方括号、编号、引号或任何标注。只朗读 text 字段中的台词正文。
每句台词独立生成。语气贴近真实人物说话。停顿自然,情绪明确但克制。短句不要拖长,长句不要念得太满。人物对白之间保留真实对话感。
不使用 [laugh]、[sigh]、[pause] 等表演标签。
剧本1 提示词
旁白
engine: qwen
model_size: 1.7B
language: zh
instruct: 成熟男声,语气稳定克制,叙事感清晰,语速略慢,不要朗诵腔,不要过度深情。
台词:
分手三个月后,林知夏第一次接到沈砚的电话。
她挂了电话,嘴上说三分钟,手却开始补口红。
林知夏
engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻女声,清亮但克制,嘴硬,努力保持体面,被戳中时语速略急,最后一句轻一点,带一点被自己出卖的慌。
台词:
我没哭,我那是眼妆太贵,卸不干净。
我知道。你号码我还没来得及删。
放快递柜吧。密码发我。
那你先准备词吧。我就下去三分钟。
沈砚
engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻男声,低声,语速慢一点,诚恳,带歉意,不油腻,不要霸总感,不要夸张深情。
台词:
知夏,是我。
我在你家楼下。你那把备用钥匙,我想还给你。
我还想把那句对不起,当面说完。
阿乔
engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻女声,语速稍快,说话直接,现实感强,像闺蜜在旁边拦人,不要尖锐,不要夸张。
台词:
别接。你忘了你上次哭成什么样了?
你要是下去,我可就骂你了。
剧本2 提示词
旁白
engine: qwen
model_size: 1.7B
language: zh
instruct: 成熟男声,平稳克制,环境叙事,语速略慢,情绪不要外露,不要朗诵腔。
台词:
晚上十一点,林舟拖着行李箱站在门口。桌上的面已经凉了,车票还有四十分钟检票。
林舟低头拉行李,才看见拉链上系着一枚旧钥匙。
他把车票塞进口袋,端起那碗凉掉的面,吃了一大口。
林舟
engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻男声,故作轻松,压着情绪,不要哭腔,前半段嘴硬,最后一句稍微放松一点。
台词:
我又不是不回来了。工作定了,车票也买了。
妈,真不用。我到了再吃。
小满,别闹。
我以为你们会怪我。
好。双倍。我记账。
小满
engine: kokoro
language: zh
instruct: 十几岁年轻女声,反应快,嘴硬,情绪藏不住,前半段有怨气,最后一句转成嘴硬的温柔。
台词:
哥,你真走啊?明天妈生日,你就不能晚一天?
你每次都这么说。上次走的时候,也是这句。
我没闹。我就是烦你每次都装得跟没事一样。
生日礼物先欠着。下次回来,双倍。
母亲
engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 中年女声,疲惫但温柔,平静,语速不快,不要哭腔,声音里有长期忍耐后的克制。
台词:
先吃两口吧。你从下午到现在,什么都没吃。
到那边要是住不惯,就回来。门锁没换,你的钥匙还开得了。
怪啊。可怪你,也得让你有地方回来。
七、注意事项
- 声音克隆要授权。 你克隆自己的声音没问题,但千万不要拿没有授权的声音做商用,特别是明星和公众人物。工具开源,但胡乱搞要承担责任。
- 每句台词独立生成。 不要把整段话塞进去,拆开生成效果更好,也方便后期拼接。
- 每个角色固定音色。 同一角色全程用同一个 profile,避免声线漂移。
- 每句多生成几个版本。 保留 2~3 个可选,最终由你的耳朵来决定哪个好。
- instruct 字段很关键。 它决定了模型用什么语气、情绪、节奏来读。写得越具体,效果越好。
- 不要用表演标签。 除了 chatterbox_turbo 引擎外,其他引擎会把 [laugh]、[sigh] 当普通文本读出来。
- seed 设为 null。 除非你需要复现某次特定结果,否则不需要固定 seed。
- 后期拼接注意停顿。 旁白后留 300
500ms,对话间留 150250ms,情绪转折点可适当多留。
八、Codex / Claude Code 编排参考
如果你想用 AI Agent 来驱动整个流程,大致步骤:
- 让 Agent 读取项目目录和总控笔记
- 给 Agent Voicebox 项目的 GitHub 地址,让它学习 API 用法
- 让 Agent 读取剧本,提出角色拆分和音色分配方案
- 确认本地 API 端口已通、音色已就绪
- 让 Agent 创建生成提示词笔记和工作流笔记
- 逐句生成,每句保留多个版本
- 人工听感选择,Agent 整理最终文件清单
关键提示词给 Agent 的指令:
- 提示词是给大模型看的,不要留过程性表达
- 提示词必须参考 Voicebox 项目的 README
- 每句台词用独立的 text 文本块
- 全局要求写清楚:中文普通话、不要朗诵腔、不要读出标注
九、快速开始清单
- 下载安装 Voicebox
- 下载至少一个中文模型(推荐千问 1.7B)
- 录制或上传你的声音样本,创建克隆音色
- 用预设音色试几句话,感受效果
- 写一个你自己的剧本(或直接用上面的)
- 按提示词模板,为每个角色写好 instruct
- 逐句生成,每句 2~3 个版本
- 挑选最佳版本,按剪辑清单拼接
- 加上 BGM 和音效(进阶)
- 导出成品

