图像与视频

船长教程之Voicebox广播剧资源包

本资源包配套视频《音频之人声 Voicebox 教程》。包含完整的项目流程、广播剧剧本、生成提示词、工作流配置。照着走，你也能用本地 AI 做出自己的有声书或广播剧。

2026-06-11飞书同步约 13 分钟

来自视频：Voicebox+Codex打造AI配音工厂：从0到1制作广播剧全流程

船长教程之Voicebox广播剧资源包

一、你需要准备什么

硬件

显卡 8G 以上最佳，4G 也能用（选小模型）
硬盘预留 10G 以上（模型文件较大）

软件

文档插图

Voicebox — 开源本地人声大模型桌面软件，支持 Windows / macOS / Linux
Codex 或Claude Code — 用于项目编排，驱动生成（可选，也可以手搓）
音频编辑软件 — 剪映、Audacity 等均可，用于拼接和后期

API

Voicebox 安装后自带本地 API，默认端口 17493。

健康检查：GET http://127.0.0.1:17493/health
音色列表：GET http://127.0.0.1:17493/profiles
生成接口：POST http://127.0.0.1:17493/generate

二、模型怎么选

文档插图

模型	适合场景	硬件要求	说明
Qwen3 TTS 1.7B	中文克隆主力，短句、旁白、角色声线	8G+ 显存	推荐首选，支持声音克隆和预设音色
Qwen3 TTS 0.6B	同上，性能稍弱	4G+ 显存	配置不够就用这个
TADA 3B	长章节：有声书、长故事、长口播	12G+ 显存	长音频一致性好，对机器要求高
Kokoro	快速批量，预设音色	低	轻量，不适合追求独特声纹
LuxTTS	英文轻量	低	CPU 友好
Chatterbox	多语言、强表演感	中	支持 [laugh]、[sigh] 等标签

建议：硬盘够用就全下，试了再删。中文优先选千问。

三、项目文件结构

文档插图

260526 人声voicebox教程/
├── 00_总控笔记.md          # 项目全局决策和进展
├── 01_广播剧剧本.md        # 两份广播剧剧本
├── 02_Voicebox广播剧工作流.md  # 工作流配置
├── 03_TTS提示词.md         # 可直接用于生成的提示词
├── 04_生成记录.md          # 每次生成的参数和听感
├── 05_剧本1剪辑清单.md     # 最终剪辑用的文件清单
├── 船长音频样本.mp3        # 声音克隆用的音频样本
└── outputs/
    └── script01/
        ├── full_take_01/   # 最终版音频文件
        ├── 旁白/
        ├── 林知夏/
        ├── 沈砚/
        └── 阿乔/

四、广播剧剧本

剧本1：情感偶像剧开场样片（视频开头用，30秒以内）

文档插图

角色表

角色	性别	声音特点	用途
旁白	男	成熟、稳、克制，用很少信息交代关系和场景	展示声音克隆
林知夏	女	清亮、克制、嘴硬，被戳中会急	展示预设女声
沈砚	男	低声、慢一点、诚恳、不油腻	展示预设男声
阿乔	女	轻快、现实感、像闺蜜在旁边拦人	展示预设女声

正文

[旁白] 分手三个月后，林知夏第一次接到沈砚的电话。
[阿乔] 别接。你忘了你上次哭成什么样了？
[林知夏] 我没哭，我那是眼妆太贵，卸不干净。
[沈砚] 知夏，是我。
[林知夏] 我知道。你号码我还没来得及删。
[沈砚] 我在你家楼下。你那把备用钥匙，我想还给你。
[林知夏] 放快递柜吧。密码发我。
[沈砚] 我还想把那句对不起，当面说完。
[阿乔] 你要是下去，我可就骂你了。
[林知夏] 那你先准备词吧。我就下去三分钟。
[旁白] 她挂了电话，嘴上说三分钟，手却开始补口红。

拆分要点

每句独立生成，保留对话节奏
旁白语速慢一点，但不要朗诵腔
林知夏前半段嘴硬，最后一句轻一点，带一点被自己出卖的慌
沈砚整体低声，重点是诚恳，不要夸张深情
阿乔语速快一点，像真的闺蜜在旁边拦人

剧本2：家庭离别项目样片（视频后半段用）

角色表

角色	性别	声音特点	用途
旁白	男	稳、克制、环境叙事	展示声音克隆
林舟	男	故作轻松，压着情绪	展示年轻男声差异
小满	女	十几岁，嘴硬，反应快，情绪藏不住	展示快速生成
母亲	女	疲惫但温柔，平静，不要哭腔	展示情绪细腻角色

正文

[旁白] 晚上十一点，林舟拖着行李箱站在门口。桌上的面已经凉了，车票还有四十分钟检票。
[小满] 哥，你真走啊？明天妈生日，你就不能晚一天？
[林舟] 我又不是不回来了。工作定了，车票也买了。
[母亲] 先吃两口吧。你从下午到现在，什么都没吃。
[林舟] 妈，真不用。我到了再吃。
[小满] 你每次都这么说。上次走的时候，也是这句。
[林舟] 小满，别闹。
[小满] 我没闹。我就是烦你每次都装得跟没事一样。
[旁白] 林舟低头拉行李，才看见拉链上系着一枚旧钥匙。
[母亲] 到那边要是住不惯，就回来。门锁没换，你的钥匙还开得了。
[林舟] 我以为你们会怪我。
[母亲] 怪啊。可怪你，也得让你有地方回来。
[小满] 生日礼物先欠着。下次回来，双倍。
[林舟] 好。双倍。我记账。
[旁白] 他把车票塞进口袋，端起那碗凉掉的面，吃了一大口。

拆分要点

旁白语速略慢，情绪克制
林舟前半段压着情绪，最后一句放松一点
小满前半段带怨气，最后一句转成嘴硬的温柔
母亲声音不要哭腔，重点是平静

五、工作流

文档插图

目标

用 Codex 或 Claude Code 驱动本机 Voicebox API，把广播剧拆成可重复执行的 TTS 生成任务。

API 生成字段

POST /generate 核心字段：

{
  "profile_id": "voice-profile-id",
  "text": "要生成的台词",
  "language": "zh",
  "seed": null,
  "model_size": "1.7B",
  "instruct": "语气、节奏、情绪控制",
  "engine": "qwen",
  "personality": false,
  "max_chunk_chars": 800,
  "crossfade_ms": 50,
  "normalize": true
}

profile_id 和 text 为必填字段。

引擎选择

引擎	说明
qwen	中文克隆主力，支持 0.6B / 1.7B
qwen custom voice	预设音色，支持自然语言 delivery control
kokoro	轻量预设音色，快速批量
tada	1B / 3B，长文本和章节型内容
chatterbox	多语言方向
chatterbox turbo	英文和表演标签，支持 [laugh]、[sigh]
luxtts	英文轻量

角色音色分配（参考）

剧本1

角色	引擎	音色来源	说明
旁白	qwen / 1.7B	克隆你的声音	成熟男声，展示克隆能力
林知夏	qwen custom voice / 1.7B	预设女声	清亮、克制、嘴硬
沈砚	qwen custom voice / 1.7B	预设男声	低声、慢、诚恳
阿乔	qwen custom voice / 1.7B	预设女声	语速稍快、现实感

剧本2

角色	引擎	音色来源	说明
旁白	qwen / 1.7B	克隆你的声音	稳、克制
林舟	qwen custom voice	预设男声	故作轻松
小满	kokoro	预设女声	嘴硬、反应快
母亲	qwen custom voice	预设或克隆女声	疲惫但温柔

生成策略

每句台词独立生成
每个角色使用固定 profile，避免声线漂移
每句保留 2~3 个可选版本，人工听感选择
中文台词使用 language: "zh"
seed 使用 null，需要复现时再记录具体 seed

剪辑停顿建议

旁白后留 300~500ms
人物连续对话之间留 150~250ms
情绪转折点（如沈砚道歉后）可留 300ms
旁白收尾句后不留停顿

六、TTS 提示词（可直接复制使用）

全局生成要求

中文普通话。自然对白质感。不要朗诵腔。不要舞台剧式夸张表演。不要读出角色名、方括号、编号、引号或任何标注。只朗读 text 字段中的台词正文。

每句台词独立生成。语气贴近真实人物说话。停顿自然，情绪明确但克制。短句不要拖长，长句不要念得太满。人物对白之间保留真实对话感。

不使用 [laugh]、[sigh]、[pause] 等表演标签。

剧本1 提示词

旁白

engine: qwen
model_size: 1.7B
language: zh
instruct: 成熟男声，语气稳定克制，叙事感清晰，语速略慢，不要朗诵腔，不要过度深情。

台词：

分手三个月后，林知夏第一次接到沈砚的电话。

她挂了电话，嘴上说三分钟，手却开始补口红。

林知夏

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻女声，清亮但克制，嘴硬，努力保持体面，被戳中时语速略急，最后一句轻一点，带一点被自己出卖的慌。

台词：

我没哭，我那是眼妆太贵，卸不干净。

我知道。你号码我还没来得及删。

放快递柜吧。密码发我。

那你先准备词吧。我就下去三分钟。

沈砚

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻男声，低声，语速慢一点，诚恳，带歉意，不油腻，不要霸总感，不要夸张深情。

台词：

知夏，是我。

我在你家楼下。你那把备用钥匙，我想还给你。

我还想把那句对不起，当面说完。

阿乔

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻女声，语速稍快，说话直接，现实感强，像闺蜜在旁边拦人，不要尖锐，不要夸张。

台词：

别接。你忘了你上次哭成什么样了？

你要是下去，我可就骂你了。

剧本2 提示词

旁白

engine: qwen
model_size: 1.7B
language: zh
instruct: 成熟男声，平稳克制，环境叙事，语速略慢，情绪不要外露，不要朗诵腔。

台词：

晚上十一点，林舟拖着行李箱站在门口。桌上的面已经凉了，车票还有四十分钟检票。

林舟低头拉行李，才看见拉链上系着一枚旧钥匙。

他把车票塞进口袋，端起那碗凉掉的面，吃了一大口。

林舟

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻男声，故作轻松，压着情绪，不要哭腔，前半段嘴硬，最后一句稍微放松一点。

台词：

我又不是不回来了。工作定了，车票也买了。

妈，真不用。我到了再吃。

小满，别闹。

我以为你们会怪我。

好。双倍。我记账。

小满

engine: kokoro
language: zh
instruct: 十几岁年轻女声，反应快，嘴硬，情绪藏不住，前半段有怨气，最后一句转成嘴硬的温柔。

台词：

哥，你真走啊？明天妈生日，你就不能晚一天？

你每次都这么说。上次走的时候，也是这句。

我没闹。我就是烦你每次都装得跟没事一样。

生日礼物先欠着。下次回来，双倍。

母亲

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 中年女声，疲惫但温柔，平静，语速不快，不要哭腔，声音里有长期忍耐后的克制。

台词：

先吃两口吧。你从下午到现在，什么都没吃。

到那边要是住不惯，就回来。门锁没换，你的钥匙还开得了。

怪啊。可怪你，也得让你有地方回来。

七、注意事项

声音克隆要授权。 你克隆自己的声音没问题，但千万不要拿没有授权的声音做商用，特别是明星和公众人物。工具开源，但胡乱搞要承担责任。
每句台词独立生成。 不要把整段话塞进去，拆开生成效果更好，也方便后期拼接。
每个角色固定音色。 同一角色全程用同一个 profile，避免声线漂移。
每句多生成几个版本。 保留 2~3 个可选，最终由你的耳朵来决定哪个好。
instruct 字段很关键。 它决定了模型用什么语气、情绪、节奏来读。写得越具体，效果越好。
不要用表演标签。 除了 chatterbox_turbo 引擎外，其他引擎会把 [laugh]、[sigh] 当普通文本读出来。
seed 设为 null。 除非你需要复现某次特定结果，否则不需要固定 seed。
后期拼接注意停顿。 旁白后留 300~~500ms，对话间留 150~~250ms，情绪转折点可适当多留。

八、Codex / Claude Code 编排参考

如果你想用 AI Agent 来驱动整个流程，大致步骤：

让 Agent 读取项目目录和总控笔记
给 Agent Voicebox 项目的 GitHub 地址，让它学习 API 用法
让 Agent 读取剧本，提出角色拆分和音色分配方案
确认本地 API 端口已通、音色已就绪
让 Agent 创建生成提示词笔记和工作流笔记
逐句生成，每句保留多个版本
人工听感选择，Agent 整理最终文件清单

关键提示词给 Agent 的指令：

提示词是给大模型看的，不要留过程性表达
提示词必须参考 Voicebox 项目的 README
每句台词用独立的 text 文本块
全局要求写清楚：中文普通话、不要朗诵腔、不要读出标注

九、快速开始清单

下载安装 Voicebox
下载至少一个中文模型（推荐千问 1.7B）
录制或上传你的声音样本，创建克隆音色
用预设音色试几句话，感受效果
写一个你自己的剧本（或直接用上面的）
按提示词模板，为每个角色写好 instruct
逐句生成，每句 2~3 个版本
挑选最佳版本，按剪辑清单拼接
加上 BGM 和音效（进阶）
导出成品

文档插图