船长的角落 Captain Nook
返回内容目录
图像与视频

船长教程之Voicebox广播剧资源包

本资源包配套视频《音频之人声 Voicebox 教程》。包含完整的项目流程、广播剧剧本、生成提示词、工作流配置。照着走,你也能用本地 AI 做出自己的有声书或广播剧。

2026-06-12飞书同步约 13 分钟
来自视频:Voicebox+Codex打造AI配音工厂:从0到1制作广播剧全流程

文档插图

船长教程之Voicebox广播剧资源包

本资源包配套视频《音频之人声 Voicebox 教程》。包含完整的项目流程、广播剧剧本、生成提示词、工作流配置。照着走,你也能用本地 AI 做出自己的有声书或广播剧。


一、你需要准备什么

硬件

  • 显卡 8G 以上最佳,4G 也能用(选小模型)
  • 硬盘预留 10G 以上(模型文件较大)

软件

文档插图

  • Voicebox — 开源本地人声大模型桌面软件,支持 Windows / macOS / Linux
  • CodexClaude Code — 用于项目编排,驱动生成(可选,也可以手搓)
  • 音频编辑软件 — 剪映、Audacity 等均可,用于拼接和后期

API

Voicebox 安装后自带本地 API,默认端口 17493

  • 健康检查:GET http://127.0.0.1:17493/health
  • 音色列表:GET http://127.0.0.1:17493/profiles
  • 生成接口:POST http://127.0.0.1:17493/generate

二、模型怎么选

文档插图

模型适合场景硬件要求说明
Qwen3 TTS 1.7B中文克隆主力,短句、旁白、角色声线8G+ 显存推荐首选,支持声音克隆和预设音色
Qwen3 TTS 0.6B同上,性能稍弱4G+ 显存配置不够就用这个
TADA 3B长章节:有声书、长故事、长口播12G+ 显存长音频一致性好,对机器要求高
Kokoro快速批量,预设音色轻量,不适合追求独特声纹
LuxTTS英文轻量CPU 友好
Chatterbox多语言、强表演感支持 [laugh]、[sigh] 等标签

建议:硬盘够用就全下,试了再删。中文优先选千问。

三、项目文件结构

文档插图

260526 人声voicebox教程/
├── 00_总控笔记.md          # 项目全局决策和进展
├── 01_广播剧剧本.md        # 两份广播剧剧本
├── 02_Voicebox广播剧工作流.md  # 工作流配置
├── 03_TTS提示词.md         # 可直接用于生成的提示词
├── 04_生成记录.md          # 每次生成的参数和听感
├── 05_剧本1剪辑清单.md     # 最终剪辑用的文件清单
├── 船长音频样本.mp3        # 声音克隆用的音频样本
└── outputs/
    └── script01/
        ├── full_take_01/   # 最终版音频文件
        ├── 旁白/
        ├── 林知夏/
        ├── 沈砚/
        └── 阿乔/

四、广播剧剧本

剧本1:情感偶像剧开场样片(视频开头用,30秒以内)

文档插图

角色表

角色性别声音特点用途
旁白成熟、稳、克制,用很少信息交代关系和场景展示声音克隆
林知夏清亮、克制、嘴硬,被戳中会急展示预设女声
沈砚低声、慢一点、诚恳、不油腻展示预设男声
阿乔轻快、现实感、像闺蜜在旁边拦人展示预设女声

正文

[旁白] 分手三个月后,林知夏第一次接到沈砚的电话。
[阿乔] 别接。你忘了你上次哭成什么样了?
[林知夏] 我没哭,我那是眼妆太贵,卸不干净。
[沈砚] 知夏,是我。
[林知夏] 我知道。你号码我还没来得及删。
[沈砚] 我在你家楼下。你那把备用钥匙,我想还给你。
[林知夏] 放快递柜吧。密码发我。
[沈砚] 我还想把那句对不起,当面说完。
[阿乔] 你要是下去,我可就骂你了。
[林知夏] 那你先准备词吧。我就下去三分钟。
[旁白] 她挂了电话,嘴上说三分钟,手却开始补口红。

拆分要点

  • 每句独立生成,保留对话节奏
  • 旁白语速慢一点,但不要朗诵腔
  • 林知夏前半段嘴硬,最后一句轻一点,带一点被自己出卖的慌
  • 沈砚整体低声,重点是诚恳,不要夸张深情
  • 阿乔语速快一点,像真的闺蜜在旁边拦人

剧本2:家庭离别项目样片(视频后半段用)

角色表

角色性别声音特点用途
旁白稳、克制、环境叙事展示声音克隆
林舟故作轻松,压着情绪展示年轻男声差异
小满十几岁,嘴硬,反应快,情绪藏不住展示快速生成
母亲疲惫但温柔,平静,不要哭腔展示情绪细腻角色

正文

[旁白] 晚上十一点,林舟拖着行李箱站在门口。桌上的面已经凉了,车票还有四十分钟检票。
[小满] 哥,你真走啊?明天妈生日,你就不能晚一天?
[林舟] 我又不是不回来了。工作定了,车票也买了。
[母亲] 先吃两口吧。你从下午到现在,什么都没吃。
[林舟] 妈,真不用。我到了再吃。
[小满] 你每次都这么说。上次走的时候,也是这句。
[林舟] 小满,别闹。
[小满] 我没闹。我就是烦你每次都装得跟没事一样。
[旁白] 林舟低头拉行李,才看见拉链上系着一枚旧钥匙。
[母亲] 到那边要是住不惯,就回来。门锁没换,你的钥匙还开得了。
[林舟] 我以为你们会怪我。
[母亲] 怪啊。可怪你,也得让你有地方回来。
[小满] 生日礼物先欠着。下次回来,双倍。
[林舟] 好。双倍。我记账。
[旁白] 他把车票塞进口袋,端起那碗凉掉的面,吃了一大口。

拆分要点

  • 旁白语速略慢,情绪克制
  • 林舟前半段压着情绪,最后一句放松一点
  • 小满前半段带怨气,最后一句转成嘴硬的温柔
  • 母亲声音不要哭腔,重点是平静

五、工作流

文档插图

目标

用 Codex 或 Claude Code 驱动本机 Voicebox API,把广播剧拆成可重复执行的 TTS 生成任务。

API 生成字段

POST /generate 核心字段:

{
  "profile_id": "voice-profile-id",
  "text": "要生成的台词",
  "language": "zh",
  "seed": null,
  "model_size": "1.7B",
  "instruct": "语气、节奏、情绪控制",
  "engine": "qwen",
  "personality": false,
  "max_chunk_chars": 800,
  "crossfade_ms": 50,
  "normalize": true
}

profile_idtext 为必填字段。

引擎选择

引擎说明
qwen中文克隆主力,支持 0.6B / 1.7B
qwen custom voice预设音色,支持自然语言 delivery control
kokoro轻量预设音色,快速批量
tada1B / 3B,长文本和章节型内容
chatterbox多语言方向
chatterbox turbo英文和表演标签,支持 [laugh]、[sigh]
luxtts英文轻量

角色音色分配(参考)

剧本1

角色引擎音色来源说明
旁白qwen / 1.7B克隆你的声音成熟男声,展示克隆能力
林知夏qwen custom voice / 1.7B预设女声清亮、克制、嘴硬
沈砚qwen custom voice / 1.7B预设男声低声、慢、诚恳
阿乔qwen custom voice / 1.7B预设女声语速稍快、现实感

剧本2

角色引擎音色来源说明
旁白qwen / 1.7B克隆你的声音稳、克制
林舟qwen custom voice预设男声故作轻松
小满kokoro预设女声嘴硬、反应快
母亲qwen custom voice预设或克隆女声疲惫但温柔

生成策略

  • 每句台词独立生成
  • 每个角色使用固定 profile,避免声线漂移
  • 每句保留 2~3 个可选版本,人工听感选择
  • 中文台词使用 language: "zh"
  • seed 使用 null,需要复现时再记录具体 seed

剪辑停顿建议

  • 旁白后留 300~500ms
  • 人物连续对话之间留 150~250ms
  • 情绪转折点(如沈砚道歉后)可留 300ms
  • 旁白收尾句后不留停顿

六、TTS 提示词(可直接复制使用)

全局生成要求

中文普通话。自然对白质感。不要朗诵腔。不要舞台剧式夸张表演。不要读出角色名、方括号、编号、引号或任何标注。只朗读 text 字段中的台词正文。

每句台词独立生成。语气贴近真实人物说话。停顿自然,情绪明确但克制。短句不要拖长,长句不要念得太满。人物对白之间保留真实对话感。

不使用 [laugh]、[sigh]、[pause] 等表演标签。


剧本1 提示词

旁白

engine: qwen
model_size: 1.7B
language: zh
instruct: 成熟男声,语气稳定克制,叙事感清晰,语速略慢,不要朗诵腔,不要过度深情。

台词:

分手三个月后,林知夏第一次接到沈砚的电话。
她挂了电话,嘴上说三分钟,手却开始补口红。

林知夏

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻女声,清亮但克制,嘴硬,努力保持体面,被戳中时语速略急,最后一句轻一点,带一点被自己出卖的慌。

台词:

我没哭,我那是眼妆太贵,卸不干净。
我知道。你号码我还没来得及删。
放快递柜吧。密码发我。
那你先准备词吧。我就下去三分钟。

沈砚

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻男声,低声,语速慢一点,诚恳,带歉意,不油腻,不要霸总感,不要夸张深情。

台词:

知夏,是我。
我在你家楼下。你那把备用钥匙,我想还给你。
我还想把那句对不起,当面说完。

阿乔

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻女声,语速稍快,说话直接,现实感强,像闺蜜在旁边拦人,不要尖锐,不要夸张。

台词:

别接。你忘了你上次哭成什么样了?
你要是下去,我可就骂你了。

剧本2 提示词

旁白

engine: qwen
model_size: 1.7B
language: zh
instruct: 成熟男声,平稳克制,环境叙事,语速略慢,情绪不要外露,不要朗诵腔。

台词:

晚上十一点,林舟拖着行李箱站在门口。桌上的面已经凉了,车票还有四十分钟检票。
林舟低头拉行李,才看见拉链上系着一枚旧钥匙。
他把车票塞进口袋,端起那碗凉掉的面,吃了一大口。

林舟

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 年轻男声,故作轻松,压着情绪,不要哭腔,前半段嘴硬,最后一句稍微放松一点。

台词:

我又不是不回来了。工作定了,车票也买了。
妈,真不用。我到了再吃。
小满,别闹。
我以为你们会怪我。
好。双倍。我记账。

小满

engine: kokoro
language: zh
instruct: 十几岁年轻女声,反应快,嘴硬,情绪藏不住,前半段有怨气,最后一句转成嘴硬的温柔。

台词:

哥,你真走啊?明天妈生日,你就不能晚一天?
你每次都这么说。上次走的时候,也是这句。
我没闹。我就是烦你每次都装得跟没事一样。
生日礼物先欠着。下次回来,双倍。

母亲

engine: qwen_custom_voice
model_size: 1.7B
language: zh
instruct: 中年女声,疲惫但温柔,平静,语速不快,不要哭腔,声音里有长期忍耐后的克制。

台词:

先吃两口吧。你从下午到现在,什么都没吃。
到那边要是住不惯,就回来。门锁没换,你的钥匙还开得了。
怪啊。可怪你,也得让你有地方回来。

七、注意事项

  1. 声音克隆要授权。 你克隆自己的声音没问题,但千万不要拿没有授权的声音做商用,特别是明星和公众人物。工具开源,但胡乱搞要承担责任。
  2. 每句台词独立生成。 不要把整段话塞进去,拆开生成效果更好,也方便后期拼接。
  3. 每个角色固定音色。 同一角色全程用同一个 profile,避免声线漂移。
  4. 每句多生成几个版本。 保留 2~3 个可选,最终由你的耳朵来决定哪个好。
  5. instruct 字段很关键。 它决定了模型用什么语气、情绪、节奏来读。写得越具体,效果越好。
  6. 不要用表演标签。 除了 chatterbox_turbo 引擎外,其他引擎会把 [laugh]、[sigh] 当普通文本读出来。
  7. seed 设为 null。 除非你需要复现某次特定结果,否则不需要固定 seed。
  8. 后期拼接注意停顿。 旁白后留 300500ms,对话间留 150250ms,情绪转折点可适当多留。

八、Codex / Claude Code 编排参考

如果你想用 AI Agent 来驱动整个流程,大致步骤:

  1. 让 Agent 读取项目目录和总控笔记
  2. 给 Agent Voicebox 项目的 GitHub 地址,让它学习 API 用法
  3. 让 Agent 读取剧本,提出角色拆分和音色分配方案
  4. 确认本地 API 端口已通、音色已就绪
  5. 让 Agent 创建生成提示词笔记和工作流笔记
  6. 逐句生成,每句保留多个版本
  7. 人工听感选择,Agent 整理最终文件清单

关键提示词给 Agent 的指令:

  • 提示词是给大模型看的,不要留过程性表达
  • 提示词必须参考 Voicebox 项目的 README
  • 每句台词用独立的 text 文本块
  • 全局要求写清楚:中文普通话、不要朗诵腔、不要读出标注

九、快速开始清单

  1. 下载安装 Voicebox
  2. 下载至少一个中文模型(推荐千问 1.7B)
  3. 录制或上传你的声音样本,创建克隆音色
  4. 用预设音色试几句话,感受效果
  5. 写一个你自己的剧本(或直接用上面的)
  6. 按提示词模板,为每个角色写好 instruct
  7. 逐句生成,每句 2~3 个版本
  8. 挑选最佳版本,按剪辑清单拼接
  9. 加上 BGM 和音效(进阶)
  10. 导出成品

文档插图