CAT: 技能教程LVL: L2-IntermediateDATE: 2026-04-14

自动化：全自动配音与字幕生成的“幽灵声优”流水线

告别廉价机器音和手工打轴。利用微软底层接口与代码，瞬间将你的硬核长剧本转化为带有电影级纪录片质感的旁白音频。

1. 听觉决定内容的“含金量”

很多人做的 AI 视频，画面非常震撼，但一开口就是剪映里最烂俗的“夹子音”或者“说书人”，瞬间让内容掉价。

在“书或术”的工业化标准里，连声音都必须是参数化控制的。我们将抛弃可视化的剪辑软件，直接调用目前全球最强的免费文字转语音库：Edge-TTS（微软 Edge 浏览器的底层语音引擎，拥有以假乱真的呼吸感和重音）。

2. 部署你的“幽灵声优”

在你的本地兵工厂（就是你之前跑 make_prompts.py 的那个文件夹）里，打开终端，输入这行命令安装引擎：

pip install edge-tts

然后，新建一个名为 make_audio.py 的 Python 脚本。我们以《天启大爆炸》的开场白为例：

Python
# 书或术：全自动配音生成引擎 (make_audio.py)
import asyncio
import edge_tts

# 你的视频开场白剧本
TEXT = """
天启六年五月初六，北京城西南角。
繁华的市井如常，卖货郎的叫卖声此起彼伏。
但没有人知道，一场无法用常规火药解释的惊天灾变，即将在半个时辰后，撕裂整片天空。
"""

# 锁死声音常数：云希 (zh-CN-YunxiNeural) 
# 这是一个极其适合做历史纪录片、沉稳且带有磁性的男性嗓音
VOICE = "zh-CN-YunxiNeural"
OUTPUT_FILE = "voiceover.wav"

async def generate_audio():
    print("🎙️ 正在召唤幽灵声优，请稍候...")
    communicate = edge_tts.Communicate(TEXT, VOICE, rate="-10%") # rate 减慢 10% 增加悬疑感
    await communicate.save(OUTPUT_FILE)
    print(f"✅ 电影级旁白生成完毕，已保存为：{OUTPUT_FILE}")

if __name__ == "__main__":
    asyncio.run(generate_audio())

为什么代码生成秒杀剪辑软件？参数锁死：我们在代码中加了 rate="-10%"，让语速永远保持微慢的悬疑感。你不需要每次都在软件里调速。

完美衔接 FFmpeg：还记得我们在上一篇教程中写的 FFmpeg 拼接脚本吗？

Python
# 之前 FFmpeg 脚本里预留的接口：
AUDIO_FILE = "voiceover.wav"

看懂这个闭环了吗？！这个配音脚本生成的 voiceover.wav，会直接被我们上一篇的 FFmpeg 脚本读取！

终极流水线形态现在，你做 10 分钟视频的真实动作变成了这样：

把剧本保存在 txt 里。

运行 make_audio.py -> 瞬间得到长达 10 分钟的高级旁白。

运行 make_prompts.py -> 得到分镜提示词去抽卡。

运行 FFmpeg 脚本 -> 视频和旁白完美合并。

你彻底变成了一个只管下达指令的“赛博总导演”。