为演唱合成克隆声音

在 ACE Studio 中将你自己的声音克隆为演唱合成的声音。

什么是歌声合成声音克隆?

这是通过上传你的歌唱样本来自定义专属歌声合成模型的功能。AI 会根据你上传的样本学习音色和演唱风格,克隆出一个数字化的声音版本。

自定义完成后,你可以像使用 ACE Studio 中的预设 AI 声音一样,用你的声音根据 MIDI 和歌词生成人声。

如何为歌声合成克隆我的声音?

准备数据集

干净的干声人声

高质量的声音需要干净且无效果的人声样本:

  • 没有任何混响、延迟、合唱等效果

  • 没有背景噪音

  • 没有伴奏或任何非人类声音

  • 没有任何和声或人声叠加

建议每个声音提供 30-100 分钟的歌唱样本。你提供的样本越多,AI 能学习到的演唱细节越多,但当超过 120 分钟时,收益会变得有限。

房间反射

带有强烈房间反射的录音可能导致识别错误,从而使模型表现不如预期。

来自音轨分离的声乐

当你使用人声分离器或 Stem Splitter 提取人声时,输出质量可能被破坏,不足以用于训练。若需更高质量的声音模型,请尽量使用未经严重损坏的人声样本。

录制样本

带音频接口的高质量麦克风

配有音频接口的专业麦克风能带来高质量人声。你需要录音软件连接到你的接口,进行录制、编辑和混音。

为训练声音模型进行录音时,避免使用不适合歌唱的麦克风:

  • 手机或笔记本麦克风

  • 领夹麦克风或耳麦

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机(如 AirPods,通常用于通话)

录音环境

  1. 不想要的背景噪音可能包括人声、嗡嗡声、电流噪音、交通和室外噪声,以及配件或物体的移动。为防止这些噪音干扰录音,请选择安静的场所,尽量将意外噪音降到最低或消除。

  2. 由于存在坚硬且平整的表面,可能会产生声波反射,导致录音出现混响或回声。这会让音轨听起来空洞或遥远,影响亲密感和清晰度。

  3. 试着在房间里拍手并仔细听。如果你听到颤动声或持续的回声,说明存在混响问题。

  4. 为解决此问题,可加入能吸音的软质材料。考虑使用地毯、垫子或厚窗帘来显著减少反射。覆盖硬质地面、尽可能在窗户上挂帘子,以及摆放带布艺的家具,都有帮助。

  5. 避免使用硬质表面,因为它们会加剧问题。如果无法购买专业的吸音板,可以使用画布画、挂毯或泡沫砖等日常物品来打散这些表面。

  6. 设置麦克风时,请注意摆位。避免将麦克风放得太靠近墙壁或角落。尽量放在房间中央或尝试不同位置,找到混响最小的最佳位置。

耳机泄漏(Headphone bleed)

在录音,尤其是录制人声时,耳机音频泄漏到麦克风中是常见问题。该问题通常发生在耳机音量过大或使用开放式耳机时。录制歌曲时这可能可以接受,但为训练声音模型时尽量避免这种泄漏。

麦克风摆位

对于普通音量,建议将你与麦克风保持约 2 英寸(约 5 厘米)的距离。但在更响亮的句子或用力唱(belting)时,建议将距离增加到约 4-6 英寸(约 10-15 厘米)。请注意,始终保持距离小于 12 英寸(约 30 厘米),以维持最佳录音效果。

为用力演唱(Belting)留出空间

在进行用力演唱时,麦克风距离和房间大小都需要留出足够空间。过度隔音(例如在衣柜或录音箱内录音,或用泡沫完全包围麦克风)容易导致麦克风胶囊过载。如果不确定,建议在演唱用力句子时保留更多房间声。

演唱语言

基础自定义插槽

在基础自定义插槽中训练的声音模型仅支持一种演唱语言。

专业自定义插槽

在专业自定义插槽中训练的声音可以支持多语言。

样本中的语言

在训练过程中,每个样本文件会被单独处理并视为单一语言文件。请避免在同一样本文件中混合不同语言的句子。

上传样本时,请确保将它们放在相应的语言标签下。即使你为基础自定义插槽上传样本,也可以根据需要上传多种语言样本。按语言组织样本有助于保持清晰并改善训练过程。

即将支持的语言

我们正在持续开发自定义声音功能所支持的新演唱语言。

关于你的新声音:

  • 新语言将由新的专业自定义插槽支持。

  • 新语言将作为新的基础自定义插槽的可选支持项之一。

关于你现有的声音:

  • 在重新训练你的专业自定义插槽时,将支持新语言。

  • 在重新训练你的基础自定义插槽时,新语言将作为可选项。

演唱或说话

歌唱样本和说话样本都可以用于训练你的歌唱声音模型。

你的声音可以学习:

  • 从歌唱样本和说话样本中学习音色,但请注意:对于同一个人,说话时的音色可能与唱歌时不同,通常不能完全代表真实的歌唱表现。

  • 从歌唱样本中学习演唱风格

你的声音无法学习:

  • 从说话样本中学习演唱风格

文件质量设置

样本的音频质量会直接影响你的声音质量。

我们建议将音频质量设置为:

  • 位深 = 16 位

  • 采样率 = 44.1kHz 或 48kHz

  • 无损文件格式(.wav 或 .flac)

后期处理

为保持目标声音的自然特性和清晰度:

  • 不要重叠: 多层人声会使 AI 的分析变得复杂。将重叠的演唱放在后面,并尽量保持单轨人声,以确保 AI 能准确处理并从样本中学习。

  • 不要硬切: 硬切会产生不自然的突兀起止,可能引入点击声或爆裂声。对人声音频片段的起止使用平滑淡入淡出,以获得更自然的过渡。

  • 不要重复片段: 重复的片段对训练无益。你的声音模型更受演唱自然变化的有利影响。

  • 控制音量: 确保你的样本电平保持在表盘的约 30-50% 范围。使用电平骑手或自动化以确保整个数据集的音量一致。目标是在录音中保持一致的音量水平,同时保留各段内的动态变化。

训练你的声音

准备好数据集后,你可以前往 自定义声音页面 选择一个自定义插槽、上传人声样本并开始训练。

基础自定义插槽为你带来单语言的声音,并提供 5 个版本。

专业自定义插槽为你带来多语言的声音,并提供 5 个版本。

点击某个插槽开始上传你的样本。

所有样本上传完成后,训练将自动开始。你可以通过刷新网页来查看状态。

当你看到训练页面变为声音克隆管理页面时,你的声音就设置完成了。它会显示在 ACE Studio 的声音库中。如果看不到,请尝试重启 ACE Studio。

专业提示

如果你希望某个声音在不同音域或情感上具有独特表现,最好将样本按不同声音拆分训练,从而获得更专属的表现。

这里有一个示例:

Mike 是位专业歌手,想要定制自己的声音。他既能胜任男高音也能胜任低音。因此最好训练出两种声音:

  • 基于以高音且有力量的演唱样本,训练一个高音且有力量的声音。

  • 基于以低音句子为主的样本,训练一个低音声音。

重新训练你的声音

点击 重新训练 按钮以重新训练你的声音。

重新训练将移除该插槽下的先前声音并撤下所有与该声音关联的已部署歌手。AI 会使用新的数据集从零开始训练一个全新的声音。在开始重新训练之前,你可以选择保留该插槽中的历史样本并上传额外新样本,或者清除历史样本仅使用新上传的样本。

准备新样本时请注意:

  • 如果新添加样本的时长显著少于已上传样本,例如在 30 分钟的数据集中仅添加 1 分钟新样本,重新训练可能不会显著改变声音的表现。

  • 重新训练不会更改插槽类型。

  • 你可以通过重新训练来切换基础自定义插槽支持的语言。

我什么时候应该重新训练我的声音?

  • 当你的数据集质量更好或数量更多时,可以用它们迭代改进你的声音

  • 当你对当前结果不满意并想调整数据集时

  • 当发布了新的演唱语言技能时

管理你的声音

版本

AI 会从你的数据中逐步学习,逐个样本地分析。随着学习深入,所需的训练步骤会增加。使用较小或质量受限的数据集(例如更适合说话而非歌唱的样本)可能只需少量步骤;而更大且多样的数据集则可能需要更多步骤以达到充分拟合。然而,过多的训练步骤可能导致过拟合,进而以不可预测的方式降低声音表现。

训练结束时,你会得到基于不同训练步数的多个版本,从 Rare 到 Well-done。你可以通过切换部署并相互比较来找到最佳版本。

混合声音

混合声音会产生混合后的混合体声音。通过调整混合声音的比例,你可以定制让声音更接近目标声色。为此,请前往插槽管理页面,点击每个版本下的“混合声音”按钮。

混合后,你的声音会采用新的声音特性。要应用这些更改,需要通过重启 ACE Studio 来刷新你的声音。

部署到 ACE Studio

对于基础自定义插槽和专业自定义插槽,部署某一版本后,你可以在版本之间切换部署。每次部署后需重新启动 ACE Studio 以刷新你的声音库。

最后更新于