为声乐合成克隆声线

在 ACE Studio 中将你自己的声音克隆为声乐合成用的声线。

什么是 Vocal Synth 克隆?

这是一个通过上传人声样本来自定义你自己的声乐合成模型的功能。AI 会根据你上传的样本学习音色与演唱风格,并克隆出你声音的数字化版本。

定制完成后,你可以像使用 ACE Studio 中的预制 AI 声线一样,使用你的声音通过 MIDI 和歌词生成人声。

如何为 Vocal Synth 克隆我的声音?

准备数据集

干净的干声

高质量的声音需要干净且无效果的演唱样本:

  • 不含混响、延迟、合唱等效果

  • 无背景噪音

  • 无伴奏或任何非人声的声音

  • 无和声或声线叠加

建议为一个声线提供 30–100 分钟的演唱样本。你提供的样本越多,AI 能学习到的演唱细节越丰富,但超过 120 分钟后收益会显著降低。

房间反射声

在大房间反射较强的环境录制的人声可能导致识别错误,从而产生意外的模型表现。

来自分轨的声线

当你使用人声消除或音轨分离工具获取人声时,输出质量可能被损坏到不适合训练的程度。若要获得更高质量的声线模型,请优先使用原始人声而非低质量的分轨结果。

录制样本

带音频接口的高质量麦克风

专业话筒配合音频接口能带来高质量人声。你需要录音软件来连接接口,录制、编辑并混音人声。

为声线模型录音时,避免使用非专为演唱设计的麦克风:

  • 手机或笔记本电脑内置麦克风

  • 领夹式或头戴式麦克风

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机(例如 AirPods,此类通常用于通话)

录音环境

  1. 不想要的背景噪音包括有人说话、电器嗡嗡声、交通与户外噪音,以及饰品或物体的移动。为防止这些噪音干扰录音,请选择安静的场所,尽量减少或消除意外噪声。

  2. 硬质平面会造成声波反射,导致录音产生混响或回声,使音轨听起来空洞或距离感强,破坏亲密度与清晰度。

  3. 可在房间内拍手并仔细聆听。如果听到震颤感或长时间回声,说明存在混响问题。

  4. 为解决混响问题,可加入吸音的软性材料。考虑使用地毯、垫子或厚窗帘以显著减少反射。覆盖硬地面、在窗户上挂窗帘,以及在房间内摆放带布料的家具都会有所帮助。

  5. 尽量避免使用硬质表面,因为它们会加剧问题。如果无法负担专业吸音板,可利用画布画、挂毯或泡沫吸音板等日常物品来打散这些表面。

  6. 布置麦克风时注意位置,避免将其放得太靠近墙面或角落。尽量置于房间中央或尝试不同位置,以找到混响最小的最佳位置。

耳机溢音

录音时,尤其是在录制人声时,耳机音频溢入麦克风是常见问题。这通常是因为耳机音量过高或使用开放式耳机。录歌时可能可以接受,但为训练声线模型时应尽量避免溢音。

麦克风摆位

常规音量下建议将嘴与麦克风保持约 2 英寸(约 5 厘米)距离;但在大声部分或高声喊唱(belting)时,建议将距离增至约 4–6 英寸(约 10–15 厘米)。请注意始终保持在 12 英寸(约 30 厘米)以内以保证最佳拾音。

为大力唱法留出空间

进行大力唱法时,应在麦克风距离与房间体积上留出足够空间。过度隔音(例如在衣橱或小隔间内录音,或将麦克风周围完全包裹泡沫)容易导致话筒振膜过载。如果不确定,进行大力唱段时建议保留更多的房间声。

演唱语言

基础自定义插槽

在基础自定义插槽下训练的声音模型仅支持一种演唱语言。

专业自定义插槽

在专业自定义插槽下训练的声音可支持多语言。

样本中的语言

在训练过程中,每个样本文件会被单独处理并视为单语言文件。请避免在同一样本文件中混合不同语言的语句。

上传样本时,请确保将它们放在相应的语言标签下。即使你为基础自定义插槽上传样本,也可以根据需要上传不同语言的样本。按语言分类管理样本有助于保持清晰并提升训练效果。

即将支持的语言

我们会持续开发用于自定义声线功能的新演唱语言。

对于你的新声线:

  • 新语言将通过新的专业自定义插槽获得支持。

  • 新语言将作为新基础自定义插槽的可选支持项之一。

对于你已有的声线:

  • 重新训练你的专业自定义插槽后将支持新语言。

  • 重新训练你的基础自定义插槽时,是否支持新语言将作为可选项。

演唱或语音

演唱样本和语音样本都可用于训练你的演唱声线模型。

你的声线可以学习:

  • 通过演唱样本和语音样本学习音色,但请注意:同一人的说话音色可能与唱歌时不同,通常无法完整反映真实的演唱表现。

  • 从你的演唱样本学习演唱风格

你的声线无法学习:

  • 从语音样本学习演唱风格

文件质量设置

样本的音频质量会直接影响你声线的质量。

我们建议你将音频质量设置为:

  • 位深 = 16-bit

  • 采样率 = 44.1kHz 或 48kHz

  • 无损文件格式(.wav 或 .flac)

后期处理

为保持目标声线的自然特性与清晰度:

  • 避免重叠: 多层人声会增加 AI 的分析难度。将叠加的录音放到后台,并尽量保持单声道人声轨道,以确保 AI 能准确处理并从样本中学习。

  • 避免生硬剪切: 生硬的切入或结尾在自然演唱中不常见,会引入咔嗒或爆音。在人声片段的开始与结束使用平滑的淡入/淡出以获得更自然的过渡。

  • 避免重复片段: 重复的段落对训练没有帮助。声线模型从表演的自然变化中受益更多。

  • 控制音量: 确保样本电平保持在表尺的约 30–50%。使用电平骑手或自动化来保证整个数据集的电平一致。目标是在录音整体保持一致电平的同时,保留片段内部的动态变化。

训练你的声线

准备好数据集后,你可以前往 自定义声线页面 选择一个自定义插槽、上传人声样本并开始训练。

一个基础自定义插槽会为你带来一个单语言的声线,并包含 5 个版本。

一个专业自定义插槽会为你带来一个多语言的声线,并包含 5 个版本。

点击某个槽位开始上传样本。

所有样本上传完成后,训练将自动开始。你可以通过刷新网页查看状态。

当你看到训练页面变为声线克隆管理页面时,说明你的声线已配置完毕。它会显示在 ACE Studio 的声线库中。如果看不到,尝试重启 ACE Studio。

专业提示

如果你追求针对不同音域或情感的专属表现与角色,最好将样本分成多个声线进行训练,以获得最佳效果。

示例:

Mike 是一名职业歌手,既能胜任男高音也能胜任男低音。因此最好训练 2 个声线:

  • 基于以高音和强力演绎为主的样本训练一个高音且有力度的声线。

  • 基于以低音短句为主的样本训练一个低音声线。

重新训练你的声线

点击左侧面板中的 重新训练 按钮以重新训练你的声线。

重新训练将移除该插槽下你之前的声线并下线任何与该声线关联的已部署歌手。AI 将使用新的数据集从头训练一个全新的声线。开始重新训练前,你可以选择保留该插槽内的历史样本并上传新增样本,或者清除历史样本仅使用新上传的样本。

准备新样本时请注意:

  • 如果新添加样本的时长远小于已上传样本,例如在 30 分钟的数据集中仅添加 1 分钟新样本,重新训练可能不会显著改变声线的表现。

  • 重新训练不会更改槽位的类型。

  • 你可以通过重新训练来切换基础自定义插槽所支持的语言。

何时应重新训练我的声线?

  • 当你的数据集质量更高或数量更多时,你可以使用它们对声线进行迭代改进。

  • 当你对当前结果不满意并想调整数据集时。

  • 当发布新的演唱语言技能时

管理你的声线

版本

AI 会从你的数据中逐步学习,按步骤分析每个样本。随着学习加深,训练步骤会增加。使用小规模或质量有限的数据集(例如为语音而非演唱设计的数据)可能只需较少步骤;而更大且多样的数据集则可能需要更多步骤以达到充分拟合。但过多的训练步骤可能导致过拟合,反而不可预测地降低声线表现。

训练结束后,你会得到基于不同训练步骤的多个版本,从 Rare 到 Well-done。你可以通过切换部署并互相比较来找到最佳版本。

Blend Voices

混合声线会产生混合型声线。你可以通过调整混合声线的比例,使你的声线更接近目标声线。为此,请前往插槽管理页面并点击各版本下的“blend voices”按钮。

混合后,你的声线将采用新的声音特性。要应用这些更改,你需要重启 ACE Studio 以刷新声线库。

部署到 ACE Studio

对于基础自定义插槽和专业自定义插槽,在部署某个版本后,你可以在不同版本之间切换部署。每次部署后需要重启 ACE Studio 以刷新你的声线库。

最后更新于