ACE Studio 2.0 is currently in beta testing, and some features may not be fully launched.

为声线转换克隆声音

在 ACE Studio 中将你自己的声音克隆为声线转换使用的声音。

什么是声线转换的声音克隆?

这是一个通过上传你的样本来自定义声线转换语音的功能。AI 会根据你上传的样本学习音色,克隆出该声音的数字版本。

自定义完成后,你可以像使用 ACE Studio 中预设的 AI 声线转换语音一样,使用你的配置文件将音频中的声音转换为该克隆声音。

如何为声线转换克隆我的声音?

准备你的数据集

干净的干声人声

高质量的声音需要干净且未加效果的人声样本:

  • 不含混响、延迟、合唱等效果

  • 无背景噪音

  • 无伴奏或任何非人类声音

  • 无任何和声或人声加倍

建议每个声音提供 30–100 分钟的演唱样本。你提供的样本越多,AI 能学到的演唱细节越多,但超过 120 分钟后收益会较少。

房间反射

在有明显房间反射的环境中录制的人声可能导致识别错误,并产生意外的模型表现。

来自音轨分离器的人声

当你使用人声去除器或音轨分离器处理人声时,输出质量可能会被破坏到无法用于训练的程度。若要获得更高质量的声音模型,请尽量避免仅依赖分离器输出的人声。

录制样本

带音频接口的高质量麦克风

带音频接口的专业麦克风能带来高质量人声。你需要录音软件连接接口来录制、编辑和混音人声。

在为声音模型录音时,避免使用不适合演唱的麦克风:

  • 手机或笔记本内置麦克风

  • 领夹麦克风或头戴麦克风

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机(如 AirPods 等,这些通常用于通话)

录音环境

  1. 不期望的背景噪音包括人声交谈、电源嗡嗡声与干扰、交通与户外噪音,以及饰品或物体移动的声音。为防止这些噪音干扰录音,选择安静的地点非常重要。尽量选择可以最小化或消除意外噪音干扰的场所。

  2. 硬质、平整表面会产生声波反射,导致录音出现混响或回声。这会使音轨听起来空洞或遥远,降低亲密感和清晰度。

  3. 试着在房间里用力拍手并仔细听。如果你听出颤动声或持续的回声,说明存在混响问题。

  4. 为了解决这个问题,可增加吸音的软质材料。考虑使用地毯、垫子或厚窗帘来显著减少反射。覆盖硬质地板、尽量在窗户处挂上窗帘,并在房间内摆放带布料覆盖的家具,都有助于改善声学环境。

  5. 避免使用会加剧问题的硬质表面。如果无法购买专业吸音面板,可以利用画布画、挂毯或泡沫拼接板等常见物品来打破平整表面。

  6. 设置麦克风时注意其放置位置。避免将麦克风靠墙或放在角落。相反应尽量靠近房间中心,或在不同位置试验以找到混响最小的最佳位置。

耳机溢出声(Headphone bleed)

在录音(尤其是人声录制)时,耳机播放的声音常会漏到麦克风中。出现这种情况通常是因为耳机音量过高或使用了开放式耳机。对于歌曲录制这可能可接受,但在为声音模型录制时应尽量避免这种溢出。

麦克风放置

常规音量下,建议将嘴巴与麦克风保持约 2 英寸(约 5 厘米)的距离。但在高音量短句或用力唱(belt)时,建议将距离增加到约 4–6 英寸(约 10–15 厘米)。注意始终保持在离麦克风 12 英寸(约 30 厘米)以内以保证最佳拾音。

为用力唱留出空间

在进行用力唱法时,应在麦克风距离和房间大小上留出足够空间。过度隔音,例如把自己关在衣柜或录音箱中,或用泡沫把麦克风完全包围,容易导致麦克风拾音过载。如果不确定,建议在演唱用力段落时保留更多房间声。

演唱语言

对于声线转换语音,你不需要把所有样本都限制在一种语言中。

演唱或语音

对于声线转换语音,语音样本与演唱样本之间没有太大差别。但若目标是演唱型的声线转换,则更适合使用演唱样本进行训练。

文件质量设置

样本的音频质量会直接影响声音模型的质量。

我们建议将音频质量设置为:

  • 位深 = 16 位

  • 采样率 = 44.1 kHz 或 48 kHz

  • 无损文件格式(.wav 或 .flac)

后期处理

为保持目标声音的自然特性与清晰度:

  • 不要重叠: 多层人声会增加 AI 分析的复杂度。将重叠段置于后方并保持单声道人轨,确保 AI 能准确处理并从样本中学习。

  • 不要硬切: 硬切会产生突兀的开始或结束,在自然演唱中不常见,并可能引入点击声或爆音。对人声片段的开头和结尾使用平滑淡入淡出,以获得更自然的过渡。

  • 不要复制段落: 重复的片段对训练没有帮助。你的声音模型更受表演中自然变化的益处。

  • 控制音量: 确保你的样本在电平表上保持大约 30–50%。使用电平拉杆或自动化以确保整个数据集的音量一致。目标是在录音间保持一致的音量水平,同时在片段内部保留动态变化。

训练你的声音

准备好数据集后,你可以前往 自定义语音页面 选择一个自定义槽位,上传样本并开始训练。

每个自定义槽位可自定义一个声线转换语音。

点击一个槽位开始上传你的样本。

所有样本上传完成后,训练会自动开始。你可以通过刷新网页来查看训练状态。

当页面跳回槽位列表并出现新的训练语音时,即表示设置完成。

点击“在 ACE 中打开”以打开 ACE Studio 并使用你新训练的语音。

重新训练你的声音

点击 重新训练 按钮以重新训练你的声音。

重新训练会移除该槽位下的先前语音。AI 将使用新数据集从头开始训练全新的语音。在启动重新训练前,你可以选择保留该槽位中的历史样本并上传额外的新样本,或者清除历史样本,仅使用新上传的样本。

在准备新样本时,请注意:

  • 如果新增样本的总时长相较于已上传样本明显较少,例如在 30 分钟的数据集中只新增 1 分钟样本,重新训练可能不会显著改变模型表现。

  • 重新训练不会改变你槽位的类型。

我什么时候应该重新训练我的声音?

  • 当你有比之前更高质量或更多数量的数据集时,可以用它们逐步改进你的语音。

  • 当你对当前结果不满意并想调整数据集时。

管理你的语音

点击 管理 按钮以打开自定义声线转换语音的管理窗口。在该窗口中,你可以修改:

  • 语音图片

  • 语音名称

  • 标签

  • 语音类型

  • 语言标签(仅针对语音类型)

完成修改后,你可以点击 在 ACE 中打开 按钮以刷新 ACE Studio 的语音列表。

最后更新于