ACE Studio 2.0 is currently in beta testing, and some features may not be fully launched.

为声线转换克隆声音

将你自己的声音克隆为 ACE Studio 中的声线转换声音。

什么是声线转换声音克隆?

这是一个通过上传你的样本来自定义专属声线转换声音的功能。AI 会根据你上传的样本学习音色,并克隆出该声音的数字化版本。

定制完成后,你可以像使用 ACE Studio 中我们预制的 AI 声线转换声音一样,使用你的配置文件将音频中的声音转换为该声线。

如何为声线转换克隆我的声音?

准备你的数据集

干净的干声人声

高质量的声音需要干净且未处理的人声样本:

  • 不要有混响、延迟、合唱等效果

  • 没有背景噪音

  • 没有伴奏或任何非人类声音

  • 没有任何和声或人声重复层

建议为每个声音提供 30-100 分钟的演唱样本。你提供的样本越多,AI 能学到越多演唱细节,但当超过 120 分钟时收益会逐渐减少。

房间反射

在有明显房间反射的大空间录音可能导致识别错误并引起模型表现异常。

来自 Stem Splitter 的人声

当你使用人声去除器或 stem splitter 提取人声时,输出质量可能被损坏得过低,不适合训练。若想得到更高质量的声音模型,建议优先使用未受损的人声样本,而非仅依赖 stem splitter 的输出。

录制样本

带音频接口的高质量麦克风

带音频接口的专业麦克风能带来高质量的人声。你需要录音软件来连接音频接口,进行录制、编辑与混音。

为声音模型录音时,避免使用非专业人声麦克风:

  • 手机或笔记本内置麦克风

  • 领夹麦克风或头戴式麦克风

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机(如 AirPods 等,通常用于通话)

录音环境

  1. 不需要的背景噪音可能包括人声交谈、电流嗡嗡声与杂音、交通与室外噪声,以及配件或物体移动声。为防止这些噪音干扰录音,请选择安静的录音位置,尽量减少或消除意外噪音干扰。

  2. 硬质平整表面会产生声波反射,导致录音出现混响或回声,使声音听起来空洞或远离,影响亲密感与清晰度。

  3. 试着在房间中拍手并仔细聆听。如果你听到颤动声或持续的回声,说明存在混响问题。

  4. 为了解决这一问题,可加入能吸音的软质材料。考虑使用地毯、短毛垫或厚窗帘来显著减少反射。覆盖硬质地面、尽可能在窗户处挂上窗帘,并在房间中摆放带织物覆盖的家具,会有帮助。

  5. 避免使用会加重问题的硬质表面。如果无法负担专业声学吸音板,也可用画布画、装饰挂毯或泡沫吸音块等日常物品来打散这些表面。

  6. 在设置麦克风时注意位置。避免把麦克风放得太靠近墙壁或置于角落。尽量选择房间中心或尝试不同位置以找到混响最小的最佳录音点。

耳机泄音

在录音过程中,尤其是录制人声时,耳机里的声音常会漏入麦克风。此问题通常由于耳机音量过大或使用开放式耳机导致。录制歌曲时可能可以接受,但在为声音模型录音时应尽量避免泄音。

麦克风摆放

对于正常音量,建议将嘴与麦克风保持约 2 英寸(约 5 厘米)距离。但在唱大声段或用力喊唱(belting)时,建议将距离增大到约 4-6 英寸(约 10-15 厘米)。注意始终保持在离麦克风 12 英寸(约 30 厘米)以内以确保最佳拾音。

为大力唱段留出空间

在进行大力唱法(belting)时,既要在麦克风距离上留出足够空间,也要考虑房间体积。过度隔音(例如在衣柜或密闭小间内录音,或直接用泡沫环绕麦克风)容易导致麦克风振膜过载。如果不确定,演唱大力段落时建议保留更多房间声。

演唱语言

对于声线转换声音,不需要把所有样本限制为一种语言。

演唱或说话

对于声线转换声音,话语样本与演唱样本之间没有太大差别。但若目标是用于演唱的声线转换,使用演唱样本进行训练更合适。

文件质量设置

样本的音频质量会直接影响你声音模型的质量。

我们建议将音频设置为:

  • 位深 = 16 位

  • 采样率 = 44.1kHz 或 48kHz

  • 无损文件格式(.wav 或 .flac)

后期处理

为保持目标声音的自然特性与清晰度:

  • 不要有重叠: 多层人声会增加 AI 的分析复杂度。将重叠的拍号放在后端,并尽量保持单声道轨道,以确保 AI 能准确处理并从样本中学习。

  • 不要有硬切: 硬切会产生突兀的开始或结束,这在自然演唱中不常见,且可能引入点击或爆裂声。应在人声片段的起始和结尾使用平滑的渐入/渐出以获得更自然的过渡。

  • 不要重复片段: 重复的片段对于训练没有帮助。你的声音模型更受益于演唱中的自然表现差异。

  • 控制音量: 确保你的样本在音量表上保持约 30-50% 的水平。使用音量骑手或自动化工具以确保整个数据集的电平一致。目标是在录音中创建一致的音量水平,同时在片段内部保留动态变化。

训练你的声音

你可以在一个自定义插槽中定制一个声线转换声音。

点击某个插槽开始上传你的样本。

所有样本上传完成后,训练将自动开始。你可以通过刷新网页来检查训练状态。

当页面跳回插槽列表并出现新训练好的声音时,说明设置完成。

点击“在 ACE 中打开”以打开 ACE Studio 并使用你新训练的声音。

重新训练你的声音

点击 重新训练 按钮以重新训练你的声音。

重新训练会移除该插槽下先前的声音。AI 将使用新数据从头开始训练一个全新的声音。在启动重新训练之前,你可以选择保留该插槽中的历史样本并继续上传新样本,或者清除历史样本仅使用新上传的样本。

在准备新样本时,请注意:

  • 如果新添加样本的时长相较于已上传样本明显偏少,例如在 30 分钟的数据集中仅新增 1 分钟样本,则重新训练可能不会显著改变模型表现。

  • 重新训练不会更改插槽的类型。

什么时候我应该重新训练我的声音?

  • 当你的数据集比以前更高质量或更大时,你可以用它们迭代地改进你的声音。

  • 当你对当前结果不满意并希望调整数据集时

管理你的声音

点击 管理 按钮以打开自定义声线转换声音的管理窗口。在该窗口中,你可以修改:

  • 声音图片

  • 声音名称

  • 标签

  • 声音类型

  • 语言标签(仅针对声音类型)

完成更改后,你可以点击 在 ACE 中打开 按钮以刷新 ACE Studio 的声音列表。

最后更新于