flask-round-potion为声线转换克隆音色

在 ACE Studio 中将您自己的声音克隆为声线转换的声音。

什么是声线转换克隆?

这是通过上传你的样本来自定义专属声线转换声音的功能。AI会基于你上传的样本学习音色,并克隆该声音的数字版本。

定制完成后,你可以在 ACE Studio 中像使用我们预制的 AI 声线转换声音一样,使用你的个人档案将音频转换为该声音。

circle-check

如何为声线转换克隆我的声音?

准备数据集

chevron-right干净的干声hashtag

高质量的声音需要干净且无效果的演唱样本:

  • 不含混响、延迟、合唱等效果

  • 无背景噪音

  • 无伴奏或任何非人声的声音

  • 无和声或声线叠加

建议为一个声线提供 30–100 分钟的演唱样本。你提供的样本越多,AI 能学习到的演唱细节越丰富,但超过 120 分钟后收益会显著降低。

房间反射声

在大房间反射较强的环境录制的人声可能导致识别错误,从而产生意外的模型表现。

来自分轨的声线

当你使用人声消除或音轨分离工具获取人声时,输出质量可能被损坏到不适合训练的程度。若要获得更高质量的声线模型,请优先使用原始人声而非低质量的分轨结果。

chevron-right录制样本hashtag

带音频接口的高质量麦克风

专业话筒配合音频接口能带来高质量人声。你需要录音软件来连接接口,录制、编辑并混音人声。

为声线模型录音时,避免使用非专为演唱设计的麦克风:

  • 手机或笔记本电脑内置麦克风

  • 领夹式或头戴式麦克风

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机(例如 AirPods,此类通常用于通话)

录音环境

  1. 不想要的背景噪音包括有人说话、电器嗡嗡声、交通与户外噪音,以及饰品或物体的移动。为防止这些噪音干扰录音,请选择安静的场所,尽量减少或消除意外噪声。

  2. 硬质平面会造成声波反射,导致录音产生混响或回声,使音轨听起来空洞或距离感强,破坏亲密度与清晰度。

  3. 可在房间内拍手并仔细聆听。如果听到震颤感或长时间回声,说明存在混响问题。

  4. 为解决混响问题,可加入吸音的软性材料。考虑使用地毯、垫子或厚窗帘以显著减少反射。覆盖硬地面、在窗户上挂窗帘,以及在房间内摆放带布料的家具都会有所帮助。

  5. 尽量避免使用硬质表面,因为它们会加剧问题。如果无法负担专业吸音板,可利用画布画、挂毯或泡沫吸音板等日常物品来打散这些表面。

  6. 布置麦克风时注意位置,避免将其放得太靠近墙面或角落。尽量置于房间中央或尝试不同位置,以找到混响最小的最佳位置。

耳机溢音

录音时,尤其是在录制人声时,耳机音频溢入麦克风是常见问题。这通常是因为耳机音量过高或使用开放式耳机。录歌时可能可以接受,但为训练声线模型时应尽量避免溢音。

麦克风摆位

常规音量下建议将嘴与麦克风保持约 2 英寸(约 5 厘米)距离;但在大声部分或高声喊唱(belting)时,建议将距离增至约 4–6 英寸(约 10–15 厘米)。请注意始终保持在 12 英寸(约 30 厘米)以内以保证最佳拾音。

为大力唱法留出空间

进行大力唱法时,应在麦克风距离与房间体积上留出足够空间。过度隔音(例如在衣橱或小隔间内录音,或将麦克风周围完全包裹泡沫)容易导致话筒振膜过载。如果不确定,进行大力唱段时建议保留更多的房间声。

chevron-right演唱语言hashtag

用于声线转换声线时,不需要将所有样本限制为同一种语言。

chevron-right演唱或语音hashtag

用于声线转换的声音,语音样本与演唱样本差别不大。但若目标是用于演唱的声线转换,训练时更适合使用演唱样本。

chevron-right文件质量设置hashtag

样本的音频质量会直接影响你声线的质量。

我们建议你将音频质量设置为:

  • 位深 = 16-bit

  • 采样率 = 44.1kHz 或 48kHz

  • 无损文件格式(.wav 或 .flac)

chevron-right后期处理hashtag

为保持目标声线的自然特性与清晰度:

  • 避免重叠: 多层人声会增加 AI 的分析难度。将叠加的录音放到后台,并尽量保持单声道人声轨道,以确保 AI 能准确处理并从样本中学习。

  • 避免生硬剪切: 生硬的切入或结尾在自然演唱中不常见,会引入咔嗒或爆音。在人声片段的开始与结束使用平滑的淡入/淡出以获得更自然的过渡。

  • 避免重复片段: 重复的段落对训练没有帮助。声线模型从表演的自然变化中受益更多。

  • 控制音量: 确保样本电平保持在表尺的约 30–50%。使用电平骑手或自动化来保证整个数据集的电平一致。目标是在录音整体保持一致电平的同时,保留片段内部的动态变化。

训练你的声线

准备好数据集后,你可以前往 browser自定义声线页面 选择一个自定义槽位,上传你的样本并开始训练。

每个自定义槽位可定制一个声线转换声音。

点击某个槽位开始上传样本。

所有样本上传完毕后,训练将自动开始。你可以通过刷新网页来查看其状态。

当页面跳回槽位列表并显示新的训练声线时,即表示设置完成。

点击“在 ACE 中打开”以启动 ACE Studio 并使用你新训练的声线。

重新训练你的声线

点击左侧面板中的 重新训练 按钮以重新训练你的声线。

重新训练会移除该槽位下的先前声线。AI 将使用新数据集从头开始训练全新的声线。在启动重新训练前,你可以选择保留该槽位内的历史样本并上传额外新样本,或清除历史样本仅使用新上传的样本。

准备新样本时请注意:

  • 如果新添加样本的时长相较已上传样本显著较少,例如向 30 分钟的数据集中仅添加 1 分钟的新样本,重新训练可能无法显著改变模型表现。

  • 重新训练不会更改槽位的类型。

circle-info

何时应重新训练我的声线?

  • 当你的数据集质量或数量相较之前有明显提升时,可使用它们迭代改进你的声线。

  • 当你对当前结果不满意并想调整数据集时。

管理你的声线

点击左侧面板中的 管理 按钮以打开自定义声线的管理窗口。在该窗口中,你可以修改:

  • 声线图片

  • 声线名称

  • 标签

  • 声线类型

  • 语言标签(仅针对声线类型)

修改后,你可以点击 在 ACE 中打开 按钮以刷新 ACE Studio 的声线列表。

最后更新于