ACE Studio 2.0 is currently in beta testing, and some features may not be fully launched.

为歌声合成克隆声音

将你自己的声音克隆为 ACE Studio 中的歌声合成声音。

什么是歌声合成声音克隆?

这是一个通过上传你的声乐样本来自定义专属歌声合成模型的功能。AI 会根据你上传的样本学习音色与演唱风格,并克隆出你声音的数字版本。

定制完成后,你可以像使用 ACE Studio 中预设的 AI 人声一样,使用你的声音通过 MIDI 和歌词生成演唱。

如何为歌声合成克隆我的声音?

准备数据集

干净的干声人声

高质量的声音需要干净且无混响的人声样本:

  • 不要有任何混响、延迟或合唱等效果

  • 没有背景噪音

  • 没有伴奏或任何非人声的声音

  • 没有任何和声或人声复唱

建议每个声音提供 30–100 分钟的演唱样本。你提供的样本越多,AI 能学习到的演唱细节越多,但当超过 120 分钟时,收益会减少。

房间反射声

在大房间反射声环境录制的人声可能导致识别错误,从而造成模型表现异常。

来自音轨分离器的人声

当你使用人声移除器或音轨分离器处理人声时,输出质量可能过低而不适合训练。若需更高质量的声音模型,请尽量避免使用来自分离器的低质量人声。

录制样本

带音频接口的高质量话筒

配有音频接口的专业话筒能带来高质量人声。你需要录音软件连接到接口来录制、编辑和混合人声。

为训练声音模型录音时,避免使用非专为演唱设计的话筒:

  • 手机或笔记本麦克风

  • 领夹麦克风或耳机麦克风

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机(如 AirPods)(这些通常用于通话)

录音环境

  1. 不想要的背景噪音可能包括人声交谈、电流嗡嗡声、交通和室外噪音,以及配饰或物体的移动。为防止这些噪音干扰录音,请选择安静的场所,尽量减少或消除突发噪音。

  2. 由于存在坚硬、平坦的表面,声波反射会导致录音出现混响或回声。这会让轨道听起来空旷或遥远,降低亲密感和清晰度。

  3. 在房间里试着拍手并仔细听。如果你听到颤动声或持续的回声,说明存在混响问题。

  4. 为了解决这个问题,请加入能吸音的软质材料。考虑使用地毯、垫子或厚窗帘来显著减少反射。覆盖硬地板、在窗户上挂窗帘并在房间放置有布面覆盖的家具都是有帮助的做法。

  5. 避免使用硬质表面,因为它们会加剧问题。如果无法负担专业声学面板,可使用画布、挂毯或泡沫瓦等日常物品来打散这些表面。

  6. 设置话筒时注意位置,避免将其放得太靠近墙壁或放在角落。应尽量放在房间中央或尝试不同位置以找到混响最小的最佳点。

耳机泄漏

录音时,尤其是录制人声时,耳机音频常会漏入麦克风。导致此问题的原因通常是耳机音量过大或使用开放式耳机。录制歌曲时这种情况有时可接受,但为训练声音模型时应尽量避免耳机泄漏。

话筒摆位

在常规音量下,建议距离话筒约 2 英寸(约 5 厘米)。但在高音量或用力演唱(belting)时,建议将距离增加到约 4–6 英寸(约 10–15 厘米)。注意始终保持在距话筒 12 英寸(约 30 厘米)以内,以保证最佳拾音效果。

为用力演唱预留空间

在进行用力演唱时,话筒距离和房间大小都要留有足够空间。过度隔音(如在衣橱或录音棚小舱内录音)或用泡沫将话筒包围,容易导致话筒振膜过载。如果不确定,进行用力演唱时应保留更多的房间声。

演唱语言

基础定制槽

在基础定制槽下训练的声音模型仅支持单一演唱语言。

专业定制槽

在专业定制槽下训练的声音可以支持多语言。

样本中的语言

在训练过程中,每个样本文件会被单独处理并视为单一语言文件。请避免在同一样本文件中混合不同语言的片段。

上传样本时,请将它们放在相应的语言标签下。即使你在上传用于基础定制槽的样本,也可以根据需要上传不同语言的样本。按语言整理样本有助于保持清晰并改善训练过程。

即将支持的语言

我们将持续开发可用于自定义声音功能的新演唱语言。

针对你的新声音:

  • 新语言将由新的专业定制槽支持。

  • 新语言将作为选项之一由新的基础定制槽支持。

针对你已存在的声音:

  • 在重新训练你的专业定制槽时将支持新语言。

  • 在重新训练你的基础定制槽时,新语言将作为可选项。

演唱或语音

演唱样本和语音样本都可用于训练你的演唱声音模型。

你的声音可以学习到:

  • 从你的演唱样本和语音样本中学习音色,但请注意:同一个人在说话时的音色可能与唱歌时不同,说话音色通常不能完全代表真实的演唱表现。

  • 从你的演唱样本中学习演唱风格

你的声音无法学习到:

  • 从语音样本中学习演唱风格

文件质量设置

样本的音频质量会直接影响你声音的模型质量。

我们建议你将音频质量设置为:

  • 比特深度 = 16 位

  • 采样率 = 44.1 kHz 或 48 kHz

  • 无损文件格式(.wav 或 .flac)

后期处理

为保持目标声音的自然特性和清晰度:

  • 不要重叠: 多层人声会增加 AI 的分析复杂度。将重叠的演唱放到后面,保持单轨人声,以确保 AI 能准确处理并从样本中学习。

  • 不要硬剪: 硬剪会造成突兀的起始或结束,这在自然演唱中不常见,可能引入点击声或爆裂声。请在人声片段的起始和结尾使用平滑淡入淡出以获得更自然的过渡。

  • 不要复制段落: 重复的段落对训练没有帮助。你的声音模型更受演唱自然变化的益处。

  • 控制音量: 确保你的样本电平保持在刻度的 30–50% 左右。使用音量骑手或自动化以确保整个数据集中音量一致。目标是在录音中创建一致的音量水平,同时在片段内保留动态变化。

训练你的声音

一个基础定制槽会为你带来一个单语声音,并包含 5 个版本。

一个专业定制槽会为你带来一个多语声音,并包含 5 个版本。

点击某个槽以开始上传样本。

在所有样本上传完成后,训练会自动开始。你可以通过刷新网页查看状态。

当你看到训练页面变为声音克隆管理页面时,表示你的声音已设置完成。它会显示在 ACE Studio 的声音库中。如果看不到,请尝试重新启动 ACE Studio。

专业提示

如果你希望为一个声音获得独特的表现力和角色,比如在不同音域或情感下的最佳效果,建议将样本分配到多个声音中训练。

示例如下:

Mike 是一位职业歌手,想要定制自己的声音。他既能胜任男高音也能胜任低音。所以最好分别训练两个声音:

  • 基于主要为高音且有力度的演唱样本训练一个高唱段且有力量的声音。

  • 基于主要为低音片段的样本训练一个低音声音。

重新训练你的声音

点击 重新训练 按钮以重新训练你的声音。

重新训练会移除该槽下你之前的声音并下线与该声音相关的任何已部署歌手。AI 会使用新数据集从头开始训练一个全新的声音。在开始重新训练过程之前,你可以选择保留该槽中的历史样本并上传额外的新样本,或选择清除历史样本仅使用新上传的样本。

准备新样本时请注意:

  • 如果新增样本的时长相较于已上传样本明显较少,例如在已有 30 分钟数据集上仅添加 1 分钟的新样本,则重新训练可能不会显著改变声音表现。

  • 重新训练不会改变你槽的类型。

  • 你可以通过重新训练来切换基础定制槽支持的语言。

我应该何时重新训练我的声音?

  • 当你的数据集质量更好或数量更多时,你可以使用它们迭代改进你的声音

  • 当你对当前结果不满意并希望调整数据集时

  • 当新的演唱语言技能发布时

管理你的声音

版本

AI 会逐步从你的数据中学习,按步骤分析每个样本。随着学习的深入,步骤数会增加。使用规模小或质量有限的数据集(例如为语音而非演唱设计的数据)可能只需较少步骤;相反,较大且多样化的数据集可能需要更多步骤以获得良好拟合。然而,过多的训练步骤会导致过拟合,可能不可预测地降低你的声音表现。

训练结束时,你将获得多个基于不同训练步骤的版本,从 Rare 到 Well-done(从稀有到精炼)。通过切换部署并相互比较,你可以找到最佳版本。

混合声音

混合声音会产生混合型声音。你可以通过调整混合声音的比例来自定义你的声音,使其更接近目标音色。为此,请前往槽管理页面并点击每个版本下的“blend voices”按钮。

混合后,你的声音会采用新的声音特性。要应用这些更改,需要通过重启 ACE Studio 来刷新你的声音库。

部署到 ACE Studio

对于基础定制槽和专业定制槽,部署某个版本后,你可以在版本之间切换部署。每次部署后需要重新启动 ACE Studio 以刷新你的声音库。

最后更新于