flask-round-potion为人声合成 克隆一个你的声音作为人声合成声线。

在 ACE Studio 中将你自己的声音克隆为人声合成声线。

什么是人声合成克隆?

这是一个通过上传人声样本来定制专属人声合成模型的功能。AI会根据你上传的样本学习音色和演唱风格,并克隆出你声音的数字化版本。

定制完成后,你可以像使用ACE Studio内置AI歌手一样,通过MIDI和歌词生成使用你声音的人声。

circle-check

如何为人声合成克隆我的声音?

准备您的数据集

chevron-right干声样本hashtag

高质量的声音需要干净且无效果的演唱样本:

  • 没有混响、延迟、合唱等效果

  • 没有背景噪音

  • 没有伴奏或任何非人声声音

  • 没有任何和声或重复人声

建议为每个声音提供 30–100 分钟的演唱样本。您提供的样本越多,AI 能学习到的演唱细节越多,但当超过 120 分钟后收益会逐渐递减。

房间反射

在反射强烈的大空间录制的人声可能导致识别错误并使模型表现异常。

来自音轨分离器的人声

当您使用人声去除或音轨分离器处理人声时,输出质量可能被损坏到不适合训练的程度。若需更高质量的声音模型,请优先使用未受损的人声样本。

chevron-right录制样本hashtag

带音频接口的高品质麦克风

专业麦克风配合音频接口能带来高质量人声。您需要录音软件连接接口来录制、编辑和混音人声。

为声线模型录制时,避免使用不适合演唱的麦克风:

  • 手机或笔记本麦克风

  • 领夹或耳麦麦克风

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机如 AirPods(这些通常用于通话)

录音环境

  1. 不需要的背景噪音可能包括人声交谈、电流嗡嗡声和爆音、交通与室外噪音,以及配饰或物体的移动。为防止这些噪音干扰录音,选择安静的录音环境非常重要,尽量将意外噪声减到最低或消除。

  2. 硬质、平整表面会产生声反射,导致录音中出现混响或回声,使轨道听起来空洞或远离,从而损害亲密感与清晰度。

  3. 可尝试在房间内拍手并仔细听。如果听到颤动声或长时间回声,说明存在混响问题。

  4. 为解决此问题,可加入吸音的软质材料。考虑使用地毯、毯子或厚重窗帘以显著减少反射。覆盖硬地板、在窗户处挂上窗帘,以及在房间内放置布面家具都很有帮助。

  5. 避免使用硬质表面,因为它们会加剧问题。如果负担不起专业声学面板,可使用画布、挂毯或泡沫拼接板等日常物品来打散这些表面。

  6. 设置麦克风时注意位置。避免将其靠近墙壁或放在角落。应尽量放在房间中心或尝试不同位置以找到混响最少的最佳位置。

耳机泄音

在录音,尤其是录制人声时,耳机音频常会泄入麦克风。当耳机音量过高或使用开放式耳机时更易出现这种情况。录歌曲时可能可以接受,但为训练声线模型时应尽量避免泄音。

麦克风摆放

常规音量建议距离麦克风约 2 英寸。但对于更响亮的段落或高唱时,建议将距离增至约 4–6 英寸。请注意,距离应始终小于 12 英寸以维持最佳拾音效果。

为高音留出空间

进行高音或用力唱(belting)时,应在麦克风距离与房间大小上留出足够空间。过度隔音(如置于衣橱或隔音间,或用泡沫将麦克风包围)容易导致麦克风振膜过载。不确定时,录制高音段落可适当保留更多的房间声。

chevron-right演唱语言hashtag

基础自定义插槽

在基础自定义插槽下训练的声音模型仅支持一种演唱语言。

专业自定义插槽

在专业自定义插槽下训练的声音模型可支持多语言。

样本中的语言

在训练过程中,每个样本文件将被单独处理并视为单一语言文件。请避免在同一样本文件内混合不同语言的语句。

上传样本时,请确保将其放在相应的语言标签下。即使为基础自定义插槽上传样本,也可以根据需要上传不同语言的样本。按语言整理样本有助于保持清晰并提高训练效果。

即将支持的语言

我们正在持续开发用于自定义语音功能的新演唱语言。

关于你的新声音:

  • 新语言将由新的专业自定义插槽支持。

  • 新语言将作为选项之一被新的基础自定义插槽支持。

关于你已存在的声音:

  • 在重新训练你的专业自定义插槽时,将支持新语言。

  • 在重新训练你的基础自定义插槽时,新语言将作为可选项。

chevron-right演唱或朗读hashtag

演唱样本和语音样本都可以用来训练你的演唱声音模型。

你的声音可以学习:

  • 从你的演唱样本和语音样本中学习音色,但请注意:一个人的说话音色可能与唱歌时不同,通常无法完全代表真实的演唱表现。

  • 从你的演唱样本中学习演唱风格

你的声音无法学习:

  • 从你的语音样本中学习演唱风格

chevron-right文件质量设置hashtag

样本的音频质量会直接影响您声音的最终质量。

我们建议在以下设置录制音频:

  • 位深 = 16-bit

  • 采样率 = 44.1khz 或 48khz

  • 无损文件格式(.wav 或 .flac)

chevron-right后期处理hashtag

为保持目标声音的自然特性与清晰度:

  • 不重叠: 多层人声会增加 AI 的分析难度。将重叠的片段放在后方,并保持单声道主 vocal 轨道,以确保 AI 能准确处理并从样本中学习。

  • 不做硬切: 硬切会造成突兀的起止声,这在自然演唱中不常见,可能引入点击或爆音。请在人声片段的开始与结束使用平滑淡入淡出以获得更自然的过渡。

  • 不复制段落: 重复的段落对训练没有帮助。声线模型受益于表演的自然变化。

  • 控制音量: 确保样本在表尺上保持约 30–50% 的电平。使用音量骑手或自动化来保证整个数据集的音量一致性。目标是在录音中维持一致的音量水平,同时保留段落内的动态变化。

训练您的声音

准备好数据集后,您可以前往 browser自定义语音页面 选择一个自定义插槽,上传人声样本,然后开始训练。

一个基础自定义插槽为你提供一个单语声线,包含5个版本。

一个专业自定义插槽为你提供一个多语声线,包含5个版本。

点击某个槽位开始上传您的样本。

在所有样本上传完成后,训练将自动开始。你可以通过刷新网页来查看状态。

当你看到训练页面变为声线克隆管理页面时,你的声音就已设置完成。它会在ACE Studio的声线库中显示。如果看不到,请尝试重新启动ACE Studio。

circle-info

专家提示

如果你希望声音在不同声区或情感上表现出独特的性能与特性,最好将样本分成多个声线进行训练。

示例:

Mike是一位职业歌手,既能胜任男高音也能胜任低音。因此最好训练两种声线:

  • 基于大多为高音且富有力度的演唱样本,训练一个高音且有力量的声线。

  • 基于大多为低音片段的样本,训练一个低音声线。

重新训练您的声音

点击左侧面板中的 重新训练 按钮以重新训练您的声音。

重新训练将删除该插槽下的先前声音并下线与该声音关联的任何已部署歌手。AI将使用新数据集从头开始训练全新的声音。在开始重新训练之前,你可以选择保留该插槽内的历史样本并上传额外的新样本,或者选择清除历史样本,仅使用新上传的样本。

在准备新样本时,请注意:

  • 如果新添加样本的时长相对于已上传样本显著较短(例如,在30分钟的数据集中只新增1分钟样本),重新训练可能不会在声音表现上带来显著变化。

  • 重新训练不会改变槽位的类型。

  • 你可以通过重新训练来切换基础自定义插槽支持的语言。

circle-info

我什么时候应该重新训练我的声音?

  • 当你的数据集质量更高或数量更多时,你可以使用它们对声音进行迭代改进。

  • 当您对当前结果不满意并希望调整数据集时

  • 当新的演唱语言技能发布时

管理您的声音

chevron-right版本hashtag

AI会从你的数据中逐步学习,按步骤分析每个样本。随着学习的深入,所需步骤会增加。使用小规模或有限质量的数据集(例如为语音而非演唱设计的样本)可能只需少量步骤;而更大且多样的数据集可能需要更多步骤以达到良好拟合。但过多的训练步骤可能导致过拟合,从而不可预测地降低声音表现。

在训练结束时,你将基于不同训练步数得到多个版本,从Rare到Well-done不等。你可以通过切换部署并相互比较来找到最佳版本。

chevron-right混合声线hashtag

混合声线会产生一个混合型声线。你可以通过调整被混合声线的比例,使你的声音更接近目标声线。为此,请在插槽管理页面中点击每个版本下的“blend voices”按钮。

混合后,你的声音将采用新的声线特性。要应用这些更改,需要重启ACE Studio以刷新你的声线库。

chevron-right部署到ACE Studiohashtag

对于基础自定义插槽和专业自定义插槽,部署某个版本后,你可以在不同版本间切换部署。每次部署后需重新启动ACE Studio以刷新声线库。

最后更新于