flask-round-potion为声线转换 克隆你的声音作为声线转换用声。

在 ACE Studio 中将你自己的声音克隆为声线转换用声。

什么是声音转换器克隆?

这是一个通过上传样本来自定义您专属声音转换器音色的功能。AI 将根据您上传的样本学习音色,并克隆该声音的数字版本。

完成定制后,您可以像使用 ACE Studio 中预设的 AI 声音转换器音色一样,使用您的配置文件将音频转换为该声音。

circle-check

如何为声音转换器克隆我的声音?

准备您的数据集

chevron-right干声样本hashtag

高质量的声音需要干净且无效果的演唱样本:

  • 没有混响、延迟、合唱等效果

  • 没有背景噪音

  • 没有伴奏或任何非人声声音

  • 没有任何和声或重复人声

建议为每个声音提供 30–100 分钟的演唱样本。您提供的样本越多,AI 能学习到的演唱细节越多,但当超过 120 分钟后收益会逐渐递减。

房间反射

在反射强烈的大空间录制的人声可能导致识别错误并使模型表现异常。

来自音轨分离器的人声

当您使用人声去除或音轨分离器处理人声时,输出质量可能被损坏到不适合训练的程度。若需更高质量的声音模型,请优先使用未受损的人声样本。

chevron-right录制样本hashtag

带音频接口的高品质麦克风

专业麦克风配合音频接口能带来高质量人声。您需要录音软件连接接口来录制、编辑和混音人声。

为声线模型录制时,避免使用不适合演唱的麦克风:

  • 手机或笔记本麦克风

  • 领夹或耳麦麦克风

  • 卡拉 OK 麦克风

  • 耳机麦克风或蓝牙耳机如 AirPods(这些通常用于通话)

录音环境

  1. 不需要的背景噪音可能包括人声交谈、电流嗡嗡声和爆音、交通与室外噪音,以及配饰或物体的移动。为防止这些噪音干扰录音,选择安静的录音环境非常重要,尽量将意外噪声减到最低或消除。

  2. 硬质、平整表面会产生声反射,导致录音中出现混响或回声,使轨道听起来空洞或远离,从而损害亲密感与清晰度。

  3. 可尝试在房间内拍手并仔细听。如果听到颤动声或长时间回声,说明存在混响问题。

  4. 为解决此问题,可加入吸音的软质材料。考虑使用地毯、毯子或厚重窗帘以显著减少反射。覆盖硬地板、在窗户处挂上窗帘,以及在房间内放置布面家具都很有帮助。

  5. 避免使用硬质表面,因为它们会加剧问题。如果负担不起专业声学面板,可使用画布、挂毯或泡沫拼接板等日常物品来打散这些表面。

  6. 设置麦克风时注意位置。避免将其靠近墙壁或放在角落。应尽量放在房间中心或尝试不同位置以找到混响最少的最佳位置。

耳机泄音

在录音,尤其是录制人声时,耳机音频常会泄入麦克风。当耳机音量过高或使用开放式耳机时更易出现这种情况。录歌曲时可能可以接受,但为训练声线模型时应尽量避免泄音。

麦克风摆放

常规音量建议距离麦克风约 2 英寸。但对于更响亮的段落或高唱时,建议将距离增至约 4–6 英寸。请注意,距离应始终小于 12 英寸以维持最佳拾音效果。

为高音留出空间

进行高音或用力唱(belting)时,应在麦克风距离与房间大小上留出足够空间。过度隔音(如置于衣橱或隔音间,或用泡沫将麦克风包围)容易导致麦克风振膜过载。不确定时,录制高音段落可适当保留更多的房间声。

chevron-right演唱语言hashtag

对于声音转换器音色,您无需将所有样本限制为同一语言。

chevron-right演唱或朗读hashtag

对于声音转换器音色,朗读样本和演唱样本没有太大差别。但若希望获得用于演唱的声音转换器,则更适合使用演唱样本进行训练。

chevron-right文件质量设置hashtag

样本的音频质量会直接影响您声音的最终质量。

我们建议在以下设置录制音频:

  • 位深 = 16-bit

  • 采样率 = 44.1khz 或 48khz

  • 无损文件格式(.wav 或 .flac)

chevron-right后期处理hashtag

为保持目标声音的自然特性与清晰度:

  • 不重叠: 多层人声会增加 AI 的分析难度。将重叠的片段放在后方,并保持单声道主 vocal 轨道,以确保 AI 能准确处理并从样本中学习。

  • 不做硬切: 硬切会造成突兀的起止声,这在自然演唱中不常见,可能引入点击或爆音。请在人声片段的开始与结束使用平滑淡入淡出以获得更自然的过渡。

  • 不复制段落: 重复的段落对训练没有帮助。声线模型受益于表演的自然变化。

  • 控制音量: 确保样本在表尺上保持约 30–50% 的电平。使用音量骑手或自动化来保证整个数据集的音量一致性。目标是在录音中维持一致的音量水平,同时保留段落内的动态变化。

训练您的声音

准备好数据集后,您可以前往 browser自定义语音页面 选择一个自定义槽位,上传样本并开始训练。

每个自定义槽位只能定制一个声音转换器音色。

点击某个槽位开始上传您的样本。

所有样本上传完成后,训练将自动开始。您可以通过刷新网页查看训练状态。

当页面跳回槽位列表并出现新的训练完成的声音时,一切就绪。

点击“在 ACE 中打开”以打开 ACE Studio 并使用您新训练的声音。

重新训练您的声音

点击左侧面板中的 重新训练 按钮以重新训练您的声音。

重新训练会删除该槽位下之前的声音。AI 将使用新的数据集从头开始训练一个全新的声音。在启动重新训练前,您可以选择保留该槽位的历史样本并上传更多新样本,或清除历史样本仅使用新上传的样本。

在准备新样本时,请注意:

  • 如果新增样本的时长相对已上传样本明显较少(例如在已有 30 分钟的数据集中只新增 1 分钟),重新训练可能不会显著改变表现。

  • 重新训练不会改变槽位的类型。

circle-info

我什么时候应该重新训练我的声音?

  • 当您的数据集质量更好或数量比之前更多时,可用它们来迭代提升您的声音

  • 当您对当前结果不满意并希望调整数据集时

管理您的声音

点击左侧面板中的 管理 按钮以打开自定义声音转换器音色的管理窗口。在该窗口中,您可以修改:

  • 声音图片

  • 声音名称

  • 标签

  • 声音类型

  • 语言标签(仅用于声音类型)

完成修改后,您可以点击 在 ACE 中打开 按钮以刷新 ACE Studio 的声音列表。

最后更新于