Clonando Uma Voz para Voice Changer
Clone sua própria voz como uma voz de Voice Changer no ACE Studio.
O que é Clonagem do Alterador de Voz?
Este é um recurso para personalizar sua própria voz de alterador de voz enviando suas amostras. A IA aprenderá o timbre com base nas amostras que você enviar e clonar uma versão digital dessa voz.
Após a personalização, você pode usar seu perfil para converter vozes a partir de áudio, assim como nossas vozes de alterador de voz pré-criadas no ACE Studio.
Sua voz clonada por IA é privada na sua conta; ninguém mais pode acessá-la sem sua autorização.
Como clonar minha voz para o Alterador de Voz?
Preparando seus conjuntos de dados
Vocais secos limpos
Vozes de alta qualidade exigem amostras vocais limpas e secas:
Sem reverberação, delay ou efeitos de chorus
Sem ruído de fundo
Sem instrumentais ou quaisquer sons não humanos
Sem harmonias ou dobras vocais
Recomenda-se 30–100 minutos de amostras de canto para uma voz. Quanto mais amostras você fornecer, mais detalhes de canto a IA poderá aprender, mas traz menos benefícios quando você ultrapassa 120 minutos.
Reflexões da sala
Vozes gravadas com grandes reflexões da sala podem causar erros de reconhecimento e resultar em desempenho inesperado do modelo.
Vocais a partir do stem splitter
Quando você usa vocal remover ou stem splitter para os vocais, a qualidade de saída pode ficar baixa demais para treinamento. Para um modelo vocal de maior qualidade, use, se possível, vocais provenientes do stem splitter.
Gravando amostras
Microfone de qualidade com interface de áudio
Microfones profissionais com interfaces de áudio entregam vocais de alta qualidade. Você precisará de um software de gravação para conectar à sua interface, gravar, editar e mixar seus vocais.
Ao gravar para um modelo de voz, evite microfones que não foram feitos para cantar:
Microfones de telefone ou laptop
Microfones de lapela ou headset
Microfones de karaokê
Microfones de fone de ouvido ou fones bluetooth como AirPods (geralmente feitos para chamadas)
Ambiente de gravação
Ruídos indesejados de fundo podem incluir pessoas conversando, zumbidos elétricos, tráfego e ruídos externos, além de movimentos de acessórios ou objetos. Para evitar que esses ruídos interfiram na gravação, é importante escolher um local silencioso. Opte por um lugar onde você possa minimizar ou eliminar interrupções de ruído inesperadas.
Reflexões sonoras podem ocorrer devido à presença de superfícies duras e planas, resultando em reverberação ou ecos nas suas gravações. Isso pode deixar suas faixas com um som oco ou distante, prejudicando a intimidade e clareza desejadas.
Tente bater palmas com força na sala e ouça atentamente. Se você perceber um som de batimento ou um eco prolongado, isso indica a presença de problemas de reverberação.
Para resolver isso, incorpore materiais macios que possam absorver o som. Considere usar carpetes, tapetes ou cortinas grossas para reduzir significativamente as reflexões. Cobrir pisos duros e, se possível, pendurar cortinas sobre janelas, além de colocar móveis com revestimento de tecido na sala, pode ser benéfico.
Evite usar superfícies duras, pois elas contribuem para o problema. Se não puder investir em painéis acústicos profissionais, utilize itens do dia a dia, como quadros em tela, tapeçarias ou placas de espuma para quebrar essas superfícies.
Ao posicionar seu microfone, preste atenção ao local. Evite colocá-lo muito próximo de paredes ou em cantos. Em vez disso, aponte para o centro da sala ou experimente diferentes posições para encontrar o ponto ideal com reverberação mínima.
Vazamento de fone
Durante as gravações, especialmente ao capturar vocais, é comum o áudio dos fones vazar para o microfone. Esse problema surge quando o volume dos fones está muito alto ou quando se usam fones abertos. Isso pode ser aceitável ao gravar para uma música, mas tente evitar esse vazamento ao gravar para seu modelo de voz.
Posicionamento do microfone
Para volume regular, recomenda-se posicionar-se cerca de 5 cm do microfone. No entanto, para frases mais altas ou ao projetar a voz (belting), é aconselhável aumentar a distância para cerca de 10–15 cm. É importante notar que você deve sempre permanecer mais próximo que 30 cm do microfone para manter uma captura de áudio ideal.
Criando espaço para belting
Ao usar técnicas de belting, é importante permitir amplo espaço, tanto em termos de distância do microfone quanto do tamanho da sala. Isolamento sonoro excessivo, como ficar confinado em um armário ou cabine, ou cercar seu microfone com espuma, pode facilmente sobrecarregar a cápsula do microfone. Se estiver em dúvida, é recomendável incorporar mais som ambiente da sala ao executar frases projetadas.
Idiomas de canto
Para uma voz de alterador de voz, não é necessário manter todas as amostras em um único idioma.
Canto ou fala
Para uma voz de alterador de voz, não há grande diferença entre amostras de fala e de canto. Mas para uma voz de alterador de voz voltada ao canto, é mais adequado usar amostras de canto para o treinamento.
Configurações de qualidade de arquivo
A qualidade do áudio das suas amostras impacta diretamente a qualidade da sua voz.
Recomendamos que você configure a qualidade de áudio em:
Profundidade de bits = 16-bit
Taxa de amostragem = 44.1khz ou 48khz
Formato de arquivo lossless (.wav ou .flac)
Pós-processamento
Para manter o caráter natural e a clareza da sua voz alvo:
Sem sobreposições: vocais em múltiplas camadas podem complicar a análise da IA. Coloque as partes sobrepostas atrás e mantenha uma única faixa vocal para garantir que a IA possa processar e aprender com precisão a partir de suas amostras.
Sem cortes bruscos: cortes bruscos podem criar inícios ou finais abruptos, que não são normais em um som vocal natural e podem introduzir cliques ou estalos. Use fades suaves no início e no fim do clipe vocal para uma transição mais natural.
Sem seções duplicadas: Seções duplicadas não ajudam no treinamento. Seu modelo de voz se beneficia da variação natural da performance.
Controle o volume: Certifique-se de que suas amostras fiquem em torno de 30–50% do medidor. Use um volume rider ou automação para garantir que os níveis de volume sejam consistentes em todo o seu conjunto de dados. O objetivo é criar um nível de volume consistente na gravação, mantendo a dinâmica dentro das seções.
Treinando sua voz
Após preparar seus conjuntos de dados, você pode ir para Página de Voz Personalizada para selecionar um Slot Personalizado, enviar suas amostras e iniciar o treinamento.
Você pode personalizar uma voz de alterador de voz em um slot personalizado.
Clique em um slot para começar a enviar suas amostras.
Após todas as amostras serem enviadas, o treinamento iniciará automaticamente. Você pode verificar o status atualizando a página da web.
Quando a página voltar para a lista de slots com uma nova voz treinada, está tudo pronto.
Clique em ‘Open in ACE’ para abrir o ACE Studio e usar sua nova voz treinada.
Re-treinando sua voz
Clique no Retrain botão para re-treinar sua voz.
O re-treinamento removerá sua voz anterior neste slot. A IA começará a treinar uma voz completamente nova do zero usando o novo conjunto de dados. Antes de iniciar o processo de re-treinamento, você tem a opção de manter as amostras históricas dentro deste slot e enviar amostras novas adicionais, ou pode optar por limpar as amostras históricas e usar apenas as amostras recém-enviadas.
Ao preparar novas amostras, observe:
Se a duração das amostras adicionadas for significativamente menor que as já enviadas, por exemplo, adicionar 1 min de nova amostra a um conjunto de 30 mins, o re-treinamento pode não trazer mudanças significativas no desempenho.
O re-treinamento não alterará o tipo do seu slot.
Quando devo re-treinar minha voz?
Quando seus conjuntos de dados têm qualidade melhor ou quantidade maior do que antes, você pode usá-los para melhorar iterativamente sua voz
Quando você não está satisfeito com o resultado atual e deseja ajustar seus conjuntos de dados
Gerenciando sua voz
Clique no Manage botão para abrir a janela de gerenciamento de uma voz personalizada do alterador de voz. Nessa janela, você pode modificar:
Imagem da voz
Nome da voz
Tags
Tipo de voz
Tag de idioma (apenas para o tipo de voz)
Após fazer alterações, você pode clicar em Open in ACE botão para atualizar a lista de vozes do ACE Studio.
Last updated