flask-round-potionClonando Uma Voz para Vocal Synth

Clone sua própria voz como uma voz de Vocal Synth no ACE Studio.

O que é Clonagem de Vocal Synth?

Este é um recurso para personalizar seu próprio modelo de sintetizador vocal fazendo upload de suas amostras vocais. A IA aprenderá o timbre e o estilo de canto com base nas amostras que você enviar e clonará uma versão digital da sua voz.

Após a customização, você poderá usar sua voz para gerar vocais a partir de MIDI e letras, assim como nossas vozes AI pré-criadas no ACE Studio.

circle-check

Como clonar minha voz para o Vocal Synth?

Preparando seus conjuntos de dados

chevron-rightVocais secos limposhashtag

Vozes de alta qualidade exigem amostras vocais limpas e secas:

  • Sem reverberação, delay ou efeitos de chorus

  • Sem ruído de fundo

  • Sem instrumentais ou quaisquer sons não humanos

  • Sem harmonias ou dobras vocais

Recomenda-se 30–100 minutos de amostras de canto para uma voz. Quanto mais amostras você fornecer, mais detalhes de canto a IA poderá aprender, mas traz menos benefícios quando você ultrapassa 120 minutos.

Reflexões da sala

Vozes gravadas com grandes reflexões da sala podem causar erros de reconhecimento e resultar em desempenho inesperado do modelo.

Vocais a partir do stem splitter

Quando você usa vocal remover ou stem splitter para os vocais, a qualidade de saída pode ficar baixa demais para treinamento. Para um modelo vocal de maior qualidade, use, se possível, vocais provenientes do stem splitter.

chevron-rightGravando amostrashashtag

Microfone de qualidade com interface de áudio

Microfones profissionais com interfaces de áudio entregam vocais de alta qualidade. Você precisará de um software de gravação para conectar à sua interface, gravar, editar e mixar seus vocais.

Ao gravar para um modelo de voz, evite microfones que não foram feitos para cantar:

  • Microfones de telefone ou laptop

  • Microfones de lapela ou headset

  • Microfones de karaokê

  • Microfones de fone de ouvido ou fones bluetooth como AirPods (geralmente feitos para chamadas)

Ambiente de gravação

  1. Ruídos indesejados de fundo podem incluir pessoas conversando, zumbidos elétricos, tráfego e ruídos externos, além de movimentos de acessórios ou objetos. Para evitar que esses ruídos interfiram na gravação, é importante escolher um local silencioso. Opte por um lugar onde você possa minimizar ou eliminar interrupções de ruído inesperadas.

  2. Reflexões sonoras podem ocorrer devido à presença de superfícies duras e planas, resultando em reverberação ou ecos nas suas gravações. Isso pode deixar suas faixas com um som oco ou distante, prejudicando a intimidade e clareza desejadas.

  3. Tente bater palmas com força na sala e ouça atentamente. Se você perceber um som de batimento ou um eco prolongado, isso indica a presença de problemas de reverberação.

  4. Para resolver isso, incorpore materiais macios que possam absorver o som. Considere usar carpetes, tapetes ou cortinas grossas para reduzir significativamente as reflexões. Cobrir pisos duros e, se possível, pendurar cortinas sobre janelas, além de colocar móveis com revestimento de tecido na sala, pode ser benéfico.

  5. Evite usar superfícies duras, pois elas contribuem para o problema. Se não puder investir em painéis acústicos profissionais, utilize itens do dia a dia, como quadros em tela, tapeçarias ou placas de espuma para quebrar essas superfícies.

  6. Ao posicionar seu microfone, preste atenção ao local. Evite colocá-lo muito próximo de paredes ou em cantos. Em vez disso, aponte para o centro da sala ou experimente diferentes posições para encontrar o ponto ideal com reverberação mínima.

Vazamento de fone

Durante as gravações, especialmente ao capturar vocais, é comum o áudio dos fones vazar para o microfone. Esse problema surge quando o volume dos fones está muito alto ou quando se usam fones abertos. Isso pode ser aceitável ao gravar para uma música, mas tente evitar esse vazamento ao gravar para seu modelo de voz.

Posicionamento do microfone

Para volume regular, recomenda-se posicionar-se cerca de 5 cm do microfone. No entanto, para frases mais altas ou ao projetar a voz (belting), é aconselhável aumentar a distância para cerca de 10–15 cm. É importante notar que você deve sempre permanecer mais próximo que 30 cm do microfone para manter uma captura de áudio ideal.

Criando espaço para belting

Ao usar técnicas de belting, é importante permitir amplo espaço, tanto em termos de distância do microfone quanto do tamanho da sala. Isolamento sonoro excessivo, como ficar confinado em um armário ou cabine, ou cercar seu microfone com espuma, pode facilmente sobrecarregar a cápsula do microfone. Se estiver em dúvida, é recomendável incorporar mais som ambiente da sala ao executar frases projetadas.

chevron-rightIdiomas de cantohashtag

Slot de customização básico

Apenas um idioma de canto será suportado no seu modelo de voz treinado em um slot de customização básico.

Slot de customização Pro

Sua voz treinada em um slot de customização Pro pode ser multilíngue.

Idiomas nas suas amostras

Durante o processo de treinamento, cada arquivo de amostra será processado individualmente e tratado como um arquivo de idioma único. É importante evitar misturar frases de diferentes idiomas dentro do mesmo arquivo de amostra.

Ao enviar amostras, por favor certifique-se de colocá-las na aba de idioma apropriada. Mesmo que você esteja enviando amostras para um slot de customização básico, você tem a flexibilidade de enviar amostras em diferentes idiomas, se necessário. Manter as amostras organizadas por idioma ajudará a manter a clareza e melhorar o processo de treinamento.

Idiomas futuros

Estamos continuamente trabalhando no desenvolvimento de novos idiomas de canto para o recurso de voz personalizada.

Para sua nova voz:

  • Novos idiomas serão suportados por novos slots de customização Pro.

  • Novos idiomas serão uma das opções a serem suportadas pelos novos slots de customização básicos.

Para sua voz existente:

  • Novos idiomas serão suportados ao re-treinar seus slots de customização Pro.

  • Novos idiomas serão opcionais ao re-treinar seus slots de customização básicos.

chevron-rightCanto ou falahashtag

Amostras de canto e amostras de fala podem ser aceitas para treinar seu modelo de voz de canto.

Sua voz pode aprender:

  • Timbre a partir de suas amostras de canto e de fala, mas observe: para uma pessoa, o timbre ao falar pode ser diferente do timbre ao cantar, o que geralmente não representa a performance real do canto.

  • Estilo de canto a partir de suas amostras de canto

Sua voz não pode aprender:

  • Estilo de canto a partir de suas amostras de fala

chevron-rightConfigurações de qualidade de arquivohashtag

A qualidade do áudio das suas amostras impacta diretamente a qualidade da sua voz.

Recomendamos que você configure a qualidade de áudio em:

  • Profundidade de bits = 16-bit

  • Taxa de amostragem = 44.1khz ou 48khz

  • Formato de arquivo lossless (.wav ou .flac)

chevron-rightPós-processamentohashtag

Para manter o caráter natural e a clareza da sua voz alvo:

  • Sem sobreposições: vocais em múltiplas camadas podem complicar a análise da IA. Coloque as partes sobrepostas atrás e mantenha uma única faixa vocal para garantir que a IA possa processar e aprender com precisão a partir de suas amostras.

  • Sem cortes bruscos: cortes bruscos podem criar inícios ou finais abruptos, que não são normais em um som vocal natural e podem introduzir cliques ou estalos. Use fades suaves no início e no fim do clipe vocal para uma transição mais natural.

  • Sem seções duplicadas: Seções duplicadas não ajudam no treinamento. Seu modelo de voz se beneficia da variação natural da performance.

  • Controle o volume: Certifique-se de que suas amostras fiquem em torno de 30–50% do medidor. Use um volume rider ou automação para garantir que os níveis de volume sejam consistentes em todo o seu conjunto de dados. O objetivo é criar um nível de volume consistente na gravação, mantendo a dinâmica dentro das seções.

Treinando sua voz

Após preparar seus conjuntos de dados, você pode ir para browserPágina de Voz Personalizada selecione um Slot de Customização, envie suas amostras vocais e inicie o treinamento.

Um Slot de Customização Básico oferece uma voz monolíngue com 5 versões.

Um Slot de Customização Pro oferece uma voz multilíngue com 5 versões.

Clique em um slot para começar a enviar suas amostras.

Após o upload de todas as amostras, o treinamento iniciará automaticamente. Você pode verificar o status atualizando a página web.

Quando a página de treinamento se transformar na página de gerenciamento de clonagem de voz, sua voz estará pronta. Ela será exibida na sua biblioteca de vozes no ACE Studio. Se não aparecer, tente reiniciar o ACE Studio.

circle-info

Dicas profissionais

Se você busca performance e caráter exclusivos para uma voz, como melhores resultados em diferentes faixas vocais ou emoções, é recomendável dividir as amostras em várias vozes.

Aqui está um exemplo:

Mike é um cantor profissional e gostaria de personalizar sua própria voz. Ele se sai bem tanto como tenor quanto como baixo. Portanto, seria melhor treinar 2 vozes:

  • Treinar uma voz de tom alto e poderosa com base em amostras que sejam principalmente performances de tom alto e potentes.

  • Treinar uma voz de baixo com base em amostras que sejam principalmente frases de tom baixo.

Re-treinando sua voz

Clique no Retrain botão para re-treinar sua voz.

O re-treinamento removerá sua voz anterior neste slot e desativará quaisquer cantores implantados associados a essa voz. A IA começará a treinar uma voz completamente nova do zero usando o novo conjunto de dados. Antes de iniciar o processo de re-treinamento, você tem a opção de manter as amostras históricas neste slot e enviar novas amostras adicionais, ou pode optar por limpar as amostras históricas e usar apenas as amostras recém-enviadas.

Ao preparar novas amostras, observe:

  • Se a duração das amostras adicionadas for significativamente menor do que as amostras já enviadas — por exemplo, adicionar 1 minuto de nova amostra a um conjunto de 30 minutos — o re-treinamento pode não trazer mudanças significativas na performance da voz.

  • O re-treinamento não alterará o tipo do seu slot.

  • Você pode alterar o idioma suportado do seu slot de customização básico por meio do re-treinamento.

circle-info

Quando devo re-treinar minha voz?

  • Quando seus conjuntos de dados tiverem melhor qualidade ou maior quantidade, você poderá usá-los para melhorar iterativamente sua voz

  • Quando você não está satisfeito com o resultado atual e deseja ajustar seus conjuntos de dados

  • Quando uma nova habilidade de idioma de canto for lançada

Gerenciando sua voz

chevron-rightVersõeshashtag

A IA aprende incrementalmente a partir dos seus dados, analisando cada amostra em um processo passo a passo. À medida que o aprendizado se aprofunda, o número de etapas aumenta. Treinar com um conjunto de dados pequeno ou de qualidade limitada, como um projetado para fala em vez de canto, pode exigir apenas algumas etapas. Em contraste, um conjunto de dados maior e mais diversificado pode necessitar de etapas adicionais para um ajuste completo. Porém, etapas de treinamento excessivas podem levar ao overfitting, potencialmente degradando a performance da sua voz com resultados imprevisíveis.

Ao final do treinamento, você obterá várias versões baseadas em diferentes passos de treinamento, de Rare a Well-done. Você pode encontrar a melhor versão alternando as implantações e comparando-as.

chevron-rightMisturar Vozeshashtag

Misturar vozes resulta em uma voz híbrida. Você pode personalizar sua voz para soar mais como a voz alvo ajustando as proporções das vozes misturadas. Para fazer isso, navegue até a página de gerenciamento de slots e clique no botão 'blend voices' localizado abaixo de cada versão.

Após a mistura, sua voz adotará as novas características vocais. Para aplicar essas mudanças, será necessário atualizar sua voz reiniciando o ACE Studio.

chevron-rightImplantar no ACE Studiohashtag

Para slots de customização Básicos e Pro, após implantar uma versão, você pode alternar a implantação de uma versão para outra. Você precisa reiniciar o ACE Studio após cada implantação para atualizar sua biblioteca de vozes.

Last updated