# Clonagem de uma voz para Vocal Synth

## O que é Clonagem de Vocal Synth? <a href="#block-17608bffde808018b367cbddf8c9fe36" id="block-17608bffde808018b367cbddf8c9fe36"></a>

Este é um recurso para personalizar seu próprio modelo de sintetizador vocal fazendo upload de suas amostras vocais. A IA aprenderá o timbre e o estilo de canto com base nas amostras que você enviar e clonará uma versão digital da sua voz.

Após a customização, você poderá usar sua voz para gerar vocais a partir de MIDI e letras, assim como nossas vozes AI pré-criadas no ACE Studio.

{% hint style="success" %}
Sua voz clonada por IA é privada na sua conta; ninguém mais pode acessá-la sem sua autorização.
{% endhint %}

## Como clonar minha voz para o Vocal Synth? <a href="#block-17608bffde8080b98024eb3edc82d4d6" id="block-17608bffde8080b98024eb3edc82d4d6"></a>

### Preparando seus conjuntos de dados

<details>

<summary>Vocais secos limpos</summary>

Vozes de alta qualidade exigem amostras vocais limpas e secas:

* Sem reverberação, delay ou efeitos de chorus
* Sem ruído de fundo
* Sem instrumentais ou quaisquer sons não humanos
* Sem harmonias ou dobras vocais

Recomenda-se 30–100 minutos de amostras de canto para uma voz. Quanto mais amostras você fornecer, mais detalhes de canto a IA poderá aprender, mas traz menos benefícios quando você ultrapassa 120 minutos.

> Reflexões da sala
>
> Vozes gravadas com grandes reflexões da sala podem causar erros de reconhecimento e resultar em desempenho inesperado do modelo.

> Vocais a partir do stem splitter
>
> Quando você usa vocal remover ou stem splitter para os vocais, a qualidade de saída pode ficar baixa demais para treinamento. Para um modelo vocal de maior qualidade, use, se possível, vocais provenientes do stem splitter.

</details>

<details>

<summary>Gravando amostras</summary>

**Microfone de qualidade com interface de áudio**

Microfones profissionais com interfaces de áudio entregam vocais de alta qualidade. Você precisará de um software de gravação para conectar à sua interface, gravar, editar e mixar seus vocais.

Ao gravar para um modelo de voz, evite microfones que não foram feitos para cantar:

* Microfones de telefone ou laptop
* Microfones de lapela ou headset
* Microfones de karaokê
* Microfones de fone de ouvido ou fones bluetooth como AirPods (geralmente feitos para chamadas)

**Ambiente de gravação**

1. Ruídos indesejados de fundo podem incluir pessoas conversando, zumbidos elétricos, tráfego e ruídos externos, além de movimentos de acessórios ou objetos. Para evitar que esses ruídos interfiram na gravação, é importante escolher um local silencioso. Opte por um lugar onde você possa minimizar ou eliminar interrupções de ruído inesperadas.
2. Reflexões sonoras podem ocorrer devido à presença de superfícies duras e planas, resultando em reverberação ou ecos nas suas gravações. Isso pode deixar suas faixas com um som oco ou distante, prejudicando a intimidade e clareza desejadas.
3. Tente bater palmas com força na sala e ouça atentamente. Se você perceber um som de batimento ou um eco prolongado, isso indica a presença de problemas de reverberação.
4. Para resolver isso, incorpore materiais macios que possam absorver o som. Considere usar carpetes, tapetes ou cortinas grossas para reduzir significativamente as reflexões. Cobrir pisos duros e, se possível, pendurar cortinas sobre janelas, além de colocar móveis com revestimento de tecido na sala, pode ser benéfico.
5. Evite usar superfícies duras, pois elas contribuem para o problema. Se não puder investir em painéis acústicos profissionais, utilize itens do dia a dia, como quadros em tela, tapeçarias ou placas de espuma para quebrar essas superfícies.
6. Ao posicionar seu microfone, preste atenção ao local. Evite colocá-lo muito próximo de paredes ou em cantos. Em vez disso, aponte para o centro da sala ou experimente diferentes posições para encontrar o ponto ideal com reverberação mínima.

**Vazamento de fone**

Durante as gravações, especialmente ao capturar vocais, é comum o áudio dos fones vazar para o microfone. Esse problema surge quando o volume dos fones está muito alto ou quando se usam fones abertos. Isso pode ser aceitável ao gravar para uma música, mas tente evitar esse vazamento ao gravar para seu modelo de voz.

**Posicionamento do microfone**

Para volume regular, recomenda-se posicionar-se cerca de 5 cm do microfone. No entanto, para frases mais altas ou ao projetar a voz (belting), é aconselhável aumentar a distância para cerca de 10–15 cm. É importante notar que você deve sempre permanecer mais próximo que 30 cm do microfone para manter uma captura de áudio ideal.

> Criando espaço para belting
>
> Ao usar técnicas de belting, é importante permitir amplo espaço, tanto em termos de distância do microfone quanto do tamanho da sala. Isolamento sonoro excessivo, como ficar confinado em um armário ou cabine, ou cercar seu microfone com espuma, pode facilmente sobrecarregar a cápsula do microfone. Se estiver em dúvida, é recomendável incorporar mais som ambiente da sala ao executar frases projetadas.

</details>

<details>

<summary>Idiomas de canto</summary>

**Slot de customização básico**

Apenas um idioma de canto será suportado no seu modelo de voz treinado em um slot de customização básico.

**Slot de customização Pro**

Sua voz treinada em um slot de customização Pro pode ser multilíngue.

**Idiomas nas suas amostras**

Durante o processo de treinamento, cada arquivo de amostra será processado individualmente e tratado como um arquivo de idioma único. É importante evitar misturar frases de diferentes idiomas dentro do mesmo arquivo de amostra.

Ao enviar amostras, por favor certifique-se de colocá-las na aba de idioma apropriada. Mesmo que você esteja enviando amostras para um slot de customização básico, você tem a flexibilidade de enviar amostras em diferentes idiomas, se necessário. Manter as amostras organizadas por idioma ajudará a manter a clareza e melhorar o processo de treinamento.

**Idiomas futuros**

Estamos continuamente trabalhando no desenvolvimento de novos idiomas de canto para o recurso de voz personalizada.

Para sua nova voz:

* Novos idiomas serão suportados por novos slots de customização Pro.
* Novos idiomas serão uma das opções a serem suportadas pelos novos slots de customização básicos.

Para sua voz existente:

* Novos idiomas serão suportados ao re-treinar seus slots de customização Pro.
* Novos idiomas serão opcionais ao re-treinar seus slots de customização básicos.

</details>

<details>

<summary>Canto ou fala</summary>

Amostras de canto e amostras de fala podem ser aceitas para treinar seu modelo de voz de canto.

Sua voz pode aprender:

* Timbre a partir de suas amostras de canto e de fala, mas observe: para uma pessoa, o timbre ao falar pode ser diferente do timbre ao cantar, o que geralmente não representa a performance real do canto.
* Estilo de canto a partir de suas amostras de canto

Sua voz não pode aprender:

* Estilo de canto a partir de suas amostras de fala

</details>

<details>

<summary>Configurações de qualidade de arquivo</summary>

A qualidade do áudio das suas amostras impacta diretamente a qualidade da sua voz.

Recomendamos que você configure a qualidade de áudio em:

* Profundidade de bits = 16-bit
* Taxa de amostragem = 44.1khz ou 48khz
* Formato de arquivo lossless (.wav ou .flac)

</details>

<details>

<summary>Pós-processamento</summary>

Para manter o caráter natural e a clareza da sua voz alvo:

* **Sem sobreposições:** vocais em múltiplas camadas podem complicar a análise da IA. Coloque as partes sobrepostas atrás e mantenha uma única faixa vocal para garantir que a IA possa processar e aprender com precisão a partir de suas amostras.
* **Sem cortes bruscos:** cortes bruscos podem criar inícios ou finais abruptos, que não são normais em um som vocal natural e podem introduzir cliques ou estalos. Use fades suaves no início e no fim do clipe vocal para uma transição mais natural.
* **Sem seções duplicadas:** Seções duplicadas não ajudam no treinamento. Seu modelo de voz se beneficia da variação natural da performance.
* **Controle o volume:** Certifique-se de que suas amostras fiquem em torno de 30–50% do medidor. Use um volume rider ou automação para garantir que os níveis de volume sejam consistentes em todo o seu conjunto de dados. O objetivo é criar um nível de volume consistente na gravação, mantendo a dinâmica dentro das seções.

</details>

### Treinando sua voz

Após preparar seus conjuntos de dados, você pode ir para <a href="https://acestudio.ai/app/custom-voice/vocal-synth" class="button secondary" data-icon="browser">Página de Voz Personalizada</a> selecione um Slot de Customização, envie suas amostras vocais e inicie o treinamento.

Um Slot de Customização Básico oferece uma voz monolíngue com 5 versões.

Um Slot de Customização Pro oferece uma voz multilíngue com 5 versões.

Clique em um slot para começar a enviar suas amostras.

Após o upload de todas as amostras, o treinamento iniciará automaticamente. Você pode verificar o status atualizando a página web.

Quando a página de treinamento se transformar na página de gerenciamento de clonagem de voz, sua voz estará pronta. Ela será exibida na sua biblioteca de vozes no ACE Studio. Se não aparecer, tente reiniciar o ACE Studio.

{% hint style="info" %}
**Dicas profissionais**

Se você busca performance e caráter exclusivos para uma voz, como melhores resultados em diferentes faixas vocais ou emoções, é recomendável dividir as amostras em várias vozes.

Aqui está um exemplo:

Mike é um cantor profissional e gostaria de personalizar sua própria voz. Ele se sai bem tanto como tenor quanto como baixo. Portanto, seria melhor treinar 2 vozes:

* Treinar uma voz de tom alto e poderosa com base em amostras que sejam principalmente performances de tom alto e potentes.
* Treinar uma voz de baixo com base em amostras que sejam principalmente frases de tom baixo.
  {% endhint %}

### Re-treinando sua voz

Clique no <kbd>Retrain</kbd> botão para re-treinar sua voz.

O re-treinamento removerá sua voz anterior neste slot e desativará quaisquer cantores implantados associados a essa voz. A IA começará a treinar uma voz completamente nova do zero usando o novo conjunto de dados. Antes de iniciar o processo de re-treinamento, você tem a opção de manter as amostras históricas neste slot e enviar novas amostras adicionais, ou pode optar por limpar as amostras históricas e usar apenas as amostras recém-enviadas.

Ao preparar novas amostras, observe:

* Se a duração das amostras adicionadas for significativamente menor do que as amostras já enviadas — por exemplo, adicionar 1 minuto de nova amostra a um conjunto de 30 minutos — o re-treinamento pode não trazer mudanças significativas na performance da voz.
* O re-treinamento não alterará o tipo do seu slot.
* Você pode alterar o idioma suportado do seu slot de customização básico por meio do re-treinamento.

{% hint style="info" %}
**Quando devo re-treinar minha voz?**

* Quando seus conjuntos de dados tiverem melhor qualidade ou maior quantidade, você poderá usá-los para melhorar iterativamente sua voz
* Quando você não está satisfeito com o resultado atual e deseja ajustar seus conjuntos de dados
* Quando uma nova habilidade de idioma de canto for lançada
  {% endhint %}

### Gerenciando sua voz

<details>

<summary>Versões</summary>

A IA aprende incrementalmente a partir dos seus dados, analisando cada amostra em um processo passo a passo. À medida que o aprendizado se aprofunda, o número de etapas aumenta. Treinar com um conjunto de dados pequeno ou de qualidade limitada, como um projetado para fala em vez de canto, pode exigir apenas algumas etapas. Em contraste, um conjunto de dados maior e mais diversificado pode necessitar de etapas adicionais para um ajuste completo. Porém, etapas de treinamento excessivas podem levar ao overfitting, potencialmente degradando a performance da sua voz com resultados imprevisíveis.

Ao final do treinamento, você obterá várias versões baseadas em diferentes passos de treinamento, de Rare a Well-done. Você pode encontrar a melhor versão alternando as implantações e comparando-as.

</details>

<details>

<summary>Misturar Vozes</summary>

Misturar vozes resulta em uma voz híbrida. Você pode personalizar sua voz para soar mais como a voz alvo ajustando as proporções das vozes misturadas. Para fazer isso, navegue até a página de gerenciamento de slots e clique no botão 'blend voices' localizado abaixo de cada versão.

Após a mistura, sua voz adotará as novas características vocais. Para aplicar essas mudanças, será necessário atualizar sua voz reiniciando o ACE Studio.

</details>

<details>

<summary>Implantar no ACE Studio</summary>

Para slots de customização Básicos e Pro, após implantar uma versão, você pode alternar a implantação de uma versão para outra. Você precisa reiniciar o ACE Studio após cada implantação para atualizar sua biblioteca de vozes.

</details>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.acestudio.ai/docs/product-wiki-pt/clonagem-de-voz/clonagem-de-uma-voz-para-vocal-synth.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.