Clonare una voce per il Vocal Synth
Clona la tua voce come voce per il Vocal Synth in ACE Studio.
Cos'è la Clonazione del Sintetizzatore Vocale?
Questa funzione consente di personalizzare il proprio modello di sintetizzatore vocale caricando campioni vocali. L'AI apprenderà il timbro e lo stile vocale in base ai campioni forniti e clonerà una versione digitale della tua voce.
Dopo la personalizzazione, potrai usare la tua voce per generare vocali da MIDI e testi proprio come le nostre voci AI predefinite in ACE Studio.
La tua voce AI clonata è privata nel tuo account, nessun altro può accedervi senza la tua autorizzazione.
Come clonare la mia voce per il Sintetizzatore Vocale?
Preparazione dei tuoi dataset
Voci pulite e secche
Voci di alta qualità richiedono campioni vocali puliti e senza effetti:
Senza riverbero, delay o effetti chorus
Senza rumore di fondo
Senza tracce strumentali o suoni non umani
Senza armonie o doppi vocali
Si raccomandano 30-100 minuti di campioni di canto per una voce. Più campioni fornisci, più dettagli di interpretazione l'AI potrà apprendere, ma i benefici diminuiscono superati i 120 minuti.
Riflessioni della stanza
Voci registrate con forti riflessioni della stanza possono causare errori di riconoscimento e risultati inaspettati nel comportamento del modello.
Voci estratte con stem splitter
Quando usi vocal remover o stem splitter per le voci, la qualità in uscita potrebbe risultare troppo degradata per l'addestramento. Per un modello vocale di qualità superiore, è preferibile, se possibile, utilizzare voci non troppo degradate dallo stem splitter.
Registrazione dei campioni
Microfono di qualità con interfaccia audio
Microfoni professionali con interfacce audio garantiscono voci di alta qualità. Ti servirà un software di registrazione per connetterti all'interfaccia, registrare, modificare e mixare le voci.
Quando registri per un modello vocale, evita microfoni non progettati per il canto:
Microfoni di telefono o laptop
Microfoni a clip o headset
Microfoni da karaoke
Microfoni di cuffie o auricolari bluetooth come AirPods (generalmente pensati per conversazioni telefoniche)
Ambiente di registrazione
I rumori di fondo indesiderati possono includere persone che parlano, ronzii elettrici, traffico e rumori esterni, oltre ai movimenti di accessori o oggetti. Per evitare che questi rumori interferiscano con la registrazione, è importante scegliere un luogo silenzioso in cui minimizzare o eliminare disturbi imprevisti.
Le riflessioni sonore possono verificarsi a causa di superfici dure e piane, generando riverbero o eco nelle registrazioni. Questo può dare alle tracce una qualità vuota o distante, sottraendo intimità e chiarezza desiderate.
Prova a battere le mani vigorosamente nella stanza e ascolta con attenzione. Se percepisci un fruscio o un'eco prolungata, indica la presenza di problemi di riverbero.
Per risolvere il problema, incorpora materiali morbidi che assorbano il suono. Considera l'uso di tappeti, moquette o tende spesse per ridurre significativamente le riflessioni. Coprire pavimenti duri e, se possibile, appendere tende sulle finestre, oltre a inserire mobili con rivestimenti in tessuto nella stanza, può essere utile.
Evita superfici dure poiché contribuiscono al problema. Se non puoi permetterti pannelli acustici professionali, puoi usare oggetti comuni come quadri su tela, arazzi o pannelli in schiuma per interrompere queste superfici.
Quando sistemi il microfono, fai attenzione al posizionamento. Evita di posizionarlo troppo vicino alle pareti o negli angoli. Piuttosto, punta al centro della stanza o sperimenta diverse posizioni per trovare il punto ottimale con il minimo riverbero.
Perdita dalle cuffie
Durante le registrazioni, specialmente per le voci, è comune che l'audio dalle cuffie venga captato dal microfono. Questo problema si verifica quando il volume delle cuffie è troppo alto o si usano cuffie open-back. Questo può essere accettabile in una registrazione musicale, ma cerca di evitare questa perdita quando registri per il tuo modello vocale.
Posizionamento del microfono
Per volumi normali si consiglia di posizionarsi a circa 5 cm dal microfono. Tuttavia, per frasi più potenti o in belting, è consigliabile aumentare la distanza a circa 10–15 cm. È importante restare comunque a meno di 30 cm dal microfono per mantenere una cattura audio ottimale.
Creare spazio per il belting
Quando esegui tecniche di belting, è importante concedersi spazio sia rispetto alla distanza dal microfono sia alla dimensione della stanza. Un isolamento eccessivo, come essere rinchiusi in un armadio o in una cabina, o circondare il microfono con schiuma, può facilmente sovraccaricare la capsula del microfono. Se non sei sicuro, è consigliabile includere più suono della stanza quando esegui frasi in belting.
Lingue cantate
Slot personalizzato Basic
Nel modello vocale addestrato in uno slot personalizzato Basic sarà supportata una sola lingua di canto.
Slot personalizzato Pro
La voce addestrata in uno slot personalizzato Pro può essere multilingue.
Lingue nei tuoi campioni
Durante il processo di addestramento, ogni file campione verrà elaborato individualmente e trattato come un file monolingua. È importante evitare di mescolare frasi in lingue diverse all'interno dello stesso file campione.
Quando carichi i campioni, assicurati di inserirli nella scheda della lingua appropriata. Anche se stai caricando campioni per uno slot personalizzato Basic, puoi comunque caricare campioni in lingue diverse se necessario. Mantenere i campioni organizzati per lingua aiuta a mantenere chiarezza e a migliorare il processo di addestramento.
Lingue in arrivo
Stiamo lavorando continuamente per sviluppare nuove lingue di canto per la funzione di voce personalizzata.
Per la tua nuova voce:
Le nuove lingue saranno supportate dai nuovi slot personalizzati Pro.
Le nuove lingue saranno una delle opzioni supportate dai nuovi slot personalizzati Basic.
Per la tua voce esistente:
Le nuove lingue saranno supportate quando verranno ri-addestrati i tuoi slot personalizzati Pro.
Le nuove lingue saranno opzionali quando verranno ri-addestrati i tuoi slot personalizzati Basic.
Canto o parlato
Sia i campioni di canto sia quelli di parlato possono essere accettati per addestrare il tuo modello vocale da canto.
La tua voce può apprendere:
Il timbro dai tuoi campioni di canto e di parlato, ma nota: per una persona il timbro del parlato può differire da quello del canto e di solito non rappresenta fedelmente la performance vocale.
Lo stile di canto dai tuoi campioni di canto
La tua voce non può apprendere:
Lo stile di canto dai tuoi campioni di parlato
Impostazioni di qualità dei file
La qualità audio dei tuoi campioni influisce direttamente sulla qualità della tua voce.
Ti consigliamo di impostare la qualità audio su:
Bit Depth = 16-bit
Sample Rate = 44.1khz o 48khz
Formato lossless (.wav o .flac)
Post-produzione
Per mantenere il carattere naturale e la chiarezza della voce target:
Nessuna sovrapposizione: voci stratificate possono complicare l'analisi dell'AI. Metti le take sovrapposte sullo sfondo e mantieni una singola traccia vocale in primo piano per permettere all'AI di processare e apprendere accuratamente dai tuoi campioni.
Nessun taglio brusco: i tagli netti possono creare inizi o fini improvvisi, non naturali in una voce cantata, e possono introdurre click o pop. Usa fade morbidi all'inizio e alla fine del clip vocale per una transizione più naturale.
Nessuna duplicazione di sezioni: Le sezioni duplicate non aiutano l'addestramento. Il tuo modello vocale beneficia della naturale variazione dell'interpretazione.
Controlla il volume: Assicurati che i tuoi campioni restino intorno al 30–50% del metro. Usa un volume rider o automazione per mantenere livelli di volume coerenti in tutto il dataset. L'obiettivo è creare un livello di volume uniforme nella registrazione mantenendo però la dinamica all'interno delle sezioni.
Addestrare la tua voce
Dopo aver preparato i tuoi dataset, puoi andare su Pagina Voce Personalizzata seleziona uno Slot Personalizzato, carica i tuoi campioni vocali e avvia l'addestramento.
Uno Slot Personalizzato Basic ti offre una voce monolingue con 5 versioni.
Uno Slot Personalizzato Pro ti offre una voce multilingue con 5 versioni.
Clicca su uno slot per iniziare a caricare i tuoi campioni.
Dopo il caricamento di tutti i campioni, l'addestramento inizierà automaticamente. Puoi verificare lo stato aggiornando la pagina web.
Quando la pagina di addestramento si trasformerà nella pagina di gestione della clonazione vocale, la tua voce sarà pronta. Verrà mostrata nella tua libreria di voci in ACE Studio. Se non la vedi, prova a riavviare ACE Studio.
Consigli professionali
Se cerchi performance e carattere esclusivi per una voce, ad esempio risultati ottimali in diverse estensioni vocali o emozioni, è preferibile suddividere i campioni in più voci.
Ecco un esempio:
Mike è un cantante professionista e vuole personalizzare la sua voce. Sa esibirsi bene sia come tenore sia come basso. Quindi è meglio addestrare 2 voci separate:
Addestra una voce acuta e potente basata su campioni composti principalmente da esibizioni in tonalità alta e potenti.
Addestra una voce di basso basata su campioni composti principalmente da frasi in tonalità bassa.
Riaddestrare la tua voce
Fai clic su Riaddestra pulsante per riaddestrare la tua voce.
Il ri-addestramento rimuoverà la voce precedente associata a questo slot e disattiverà eventuali cantanti distribuiti collegati alla voce. L'AI inizierà ad addestrare una voce completamente nuova da zero utilizzando il nuovo dataset. Prima di avviare il ri-addestramento, puoi scegliere di mantenere i campioni storici in questo slot e caricarne di nuovi, oppure cancellare i campioni storici e usare solo i campioni appena caricati.
Quando prepari nuovi campioni, nota per favore:
Se la durata dei nuovi campioni aggiunti è significativamente inferiore a quella dei campioni già caricati, ad esempio aggiungendo 1 minuto di nuovo campione a un dataset di 30 minuti, il ri-addestramento potrebbe non apportare cambiamenti significativi nella performance della voce.
Il riaddestramento non cambierà il tipo del tuo slot.
Puoi cambiare la lingua supportata dal tuo slot personalizzato Basic tramite il ri-addestramento.
Quando dovrei riaddestrare la mia voce?
Quando i tuoi dataset hanno qualità migliore o una quantità maggiore, puoi utilizzarli per migliorare iterativamente la tua voce
Quando non sei soddisfatto del risultato attuale e vuoi aggiustare i tuoi dataset
Quando viene rilasciata una nuova abilità di lingua di canto
Gestire la tua voce
Versioni
L'AI apprende in modo incrementale dai tuoi dati, analizzando ogni campione passo dopo passo. Con l'approfondirsi dell'apprendimento aumenta il numero di passaggi. L'addestramento con un dataset piccolo o di qualità limitata, ad esempio progettato per il parlato piuttosto che per il canto, può richiedere solo pochi passaggi. Al contrario, un dataset più ampio e diversificato potrebbe necessitare di passaggi aggiuntivi per un adattamento completo. Tuttavia, un numero eccessivo di passaggi può portare a overfitting, degradando la performance della voce con risultati imprevedibili.
Al termine dell'addestramento otterrai diverse versioni basate su differenti passaggi di addestramento, da Rare a Well-done. Puoi trovare la versione migliore cambiando la distribuzione e confrontandole tra loro.
Mescola Voci
Mescolare le voci produce una voce ibrida. Puoi personalizzare la tua voce per farla assomigliare maggiormente alla voce target regolando le proporzioni delle voci miscelate. Per farlo, vai alla pagina di gestione degli slot e clicca sul pulsante 'blend voices' sotto ogni versione.
Dopo la miscelazione, la tua voce assumerà le nuove caratteristiche vocali. Per applicare queste modifiche, sarà necessario aggiornare la voce riavviando ACE Studio.
Ultimo aggiornamento