Cloner une voix pour le Synth Vocal
Clonez votre propre voix en tant que voix de Synth Vocal dans ACE Studio.
Qu'est-ce que le clonage de Synth Vocal ?
Il s'agit d'une fonctionnalité permettant de personnaliser votre propre modèle de synthèse vocale en téléchargeant vos échantillons vocaux. L'IA apprendra le timbre et le style de chant à partir des échantillons que vous fournissez et clonera une version numérique de votre voix.
Après la personnalisation, vous pouvez utiliser votre voix pour générer des parties vocales à partir de MIDI et de paroles, tout comme nos voix IA préconstruites dans ACE Studio.
Votre voix IA clonée est privée et liée à votre compte ; personne d'autre ne peut y accéder sans votre autorisation.
Comment cloner ma voix pour le Synth Vocal ?
Préparer vos jeux de données
Voix sèches et propres
Des voix de haute qualité requièrent des échantillons vocaux propres et sans effet :
Sans réverbération, délai ou effets de chorus
Sans bruit de fond
Sans instrumentaux ni sons non humains
Sans harmonies ni doubles vocaux
30 à 100 minutes d'échantillons chantés sont recommandées pour une voix. Plus vous fournissez d'échantillons, plus l'IA peut apprendre de détails de chant, mais les bénéfices diminuent au-delà de 120 minutes.
Réflexions de la pièce
Des voix enregistrées avec de fortes réflexions de pièce peuvent provoquer des erreurs de reconnaissance et entraîner des performances inattendues du modèle.
Voix issues d'un stem splitter
Lorsque vous utilisez un vocal remover ou un stem splitter, la qualité de sortie peut être trop dégradée pour l'entraînement. Pour un modèle vocal de meilleure qualité, privilégiez, si possible, des voix extraites par stem splitter de haute qualité.
Enregistrer des échantillons
Microphone de qualité avec interface audio
Des microphones professionnels avec interface audio fournissent des voix de haute qualité. Vous aurez besoin d'un logiciel d'enregistrement pour connecter votre interface, enregistrer, éditer et mixer vos voix.
Pour l'enregistrement d'un modèle vocal, évitez les microphones non conçus pour le chant :
Micros de téléphone ou d'ordinateur portable
Micro-cravates ou casques-micro
Micros de karaoké
Micro d'écouteurs ou oreillettes Bluetooth comme les AirPods (conçus pour les appels téléphoniques)
Environnement d'enregistrement
Les bruits de fond indésirables peuvent inclure des conversations, des bourdonnements électriques, le bruit de la circulation et des sons extérieurs, ainsi que les mouvements d'accessoires ou d'objets. Pour éviter qu'ils n'interfèrent avec votre enregistrement, il est important de choisir un endroit calme où minimiser ou éliminer ces perturbations sonores.
Les réflexions sonores peuvent survenir en présence de surfaces dures et planes, entraînant réverbération ou échos dans vos enregistrements. Cela peut donner à vos pistes un caractère creux ou distant, nuisant à l'intimité et à la clarté souhaitées.
Frappez des mains rapidement dans la pièce et écoutez attentivement. Si vous percevez un son qui résonne ou un écho prolongé, cela indique un problème de réverbération.
Pour y remédier, incorporez des matériaux absorbants. Pensez aux tapis, carpettes ou rideaux épais pour réduire significativement les réflexions. Couvrir les sols durs et, si possible, suspendre des rideaux aux fenêtres ainsi que placer des meubles recouverts de tissu dans la pièce peut aider.
Évitez les surfaces dures qui aggravent le problème. Si vous ne pouvez pas investir dans des panneaux acoustiques professionnels, utilisez des objets du quotidien comme des toiles, tapisseries ou dalles de mousse pour casser ces surfaces.
Lors du positionnement du microphone, faites attention à son placement. Évitez de le placer trop près des murs ou dans les coins. Visez le centre de la pièce ou testez différents emplacements pour trouver le point optimal avec le moins de réverbération.
Fuite depuis les écouteurs
Lors des enregistrements, en particulier pour les voix, il est courant que le son des écouteurs se reporte dans le microphone. Ce phénomène survient lorsque le volume des écouteurs est trop élevé ou que des casques ouverts sont utilisés. Cela peut être toléré pour l'enregistrement d'une chanson, mais évitez cette fuite pour l'enregistrement d'un modèle vocal.
Placement du microphone
Pour un volume normal, il est recommandé de vous placer à environ 5 cm du microphone. Pour des passages plus puissants ou du belting, augmentez la distance à environ 10–15 cm. Veillez à rester toujours à moins de 30 cm du microphone pour conserver une capture audio optimale.
Créer de l'espace pour le belting
Pour les techniques de belting, laissez suffisamment d'espace, aussi bien en distance de microphone qu'en taille de pièce. Une isolation sonore excessive, comme être confiné dans un placard ou une cabine, ou entourer le micro de mousse, peut facilement surcharger la capsule du microphone. En cas de doute, intégrez davantage de son de pièce lors des passages belting.
Langues de chant
Emplacement personnalisé basique
Un seul langage de chant sera pris en charge dans votre modèle vocal entraîné sous un emplacement personnalisé basique.
Emplacement personnalisé Pro
Votre voix entraînée sous un emplacement personnalisé Pro peut devenir multilingue.
Langues présentes dans vos échantillons
Pendant le processus d'entraînement, chaque fichier d'échantillon sera traité individuellement et considéré comme un fichier mono‑lingue. Il est important d'éviter de mélanger des phrases de différentes langues dans un même fichier d'échantillon.
Lors du téléchargement des échantillons, assurez‑vous de les placer sous l'onglet de langue approprié. Même si vous téléchargez des échantillons pour un emplacement personnalisé basique, vous pouvez télécharger des échantillons dans différentes langues si nécessaire. Organiser les échantillons par langue aidera à maintenir la clarté et améliorera le processus d'entraînement.
Langues à venir
Nous travaillons en continu au développement de nouvelles langues de chant pour la fonctionnalité de voix personnalisée.
Pour votre nouvelle voix :
Les nouvelles langues seront prises en charge par de nouveaux emplacements personnalisés Pro.
Les nouvelles langues feront partie des options prises en charge par de nouveaux emplacements personnalisés basiques.
Pour votre voix existante :
Les nouvelles langues seront prises en charge lors du réentraînement de vos emplacements personnalisés Pro.
Les nouvelles langues seront optionnelles lors du réentraînement de vos emplacements personnalisés basiques.
Chant ou parole
Les échantillons de chant et les échantillons de parole peuvent tous deux être acceptés pour entraîner votre modèle de voix chantée.
Votre voix peut apprendre :
Le timbre à partir de vos échantillons de chant et de parole, mais veuillez noter : pour une personne, le timbre de la voix parlée peut être différent de celui du chant, et ne représente généralement pas fidèlement la performance vocale en chant.
Le style de chant à partir de vos échantillons de chant
Votre voix ne peut pas apprendre :
Le style de chant à partir de vos échantillons de parole
Paramètres de qualité des fichiers
La qualité audio de vos échantillons influe directement sur la qualité de votre voix.
Nous vous recommandons de régler la qualité audio sur :
Profondeur de bits = 16-bit
Taux d'échantillonnage = 44.1kHz ou 48kHz
Format sans perte (.wav ou .flac)
Post-traitement
Pour préserver le caractère naturel et la clarté de la voix cible :
Pas de chevauchements : les voix multi-couches compliquent l'analyse de l'IA. Placez les prises superposées en arrière-plan et conservez une seule piste vocale afin que l'IA puisse traiter et apprendre correctement à partir de vos échantillons.
Pas de coupures nettes : les coupures nettes créent des débuts ou fins abrupts, non naturels pour le chant, et peuvent introduire des clics ou pops. Utilisez des fondus progressifs aux débuts et fins des clips vocaux pour des transitions plus naturelles.
Pas de sections dupliquées : Les sections dupliquées n'aident pas à l'entraînement. Votre modèle vocal bénéficie de la variation naturelle des performances.
Contrôlez le volume : Assurez-vous que vos échantillons restent autour de 30–50 % du vumètre. Utilisez un volume rider ou l'automation pour maintenir des niveaux cohérents sur l'ensemble du jeu de données. L'objectif est d'obtenir un niveau de volume homogène tout en conservant la dynamique au sein des sections.
Entraîner votre voix
Après avoir préparé vos jeux de données, vous pouvez aller à Page de voix personnalisée sélectionnez un Emplacement personnalisé, téléchargez vos échantillons vocaux et lancez l'entraînement.
Un Emplacement personnalisé basique vous fournit une voix monolingue avec 5 versions.
Un Emplacement personnalisé Pro vous fournit une voix multilingue avec 5 versions.
Cliquez sur un emplacement pour commencer à téléverser vos échantillons.
Une fois tous les échantillons téléchargés, l'entraînement démarre automatiquement. Vous pouvez vérifier l'état en actualisant la page Web.
Lorsque la page d'entraînement se transforme en page de gestion du clonage vocal, votre voix est prête. Elle apparaîtra dans votre bibliothèque de voix dans ACE Studio. Si vous ne la voyez pas, essayez de relancer ACE Studio.
Conseils Pro
Si vous recherchez des performances et un caractère exclusifs pour une voix, par exemple les meilleurs résultats dans différentes tessitures ou émotions, il est préférable de répartir les échantillons sur plusieurs voix.
Voici un exemple :
Mike est un chanteur professionnel et souhaite personnaliser sa propre voix. Il peut être à l'aise en tant que ténor et en tant que basse. Il est donc préférable d'entraîner 2 voix :
Entraînez une voix haute et puissante basée sur des échantillons majoritairement de haute tessiture et de performances puissantes.
Entraînez une voix de basse basée sur des échantillons majoritairement de phrases en basse tessiture.
Ré-entraîner votre voix
Cliquez sur le Réentraîner bouton pour réentraîner votre voix.
Le réentraînement supprimera votre voix précédente sous cet emplacement et retirera tout chanteur déployé associé à la voix. L'IA commencera à entraîner une toute nouvelle voix depuis zéro en utilisant le nouveau jeu de données. Avant d'initier le réentraînement, vous pouvez soit conserver les échantillons historiques dans cet emplacement et télécharger des nouveaux échantillons, soit effacer les échantillons historiques et n'utiliser que les nouveaux échantillons téléchargés.
Lors de la préparation de nouveaux échantillons, veuillez noter :
Si la durée des nouveaux échantillons ajoutés est significativement plus faible que celle des échantillons déjà téléchargés (par exemple, ajouter 1 min de nouvel échantillon à un jeu de 30 mins), le réentraînement peut ne pas entraîner de changements significatifs des performances de la voix.
Le réentraînement ne changera pas le type de votre emplacement.
Vous pouvez changer la langue prise en charge de votre emplacement personnalisé basique en le réentraînant.
Quand devrais-je réentraîner ma voix ?
Lorsque vos jeux de données ont une meilleure qualité ou une plus grande quantité, vous pouvez les utiliser pour améliorer votre voix de manière itérative.
Lorsque vous n'êtes pas satisfait du résultat actuel et souhaitez ajuster vos jeux de données
Lorsqu'une nouvelle compétence de langue de chant est publiée
Gérer votre voix
Versions
L'IA apprend de manière incrémentale à partir de vos données, en analysant chaque échantillon étape par étape. À mesure que l'apprentissage s'approfondit, le nombre d'étapes augmente. L'entraînement avec un jeu de données restreint ou de qualité limitée, par exemple conçu pour la parole plutôt que pour le chant, peut nécessiter peu d'étapes. En revanche, un jeu de données plus large et plus diversifié peut exiger des étapes supplémentaires pour un ajustement complet. Cependant, un nombre excessif d'étapes d'entraînement peut provoquer un surapprentissage, dégradant potentiellement les performances de votre voix avec des résultats imprévisibles.
À la fin de l'entraînement, vous obtiendrez plusieurs versions correspondant à différents nombres d'étapes, de Rare à Bien abouti. Vous pouvez trouver la meilleure version en changeant le déploiement et en comparant les versions entre elles.
Mélanger les voix
Le mélange de voix aboutit à une voix hybride. Vous pouvez personnaliser votre voix pour qu'elle ressemble davantage à la voix cible en ajustant les proportions des voix mêlées. Pour ce faire, rendez-vous sur la page de gestion des emplacements et cliquez sur le bouton « blend voices » situé sous chaque version.
Après le mélange, votre voix adoptera les nouvelles caractéristiques vocales. Pour appliquer ces changements, vous devrez actualiser votre voix en redémarrant ACE Studio.
Mis à jour