Clonando una voz para Sintetizador Vocal
Clona tu propia voz como una voz de Sintetizador Vocal en ACE Studio.
¿Qué es la clonación de síntesis vocal?
Esta es una función para personalizar tu propio modelo de síntesis vocal subiendo muestras de tu voz. La IA aprenderá el timbre y el estilo de canto basándose en las muestras que subas y clonará una versión digital de tu voz.
Después de la personalización, podrás usar tu voz para generar voces a partir de MIDI y letras al igual que nuestras voces IA predefinidas en ACE Studio.
Tu voz clonada por IA es privada bajo tu cuenta; nadie más puede acceder a ella sin tu autorización.
¿Cómo clonar mi voz para la síntesis vocal?
Preparar tus conjuntos de datos
Voces secas y limpias
Las voces de alta calidad requieren muestras vocales limpias y secas:
Sin reverberación, delay ni efectos de chorus
Sin ruido de fondo
Sin instrumentales ni sonidos no humanos
Sin armonías ni dobles vocales
Se recomiendan entre 30 y 100 minutos de muestras de canto para una voz. Cuantas más muestras proporciones, más detalles de canto podrá aprender la IA, aunque los beneficios son menores a partir de los 120 minutos.
Reflexiones de la sala
Las voces grabadas con grandes reflexiones de sala pueden provocar errores de reconocimiento y resultar en un rendimiento inesperado del modelo.
Voces extraídas por stem splitter
Cuando usas un removedor de voces o stem splitter, la calidad de salida podría quedar demasiado degradada para el entrenamiento. Para un modelo vocal de mayor calidad, utiliza preferiblemente voces originales en lugar de voces extraídas por stem splitter.
Grabación de muestras
Micrófono de calidad con interfaz de audio
Micrófonos profesionales con interfaces de audio ofrecen voces de alta calidad. Necesitarás un software de grabación para conectar la interfaz, grabar, editar y mezclar tus voces.
Al grabar para un modelo de voz, evita micrófonos que no estén diseñados para cantar:
Micrófonos de teléfono o portátil
Micrófonos de solapa o de headset
Micrófonos de karaoke
Micrófonos de auriculares o auriculares Bluetooth como AirPods (estos suelen ser para llamadas de teléfono)
Entorno de grabación
Los ruidos de fondo no deseados pueden incluir personas hablando, zumbidos eléctricos, tráfico y ruido exterior, así como movimientos de accesorios u objetos. Para evitar que estos ruidos interfieran en tu grabación, es importante seleccionar un lugar silencioso. Elige un sitio donde puedas minimizar o eliminar perturbaciones sonoras inesperadas.
Las reflexiones sonoras pueden ocurrir debido a la presencia de superficies duras y planas, resultando en reverberación o ecos en tus grabaciones. Esto puede dar a tus pistas una cualidad hueca o distante, restando la intimidad y claridad deseadas.
Prueba a aplaudir con fuerza en la habitación y escucha con atención. Si percibes un sonido vibrante o un eco prolongado, indica la presencia de problemas de reverberación.
Para solucionarlo, incorpora materiales blandos que absorban el sonido. Considera usar alfombras, tapetes o cortinas gruesas para reducir significativamente las reflexiones. Cubrir suelos duros y, si es posible, colgar cortinas en las ventanas, así como ubicar mobiliario con revestimientos de tela en la habitación, puede ser beneficioso.
Evita usar superficies duras ya que contribuyen al problema. Si no puedes costear paneles acústicos profesionales, puedes utilizar objetos cotidianos como cuadros en tela, tapices o paneles de espuma para romper estas superficies.
Al ubicar tu micrófono, presta atención a su colocación. Evita situarlo demasiado cerca de paredes o en esquinas. En su lugar, apunta al centro de la habitación o experimenta con diferentes ubicaciones para encontrar el punto óptimo con mínima reverberación.
Sangrado de auriculares
Durante las grabaciones, especialmente al capturar voces, es común que el audio de los auriculares se filtre al micrófono. Este problema surge cuando el volumen de los auriculares está demasiado alto o se usan auriculares abiertos. Puede ser aceptable al grabar una canción, pero trata de evitar este sangrado cuando grabes para tu modelo de voz.
Colocación del micrófono
Para un volumen normal, se recomienda situarte a unos 5 cm del micrófono. Sin embargo, para frases más fuertes o al forzar la voz, es conveniente aumentar la distancia a aproximadamente 10–15 cm. Es importante mantenerse siempre a menos de 30 cm del micrófono para mantener una captura de audio óptima.
Crear espacio para belting
Al emplear técnicas de belting, es importante dejar suficiente espacio, tanto en la distancia al micrófono como en el tamaño de la sala. Un aislamiento excesivo, como estar confinado en un armario o cabina, o rodear tu micrófono con espuma, puede provocar la sobrecarga de la cápsula del micrófono. Si no estás seguro, es recomendable incorporar más sonido de sala al realizar frases belted.
Idiomas de canto
Ranura personalizada básica
Solo un idioma de canto será compatible en tu modelo de voz entrenado en una ranura personalizada básica.
Ranura personalizada Pro
Tu voz entrenada en una ranura personalizada Pro puede ser multilingüe.
Idiomas en tus muestras
Durante el proceso de entrenamiento, cada archivo de muestra se procesará individualmente y se tratará como un archivo de un solo idioma. Es importante evitar mezclar frases de diferentes idiomas dentro del mismo archivo de muestra.
Al subir muestras, asegúrate de colocarlas en la pestaña de idioma apropiada. Incluso si subes muestras para una ranura personalizada básica, tienes la flexibilidad de subir muestras en diferentes idiomas si es necesario. Mantener las muestras organizadas por idioma ayudará a mantener la claridad y a mejorar el proceso de entrenamiento.
Próximos idiomas
Estamos trabajando continuamente en desarrollar nuevos idiomas de canto para la función de voz personalizada.
Para tu nueva voz:
Los nuevos idiomas estarán soportados por nuevas ranuras personalizadas Pro.
Los nuevos idiomas serán una de las opciones que podrán soportar las nuevas ranuras personalizadas básicas.
Para tu voz existente:
Los nuevos idiomas estarán soportados al reentrenar tus ranuras personalizadas Pro.
Los nuevos idiomas serán opcionales al reentrenar tus ranuras personalizadas básicas.
Canto o habla
Se pueden aceptar tanto muestras de canto como de habla para entrenar tu modelo de voz cantada.
Tu voz puede aprender:
El timbre a partir de tus muestras de canto y de habla, pero ten en cuenta: en una persona, el timbre al hablar puede ser distinto al de cantar, y normalmente no representa el rendimiento real del canto.
El estilo de canto a partir de tus muestras de canto
Tu voz no puede aprender:
El estilo de canto a partir de tus muestras de habla
Ajustes de calidad de archivo
La calidad de audio de tus muestras impacta directamente en la calidad de tu voz.
Recomendamos configurar la calidad de audio en:
Profundidad de bits = 16-bit
Frecuencia de muestreo = 44.1khz o 48khz
Formato sin pérdida (.wav o .flac)
Post-procesado
Para mantener el carácter natural y la claridad de la voz objetivo:
Sin solapamientos: las voces multicapa pueden complicar el análisis de la IA. Coloca las tomas solapadas al fondo y mantén una sola pista vocal para asegurar que la IA pueda procesar y aprender con precisión de tus muestras.
Sin cortes bruscos: los cortes bruscos pueden crear inicios o finales abruptos, que no son normales en un sonido vocal natural y pueden introducir clicks o pops. Usa fundidos suaves al principio y al final del clip vocal para una transición más natural.
Sin secciones duplicadas: Las secciones duplicadas no ayudan al entrenamiento. Tu modelo vocal se beneficia de la variación natural de la interpretación.
Controla el volumen: Asegúrate de que tus muestras se mantengan alrededor del 30–50% del medidor. Usa un volume rider o automatización para garantizar niveles de volumen consistentes en todo tu conjunto de datos. El objetivo es crear un nivel de volumen coherente en la grabación manteniendo la dinámica dentro de las secciones.
Entrenando tu voz
Después de preparar tus conjuntos de datos, puedes ir a Página de Voz Personalizada selecciona una Ranura Personalizada, sube tus muestras vocales y comienza el entrenamiento.
Una Ranura Personalizada Básica te ofrece una voz monolingüe con 5 versiones.
Una Ranura Personalizada Pro te ofrece una voz multilingüe con 5 versiones.
Haz clic en una ranura para empezar a subir tus muestras.
Tras subir todas las muestras, el entrenamiento comenzará automáticamente. Puedes comprobar el estado actualizando la página web.
Cuando veas que la página de entrenamiento cambia a la página de gestión de clonación de voz, tu voz estará lista. Se mostrará en tu biblioteca de voces en ACE Studio. Si no la ves, intenta reiniciar ACE Studio.
Consejos profesionales
Si buscas prestaciones y carácter exclusivos para una voz, por ejemplo los mejores resultados en distintos rangos vocales o emociones, es mejor dividir las muestras en varias voces.
Aquí hay un ejemplo:
Mike es un cantante profesional y desea personalizar su propia voz. Puede desenvolverse bien tanto como tenor como bajo. Por eso sería mejor entrenar 2 voces:
Entrenar una voz aguda y potente basándose en muestras que sean mayoritariamente interpretaciones agudas y potentes.
Entrenar una voz de bajo basándose en muestras que sean mayoritariamente frases en registro grave.
Reentrenar tu voz
Haz clic en el Retrain botón para reentrenar tu voz.
El reentrenamiento eliminará tu voz previa en esta ranura y retirará cualquier cantante desplegado asociado con la voz. La IA comenzará a entrenar una voz completamente nueva desde cero usando el nuevo conjunto de datos. Antes de iniciar el reentrenamiento, tienes la opción de conservar las muestras históricas dentro de esta ranura y subir muestras nuevas adicionales, o puedes optar por limpiar las muestras históricas y usar solo las muestras recién subidas.
Al preparar nuevas muestras, ten en cuenta:
Si la duración de las nuevas muestras añadidas es significativamente menor que la de las muestras ya subidas, por ejemplo añadir 1 min de nueva muestra a un conjunto de 30 min, el reentrenamiento puede que no provoque cambios significativos en el rendimiento de la voz.
El reentrenamiento no cambiará el tipo de tu ranura.
Puedes cambiar el idioma compatible de tu ranura personalizada básica reentrenándola.
¿Cuándo debería reentrenar mi voz?
Cuando tus conjuntos de datos tengan mejor calidad o mayor tamaño, puedes usarlos para mejorar iterativamente tu voz
Cuando no estés satisfecho con el resultado actual y desees ajustar tus conjuntos de datos
Cuando se lance una nueva habilidad de idioma de canto
Gestionar tu voz
Versiones
La IA aprende de forma incremental a partir de tus datos, analizando cada muestra paso a paso. A medida que el aprendizaje se profundiza, aumenta el número de pasos. Entrenar con un conjunto de datos pequeño o de calidad limitada, como uno diseñado para habla y no para canto, puede requerir solo unos pocos pasos. En contraste, un conjunto de datos más grande y diverso podría necesitar pasos adicionales para un ajuste completo. Sin embargo, un exceso de pasos de entrenamiento puede conducir al sobreajuste, degradando potencialmente el rendimiento de tu voz con resultados impredecibles.
Al final del entrenamiento obtendrás varias versiones basadas en diferentes pasos de entrenamiento, desde Rare hasta Well-done. Puedes encontrar la mejor versión cambiando el despliegue y comparándolas entre sí.
Mezclar Voces
La mezcla de voces da como resultado una voz híbrida. Puedes personalizar tu voz para que se parezca más a la voz objetivo ajustando las proporciones de las voces mezcladas. Para ello, ve a la página de gestión de ranuras y haz clic en el botón 'blend voices' ubicado bajo cada versión.
Tras la mezcla, tu voz adoptará las nuevas características vocales. Para aplicar estos cambios, necesitarás actualizar tu voz reiniciando ACE Studio.
Última actualización