flask-round-potionClonando una voz para Cambiador de voz

Clona tu propia voz como una voz de Cambiador de voz en ACE Studio.

¿Qué es la Clonación para Cambiador de Voz?

Esta es una función para personalizar tu propia voz de cambiador de voz subiendo tus muestras. La IA aprenderá el timbre en función de las muestras que subas y clonará una versión digital de esa voz.

Tras la personalización, puedes usar tu perfil para convertir voces desde audio tal como con nuestras voces de cambiador de voz predefinidas en ACE Studio.

circle-check

¿Cómo clonar mi voz para el Cambiador de Voz?

Preparar tus conjuntos de datos

chevron-rightVoces secas y limpiashashtag

Las voces de alta calidad requieren muestras vocales limpias y secas:

  • Sin reverberación, delay ni efectos de chorus

  • Sin ruido de fondo

  • Sin instrumentales ni sonidos no humanos

  • Sin armonías ni dobles vocales

Se recomiendan entre 30 y 100 minutos de muestras de canto para una voz. Cuantas más muestras proporciones, más detalles de canto podrá aprender la IA, aunque los beneficios son menores a partir de los 120 minutos.

Reflexiones de la sala

Las voces grabadas con grandes reflexiones de sala pueden provocar errores de reconocimiento y resultar en un rendimiento inesperado del modelo.

Voces extraídas por stem splitter

Cuando usas un removedor de voces o stem splitter, la calidad de salida podría quedar demasiado degradada para el entrenamiento. Para un modelo vocal de mayor calidad, utiliza preferiblemente voces originales en lugar de voces extraídas por stem splitter.

chevron-rightGrabación de muestrashashtag

Micrófono de calidad con interfaz de audio

Micrófonos profesionales con interfaces de audio ofrecen voces de alta calidad. Necesitarás un software de grabación para conectar la interfaz, grabar, editar y mezclar tus voces.

Al grabar para un modelo de voz, evita micrófonos que no estén diseñados para cantar:

  • Micrófonos de teléfono o portátil

  • Micrófonos de solapa o de headset

  • Micrófonos de karaoke

  • Micrófonos de auriculares o auriculares Bluetooth como AirPods (estos suelen ser para llamadas de teléfono)

Entorno de grabación

  1. Los ruidos de fondo no deseados pueden incluir personas hablando, zumbidos eléctricos, tráfico y ruido exterior, así como movimientos de accesorios u objetos. Para evitar que estos ruidos interfieran en tu grabación, es importante seleccionar un lugar silencioso. Elige un sitio donde puedas minimizar o eliminar perturbaciones sonoras inesperadas.

  2. Las reflexiones sonoras pueden ocurrir debido a la presencia de superficies duras y planas, resultando en reverberación o ecos en tus grabaciones. Esto puede dar a tus pistas una cualidad hueca o distante, restando la intimidad y claridad deseadas.

  3. Prueba a aplaudir con fuerza en la habitación y escucha con atención. Si percibes un sonido vibrante o un eco prolongado, indica la presencia de problemas de reverberación.

  4. Para solucionarlo, incorpora materiales blandos que absorban el sonido. Considera usar alfombras, tapetes o cortinas gruesas para reducir significativamente las reflexiones. Cubrir suelos duros y, si es posible, colgar cortinas en las ventanas, así como ubicar mobiliario con revestimientos de tela en la habitación, puede ser beneficioso.

  5. Evita usar superficies duras ya que contribuyen al problema. Si no puedes costear paneles acústicos profesionales, puedes utilizar objetos cotidianos como cuadros en tela, tapices o paneles de espuma para romper estas superficies.

  6. Al ubicar tu micrófono, presta atención a su colocación. Evita situarlo demasiado cerca de paredes o en esquinas. En su lugar, apunta al centro de la habitación o experimenta con diferentes ubicaciones para encontrar el punto óptimo con mínima reverberación.

Sangrado de auriculares

Durante las grabaciones, especialmente al capturar voces, es común que el audio de los auriculares se filtre al micrófono. Este problema surge cuando el volumen de los auriculares está demasiado alto o se usan auriculares abiertos. Puede ser aceptable al grabar una canción, pero trata de evitar este sangrado cuando grabes para tu modelo de voz.

Colocación del micrófono

Para un volumen normal, se recomienda situarte a unos 5 cm del micrófono. Sin embargo, para frases más fuertes o al forzar la voz, es conveniente aumentar la distancia a aproximadamente 10–15 cm. Es importante mantenerse siempre a menos de 30 cm del micrófono para mantener una captura de audio óptima.

Crear espacio para belting

Al emplear técnicas de belting, es importante dejar suficiente espacio, tanto en la distancia al micrófono como en el tamaño de la sala. Un aislamiento excesivo, como estar confinado en un armario o cabina, o rodear tu micrófono con espuma, puede provocar la sobrecarga de la cápsula del micrófono. Si no estás seguro, es recomendable incorporar más sonido de sala al realizar frases belted.

chevron-rightIdiomas de cantohashtag

Para una voz de cambiador, no necesitas que todas las muestras estén en un solo idioma.

chevron-rightCanto o hablahashtag

Para una voz de cambiador, no hay una gran diferencia entre muestras de habla y de canto. Pero para una voz de cambiador orientada al canto, es más adecuado usar muestras de canto para el entrenamiento.

chevron-rightAjustes de calidad de archivohashtag

La calidad de audio de tus muestras impacta directamente en la calidad de tu voz.

Recomendamos configurar la calidad de audio en:

  • Profundidad de bits = 16-bit

  • Frecuencia de muestreo = 44.1khz o 48khz

  • Formato sin pérdida (.wav o .flac)

chevron-rightPost-procesadohashtag

Para mantener el carácter natural y la claridad de la voz objetivo:

  • Sin solapamientos: las voces multicapa pueden complicar el análisis de la IA. Coloca las tomas solapadas al fondo y mantén una sola pista vocal para asegurar que la IA pueda procesar y aprender con precisión de tus muestras.

  • Sin cortes bruscos: los cortes bruscos pueden crear inicios o finales abruptos, que no son normales en un sonido vocal natural y pueden introducir clicks o pops. Usa fundidos suaves al principio y al final del clip vocal para una transición más natural.

  • Sin secciones duplicadas: Las secciones duplicadas no ayudan al entrenamiento. Tu modelo vocal se beneficia de la variación natural de la interpretación.

  • Controla el volumen: Asegúrate de que tus muestras se mantengan alrededor del 30–50% del medidor. Usa un volume rider o automatización para garantizar niveles de volumen consistentes en todo tu conjunto de datos. El objetivo es crear un nivel de volumen coherente en la grabación manteniendo la dinámica dentro de las secciones.

Entrenando tu voz

Después de preparar tus conjuntos de datos, puedes ir a browserPágina de Voz Personalizada para seleccionar una Ranura Personalizada, subir tus muestras y comenzar el entrenamiento.

Puedes personalizar una voz de cambiador en una ranura personalizada.

Haz clic en una ranura para empezar a subir tus muestras.

Después de que todas las muestras se hayan subido, el entrenamiento comenzará automáticamente. Puedes comprobar su estado actualizando la página web.

Cuando la página vuelva a la lista de ranuras con una nueva voz entrenada, ya estará listo.

Haz clic en 'Open in ACE' para abrir ACE Studio y usar tu nueva voz entrenada.

Reentrenar tu voz

Haz clic en el Retrain botón para reentrenar tu voz.

El reentrenamiento eliminará tu voz anterior en esta ranura. La IA empezará a entrenar una voz completamente nueva desde cero usando el nuevo conjunto de datos. Antes de iniciar el reentrenamiento, tienes la opción de conservar las muestras históricas dentro de esta ranura y subir muestras nuevas adicionales, o bien borrar las muestras históricas y usar solo las muestras recién subidas.

Al preparar nuevas muestras, ten en cuenta:

  • Si la duración de las muestras recién añadidas es significativamente menor que las ya subidas, por ejemplo, añadir 1 min de muestra nueva a un conjunto de 30 min, el reentrenamiento puede no producir cambios significativos en el rendimiento.

  • El reentrenamiento no cambiará el tipo de tu ranura.

circle-info

¿Cuándo debería reentrenar mi voz?

  • Cuando tus conjuntos de datos tienen mejor calidad o mayor cantidad que antes, puedes usarlos para mejorar iterativamente tu voz

  • Cuando no estés satisfecho con el resultado actual y desees ajustar tus conjuntos de datos

Gestionar tu voz

Haz clic en el Manage botón para abrir la ventana de gestión de una voz personalizada del cambiador. En esa ventana, puedes modificar:

  • Imagen de la voz

  • Nombre de la voz

  • Etiquetas

  • Tipo de voz

  • Etiqueta de idioma (solo para el tipo de voz)

Después de realizar cambios, puedes hacer clic en Open in ACE botón para actualizar la lista de voces de ACE Studio.

Última actualización