flask-round-potion보컬 신스를 위한 음성 복제

자신의 목소리를 ACE Studio에서 보컬 신스 보이스로 복제하세요.

보컬 신스 음성 복제(Vocal Synth Cloning)란?

사용자 보컬 샘플을 업로드하여 맞춤형 보컬 신스 모델을 만드는 기능입니다. AI가 업로드한 샘플을 바탕으로 음색과 가창 스타일을 학습하여 사용자의 음성을 디지털로 복제합니다.

커스터마이징 후에는 ACE Studio의 기본 AI 보이스처럼 MIDI와 가사를 입력하여 해당 음성으로 보컬을 생성할 수 있습니다.

circle-check

보컬 신스를 위해 어떻게 내 음성을 복제하나요?

데이터셋 준비하기

chevron-right깨끗한 드라이 보컬hashtag

고품질 음성은 깨끗하고 드라이한 보컬 샘플을 요구합니다:

  • 리버브, 딜레이, 코러스 등의 이펙트 없이

  • 배경 소음 없이

  • 악기나 인간 이외의 소리 없이

  • 하모니나 보컬 더블 없이

한 음성에는 30~100분의 노래 보컬 샘플을 권장합니다. 제공하는 샘플이 많을수록 AI가 학습할 수 있는 노래 디테일이 증가하지만 120분을 넘기면 이점이 적어집니다.

룸 리플렉션

큰 실내 잔향이 있는 보컬은 인식 오류를 유발해 모델 성능에 예기치 못한 영향을 줄 수 있습니다.

스템 분리기에서 나온 보컬

보컬 리무버나 스템 분리기를 사용한 경우 출력 품질이 훈련에 적합하지 않을 만큼 손상될 수 있습니다. 더 높은 품질의 음성 모델을 원한다면 스템 분리기에서 추출한 보컬을 선택적으로 사용하세요.

chevron-right샘플 녹음hashtag

오디오 인터페이스가 있는 고품질 마이크

오디오 인터페이스가 장착된 전문 마이크는 고품질 보컬을 제공합니다. 인터페이스에 연결하고 보컬을 녹음·편집·믹스하려면 녹음 소프트웨어가 필요합니다.

음성 모델 녹음 시 노래용으로 설계되지 않은 마이크는 피하세요:

  • 휴대폰 또는 노트북 내장 마이크

  • 라펠 마이크 또는 헤드셋 마이크

  • 노래방 마이크

  • 이어폰 마이크나 AirPods 같은 블루투스 이어폰(주로 통화용)

녹음 환경

  1. 원치 않는 배경 소음에는 사람의 대화, 전기적 허밍·버즈, 교통·실외 소음, 액세서리나 물체의 움직임 등이 포함될 수 있습니다. 녹음에 방해가 되지 않도록 조용한 장소를 선택해 예기치 않은 소음 발생을 최소화 또는 제거하세요.

  2. 단단하고 평평한 표면이 있으면 소리 반사가 발생해 녹음에 잔향이나 에코가 생길 수 있습니다. 이는 트랙을 휑하거니 멀게 들리게 해 친밀감과 선명도를 저하시킬 수 있습니다.

  3. 방 안에서 손뼉을 세게 쳐보고 주의 깊게 들어보세요. 울림 소리나 길게 이어지는 에코가 들리면 리버브 문제가 있음을 나타냅니다.

  4. 이를 해결하려면 소리를 흡수할 수 있는 부드러운 소재를 도입하세요. 카펫, 러그, 두꺼운 커튼 등을 사용하면 반사를 크게 줄일 수 있습니다. 단단한 바닥을 덮고 가능하면 창문에 커튼을 걸거나 천으로 덮인 가구를 배치하는 것이 도움이 됩니다.

  5. 문제의 원인이 되는 단단한 표면 사용을 피하세요. 전문 음향 패널을 구비할 여력이 없다면 캔버스 그림, 태피스트리, 폼 타일 같은 일상 용품으로 표면을 분산시키는 것도 가능합니다.

  6. 마이크 설치 시 위치에 유의하세요. 벽이나 코너에 너무 가깝게 두지 마세요. 대신 방 중앙을 목표로 하거나 다양한 위치를 실험해 잔향이 최소화되는 최적의 지점을 찾으세요.

헤드폰 누출(bleed)

녹음 중, 특히 보컬 녹음 시 헤드폰 소리가 마이크로 유입되는 경우가 흔합니다. 이는 헤드폰 볼륨이 너무 높거나 오픈백 헤드폰을 사용할 때 발생합니다. 노래 녹음에서는 어느 정도 허용될 수 있지만 음성 모델 녹음 시에는 누출을 피하는 것이 좋습니다.

마이크 배치

일반적인 볼륨에서는 마이크에서 약 2인치(약 5cm) 떨어진 거리를 권장합니다. 다만 큰 소리나 벨팅 시에는 거리를 4~6인치(약 10~15cm)로 늘리세요. 최적의 음성 캡처를 위해서는 항상 마이크에서 12인치(약 30cm) 이내에 머무르는 것이 중요합니다.

벨팅을 위한 공간 만들기

벨팅 테크닉을 사용할 때는 마이크 거리와 방 크기 모두에서 충분한 여유를 두어야 합니다. 옷장이나 부스처럼 지나치게 소리를 차단된 공간이나 마이크 주위를 폼으로 둘러싸는 것은 마이크 캡슐 과부하를 쉽게 유발할 수 있습니다. 확신이 서지 않는다면 벨트 구간에서 약간 더 많은 룸 사운드를 허용하는 것이 좋습니다.

chevron-right노래할 언어hashtag

기본 커스텀 슬롯

기본 커스텀 슬롯에서 훈련된 음성 모델은 한 가지 노래 언어만 지원됩니다.

프로 커스텀 슬롯

프로 커스텀 슬롯에서 훈련된 음성은 다국어를 지원할 수 있습니다.

샘플의 언어

훈련 과정에서 각 샘플 파일은 개별적으로 처리되며 단일 언어 파일로 취급됩니다. 동일한 샘플 파일 내에 서로 다른 언어 문구를 혼합하지 않는 것이 중요합니다.

샘플을 업로드할 때는 적절한 언어 탭 아래에 배치해 주십시오. 기본 커스텀 슬롯용 샘플을 업로드하더라도 필요 시 다른 언어의 샘플을 업로드할 수 있는 유연성이 있습니다. 언어별로 샘플을 정리하면 명확성을 유지하고 훈련 품질을 높이는 데 도움이 됩니다.

향후 지원 언어

커스텀 음성 기능을 위해 새로운 노래 언어를 지속적으로 개발하고 있습니다.

새로운 음성에 대해서는:

  • 새 언어는 새로운 프로 커스텀 슬롯에서 지원됩니다.

  • 새 언어는 새로운 기본 커스텀 슬롯에서 선택 옵션 중 하나로 제공될 예정입니다.

기존 음성에 대해서는:

  • 새 언어는 프로 커스텀 슬롯을 재훈련할 때 지원됩니다.

  • 새 언어는 기본 커스텀 슬롯 재훈련 시 선택 사항으로 제공됩니다.

chevron-right노래 vs 말하기hashtag

노래 샘플과 말하기(스피치) 샘플 모두 가창 음성 모델 훈련에 사용될 수 있습니다.

귀하의 음성은 다음을 학습할 수 있습니다:

  • 노래 샘플과 말하기 샘플에서 음색을 학습할 수 있습니다. 다만 주의: 사람의 경우 말할 때의 음색은 노래할 때의 음색과 다를 수 있으며, 말하기 음색이 항상 노래 퍼포먼스를 정확히 대표하지는 않습니다.

  • 노래 샘플에서 가창 스타일을 학습합니다

귀하의 음성은 학습할 수 없는 것:

  • 말하기 샘플에서 가창 스타일은 학습할 수 없습니다

chevron-right파일 품질 설정hashtag

샘플의 오디오 품질은 음성 품질에 직접적인 영향을 줍니다.

오디오 품질을 다음과 같이 설정할 것을 권장합니다:

  • 비트 깊이 = 16-bit

  • 샘플레이트 = 44.1kHz 또는 48kHz

  • 무손실 파일 형식 (.wav 또는 .flac)

chevron-right후처리hashtag

목표 음성의 자연스러운 특성과 선명도를 유지하려면:

  • 중첩 금지: 다중 레이어 보컬은 AI의 분석을 복잡하게 만듭니다. 중첩된 테이크는 뒤쪽에 배치하고 AI가 샘플을 정확히 처리하고 학습할 수 있도록 단일 보컬 트랙을 유지하세요.

  • 급격한 컷 금지: 급격한 컷은 비정상적인 시작·종료를 만들어 클릭이나 팝을 유발할 수 있습니다. 더 자연스러운 전환을 위해 보컬 클립의 시작과 끝에 부드러운 페이드를 사용하세요.

  • 구간 복제 금지: 복제된 구간은 훈련에 도움이 되지 않습니다. 음성 모델은 공연의 자연스러운 변화를 통해 이득을 봅니다.

  • 볼륨 제어: 샘플이 미터의 약 30~50%를 유지하도록 하세요. 볼륨 라이더나 오토메이션을 사용해 데이터셋 전체의 레벨이 일관되게 유지되도록 합니다. 목표는 구간 내 다이내믹을 유지하면서 녹음 전체에서 일관된 볼륨 레벨을 만드는 것입니다.

음성 훈련하기

데이터셋을 준비한 후에는 browserCustom Voice Page 커스텀 슬롯을 선택하고 보컬 샘플을 업로드한 후 훈련을 시작하십시오.

기본 커스텀 슬롯은 단일 언어 음성과 5가지 버전을 제공합니다.

프로 커스텀 슬롯은 다국어 음성과 5가지 버전을 제공합니다.

슬롯을 클릭하여 샘플 업로드를 시작하세요.

모든 샘플 업로드가 완료되면 훈련이 자동으로 시작됩니다. 웹페이지를 새로고침하여 상태를 확인할 수 있습니다.

훈련 페이지가 음성 복제 관리 페이지로 전환되면 음성 설정이 완료된 것입니다. ACE Studio의 음성 라이브러리에 표시됩니다. 보이지 않는 경우 ACE Studio를 다시 실행해 보세요.

circle-info

전문 팁

특정 음역대나 감정에서 최상의 결과처럼 독창적인 퍼포먼스와 특성을 원한다면 샘플을 여러 음성으로 분리하는 것이 좋습니다.

예시는 다음과 같습니다:

Mike는 프로 가수로 자신의 음성을 맞춤화하려 합니다. 그는 테너와 베이스 모두 잘 소화하므로 두 개의 음성으로 나누어 훈련하는 것이 좋습니다:

  • 대체로 고음이고 파워풀한 퍼포먼스 샘플을 기반으로 고음·파워풀한 음성 훈련.

  • 대체로 저음 구절 샘플을 기반으로 베이스 음성 훈련.

음성 재훈련

을(를) 클릭하세요 Retrain 버튼을 눌러 음성을 재훈련하세요.

재훈련은 해당 슬롯에 있던 이전 음성을 제거하고 그 음성과 연관된 배포된 싱어를 내립니다. AI는 새로운 데이터셋으로 완전히 새로운 음성을 처음부터 훈련합니다. 재훈련을 시작하기 전에 이 슬롯의 기존 샘플을 유지하고 추가 샘플을 업로드할지, 또는 기존 샘플을 지우고 새로 업로드한 샘플만 사용할지 선택할 수 있습니다.

새 샘플을 준비할 때 주의사항:

  • 새로 추가된 샘플의 총 길이가 이미 업로드된 샘플보다 현저히 적은 경우(예: 30분 데이터셋에 1분 샘플 추가), 재훈련이 음성 성능에 큰 변화를 가져오지 않을 수 있습니다.

  • 재훈련은 슬롯의 유형을 변경하지 않습니다.

  • 기본 커스텀 슬롯의 지원 언어는 재훈련을 통해 전환할 수 있습니다.

circle-info

언제 내 음성을 재훈련해야 하나요?

  • 데이터셋의 품질이 개선되거나 양이 늘어나면 이를 활용해 음성을 반복적으로 개선할 수 있습니다

  • 현재 결과에 만족하지 않아 데이터셋을 조정하고 싶을 때

  • 새로운 노래 언어 기능이 출시될 때

음성 관리하기

chevron-right버전hashtag

AI는 각 샘플을 단계적으로 분석하며 점진적으로 학습합니다. 학습이 심화될수록 단계 수가 증가합니다. 노래용이 아닌 말하기용 등 소규모 또는 품질 제한이 있는 데이터셋은 적은 단계로도 충분할 수 있고, 더 크고 다양한 데이터셋은 더 많은 단계가 필요할 수 있습니다. 다만 과도한 학습 단계는 과적합을 초래해 음성 성능을 저하시킬 수 있습니다.

훈련 종료 시 Rare에서 Well-done까지 서로 다른 훈련 단계 기반의 여러 버전을 얻게 됩니다. 배포를 전환하며 각 버전을 비교하여 최적의 버전을 찾으세요.

chevron-right음성 혼합(Blend Voices)hashtag

음성 혼합은 하이브리드 음성을 만듭니다. 혼합 음성의 비율을 조정해 목표 음성에 더 가깝게 맞출 수 있습니다. 슬롯 관리 페이지에서 각 버전 아래의 ‘blend voices’ 버튼을 클릭해 설정합니다.

혼합 후 음성은 새로운 특성을 갖게 됩니다. 변경 사항을 적용하려면 ACE Studio를 재시작하여 음성을 새로고침해야 합니다.

chevron-rightACE Studio에 배포hashtag

기본 커스텀 슬롯과 프로 커스텀 슬롯 모두 버전을 배포한 후 다른 버전으로 배포 전환할 수 있습니다. 배포 후에는 음성 라이브러리를 새로고침하기 위해 ACE Studio를 재실행해야 합니다.

마지막 업데이트