Voice Changer를 위한 음성 복제
자신의 목소리를 ACE Studio에서 Voice Changer 보이스로 복제하세요.
음성 변환기 음성 복제란?
샘플을 업로드하여 나만의 음성 변환기 음성을 맞춤 설정하는 기능입니다. AI는 업로드한 샘플을 기반으로 음색을 학습하여 이 음성의 디지털 복제본을 생성합니다.
맞춤화가 완료되면 ACE Studio에 기본 제공되는 음성 변환기 음성처럼 프로필을 사용해 오디오에서 음성을 변환할 수 있습니다.
클론된 AI 음성은 귀하의 계정에 비공개로 저장되며, 귀하의 허가 없이는 다른 사람이 접근할 수 없습니다.
음성 변환기용 내 목소리를 어떻게 복제하나요?
데이터셋 준비하기
깨끗한 드라이 보컬
고품질 음성은 깨끗하고 드라이한 보컬 샘플을 요구합니다:
리버브, 딜레이, 코러스 등의 이펙트 없이
배경 소음 없이
악기나 인간 이외의 소리 없이
하모니나 보컬 더블 없이
한 음성에는 30~100분의 노래 보컬 샘플을 권장합니다. 제공하는 샘플이 많을수록 AI가 학습할 수 있는 노래 디테일이 증가하지만 120분을 넘기면 이점이 적어집니다.
룸 리플렉션
큰 실내 잔향이 있는 보컬은 인식 오류를 유발해 모델 성능에 예기치 못한 영향을 줄 수 있습니다.
스템 분리기에서 나온 보컬
보컬 리무버나 스템 분리기를 사용한 경우 출력 품질이 훈련에 적합하지 않을 만큼 손상될 수 있습니다. 더 높은 품질의 음성 모델을 원한다면 스템 분리기에서 추출한 보컬을 선택적으로 사용하세요.
샘플 녹음
오디오 인터페이스가 있는 고품질 마이크
오디오 인터페이스가 장착된 전문 마이크는 고품질 보컬을 제공합니다. 인터페이스에 연결하고 보컬을 녹음·편집·믹스하려면 녹음 소프트웨어가 필요합니다.
음성 모델 녹음 시 노래용으로 설계되지 않은 마이크는 피하세요:
휴대폰 또는 노트북 내장 마이크
라펠 마이크 또는 헤드셋 마이크
노래방 마이크
이어폰 마이크나 AirPods 같은 블루투스 이어폰(주로 통화용)
녹음 환경
원치 않는 배경 소음에는 사람의 대화, 전기적 허밍·버즈, 교통·실외 소음, 액세서리나 물체의 움직임 등이 포함될 수 있습니다. 녹음에 방해가 되지 않도록 조용한 장소를 선택해 예기치 않은 소음 발생을 최소화 또는 제거하세요.
단단하고 평평한 표면이 있으면 소리 반사가 발생해 녹음에 잔향이나 에코가 생길 수 있습니다. 이는 트랙을 휑하거니 멀게 들리게 해 친밀감과 선명도를 저하시킬 수 있습니다.
방 안에서 손뼉을 세게 쳐보고 주의 깊게 들어보세요. 울림 소리나 길게 이어지는 에코가 들리면 리버브 문제가 있음을 나타냅니다.
이를 해결하려면 소리를 흡수할 수 있는 부드러운 소재를 도입하세요. 카펫, 러그, 두꺼운 커튼 등을 사용하면 반사를 크게 줄일 수 있습니다. 단단한 바닥을 덮고 가능하면 창문에 커튼을 걸거나 천으로 덮인 가구를 배치하는 것이 도움이 됩니다.
문제의 원인이 되는 단단한 표면 사용을 피하세요. 전문 음향 패널을 구비할 여력이 없다면 캔버스 그림, 태피스트리, 폼 타일 같은 일상 용품으로 표면을 분산시키는 것도 가능합니다.
마이크 설치 시 위치에 유의하세요. 벽이나 코너에 너무 가깝게 두지 마세요. 대신 방 중앙을 목표로 하거나 다양한 위치를 실험해 잔향이 최소화되는 최적의 지점을 찾으세요.
헤드폰 누출(bleed)
녹음 중, 특히 보컬 녹음 시 헤드폰 소리가 마이크로 유입되는 경우가 흔합니다. 이는 헤드폰 볼륨이 너무 높거나 오픈백 헤드폰을 사용할 때 발생합니다. 노래 녹음에서는 어느 정도 허용될 수 있지만 음성 모델 녹음 시에는 누출을 피하는 것이 좋습니다.
마이크 배치
일반적인 볼륨에서는 마이크에서 약 2인치(약 5cm) 떨어진 거리를 권장합니다. 다만 큰 소리나 벨팅 시에는 거리를 4~6인치(약 10~15cm)로 늘리세요. 최적의 음성 캡처를 위해서는 항상 마이크에서 12인치(약 30cm) 이내에 머무르는 것이 중요합니다.
벨팅을 위한 공간 만들기
벨팅 테크닉을 사용할 때는 마이크 거리와 방 크기 모두에서 충분한 여유를 두어야 합니다. 옷장이나 부스처럼 지나치게 소리를 차단된 공간이나 마이크 주위를 폼으로 둘러싸는 것은 마이크 캡슐 과부하를 쉽게 유발할 수 있습니다. 확신이 서지 않는다면 벨트 구간에서 약간 더 많은 룸 사운드를 허용하는 것이 좋습니다.
파일 품질 설정
샘플의 오디오 품질은 음성 품질에 직접적인 영향을 줍니다.
오디오 품질을 다음과 같이 설정할 것을 권장합니다:
비트 깊이 = 16-bit
샘플레이트 = 44.1kHz 또는 48kHz
무손실 파일 형식 (.wav 또는 .flac)
후처리
목표 음성의 자연스러운 특성과 선명도를 유지하려면:
중첩 금지: 다중 레이어 보컬은 AI의 분석을 복잡하게 만듭니다. 중첩된 테이크는 뒤쪽에 배치하고 AI가 샘플을 정확히 처리하고 학습할 수 있도록 단일 보컬 트랙을 유지하세요.
급격한 컷 금지: 급격한 컷은 비정상적인 시작·종료를 만들어 클릭이나 팝을 유발할 수 있습니다. 더 자연스러운 전환을 위해 보컬 클립의 시작과 끝에 부드러운 페이드를 사용하세요.
구간 복제 금지: 복제된 구간은 훈련에 도움이 되지 않습니다. 음성 모델은 공연의 자연스러운 변화를 통해 이득을 봅니다.
볼륨 제어: 샘플이 미터의 약 30~50%를 유지하도록 하세요. 볼륨 라이더나 오토메이션을 사용해 데이터셋 전체의 레벨이 일관되게 유지되도록 합니다. 목표는 구간 내 다이내믹을 유지하면서 녹음 전체에서 일관된 볼륨 레벨을 만드는 것입니다.
음성 훈련하기
데이터셋을 준비한 후에는 Custom Voice Page 로 이동해 Custom Slot을 선택하고 샘플을 업로드한 뒤 훈련을 시작하세요.
하나의 custom slot에는 하나의 음성 변환기 음성만 맞춤 설정할 수 있습니다.
슬롯을 클릭하여 샘플 업로드를 시작하세요.
모든 샘플 업로드가 완료되면 훈련이 자동으로 시작됩니다. 웹페이지를 새로고침하여 상태를 확인할 수 있습니다.
페이지가 새로운 훈련된 음성으로 슬롯 목록으로 돌아오면 설정이 완료된 것입니다.
‘Open in ACE’를 클릭하여 ACE Studio를 열고 새로 훈련된 음성을 사용하세요.
음성 재훈련
을(를) 클릭하세요 Retrain 버튼을 눌러 음성을 재훈련하세요.
재훈련하면 해당 슬롯에 있는 이전 음성이 삭제됩니다. AI는 새 데이터셋을 사용해 처음부터 완전히 새로운 음성 훈련을 시작합니다. 재훈련을 시작하기 전에 이 슬롯의 기존 샘플을 유지한 채 새 샘플을 추가하거나, 기존 샘플을 삭제하고 새로 업로드한 샘플만 사용할지 선택할 수 있습니다.
새 샘플을 준비할 때 주의사항:
새로 추가된 샘플의 길이가 이미 업로드된 샘플보다 현저히 짧으면(예: 30분 데이터셋에 1분 샘플 추가) 재훈련으로 성능 개선이 크게 나타나지 않을 수 있습니다.
재훈련은 슬롯의 유형을 변경하지 않습니다.
언제 내 음성을 재훈련해야 하나요?
데이터셋의 품질이 이전보다 좋아졌거나 양이 더 많아졌을 때 반복적으로 음성을 개선하는 데 이를 사용할 수 있습니다
현재 결과에 만족하지 않아 데이터셋을 조정하고 싶을 때
음성 관리하기
을(를) 클릭하세요 Manage 버튼을 눌러 커스텀 음성 변환기 음성의 관리 창을 엽니다. 해당 창에서 다음을 수정할 수 있습니다:
음성 이미지
음성 이름
태그
음성 유형
언어 태그(음성 유형에만 해당)
변경을 완료한 후, Open in ACE 버튼을 클릭하여 ACE Studio의 음성 목록을 새로고침하세요.
마지막 업데이트