flask-round-potionボーカルシンセ用のボイスをクローンする

自分の声をACE Studioでボーカルシンセのボイスとしてクローンする

ボーカルシンセのクローンとは?

これは、ご自身のボーカルサンプルをアップロードして専用のボーカルシンセモデルをカスタマイズする機能です。AIはアップロードされたサンプルから声質(声の timbre)や歌い方を学習し、あなたの声のデジタルクローンを生成します。

カスタマイズ後は、ACE Studio の既成AIボイスと同様に、MIDIと歌詞からあなたの声でボーカルを生成できます。

circle-check

ボーカルシンセ用に自分の声をクローンする方法

データセットの準備

chevron-rightクリーンなドライボーカルhashtag

高品質な音声には、クリーンでドライなボーカルサンプルが必要です:

  • リバーブ、ディレイ、コーラス等のエフェクトなし

  • 背景雑音なし

  • 楽器音や非人間音なし

  • ハーモニーやボーカルダブルなし

1つの音声には30〜100分の歌唱サンプルを推奨します。提供するサンプルが多いほどAIが歌唱の細部を学習できますが、120分を超えると得られる効果は小さくなります。

ルームリフレクション(残響)

大きなルームリフレクションで録音されたボーカルは誤認識を招き、モデルの性能に予期せぬ影響を与えることがあります。

ステムスプリッター由来のボーカル

ボーカルリムーバーやステムスプリッターを使用した場合、出力品質が低くなりトレーニングに適さないことがあります。より高品質な音声モデルを得るには、可能であればステムスプリッター由来のボーカルを選択してください。

chevron-rightサンプルの録音hashtag

オーディオインターフェイス搭載の高品質マイク

プロ用マイクとオーディオインターフェイスは高品質なボーカルをもたらします。インターフェイスと接続して録音・編集・ミックスするための録音ソフトが必要です。

声モデル用の録音では、歌唱向けでないマイクは避けてください:

  • 携帯電話やノートPCのマイク

  • ラペルマイクやヘッドセットマイク

  • カラオケ用マイク

  • イヤホンマイクやAirPods等のBluetoothイヤホン(通話用のもの)

録音環境

  1. 不要な背景ノイズには、人の会話、電気のハムやバズ、交通や屋外の騒音、アクセサリーや物の動きなどが含まれます。録音に影響を与えないよう静かな場所を選び、予期せぬ雑音を最小化または排除してください。

  2. 硬く平らな面があると音の反射が生じ、録音に残響やエコーが発生します。これによりトラックがこもったり距離感が増し、意図する明瞭さや親密さが損なわれます。

  3. 部屋で手を強く叩き、よく聴いてみてください。フラッター音や長いエコーが聞こえる場合は、残響の問題があります。

  4. 対策として、音を吸収する柔らかい素材を取り入れてください。カーペット、ラグ、厚手のカーテンを使用すると反射を大幅に減らせます。硬い床を覆い、可能なら窓にカーテンを掛け、布張りの家具を配置することが有効です。

  5. 硬い表面は問題を助長するため避けてください。プロ用の吸音パネルが用意できない場合は、キャンバス絵画、タペストリー、フォームタイルなど日常的なアイテムで表面を分断することができます。

  6. マイク設置時は配置に注意してください。壁や角に近づけ過ぎないでください。部屋の中央付近や複数の位置を試して、残響が最小になる最適な場所を見つけてください。

ヘッドフォンのリーク(漏れ)

録音中、特にボーカル録りではヘッドフォンからの音がマイクに漏れることがあります。これはヘッドフォンの音量が高すぎるか、オープンバックヘッドフォンを使用している場合に発生しやすいです。楽曲録音では許容される場合もありますが、声モデル用の録音時はこのリークを避けるようにしてください。

マイクの位置取り

通常の音量ではマイクから約2インチ(約5cm)離れて配置することを推奨します。より大きなフレーズやベルト時は距離を4〜6インチ(約10〜15cm)に広げてください。最適な録音のため、常にマイクから12インチ(約30cm)以内に留まることが重要です。

ベルト(強い発声)のための空間作り

ベルトテクニックを行う際は、マイクの距離や部屋の広さに余裕を持たせることが重要です。クローゼットやブースのように過度に音を閉じ込めたり、マイクをフォームで囲むとカプセルが過負荷になることがあります。不安な場合は、ベルトフレーズ時にルームサウンドをやや許容することを検討してください。

chevron-right歌唱言語hashtag

ベーシックカスタムスロット

ベーシックカスタムスロットで学習させた音声モデルは、1言語のみサポートされます。

プロカスタムスロット

プロカスタムスロットで学習させた音声は多言語対応が可能です。

サンプル内の言語

トレーニング中、各サンプルファイルは個別に処理され、単一言語のファイルとして扱われます。同一ファイル内で異なる言語のフレーズを混在させないよう注意してください。

サンプルをアップロードする際は、必ず適切な言語タブの下に配置してください。ベーシックカスタムスロット用のサンプルをアップロードする場合でも、必要に応じて異なる言語のサンプルをアップロードすることは可能です。言語ごとにサンプルを整理しておくと、管理が明確になり学習の精度向上に役立ちます。

今後対応予定の言語

カスタムボイス機能向けの新しい歌唱言語を継続的に開発しています。

新規で作成するボイスについて:

  • 新しい言語は新規のプロカスタムスロットでサポートされます。

  • 新しい言語は、新規のベーシックカスタムスロットのサポートオプションの一つになります。

既存のボイスについて:

  • プロカスタムスロットを再トレーニングすることで新言語がサポートされます。

  • ベーシックカスタムスロットを再トレーニングする際、新言語はオプションとして選択可能になります。

chevron-right歌唱またはスピーチhashtag

歌唱サンプルとスピーチサンプルの両方を、歌唱用音声モデルのトレーニングに利用できます。

あなたの声が学べるもの:

  • 歌唱サンプルやスピーチサンプルから声質(Timbre)を学習します。ただし注意点として、話し声の声質は歌声と異なる場合があり、必ずしも歌唱時の特性を正確に表すとは限りません。

  • 歌唱サンプルから歌唱スタイルを学習します

あなたの声が学べないもの:

  • スピーチサンプルからは歌唱スタイルを学習できません

chevron-rightファイル品質の設定hashtag

サンプルのオーディオ品質はボイスの品質に直接影響します。

次のオーディオ品質設定を推奨します:

  • Bit Depth = 16-bit

  • Sample Rate = 44.1khz または 48khz

  • ロスレスファイル形式(.wav または .flac)

chevron-rightポストプロセッシングhashtag

ターゲット音声の自然な特性と明瞭さを維持するために:

  • 重なり(オーバーラップ)なし: 多層のボーカルはAIの解析を複雑にします。重なったテイクは後ろに配置し、単一のボーカルトラックに限定してAIがサンプルを正確に処理・学習できるようにしてください。

  • ハードカットなし: ハードカットは不自然な開始や終了を生み、クリック音やポップ音を引き起こす可能性があります。より自然な移行のためにボーカルクリップの開始と終了は滑らかなフェードを使用してください。

  • セクションの重複なし: 重複したセクションはトレーニングに役立ちません。声モデルは演奏の自然な変化から恩恵を受けます。

  • 音量をコントロールする: サンプルのレベルがメーターの約30〜50%に収まるようにしてください。ボリュームライダーやオートメーションを使い、データセット全体で音量レベルを一貫させます。目的は録音全体で一貫した音量レベルを作る一方、セクション内のダイナミクスを保持することです。

ボイスのトレーニング

データセットを準備したら、次に進んでください: browserCustom Voice Page カスタムスロットを選択し、ボーカルサンプルをアップロードしてトレーニングを開始します。

ベーシックカスタムスロットは、単一言語で5つのバージョンを提供します。

プロカスタムスロットは、多言語対応の5つのバージョンを提供します。

スロットをクリックしてサンプルのアップロードを開始してください。

すべてのサンプルをアップロードすると、トレーニングが自動的に開始されます。ステータスはウェブページを更新して確認できます。

トレーニングページがボイスクローン管理ページに切り替わったら、ボイスのセットアップは完了です。ACE Studio のボイスライブラリに表示されます。表示されない場合は、ACE Studio を再起動してみてください。

circle-info

プロ向けのヒント

声に対して特定の性能やキャラクター(異なる音域や感情での最良結果など)を求める場合、サンプルを複数のボイスに分けて学習させる方が望ましいです。

例を示します:

Mike はプロの歌手で、自分の声をカスタマイズしたいと考えています。テノールもバスもこなせるため、2つのボイスに分けて学習させるのが良いでしょう:

  • 主に高音域かつパワフルなパフォーマンスのサンプルを基に、高音でパワフルなボイスを学習させる。

  • 主に低音域のフレーズを含むサンプルを基に、バス寄りのボイスを学習させる。

ボイスの再トレーニング

をクリックします Retrain ボタンでボイスを再トレーニングします。

再トレーニングを行うと、このスロットにあった以前のボイスは削除され、そのボイスに関連するデプロイ済みのシンガーは無効になります。AIは新しいデータセットを使って完全に新しいボイスを一から学習します。再トレーニングを開始する前に、スロット内の既存サンプルを保持して新しいサンプルを追加するか、既存サンプルを削除して新規サンプルのみを使用するかを選択できます。

新しいサンプルを準備する際の注意点:

  • 新たに追加するサンプルの合計時間が既存のサンプルに比べて極端に短い場合(例:30分のデータセットに1分だけ追加するなど)、再トレーニングによってボイスの性能に大きな変化が生じない可能性があります。

  • 再トレーニングではスロットのタイプは変更されません。

  • ベーシックカスタムスロットの対応言語は、再トレーニングによって切り替えることができます。

circle-info

いつボイスを再トレーニングすべきか?

  • データセットの品質や量が向上したときは、それらを用いてボイスを反復的に改善できます。

  • 現在の結果に満足しておらず、データセットを調整したいとき。

  • 新しい歌唱言語のスキルがリリースされたとき

ボイスの管理

chevron-rightバージョンについてhashtag

AIはデータから段階的に学習し、各サンプルをステップごとに解析していきます。学習が深まるにつれてステップ数は増えます。小規模または歌唱向けに最適化されていないデータセット(例:会話用の音声)の場合、少ないステップで済むことがあります。対照的に、より大きく多様なデータセットでは、十分に適合させるために追加のステップが必要になることがあります。ただし、過度な学習ステップは過学習を招き、ボイスの性能を予測不能な形で劣化させる可能性があります。

トレーニング終了時には、Rare から Well-done まで異なるトレーニングステップに基づいた複数のバージョンが生成されます。デプロイを切り替えて互いに比較することで最適なバージョンを見つけてください。

chevron-rightボイスのブレンドhashtag

ボイスをブレンドするとハイブリッドな音色が得られます。ブレンドするボイスの比率を調整することで、ターゲットの声質により近づけることができます。操作はスロット管理ページで、各バージョンの下にある「Blend Voices」ボタンをクリックしてください。

ブレンドを適用するとボイスは新しい特性を取り込みます。変更を反映させるには、ACE Studio を再起動してボイスをリフレッシュする必要があります。

chevron-rightACE Studio へのデプロイhashtag

ベーシックカスタムスロットとプロカスタムスロットでは、バージョンをデプロイした後に別のバージョンへデプロイの切り替えが可能です。各デプロイ後に ACE Studio を再起動してボイスライブラリを更新する必要があります。

最終更新