flask-round-potionボイスチェンジャー用のボイスをクローンする

自分の声をACE Studioでボイスチェンジャー用のボイスとしてクローンする

ボイスチェンジャーのクローンとは何ですか?

サンプルをアップロードして自分専用のボイスチェンジャー音声をカスタマイズする機能です。AIはアップロードされたサンプルを基に声質(ティンバー)を学習し、この音声のデジタルクローンを生成します。

カスタマイズ後は、ACE Studio の既成のAIボイスチェンジャー音声と同様に、プロファイルを使ってオーディオから声を変換できます。

circle-check

ボイスチェンジャー用に自分の声をクローンするには?

データセットの準備

chevron-rightクリーンなドライボーカルhashtag

高品質な音声には、クリーンでドライなボーカルサンプルが必要です:

  • リバーブ、ディレイ、コーラス等のエフェクトなし

  • 背景雑音なし

  • 楽器音や非人間音なし

  • ハーモニーやボーカルダブルなし

1つの音声には30〜100分の歌唱サンプルを推奨します。提供するサンプルが多いほどAIが歌唱の細部を学習できますが、120分を超えると得られる効果は小さくなります。

ルームリフレクション(残響)

大きなルームリフレクションで録音されたボーカルは誤認識を招き、モデルの性能に予期せぬ影響を与えることがあります。

ステムスプリッター由来のボーカル

ボーカルリムーバーやステムスプリッターを使用した場合、出力品質が低くなりトレーニングに適さないことがあります。より高品質な音声モデルを得るには、可能であればステムスプリッター由来のボーカルを選択してください。

chevron-rightサンプルの録音hashtag

オーディオインターフェイス搭載の高品質マイク

プロ用マイクとオーディオインターフェイスは高品質なボーカルをもたらします。インターフェイスと接続して録音・編集・ミックスするための録音ソフトが必要です。

声モデル用の録音では、歌唱向けでないマイクは避けてください:

  • 携帯電話やノートPCのマイク

  • ラペルマイクやヘッドセットマイク

  • カラオケ用マイク

  • イヤホンマイクやAirPods等のBluetoothイヤホン(通話用のもの)

録音環境

  1. 不要な背景ノイズには、人の会話、電気のハムやバズ、交通や屋外の騒音、アクセサリーや物の動きなどが含まれます。録音に影響を与えないよう静かな場所を選び、予期せぬ雑音を最小化または排除してください。

  2. 硬く平らな面があると音の反射が生じ、録音に残響やエコーが発生します。これによりトラックがこもったり距離感が増し、意図する明瞭さや親密さが損なわれます。

  3. 部屋で手を強く叩き、よく聴いてみてください。フラッター音や長いエコーが聞こえる場合は、残響の問題があります。

  4. 対策として、音を吸収する柔らかい素材を取り入れてください。カーペット、ラグ、厚手のカーテンを使用すると反射を大幅に減らせます。硬い床を覆い、可能なら窓にカーテンを掛け、布張りの家具を配置することが有効です。

  5. 硬い表面は問題を助長するため避けてください。プロ用の吸音パネルが用意できない場合は、キャンバス絵画、タペストリー、フォームタイルなど日常的なアイテムで表面を分断することができます。

  6. マイク設置時は配置に注意してください。壁や角に近づけ過ぎないでください。部屋の中央付近や複数の位置を試して、残響が最小になる最適な場所を見つけてください。

ヘッドフォンのリーク(漏れ)

録音中、特にボーカル録りではヘッドフォンからの音がマイクに漏れることがあります。これはヘッドフォンの音量が高すぎるか、オープンバックヘッドフォンを使用している場合に発生しやすいです。楽曲録音では許容される場合もありますが、声モデル用の録音時はこのリークを避けるようにしてください。

マイクの位置取り

通常の音量ではマイクから約2インチ(約5cm)離れて配置することを推奨します。より大きなフレーズやベルト時は距離を4〜6インチ(約10〜15cm)に広げてください。最適な録音のため、常にマイクから12インチ(約30cm)以内に留まることが重要です。

ベルト(強い発声)のための空間作り

ベルトテクニックを行う際は、マイクの距離や部屋の広さに余裕を持たせることが重要です。クローゼットやブースのように過度に音を閉じ込めたり、マイクをフォームで囲むとカプセルが過負荷になることがあります。不安な場合は、ベルトフレーズ時にルームサウンドをやや許容することを検討してください。

chevron-right歌唱言語hashtag

ボイスチェンジャー音声では、すべてのサンプルを同一言語に揃える必要はありません。

chevron-right歌唱またはスピーチhashtag

ボイスチェンジャー音声ではスピーチサンプルと歌唱サンプルの違いは大きくありませんが、歌唱向けのボイスチェンジャーを作る場合はトレーニングに歌唱サンプルを使うのが適しています。

chevron-rightファイル品質の設定hashtag

サンプルのオーディオ品質はボイスの品質に直接影響します。

次のオーディオ品質設定を推奨します:

  • Bit Depth = 16-bit

  • Sample Rate = 44.1khz または 48khz

  • ロスレスファイル形式(.wav または .flac)

chevron-rightポストプロセッシングhashtag

ターゲット音声の自然な特性と明瞭さを維持するために:

  • 重なり(オーバーラップ)なし: 多層のボーカルはAIの解析を複雑にします。重なったテイクは後ろに配置し、単一のボーカルトラックに限定してAIがサンプルを正確に処理・学習できるようにしてください。

  • ハードカットなし: ハードカットは不自然な開始や終了を生み、クリック音やポップ音を引き起こす可能性があります。より自然な移行のためにボーカルクリップの開始と終了は滑らかなフェードを使用してください。

  • セクションの重複なし: 重複したセクションはトレーニングに役立ちません。声モデルは演奏の自然な変化から恩恵を受けます。

  • 音量をコントロールする: サンプルのレベルがメーターの約30〜50%に収まるようにしてください。ボリュームライダーやオートメーションを使い、データセット全体で音量レベルを一貫させます。目的は録音全体で一貫した音量レベルを作る一方、セクション内のダイナミクスを保持することです。

ボイスのトレーニング

データセットを準備したら、次に進んでください: browserCustom Voice Page でカスタムスロットを選択し、サンプルをアップロードしてトレーニングを開始します。

1つのカスタムスロットには1つのボイスチェンジャー音声をカスタマイズできます。

スロットをクリックしてサンプルのアップロードを開始してください。

すべてのサンプルがアップロードされると、トレーニングは自動的に開始されます。ステータスはウェブページを更新して確認できます。

ページがスロット一覧に戻り、新しい学習済み音声が表示されれば準備完了です。

「Open in ACE」をクリックして ACE Studio を開き、新しく学習した音声を使用してください。

ボイスの再トレーニング

をクリックします Retrain ボタンでボイスを再トレーニングします。

再トレーニングすると当該スロット内の以前の音声は削除されます。AIは新しいデータセットを使用して完全に新しい音声を初めから学習します。再トレーニングを開始する前に、当該スロット内の過去のサンプルを保持したまま追加の新しいサンプルをアップロードするか、過去のサンプルをクリアして新しくアップロードしたサンプルのみを使用するかを選択できます。

新しいサンプルを準備する際の注意点:

  • 新たに追加するサンプルの合計時間が既存のアップロード済みサンプルに比べて著しく短い場合(例:30分のデータセットに1分を追加するなど)、再トレーニングによって性能に大きな変化が生じない可能性があります。

  • 再トレーニングではスロットのタイプは変更されません。

circle-info

いつボイスを再トレーニングすべきか?

  • データセットの品質や量が以前より向上したとき、それらを使って音声を段階的に改善できます。

  • 現在の結果に満足しておらず、データセットを調整したいとき。

ボイスの管理

をクリックします Manage ボタンでカスタムボイスチェンジャー音声の管理ウィンドウを開きます。そのウィンドウでは以下を変更できます:

  • ボイス画像

  • ボイス名

  • タグ

  • ボイスタイプ

  • 言語タグ(ボイスタイプにのみ適用)

変更を行った後、次をクリックできます: Open in ACE ボタンで ACE Studio のボイス一覧を更新してください。

最終更新