本家本元のRVC-betaというRVC WebUIをWinslows環境にインストールして、モデルのトレーニングや音声変換(推論)を行う方法をわかりやすく、画像を多数使用して丁寧に解説します。
本家は中国語ですが、現在は日本語化が進んでおり、ほぼ不自由なく扱えます。
追記:今はもうVALL-E-Xの方が手軽。声の学習と音声合成の合計所要時間が10秒とかいう頭おかしいレヴェルで高速。
テキストを任意の声で音読してほしいなら、現状これがベスト。
TTS(Text-To-Speech)の最高峰。
1. インストールを行う
上記リンクにアクセスし、「RVC-beta.7z」をダウンロードします。
7zipなどのソフトでファイルを展開します。
これだけでインストール完了です。
ちなみに、RVC-betaフォルダはドライブ直下に配置がオススメです。
RVC学習時に「指定されたバスが見つかりません。」エラーが出ることがありますが、ドライブ直下にするとそのエラーが出なくなったという事例があるので、あえてそうしています。
2. 起動&学習&音声変換
起動する
RVC-betaフォルダ内のgo-web.batを実行します。
失敗した際は、Pythonのインストールを行います。
Python 3.10.7で当方動作確認済です。
学習を行う
トレーニングタブに移動します。
各項目の設定値などはこちらのddPn08/rvc-webuiについての解説を参考にしてください。
最低限「実験名」(モデル名になる)と「トレーニングフォルダパス」(学習元音声フォルダを指定する)を入力すれば、あとはデフォルトでOK.
「データ処理」ボタンを押したあと、処理が終わったら「特徴抽出」を押します。
あとは、batch sizeやEpochなどを決めて「ワンクリックトレーニング」を押すだけ!!
その辺の設定値はこちらを参照してください。
こういう警告が出ますが、キャンセルでも正常に動くそうです。
そうとは知らず私はアクセスを許可するにしました。。。
グラボが大人しくなったら、出力情報を一番下までスクロールしてみてください。
トレーニン成功時はこのように表示されます。
全流程结束!
音声変換
モデル推論タブに移動します。
「音源リストを更新」でモデル一覧を更新します。
あとは、先程作成したモデルを指定し、変換元音声のパスを入力。
アルゴリズムはharvestがオススメです。
ピッチ抽出アルゴリズムを選択してください。歌声の場合は、pmを使用して速度を上げることができます。低音が重要な場合は、harvestを使用できますが、非常に遅くなります。
pmだとノイズっぽいのが乗りやすいので、モデルの動作確認にしか使用してません。
pmはharvestの10倍以上高速なので使い分けが大事ですね。
配布されている学習済モデルを使用する方法
学習済モデル(.pthファイル)をRVC-beta\weights
に配置します。
その後RVC-betaを立ち上げると「音源推論」選択肢に追加されているはずです。
選択肢に表示されない時は、「音源リストを更新」を押してください。
3. まとめ 最もインストールが容易なRVC WebUIの導入方法
- Pythonをインストールしておく
- Python 3.10.7で私が動作確認済
- 「RVC-beta.7z」をダウンロード
- 7zip等で展開
- ドライブ直下に配置がおすすめ
- batファイルから起動する
- 学習や推論を行う!!
フォルダをダウンロードして展開。
たったこれだけでインストール完了って驚き!!!
一度もコマンドを打ち込むことなく学習や推論を行う状態に到れるというのは素晴らしいですね!!
ここで作成したモデルはリアルタイムボイスチェンジャーに使用可能です。
ネイティブな日本語化がされた版のRVC WebUIもあります。
学習時の設定項目の解説なども行っているので是非合わせてご覧ください。
他にも色々と面白いAI関連の記事を書いています。合わせてご覧ください。
規制も倫理も無いFreedomGPTをグラボ不使用でWindowsにて動かす方法
画像生成AI「Stable Diffusion」を動かす方法
実践的な使い方として、推しの子OP曲「アイドル」を物語シリーズのキャラ3人に歌ってもらいました。
(阿良々木月火,千石撫子,戦場ヶ原ひたぎ)
こちらで再生できます。