UVR GUIを使って楽曲からボーカルのみ抽出や除去を行う方法 Windowsへの導入解説

「Ultimate Vocal Remover GUI」を用いて、曲から声のみを取り出したり、逆に声のみ消したりする方法を解説します。

UVRで音声分離を行うことで、誰でもRVC等を用いて、音声変換AIで歌ってみたを作成できるようになります。
また、楽曲から抽出した音声で学習もできますね。

1. UVRのインストール
- 動作要件など
- インストールを行う
2.各種設定
3. 変換を実行！実力はいかに？！
- ハードウェア負荷
- 実際に処理してみた
まとめ楽曲からボーカル分離or抽出できるUVR GUI

1. UVRのインストール

動作要件など

GPUを用いる場合、Nvidia RTX 1060 6GB が最小要件
少なくとも 8 GB の VRAM を搭載した Nvidia GPU が推奨
AMD Radeon GPU は現時点ではサポートされていません
64ビットOSとのみ互換性

グラボを用いず変換することもできるので、とりあえず大抵のWindows 10以降のユーザーなら使えるハズです。

インストールを行う

まずは、Releaseページにアクセスし、Windows向けインストーラーをダウンロードします。

1GB以上あるので結構時間がかかります。

ダウンロードを終えたら、インストーラーを起動します。

多分ダウンロード数が少ない実行ファイルを立ち上げる際におなじみの画面↓が現れるので、「詳細情報」をクリック。

そして「実行」を押せば完了！！

規約などに同意してインストールして下さい。

インストール成功後、起動するとこのようになります。

2.各種設定

入出力設定

処理したい音声ファイルと、処理後の出力ファイルの保存場所をそれぞれ指定します。

そして出力音声フォーマットも指定します。

なお、wav形式以外のオーディオファイルの処理は別途 FFmpeg のインストールが必須です。

使用するプロセスメソッド選択

プロセスメソッドはそれぞれ特徴がありますが、楽曲からボーカル分離・抽出するならMDX-Netを使えば問題ないと思います。

なお、メソッドによっては設定項目が異なるため、以後の解説ではMDX-Net選択時の設定項目を取り扱います。

VR Architecture

「ハイエンド処理」を切り替える機能。

最新のVR Architectureのサポート

Crop Size と Batch Size は、最新のアーキテクチャのみを使用するモデル専用です。

MDX-Net

「出力のノイズを除去」オプションを使用すると、よりきれいな結果が得られますが、処理時間は長くなります。このオプションは、ノイズリダクションに取って代わりました。

「スペクトル反転」オプションは、スペクトル反転技術を使用して、よりクリーンなセカンダリステム結果を生成します。このオプションを使用すると、オーディオエクスポートプロセスが遅くなる場合があります。

セカンダリステムは、メインステムと同じ周波数カットオフになりました。

Demucs

6 ステムモデルを含む Demucs v4 モデルがサポートされるようになりました。

ユーザーが「すべてのステム」を選択していない場合にのみ、選択したステムを混合物と反転させるのではなく、残りのステムを結合します。

ユーザーが堅牢なボーカルまたはインストルメンタルモデルを通じて推論を実行し、生成されたインストゥルメンタルミックスから残りのステムを分離できるようにする「前処理」モデル。このオプションは、他の Demucs で生成された非ボーカルステムのボーカルブリードを大幅に減らすことができます。

前処理モデルは、ボーカルと楽器を除くすべてのステムの Demucs 分離を対象としています。

Ensemble Mode

アンサンブルモードが拡張され、次の機能が追加されました。

「平均化」は、最終結果を平均化する新しいアルゴリズムです。

アンサンブルで無制限のモデル。

さまざまなアンサンブルを保存する機能。

すべての個々のステムタイプの出力をアンサンブルする機能。

独自のアンサンブルアルゴリズムを選択する機能。

一度に 4 つの Demucs ステムすべてをアンサンブルする機能。

https://github.com/Anjok07/ultimatevocalremovergui