音源分離AI「Demucs」をWindowsに導入＆使用法解説-その実力を実演する-

Demucs は最先端の音楽ソース分離AIであり、1つの音声ファイルをドラム、ベース、ボーカルを残りの伴奏に分離することができます。

DemucsのWindowsローカル環境へのインストールと、使い方、設定項目を解説します。

実演として下の方に分離結果を載せておきました。

1. Demucsの環境構築
2. demucsで音源分離するには
- demucsの設定項目コマンド作成
- demucsの処理実行方法&出力ファイル保存先は？
3. demucsの実力は？実演してみる
まとめ音源分離AI「Demucs」の使い方と実力

1. Demucsの環境構築

予めインストールしておくもの

Python（当方3.10.7で動作確認済）

これらをインストール＆パスの通った状態にします。

仮想環境作成

適当なフォルダを作成し、フォルダ内で右クリック→「ターミナルで開く」を選択。

フォルダ内にPyhtonの仮想環境を構築します。

以下のコマンドをコピペして実行しましょう。

python -m venv venv
venv\Scripts\activate.ps1

警告は気にせず貼り付けてください。

これで仮想環境が作成できました。

demucsをインストール

python -m pip install -U demucs

ターミナルは音源分離の際も使うので開きっぱなしにしておいてください。

2. demucsで音源分離するには

demucsの設定項目コマンド作成

基本コレだけ！！たった２つの指定項目

基本は、処理対象のファイルパスと分離された音声の保存ビットレートを指定するだけです。

python -m demucs --mp3 --mp3-bitrate BITRATE PATH_TO_AUDIO_FILE_1

一例を示します。

例えばidol.mp3を処理して192kbpsで保存したいなら以下のように。

python -m demucs --mp3 --mp3-bitrate 192000 "D:\demucs\idol.mp3"

応用編処理に用いるモデルを選択する

デフォルト以外のモデルを使うには、-n モデル名で指定します。

htdemucs: デフォルトのモデル
- Hybrid Transformer Demucs の最初のバージョン
- MusDB + 800 曲でトレーニング済み
htdemucs_ft: htdemucsの微調整バージョン
- 分離には約4倍の時間がかかる
htdemucs_6s: htdemucsの6つの音源に分けるバージョン
- 音源としてpianoとがguitar追加
- pianoは現時点ではうまく機能していない
hdemucs_mmi: Hybrid Demucs v3、MusDB + 800 曲で再トレーニング
mdx: MDXチャレンジのトラック A で優勝したモデル
- MusDB HQ でのみトレーニングされた
mdx_extra: MDXチャレンジのトラック B で 2 位のモデル
- 追加のトレーニングデータ( MusDB テストセットを含む)でトレーニングされた
mdx_q、mdx_extra_q: 以前のモデルの量子化バージョン。
- ダウンロードとストレージの容量は小さくなる
- 品質が若干低下する可能性

例えばhtdemucs_ftを用いるなら、以下のように。

python -m demucs --mp3 --mp3-bitrate 192000 "D:\demucs\idol.mp3" -n htdemucs_ft

では、作成したコマンドを入力していきます。

demucsの処理実行方法&出力ファイル保存先は？

先ほどから開いたままにしておいたターミナルに、作ったコマンドを打ち込みエンターを押すだけ！！

当方では1分半の曲の処理に合計3分半程度かかりました。

処理された音声は、「separated\モデル名\処理対象ファイル名」にあります。
ここでは「D:\demucs\separated\htdemucs_ft\idol」ですね。

モデルにより異なりますが、今回使用したhtdemucs_ftでは、低音・ドラム・その他・声に分離されました。

3. demucsの実力は？実演してみる

今回はデフォルトのモデルを微調整した「htdemucs_ft」モデルを使用しました。

多くの楽曲はブログに置くと著しく面倒なことになるので、ここでは権利フリーと明記されたものを使用します。

フリーBGMusic氏の「Vocaloid ボカロ「ポップソング」ボカロ曲(著作権フリー)を作りました」を使用させていただきます。

base(低音):※結構聞こえにくいです。低音だから……

drums(ドラム):

other(その他):

vocals(ボーカル):

※冒頭はイントロのため、20秒付近までボーカル無音区間です。

かなり高品質な分離が行われているように感じます。

まとめ音源分離AI「Demucs」の使い方と実力

はじめかたは簡単！

仮想環境venvにdemucsをインストール
処理対象ファイルのパスなど指定しコマンド作成
コマンドを実行して待つ
分離結果を楽しむ！！

品質は高く、モデルも豊富なため上手くいかなったとしても試行錯誤ができます。

また、処理速度も1.5倍程度(45sの音声を30sで処理できる)ので、実用的ですね！

ボーカル分離だけなら、GUI付きのUVRもご検討ください!!

楽曲からボーカルを分離・抽出できたら、音声AIのトレーニングもしたくなってきたという方はVALL-E-XやRVCをお試しください！！

他にも色々と面白いAI関連の記事を書いています。合わせてご覧ください。

規制も倫理も無いFreedomGPTをグラボ不使用でWindowsにて動かす方法

画像生成AI「Stable Diffusion」を動かす方法

無料のCopilot「Amazon CodeWhisperer」を登録＆VSCodeで使用する方法まとめ

1. Demucsの環境構築

予めインストールしておくもの

仮想環境作成

demucsをインストール

2. demucsで音源分離するには

demucsの設定項目 コマンド作成

基本コレだけ！！ たった２つの指定項目

応用編 処理に用いるモデルを選択する