コレやばい。楽曲生成AI「audiocraft」をWindowsに導入する方法解説＆実例付

テキストやメロディーから楽曲を生成できるMeta（Facebook）製のAI「audiocraft」をWindowsにインストールして、WebUIで動作させる方法を画像付きで丁寧に解説します。

ハードウェア負荷・VRAM使用量や、実際に生成された楽曲も載せておきました。

このような楽曲が数十秒で生成できます。

1. audiocraftのインストール
2. 起動＆設定項目解説
- 起動する
- 使ってみる
3. 生成された楽曲
- どんな楽曲が実際に生成されるのか
- 生成時のハードウェア負荷・VRAM使用量は？
まとめ楽曲生成AI「audiocraft」の導入＆実力解説

1. audiocraftのインストール

予めインストールしておくもの

Python（当方3.10.7で動作確認済）
Git
CUDA関連

これらをインストール＆パスの通った状態にします。

リポジトリダウンロード

適当なフォルダを作成し、フォルダ内で右クリック→「ターミナルで開く」を選択。

git clone https://github.com/facebookresearch/audiocraft

上記コマンドでリポジトリをダウンロードします。

仮想環境作成

次はaudiocraftフォルダ内にPyhtonの仮想環境を構築します。

先ほどgit cloneした際のターミナルは閉じずに、そのまま以下のコマンドをコピペして実行しましょう。

cd audiocraft
python -m venv venv
venv\Scripts\activate.ps1

警告は気にせず貼り付けてください。

これで仮想環境が作成できました。

Pytorchをインストール

PyTorchについてはCUDAバージョンなどに左右されるため、エラーなど出たら公式を確認してください。

https://pytorch.org/get-started/locally/

ここでは一例として当方の環境(上記画像の通り)のコマンドを載せておきます。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Pytorch以外まとめてインストール

Pytorchをインストールしてから下のコマンドを実行します。

pip install -U audiocraft  # stable release
pip install -e .

これで必要なモジュールは全て仮想環境内にインストールできました。

事前学習済みモデルは、WebUIを起動してモデルを選択すると自動でダウンロードされるので手動DLは不要です。

2. 起動＆設定項目解説

起動する

python app.py

諸々インストールした際のターミナルを閉じずに上記コードを打ち込むだけです。

ブラウザで「http://127.0.0.1:7860」を開きましょう。

使ってみる

プロンプトとモデル、秒数を決めて送信するだけ！！

プロンプト入力

公式では以下のような例が挙げられています。

An 80s driving pop song with heavy drums and synth pads in the background

A cheerful country song with acoustic guitars

90s rock song with electric guitar and heavy drums

a light and cheerly EDM track, with syncopated drums, aery pads, and strong emotions

lofi slow bpm electro chill with organic samples

モデルの種類

small: 300M モデル、text to music only (容量0.84GBくらい）
medium: 1.5B モデル、text to music only (3.6GBくらい)
melody: 1.5B モデル、text to music,melody to music （2.7GBくらい）
large: 3.3B モデル、text to music only (6.5GBくらい)

melody以外は、テキスト→楽曲専用です。

melodyモデルだけは、メロディーから楽曲の生成も可能です。

なお、初回指定時にモデルは自動でダウンロードされます。

秒数指定

Durationの値が生成される楽曲の秒数です。

8.4秒にしてみました。

3. 生成された楽曲

どんな楽曲が実際に生成されるのか

モデルはmediumで行きます。

プロンプト	生成された楽曲
japanese anime,2020s,sakura,cherry,
cyber,EDM,dance,
very fast ,japanese,anime opening,pop
very slow ,japanese,anime opening,pop

アニメ感は微妙ですが、おおむねプロンプトの指示通りという印象です。

テンポ指定はvery low/fastレベルでは思い通りいきますね

最後にlargeで30秒、同じプロンプトで作ってもらいました。
(very slow ,japanese,anime opening,pop)

店内BGMとか、もうaudiocraftで良い気がしてくる。

生成時のハードウェア負荷・VRAM使用量は？

モデルのサイズに依りますが、largeならVRAM12.2～13.7GB程度、smallなら4GB程度でした。

生成時間は、生成したい楽曲の秒数と同程度でした。
（15sの楽曲の生成に13～17秒くらいのイメージ。モデルがmediumの場合。largeなら2倍かかる）

まとめ楽曲生成AI「audiocraft」の導入＆実力解説

Python,CUDA,Gitをインストールしておく
リポジトリダウンロード
諸々インストール
WebUIを起動し諸々指定
楽曲生成！！

10秒の曲生成に8～12秒程度しかかからず、相当プロンプト意図に沿ったものを生成できる「audiocraft」の凄さたるや！！

喫茶店のBGMとか、知らぬ間にAI産になっているかもしれませんね。

他にも色々と面白いAI関連の記事を書いています。合わせてご覧ください。

従来の50倍速！「RVC」音声AIモデルをWebUIから学習を行い作成する方法 Windows用

規制も倫理も無いFreedomGPTをグラボ不使用でWindowsにて動かす方法

画像生成AI「Stable Diffusion」を動かす方法

無料のCopilot「Amazon CodeWhisperer」を登録＆VSCodeで使用する方法まとめ