テキストやメロディーから楽曲を生成できるMeta(Facebook)製のAI「audiocraft」をWindowsにインストールして、WebUIで動作させる方法を画像付きで丁寧に解説します。
ハードウェア負荷・VRAM使用量や、実際に生成された楽曲も載せておきました。
このような楽曲が数十秒で生成できます。
1. audiocraftのインストール
予めインストールしておくもの
- Python(当方3.10.7で動作確認済)
- Git
- CUDA関連
これらをインストール&パスの通った状態にします。
リポジトリダウンロード
適当なフォルダを作成し、フォルダ内で右クリック→「ターミナルで開く」を選択。

git clone https://github.com/facebookresearch/audiocraft
上記コマンドでリポジトリをダウンロードします。
仮想環境作成
次はaudiocraftフォルダ内にPyhtonの仮想環境を構築します。
先ほどgit cloneした際のターミナルは閉じずに、そのまま以下のコマンドをコピペして実行しましょう。
cd audiocraft
python -m venv venv
venv\Scripts\activate.ps1

警告は気にせず貼り付けてください。
これで仮想環境が作成できました。
Pytorchをインストール
PyTorchについてはCUDAバージョンなどに左右されるため、エラーなど出たら公式を確認してください。

ここでは一例として当方の環境(上記画像の通り)のコマンドを載せておきます。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Pytorch以外まとめてインストール
Pytorchをインストールしてから下のコマンドを実行します。
pip install -U audiocraft # stable release
pip install -e .
これで必要なモジュールは全て仮想環境内にインストールできました。
事前学習済みモデルは、WebUIを起動してモデルを選択すると自動でダウンロードされるので手動DLは不要です。
2. 起動&設定項目解説
起動する

python app.py
諸々インストールした際のターミナルを閉じずに上記コードを打ち込むだけです。
ブラウザで「http://127.0.0.1:7860」を開きましょう。
使ってみる

プロンプトとモデル、秒数を決めて送信するだけ!!
プロンプト入力
公式では以下のような例が挙げられています。
An 80s driving pop song with heavy drums and synth pads in the background |
A cheerful country song with acoustic guitars |
90s rock song with electric guitar and heavy drums |
a light and cheerly EDM track, with syncopated drums, aery pads, and strong emotions |
lofi slow bpm electro chill with organic samples |
モデルの種類
small
: 300M モデル、text to music only (容量0.84GBくらい)medium
: 1.5B モデル、text to music only (3.6GBくらい)melody
: 1.5B モデル、text to music,melody to music (2.7GBくらい)large
: 3.3B モデル、text to music only (6.5GBくらい)
melody以外は、テキスト→楽曲専用です。
melodyモデルだけは、メロディーから楽曲の生成も可能です。
なお、初回指定時にモデルは自動でダウンロードされます。
秒数指定
Durationの値が生成される楽曲の秒数です。
8.4秒にしてみました。

3. 生成された楽曲
どんな楽曲が実際に生成されるのか
モデルはmediumで行きます。
プロンプト | 生成された楽曲 |
---|---|
japanese anime,2020s,sakura,cherry, | |
cyber,EDM,dance, | |
very fast,japanese,anime opening,pop | |
very slow,japanese,anime opening,pop |
アニメ感は微妙ですが、おおむねプロンプトの指示通りという印象です。
テンポ指定はvery low/fastレベルでは思い通りいきますね
最後にlargeで30秒、同じプロンプトで作ってもらいました。
(very slow,japanese,anime opening,pop)
店内BGMとか、もうaudiocraftで良い気がしてくる。
生成時のハードウェア負荷・VRAM使用量は?
モデルのサイズに依りますが、largeならVRAM12.2~13.7GB程度、smallなら4GB程度でした。

生成時間は、生成したい楽曲の秒数と同程度でした。
(15sの楽曲の生成に13~17秒くらいのイメージ。モデルがmediumの場合。largeなら2倍かかる)
まとめ 楽曲生成AI「audiocraft」の導入&実力解説
- Python,CUDA,Gitをインストールしておく
- リポジトリダウンロード
- 諸々インストール
- WebUIを起動し諸々指定
- 楽曲生成!!
10秒の曲生成に8~12秒程度しかかからず、相当プロンプト意図に沿ったものを生成できる「audiocraft」の凄さたるや!!
喫茶店のBGMとか、知らぬ間にAI産になっているかもしれませんね。
他にも色々と面白いAI関連の記事を書いています。合わせてご覧ください。
規制も倫理も無いFreedomGPTをグラボ不使用でWindowsにて動かす方法
画像生成AI「Stable Diffusion」を動かす方法
無料のCopilot「Amazon CodeWhisperer」を登録&VSCodeで使用する方法まとめ