コレやばい。楽曲生成AI「audiocraft」をWindowsに導入する方法解説&実例付

コレやばい。楽曲生成AI「audiocraft」をWindowsに導入する方法を解説&実例付 ソフトウェア

テキストやメロディーから楽曲を生成できるMeta(Facebook)製のAI「audiocraft」をWindowsにインストールして、WebUIで動作させる方法を画像付きで丁寧に解説します。

ハードウェア負荷・VRAM使用量や、実際に生成された楽曲も載せておきました。

チェック!!
さくいん! 本サイトのAI関連記事まとめ どれから見れば良いのか?!


数十記事ある本サイトのAI関連記事を体系的にまとめました。

目的別にどれから見れば良いのかわかります!!

AI記事索引ページはコチラ

1. audiocraftのインストール

予めインストールしておくもの

  • Python(当方3.10.7で動作確認済)
  • Git
  • CUDA関連

これらをインストール&パスの通った状態にします。

リポジトリダウンロード

適当なフォルダを作成し、フォルダ内で右クリック→「ターミナルで開く」を選択。

git clone https://github.com/facebookresearch/audiocraft

上記コマンドでリポジトリをダウンロードします。

仮想環境作成

次はaudiocraftフォルダ内にPyhtonの仮想環境を構築します。

先ほどgit cloneした際のターミナルは閉じずに、そのまま以下のコマンドをコピペして実行しましょう。

cd audiocraft
python -m venv venv
venv\Scripts\activate.ps1

警告は気にせず貼り付けてください。

これで仮想環境が作成できました。

Pytorchをインストール

PyTorchについてはCUDAバージョンなどに左右されるため、エラーなど出たら公式を確認してください。

https://pytorch.org/get-started/locally/

ここでは一例として当方の環境(上記画像の通り)のコマンドを載せておきます。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Pytorch以外まとめてインストール

Pytorchをインストールしてから下のコマンドを実行します。

pip install -U audiocraft  # stable release
pip install -e . 

これで必要なモジュールは全て仮想環境内にインストールできました

事前学習済みモデルは、WebUIを起動してモデルを選択すると自動でダウンロードされるので手動DLは不要です。

2. 起動&設定項目解説

起動する

python app.py

諸々インストールした際のターミナルを閉じずに上記コードを打ち込むだけです。

ブラウザで「http://127.0.0.1:7860」を開きましょう。

使ってみる

プロンプトとモデル秒数を決めて送信するだけ!!

プロンプト入力

公式では以下のような例が挙げられています。

An 80s driving pop song with heavy drums and synth pads in the background
A cheerful country song with acoustic guitars
90s rock song with electric guitar and heavy drums
a light and cheerly EDM track, with syncopated drums, aery pads, and strong emotions
lofi slow bpm electro chill with organic samples

モデルの種類

  • small: 300M モデル、text to music only (容量0.84GBくらい)
  • medium: 1.5B モデル、text to music only (3.6GBくらい)
  • melody: 1.5B モデル、text to music,melody to music (2.7GBくらい)
  • large: 3.3B モデル、text to music only (6.5GBくらい)

melody以外は、テキスト→楽曲専用です。

melodyモデルだけは、メロディーから楽曲の生成も可能です。

なお、初回指定時にモデルは自動でダウンロードされます。

秒数指定

Durationの値が生成される楽曲の秒数です。

8.4秒にしてみました。

3. 生成された楽曲

どんな楽曲が実際に生成されるのか

モデルはmediumで行きます。

アニメ感は微妙ですが、おおむねプロンプトの指示通りという印象です。

テンポ指定はvery low/fastレベルでは思い通りいきますね

最後にlargeで30秒、同じプロンプトで作ってもらいました。
(very slow ,japanese,anime opening,pop)

店内BGMとか、もうaudiocraftで良い気がしてくる。

生成時のハードウェア負荷・VRAM使用量は?

モデルのサイズに依りますが、largeならVRAM12.2~13.7GB程度、smallなら4GB程度でした。

生成時間は、生成したい楽曲の秒数と同程度でした。
(15sの楽曲の生成に13~17秒くらいのイメージ。モデルがmediumの場合。largeなら2倍かかる)

まとめ 楽曲生成AI「audiocraft」の導入&実力解説

  1. Python,CUDA,Gitをインストールしておく
  2. リポジトリダウンロード
  3. 諸々インストール
  4. WebUIを起動し諸々指定
  5. 楽曲生成!!

10秒の曲生成に8~12秒程度しかかからず、相当プロンプト意図に沿ったものを生成できる「audiocraft」の凄さたるや!!

喫茶店のBGMとか、知らぬ間にAI産になっているかもしれませんね。

他にも色々と面白いAI関連の記事を書いています。合わせてご覧ください。

規制も倫理も無いFreedomGPTをグラボ不使用でWindowsにて動かす方法

画像生成AI「Stable Diffusion」を動かす方法

無料のCopilot「Amazon CodeWhisperer」を登録&VSCodeで使用する方法まとめ

タイトルとURLをコピーしました