VRAM24GB：kohya版Loraの解像度ごとの最大Batch Sizeとs/itはいくつ？

kohya版のLora(DreamBooth)による追加学習をsd-scriptsのとしあきWikiのBatファイルを使用して行う際、どの程度のバッチサイズ・解像度（resolution）までできるのかを検証しました。

各解像度での最大バッチサイズでの学習速度s/itも参考値として載せました。

当方のVRAM24GB・RTX3090の場合ですが、何か参考になれば幸いです。

導入等はこちらを参照してください。

検証対象の箇所
解像度（resolution）512×512の場合：LoRAの速度と最大バッチサイズは？
解像度（resolution）768×768の場合：LoRAの速度と最大バッチサイズは？
追加検証：解像度（resolution）1024×1024の場合：LoRAの速度と最大バッチサイズは？
まとめ LoRAの解像度ごとの最大バッチサイズと速度(s/it)一覧

検証対象の箇所

https://wikiwiki.jp/sd_toshiaki/LoRA#x5a23f01のバッチファイルを使わせていただいていますが、ポップアップGUI版でも限界は同じです。

あくまでもLoRAを実行するにあたって、各種設定を入力するのがGUIかバッチファイルに書き込むのかのか違うだけで、実行対象となるハードウェアやプログラム自体は共通なため。

関係があるかわかりませんが一応書いておくと、学習設定は
学習元画像12枚
正則化画像12枚透明PNG
繰り返し5
epoch1
dim=64
です。

最大解像度とバッチサイズが知りたいだけなので、epoch1でご勘弁ください。

また、今後のアプデなどで今の結果が通用しなくなったり、試行回数が1回ゆえのハズレ値を取り上げたりしている可能性をご了承ください。

rem =========================================================================
rem VRAMなど環境に影響されるパラメーター 余裕があれば増やすと速度や精度が改善

rem CPUスレッド数 CPUのコア数がいいらしい
rem 増やすと生成速度が上がる代わりにメインメモリの消費が増えるので
rem メモリ32GBの人はCPUのコア数よりも減らした方が安定するかも
set cpu_thread=20

rem データローダーのワーカー数
rem デフォルトは8、減らすとメインメモリの使用量が減り、学習時間が増加
set workers=8

rem バッチサイズ: 増やすと計算が早く終わるがVRAM消費が増える
set train_batch_size=6

rem 学習素材の解像度: 大きくすると細部まで学習するが消費VRAMが増える
rem VRAM12GBなら768くらいまで増やせる
set resolution=768,768

赤文字の部分を変えていきます。

とはいえresolutionは基本縦横同じなので、512×512と768×768の2通り。

その2つに対してtrain_batch_sizeがいくつまで行けるか検証です。

RuntimeError: CUDA out of memory. Tried to allocate 340.00 MiB (GPU 0; 24.00 GiB total capacity; 22.73 GiB already allocated; 0 bytes free; 22.89 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

バッチサイズが大きすぎると上のようなエラーがでるので、それが出ないギリギリの数値を探るのが今回の検証です。