【検証】NMKD版DreamBooth 250~8000stepsでrateを変え同一の学習元画像で比較する

DreamBooth GUIをWindowsで使えるNMKD版DBのキャラ学習用の最適設定は何か実践研究。各Qualityをlearning rate 1倍と0.5倍で試し、デフォルトSteps最大値の2倍まで追加で検証してみました。同一の4枚の画像をnai.ckptにそれぞれ学習させた10パターンを比較しました。

０，簡潔な結論 DBキャラ学習に最適な設定はこれだ！
２，学習の比較を行った際の設定
- NMKD版DB GUIでの学習時設定
- 生成時設定 webUI(1111版)でのx/y plot設定
２，出力された画像比較実際のX/Y prot画像
まとめ検証から得られた結論
AI関連記事まとめ

０，簡潔な結論 DBキャラ学習に最適な設定はこれだ！

とりあえず今回の検証で至った結論をシンプルに記します。

学習元が4枚なら、実用上はsteps 1000で十分
learing rate0.50倍だとかなり学習ペースが落ちる
キャラ学習なら、学習元画像は全て異なる色の単色が望ましい
1000steps以降は変化に乏しいが、stepsを重ねるほど背景の混入率が下がる
8000steps,0.50倍で学習させればキャラだけを正確に学習する

２，学習の比較を行った際の設定

NMKD版DB GUIでの学習時設定

対象は千石撫子です。

https://www.monogatari-series.com/bakemonogatari/chara/c04.html

学習させたのは次の4枚、1枚は公式立ち絵で他は段ボールより。

背景は、黄色単色・白単色・黒単色・紅葉。

服装メインで顔も写しつつといった具合に切り抜いた512四方の画像4枚です。

これらを以下の設定でそれぞれ学習させました。

赤太文字が今回良かった設定です。あくまで学習元4枚という前提です。

NMKDでの名前（Quality）	steps	Learning rate	所要時間 (3090にて)
規定なし	250	0.5	6分
LOW	250	1.0	6分
規定なし	500	0.5	12分
規定なし	1000	0.5	25分
MEDIUM	1000	1.0	25分
規定なし	2000	0.5	50分
規定なし	4000	0.5	1時間20分
VERY HIGH	4000	1.0	1時間20分
規定なし	8000	0.5	3時間

HIGH（2000steps,1.0倍）をやり忘れてましたねOrzごめんなさい…

なお規定なしというのは、NMKD version1.7.0以降で追加された学習パラメータの手動設定によるものです。

version1.6.x では4択から選ぶだけだったので、かなり柔軟になりましたね。

Learning rateは今回の検証では0.5か1.0でやってますが、0.1刻みで2.0まで好きに変更できます。

これでもwebUI1111版拡張機能より断然設定項目少ないので、検証は相対的に容易です。

なおストレージ残量が湯水の如く消えて行く。。。

DreamBoothの始め方はこちらを参考にしてください。

生成時設定 webUI(1111版)でのx/y plot設定

変更するのはプロンプト・モデルのみ

共通条件

Steps: 28,
Sampler: DPM2 a Karras,
CFG scale: 7.5,
Size: 512×768,
Clip skip: 2,
ENSD: 31337,

２，出力された画像比較実際のX/Y prot画像

ブログの画像は読み込み高速化のために自動で圧縮されてしまうので、14MBもの1枚のpng画像は貼れませんでしたOrz

画像を縦分割して載せておきます。上下に切れ端みたいなのが残ってますごめんなさい。

Seedが２種類それぞれ固定で、ckptファイルごとの出力結果です。

モデルファイル名は「前略 –000step–x0-50– 後略.ckpt」などとなっています。
「250step」などがsteps数を表し、
「0-50」はlearning rateが0.50倍、「1-00」は1.0倍であることを表しています。

NMKDのDB GUIは出力ファイル名にlearning rateを含めてくれないので手動で追加しました

（表記ゆれごめんなさい）

プロンプトが上書きした単語のみの場合

プロンプトは「test-nade,」のみ。

考察

この結果だけを見ると一番キャラ再現できているのは1000ステップ1.0倍のこちらですね。

steps数を高く、learning rateを下げることで過学習になりにくく、より特徴を捉える丁寧なキャラ学習ができるというのが通説ですが、この結果を見るにかなり早い段階で学習ができていて、それ以降変化に乏しいようにも見られます。

4枚の画像には1000stepsで十分なのかもしれません。

また、例えば4000steps,0.50倍では左側、帽子が忘れられています

1000/2000/4000steps,1.0倍および8000steps,0.50倍では帽子が出力できていることから、「steps x learning rate」の単純な掛け算で結果が決まるわけではないことが分かりますね。

仮に「steps x learning rate」で決まるなら2000×1.0でも4000×0.50でも同じ結果になることため、そりゃそうだろ！という考察ですが。

では、ある程度短いプロンプトをつけてみましょう。

簡単なプロンプトを加えた場合（NAIデフォルトの呪文付き）

ポジティブプロンプト「masterpiece, best quality,nade-test,kneeling, looking at viewer, looking at viewer,」

ネガティブプロンプト「lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name」

NAIデフォルトのプロンプトと、姿勢と目線について付け加えました。

ネガティブプロンプトはNAIデフォルトのみ。