3090を買い自宅でDreamBooth追加学習する程度の画像生成AIガチ勢が、CUDA・VRAMなど何を重視すべきか、どれが最適なGPUかを丁寧に解説していきます。
追加学習の予定や、生成速度をどの程度重視するかにより、どれを買うべきかは変わるので丁寧に解説していきます。
このように日々版権キャラ再現のために追加学習や膨大な枚数の生成を繰り返しています。
こちら↓は3090を持っている証拠です。サイト開設日とURLを添えました。
エアプサイトにならないように、数値や検証結果に基づいてStable Diffusion(画像生成)用のグラボを比較検討していきます。
0,簡潔な結論:結局どれを買えばいいのか?
【ざっくり診断】2つの質問に答えて自分に合ったグラボを見つける
ざっくり診断:オススメグラボはどれ?
- 質問1つ目:自分の用途(DreamBooth予定の有無)のボタンをクリックすると
- 質問2つ目:予算(3択)選択ボタンが出てくるので、クリックしてください
- 結果:それらの選択に応じてGPUのオススメと簡易的なグラボスペックが表示されます。
↓まず2択ボタンのうち1つをクリックしてみてください↓
なお、次の項目に1つでも該当する方は、PCごと買い替えるのがオススメです。
- 今デスクトップPCを持っていない
- ThunderBolt通信などでノートPCに外付けグラボをつなげることは不可能ではありませんが、費用対効果が最悪です
- グラボ搭載ノートPCはありますが、グラボ搭載デスクトップPCのGPUの方が同じ値段で遥かに高性能です
- CPUがあまりに古い(Intel 第8世代より古いくらい)
(=Windows11にアプデできないくらいの古さ) - 電源が4,500W程度しかない
- 高性能GPUを後付けすると電源容量不足になるおそれがあります
- CドライブがHDDである
- 別のドライブにWebUIをインストールすることもできますが
- CドライブがSSDでないほど古いPCのマザボは、最近のGPUの性能を十全に発揮できないだろうためです
DreamBoothとは
DreamBoothとは高精度のキャラ再現などの学習を行えるファインチューニング手法です。
ただし色々な種類があり、この↓高品質な学習にはVRAM24GBが必須でした。
アスカベンチマークスコアとは
この図は↓は、アスカベンチ(後述の条件で10枚をbatch count1で生成した際にかかった秒数)結果簡易版です。
詳細版は後述。
同一条件下で512pxの正方形の画像を10枚生成する際に何秒かかったかを、アスカベンチマークのスコアとしています。
【さっくり解説】画像生成を目的としたグラボ選び方
忙しい人向けにざっくりまとめました。
- DreamBooth不要。ただColabより高速に画像生成したい
- →10枚33秒で5万円台のRTX 3060 TI
- →30秒で7万円のRTX 3070
- →20秒・10秒の超高速ハイエンドたち(RTX3090とRTX 4090)
それでは以上の結論に至るまでの詳細な解説をしていきます。
1,画像生成AI用グラボで重視すべき要素(VRAM,CUDA,メモリ帯域幅)
画像生成のためだけなら
既存のベンチマークテストの優劣は選ぶ際の判断基準になりません
後に紹介するハローアスカの画像を用いた有志によるベンチマーク結果に基づいて選ぶのがおすすめです。
また、画像生成のためにRadeonを買ってはいけません。
Nvidia製のグラボ一択です。
AMD製(Radeonシリーズ)はWindows環境でうまく画像生成できない(難易度が高い)うえに、同価格帯のNvidia製品と比べて生成速度が半分程度です。
絶対に買わないように!
VRAM容量:追加学習の可否や生成される画像サイズに関係
VRAM容量と最大画像サイズの関係
VRAM | Options | 最大Width x High (px) |
---|---|---|
4GB | lowvram | 512×768 |
6GB | medvram xformers | 1536×1024 |
8GB | xformers | 1920×1088,1408×1408 |
最大画像サイズを超えると真っ黒な画像が出力されるorメモリ不足で生成失敗となります。
現状FHD画質以上を生成できても使い道がないため、
生成可能画像サイズの観点ではVRAMは8GBあれば十分です。
なお、画像サイズがあまり大きいと生成に成功しても、なぜか指定人数より多くの人物が描写されるなど意図しない挙動をするので、FHD画質が出力できればそれで十分です。
なお、追加学習をさせたい場合VRAMが8GBよりさらに必要になってきます。(後に解説)
また、VRAMが大きいほどBatch size(並列生成枚数)を増やせるため同時に多くの画像を生成できます。
CUDA・メモリ帯域幅:生成速度に寄与
メモリ帯域幅はCUDAコア数よりも、生成速度への影響が強いです。
あくまで傾向のためいちいちスペック表を見比べる必要はありません。
実際に買う際に重視すべきはグレード(xx60,xx90など)とVRAM容量と世代(3000番台か4000番台かなど)です。
世代:1000,1600,2000,3000,4000番代のうち買ってはいけない世代とは
まず、今から新たに画像生成のためのグラボを買う場合、1000,1600,2000番台の製品を買うのは避けましょう。
1000/1600番台がダメな理由
GTX 1600番台は、生成速度が低下しVRAM消費が増加する「–precision full –no-half」というオプション付きでなければ画像生成できません。
そんな大ハンデを抱えたグラボを新品で買う意義はありません。
1000番台については単純に古すぎるのと電力効率が悪いためです。
例えば1000番台のハイエンドGTX 1080Tiさえ、3000番台の最底辺RTX 3050の半分程度の生成速度しかありません。
2000番台がダメな理由
正確に書くなら1000/1600番台を含む2000番台までのグラボが全てダメです。
なぜなら生成結果が3000番台以降のグラボと一致しないため。
有志が作成した、同一設定でグラボのみを変えて生成した場合の画像の違いを表した図表です。
右側の2列、3000番代は全て結果が一致しているのに対して、左側の列は型番ごとにバラバラの結果です。
良い呪文をwikiで見つけても自分の環境でそれが再現できない恐れがあるばかりか、将来的にグラボを買い替えた際にそれまでの自分の積み上げた呪文研究成果が役に立たなくなる恐れさえあります。
したがって2000番台までの世代のグラボを買うべきではありません。
こちらでグラボごとの生成差異について詳細な検証が行われています。
検証現場(https://seesaawiki.jp/nai_ch/d/GPU%A4%CB%A4%E8%A4%EB%C0%B8%C0%AE%BA%B9%B0%DB%A4%CE%B8%A1%BE%DA)
私も3090で参加しています。
3000番台・4000番台の注意点
先程解説した通り、RTX 3000番台は全てVRAMが8GB以上のため、FHD画質の生成が可能です。
しかし、VRAMが大きいほどBatch size(並列生成枚数)を増やせるため同時に多くの画像を生成できるため予算が許す限り大きいものを選びましょう。
また、DraamBoothはVRAM12GB以上必須のため、追加学習を検討している場合は注意が必要です。
なおRTX 3060には8GBモデルと12GBモデルがあるので間違えないようにしてください。
後に紹介するアスカベンチマークを参考に速度重視or追加学習重視でどれを買うべきか決めていきましょう。
2,用途に応じたVRAMの推奨サイズ
VRAMが8GB:スタートライン
EmbeddingとHypernetworkという追加学習はVRAM8GB以上で可能です。
FHD画質の画像生成ができる最低VRAM容量でもあります。
RTX3000世代以降なら最底辺(RTX3050とか)でもVRAM8GB以上のため安心ですね。
VRAMが12GB:DreamBooth追加学習のスタートライン
DreamBoothは最低VRAM12GB必要です。
12GBあれば大抵の追加学習は可能です。
VRAMが24GB:追加学習の先端を試せる
例えばこのDreamBoothはGUIで使いやすく、わずか20分で↓のような効果の出る当時画期的なものでしたが、VRAM24GB必須でした。
基本的に画像生成AIの追加学習は、まずクラウドの激強GPU(VRAM40GBとか)でしか動かないものが開発されます。
その後、一般家庭でギリギリ入手できるVRAM24GBに収まるように最適化や処理の分割が行われます。
そして、Colabの無料枠で試せるようにVRAM16GBで動くように改良され、さらに最適化が繰り返され12GB→8GB→……と最適化されていきます。
つまり、最先端とまではいかずとも追加学習の先端を試すにはVRAM24GBが必要ということです。
Colabの無料GPUはVRAMこそ16GBもありますが、画像生成速度がRTX3050レベルなスペックのため追加学習には不向きです。
DreamBoothが最低12GBなように、大抵12GBまでは最適化はされるので予算が厳しくても追加学習をしたいならVRAM12GB以上にしましょう。
ちなみに3090があれば8時間で10パターンもの学習設定を検証できます。
3,具体的な必要十分スペックのグラボの選び方
CPUはボトルネックになるのか
まともなCPUを積んでいればボトルネックにはならない!
今から10年以上も昔のcore i7-2600K(サンディおじさん)だとさすがに25%程度速度低下がありますが。
2021年モデルと2015年モデルのもので数%の差はあるものの誤差の範囲内といえましょう。
無闇にCPUがボトルネックになると不安を煽り高級CPUを買わせようとするサイトもありますが、CPUを載せ替える金でグラボをワンランクアップさせる方が余程効果的です。
どうか惑わされませんように。
グラボごとの画像生成速度まとめ(アスカベンチマークの結果)
アスカベンチマークとは、ハローアスカ画像を10枚(並列生成枚数1枚として)生成し、所要時間を記録したものです。
つまりハローアスカの512×512画像10枚生成に掛かった時間のベンチマークのことです。
アスカベンチマークの掲載サイトから、パワーリミット(電力制限)がなくxformers(生成速度向上オプション)が有効なものを抽出しました。同じグラボが複数ある場合最も早いものを選びました。
有志による計測のため3090Tiが3080Tiより遅くなっているなど環境による誤差もありますが概ね参考になります。
RTX3000番台以降に絞ったアスカベンチマーク結果
この表を読み解くと、とりあえずRTX3050は買う価値なし(Colabの無料GPUと同じ生成速度のため)ということがわかります。
また、3060・4070以外では、Tiの有無で大して速度が変わらないことがわかります。
そのため安価なTiなしモデルを買いましょう。
3060・4070以外をTi無しのみに限ったグラフがこちら↓。
まとめ1 画像生成AI用おすすめグラボ用途別
ここまでの情報をまとめると次の表のようになります。
GPU | VRAM | およその生成秒数(単位:秒) | DreamBooth | Embedding・Hypernetwork・LoRA |
RTX 4090 | 24 | 11 | 可能 | 可能 |
RTX 4080 | 16 | 13 | 可能 | 可能 |
RTX 4070Ti | 12 | 15 | 可能 | 可能 |
RTX 4070 | 12 | 18 | 可能 | 可能 |
RTX 3090 TI | 24 | 22 | 可能 | 可能 |
RTX3090 | 24 | 20 | 可能 | 可能 |
RTX 3080 Ti | 12/10 | 22 | 可能/不可能 | 可能 |
RTX 3080 10GB | 12/10 | 22 | 可能/不可能 | 可能 |
RTX 3070 Ti | 8 | 29 | 不可能 | 可能 |
RTX 3070 | 8 | 29 | 不可能 | 可能 |
RTX 3060 TI | 8 | 33 | 不可能 | 可能 |
RTX 3060 | 12 | 41 | 可能 | 可能 |
RTX 3050 | 8 | 71 | 不可能 | 可能 |
DreamBooth等の追加学習はあまり興味がない
あまり費用をかけたくない方(5万円台まで)
アスカベンチマークが40秒程度のRTX 3060(4万円台)か、30秒程度のRTX 3060 TI (5万円台)がおすすめです。
3070,3070Tiも30秒程度のため、相対的にRTX 3060 TIは高コスパと言えます。
もし何かの機会にDreamBooth追加学習がしたくなっても対応できるRTX 3060が一番おすすめです。安価ですし。
DreamBooth追加学習に本当に全く興味がなく予定もないという方は、RTX 3060 TI が良いでしょう。
この辺のスペックのグラボなら、冷却に気を遣う必要はありません。
電源の買い替えもおおむね不要でしょう。
つまり手軽です。
そこそこ費用をかける方(10万円程度)
3060と3060Ti以外はTiの有無で性能差がほとんどないため、
RTX 3070 (7万円台)かRTX 3080 10GB(約10万円)のどちらかを選ぶことになります。
3080 VRAM12GBモデルは約15万円となるため、DB使うかも…程度の気持ちで買うには高すぎますね。
RTX 3070 の29秒程度とRTX 3080 10GBの24秒程度の差に3万円の価値を見出すかで決めましょう。
個人的な考えになりますが、
29秒→24秒(10%高速化)に対して
7万→10万(20%高価)なため、RTX 3080 10GBはコスパが悪いと思われます。
そのため予算10万円程度では、およそ7万円のRTX 3070 がおすすめです。
金に糸目はつけない方(15万円~)
Tiの有無で性能差がわずかなため、事実上RTX3090かRTX 4090の2択です。
アスカベンチマーク約10秒。つまり1枚1秒という神速で生成可能なRTX 4090か、
ベンチマーク約20秒=2秒で1枚のRTX3090か。
RTX 4090は約30万円、消費電力600Wという化け物のため、電源の1000W級への買い替えなども必要です。あと在庫が枯渇しがち。
RTX3090は約17万円で型落ちな分在庫は豊富で1万円程度で買える850W電源があれば全力全開で動かせます。
(RTX3090を実際に私は850W Gold電源で、パワーリミットなしで動かしています)
RTX3090ユーザーの私としてはRTX3090をおすすめしたいところですが、
アスカベンチマーク約20秒→約10秒(2倍高速)に対して
およその販売価格17万円→30万円(1.75倍高価)なため電源抜きのコスパで考えると
RTX 4090がおすすめです。
DreamBoothを試したい
VRAM12GB以上のモデルだけを抜き出しました。
GPU | VRAM | 10枚生成速度 | DreamBooth |
RTX 4090 | 24 | 11s | 可能 |
RTX 3090 TI | 24 | 22s | 可能 |
RTX3090 | 24 | 20s | 可能 |
RTX 4080 | 16 | 13 | 可能 |
RTX 3080 TI 12GB | 12 | 22s | 可能 |
RTX 3080 12GB | 12 | 22s | 可能 |
RTX 3060 | 12 | 41s | 可能 |
あまり費用をかけたくない方(5万円台まで)
アスカベンチマークが40秒程度ですがRTX 3060(4万円台)がおすすめです。
というかRTX 3060の次がRTX 3080 12GB版のため、
10万円未満の予算で済ませたいならRTX 3060一択です。
安価で追加学習DreamBoothしたいという方はRTX 3060がおすすめです。
費用は気にしない方(15万円~)
残念ながらVRAM12GB以上だと、3060の次がRTX 3080 12GB(約15万円)のため、中間スペックはありません。。。
Tiの有無が対して影響しないので、相対的に安価なTiなしでRTX 3080 12GBかRTX3090かRTX 4090の3択です。
ここで、RTX 3080 12GB(約15万円)に2万円程度だけ足してRTX3090(約17万円)を買えばVRAM容量が12GB→24GBと倍増します。
そのため、RTX 3080 12GBを買うのは愚策です。
したがって事実上RTX3090かRTX 4090の2択です。
1枚1秒という神速で生成可能なRTX 4090か、2秒で1枚のRTX3090か。
RTX 4090は売り切れがちで約30万円、消費電力600Wのため1000W級電源必須です。
RTX3090は約17万円で在庫は豊富。1万円程度で買える850W電源があれば全力全開で動かせます。
(RTX3090を実際に私は850W Gold電源で、パワーリミットなしで動かしています)
実際に私が使っているのはRTX3090ですが
アスカベンチマーク約20秒→約10秒(2倍高速)に対して
およその販売価格17万円→30万円(1.75倍高価)なため
電源抜きのコスパで考えるとRTX 4090がおすすめです。
まとめ2 画像生成AIを動かすのにおすすめグラボ 用途別
グラボ選びの注意点
- Randomシリーズは絶対にNG!!!
- RTX1000/1600/2000番台は生成画像が一致しないので買ってはいけない
(各世代で結果不一致の可能性が指摘され、現在有志による検証がされています) - RTX3050はColabで無料で使えるGPUと同じ生成速度のため買う意味がない
- CPUはボトルネックにはならない
(10年以上昔のものは流石に25%程度性能低下を引き起こす) - RTX3060とRTX3060Ti以外のグラボはTiの有無で性能差がほぼない
用途別におすすめのグラボ
GPU | VRAM | およその生成秒数 | DreamBooth | Embedding・Hypernetwork |
RTX 4090 | 24 | 11s | 可能 | 可能 |
RTX 4080 | 16 | 13s | 可能 | 可能 |
RTX 3090 TI | 24 | 22s | 可能 | 可能 |
RTX3090 | 24 | 20s | 可能 | 可能 |
RTX 3080 Ti | 12/10 | 22s | 可能/不可能 | 可能 |
RTX 3080 10GB | 12/10 | 22s | 可能/不可能 | 可能 |
RTX 3070 Ti | 8 | 29s | 不可能 | 可能 |
RTX 3070 | 8 | 29s | 不可能 | 可能 |
RTX 3060 TI | 8 | 33s | 不可能 | 可能 |
RTX 3060 | 12 | 41s | 可能 | 可能 |
RTX 3050 | 8 | 71s | 不可能 | 可能 |
選ぶ際はグラフを参考にするのが一番です。10枚生成にかかる時間です。
- 安価に追加学習DB(DreamBooth)をしたい→RTX 3060
- DBはしない&安価に1枚3秒ちょいで生成したい→RTX 3060 TI
- 1枚2秒で生成したい&DBもできる→RTX3090
- 1枚1秒で生成したい&DBもできる→RTX 4090
PowerLimitをかけようか迷っている方はコチラが参考になります。
本サイトのAI関連記事
WD,Anythingなどのモデル解説&ダウンロード先まとめ
モデルマージ方法とおすすめのマージ比率
有用サイトのリンク集・インストーラー
合わせて地味に分かりづらいアプデ手順解説
良いグラボ持ってる人向けですが、やること自体は非常に簡単なファインチューニング方法。
および最適な設定値の検証。
アニメ声優学習 音声生成AI MoeGoe GUI Windows向け
日本語文章生成GPT-2をWindowsで試す
AI関連記事一覧