目的に沿った記事を見つけるための索引ページです。
AI関連の記事、特に画像生成関連は色々と記事を書いたので、目当ての情報がどのページにあるかを把握しにくくなりました。
その改善を目的としたのがこのページです。
紹介している全てのAIを無料で誰でも使えます
Windowsのローカル環境で動かす方法中心に解説
※モデルに依ってはそれなりのハードウェアが必要です
- AI系WebUIの統合管理「Super Easy AI Installer Tool」
- 画像生成AI関連
- 音声関連AI
- 文章関連AI (LLM)
- アマゾンの無料無制限コード補完AI「CodeWhisperer」導入法
- ChatGPT越えと話題のLlama-2をWindowsで動かす
- StabilityAI社のマルチモーダルモデルで日本語の画像説明文生成
- rinna社のマルチモーダルモデルで画像を説明する文章を生成
- 倫理的セーフティの無いLLMを「Freedom GPT」をWindowsで動かす
- 言語モデル用のWebUI「text-generation-webui」の使い方
- AI VTuberの始め方・構想
- GPT-2 日本語文章生成
- FlexGen 大規模言語モデルを一般的GPUで動かせる!!
- Alpaca 高精度の言語モデルをグラボなしで動かす!!
- Flan-T5 質疑応答や翻訳ができるAI
- FuguMT 日本語と英語に特化した軽量&超高性能翻訳AI
- gensim word2vecで単語をベクトル化して四則演算する
- NLLB200 超多言語翻訳AI 無料&無制限
- santacoder ソースコード生成
AI系WebUIの統合管理「Super Easy AI Installer Tool」
次のようなWebUIをワンクリックでインストール・更新・アンインストールできるWebUI系プロジェクトの一括管理ソフトです。
コマンドをコピペしてインストールする時代は終わりました。
- Automatic1111 webui
- ComfyUI
- Text generation web UI
- Bark-gui
- Whisper-ui
- Lama Cleaner
- InvokeAI
- Kohya’s GIJI
- Vladiffusion-A1111 fork
- Stable Diffusionweb UI-UX A1111 fork
- Auto-GPT
- Stable Karlo
- Kandinsky2.1 -webui
- Ckpt2Safetensors-Conversion-Tool-GUI
- Stable-Diffusion-Pickle-Scanner-GUl
画像生成AI関連
入門編:画像生成AIに慣れていない人向け
1⃣ まず読んで欲しい

- WebUI(1111版)の簡単インストーラー「A1111 WebUI Easy Installer and Launcher」の使い方
- 画像生成AIローカル勢におすすめのグラボ・選ぶ観点も解説
- WebUI(1111版)に拡張機能を追加する最も簡単な方法
2⃣ 知っていると便利
- 【随時更新】画像生成AIを使う際に有用なサイト・リンク集(備忘録)
- WebUI(1111版)を日本語化する簡単な方法
- µTorrent Webを使いマグネットリンク(magnet:~)をダウンロードする方法
- 更新止まりがちWebUI(1111)の代替案!おすすめ派生版(fork)WebUI
発展編:ある程度画像生成を経験した人向け
WebUI(1111版)を使いこなす

- pixelization(ドット絵・ピクセルアート化)をwebUI(1111)で使う方法
- pixelization(ドット絵化)のPixel Sizeを1から16まで全パターン出力してみる オススメの値を検証
ControlNetの効果
入力画像

出力画像


Latent Couple(TwoShot)の効果
プロンプトの反映領域を決められるため、キャラが混ざる問題が解決しました!!

縦に3分割して各キャラを描写。
初音ミク、博愛霊夢、綾波レイ。

左上に月、右下に地球、真ん中に初音ミク、全体は宇宙と領域ごとにプロンプト適用。
CutOffで色移りを防ぐ
色指定が正確に画像に反映されるようになります。

「layerdivider」で画像を色ごとに異なるレイヤーに分ける

元の画像です。
これを約30枚のレイヤーに分割しましたが、例として6つのレイヤ画像を載せてみました。
なお、レイヤー分け時の設定値は全てインストール時のデフォルト設定で行いました。






人物LoRAを過去のものにするかもしれない「Fast Composer」
入力画像の人物を踏まえた画像が簡単に作れます。
「A girl <A*> is drinking a cup of coffee at cafeteria
」というプロンプトで、カフェテリアでコップを持たせてみました。
入力画像

Fastcomposer出力

人物LoRAを過去のものにするような技術ですね。
その他各種拡張機能や機能検証など
- LoRA,Ti,HNなどのサムネをワンクリックで自動取得&LoRAのトリガーワードを一発入力できる「Civitai-Helper」の使い方
- 音声に合わせた口パク動画(リップシンク)生成AI「SadTalker」をWebUI(1111)拡張機能としてインストール
- Hires. fixのUpscaler比較WebUI(1111)の高解像度化設定はどれがオススメか
- 画像生成モデル・VAEをRAMに置いて生成速度を向上させる WebUI(1111版)用の設定方法も解説
- 【モデルを品質そのまま容量削減!】WebUI(1111)用拡張機能「model-toolkit」の使い方
- pix2pix拡張機能をWebUI(1111)に入れて入力画像の要素の一部を自然言語で書換させる
- Gitで入れたWebUI(AUTOMATIC1111)のアップデート方法
- Gitで入れたWebUI(AUTOMATIC1111)を任意の過去バージョンに戻す
- 線画を自動で塗りPSD形式でレイヤー分けして出力する「auto_undercoat」のインストールと使い方
色々なモデル関連

- 【随時更新】画像生成AIの主要な学習済モデルの配布リンクまとめ
- 画像生成モデルをTensorRTに最適化・変換し、従来の4倍速で画像を生成する方法
- WebUI(1111版)拡張機能でモデルマージする方法&おすすめの配合比率
- U-Net層別マージの方法と各種設定項目の意味解説
- safetensors形式とは何か?ckptと比較しつつ利点と欠点を解説する
- モデルに併記される「SHA-256」とは何か?チェックサムについて解説
- Stable Diffusion v2.1の主な改善点と.ckptファイルのダウンロード&使用方法を解説
- Stable Diffusion v2.0はSD v1.xと何が違うのか?
キャラや画風のファインチューニング関連

- NMKD版DreamBooth:正規化画像を使わず数枚の画像からキャラ学習
- NMKD版DreamBooth:250~8000stepsでrateを変え同一の学習元画像で結果を比較
- WebUI(1111)にDreamBoothをインストールする手順
- 遂に登場!!WebUI上でKohya版LoRA学習可能な拡張機能を使いトレーニングする方法
- Kohya版LoRAでキャラ学習。インストール&設定、WebUIでの使用法まで解説
- VRAM24GBで、kohya版Loraの解像度ごとの最大Batch Sizeと速度はいくつ?
様々な検証を行う人向け
- モデルファイルをckptからsafetensorsに変換して生成速度を超絶アップさせる
- 14%高速化!!Pytorch2.0とCUDA11.8をインストールしてSPDAを使いxformersより高速に画像生成する方法
- 全サンプラーの収束具合をstepsごとに比較検証
- 全サンプラーのうち1stepの所要時間最短はどれだ?!
- 指定フォルダ内のファイル名一覧をリストアップ (XY Plot検証支援スクリプト)
- 画像生成に最適なグラボのパワーリミット設定値を調査 10%刻みで9通り
- WebUI(1111版)のライブプレビュー(生成過程表示)による速度低下はどのくらいか?
音声関連AI
神。VALL-E-Xで数秒の音声から声質反映して読み上げ(学習&推論の合計所要時間10秒)
わずか6秒の音声ファイル1つを元に、以下のような声質を反映させた読み上げが可能!!
学習と音声生成の合計所要時間は10秒未満でした!!!
- 「ご主人様。何なりとお申し付けください。」 :
- 「お兄ちゃんおはよう」 :
ちなみに学習元音声はこの動画の冒頭みたいなものなので、結構再現できてます。
AudioCraft 楽曲生成AI
おおむねプロンプトの意図通りの楽曲生成ができるMeta製AIです。
このような楽曲が数十秒で生成できます。
UVR 楽曲からボーカルのみ抽出、除去が行える音声処理AI
後述のRVC等の学習に使ったり、ボーカル差し替えたりする際に有用なAIです。
楽曲を ボーカル・ドラム・低音・その他に分離する「Demucs」
フリーBGMusic氏の「Vocaloid ボカロ「ポップソング」ボカロ曲(著作権フリー)を作りました」を使用させていただきます。
base(低音):※結構聞こえにくいです。低音だから……
drums(ドラム):
other(その他):
vocals(ボーカル):
※冒頭はイントロのため、20秒付近までボーカル無音区間です。
かなり高品質な分離が行われているように感じます。
「RVC」 WebUIを用いて従来の50倍速で学習モデル作成
WindowsにRVC WebUI(ddPn08/rvc-webui)を導入し、好きな声のモデルを学習により作成し、音声変換するまでの一連の流れを画像付きで丁寧に解説します。
従来のSO-VITS-SVCで100分かけて作ったモデルと同等の品質のものが、2分ちょいでできます。
音声変換は音声の長さの等速~1.5倍速くらいの所要時間でできます。
VC ClientでRVC,SO-VITS-SVC等をリアルタイムボイスチェンジャーに使用
導入は非常に簡単です。
ハードウェア負荷が小さく高速に動作するため、ゲームのボイチャを好きな声で行うなどの用途にも使えます。
SO-VITS-SVC-v4 音声学習&合成する方法
- 学習元データの文字起こし:不要
- 複雑な学習時のパラメータ設定:不要
- VRAMサイズに合わせてバッチサイズを変えて、
- 音声ファイル数に応じてEpoch数を変えるだけ!
- 変換にかかる時間:90秒の音声を約1.8秒で変換
自分が学習させたモデルを使用して約0.2秒で下のような変換ができるようになりました。
変換前(声:音読さん):
変換後:
Whisper 音声を文字起こし

MoeGoe 文字をアニメの音声で読み上げ

↓のような音声を作成できます。
金色の闇:
文章関連AI (LLM)
アマゾンの無料無制限コード補完AI「CodeWhisperer」導入法
ネット環境さえあれば、PCにグラボがなくても、貧弱なCPUでも動く、プログラム補完AIです。
全てアマゾンのサーバーが演算してくれる!!!
実際の動作の様子です。
素数表示プログラムをPythonで書いてみましたが、最早10文字,20文字程度しか人間は入力していません!!
人力で入力したところを赤字にしてます。
それ以外全部AIなどの補完です。
# show prime numbers from 1 to 100
def show(n):
for i in range(1, n + 1):
if i > 1:
for j in range(2, i):
if i % j == 0:
break
else:
print(i)
print(show(100))
恐ろしい補完能力。
ChatGPT越えと話題のLlama-2をWindowsで動かす
ChatGPT(GPT-3.5)と同等以上の性能を誇ると話題のLlama-2シリーズのうち、ハードウェア負荷の小さな7bモデルの動かし方を解説しています。
わずか6GB未満のVRAMで7bモデルを動かせる量子化という技術を使用しています。
StabilityAI社のマルチモーダルモデルで日本語の画像説明文生成
実例:入力画像と生成された説明文です。
ギターを持つアニメの女の子

公園のピクニックエリア

赤いプレートに3つの肉饅頭

rinna社のマルチモーダルモデルで画像を説明する文章を生成
下の画像で何度か説明してもらいました。


精度も実用的ですね。
倫理的セーフティの無いLLMを「Freedom GPT」をWindowsで動かす
犯罪のやり方や、選挙結果を批判したり、ヒトラーを賛美したりと、普通の責任あるAI(BingAI、ChatGPTなど)ではできないことをやってのけます。
くれぐれも悪用厳禁。
言語モデル用のWebUI「text-generation-webui」の使い方
WebUI(1111)のように、様々なモデルを扱える大規模言語モデル用のWebUIです。
LoRAの適用なども可能です。
AI VTuberの始め方・構想
入力音声/文字→言語モデルで返答を生成→VOICEVOXで読み上げの一連の手順をまとめました。
こんな感じになります。
おはよう→昨日はどうも。
ラーメン食べる?→今日もカレー食べてくる。
ラーメン美味しいよね→おいしかったな。
上記のような一般的雑談が行えるGPT-2のファインチューニングモデルを作成しました。
また、Rinnaの3.6Bモデル(対話用)を用いるのもおすすめです。
GPT-2 日本語文章生成

文章の冒頭を入力してください:新劇場版
新劇場版で追加されたルルの位置は以前の設定とは異なるものの、後のEVA第2号の位置はかなり近いものであり、第5・6話でもはっき りと目視できることから、パイロットと思われる。また、オケアノスの投光器周辺では、ロボットに搭載された音声認識用のマイクロ フォンからも聞き取れる。
FlexGen 大規模言語モデルを一般的GPUで動かせる!!
モデルをOPTシリーズ(チャット用のモデル)にすればこんな感じの雑談を行えます。

Human: you’re AI,right?(キミはAIだね?)
Assistant: Yes!(はい!)
Human: Really?????(本当に?????)
Assistant: Yes!(はい!)
Human: What kind of music do you like?(どんな種類の音楽が好き?)
Assistant: I like Gaga(ガガが好き)
Human: Cool!(良いね)
理論上OPT-175BやChatGPTも一般的グラボで動かせるという驚きの技術「FlexGen」をWindowsに導入する方法とAIチャットの実演を載せました。
Alpaca 高精度の言語モデルをグラボなしで動かす!!
GPU不要で、たったRAM4,5GBさえあればCPUを用いて文章を生成してくれる4bit化アルパカモデルをWebUIで動かす方法を解説しています。
10分で導入出来ます。
グラボ不要!!Alapacaをwebuiで動かす簡単な方法をWindows向けに解説
Flan-T5 質疑応答や翻訳ができるAI
Google製AI「Flan-T5」をWindowsローカル環境で動かし質疑応答&日本語対応させる
後述するNLLB200という翻訳AIと併用すれば、このようなやり取りが可能になります。

質問をどうぞ(日本語もOK): 4+3=
=============== 回答 ===============
7
質問をどうぞ(日本語もOK): りんごとは何ですか?
翻訳された質問What is an apple?
翻訳前の回答<pad> a fruit</s>
=============== 回答 ===============
果物
質問をどうぞ(日本語もOK): ニューヨークについて教えて
翻訳された質問Tell me about New York.
翻訳前の回答<pad> New York is a city in the United States of America, located on Long Island in the New York metropolitan area, and is the most populous city in the state, with a population of over 4.7 million people in 2010.</s>
=============== 回答 ===============
ニューヨークは、ニューヨーク大都市圏のロングアイランドに位置するアメリカ合衆国の都市であり、州で最も人口が多い都市であり、2010年には400万人以上の人口を抱えています。
FuguMT 日本語と英語に特化した軽量&超高性能翻訳AI
日本語と英語に特化したため、モデルサイズが容量150MB程度なのに、後述する「NLLB200」という翻訳AIの3.3B版(VRAM13.6GB必要)より精度が高いです。
FuguMTをグラボで動かす方法と、CPU実行と比べてどのくらい高速化されたか検証した記事もあります。
RAM1GB程度の消費しかしないため、常時翻訳APIサーバーとして立ち上げて使用するのも良さそうですね!
gensim word2vecで単語をベクトル化して四則演算する
「gensim」のWord2Vecで単語をベクトル化し四則演算&類似度高い順にリストアップする
一例、「東京」に類似したベクトルをもつ単語TOP10は以下の通りです。
[('大阪', 0.627456784248352),
('名古屋', 0.6259051561355591),
('都内', 0.6223526000976562),
('横浜', 0.6177170872688293),
('新宿', 0.6033221483230591),
('神奈川', 0.5992082357406616),
('渋谷', 0.597951352596283),
('東京都', 0.5948487520217896),
('六本木', 0.5921141505241394),
('トウキョウ', 0.5762448906898499)]
NLLB200 超多言語翻訳AI 無料&無制限
無料&無制限の200言語以上翻訳できるAI「NLLB200」をWindowsのPythonで動かす
NLLB200のモデルごとの翻訳精度&VRAM消費量はこちらで解説
santacoder ソースコード生成
Python、Java、JavaScriptのプログラムを生成できるAIです。
生成部分は緑色になっている箇所で、私が入力したのは太字部分だけです。
プロンプト(例def print_hey(name):) : def show_all_png_image_file_name(filedir):
出力の長さ(例20とか) : 80
def show_all_png_image_file_name(filedir):
"""
列出所有png图片文件
:param filedir:
:return:
"""
file_list = os.listdir(filedir)
for file in file_list:
if file.endswith(".png"):
print(file)
もちろんコピペしてモジュールをインポートするだけで使えるものでした☆