さくいん！本サイトのAI関連記事まとめどれから見れば良いのか？！

目的に沿った記事を見つけるための索引ページです。

AI関連の記事、特に画像生成関連は色々と記事を書いたので、目当ての情報がどのページにあるかを把握しにくくなりました。

その改善を目的としたのがこのページです。

紹介している全てのAIを無料で誰でも使えます
Windowsのローカル環境で動かす方法中心に解説

※モデルに依ってはそれなりのハードウェアが必要です

AI系WebUIの統合管理「Super Easy AI Installer Tool」
画像生成AI関連
- 入門編：画像生成AIに慣れていない人向け
- 発展編：ある程度画像生成を経験した人向け
音声関連AI
文章関連AI （LLM）

AI系WebUIの統合管理「Super Easy AI Installer Tool」

次のようなWebUIをワンクリックでインストール・更新・アンインストールできるWebUI系プロジェクトの一括管理ソフトです。

コマンドをコピペしてインストールする時代は終わりました。

Automatic1111 webui
ComfyUI
Text generation web UI
Bark-gui
Whisper-ui
Lama Cleaner
InvokeAI
Kohya’s GIJI
Vladiffusion-A1111 fork
Stable Diffusionweb UI-UX A1111 fork
Auto-GPT
Stable Karlo
Kandinsky2.1 -webui
Ckpt2Safetensors-Conversion-Tool-GUI
Stable-Diffusion-Pickle-Scanner-GUl

画像生成AI関連

入門編：画像生成AIに慣れていない人向け

1⃣ まず読んで欲しい

2⃣ 知っていると便利

発展編：ある程度画像生成を経験した人向け

WebUI(1111版)を使いこなす

ControlNetの効果

入力画像

出力画像

ControlNetの全Preprocessor比較＆解説用途ごとオススメはどれ？

Latent Couple(TwoShot)の効果

プロンプトの反映領域を決められるため、キャラが混ざる問題が解決しました！！

縦に3分割して各キャラを描写。
初音ミク、博愛霊夢、綾波レイ。

左上に月、右下に地球、真ん中に初音ミク、全体は宇宙と領域ごとにプロンプト適用。

Latent Couple(TwoShot)をwebuiに導入し、プロンプト適用領域を部分指定→複数キャラ混ぜずに描写する方法

CutOffで色移りを防ぐ

色指定が正確に画像に反映されるようになります。

「Cutoff」WebUI拡張機能で色指定プロンプトの影響範囲を限定し汚染を防ぐ

「layerdivider」で画像を色ごとに異なるレイヤーに分ける

元の画像です。

これを約30枚のレイヤーに分割しましたが、例として6つのレイヤ画像を載せてみました。

なお、レイヤー分け時の設定値は全てインストール時のデフォルト設定で行いました。

「layerdivider」で画像を色ごとに異なるレイヤーに分ける方法とWindowsへの導入法

人物LoRAを過去のものにするかもしれない「Fast Composer」

入力画像の人物を踏まえた画像が簡単に作れます。
「A girl <A*> is drinking a cup of coffee at cafeteria」というプロンプトで、カフェテリアでコップを持たせてみました。

入力画像

Fastcomposer出力

人物LoRAを過去のものにするような技術ですね。

人物LoRA不要?!「Fast Composer」で1枚の画像に写る人物の特徴を踏まえた画像生成をする方法

その他各種拡張機能や機能検証など

色々なモデル関連

キャラや画風のファインチューニング関連

様々な検証を行う人向け

音声関連AI

神。VALL-E-Xで数秒の音声から声質反映して読み上げ（学習＆推論の合計所要時間10秒）

革新的！音声モデル「VALL-E-X」WebUIをWindowsで動かす方法解説実演付き

わずか6秒の音声ファイル1つを元に、以下のような声質を反映させた読み上げが可能！！

学習と音声生成の合計所要時間は10秒未満でした！！！

ちなみに学習元音声はこの動画の冒頭みたいなものなので、結構再現できてます。

AudioCraft 楽曲生成AI

おおむねプロンプトの意図通りの楽曲生成ができるMeta製AIです。

このような楽曲が数十秒で生成できます。

楽曲生成AI「audiocraft」をWindowsに導入する方法解説＆実例付

UVR 楽曲からボーカルのみ抽出、除去が行える音声処理AI

後述のRVC等の学習に使ったり、ボーカル差し替えたりする際に有用なAIです。

UVR GUIを使って楽曲からボーカルのみ抽出や除去を行う方法 Windowsへの導入解説

楽曲をボーカル・ドラム・低音・その他に分離する「Demucs」

フリーBGMusic氏の「Vocaloid ボカロ「ポップソング」ボカロ曲(著作権フリー)を作りました」を使用させていただきます。

base(低音):※結構聞こえにくいです。低音だから……

drums(ドラム):

other(その他):

vocals(ボーカル):

※冒頭はイントロのため、20秒付近までボーカル無音区間です。

かなり高品質な分離が行われているように感じます。

音源分離AI「Demucs」をWindowsに導入＆使用法解説-その実力を実演する-

「RVC」 WebUIを用いて従来の50倍速で学習モデル作成

WindowsにRVC WebUI（ddPn08/rvc-webui）を導入し、好きな声のモデルを学習により作成し、音声変換するまでの一連の流れを画像付きで丁寧に解説します。

従来のSO-VITS-SVCで100分かけて作ったモデルと同等の品質のものが、2分ちょいでできます。

音声変換は音声の長さの等速～1.5倍速くらいの所要時間でできます。

変換前(声：音読さん)：

RVC(2分ちょいの学習）：

SO-VITS-SVC（100分学習）：

VC ClientでRVC,SO-VITS-SVC等をリアルタイムボイスチェンジャーに使用

導入は非常に簡単です。

ハードウェア負荷が小さく高速に動作するため、ゲームのボイチャを好きな声で行うなどの用途にも使えます。

SO-VITS-SVC-v4 音声学習＆合成する方法

学習元データの文字起こし：不要
複雑な学習時のパラメータ設定：不要
- VRAMサイズに合わせてバッチサイズを変えて、
- 音声ファイル数に応じてEpoch数を変えるだけ！
変換にかかる時間：90秒の音声を約1.8秒で変換

自分が学習させたモデルを使用して約0.2秒で下のような変換ができるようになりました。

変換前(声：音読さん)：

変換後：

【丁寧解説】SO-VITS-SVC-v4をWindowsに導入しローカルで音声学習＆合成する方法

Whisper 音声を文字起こし

https://www.nicovideo.jp/watch/sm41389418

Python yt-dlp＆Whisperで動画の音声文字起こしDiscordBOTを作る方法

MoeGoe 文字をアニメの音声で読み上げ

アニメキャラ2890人の声を学習した音声生成AI「MoeGoe」をGUIでWindowsで動かす方法とその実力を検証

↓のような音声を作成できます。

金色の闇：

文章関連AI （LLM）

アマゾンの無料無制限コード補完AI「CodeWhisperer」導入法

無料のCopilot「Amazon CodeWhisperer」を登録＆VS Codeで使用する方法まとめ

ネット環境さえあれば、PCにグラボがなくても、貧弱なCPUでも動く、プログラム補完AIです。
全てアマゾンのサーバーが演算してくれる！！！

実際の動作の様子です。
素数表示プログラムをPythonで書いてみましたが、最早10文字,20文字程度しか人間は入力していません！！

人力で入力したところを赤字にしてます。
それ以外全部AIなどの補完です。

# show prime numbers from 1 to 100
def show(n):
    for i in range(1, n + 1):
        if i > 1:
            for j in range(2, i):
                if i % j == 0:
                    break
            else:
                print(i)


print(show(100))

恐ろしい補完能力。

ChatGPT越えと話題のLlama-2をWindowsで動かす

VRAM6GBで動く！ LLAMA v2-7bをWindowsでAuto GPTQを使用して動かす方法を解説

ChatGPT(GPT-3.5)と同等以上の性能を誇ると話題のLlama-2シリーズのうち、ハードウェア負荷の小さな7bモデルの動かし方を解説しています。

わずか6GB未満のVRAMで7bモデルを動かせる量子化という技術を使用しています。

StabilityAI社のマルチモーダルモデルで日本語の画像説明文生成

Japanese InstructBLIP Alphaで画像の日本語説明文生成 Windowsで動かすコード付き

実例：入力画像と生成された説明文です。

ギターを持つアニメの女の子

https://www.curtain-damashii.com/index_ag/wp/wp-content/uploads/btr_page-1.jpg

公園のピクニックエリア

https://www.pakutaso.com/20170803214post-12725.html

赤いプレートに3つの肉饅頭

rinna社のマルチモーダルモデルで画像を説明する文章を生成

rinna 4bのマルチモーダルモデルで画像の説明をしてもらう-Windowsで動かす方法解説-

下の画像で何度か説明してもらいました。

精度も実用的ですね。

倫理的セーフティの無いLLMを「Freedom GPT」をWindowsで動かす

倫理観ゼロ☆Freedom GPTをWindowsで動かす方法。CPUで実用的速度で動くぜ！！

犯罪のやり方や、選挙結果を批判したり、ヒトラーを賛美したりと、普通の責任あるAI（BingAI、ChatGPTなど）ではできないことをやってのけます。

くれぐれも悪用厳禁。

言語モデル用のWebUI「text-generation-webui」の使い方

text-generation-webuiをWindowsで動かす手順＆各種設定解説

WebUI（1111）のように、様々なモデルを扱える大規模言語モデル用のWebUIです。

LoRAの適用なども可能です。

AI VTuberの始め方・構想

入力音声/文字→言語モデルで返答を生成→VOICEVOXで読み上げの一連の手順をまとめました。

こんな感じになります。

おはよう→昨日はどうも。
ラーメン食べる？→今日もカレー食べてくる。
ラーメン美味しいよね→おいしかったな。

上記のような一般的雑談が行えるGPT-2のファインチューニングモデルを作成しました。

また、Rinnaの3.6Bモデル（対話用）を用いるのもおすすめです。

GPT-2 日本語文章生成

文章の冒頭を入力してください：新劇場版

新劇場版で追加されたルルの位置は以前の設定とは異なるものの、後のEVA第2号の位置はかなり近いものであり、第5・6話でもはっきりと目視できることから、パイロットと思われる。また、オケアノスの投光器周辺では、ロボットに搭載された音声認識用のマイクロフォンからも聞き取れる。

FlexGen 大規模言語モデルを一般的GPUで動かせる！！

モデルをOPTシリーズ（チャット用のモデル）にすればこんな感じの雑談を行えます。

Human: you’re AI,right?(キミはAIだね？)
Assistant: Yes!（はい！）
Human: Really?????（本当に？？？？？）
Assistant: Yes!（はい！）
Human: What kind of music do you like?（どんな種類の音楽が好き？）
Assistant: I like Gaga（ガガが好き）
Human: Cool!（良いね）

理論上OPT-175BやChatGPTも一般的グラボで動かせるという驚きの技術「FlexGen」をWindowsに導入する方法とAIチャットの実演を載せました。

Alpaca 高精度の言語モデルをグラボなしで動かす！！

GPU不要で、たったRAM4,5GBさえあればCPUを用いて文章を生成してくれる4bit化アルパカモデルをWebUIで動かす方法を解説しています。

10分で導入出来ます。

グラボ不要！！Alapacaをwebuiで動かす簡単な方法をWindows向けに解説

Flan-T5 質疑応答や翻訳ができるAI

Google製AI「Flan-T5」をWindowsローカル環境で動かし質疑応答＆日本語対応させる

後述するNLLB200という翻訳AIと併用すれば、このようなやり取りが可能になります。

質問をどうぞ(日本語もOK): 4+3=
=============== 回答 ===============
 7

質問をどうぞ(日本語もOK): りんごとは何ですか？
翻訳された質問What is an apple?
翻訳前の回答<pad> a fruit</s>
=============== 回答 ===============
果物

質問をどうぞ(日本語もOK): ニューヨークについて教えて
翻訳された質問Tell me about New York.
翻訳前の回答<pad> New York is a city in the United States of America, located on Long Island in the New York metropolitan area, and is the most populous city in the state, with a population of over 4.7 million people in 2010.</s>
=============== 回答 ===============
ニューヨークは、ニューヨーク大都市圏のロングアイランドに位置するアメリカ合衆国の都市であり、州で最も人口が多い都市であり、2010年には400万人以上の人口を抱えています。

FuguMT 日本語と英語に特化した軽量＆超高性能翻訳AI

日本語と英語に特化したため、モデルサイズが容量150MB程度なのに、後述する「NLLB200」という翻訳AIの3.3B版(VRAM13.6GB必要)より精度が高いです。

【超高性能】無料＆軽量の日本語-英語の翻訳特化AI「FuguMT」をWindowsローカル環境で動かす

FuguMTをグラボで動かす方法と、CPU実行と比べてどのくらい高速化されたか検証した記事もあります。

FuguMTをGPUで動かし、CPU 翻訳時と翻訳速度を比較してみる

RAM1GB程度の消費しかしないため、常時翻訳APIサーバーとして立ち上げて使用するのも良さそうですね！

FuguMTを翻訳用ローカルAPIサーバーとして使用する方法

gensim word2vecで単語をベクトル化して四則演算する

「gensim」のWord2Vecで単語をベクトル化し四則演算＆類似度高い順にリストアップする

一例、「東京」に類似したベクトルをもつ単語TOP10は以下の通りです。

[('大阪', 0.627456784248352),
('名古屋', 0.6259051561355591),
('都内', 0.6223526000976562),
('横浜', 0.6177170872688293),
('新宿', 0.6033221483230591),
('神奈川', 0.5992082357406616),
('渋谷', 0.597951352596283),
('東京都', 0.5948487520217896),
('六本木', 0.5921141505241394),
('トウキョウ', 0.5762448906898499)]

NLLB200 超多言語翻訳AI 無料＆無制限

無料＆無制限の200言語以上翻訳できるAI「NLLB200」をWindowsのPythonで動かす

NLLB200のモデルごとの翻訳精度＆VRAM消費量はこちらで解説

santacoder ソースコード生成

Python、Java、JavaScriptのプログラムを生成できるAIです。

生成部分は緑色になっている箇所で、私が入力したのは太字部分だけです。

プロンプト（例def print_hey(name):） ： def show_all_png_image_file_name(filedir):
出力の長さ（例20とか） ： 80
def show_all_png_image_file_name(filedir):
    """
    列出所有png图片文件
    :param filedir:
    :return:
    """
    file_list = os.listdir(filedir)
    for file in file_list:
        if file.endswith(".png"):
            print(file)

もちろんコピペしてモジュールをインポートするだけで使えるものでした☆

コード生成AI「santacoder」をWIndowsで動かす方法と実用性検証