Japanese InstructBLIP Alphaで画像の日本語説明文生成 Windowsで動かすコード付き

日本語の画像説明文を生成できるAI「Japanese InstructBLIP Alpha」をWindowsのローカル環境で動かす方法を画像付きで丁寧に解説しました。

手元で実際に動かしてみて、どの程度の精度か試してみました。

また、動作時のハードウェア負荷（VRAM使用量）や、コピペするだけで文字起こしできる動作確認済みのコードも用意しておいたので、お役立てください。

実例：
入力画像と生成された説明文です。

ギターを持つアニメの女の子

https://www.curtain-damashii.com/index_ag/wp/wp-content/uploads/btr_page-1.jpg

公園のピクニックエリア

https://www.pakutaso.com/20170803214post-12725.html

赤いプレートに3つの肉饅頭

0, Japanese InstructBLIP Alphaとは何者か？
- 画像言語モデル「Japanese InstructBLIP Alpha」とは……
- 制限事項商用利用の可否
1. Japanese InstructBLIP Alphaの環境構築
2. Japanese InstructBLIP Alphaで画像の説明をしてもらう
3, まとめ「Japanese InstructBLIP Alpha」を試してみるには

0, Japanese InstructBLIP Alphaとは何者か？

画像言語モデル「Japanese InstructBLIP Alpha」とは……

Stability AI社が公開

日本語向け画像言語モデル

画像に対して文字で説明を生成したり、画像についての質問に回答したりすることが可能

英語のデータセットで事前学習されたInstructBLIPのモデル構造を用いており、日本特有の建造物も正しく認識

制限事項商用利用の可否

このモデルはHugging Face HubにおいてHugging Face Transformersに準拠する形式で公開

このモデルは研究目的で作成されたモデルであり、研究目的での利用に限定

https://ja.stability.ai/blog/japanese-instructblip-alpha より（一部改変、要約、着色）

1. Japanese InstructBLIP Alphaの環境構築

予めインストールしておくもの

Python（当方3.10.7で動作確認済）
CUDA関連

これらをインストール＆パスの通った状態にします。

仮想環境作成

適当なフォルダを作成し、フォルダ内で右クリック→「ターミナルで開く」を選択。

フォルダ内にPyhtonの仮想環境を構築します。

以下のコマンドをコピペして実行しましょう。

python -m venv venv
venv\Scripts\activate.ps1

警告は気にせず貼り付けてください。

これで仮想環境が作成できました。

Pytorchをインストール

PyTorchについてはCUDAバージョンなどに左右されるため、エラーなど出たら公式を確認してください。

https://pytorch.org/get-started/locally/

ここでは一例として当方の環境(上記画像の通り)のコマンドを載せておきます。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Pytorch以外まとめてインストール

Pytorchをインストールしてから下のコマンドを実行します。

pip install requests
pip install Pillow
pip install transformers
pip install sentencepiece
pip install einops

これで必要なモジュールなどを全てインストールできました。

ターミナルは文字起こしする時に使うので開きっぱなしにしておいてください。

2. Japanese InstructBLIP Alphaで画像の説明をしてもらう

URLを入力すると説明文を生成するようなコードコピペ可

いかのコードをtest.pyなど適当な名前でvenvフォルダと同じ場所に保存してください。

import torch
from transformers import LlamaTokenizer, AutoModelForVision2Seq, BlipImageProcessor
from PIL import Image
import requests


# helper function to format input prompts
def build_prompt(prompt="", sep="\n\n### "):
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    user_query = "与えられた画像について、詳細に述べてください。"
    msgs = [": \n" + user_query, ": "]
    if prompt:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + prompt)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p


# load model
model = AutoModelForVision2Seq.from_pretrained(
    "stabilityai/japanese-instructblip-alpha",
    trust_remote_code=True,
    torch_dtype=torch.float16,
    variant="fp16",
)
processor = BlipImageProcessor.from_pretrained(
    "stabilityai/japanese-instructblip-alpha"
)
tokenizer = LlamaTokenizer.from_pretrained(
    "novelai/nerdstash-tokenizer-v1", additional_special_tokens=["▁▁"]
)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# prepare inputs
url = "https://images.unsplash.com/photo-1582538885592-e70a5d7ab3d3?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=1770&q=80"
while True:
    url = input("画像のURL : ")
    try:
        image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
        prompt = ""  # input empty string for image captioning. You can also input questions as prompts
        prompt = build_prompt(prompt)
        inputs = processor(images=image, return_tensors="pt")
        text_encoding = tokenizer(prompt, add_special_tokens=False, return_tensors="pt")
        text_encoding["qformer_input_ids"] = text_encoding["input_ids"].clone()
        text_encoding["qformer_attention_mask"] = text_encoding[
            "attention_mask"
        ].clone()
        inputs.update(text_encoding)

        # generate
        outputs = model.generate(
            **inputs.to(device, dtype=model.dtype),
            num_beams=5,
            max_new_tokens=32,
            min_length=1,
        )
        generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[
            0
        ].strip()
        print(generated_text)
    except:
        print("Error")
# 桜と東京スカイツリー

https://huggingface.co/stabilityai/japanese-instructblip-alphaのサンプルを一部改変して何度もURLを入力できるようにしています。

また、上記コードではfp16モデルを使用しています。
fp16が嫌な場合は、「, torch_dtype=torch.float16, variant="fp16"」を削除してください。