記憶:StableDiffusionからtxt2img(1)

やったこと

話題の画像AIを触った。
今回触ったのはOptimized Stable Diffusionのtxt2img。
github.com
これにした理由はググったら出てきたから。

なお、python3.7でなんかよく分かんないけど動かした。あとconda環境ですらない。
yamlファイルを開いて必要そうななんやかんやをインストールした気がする。
以下は確かyamlファイルから抜粋したはず。

{'name': 'ldm', 'channels': ['pytorch', 'defaults'], 'dependencies': ['python=3.8.5', 'pip=20.3', 'cudatoolkit=11.3', 'pytorch=1.11.0', 'torchvision=0.12.0', 'numpy=1.19.2', {'pip': ['albumentations==0.4.3', 'opencv-python==4.1.2.30', 'pudb==2019.2', 'imageio==2.9.0', 'imageio-ffmpeg==0.4.2', 'pytorch-lightning==1.4.2', 'omegaconf==2.1.1', 'test-tube>=0.7.5', 'streamlit>=0.73.1', 'einops==0.3.0', 'torch-fidelity==0.3.0', 'transformers==4.19.2', 'torchmetrics==0.6.0', 'kornia==0.6', '-e git+https://github.com/CompVis/taming-transformers.git@master#egg=taming-transformers', '-e git+https://github.com/openai/CLIP.git@main#egg=clip', '-e .']}]}

生成

「A magical girl named Queen of hatred」

元ネタはロボトミーコーポレーションのO-01-04-W、憎しみの女王。


こういうバケモノ感のあるものを期待していたのでそうそうそんな感じになるよね〜という気持ちになった。

結構綺麗な感じの魔法少女も出た。後に「顔とか目とかが隠れていると結構いい感じに見えるかもしれない」という話をフォロワーさんとしたが、その通りだと思う。

全体的な感想としてはQueenに引っ張られた感じがしてHatredの要素はあんまり感じなかった。QueenとHatredが近いワードの可能性があるのかなぁとか思ったけどBERT詳しくないからわからん。(このAIはBERT使ってるとかいう噂も聞いた。違ってたらごめんなさい。)

「A monster named NothingThere」

こちらも元ネタはロボトミーコーポレーション。バケモノを期待してたからどうしてもこのゲームが真っ先に思いついちゃうのよね。

特に気になったのはなかったが、今回の結果では全体的にカードゲームモチーフのものが多いような気がした。MtGとかにそんなに触れてないので似てる気がする程度の認識ができないけど。

余談

せっかくだし動画の背景とかに使えたら面白いんじゃないかなぁって出力画像のサイズを変更して実行してみた。

……が、HD以上の画像サイズだとメモリ不足で動かなかった。悲しいね。

……と思っていたら(調べていないので)なんかわからんが「RuntimeError: Sizes of tensors must match except in dimension 1. Expected size 16 but got size 15 for tensor number 1 in the list.」ってエラーが出た。やる気があれば後で調べておきましょう。

破壊したもの

  • PC*1のpython3.6環境
  • Sudachipy関連
  • tensorflow-gpuとnumpyだっけ?の互換性
  • pytorch環境を再構築したのでこれも破壊した

*1:CefaSipo