対処
その環境変数を消す。
話題の画像AIを触った。
今回触ったのはOptimized Stable Diffusionのtxt2img。
github.com
これにした理由はググったら出てきたから。
なお、python3.7でなんかよく分かんないけど動かした。あとconda環境ですらない。
yamlファイルを開いて必要そうななんやかんやをインストールした気がする。
以下は確かyamlファイルから抜粋したはず。
{'name': 'ldm', 'channels': ['pytorch', 'defaults'], 'dependencies': ['python=3.8.5', 'pip=20.3', 'cudatoolkit=11.3', 'pytorch=1.11.0', 'torchvision=0.12.0', 'numpy=1.19.2', {'pip': ['albumentations==0.4.3', 'opencv-python==4.1.2.30', 'pudb==2019.2', 'imageio==2.9.0', 'imageio-ffmpeg==0.4.2', 'pytorch-lightning==1.4.2', 'omegaconf==2.1.1', 'test-tube>=0.7.5', 'streamlit>=0.73.1', 'einops==0.3.0', 'torch-fidelity==0.3.0', 'transformers==4.19.2', 'torchmetrics==0.6.0', 'kornia==0.6', '-e git+https://github.com/CompVis/taming-transformers.git@master#egg=taming-transformers', '-e git+https://github.com/openai/CLIP.git@main#egg=clip', '-e .']}]}
元ネタはロボトミーコーポレーションのO-01-04-W、憎しみの女王。
こういうバケモノ感のあるものを期待していたのでそうそうそんな感じになるよね〜という気持ちになった。
結構綺麗な感じの魔法少女も出た。後に「顔とか目とかが隠れていると結構いい感じに見えるかもしれない」という話をフォロワーさんとしたが、その通りだと思う。
全体的な感想としてはQueenに引っ張られた感じがしてHatredの要素はあんまり感じなかった。QueenとHatredが近いワードの可能性があるのかなぁとか思ったけどBERT詳しくないからわからん。(このAIはBERT使ってるとかいう噂も聞いた。違ってたらごめんなさい。)
せっかくだし動画の背景とかに使えたら面白いんじゃないかなぁって出力画像のサイズを変更して実行してみた。
……が、HD以上の画像サイズだとメモリ不足で動かなかった。悲しいね。
……と思っていたら(調べていないので)なんかわからんが「RuntimeError: Sizes of tensors must match except in dimension 1. Expected size 16 but got size 15 for tensor number 1 in the list.」ってエラーが出た。やる気があれば後で調べておきましょう。
*1:CefaSipo
pip install opencv-python==4.5.5.64
たぶん解決した
Who | 私が |
When/td> | 今日、Transformersをimportしようと思い実行した際、 |
Where | (自宅ノートPC*1で) |
What | |
Why | 複雑怪奇なビルド設計をしていたため |
How | ImportError: cannot import name 'ViTForImageClassification'が出てしまった。 |
piyo.__path__を使えば、importしたパッケージpiyoのパスを知ることが出来る。
この引用元の記事にも書いてありました。
なんとなくビルドするのはやめよう
本記事は健常者エミュレータ事例集に大きく影響を受けた。
healthy-person-emulator.memo.wiki
*1:Quartavia
CRYSTARというゲームがあります。
store.steampowered.com
めちゃくちゃ(ストーリーが)面白いゲームなのでやってください。イラストもきれいですし、BGMもとてもいいです。語彙力が足りないのでこれ以上の魅力は伝えられません。今すぐとは言いません。セールの時でもいいから買ってプレイしてください。でも全実績解除するのは苦痛だからやらなくていいよ。ちゃんと最後までストーリークリアすればそれでいいから。
あ、あと思装一覧を書いています。なので、ネタバレを嫌う人はこの記事を閉じて、CRYSTARの死者回想録を完成させてください。
そうだ、正規化しよう。
なお、この記事は自然言語処理の専門家でもなければ日本語の専門家でもない存在が書いています。大量に間違いがあるかもしれませんのでもしあなたがこの記事を参考にしようと思った際は気をつけてください。主に未来の私。
サンプルデータを雑にSudachiで形態素解析して得られた認識の一覧をメモしておく。
なお、サンプルデータは271108のTwitterテキストデータで、17978種類の単語からなっている文の集まり。
for y in tokenizer_obj.tokenize(x, tokenizer.Tokenizer.SplitMode.C) y.part_of_speech()
形態素解析を行うと、上記のy.part_of_speech()で品詞とかなんやらが得られる。
動詞,一般,*,*,五段-ワア行,終止形-一般
↑のような形をしている、品詞とかなんやらをpospとこの記事では呼んでいる。
全部まとめた印象としては、
が入っているという認識をしている。
国語のお時間です。
形容動詞は……?
なお、今回形態素解析を行った際に空白が入っていない文章を使っているため、もしかしたらpospの0番目が「空白」となっている品詞があるかもしれない。
これは私が設定した気がする。
特に「タリ」に区分されているものは形容動詞に似ているようなそうでもないような……
*1:おそらく「O-01-04」のような文字列を分解して生じたものと思われる。
*2:これは固有名詞の可能性がある。
*3:おそらくこれは固有名詞の間違い。271108にこう呼ばれている人物がいる。
*4:おそらくこれは固有名詞の間違い。271108にこう呼ばれている人物がいる。余談だがゅと同一人物。
*6:分かりにくいがこれはタウ。Tではない。
*7:原文であるかは分からないが、これを含む文章を生成させたところ、「しゅがーまーがりんとか恐ろしそうなワードが見えた」と出力された。おそらく「シュガーマーガリン」をひらがなで書いたことの弊害。正規化、しよう!
*8:なお、今回のデータでは括弧開と括弧閉の数が釣り合っていない。「’」と「>」に対応する括弧開がなかった。なんとなく括弧としてこれらの記号を使っていない気がする。
*9:まぁ確かに顔文字ではないわな。
271108.hatenablog.com
↑これの進捗確認と優先度確認です。
沢山の文(と言うかツイート)をなんやかんやして集める、と言うか集めてる。別にAmesiorineさんのお仕事は1時間に1回トンチキなことをツイートするためだけじゃあないんですよ。
変更点はなし。
対話システム、乃至発言システムというのはどうにも常識外れのことを発言してしまうものです。そのため、Amesiorineにはある程度賢そうに見えない設定が必要になるでしょう。天才そうに見えているのにすっとぼけたことを言うとがっかりしますからね。アホの子がアホなことを言っても「かわいいね」で済みますが、スーツ着た偉そうな人があほなことを言うと叩かれるようなものです。(本当?)
そのため、幼めの設定が必要になるはず。
あとは271108の趣味でいいでしょう。設定資料作ったら誰かに絵とか頼むか?
進捗ダメです。真面目にやれ。
多分今エミィなんも食べてない。
・DailySwallow()
・CanAmyEatThisTextList(d)
・swallow(c)
多分この辺にミスがあるっぽいので確認。
↑対応済
バグ修正できてえらい。
どれもやっていません。カス。
案1
- 特定単語から開始
- 後ろへ展開していってEOSで終わり。
- 今度は特定単語から前へ展開していってBOSで終わり。
- できたものを出力
↑これだと、つなぎ目の部分が崩壊するかもしれない
案2
- 特定単語を真ん中に持つMDを持ってくる
- そのMDから案1と同じように展開して出力
案2で実装しました。えらい。まだエミィに組み込んでいません。
理由は「ありきたりでない単語を選ばなくてはいけないが、ありきたりでない単語の区別ができていないため」です。さっさと実装しろ私。
- マスク単語推定(正しくは何て言うんだっけ?BERTとかRoBERTとかT5みたいなのでできるやつ)をして文を書き換えるのができるかも。
- これと単語スワップでデータのカサ増しができるかも?
- カサ増ししたものも、目視だけじゃなくて、テキスト生成の評価指標あったはず、それかなんかである程度判定できないかな
ここまで読み返した私なら分かってると思うけど実装されているわけがありません。
- 格フレームってものがあったはず。用言とそれに関係する名詞とか助詞とかなんかだったような。
- MAUVE?
やってるわけないじゃん。
まだそもそもデータを集めていない。
- 271108とエミィのリプライだけでもいいしそれ以外も集めてもいいかも。もっとも、遠くの人のデータまで集めに行くのはめんどい。
同じようなデータを集めないといろいろ面倒かもしれない。
やってるわけないじゃん。
- DBDC対話破綻検出。対話が破綻しているかどうかのモデルを作るならこの辺?
やってるわけないじょん。
ところでこういう人間なら例えばボイロ動画のコメントとかで「○○じょん」ってなってると「○○じゃん」って意味だよなぁって分かるけどこれって機械はどうやるんだろう。これ大学とか研究所案件か?
前回の思い付きメモにはなかったこと。
GPT-2使って文章生成するとかエミィに食べさせる文章増やすとかできない?って思ってGPT-2に触れてみた。ある程度の汎用性のある私のツイートデータでファインチューニングを行ったものの、「『140字以内で文章を止める』の設定を行わなかった」か「そもそも140字以内だけの文章という思想が間違っている」のどちらかの要因により期待したようなものはできなかった。期待してたレベルも低かっただけにそれ以下か……という思いはあるけどまあしょうがないね。
これはまだ完全に思いつき。
文字通りバラバラのツイートを集めて文章にした場合って要約できるのかな……?
出現回数について、いい加減考えませんか?思ったよりBeTSCAEも重くなさそうだし。
https://twitter.com/271108_/status/1547282555699081216?s=20&t=62-jJTm0iWdezxPdmYfokg
271108.hatenablog.com
「・・・」と「……」も揃えたいし、開いた括弧は閉じることもやりたいんだよなぁ
— 271108 (@271108_) 2022年7月13日
正直これらはルールベースでいい気がする。括弧は文章中に括弧を閉じたか開いたかのフラグで判定して……ってできないかな
メモ
— 271108 (@271108_) 2022年8月5日
「此の」「此れ」「其れ」
「因みに」はどうする?
メモ
— 271108 (@271108_) 2022年7月19日
一般的な単語とそうでない単語の区別をする
…GPT-2とか使って、今度キャラ設定資料作ってみるとかやってみようかな
— 271108 (@271108_) 2022年7月26日
できるか知らないけど
「名前:█████」
「モチーフ:█████」
みたいなセットで
エミィには数字を数字としてひとくくりに認識してほしい
— 271108 (@271108_) 2022年9月29日
……けどそのためには271108とかいうめんどくさいHNの処理をする必要があるはず pic.twitter.com/0cdohGMaeb
メモ
— 271108 (@271108_) 2022年12月6日
・時間を何らかの数値に変換(UNIX時間?)
↑の値の合計から確率算出とかすればワンチャン?