271108.hatenablog.com
↑これの進捗確認と優先度確認です。
前提
沢山の文(と言うかツイート)をなんやかんやして集める、と言うか集めてる。別にAmesiorineさんのお仕事は1時間に1回トンチキなことをツイートするためだけじゃあないんですよ。
変更点はなし。
271108の知識関係なく考えること
対話システム、乃至発言システムというのはどうにも常識外れのことを発言してしまうものです。そのため、Amesiorineにはある程度賢そうに見えない設定が必要になるでしょう。天才そうに見えているのにすっとぼけたことを言うとがっかりしますからね。アホの子がアホなことを言っても「かわいいね」で済みますが、スーツ着た偉そうな人があほなことを言うと叩かれるようなものです。(本当?)
そのため、幼めの設定が必要になるはず。
あとは271108の趣味でいいでしょう。設定資料作ったら誰かに絵とか頼むか?
進捗ダメです。真面目にやれ。
バグ修正
多分今エミィなんも食べてない。
・DailySwallow()
・CanAmyEatThisTextList(d)
・swallow(c)
多分この辺にミスがあるっぽいので確認。
↑対応済
バグ修正できてえらい。
アップデート:BeTSCAE
どれもやっていません。カス。
特定の単語から文章生成を開始することってできない?
案1
- 特定単語から開始
- 後ろへ展開していってEOSで終わり。
- 今度は特定単語から前へ展開していってBOSで終わり。
- できたものを出力
↑これだと、つなぎ目の部分が崩壊するかもしれない
案2
- 特定単語を真ん中に持つMDを持ってくる
- そのMDから案1と同じように展開して出力
案2で実装しました。えらい。まだエミィに組み込んでいません。
理由は「ありきたりでない単語を選ばなくてはいけないが、ありきたりでない単語の区別ができていないため」です。さっさと実装しろ私。
単語スワップ:BeTSCAE内
単語スワップ:BeTSCAE大幅改築
- マスク単語推定(正しくは何て言うんだっけ?BERTとかRoBERTとかT5みたいなのでできるやつ)をして文を書き換えるのができるかも。
- これと単語スワップでデータのカサ増しができるかも?
- カサ増ししたものも、目視だけじゃなくて、テキスト生成の評価指標あったはず、それかなんかである程度判定できないかな
ここまで読み返した私なら分かってると思うけど実装されているわけがありません。
未検討
- 格フレームってものがあったはず。用言とそれに関係する名詞とか助詞とかなんかだったような。
- MAUVE?
やってるわけないじゃん。
対話システム
まだそもそもデータを集めていない。
- 271108とエミィのリプライだけでもいいしそれ以外も集めてもいいかも。もっとも、遠くの人のデータまで集めに行くのはめんどい。
同じようなデータを集めないといろいろ面倒かもしれない。
やってるわけないじゃん。
データ整備
- DBDC対話破綻検出。対話が破綻しているかどうかのモデルを作るならこの辺?
やってるわけないじょん。
ところでこういう人間なら例えばボイロ動画のコメントとかで「○○じょん」ってなってると「○○じゃん」って意味だよなぁって分かるけどこれって機械はどうやるんだろう。これ大学とか研究所案件か?
追加の思い付き
GPT-2
前回の思い付きメモにはなかったこと。
GPT-2使って文章生成するとかエミィに食べさせる文章増やすとかできない?って思ってGPT-2に触れてみた。ある程度の汎用性のある私のツイートデータでファインチューニングを行ったものの、「『140字以内で文章を止める』の設定を行わなかった」か「そもそも140字以内だけの文章という思想が間違っている」のどちらかの要因により期待したようなものはできなかった。期待してたレベルも低かっただけにそれ以下か……という思いはあるけどまあしょうがないね。
ツイート要約
これはまだ完全に思いつき。
文字通りバラバラのツイートを集めて文章にした場合って要約できるのかな……?
BeTSCAE追加
出現回数について、いい加減考えませんか?思ったよりBeTSCAEも重くなさそうだし。
メモ
https://twitter.com/271108_/status/1547282555699081216?s=20&t=62-jJTm0iWdezxPdmYfokg
271108.hatenablog.com
「・・・」と「……」も揃えたいし、開いた括弧は閉じることもやりたいんだよなぁ
— 271108 (@271108_) 2022年7月13日
正直これらはルールベースでいい気がする。括弧は文章中に括弧を閉じたか開いたかのフラグで判定して……ってできないかな
↑先に後ろの「語」との活用が一致するかの確認がいるはず。のtypo
メモ
— 271108 (@271108_) 2022年8月5日
「此の」「此れ」「其れ」
「因みに」はどうする?
メモ
— 271108 (@271108_) 2022年7月19日
一般的な単語とそうでない単語の区別をする
…GPT-2とか使って、今度キャラ設定資料作ってみるとかやってみようかな
— 271108 (@271108_) 2022年7月26日
できるか知らないけど
「名前:█████」
「モチーフ:█████」
みたいなセットで
↑エミィのキャラ設定決められないんなら自動で生成して選ばんか?
エミィには数字を数字としてひとくくりに認識してほしい
— 271108 (@271108_) 2022年9月29日
……けどそのためには271108とかいうめんどくさいHNの処理をする必要があるはず pic.twitter.com/0cdohGMaeb
メモ
— 271108 (@271108_) 2022年12月6日
・時間を何らかの数値に変換(UNIX時間?)
↑の値の合計から確率算出とかすればワンチャン?