思い付きのメモのまとめ直し - 271108の記憶貯蔵庫

文字通りのメモの記事はこちら↓
271108.hatenablog.com

前提
271108の知識関係なく考えること
文章生成システム
対話システム
- データ整備

前提

沢山の文(と言うかツイート)をなんやかんやして集める、と言うか集めてる。別にAmesiorineさんのお仕事は１時間に１回トンチキなことをツイートするためだけじゃあないんですよ。

271108の知識関係なく考えること

対話システム、乃至発言システムというのはどうにも常識外れのことを発言してしまうものです。そのため、Amesiorineにはある程度賢そうに見えない設定が必要になるでしょう。天才そうに見えているのにすっとぼけたことを言うとがっかりしますからね。アホの子がアホなことを言っても「かわいいね」で済みますが、スーツ着た偉そうな人があほなことを言うと叩かれるようなものです。（本当？）
そのため、幼めの設定が必要になるはず。
あとは271108の趣味でいいでしょう。設定資料作ったら誰かに絵とか頼むか？

文章生成システム

気軽にできそうなものを上に、できなさそうなものを下に並び替えてメモにする。

バグ修正

多分今エミィなんも食べてない。
・DailySwallow()
・CanAmyEatThisTextList(d)
・swallow(c)
多分この辺にミスがあるっぽいので確認。
↑対応済

アップデート：BeTSCAE*1

作った文章を全部記録したほうがいいかも。
テキスト生成の評価指標があったはず。これで作った文章の評価していいかも。
生成した文章の単語を置き換え*2てもいいんじゃないかな。単語スワップもLSIとかで複数パターンできたりしない？

特定の単語から文章生成を開始することってできない？

案１

特定単語から開始
後ろへ展開していってEOSで終わり。
今度は特定単語から前へ展開していってBOSで終わり。
できたものを出力

↑これだと、つなぎ目の部分が崩壊するかもしれない

案２

特定単語を真ん中に持つMDを持ってくる
そのMDから案１と同じように展開して出力

単語スワップ：BeTSCAE内

単語スワップ構想案

該当単語達がw2vにあるか確認する
単語の稀少度（IDFとか？）を算出？
１番稀少な単語を入れ替える
２番目に稀少な単語*3をw2vとかの足し算引き算してそれっぽく置き換える。

２の補足：IDFを使ってその文章の中で希少単語がどれかを調べる。(順位付をする？)

単語スワップ：BeTSCAE大幅改築

マスク単語推定(正しくは何て言うんだっけ？BERTとかRoBERTとかT5みたいなのでできるやつ)をして文を書き換えるのができるかも。
これと単語スワップでデータのカサ増しができるかも？
カサ増ししたものも、目視だけじゃなくて、テキスト生成の評価指標あったはず、それかなんかである程度判定できないかな

未検討

格フレームってものがあったはず。用言とそれに関係する名詞とか助詞とかなんかだったような。
MAUVE？

対話システム

まだそもそもデータを集めていない。

271108とエミィのリプライだけでもいいしそれ以外も集めてもいいかも。もっとも、遠くの人のデータまで集めに行くのはめんどい。

同じようなデータを集めないといろいろ面倒かもしれない。

データ整備

DBDC対話破綻検出。対話が破綻しているかどうかのモデルを作るならこの辺？

*1:BeTSCAEとは現在Amesiorineに使っている文章生成システムの名前です。命名センスは271108依存です。

*2:以降、「単語スワップ」と呼ぶ

*3:ただし、１番稀少な単語とは別単語