文字通りのメモの記事はこちら↓
271108.hatenablog.com
前提
沢山の文(と言うかツイート)をなんやかんやして集める、と言うか集めてる。別にAmesiorineさんのお仕事は1時間に1回トンチキなことをツイートするためだけじゃあないんですよ。
271108の知識関係なく考えること
対話システム、乃至発言システムというのはどうにも常識外れのことを発言してしまうものです。そのため、Amesiorineにはある程度賢そうに見えない設定が必要になるでしょう。天才そうに見えているのにすっとぼけたことを言うとがっかりしますからね。アホの子がアホなことを言っても「かわいいね」で済みますが、スーツ着た偉そうな人があほなことを言うと叩かれるようなものです。(本当?)
そのため、幼めの設定が必要になるはず。
あとは271108の趣味でいいでしょう。設定資料作ったら誰かに絵とか頼むか?
文章生成システム
気軽にできそうなものを上に、できなさそうなものを下に並び替えてメモにする。
バグ修正
多分今エミィなんも食べてない。
・DailySwallow()
・CanAmyEatThisTextList(d)
・swallow(c)
多分この辺にミスがあるっぽいので確認。
↑対応済
アップデート:BeTSCAE*1
特定の単語から文章生成を開始することってできない?
案1
- 特定単語から開始
- 後ろへ展開していってEOSで終わり。
- 今度は特定単語から前へ展開していってBOSで終わり。
- できたものを出力
↑これだと、つなぎ目の部分が崩壊するかもしれない
案2
- 特定単語を真ん中に持つMDを持ってくる
- そのMDから案1と同じように展開して出力
単語スワップ:BeTSCAE内
単語スワップ:BeTSCAE大幅改築
- マスク単語推定(正しくは何て言うんだっけ?BERTとかRoBERTとかT5みたいなのでできるやつ)をして文を書き換えるのができるかも。
- これと単語スワップでデータのカサ増しができるかも?
- カサ増ししたものも、目視だけじゃなくて、テキスト生成の評価指標あったはず、それかなんかである程度判定できないかな
未検討
- 格フレームってものがあったはず。用言とそれに関係する名詞とか助詞とかなんかだったような。
- MAUVE?
対話システム
まだそもそもデータを集めていない。
- 271108とエミィのリプライだけでもいいしそれ以外も集めてもいいかも。もっとも、遠くの人のデータまで集めに行くのはめんどい。
同じようなデータを集めないといろいろ面倒かもしれない。
データ整備
- DBDC対話破綻検出。対話が破綻しているかどうかのモデルを作るならこの辺?