進捗確認:20220704

271108.hatenablog.com
↑これの進捗確認と優先度確認です。

前提

沢山の文(と言うかツイート)をなんやかんやして集める、と言うか集めてる。別にAmesiorineさんのお仕事は1時間に1回トンチキなことをツイートするためだけじゃあないんですよ。

変更点はなし。

271108の知識関係なく考えること

対話システム、乃至発言システムというのはどうにも常識外れのことを発言してしまうものです。そのため、Amesiorineにはある程度賢そうに見えない設定が必要になるでしょう。天才そうに見えているのにすっとぼけたことを言うとがっかりしますからね。アホの子がアホなことを言っても「かわいいね」で済みますが、スーツ着た偉そうな人があほなことを言うと叩かれるようなものです。(本当?)
そのため、幼めの設定が必要になるはず。
あとは271108の趣味でいいでしょう。設定資料作ったら誰かに絵とか頼むか?

進捗ダメです。真面目にやれ。

バグ修正

多分今エミィなんも食べてない。
・DailySwallow()
・CanAmyEatThisTextList(d)
・swallow(c)
多分この辺にミスがあるっぽいので確認。
↑対応済

バグ修正できてえらい。

アップデート:BeTSCAE

  1. 作った文章を全部記録したほうがいいかも。
  2. テキスト生成の評価指標があったはず。これで作った文章の評価していいかも。
  3. 生成した文章の単語を置き換え*1てもいいんじゃないかな。単語スワップLSIとかで複数パターンできたりしない?

どれもやっていません。カス。

特定の単語から文章生成を開始することってできない?

案1
  1. 特定単語から開始
  2. 後ろへ展開していってEOSで終わり。
  3. 今度は特定単語から前へ展開していってBOSで終わり。
  4. できたものを出力

↑これだと、つなぎ目の部分が崩壊するかもしれない

案2
  1. 特定単語を真ん中に持つMDを持ってくる
  2. そのMDから案1と同じように展開して出力

案2で実装しました。えらい。まだエミィに組み込んでいません。
理由は「ありきたりでない単語を選ばなくてはいけないが、ありきたりでない単語の区別ができていないため」です。さっさと実装しろ私。

単語スワップ:BeTSCAE内

単語スワップ構想案
  1. 該当単語達がw2vにあるか確認する
  2. 単語の稀少度(IDFとか?)を算出?
  3. 1番稀少な単語を入れ替える
  4. 2番目に稀少な単語*2をw2vとかの足し算引き算してそれっぽく置き換える。

2の補足:IDFを使ってその文章の中で希少単語がどれかを調べる。(順位付をする?)

単語スワップ:BeTSCAE大幅改築

  1. マスク単語推定(正しくは何て言うんだっけ?BERTとかRoBERTとかT5みたいなのでできるやつ)をして文を書き換えるのができるかも。
  2. これと単語スワップでデータのカサ増しができるかも?
  3. カサ増ししたものも、目視だけじゃなくて、テキスト生成の評価指標あったはず、それかなんかである程度判定できないかな

ここまで読み返した私なら分かってると思うけど実装されているわけがありません。

未検討

  1. 格フレームってものがあったはず。用言とそれに関係する名詞とか助詞とかなんかだったような。
  2. MAUVE?

やってるわけないじゃん。

対話システム

まだそもそもデータを集めていない。

  1. 271108とエミィのリプライだけでもいいしそれ以外も集めてもいいかも。もっとも、遠くの人のデータまで集めに行くのはめんどい。

同じようなデータを集めないといろいろ面倒かもしれない。

やってるわけないじゃん。

データ整備

  1. DBDC対話破綻検出。対話が破綻しているかどうかのモデルを作るならこの辺?

やってるわけないじょん。
ところでこういう人間なら例えばボイロ動画のコメントとかで「○○じょん」ってなってると「○○じゃん」って意味だよなぁって分かるけどこれって機械はどうやるんだろう。これ大学とか研究所案件か?

追加の思い付き

GPT-2

前回の思い付きメモにはなかったこと。
GPT-2使って文章生成するとかエミィに食べさせる文章増やすとかできない?って思ってGPT-2に触れてみた。ある程度の汎用性のある私のツイートデータでファインチューニングを行ったものの、「『140字以内で文章を止める』の設定を行わなかった」か「そもそも140字以内だけの文章という思想が間違っている」のどちらかの要因により期待したようなものはできなかった。期待してたレベルも低かっただけにそれ以下か……という思いはあるけどまあしょうがないね。

ツイート要約

これはまだ完全に思いつき。
文字通りバラバラのツイートを集めて文章にした場合って要約できるのかな……?

BeTSCAE追加

出現回数について、いい加減考えませんか?思ったよりBeTSCAEも重くなさそうだし。

メモ

https://twitter.com/271108_/status/1547282555699081216?s=20&t=62-jJTm0iWdezxPdmYfokg
271108.hatenablog.com


https://twitter.com/271108_/status/1547331502962507776?s=20&t=ee9JCAGFQUPTbJm
先に後ろの「語」との活用が一致するかの確認がいるはず。typo


↑エミィのキャラ設定決められないんなら自動で生成して選ばんか?

その他

zenn.dev

*1:以降、「単語スワップ」と呼ぶ

*2:ただし、1番稀少な単語とは別単語