思いつきのメモ

沢山の文(と言うかツイート)をなんやかんやして集める、と言うか集めてる

 

IDFを使ってその文章の中で希少単語がどれかを調べる。(順位付をする?)

該当単語達がw2vにあるか確認

あればマスク単語推定(正しくは何て言うんだっけ?BERTとかRoBERTとかT5みたいなのでできるやつ)とw2vを使った単語スワップでデータのカサ増しができるかも?

 

その単語スワップLSIとかで複数パターンできたりしない?

 

カサ増ししたものも、目視だけじゃなくて、テキスト生成の評価指標あったはず、それかなんかである程度判定できないかな

 

格フレームってものがあったはず。用言とそれに関係する名詞とか助詞とかなんかだったような。