沢山の文(と言うかツイート)をなんやかんやして集める、と言うか集めてる
IDFを使ってその文章の中で希少単語がどれかを調べる。(順位付をする?)
該当単語達がw2vにあるか確認
あればマスク単語推定(正しくは何て言うんだっけ?BERTとかRoBERTとかT5みたいなのでできるやつ)とw2vを使った単語スワップでデータのカサ増しができるかも?
カサ増ししたものも、目視だけじゃなくて、テキスト生成の評価指標あったはず、それかなんかである程度判定できないかな
格フレームってものがあったはず。用言とそれに関係する名詞とか助詞とかなんかだったような。