言葉ってめんどくさい。色とか、気持ちで伝えればいいのに。
前回
271108.hatenablog.com
前々回かもしれないやつ
271108.hatenablog.com
参考
qiita.com
sqlite3使ってデータベースでなんやかんややろうと思いましたが後回しにしました(愚かなので)
辞書でいいや・・・・・(愚かなので)
試作段階の雑コード
from sudachipy import tokenizer from sudachipy import dictionary tokenizer_obj = dictionary.Dictionary().create() def tokenize(x): sen = [] voidwordlist = ("補助記号","記号","空白") dic = {"w":"<BOS>","pron":"","PoSp":["BOS/EOS", "*", '*', '*', '*', "BOS/EOS"]} sen.append(dic) for y in tokenizer_obj.tokenize(x, tokenizer.Tokenizer.SplitMode.C): dic = {} dic["w"] = y.surface() if y.part_of_speech()[0] in voidwordlist: dic["pron"] = "" else: dic["pron"] = y.reading_form() dic["PoSp"] = y.part_of_speech() sen.append(dic) dic = {"w":"<EOS>","pron":"","PoSp":["BOS/EOS", "*", '*', '*', '*', "BOS/EOS"]} sen.append(dic) return sen def RSearch(dic,q): item = [k for k, v in dic.items() if v == q] return item[0] texts = [ここに何かを入れるかもしれないし入れないかもしれない] for text in texts: sen = tokenize(text) sd = [] for x in sen: if x in WD.values(): ID = RSearch(WD,x) else: ID = len(WD)+1 WD[ID] = x sd.append(ID) SD[len(SD)+1] = sd
ここからやること
・SDからマルコフ辞書を作る
・マルコフ辞書から文章を作る
・ピックスだかピッケルだかピクルだかで辞書の保管するやつを書く
もしかしたらやるかもしれないこと
・ユーザー辞書を作るかもしれない
ユーザー辞書関連↓
https://github.com/WorksApplications/Sudachi/blob/develop/docs/user_dict.md