気持ちで - 271108の記憶貯蔵庫

~~言葉ってめんどくさい。色とか、気持ちで伝えればいいのに。~~

前回
271108.hatenablog.com
前々回かもしれないやつ
271108.hatenablog.com

sqlite3使ってデータベースでなんやかんややろうと思いましたが後回しにしました（愚かなので）

辞書でいいや・・・・・（愚かなので）

試作段階の雑コード

from sudachipy import tokenizer
from sudachipy import dictionary
tokenizer_obj = dictionary.Dictionary().create()

def tokenize(x):
    sen = []
    voidwordlist = ("補助記号","記号","空白")
    dic = {"w":"<BOS>","pron":"","PoSp":["BOS/EOS", "*", '*', '*', '*', "BOS/EOS"]}
    sen.append(dic)
    for y in tokenizer_obj.tokenize(x, tokenizer.Tokenizer.SplitMode.C):
        dic = {}
        dic["w"] = y.surface()
        if y.part_of_speech()[0] in voidwordlist:
            dic["pron"] = ""
        else:
            dic["pron"] = y.reading_form()
            
        dic["PoSp"] = y.part_of_speech()
        sen.append(dic)
    dic = {"w":"<EOS>","pron":"","PoSp":["BOS/EOS", "*", '*', '*', '*', "BOS/EOS"]}
    sen.append(dic)
    
    return sen

def RSearch(dic,q):
    item = [k for k, v in dic.items() if v == q]
    return item[0]



texts = [ここに何かを入れるかもしれないし入れないかもしれない]


for text in texts:
    sen = tokenize(text)
    sd = []
    for x in sen:
        if x in WD.values():
            ID = RSearch(WD,x)
        else:
            ID = len(WD)+1
            WD[ID] = x
        sd.append(ID)
    SD[len(SD)+1] = sd

ここからやること
・SDからマルコフ辞書を作る
・マルコフ辞書から文章を作る
・ピックスだかピッケルだかピクルだかで辞書の保管するやつを書く

もしかしたらやるかもしれないこと
・ユーザー辞書を作るかもしれない
ユーザー辞書関連↓
https://github.com/WorksApplications/Sudachi/blob/develop/docs/user_dict.md