H2Use "BeTSCAE" - 271108の記憶貯蔵庫

BeTSCAEの使い方です。桜井さんではないです。
BeTSCAEってなんですか？Amesiorineに入れるために頑張ってる機構です。えっちじゃん。えっちではない。

多分終わった部分
実装するか未定部分
- Q10:RejectedListって何？
- Q11.この［名称未設定：信頼度スコア］って何？

多分終わった部分

Q1:WDってなに？

A1:WordDictionaryの略。wに単語、pronに読み方、PoSpに品詞が入ってるよ。

Q2:SDって何？

A2:SentenceDictionaryの略じゃないかな。文の辞書だよ。
[1, 8445, 64, 10592, 324, 136, 120, 2]みたいな感じでWDのIDが入ってるよ。必ず1から始まって2で終わるよ。~~1はBoS、2はEoSだからそれはそう。~~

Q3:MDって何？

A3:マルコフ辞書のつもりだよ。~~マルコフ辞書についてよく分かってないから間違ってるかもネ！~~
((43, 72, 120, 130), [64, 1182])みたいな感じで4つの単語の後に続く１単語が入っている辞書だよ。この場合、43,72,120,130っていう単語が４つ見えてたら次に64か1182が来るってことだよ。

Q4:WD_unknownって何？

A4:読みが分からなかったという判定を貰った単語の墓場だよ。WDと構造は一緒だよ。pronには文字列""が入っているよ。ここに落ちてきた単語を将来的にはユーザー辞書を使って減らそうね。

Q5:ExcludedSって何？

A5:読みが分からなかったという判定を貰った単語が入っている文の置き場だよ。['パッツァ、ミツボシ、コレルしかいないや', [1976, 699]]ってのがあったとするよ。この時、0番目の要素は読みが分からなかった単語が含まれている文だよ。1番目の要素は読みが分からなかった単語のリストだよ。WD_unknown[1976],WD_unknown[699]を見ると({'w': 'ミツボシ', 'pron': '', 'PoSp': ['名詞', '普通名詞', '一般', '*', '*', '*']}, {'w': 'コレル', 'pron': '', 'PoSp': ['名詞', '普通名詞', '一般', '*', '*', '*']})って感じに読みが分からなかった単語が出てくるよ。ちなみにWD[1976],WD[699]ってやると、({'w': 'るな', 'pron': 'ルナ', 'PoSp': ['名詞', '固有名詞', '人名', '名', '*', '*']}, {'w': '談義', 'pron': 'ダンギ', 'PoSp': ['名詞', '普通名詞', 'サ変可能', '*', '*', '*']})と全く違う単語が出てくるから間違えないようにね。

Q6:MDstartって何？

A6:(1, 8127, 1669, 5512)って感じにマルコフ辞書の始まりが1になっているやつの集まりだよ。これ要る？

Q7:文章を新たに追加したい！

A7:AdditionalStudy()を使ってください。変数は文字列のlistを投げ込んでください。初回はFirstStudy()でやってください。こっちはcsvをいくつも投げ込むことを想定しているので変数はpathです。ブログにまとめてて思ったけどこの仕様最悪だな。

Q8:文章を生成したい！

A8:Genereteを使ってください。変数「mode」でMDかSDを選んでください。デフォルトはMD。変数「outputmode」でどう返すか選んでください。詳しくはコード見ろ。

[Deleted]

実装するか未定部分

Q10:RejectedListって何？

A10:Amesiorineが「この文章食べていい？」って聞いた時に271108に「ダメ！ぺっしなさい！」って言われた文章の墓場の予定。

Q11.この［名称未設定：信頼度スコア］って何？

A11:Amesiorineからの信頼度スコアです。エミィが知らない単語を学ぶのに使わせたい。得た情報の正確さの判定はw2vあたりを検討中。