辞書に単語を追加する方法

ChaSenの辞書に単語を追加する方法です。

手順は
1) ユーザ辞書を作る。テキストファイルです。
2) コンパイルする

    • コンパイルの仕方で、ユーザ辞書だけの辞書にしたり既存の辞書と統合したりすることができます。

1) ユーザ辞書を作る。
名詞の場合は最低限、見出し語と品詞とスコアだけあれば登録できます。
スコアは追加するユーザ辞書の単語を優先的に形態素に選ばれるあれば小さい数字にしとけばおkです。
ちなみに下の例のスコア1000はかなり小さな値です
ファイル名の拡張子は、コンパイル時に既存辞書と合体するのであればdicの方がよいでしょう。

% vi NewWord.dic
(品詞 (名詞 一般)) *1 *2 ((見出し語 (龍騎 1000)))

オリジナルの辞書をコピー

オリジナルの辞書と使い分けられる用にコピーした辞書にユーザ辞書を追加します。。
以下naist-jdicが/usr/local/にインストールされているとの前提です。

% cd /usr/local/lib/chasen/dic
% su 
# cp -r naist-jdic naist-jdic-NewWord

ここにnaist-jdic.dicがなければそれもコピーしておきます。
naist-jdic.dicはnaist-jdic-0.4.2.tar.gzに入っています。

# cp naist-jdic.dic /usr/local/lib/chasen/dic/naist-jdic-NewWord


2) ユーザ辞書の追加

cd naist-jdic-NewWord
cp ~./NewWord.dic .
`chasen-config --mkchadic`/makeda -i e chadic *.dic

追加した辞書の方を使うようにする

cp /usr/local/lib/chasen/dic/naist-jdic/chasenrc ~/.chasenrc
cd ~
文字コードutf-8で修正したい場合には
nkf -w .chasenrc > aaa
vi aaa
# (GRAMMAR  /usr/local/lib/chasen/dic/naist-jdic)
(GRAMMAR  /usr/local/lib/chasen/dic/naist-jdic-NewWord)

#(DADIC        chadic)
(DADIC        NewWord)

nkf -e aaa > .chasenrc

*1:見出し語 (龍馬エクスプレス 1000))) (品詞 (名詞 一般

*2:見出し語 (龍馬伝 1000))) (品詞 (名詞 一般