Un mémo qui installe ChaSen, un système de traitement du langage naturel japonais basé sur l'analyse morphologique. Environnement: centos6.3
[Ici](http://getassoc.cs.nii.ac.jp/?%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC% E3% 83% AB% 2FChasen% E3% 81% AE% E3% 82% A4% E3% 83% B3% E3% 82% B9% E3% 83% 88% E3% 83% BC% E3% 83% AB) Et ici j'ai essayé d'installer Environnement: centos6.3
Tout d'abord, allez voir les informations sur ChaSen http://chasen-legacy.sourceforge.jp/ http://sourceforge.jp/projects/chasen-legacy/
Il semble que iconv et Darts-0.31 soient nécessaires.
D'abord des fléchettes. Il y en avait 3 et 2, alors mettez cela.
$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
gtar xvzf darts-0.32.tar.gz
cd darts-0.32
./configure
make
make check
sudo make install
Complété avec.
Puisque iconv est déjà inclus, je vais l'omettre.
$ wget http://iij.dl.sourceforge.jp/chasen-legacy/56305/chasen-2.4.5.tar.gz
$ tar xzf chasen-2.4.5.tar.gz
$ cd chasen-2.4.5
$ sudo ./configure
$ sudo make
$ sudo make install
$wget http://jaist.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz
# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure
Convertir le fichier de dictionnaire en UTF-8
convert.sh
#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
iconv -f euc-jp -t utf-8 $file > tmpfile
mv tmpfile $file
fi
done
exit
Exécutez le script shell ci-dessus pour convertir le fichier de dictionnaire en UTF-8 et le générer.
$ sh ./convert.sh
$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
$ make install
chasenrc également converti en UTF-8
$ cd /usr/local/etc
$ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
$ mv chasenrc.tmp chasenrc
Vous pouvez maintenant utiliser UTF8.
Recommended Posts