Récemment, je fais diverses analyses telles que l'acquisition de données par grattage, la réalisation d'analyses morphologiques avec mecab, etc.
Articles récents Regroupement de livres d'Aozora Bunko avec Doc2Vec Raclage et analyse négative / positive des articles en ligne de Bunharu
À ce moment-là, le type d'environnement utilisé pour l'analyse se trouve dans l'environnement Docker. Cette fois, je publierai le Dockerfile que j'utilise.
Base: ʻubuntu Inclus: ʻanaconda
, mecab
, NEologd
, gensim
, janome
, Beautiful Soup
, etc.
Ingéniosité: j'ai défini NEologd comme dictionnaire par défaut. De cette façon, vous n'avez pas à spécifier le dictionnaire NEologd à chaque démarrage de mecab.
référence Cours udemy Docker de Kame-san ・ ・ ・ C'est la connaissance de base de mon Docker. Cours hautement recommandé. Page GitHub de NEologd ・ ・ ・ Plus fort dans la nomenclature appropriée que le dictionnaire par défaut. Modification du dictionnaire par défaut de MeCab [Mac] ・ ・ ・ Je l'ai utilisé comme référence lors de la spécification du dictionnaire par défaut de mecab.
FROM ubuntu:latest
RUN apt-get update && apt-get install -y \
sudo \
wget \
vim \
mecab \
libmecab-dev \
mecab-ipadic-utf8 \
git \
make \
curl \
xz-utils \
file
WORKDIR /opt
RUN wget https://repo.anaconda.com/archive/Anaconda3-2020.07-Linux-x86_64.sh && \
sh Anaconda3-2020.07-Linux-x86_64.sh -b -p /opt/anaconda3 && \
rm -f Anaconda3-2020.07-Linux-x86_64.sh
ENV PATH /opt/anaconda3/bin:$PATH
RUN git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git ; exit 0
RUN cd mecab-ipadic-neologd && \
./bin/install-mecab-ipadic-neologd -n -y && \
echo "dicdir=/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd">/etc/mecabrc
RUN conda update -n base -c defaults conda
RUN pip install --upgrade pip && \
pip install mecab-python3 \
Janome \
jaconv \
tinysegmenter==0.3 \
gensim \
unidic-lite \
japanize-matplotlib
RUN conda install -c conda-forge \
newspaper3k && \
conda install beautifulsoup4 \
lxml \
html5lib \
requests
WORKDIR /work
CMD ["jupyter", "lab", "--ip=0.0.0.0", "--allow-root"]