In letzter Zeit führe ich verschiedene Analysen durch, z. B. das Erfassen von Daten durch Scraping, das Durchführen von morphologischen Analysen mit Mecab usw.
Aktuelle Artikel Clustering von Büchern von Aozora Bunko mit Doc2Vec Scraping & Negative / Positive Analyse von Bunharu Online-Artikeln
Zu diesem Zeitpunkt befindet sich in der Docker-Umgebung nur die Art der Umgebung, die für die Analyse verwendet wird. Dieses Mal werde ich die von mir verwendete Docker-Datei veröffentlichen.
Basis: ubuntu
Enthalten: "Anaconda", "Mecab", "NEologd", "Gensim", "Janome", "Schöne Suppe" usw.
Einfallsreichtum: Ich habe NEologd als Standardwörterbuch festgelegt. Auf diese Weise müssen Sie das NEologd-Wörterbuch nicht jedes Mal angeben, wenn Sie mecab starten.
Referenz Kame-sans udemy Docker-Kurs ・ ・ ・ Es ist das Grundwissen meines Docker. Sehr empfehlenswerter Kurs. GitHub-Seite von NEologd ・ ・ ・ Stärker in der richtigen Nomenklatur als das Standardwörterbuch. Ändern des Standardwörterbuchs von MeCab [Mac] ・ ・ ・ Ich habe es als Referenz verwendet, als ich das Standardwörterbuch von mecab angegeben habe.
FROM ubuntu:latest
RUN apt-get update && apt-get install -y \
sudo \
wget \
vim \
mecab \
libmecab-dev \
mecab-ipadic-utf8 \
git \
make \
curl \
xz-utils \
file
WORKDIR /opt
RUN wget https://repo.anaconda.com/archive/Anaconda3-2020.07-Linux-x86_64.sh && \
sh Anaconda3-2020.07-Linux-x86_64.sh -b -p /opt/anaconda3 && \
rm -f Anaconda3-2020.07-Linux-x86_64.sh
ENV PATH /opt/anaconda3/bin:$PATH
RUN git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git ; exit 0
RUN cd mecab-ipadic-neologd && \
./bin/install-mecab-ipadic-neologd -n -y && \
echo "dicdir=/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd">/etc/mecabrc
RUN conda update -n base -c defaults conda
RUN pip install --upgrade pip && \
pip install mecab-python3 \
Janome \
jaconv \
tinysegmenter==0.3 \
gensim \
unidic-lite \
japanize-matplotlib
RUN conda install -c conda-forge \
newspaper3k && \
conda install beautifulsoup4 \
lxml \
html5lib \
requests
WORKDIR /work
CMD ["jupyter", "lab", "--ip=0.0.0.0", "--allow-root"]
Recommended Posts