Cet article est prévu par Fujitsu Systems Web Technology Co., Ltd. Calendrier de l'avent des vacances d'été Inobeko 2020 Jour 33 !! (Extended Battle) article. Le contenu de cet article est ma propre opinion et ne représente pas l'organisation à laquelle j'appartiens.
Dans Our previous ad-care Article que j'ai publié dans, J'ai touché skit-learn pour implémenter la reconnaissance de caractères manuscrits de "caractère runique". J'ai pu le créer pour le moment, mais quand j'ai étudié le Deep Learning à partir de ce moment-là, "** Pour la reconnaissance d'image, pas pour le réseau neuronal de base Il existe une meilleure façon d'utiliser un réseau neuronal convolutif (CNN)! **"Quand Maintenant que nous savons cela, nous allons partager ce que nous savons sur sa mise en œuvre et son fonctionnement.
Les personnages runiques sont cool, non?
À l'aide de la bibliothèque d'apprentissage automatique Python ** scikit-learn **, J'ai utilisé le classificateur MLP, un modèle qui effectue une «classification», pour classer les caractères runiques manuscrits. Pour les données, j'ai préparé moi-même une image de caractères manuscrits, je l'ai augmentée avec "Data Augmentation" et je l'ai utilisée pour l'apprentissage.
En conséquence, nous avons pu créer un modèle capable de reconnaître les caractères manuscrits avec une précision d'environ 80%. Cependant, comme indiqué ci-dessous, j'étais intéressé par le fait que les données d'image étaient disposées dans un tableau unidimensionnel pour l'apprentissage.
--Traitement de la partie qui lit les données
#Lisez les fichiers du répertoire et ajoutez-les à la liste des données d'entraînement
for i, file in enumerate(files):
image = Image.open(file)
image = image.convert("L")
image = image.resize((image_size, image_size))
data = np.asarray(image).flatten() ##★ Ici, les informations de pixel sont transformées en un tableau unidimensionnel.
X.append(data)
#Afficher les données
np.set_printoptions(threshold=np.inf)
print(np.array(image2).flatten())
--Lire l'image du personnage manuscrit
<détails> Comme mentionné ci-dessus, dans un tableau unidimensionnel
Les informations sur les pixels du coin supérieur gauche au coin inférieur droit de l'image doivent être à plat.
Si tel est le cas, les informations verticales et horizontales de l'image seront perdues ... D'autre part, si vous utilisez quelque chose appelé un réseau neuronal convolutif (CNN)
J'ai appris que vous pouvez apprendre avec des données contenant des informations verticales et horizontales!
Ci-dessous, je décrirai le schéma et la méthode de mise en œuvre que j'ai organisés. Réseau neuronal convolutif (CNN)
Un réseau de neurones utilisé dans le domaine du traitement d'images
** L'image peut être utilisée telle quelle pour une saisie en deux dimensions **. L'idée principale de CNN est "Imitons le mouvement des cellules nerveuses dans le champ visuel des humains."
La méthode qui a été créée. CNN utilise un filtre (noyau) pour extraire les fonctionnalités d'une image.
Utilisez un filtre plus petit que l'image d'origine.
Superposez les filtres dans l'ordre en haut à gauche de l'image,
Calculez la somme du produit de l'image et de la valeur du filtre. Les caractéristiques obtenues à partir de l'image changeront en fonction de ce que vous faites avec les numéros de filtre.
Vous apprendrez quelle valeur le filtre doit avoir. [Référence] Vous pouvez voir le processus de reconnaissance de caractères de CNN visuellement sur le site suivant!
https://www.cs.ryerson.ca/~aharley/vis/conv/ Il semble y avoir un moyen d'implémenter les deux modèles suivants! Il s'agit d'une méthode pour implémenter manuellement le processus de calcul de filtre de CNN.
C'est pratiqué dans cet article.
https://qiita.com/ta-ka/items/1c588dd0559d1aad9921 Vous pouvez également implémenter CNN à l'aide de Keras, une bibliothèque dédiée au deep learning. https://keras.io/ja/ Keras est une bibliothèque de réseau neuronal de haut niveau écrite en Python qui peut être exécutée sur TensorFlow, CNTK ou Theano.
Si vous avez besoin d'une bibliothèque d'apprentissage en profondeur dans les cas suivants, utilisez Keras:
-Supporte à la fois CNN et RNN, et les combinaisons de ces deux Cette fois, je vais essayer d'utiliser la bibliothèque 2.Keras. Lorsque vous essayez d'utiliser Keras à cette fin, les options suivantes sont probablement disponibles. --Appelez et utilisez directement le Keras autonome
--Utilisez Keras inclus avec TensorFlow Cependant, à partir de mai 2020, le manuel officiel "Keras est fourni avec TensorFlow 2.0 sous le nom tensorflow.keras.
Pour démarrer avec Keras, installez simplement TensorFlow 2.0. " Il semble que ce soit une tendance à s'unifier à "Keras of TensorFlow". (Cité de l'article suivant) [Référence] La fin de Keras multi-backend, unifiée dans tf.keras
https://www.atmarkit.co.jp/ait/articles/2005/13/news017.html Après le passage du temps, j'utiliserai cette fois Keras de Tensorflow. Donc, j'ai utilisé ce qui suit.
TensorFlow a dû utiliser la version 2.0.0 avec une intégration améliorée avec Keras. --Anaconda: (Un package qui inclut Python lui-même et les bibliothèques couramment utilisées) Apprenons avec les données d'image créées (24 (caractères) x 18 (feuilles)) une fois précédent. Préparez un ensemble d'images et d'étiquettes à utiliser pour l'apprentissage.
Cette fois, il semble que nous devions passer le libellé de chaque donnée numériquement au modèle de Keras CNN.
J'ai créé à l'avance une table de correspondance de chaque caractère de rune et de l'étiquette (valeur numérique) dans Dictionary. <détails> Chargez l'image. Créez un modèle à entraîner.
Ici, définissez les "paramètres de couche de convolution (forme des données d'entrée, paramètres de filtre)" et "fonction d'activation à utiliser". Une explication détaillée de chaque élément est décrite en détail dans cet article.
Se il vous plaît se référer ...! https://qiita.com/mako0715/items/b6605a77467ac439955b L'apprentissage lui-même peut être fait simplement en appelant la fonction fit (). Une fois exécuté, un résumé de chaque apprentissage sera affiché. --loss: La valeur d'évaluation de la fonction de perte (plus la valeur est basse, plus la précision de la prédiction est élevée).
--acc: La précision de la prédiction. Dans le premier apprentissage, le taux de précision était d'environ 9%, mais dans le cinquième apprentissage, la précision est de 83%! Laissez le modèle prédire les données de validation. Créez une matrice de confusion en prenant l'exactitude de la prédiction des données de test. La matrice mixte est une table de combinaison de «valeur réelle \ valeur prédite du modèle».
Le nombre de réponses correctes correspond à l'intersection des lignes et des colonnes du même nombre. La bonne réponse est la majorité!
Après cela, vous pouvez voir qu'il y a beaucoup de mauvaises réponses avec la lettre "ᛒ", qui est le numéro 17 dans le tableau des résultats.
Si vous voulez vraiment augmenter le pourcentage de réponses correctes, vous pouvez revoir ou augmenter les données "ᛒ". Je pense qu'il y a peu de données d'entraînement, donc je vais traiter l'image du personnage manuscrit pour augmenter les données d'entraînement.
Cette fois, j'ai pu facilement faire pivoter les données de caractères avec un package de prétraitement appelé keras_preprocessing.
Cela est également ajouté aux données. C'était si simple! !!
En particulier, les marges générées par la rotation étant complétées,
Le fond ne devient pas noir. N'est-ce pas vraiment pratique ...? Apprenons à nouveau en ajoutant les données augmentées en faisant pivoter l'image d'origine. Le modèle peut désormais être plus précis que lorsque la quantité de données est faible! (97%) Jusqu'à présent, nous avons décrit le flux d'utilisation d'un réseau de neurones convolutif utilisant Keras en python. «Nous n'avons pas été en mesure de comparer exactement les mêmes données, mais nous avons constaté que l'utilisation de CNN offrait une précision plus élevée que le réseau neuronal de base précédent.
―― Dans l'ensemble, en utilisant les bibliothèques tensorflow et Keras, il y avait de nombreux endroits où vous pouviez écrire du code plus clairement que la dernière fois dans le prétraitement et l'affichage des résultats d'apprentissage / de prédiction!
――Je voudrais étudier et comprendre à nouveau l'emplacement de montage avec une compréhension duveteuse cette fois. J'espère que cet article vous sera utile. Enfin, je suis désolé d'être complètement en retard!
Je suis content d'avoir pu participer à la campagne publicitaire d'été, merci.
Recommended Posts

Utilisation du réseau neuronal à convolution (CNN)
Aperçu
Méthode de mise en œuvre
1. Assemblé à la main avec Numpy
2. Utilisez la bibliothèque Keras
Utilisation de Keras
Ce qui a été utilisé
Données utilisées
la mise en oeuvre
Importez le package à utiliser
#Package pour travailler avec des tableaux
import numpy as np
#Package de gestion des données et des fichiers image
from PIL import Image
import os, glob
# tensorflow
import tensorflow as tf
#Un package pratique de Keras qui pré-traite les données
from tensorflow.keras.preprocessing.image import array_to_img, img_to_array, load_img
from keras.utils import np_utils
#Utilisé pour séparer les données d'entraînement et les données de test
from sklearn.model_selection import train_test_split
#Utilisé pour l'affichage d'image des données d'entraînement
import matplotlib.pyplot as plt
#Utilisé pour afficher un résumé des résultats d'apprentissage
import pandas as pd
Lire le fichier
runeCharDict = { 0 : 'ᚠ',
1 : 'ᚢ',
2 : 'ᚦ',
3 : 'ᚫ',
4 : 'ᚱ',
5 : 'ᚲ',
6 : 'ᚷ',
7 : 'ᚹ',
8 : 'ᚺ',
9 : 'ᚾ',
10 : 'ᛁ',
11 : 'ᛃ',
12 : 'ᛇ',
13 : 'ᛈ',
14 : 'ᛉ',
15 : 'ᛋ',
16 : 'ᛏ',
17 : 'ᛒ',
18 : 'ᛖ',
19 : 'ᛗ',
20 : 'ᛚ',
21 : 'ᛜ',
22 : 'ᛞ',
23 : 'ᛟ',
}
#Lecture de fichiers
#Tableau pour stocker les données d'image
X = []
#Caractères correspondant aux données d'image(répondre)Tableau à stocker
Y = []
#Fichier de répertoire de données d'entraînement
dir = '[Répertoire où sont stockées les données d'image des caractères manuscrits]'
files = glob.glob(dir + "\\*.png ")
#Taille verticale et horizontale de l'image(pixel)
image_size = 50
#Lisez les fichiers du répertoire et ajoutez-les à la liste des données d'entraînement
for i, file in enumerate(files):
temp_img = load_img(file, target_size=(image_size, image_size))
temp_img_array = img_to_array(temp_img)
X.append(temp_img_array)
moji = file.split("\\")[-1].split("_")[0]
label = list(runeCharDict.keys())[list(runeCharDict.values()).index(moji)]
Y.append(label)
X = np.asarray(X)
Y = np.asarray(Y)
#Convertir les valeurs de pixel de 0 à 1
X = X.astype('float32')
X = X / 255.0
#Convertir le format de classe
Y = np_utils.to_categorical(Y, 24)
Créer un modèle
#Créer un modèle pour CNN
model = tf.keras.models.Sequential([
tf.keras.layers.Conv2D(64, (3,3), activation='relu', input_shape=(50, 50, 3)),
tf.keras.layers.MaxPooling2D(2,2),
tf.keras.layers.Conv2D(32, (3,3), activation='relu'),
tf.keras.layers.MaxPooling2D(2,2),
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(24, activation='softmax')
])
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
Apprentissage
#Séparez les données d'entraînement et les données de test
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=111)
#Apprentissage
model.fit(x_train, y_train, epochs=5)
Epoch 1/5
246/246 [==============================] - 2s 9ms/sample - loss: 3.1595 - acc: 0.0935
Epoch 2/5
246/246 [==============================] - 2s 9ms/sample - loss: 2.8289 - acc: 0.2317
Epoch 3/5
246/246 [==============================] - 2s 8ms/sample - loss: 2.0306 - acc: 0.4593
Epoch 4/5
246/246 [==============================] - 2s 8ms/sample - loss: 1.0820 - acc: 0.7642
Epoch 5/5
246/246 [==============================] - 2s 9ms/sample - loss: 0.6330 - acc: 0.8333
En regardant les éléments de droite, vous pouvez voir le pourcentage de réponses correctes pour le modèle en formation.
Test du modèle / affichage des résultats
#Appliquer aux données de test
predict_classes = model.predict_classes(x_test)
mg_df = pd.DataFrame({'predict': predict_classes, 'class': np.argmax(y_test, axis=1)})
#Sortie du nombre maximum actuel de colonnes d'affichage
pd.get_option("display.max_columns")
#Spécifiez le nombre maximum de colonnes d'affichage (50 colonnes sont spécifiées ici)
pd.set_option('display.max_columns', 50)
# confusion matrix
pd.crosstab(mg_df['class'], mg_df['predict'])
résultat
Données gonflées
#Keras utilisé dans les coulisses par Keras_preprocessing
from keras_preprocessing.image import apply_affine_transform
#Lecture de fichiers
#Tableau pour stocker les données d'image
X = []
#Caractères correspondant aux données d'image(répondre)Tableau à stocker
Y = []
#Lecture de fichiers(Comme mentionné ci-dessus)
#Lisez les fichiers du répertoire et ajoutez-les à la liste des données d'entraînement
for i, file in enumerate(files):
#Enregistrer les données originales(Comme mentionné ci-dessus)
#Données gonflées
image = img_to_array(temp_img)
#1. 1. Rotation de 10 degrés dans le sens des aiguilles d'une montre "thêta"=Spécifiez la fréquence de rotation avec
image1 = apply_affine_transform(image, channel_axis=2, theta=10, fill_mode="nearest", cval=0.)
X.append(image1)
Y.append(label)
#2. Rotation de 10 degrés dans le sens antihoraire
image2 = apply_affine_transform(image, channel_axis=2, theta=-10, fill_mode="nearest", cval=0.)
X.append(image2)
Y.append(label)
# #3. 3. Rotation de 20 degrés dans le sens des aiguilles d'une montre
image3 = apply_affine_transform(image, channel_axis=2, theta=20, fill_mode="nearest", cval=0.)
X.append(image3)
Y.append(label)
#4. Rotation de 20 degrés dans le sens antihoraire
image4 = apply_affine_transform(image, channel_axis=2, theta=-20, fill_mode="nearest", cval=0.)
X.append(image4)
Y.append(label)
Résultat d'apprentissage
Epoch 1/5
1232/1232 [==============================] - 7s 6ms/sample - loss: 23.2898 - accuracy: 0.1144
Epoch 2/5
1232/1232 [==============================] - 7s 6ms/sample - loss: 1.1991 - accuracy: 0.6396
Epoch 3/5
1232/1232 [==============================] - 7s 5ms/sample - loss: 0.3489 - accuracy: 0.8847
Epoch 4/5
1232/1232 [==============================] - 7s 5ms/sample - loss: 0.1527 - accuracy: 0.9456
Epoch 5/5
1232/1232 [==============================] - 6s 5ms/sample - loss: 0.0839 - accuracy: 0.9740
À la fin
Ce que je pensais