Division des données de formation en apprentissage automatique et apprentissage / prédiction / vérification

Lors de l'étude ou de l'enseignement de l'apprentissage automatique basé sur le Tutoriel PyData.Tokyo # 1, de la division des données de formation, J'ai du mal à comprendre les parties d'apprentissage, de prédiction et de vérification. Je vais expliquer cette partie.

Conditions préalables

Diviser les données d'entraînement

Matrice de caractéristiques «X» Données d'étiquette de classe y Si vous procédez comme suit, vous pouvez diviser les données.

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, train_size=0.8, random_state=1)

機械学習データの分割2.png

--X_train: matrice de fonctionnalités pour l'apprentissage (80%) --X_val: matrice des caractéristiques d'évaluation (20%) --y_train: étiquette de classe d'entraînement (80%) Données inconnues --y_val: étiquette de classe d'évaluation (20%) Utilisé pour répondre à des données inconnues (le garder caché)

Apprentissage / prédiction / vérification

Initialisation du classificateur (apprenant)

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

Initialisez clf et utilisez-le pour l'apprentissage, la prédiction et la vérification suivants.

Apprentissage

clf.fit(X_train, y_train)

Entraînez-vous à l'aide de la méthode d'ajustement CLF initialisée Les données donnent à 80% des données d'entraînement une matrice de caractéristiques et une étiquette de classe

Prévoir

y_train_pred = clf.predict(X_train)
y_val_pred = clf.predict(X_val)

Prédire avec la méthode de prédiction de clf.

--y_train_pred: résultat de la re-prédiction avec les données d'entraînement --y_val_pred: résultat de la prédiction utilisant les données d'évaluation

Jusqu'à présent, je n'ai pas utilisé y_val. Autrement dit, y_train est traité comme des données inconnues

Évaluation / vérification

from sklearn.metrics import accuracy_score
train_score = accuracy_score(y_train, y_train_pred)
val_score = accuracy_score(y_val, y_val_pred)

ʻAccuracy_score est donné les données d'étiquette de classeetle résultat de prédiction ci-dessus`, et le taux de réponse correct est affiché.

--train_score: résultat de la prédiction à l'aide des données d'entraînement --val_score: à la suite d'une prédiction utilisant des données d'évaluation, cela signifie qu'une prédiction a été faite à l'aide de données inconnues.

Recommended Posts

Division des données de formation en apprentissage automatique et apprentissage / prédiction / vérification
Prédiction de données chronologiques par AutoML (apprentissage automatique automatique)
Ensemble de données pour l'apprentissage automatique
Apprentissage automatique et optimisation mathématique
Comment diviser les données de formation en machine learning en variables objectives et autres dans Pandas
Vérification des performances du prétraitement des données pour l'apprentissage automatique (données numériques) (partie 2)
Prétraitement dans l'apprentissage automatique 3 Données de valeur manquante / aberrante / de déséquilibre
Vérification des performances du prétraitement des données pour l'apprentissage automatique (données numériques) (partie 1)
Importance de l'apprentissage automatique et de l'apprentissage par mini-lots
Classification et régression dans l'apprentissage automatique
Organisez des plateformes d'apprentissage automatique et d'apprentissage en profondeur
Apprentissage automatique dans Delemas (acquisition de données)
Prétraitement dans l'apprentissage automatique 2 Acquisition de données
Prétraitement dans l'apprentissage automatique 4 Conversion de données
Procédure d'apprentissage automatique de base: ② Préparer les données
Comment collecter des données d'apprentissage automatique
[Apprentissage automatique] OOB (Out-Of-Bag) et son ratio
Sklearn de données déséquilibrées avec apprentissage automatique k-NN
[Apprentissage automatique] Prédiction FX à l'aide de l'arbre de décision
Apprentissage automatique
Structure et fonctionnement des données Python (mémo d'apprentissage Python ③)
[Python] Première analyse de données / apprentissage automatique (Kaggle)
Prédiction des données en un clic pour le champ réalisée par apprentissage automatique entièrement automatique
Résumé de la classification et de la mise en œuvre des algorithmes d'apprentissage automatique
Créer un environnement pour Python et l'apprentissage automatique (macOS)
Python: prétraitement dans l'apprentissage automatique: conversion de données
"Tutoriels OpenCV-Python" et "Système d'apprentissage automatique pratique"
Python: prétraitement en machine learning: gestion des données manquantes / aberrantes / déséquilibrées
Prétraitement dans l'apprentissage automatique 1 Processus d'analyse des données
Jusqu'au lancement d'un site de triple prédiction de course de bateaux utilisant l'apprentissage automatique et Flask
J'ai essayé de traiter et de transformer l'image et d'élargir les données pour l'apprentissage automatique
Machine Learning avec docker (40) avec anaconda (40) "Hands-On Data Science and Python Machine Learning" Par Frank Kane
Étudiez l'apprentissage automatique et l'informatique. Liste des ressources
Astuces de fourniture de données utilisant deque dans l'apprentissage automatique
Données d'entraînement et données de test (Que sont X_train et y_train?) ②
Tournoi Numerai - Fusion de quants traditionnels et apprentissage automatique -
[Python] Analyse de données, pratique du machine learning (Kaggle) -Prétraitement des données-
J'ai commencé l'apprentissage automatique avec le prétraitement des données Python
Histoire de l'analyse de données par apprentissage automatique
Collectez vous-même des données d'image de formation au machine learning (API de recherche personnalisée Google Pikachu)
Créer des données d'entraînement
Prédire les attributs offensifs et défensifs à partir du nom de la carte Yugioh --Yugiou Data Science 3. Machine Learning
Collectez vous-même des données d'image de formation au machine learning (API Tumblr Yoshioka Riho ed.)
[Memo] Apprentissage automatique
Classification de l'apprentissage automatique
Exemple d'apprentissage automatique
Apprentissage automatique avec Raspberry Pi 4 et Coral USB Accelerator
Apprentissage des données relationnelles avec numpy et NetworkX (clustering spectral)
Apprentissage automatique facile avec scikit-learn et flask ✕ Application Web
Mémo d'apprentissage Python pour l'apprentissage automatique par Chainer chapitres 1 et 2
Méthode de voisinage #k d'apprentissage automatique et sa mise en œuvre et divers
[Tutoriel PyTorch ⑦] Visualisation des modèles, des données et de la formation avec Tensorboard
Utilisez l'ensemble de données d'entraînement scikit-learn avec chainer (pour l'entraînement / la prédiction)
Intelligence artificielle, machine learning, deep learning pour mettre en œuvre et comprendre
L'apprentissage automatique pratique avec Scikit-Learn et TensorFlow-TensorFlow a abandonné -
xgboost: modèle d'apprentissage automatique efficace pour les données de table
Configurer des bibliothèques Python et d'apprentissage automatique sur Ubuntu