Programmation Python Machine Learning Chapitre 1 donne aux ordinateurs la possibilité d'apprendre à partir du résumé des données
introduction
--Apprentissage automatique
--Application et science des algorithmes pour comprendre la signification des données
--Un domaine plein d'enthousiasme en informatique
―― Ce chapitre traite des principaux concepts de l'apprentissage automatique et de leurs types.
--Contenu à traiter
--Concept général
――Trois types d'apprentissage et termes de base
--Composants pour la conception du système
- Configuration de Python
- Exemple de code
1.1 "Machine intelligente" qui transforme les données en connaissances
--Grande quantité de données
- Données structurées
- Données non structurées
--Exemples d'application dans la vie quotidienne
--Filtre anti-spam
- Logiciel de reconnaissance de caractères / voix
- Moteur de recherche
--Compétition avec l'épéiste
1.2 3 types d'apprentissage automatique
--Apprentissage avec un enseignant
--Apprendre sans professeur
- Renforcer l'apprentissage
1.3 Prédiction future par «apprendre avec l'enseignant»
- Cible
- Apprentissage d'un modèle à partir de données d'entraînement afin de pouvoir prédire des données inconnues et futures
- Données enseignées
- Un ensemble d'échantillons pour lesquels le signal de sortie souhaité est déjà connu
- S'il existe un filtre anti-spam, s'agit-il de "spam" ou "pas de spam"?
--Exemple
--Catégorie: a des étiquettes de classe de valeur discrète
--Return: le signal de sortie a une valeur continue
1.3.1 Classification pour la prédiction des étiquettes de classe
- Objectif
- Prédiction des étiquettes de classe pour les nouvelles instances en fonction des observations passées
- Les étiquettes de classe sont des valeurs discrètes et dans le désordre (affiliation)
--Classification bivalente
--Filtre anti-spam
--Classification multi-classes
- Reconnaissance de caractères manuscrits
1.3.2 Régression pour prédire les valeurs continues
- Objectif
- Compte tenu de plusieurs prédicteurs et de variables de réponse continue, explorez la relation entre ces variables afin de pouvoir prédire le résultat.
--Régression linéaire
1.4 Résoudre les problèmes de dialogue grâce à un apprentissage amélioré
- Cible
- Développer un système (agent) qui améliore les performances en fonction de l'interaction avec l'environnement
--Peut être considéré comme un domaine lié à l'apprentissage supervisé
- Les informations sur l'état actuel de l'environnement comprennent également des signaux de récompense
―― Ce feedback n'est pas le libellé ou la valeur de la bonne réponse, mais quantifie la performance de l'action mesurée par la fonction «récompense».
--Maximisation de la récompense
- Approche d'essai et d'erreur
-Ne pas utiliser de modèle
- Planification scolaire de cram
--Utiliser le modèle
--Exemple
- Moteur d'échecs
--Reward gagne ou perd
1.5 Découverte de la structure cachée par "apprendre sans professeur"
--Apprendre sans professeur
- Gestion de données non étiquetées ou de données avec une structure inconnue
1.5.1 Découverte de groupe par clustering
--Clustering (classement sans professeur)
- Analyse de données exploratoire qui peut structurer une grande quantité d'informations comme un groupe significatif
- Analyse des données exploratoires: calculez les statistiques des données et visualisez la distribution pour en tirer des connaissances exploratoires sur les données.
--Exemple
--Découverte des groupes de clients en marketing
1.5.2 Réduction de dimension pour la compression des données
- (Pas d'enseignant) Réduction de dimension
--Compresser les données dans des sous-espaces de dimension inférieure tout en préservant la plupart des informations pertinentes
- Objectif
- Je veux éviter de traiter un grand nombre de valeurs car l'espace de stockage et les performances de calcul sont limités.
--Visualisation de données
- Exemple de méthode
- Réduction de dimension non supervisée
- Analyse des composants principaux
--Analyse des composants principaux du noyau
- Avec réduction de la dimension de l'enseignant
- Analyse de discrimination
1.6 Termes de base et notation
- échantillon
- Valeur de fonctionnalité
--Cible
- algèbre linéaire
- vecteur
- file d'attente
1.7 Feuille de route pour la construction d'un système d'apprentissage automatique
- Flux de travail général lors de l'utilisation de l'apprentissage automatique pour la modélisation prédictive
- Prétraitement
- Apprentissage
- Évaluation
- Prévisions
1.8 Prétraitement: mise en forme des données
- Prétraitement
- Convertir au format requis pour optimiser les performances des algorithmes d'apprentissage automatique
--Même échelle des fonctionnalités sélectionnées
--Convertir la quantité de caractéristiques en 0,1 plage
--Convertir à la distribution normale standard avec une moyenne de 0 et une variance de 1
- En fonction des caractéristiques extraites, il existe un degré élevé de corrélation et de duplication constante
- Réduction de la dimension
- Vérifier s'il peut être appliqué (généralisé) à de nouveaux ensembles de données
- Divisez l'ensemble de données en un ensemble de données d'entraînement et un ensemble de données de test
1.8.1 Formation et sélection de modèles prédictifs
- La comparaison de plusieurs algorithmes est essentielle pour former et sélectionner un bon modèle
--Indicateur de mesure des performances
- Taux de réponse correct
--Estimation des performances de généralisation du modèle
--Split l'ensemble de données de formation pour la formation et la validation, et la validation croisée
- Optimisation des paramètres d'hyper
1.8.2 Évaluation du modèle et prédiction d'instances inconnues
--Evaluation de l'erreur de généralisation
--Appliquer le modèle à l'ensemble de données de test et vérifier ses performances par rapport à des données inconnues
- Les paramètres de la procédure ci-dessus, tels que la mise à l'échelle des entités et la réduction de dimension, sont récupérés uniquement dans le jeu de données d'apprentissage.
1.9 Utiliser Python pour l'apprentissage automatique
1.9.1 Installation du package Python
- Numpy
- Tableau multidimensionnel
- Pandas
--Outil de manipulation de données de plus haut niveau
- matplotlib
--Visualisation des données numériques
- scikit-learn
--Apprentissage automatique
Livre de référence
Merci beaucoup.