[Français] scikit-learn 0.18 Guide de l'utilisateur Table des matières
google traduit http://scikit-learn.org/0.18/user_guide.html
Cliquez ici pour le tutoriel
Mode d'emploi
1. Apprentissage supervisé
- Méthode du carré minimum
- La complexité de la méthode des moindres carrés
- Retour de crête
- Complexité de la crête
- Réglage des paramètres de normalisation: vérification mutuelle généralisée
- Contraction absolue minimale et opérateur de sélection --Lasso
- Définition des paramètres de régularisation
- Recours à la vérification mutuelle
- Sélection de modèles basée sur l'information
- Lasso multitâche
- Elastic Net
- Filet élastique multitâche
- Régression d'angle minimum --LARS
- LARS Lasso
- Prescription mathématique
- Poursuite de l'appariement orthogonal (OMP)
- Retour basian
- Retour Bage Anridge
- Validation automatique --ARD
- Retour logistique
- Descente de gradient probabiliste-SGD
- Perceptron
- Algorithme agressif passif
- Régression de robustesse: valeurs aberrantes et erreurs de modélisation
- Différents scénarios et concepts utiles
2. RANSAC:RANdom SAmple Consensus
- Détails de l'algorithme
- Estimateur Theil-Sen: estimateur basé sur la généralisation
- Considération théorique
- Retour de l'aspirateur
- Remarques
- Régression polygonale: extension du modèle linéaire avec fonction de base
1.2. Analyse de discrimination linéaire et quadratique non traduite
- Réduction dimensionnelle à l’aide d’une analyse discriminante linéaire
- Formulation mathématique des classificateurs LDA et QDA
- Formulation mathématique de la réduction de dimension LDA
- Rétrécissement
- Algorithme d'estimation
- Classification
- Classification multiclasse
- Score et probabilité
- Problème déséquilibré
- Retour
- Estimation de la densité, détection de nouveauté
- Complexe
- Conseils pratiques
- Fonction du noyau
- Noyau personnalisé
- Utilisez les fonctions Python comme noyau
- Utilisation de la matrice gramme
- Paramètres du noyau RBF
- Prescription mathématique
- SVC
- NuSVC
- SVR
- Détails de mise en œuvre
1.5. Descente de gradient probabiliste : us: non traduit
- Classification
- Retour
- Descente de gradient probabiliste de données rares
- Complexe
- Conseils pratiques
- Prescription mathématique
- SGD
- Détails de mise en œuvre
- Méthode du voisin le plus proche sans enseignant
- Trouvez le voisin le plus proche
- Classe KDTree et classe BallTree
- Classification la plus proche
- Régression la plus proche
- Algorithme de méthode du voisin le plus proche
- Force brute
- Arbre K-D
- Arbre à boules
- Sélection de l'algorithme du plus proche voisin
- Effet de leaf_size
- Classificateur du centre de gravité le plus proche
- Centroïde rétréci le plus proche
- Quartier approximatif à proximité
- Forêt de hachage sensible à la communauté
- Description mathématique du hachage de sensibilité locale
- Régression de processus gaussien (GPR)
- Exemple GPR
- GPR avec estimation du niveau de bruit
- Comparaison du GPR et de la régression des crêtes de noyau
- GPR des données de CO2 du Mauna Loa
- Classification des processus gaussiens (GPC)
- Exemple de GPC
- Prédiction probabiliste par GPC
- Schéma de GPC sur l'ensemble de données XOR
- Classification des processus gaussiens (GPC) dans l'ensemble de données de l'iris
- Noyau de processus gaussien
- API du noyau de processus gaussien
- Noyau de base
- Opérateur de noyau
- Noyau de fonction de base radiale (RBF)
- Noyau Matteran
- Noyau secondaire raisonnable
- Noyau Exp-Sine-Squared
- Noyau de produit scalaire
- Références
- Processus gaussien hérité
- Exemple de régression d'introduction
- Mise en place de données bruyantes
- Prescription mathématique
- Première hypothèse
- Meilleure prédiction linéaire sans biais (BLUP)
- Meilleur prédicteur de biais linéaire empiriquement (EBLUP)
- Modèle de corrélation
- Modèle de régression
- Détails de mise en œuvre
- Gauss Naive Bayes
- Polygon Naive Bayes
- Bernouy Naive Bayes
- Ajustement du modèle de baies naïves hors cœur
- Classification
- Retour
- Problème de sortie multiple
- Complexe
- Conseils pratiques
- Algorithme d'arborescence: ID3, C4.5, C5.0 et CART
- Prescription mathématique
- Critères de classification
- Critères de régression
- Méta-estimateur d'ensachage
- Forêt arborée aléatoire
- Forêt aléatoire
- Arbre hautement aléatoire
- Paramètres
- Parallélisation
- Évaluation de l'importance fonctionnelle
- Incorporation d'arbres entièrement aléatoire
- AdaBoost
- Utilisation
- Boost d'arbre de dégradé
- Classification
- Retour
- Adapter les apprenants faibles supplémentaires
- Contrôle de la taille des arbres
- Prescription mathématique
- Fonction de perte
- Normalisation
- Rétrécissement
- Sous-échantillonnage
- Interprétation
- Importance de la fonction
- Partiellement dépendant
- VotingClassifier
- La plupart des labels de classe (décision majoritaire / sélection minutieuse)
- Utilisation
- Probabilité moyenne pondérée (vote modéré)
- Utiliser le classificateur de vote avec la recherche de grille
- Utilisation
- Format de classification multi-étiquettes
- Un repos
- Apprentissage multi-classes
- Apprentissage multi-étiquettes
- 1 à 1
- Apprentissage multi-classes
- Code de sortie de correction d'erreur
- Apprentissage multi-classes
- Régression multi-sorties
- Classification de plusieurs produits
- Supprimer les entités à faible dispersion
- Sélection de la fonction univariée
- Suppression des fonctionnalités récursives
- Sélection des fonctionnalités à l'aide de SelectFromModel
- Sélection de fonctionnalités basée sur L1
- Modèle épars randomisé
- Sélection des fonctionnalités par arborescence
- Sélection des fonctions dans le cadre du pipeline
- Propagation des étiquettes
1.17. Modèle de réseau neuronal (avec professeur) : us: non traduit
- Perceptron multicouche
- Classification
- Retour
- Normalisation
- Algorithme
- Complexe
- Prescription mathématique
- Conseils pratiques
- Plus de contrôle avec warm_start
2. Apprentissage non supervisé
- Gauss mixte
- Avantages et inconvénients du mélange gaussien
- Avantages
- Inconvénients
2 Sélection du nombre de composants dans le modèle mixte gaussien classique
- L'algorithme d'estimation maximise la valeur attendue
- Variante Bayes Gauss mixte
- Algorithme d'estimation: inférence de variantes
- Avantages et inconvénients de l'inférence de transformation avec un mélange gaussien bayésien
- Avantages
- Inconvénients
- Processus Diricre
- Introduction
- Isomap
- Complexe
- Incorporation localement linéaire
- Complexe
- Incorporation linéaire modifiée localement
- Complexe
- Cartographie unique de la matrice de Hesse
- Complexe
- Incorporation spectrale
- Complexe
- Alignement de l'espace tangent local
- Complexe
- Mise à l'échelle multidimensionnelle (MDS)
- MDS métrique
- MDS non métrique
- Incorporation probabiliste de voisinage distribuée en t (t-SNE)
- Optimisation du t-SNE
- Burns chapeau t-SNE
- Conseils pratiques
- Présentation de la méthode de clustering
- K moyen
- Mini lot K-Means
- Propagation d'affinité
- Changement moyen
- Regroupement du spectre
- Différence dans la méthode d'attribution des étiquettes
- Regroupement hiérarchique
- Différents types de liaison: Ward, liaison moyenne complète
- Ajouter une contrainte de connexion
- Modifier la métrique
- Clustering spatial basé sur la densité (DBSCAN)
- Réduction itérative et regroupement hiérarchiques équilibrés (BIRCH)
- Évaluation des performances des regroupements
- Indice foncier ajusté
- Avantages
- Inconvénients
- Prescription mathématique
- Notation mutuelle basée sur l'information
- Avantages
- Inconvénients
- Prescription mathématique
- Homogénéité, exhaustivité et échelle en V
- Avantages
- Inconvénients
- Prescription mathématique
- Score de Fowlkes-Mallows
- Avantages
- Inconvénients
- Coefficient de silhouette
- Avantages
- Inconvénients
- Index Karinsky Harabaz
- Avantages
- Inconvénients
- Co-clustering spectral
- Prescription mathématique
- Spectre par clustering
- Prescription mathématique
- Évaluation en deux clusters
- Analyse en composantes principales (ACP)
- ACP précise et interprétation probabiliste
- ACP incrémentale
- PCA avec SVD aléatoire
- PCA du noyau
- Analyse fragmentaire des principaux composants (SparsePCA et MiniBatchSparsePCA)
- Décomposition de la singularité de la troncature et analyse de la signification latente
- Apprentissage du dictionnaire
- Codage parcimonieux avec un dictionnaire pré-calculé
- Apprentissage général du dictionnaire
- Apprentissage du dictionnaire par mini-lots
- Analyse factorielle
- Analyse indépendante des composants (ICA)
- Décomposition matricielle non négative (NMF ou NNMF)
- Affectation potentielle de direction (LDA)
- Co-dispersion empirique
- Co-distribution de réduction
- Contraction de base
- Ledoit-Wolf Shrink
- Contraction approximative d'Oracle
- Co-dispersion inverse clairsemée
- Estimation de covariance robuste
- Formule matricielle de covariance minimale
- Détection de nouveauté
- Détection des valeurs aberrantes
- Installez l'enveloppe ovale
- Forêt d'isolement
3.1 Classe SVM vs enveloppe elliptique vs forêt d'isolement
- Estimation de la densité: histogramme
- Estimation de la densité du noyau
2.9. Modèle de réseau neuronal (sans enseignant) : us: non traduit
- Machine Boltzmann limitée
- Modèle graphique et paramétrage
- Machine Boltsman limitée Bernoulli
- Apprentissage probabiliste le plus probable
3. Sélection et évaluation du modèle
- Calcul des métriques à validation croisée
- Obtention de prévisions par validation croisée
- Itérateur de vérification croisée
- Données d'itérateur de validation croisée i.i.d
- K fois
2. Leave One Out(LOO)
3. Leave P Out(LPO)
- Vérification mutuelle de remplacement aléatoire a.k.a. Shuffle & Split
- Itérateur de validation mutuelle avec hiérarchie basée sur l'étiquette de classe
- couches K fois
- Fractionnement aléatoire en couches
- Itérateur de validation mutuelle pour les données groupées
- Groupe k fois
- Quittez un groupe
- Quitter le groupe P
- Répartition aléatoire du groupe
- Fold-Split / Validation-Sets prédéfinis
- Vérification mutuelle des données de séries chronologiques
- Division des séries chronologiques
- Précautions de lecture aléatoire
- Vérification mutuelle et sélection du modèle
- Recherche de grille complète
- Optimisation des paramètres aléatoires
- Conseils de recherche de paramètres
- Spécification des mesures objectives
- Estimations composites et espace des paramètres
- Sélection du modèle: élaboration et évaluation
- Parallèle
- Robustesse au handicap
- Alternative à la recherche de paramètres Bruteforce
- Validation mutuelle spécifique au modèle
- Norme d'information
- Autres estimateurs
- Paramètre de score: définition de la règle d'évaluation du modèle
- Cas général: valeur prédéfinie
- Définir une stratégie de notation à partir d'une fonction métrique
- Implémentation de votre propre objet de notation
- Métrique de classification
- Du binaire au multi-classes et multi-étiquettes
- Score de précision
- Kappa de Cohen
- Matrice de confusion
- Rapport de classification
- Perte de fredonnement
- Score du coefficient de similarité de Jacquard
- Précision, rappel, mesures F
- Classification binaire
- Classification des multi-classes et multi-étiquettes
- Perte de charnière
- Perte de journal
- Coefficient de corrélation de Matthews
- Caractéristiques de fonctionnement du récepteur (ROC)
- Zéro une perte
- Perte de score Breather
- Mesure de classement multi-étiquettes
- Erreur de couverture
- Précision moyenne du classement des étiquettes
- Perte de classement
- Métrique de régression
- Score de variance décrit
- Erreur absolue moyenne
- Erreur quadratique moyenne
- Erreur absolue centrale
- Score R², facteur de décision
- Métrique de clustering
- Estimateur factice
- Exemple de persistance
- Limites de sécurité et de maintenabilité
- Courbe de vérification
- Courbe d'apprentissage
4. Conversion de jeux de données
- Pipeline: estimateur de chaîne
- Utilisation
- Remarque
- FeatureUnion: espace de fonctionnalités composite
- Utilisation
- Chargement des fonctionnalités à partir des dictionnaires
- Hachage des fonctionnalités
- Détails de mise en œuvre
- Extraction de fonctionnalités de texte
- Notation de mot
- Rareté
- Comment utiliser le vectoriseur commun
- Pondération du terme Tf-idf
- Décodage des fichiers texte
- Applications et échantillons
- Limitations d'expression dans Sac de mots
- Vectoriser un corpus de texte volumineux à l’aide d’astuces
- Effectuez une mise à l'échelle hors cœur avec HashingVectorizer
- Classe de vectorisation personnalisée
- Extraction de caractéristiques d'image
- Extraction de patch
- Graphique de connectivité des images
- Standardisation, élimination moyenne et mise à l'échelle de la dispersion
- Mise à l'échelle des fonctionnalités à la plage
- Mise à l'échelle des données éparses
- Mise à l'échelle des données contenant des valeurs aberrantes
- Matrice de centrage du noyau
- Normalisation
- Binarisation
- Binarisation des fonctionnalités
- Encodez la fonction de la catégorie
- Achèvement des valeurs manquantes
- Générer des caractéristiques polymorphes
- Transformateur personnalisé
- PCA: analyse en composantes principales
- Projection aléatoire
- Agglomération de caractéristiques
- Supplément Johnson-Lindenstrauss
- Projection aléatoire gaussienne
- Projection aléatoire éparse
- Méthode Nystroem pour l'approximation du noyau
- Noyau de fonction de base radiale
- Additive Chi Squared Kernel
- Noyau chi carré asymétrique
- Détails des mathématiques
- Similitude cosinus
- Noyau linéaire
- Noyau polygonal
- Noyau Sigmaid
- Noyau RBF
- Noyau laplacien
- Noyau du chi carré
- Binarisation des étiquettes
- Codage des étiquettes
5. Utilitaire de lecture de l'ensemble de données : us: non traduit
- API d'ensemble de données générales
- Jeu de données sur les jouets
- Exemple d'image
- Générateur d'échantillons
- Générateur de classification et de regroupement
- Étiquette unique
- Multi-étiquettes
3. Biclustering
- Générateur de régression
- Générateur pour un apprentissage diversifié
- Générateur de démontage
- Ensemble de données au format svmlight / libsvm
- Chargement à partir d'un ensemble de données externe
- Olivetti fait face à l'ensemble de données
- 20 ensembles de données textuelles de groupes de discussion
- Utilisation
- Convertissez le texte en vecteur
- Filtrage de texte pour une formation plus réaliste
- Téléchargez le jeu de données depuis le référentiel mldata.org
- Visages étiquetés dans le jeu de données de reconnaissance de visage sauvage
- Utilisation
- Exemple
- Déforestation
- Ensemble de données RCV1
- Ensemble de données sur les prix des maisons de Boston
- Remarque
- Base de données (diagnostic) du cancer du sein dans le Wisconsin
- Remarque
- Références
- Ensemble de données sur le diabète
- Remarque
- Reconnaissance optique des données numériques manuscrites
- Remarque
- Références
- Base de données des plantes Iris
- Remarque
- Références
- Ensemble de données Linnerrud
- Remarque
- Références
6. Stratégie d'expansion informatique: données plus volumineuses : us: non traduites
- Mise à l'échelle des instances à l'aide de l'apprentissage hors cœur
- Instance de streaming
- Extraction de fonctionnalités
- Apprentissage incrémental
- Exemple
- Remarques
- Latence prévue
- Mode Bulk vs Atomic
- Impact du nombre de fonctionnalités
- Impact de la représentation des données d'entrée
- Impact de la complexité du modèle
- Latence d'extraction de fonctionnalités
- Débit prévu
- Conseils et techniques
- Bibliothèque d'algèbre linéaire
- Compression du modèle
- Changer la forme du modèle
- Lien
Cliquez ici pour le tutoriel
© 2010 --2016, développeurs scikit-learn (licence BSD).