Cours Python pour la science des données - techniques utiles

python ・ L'ensemble est utilisé pour rechercher des listes en double.

-Les coordonnées peuvent être exprimées par quotient (ligne) et reste (colonne).

-Vérifiez la référence de la fonction avec shift + tab.

-_ Contient la dernière valeur de retour exécutée.

numpy ・ Np.uint8 (non signé, entier, 8 bits)  0~255 Utilisé pour les données d'image, etc.

・ Np.float32 Utilisé lors de l'enregistrement des données utilisées pour l'apprentissage automatique.

・ Np.float64 Utilisé lors de l'apprentissage d'un modèle.

・ Np.expand_dims Augmentez les dimensions du ndarray.

・ Np.squeeze Réduisez les dimensions du ndarray.

・ Flattern Rendre le tableau unidimensionnel.

・ Np.arange (démarrage, arrêt, étape) Avec gamme.

・ Np.linspace (démarrage, arrêt, num) Créez une liste de nombres de début à fin séparés par des nombres.

・ Np.logspace (démarrage, arrêt, num, base = 10) Calculez la puissance de la base en divisant le nombre du début à la fin par le nombre de num.

・ Np.zeros (), np.ones (), np.eyes () Tous les éléments sont 0, tous les éléments sont 1 et tous les éléments diagonaux sont 1.

・ Np.random.random () Spécifiez au hasard un nombre de 0 à 1.

・ Np.aléatoire.seed () Générez des nombres aléatoires.

・ Np.random.randn () Générer des valeurs à partir de la distribution normale standard (moyenne 0, variance 1).

・ Np.random.normal (moyenne, écart-type) Générer des valeurs à partir de la distribution normale (moyenne, écart type).

・ Np.random.randint (faible, élevé) Générez aléatoirement des valeurs au-dessus du bas et en dessous du haut Moins que faible, voire faible.

・ Np.random.choice (liste) Obtenez une valeur aléatoire dans la liste spécifiée.

・ Argmax (), argmin () Obtenez l'index de la valeur maximale et de la valeur minimale.

・ Différence entre la médiane et la moyenne Valeur médiane: le calcul prend du temps car le tri est nécessaire. Fort contre les valeurs aberrantes.

· Temps temps () Mesurez le temps.

・ 68-95-99.7 règles Probabilité que les données soient incluses dans l'écart type ± 1,2,3 par rapport à la moyenne (distribution normale).

・ Np.clip (tableau, min, max) Convertissez min ou moins en min et max ou plus en max.

・ Np.where (condition, vrai, faux) Si True pour la condition, convertissez-la en valeur spécifiée pour true et si False, convertissez-la en valeur spécifiée pour false.

・ .Tous (). Tout () Jugez si toutes les conditions sont vraies ou même une seule est vraie.

・ Np.unique (tableau, return_count = True) Renvoie un élément unique et chaque décompte.

・ Np.bincount () Renvoie un nombre de 0,1,2,3 ...

・ Np.concaténat () Concaténer le tableau.

・ Np. pile () Créez un nouvel axe et concaténez. Axis = -1 est souvent utilisé.

・ Np.transpose (), .T Translocation.

・ Np.save (chemin, tableau), np.load (chemin) Enregistrez et chargez la matrice.

・ Np.save (chemin, dictionnaire) .np.load (chemin, allow_pickle = True) [()] Enregistrez et chargez le dictionnaire.

pandas ・ Pd.set_options ("display.max_columns (rows)", num) Spécifiez le nombre de lignes et de colonnes à afficher.

· .Décris () Afficher les statistiques numériques.

· .Colonnes () Affichez une liste de colonnes.

・ Remplacer = Vrai Mise à jour du bloc de données d'origine.

・ Reset_index (drop = True) Attribuez à nouveau l'index. Remplacez l'index d'origine.

・ Set_index (nom de la colonne) Définissez la colonne spécifiée comme index.

・ Dropna (sous-ensemble = [nom de la colonne]) Supprimé la ligne où la colonne spécifiée est nan.

・ Df [np.isnan (df ["colonnes"])], df [df ["colonnes"]. Isna ()] Obtient la ligne où la colonne spécifiée est nan.

· Df.groupby ("colonnes"). Statistiques Affichez les statistiques regroupées par la colonne spécifiée.

・ Pd.concat (df1, df2, axe) Combinez les blocs de données dans la direction de l'axe spécifié.

・ Df1.merge (df2, comment, marche, droite_on, gauche_on, suffixes) Combinez les blocs de données avec la méthode de combinaison et la clé spécifiées.

・ Unique () Obtenez uniquement des valeurs uniques.

・ Nunique () Obtenez le nombre de valeurs uniques.

・ Value_counts () Obtenez le nombre d'enregistrements de chaque valeur.

・ Sort_values (par) Trier les données par colonne spécifiée.

・ Appliquer (fonction) Appliquez la fonction à chaque ligne.

・ Iterrows () Générez une itération qui renvoie l'index et la série.

matplotlib ・% Matplotlib en ligne Peut être dessiné sur jupyter.

・ Plt.plot (x, y) Dessinez un graphique sur les axes x et y.

・ Étiquette Plt.x (y) () Afficher l'étiquette.

・ Plt.title () Montrer le titre.

・ Plt.legend () Afficher les précédents.

・ Plt.x (y) ticks Affichez les graduations spécifiées.

-Plt.subplot (ligne, colonne, index) Dessinez plusieurs graphiques en spécifiant des lignes, des colonnes et des index.

・ Plt.figure ()  fig=plt.figure() ax1 = fig.add_subplot (ligne, colonne, index)

・ Plt.subplots (ligne, colonne) fig, axes = plt.subplots (ligne, colonne)  axes[0].plot(x,y)

・ Plt.scatter (), plt.hist (), plt.bar (), plt.boxplot () Dessinez des graphiques en nuage de points, des histogrammes, des graphiques à barres et des moustaches.  plt["columns"].value_count().plot(kind="bar")

seaborn ・ Sns.distplot (tableau, norm_hist, kde) Affichez l'histogramme. La fonction de densité de probabilité est affichée par défaut dans KDE.

· Estimation de la densité du noyau (KDE) Une méthode pour estimer la fonction de densité de probabilité.

・ Sns.jointplot () Affichez un diagramme de dispersion de deux variables. Chaque histogramme est également affiché. Affichez la ligne de régression avec kind = "reg".

・ Sns.pairplot () Affichez un diagramme de dispersion de tous les éléments numériques. Code couleur par teinte.

・ Sns.barplot (x = variable catégorielle, y = item numérique, data = df) La valeur moyenne de y de x est affichée sous forme de graphique à barres. Afficher l'intervalle de confiance à 95%.

・ Graphique de comptage Sns (x) Afficher le nombre de variables spécifiées.

・ Sns.boxplot (x, y) Afficher le diagramme des moustaches de la variable spécifiée

・ Sns.violinplot (x, y) Affichez la densité de distribution de la variable spécifiée.

・ Sns.swarmplot (x, y) Affichez la distribution réelle de la variable spécifiée.

・ Corr () Affichez le coefficient de corrélation.

・ Sns.heatmap (df.corr (), annot = True, cmap = "coolwarm") Affichez la carte thermique de la table de corrélation.

・ Sns.set (contexte, style, palette) Changez le style de seaborn.

OpenCV ・ Cv2.imread () Lisez le fichier image avec ndarray.

・ Plt.imshow () Afficher ndarray sous forme d'image. Affiché dans BGR.

・ Cv2.cvtColor (im, cv2.COLOR_BGR2RGB) Conversion de BGR en RVB.

・ Cv2.imwraight () Enregistrez ndarray en tant qu'image.

・ Binarisation ① Spécifiez le seuil et binarisez cv2.threshold (ndarray, seuil, 255, CV2.THRESH_BINARY) ② Binarisation d'Otsu cv2.threshold (ndarray, seuil, 255, CV2.THRESH_BINARY + CV2.THRESH_OTSH) Le seuil est défini automatiquement. Appliquez une analyse de discrimination linéaire (LDA) aux images.  ③Adaptive Thresholding cv2.adaptiveThreshold (ndarray, 255, cv2.ADAPTIE_THRESH_MEAN_C, CV2.THRESH_BINARY, taille, constante) Le seuil est utilisé en soustrayant la constante de la moyenne des valeurs de luminosité moyennes dans la plage spécifiée.

glob Obtenez une liste des chemins de fichiers.

os&pathlib · Chemin Créez un objet chemin. Utilisé comme itérateur.

・ Os.path.split () Démonté en tête et en queue.

・ Os.path.join () Concaténez le chemin du dossier et le nom du fichier.

・ Os.path.exists () Vérifiez l'existence d'un fichier ou d'un répertoire.

・ Os.makedirs () Créez un dossier.

tqdm ・ Tqdm (itérateur, total = len (df)) Afficher la barre de progression.

nibabel ・ Nib.load () Obtenez l'image de Nifty.

・ Get_fdata () Obtenez le ndarray de l'image.

multiprocessing ・ Carte (func, iter) Renvoie un iter avec func appliqué à iter.

・ Cpu_count () Vérifiez le nombre de cœurs physiques du processeur pouvant être utilisés.

・ Pool.map (), Pool.imap () Appliquer la fonction de carte dans le traitement parallèle. map () renvoie une liste et imap () renvoie un iter.

・ Pool.imap_unordered () Retournez dès que le traitement est terminé.

· Zip *: français () Renvoie les éléments de plusieurs objets itérables dans un taple.

・ P.close (), p.join () Traitement parallèle terminé.

・% Load_ext autoreload,% autoreload 2 Refléter les changements dans d'autres fichiers.   ・ Rollaxis (tableau, axe, début) Insère l'axe spécifié dans la position spécifiée par start.

Recommended Posts

Cours Python pour la science des données - techniques utiles
Techniques Python détaillées requises pour la mise en forme des données (1)
Techniques Python détaillées requises pour la mise en forme des données (2)
Python pour l'analyse des données Chapitre 4
Techniques de tri en Python
Python pour l'analyse des données Chapitre 2
Python pour l'analyse des données Chapitre 3
Modèle de prétraitement pour l'analyse des données (Python)
Formatage des données pour les graphiques Python / couleur
Outil de visualisation Python pour le travail d'analyse de données
Résumé des techniques utiles de Scrapy en Python
Comment utiliser "deque" pour les données Python
30/10/2016 else pour Python3> pour:
python [pour moi]
Analyse de données python
[python] Lecture de données
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: chargement des données
Afficher la bougie de données FX (forex) en Python
Analysons les données Covid-19 (Corona) en utilisant Python [Pour les débutants]
À propos de Python for loop
Cours de base Python (12 fonctions)
Cours de base Python (7 dictionnaire)
Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~
Cours de base Python (2 installation Python)
Créez votre propre Big Data en Python pour validation
Réduction dimensionnelle des données haute dimension et méthode de traçage bidimensionnel
Bases de Python ② pour déclaration
[Pour les débutants] Comment étudier le test d'analyse de données Python3
Bibliothèques de visualisation de données Python
Liste des bibliothèques Python pour les data scientists et les data ingénieurs
Cours de base Python (9 itérations)
Présentation de l'analyse de données python
Cours de base Python (11 exceptions)
À propos de Python, pour ~ (plage)
Techniques de test de code?
Cours de base Python (6 sets)
Nettoyage des données à l'aide de Python
Manuel python pour les débutants
Cours de base Python (Introduction)
Refactoring des outils utilisables avec Python
Toolchain pour Python pour Android
[CovsirPhy] Package Python COVID-19 pour l'analyse de données: modèle SIR-F
Exercice Python pour les débutants # 1 [Types de données de base / instructions If]
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: analyse des tendances S-R
Cours de base Python (13 cours)
Modèle d'analyse de données Python
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: modèle SIR
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: estimation des paramètres
[Tutoriel Python] Structure des données
[Python] Tri des données Numpy
Analyse de données avec Python
OpenCV pour les débutants en Python
Cours de base Python (8 branches)
Installez Python (pour Windows)
[Python] pour une erreur d'instruction
Maintenance de l'environnement Python pour les projets
Cours de base Python (3 Exécution de Python)
[CovsirPhy] Package Python COVID-19 pour l'analyse de données: analyse de scénario (comparaison de paramètres)
[Comprendre au plus court] Principes de base de Python pour l'analyse des données
Lequel dois-je étudier, R ou Python, pour l'analyse des données?