Présentation d'une bibliothèque Python utile pour l'analyse des données, le traitement des données, l'apprentissage automatique, etc.
Pour les statistiques et l'apprentissage automatique, il existe également l'option R. C'est un langage qui excelle dans le traitement, l'agrégation et le traitement statistique des données R, et peut faire beaucoup avec seulement les fonctions du langage standard. La bibliothèque d'apprentissage automatique est également étendue et il ne fait aucun doute que c'est une option puissante. L'avantage de Python par rapport à R est la richesse de l'écosystème environnant. L'écosystème Python va au-delà du domaine de la science des données. Les données traitées avec NumPy et Pands peuvent également être utilisées dans des applications Web à grande échelle utilisant Django.
La plupart des bibliothèques répertoriées ici peuvent être installées en masse sur Anaconda.
NumPy NumPy est une bibliothèque pour un calcul numérique efficace. Ici, un tableau unidimensionnel est pris comme exemple, mais un tableau multidimensionnel peut également être pris en charge. Les calculs vectoriels et matriciels peuvent être effectués à grande vitesse.
In [1]: import numpy as np #Importer NumPy
In [2]: arr = np.asarray([n for n in range(10)]) #Créer un vecteur
In [3]: arr #production
Out[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [4]: arr * 10 #Traitement de l'information
Out[4]: array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
Pandas
Pandas est une bibliothèque qui étend NumPy et possède des fonctions indispensables pour le prétraitement de l'apprentissage automatique, telles que la lecture de données et la gestion des valeurs manquantes. Il existe un objet appelé «DataFrame», qui facilite le traitement et la fusion des données. Près de data.frame
de R.
In [1]: import pandas as pd #Importer des pandas
In [2]: df = pd.DataFrame({ #Créer un bloc de données
...: 'A': [n for n in range(5)],
...: 'B': ['male', 'male', 'female', 'female', 'male'],
...: 'C': [0.3, 0.4, 1.2, 100.5, -20.0]
...: })
In [3]: df
Out[3]:
A B C
0 0 male 0.3
1 1 male 0.4
2 2 female 1.2
3 3 female 100.5
4 4 male -20.0
In [4]: df.describe() #Sortie des statistiques de base
Out[4]:
A C
count 5.000000 5.000000
mean 2.000000 16.480000
std 1.581139 47.812101
min 0.000000 -20.000000
25% 1.000000 0.300000
50% 2.000000 0.400000
75% 3.000000 1.200000
max 4.000000 100.500000
In [5]: df[df['B'] == 'female'] #Appeler un sous-ensemble
Out[5]:
A B C
2 2 female 1.2
3 3 female 100.5
Python Data Analysis Library — pandas: Python Data Analysis Library
jupyter
Jupyter Notebook est un environnement d'exécution Python qui enregistre le contenu du code et les résultats de sortie, il peut donc être utilisé comme environnement de codage pour le traitement exploratoire des données et le traitement statistique. Il peut également être imprimé sous forme de rapport ou de diapositive.
matplotlib
matplotlib est une bibliothèque de dessins graphiques. Il prend en charge divers graphiques tels que des graphiques à barres, des diagrammes de dispersion et des histogrammes.
Matplotlib: Python plotting — Matplotlib 2.0.2 documentation
plotly
plotly peut dessiner des graphiques plus riches et plus interactifs que matplotlib. Le graphique créé peut également être partagé avec plot.ly.
Python Graphing Library, Plotly
Kafka-Python
Kafka-Python, comme son nom l'indique, est le client Python d'Apache Kafka.
from kafka import KafkaConsumer
import json
consumer = KafkaConsumer('topic', bootstrap_servers='localhost:9092')
for msg in consumer:
data = json.loads(msg.value.decode())
print(data)
PySpark
Spark et Kafka sont devenus indispensables pour le Big Data. Il existe une bibliothèque d'apprentissage automatique appelée MLlib.
Python Programming Guide - Spark 0.9.0 Documentation
scikit-learn
scikit-learn est une bibliothèque d'apprentissage automatique. En plus des réseaux de neurones à la mode, d'autres algorithmes sont disponibles. En outre, il dispose de fonctions telles que la division en données d'entraînement et données de vérification, la vérification croisée et la recherche de grille, qui sont nécessaires pour effectuer un apprentissage automatique, et c'est une bibliothèque qui peut atteindre l'endroit qui démange. Si vous souhaitez toucher la bibliothèque d'apprentissage automatique, commencez à partir de maintenant.
scikit-learn: machine learning in Python — scikit-learn 0.18.2 documentation
TensorFlow
Vous connaissez la bibliothèque d'apprentissage en profondeur.
Keras
Keras est un wrapper pour TensorFlow, CNTK, Theano et plus.
Un livre de l'auteur de Pandas. Vous pouvez apprendre à utiliser les pandas et les méthodes d'analyse des données. Il couvre également les bibliothèques périphériques telles que NumPy et matplotlib.
Un livre de l'auteur de scikit-learn. Vous pouvez apprendre à utiliser scikit-learn et l'ingénierie requise pour l'apprentissage automatique.
Si vous n'êtes pas satisfait de simplement peaufiner les données dans Pandas ou de régler votre bibliothèque d'apprentissage automatique, vous devrez sortir de l'écosystème Python. Le monde des données est profond et vaste, et les ingénieurs doivent couvrir un domaine plus large pour suivre les data scientists. Plus précisément, si vous supprimez les infrastructures de traitement distribuées telles que Hadoop, Spark, Apex et DWH entièrement géré telles que BigQuery et TreasureData, le champ d'activité s'étendra.
Recommended Posts