J'ai une bibliothèque pour python et diverses sciences des données.
――Je veux tracer! ――Je veux faire le processus de certification! ――Je veux traiter la trame de données!
Je vais vous présenter le type de bibliothèque disponible pour les éléments de base tels que.
** Demande: veuillez augmenter le nombre d'éléments dans la demande de modification ou nous faire part de vos recommandations. ** **
pandas
Conserver les données dans une "trame de données" sous la forme d'un modèle relationnel (célèbre pour SQL) Il fournit des fonctions telles que le filtrage, le mappage et le regroupement pour cela. Il dispose également d'une multitude d'interfaces pour lire et écrire des données.
Voici un exemple qui lit csv et ne laisse que ceux dont l'article `` ventes '' est égal ou supérieur à 1000.
import pandas as pd
data = pd.read_csv("data.csv")
over_1000 = data[ data['Gains'] > 1000 ]
numpy
import numpy as np
#Génération de matrice à partir de la liste
mat = np.matrix([[1, 2], [3, 4]])
#Génération de vecteur à partir de la liste
vec = np.array([5, 6])
#Prenez le produit matriciel
mat.dot(vec)
numpy
numpy fournit une large gamme de traitements de base, y compris le traitement de l'algèbre linéaire. La génération aléatoire selon la distribution est également incluse dans cela.
Par exemple, une séquence de nombres aléatoires qui suit une distribution normale peut être générée comme suit:
import numpy as np
mu, sigma = 2, 0.5
v = np.random.normal(mu,sigma,10000)
Une bibliothèque qui peut être utilisée pour dessiner des graphiques
matplotlib
Il offre la possibilité de dessiner divers graphiques. Puisqu'il s'agit d'une bibliothèque à couche relativement basse, elle sera utilisée en combinaison avec seaborn, etc.
import numpy as np
import matplotlib.pyplot as plt
x = np.arange(-3, 3, 0.1)
y = np.sin(x)
plt.plot(x, y)
seaborn
Searborn est une bibliothèque qui enveloppe matplotlib et fournit un moyen plus simple de dessiner des graphiques propres. Par exemple, il fournit la fonction de dessiner une carte thermique.
import numpy as np
import matplotlib
#Lorsque seaborn est importé, le graphique de matplotlib devient un magnifique graphique de style marin.
import seaborn as sns
x = np.random.normal(size=100)
sns.distplot(x);
scipy
scipy est une bibliothèque qui fournit les traitements nécessaires aux calculs scientifiques et technologiques. Cette bibliothèque offre en fait un assez large éventail de fonctionnalités, vous pouvez donc trouver la plupart de ce que vous voulez faire ici.
Le test t peut être effectué comme suit.
import numpy as np
from scipy import stats
a = np.random.normal(0, 1, size=100)
b = np.random.normal(1, 1, size=10)
stats.ttest_ind(a, b)
sympy
Une bibliothèque qui effectue automatiquement des calculs algébriques. En d'autres termes, c'est une bibliothèque qui peut lancer toutes sortes de transformations de formules. (Au fait, si quelqu'un sait: est-ce un système de réécriture de termes?)
Ici, nous mentionnerons la différenciation symbolique en tant qu'application.
import sympy as sym
#Préparer les variables
x = sym.symbols("x")
#Faire un polymorphe ...
f = x**3 + 2*x**2 - x + 5
#Différencier
df_dx = sym.diff(f, x)
statsmodels
Une bibliothèque pratique pour créer des modèles statistiques.
Voici un exemple de génération d'un modèle linéaire généralisé et de visualisation de ses informations statistiques de base (l'AIC, etc. apparaîtra)
import numpy as np
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
df = pd.read_csv("data.csv")
formula = 'Sales ~ AccessCount + MailSendedCount'
mod = smf.ols(formula=formula, data=df)
res = mod.fit()
res.summary()
scikit-learn
(Le contenu sera augmenté de manière séquentielle.)
Recommended Posts