Le titre est le suivant
Le degré d'incompréhension et d'odeur dangereuse pour un petit nombre d'articles apparaîtra, mais fondamentalement, le calcul devrait être laissé à Python.
read_csv Pour résoudre réellement le problème, lisez les données CSV. Pour ce faire, utilisez read_csv dans Pandas. Certes, je pense qu'il y avait plusieurs autres façons de charger le DataFrame, mais quand j'ai regardé les paramètres read_csv, j'ai remarqué.
?pd.read_csv Signature: pd.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None
Avec ce sentiment, vous pouvez spécifier le séparateur et la délimitation. Dans le même sens? j'ai pensé
pd.read_csv("xxx.csv", sep=";") pd.read_csv("xxx.csv", delimiter=";")
J'ai essayé de comparer, mais ça n'a pas changé Il y avait un bon commentaire à ce sujet dans Stack Overflow
What is the difference between sep
and delimiter
attributes in pandas.read_csv() method?
Pour le dire clairement, si delimiter
n'est pas spécifié (= None), la valeur de sep
est entrée. En d'autres termes, peu importe celui que vous utilisez.
Cependant, compte tenu de la compatibilité et d'autres fonctions (to_csv
etc.), il semble que sep
soit préférable.
Le code source dit également que «le délimiteur est le cas d'angle ennuyeux». Utilisons sep
Lorsqu'il y a plusieurs colonnes, il est nécessaire de reconnaître correctement la qualité des données. Contient-il des données nulles, est-ce quantitatif ou qualitatif? S'il s'agit de données quantitatives, elles peuvent être utilisées comme une valeur obtenue par calcul mathématique. S'il s'agit de données qualitatives, elles peuvent être utilisées comme catégorie pour classer des données quantitatives ou comme valeur pour trier des données telles que le rang.
L'analyse statistique peut être divisée en statistiques descriptives et statistiques spéculatives.
En gros, c'est probablement comme ça avec des statistiques descriptives et un modèle de prédiction! Est-ce une statistique spéculative? Ce dernier est écrasant étant donné que le but est d'apprendre l'IA / l'apprentissage automatique, mais les statistiques spéculatives semblent être le prochain chapitre.
plt.boxplot(student_data_math.G1)
Une figure de barbe de boîte est dessinée sous la forme de. Je me sentais comme ça. Dans le but de le voir, cela ressemble à une bougie qui montre le cours de l'action. Il semble que les limites inférieure et supérieure de Box pour les bougies soient de 25% de carreaux et 75% de carreaux. Il est appelé box plot car il est en anglais.
Ce n'est pas limité à cela, mais c'est une bonne idée de se rappeler le plus possible de l'anglais d'où provient la fonction. Cette fois, j'ai appris que la fonction boxplot est une fonction qui dessine un diagramme box whiskers, mais si vous savez que le diagramme box whiskers est en premier lieu Box Plot en anglais, vous pouvez le trouver dans la liste des fonctions.
Le coefficient de fluctuation est l'écart type divisé par la moyenne.
student_data_math.std() / student_data_math.mean()
La fonction qui mène à la distribution est var C'est cov qui dérive la covariance utilisée lors de l'examen de la variance de deux variables ou plus. La covariance est calculée sous forme de formule mathématique par le produit des écarts par rapport à la moyenne.
Dans leur forme finale, le coefficient de corrélation est calculé pour indiquer si les deux variables ont une relation. Ici, le coefficient est calculé à l'aide d'une fonction de Pearson.
sp.stats.pearsonr(student_data_math.G1, student_data_math.G3)
Eh bien, c'est tout pour aujourd'hui!
Recommended Posts