Je vais vous expliquer comment utiliser Pandas de manière simple. Si vous lisez correctement cet article, tout va bien.
Si vous êtes un débutant complet, écoutez simplement le fichier CSV avant de commencer à étudier les pandas.
CSV (valeur séparée par des virgules) est un fichier "séparé" qui lit littéralement "les valeurs sont séparées par des virgules (,)". Regardons un exemple concret. Supposons que vous ayez un fichier comme celui ci-dessous.
Langue utilisée,Des années d'expérience,revenu annuel
Python,10,"¥60,000,000.00"
Ruby,2,"¥3,500,000.00"
Swift,4,"¥5,000,000.00"
Si vous l'ouvrez avec une feuille de calcul Excel ou Google, elle s'affichera comme suit. Conclusion La seule chose que vous devez garder à l'esprit est la version délimitée "," du fichier Excel.
・ Qu'est-ce que les pandas? · Procédure d'installation ・ Type de données de base ・ Comment récupérer des données (loc, iloc, tête, queue, etc.) ・ Lecture et sortie des données ・ Tri des données ・ Traitement des valeurs manquantes Manipuler les données ・ Edition de série · Trame de données ・ Traitement statistique
Pandas est une bibliothèque pour une analyse efficace des données en Python. C'est un peu abstrait et je ne sais pas ce que c'est, alors je vais en parler concrètement. Lors de l'exécution de l'apprentissage automatique ou de l'analyse de données, les données de cet apprentissage ne sont souvent pas organisées pour un apprentissage approprié. Par conséquent, en utilisant ces Pandas, vous pouvez facilement mettre en forme les données. Ce processus avant d'effectuer cet apprentissage automatique s'appelle le prétraitement des données. En parlant de prétraitement des données, utilisez Pandas! !! !! !! !! !! !! !! !! S'il vous plaît gardez en tête.
Si vous avez installé Python à l'aide d'Anaconda, vous l'avez probablement déjà installé. Si non installé
pip install pandas
Pour utiliser Pandas, vous devez charger la bibliothèque Pandas.
import pandas as pd
C'est ennuyeux de l'appeler avec des pandas à chaque fois, donc j'utilise généralement pd.
Series La série est un type de données avec une seule colonne. Pour le dire d'une manière difficile, il s'agit d'une structure de données unidimensionnelle.
import pandas as pd
l = [1,2,3,4,5]
series = pd.Series(l)
print(series)
==========>
0 1
1 2
2 3
3 4
4 5
dtype: int64
Le nombre à gauche est l'index (étiquette de ligne) et le nombre à droite est les données de la série.
Une trame de données est une structure de données étiquetée bidimensionnelle qui est la structure de données la plus utilisée dans Pandas. C'est facile à comprendre si vous imaginez les données d'Excel et de tableur.
import pandas as pd
df = pd.DataFrame({
'Langue du programme' :['Python', 'Ruby', 'Go'],
'Des années d'expérience' : [1, 1, 2],
'revenu annuel' : [3000000, 2800000, 16900000]
})
print(df)
===========>
Langue du programme Années d'expérience Années de revenu
0 Python 1 3000000
1 Ruby 1 2800000
2 Go 2 16900000
Une telle image
À propos, dans le type de trame de données, il est automatiquement trié par l'étiquette de ligne (index), de sorte que l'ordre peut changer.
Pour la série, vous pouvez y accéder avec l'étiquette de ligne telle quelle.
import pandas as pd
l = [1,2,3,4,5]
series = pd.Series(l)
print(series[1])
==========>
2
Le problème est là. Il existe différentes façons de le supprimer, alors regardons-le dans l'ordre. En principe, supposons que vous disposez des données suivantes.
import pandas as pd
df = pd.DataFrame({
'Langue du programme' :['Python', 'Python','Ruby', 'Go','C#','C#'],
'Des années d'expérience' : [1, 1, 2, 3, 1,3],
'revenu annuel' : [3000000, 2800000, 16900000,1230000,2000000,500000],
'âge' : [21,22,34,55,11,8]
})
print(df)
============>
Langue du programme Années d'expérience Années de revenu Âge
0 Python 1 3000000 21
1 Python 1 2800000 22
2 Ruby 2 16900000 34
3 Go 3 1230000 55
4 C# 1 2000000 11
5 C# 3 500000 8
print(df['Langue du programme'])
#Ou df.'Langue du programme'Mais des résultats similaires peuvent être obtenus.
=================>
0 Python
1 Python
2 Ruby
3 Go
4 C#
5 C#
Name:Langue du programme, dtype: object
print(df[0:2])
===============>
Langue du programme Années d'expérience Années de revenu Âge
0 Python 1 3000000 21
1 Python 1 2800000 22
Je vais vous expliquer en détail car il semble que cela ne sera pas compris comme une colonne.
Si vous entrez la clé normalement avec df [], les pandas détermineront qu'il s'agit d'un nom de colonne
.
Si vous tapez df [slice], les Pandas considéreront cela comme une étiquette de ligne
.
Cette fois, spécifiez les lignes et les colonnes. loc Utilisation de base de loc loc [spécification de ligne, spécification de colonne] Dans loc, spécifiez le nom de la ligne et le nom de la colonne. iloc Utilisation de base d'iloc iloc [numéro de ligne, numéro de colonne] Dans iloc, spécifiez par numéro de ligne et numéro de colonne.
import pandas as pd
df = pd.DataFrame({
'Langue du programme' :['Python', 'Python','Ruby', 'Go','C#','C#'],
'Des années d'expérience' : [1, 1, 2, 3, 1,3],
'revenu annuel' : [3000000, 2800000, 16900000,1230000,2000000,500000],
'âge' : [21,22,34,55,11,8]
})
print(df.loc[0:2,'Langue du programme'])#Cela inclut également la dernière valeur de la tranche. C'est juste le nom de la ligne.
print(df.iloc[0:2,0])#Cela n'inclut pas la dernière valeur de la tranche!
=================>
0 Python
1 Python
2 Ruby
Name:Langue du programme, dtype: object
0 Python
1 Python
Name:Langue du programme, dtype: object
Veuillez lire les commentaires pour le moment. Il existe des différences dans les résultats de sortie. D'ailleurs, si vous accédez à une colonne qui n'existe pas, NaN sera renvoyé.
Si vous utilisez head (), les 5 premiers cas Vous pouvez utiliser tail () pour accéder aux 5 derniers éléments.
print(df.head())
==================>
Langue du programme Années d'expérience Années de revenu Âge
0 Python 1 3000000 21
1 Python 1 2800000 22
2 Ruby 2 16900000 34
3 Go 3 1230000 55
4 C# 1 2000000 11
print(df.tail())
==================>
Langue du programme Années d'expérience Années de revenu Âge
1 Python 1 2800000 22
2 Ruby 2 16900000 34
3 Go 3 1230000 55
4 C# 1 2000000 11
5 C# 3 500000 8
#Vous pouvez spécifier le nombre d'éléments auxquels accéder avec un argument.
print(head(2))
====================>
Langue du programme Années d'expérience Années de revenu Âge
0 Python 1 3000000 21
1 Python 1 2800000 22
print(tail(2))
=====================>
Langue du programme Années d'expérience Années de revenu Âge
4 C# 1 2000000 11
5 C# 3 500000 8
En utilisant query (), il est possible de spécifier la valeur du bloc de données et d'extraire la ligne qui le contient. Il est généralement spécifié à l'aide de l'opérateur de comparaison.
import pandas as pd
df = pd.DataFrame({
'Langue du programme' :['Python', 'Python','Ruby', 'Go','C#','C#'],
'Des années d'expérience' : [1, 1, 2, 3, 1,3],
'revenu annuel' : [3000000, 2800000, 16900000,1230000,2000000,500000],
'âge' : [21,22,34,55,11,8]
})
print(df.query('Des années d'expérience<= 2'))
========================>
Langue du programme Années d'expérience Années de revenu Âge
0 Python 1 3000000 21
1 Python 1 2800000 22
2 Ruby 2 16900000 34
4 C# 1 2000000 11
Pandas a la capacité d'entrer des données et de les sortir sous forme de fichier après manipulation. Ici, nous ne présenterons que les fonctions.
import pandas as pd
pd.read_CSV('nom de fichier', header, sep,...)#read_En CSV, le délimiteur par défaut est ",」
pd.read_table('nom de fichier', header, sep....)# read_Dans le tableau, le délimiteur par défaut est "\t」
#En sortie,
pd.to_csv('nom de fichier')
pd.to_excel('nom de fichier')
pd.to_html('nom de fichier')
#Etc.
Il existe deux méthodes principales.
import pandas as pd
df = pd.DataFrame({
'Langue du programme' :['Python', 'Python','Ruby', 'Go','C#','C#'],
'Des années d'expérience' : [1, 1, 2, 3, 1,3],
'revenu annuel' : [3000000, 2800000, 16900000,1230000,2000000,500000],
'âge' : [21,22,34,55,11,8]
})
print(df.sort_index(ascending=False))
===============================>
Langue du programme Années d'expérience Années de revenu Âge
5 C# 3 500000 8
4 C# 1 2000000 11
3 Go 3 1230000 55
2 Ruby 2 16900000 34
1 Python 1 2800000 22
0 Python 1 3000000 21
print(df.sort_values(by="revenu annuel") )
=================================>
Langue du programme Années d'expérience Années de revenu Âge
5 C# 3 500000 8
3 Go 3 1230000 55
4 C# 1 2000000 11
1 Python 1 2800000 22
0 Python 1 3000000 21
2 Ruby 2 16900000 34
Vous rencontrerez de nombreuses valeurs manquantes dans l'analyse des données et l'apprentissage automatique. Les valeurs manquantes sont les parties manquantes des données. (Par exemple, la colonne sans réponse du questionnaire) coming soon....
Recommended Posts