Cette fois, nous avons créé ** "Pandas 100 coups pour les débutants de Python" ** comme contenu pour apprendre efficacement Pandas, qui est une bibliothèque Python, et nous le publierons. Ce contenu est également en ligne avec le contenu du test d'analyse des données de certification de l'ingénieur ** Python3, donc effectuer ces 100 coups sera également une mesure de qualification. ** Il existe également un problème de prédiction de survie pour les passagers du Titanic à la fin du coup, qui est également une pratique pour participer à des compétitions d'apprentissage automatique telles que Kaggle.
No. | Classification | problème |
---|---|---|
1 | Basiques | Afficher les 5 premières lignes de données lues dans df |
2 | Basiques | Afficher les 5 dernières lignes de données lues dans df |
3 | Basiques | Vérifiez la taille DataFrame de df |
4 | Basiques | data1 dans le dossier d'entrée.Lisez le fichier csv et stockez-le dans df2, affichez les 5 premières lignes |
5 | Basiques | Trié par ordre croissant par colonne tarifaire DF |
6 | Basiques | df_Copiez df pour copier et afficher les 5 premières lignes |
7 | Basiques | ① Vérifiez le type de données de chaque colonne de df ② Vérifiez le type de données de la colonne cabine de df |
8 | Basiques | ① Vérifiez le type de données de la colonne pclass de df avec dtype (2) Convertir du type numérique au type caractère et vérifier le type de données avec dtype |
9 | Basiques | Nombre d'enregistrements dans df(Nombre de lignes)confirmer |
10 | Basiques | Nombre d'enregistrements dans df(Nombre de lignes), Vérifiez le type de données de chaque colonne et la présence ou l'absence de valeurs manquantes |
11 | Basiques | sexe df,Vérifiez les éléments de la colonne de la cabine |
12 | Basiques | Afficher la liste des noms de colonne df au format liste |
13 | Basiques | Afficher la liste d'index df au format ndarray |
14 | Extraction | Afficher uniquement la colonne du nom du df |
15 | Extraction | Afficher uniquement les colonnes de nom et de sexe df |
16 | Extraction | index df(ligne)の4ligne目までを表示 |
17 | Extraction | index df(ligne)の4ligne目から10ligne目までを表示 |
18 | Extraction | Afficher tout le df à l'aide de loc |
19 | Extraction | Afficher toutes les colonnes de tarifs DF à l'aide de loc |
20 | Extraction | Utilisez loc pour afficher jusqu'à la 10e ligne de la colonne tarifaire df |
21 | Extraction | Utilisez loc pour afficher toutes les colonnes de nom et de ticket df |
22 | Extraction | Utilisez loc pour afficher toutes les colonnes du nom du df à la cabine |
23 | Extraction | Afficher la colonne d'âge df jusqu'à la 5e ligne à l'aide d'iloc |
24 | Extraction | nom df,age,sexの列のみExtractionしdf2に格納 Puis sortie sous forme de fichier csv dans le dossier de sortie |
25 | Extraction | dfのage列の値が30以上のデータのみExtraction |
26 | Extraction | dfのsex列がfemaleのデータのみExtraction |
27 | Extraction | dfのsex列がfemaleでかつageが40以上のデータのみExtraction |
28 | Extraction | queryを用いてdfのsex列がfemaleでかつageが40以上のデータのみExtraction |
29 | Extraction | Afficher les données contenant la chaîne de caractères "Mme" dans la colonne de nom de df |
30 | Extraction | Afficher uniquement les colonnes de type de caractère dans df |
31 | Extraction | Compter le nombre d'éléments uniques dans chaque colonne de df |
32 | Extraction | Vérifiez les éléments de la colonne embarquée de df et le nombre d'occurrences |
33 | En traitement | Modification de la colonne d'âge du nom d'index df "3" de 30 à 40 |
34 | En traitement | Changez male → 0 et femlae → 1 dans la colonne sex de df et affichez les 5 premières lignes |
35 | En traitement | Ajoutez 100 à la colonne tarifaire de df pour afficher les 5 premières lignes |
36 | En traitement | Multipliez la colonne tarifaire de df par 2 pour afficher les 5 premières lignes |
37 | En traitement | Arrondir la colonne tarifaire de df après la virgule décimale |
38 | En traitement | Ajoutez une colonne avec le nom de colonne "test" et les 1 valeurs à df et affichez les 5 premières lignes |
39 | En traitement | Ajouter la cabine et les colonnes embarquées à df_Ajouter des colonnes jointes par(Le nom de la colonne est "test")Et affichez les 5 premières lignes |
40 | En traitement | Ajouter l'âge et les colonnes embarquées à df_Ajouter des colonnes jointes par(Le nom de la colonne est "test")Et affichez les 5 premières lignes |
41 | En traitement | Supprimer la colonne de corps de df pour afficher les 5 premières lignes |
42 | En traitement | Supprimez la ligne avec le nom d'index "3" de df et affichez les 5 premières lignes |
43 | En traitement | Le nom de colonne de df2'name', 'class', 'Biology', 'Physics', 'Chemistry'changer en Afficher les 5 premières lignes de df2 |
44 | En traitement | Le nom de colonne de df2'English'La biologie'changer en Afficher les 5 premières lignes de df2 |
45 | En traitement | Le nom d'index "1" de df2 a été remplacé par "10" Afficher les 5 premières lignes de df2 |
46 | En traitement | Vérifiez le nombre de valeurs manquantes dans toutes les colonnes de df |
47 | En traitement | Remplacez par 30 la valeur manquante dans la colonne df age Après cela, vérifiez le nombre de valeurs d'âge manquantes |
48 | En traitement | Supprimez les lignes avec même une valeur manquante avec df Après cela, vérifiez le nombre de valeurs manquantes dans df |
49 | En traitement | df a survécu à la colonne au format tableau(Tableau)Afficher avec |
50 | En traitement | Mélanger et afficher les lignes df |
51 | En traitement | Mélangez la ligne df et réindexez-la pour l'afficher |
52 | En traitement | ① Comptez le nombre de lignes dupliquées dans df2 |
53 | En traitement | Convertir la colonne de nom df en majuscules et afficher |
54 | En traitement | Convertir la colonne de nom de df en minuscules et afficher |
55 | En traitement | Le mot «femme» dans la colonne sexe de df Remplacé par "Python" |
56 | En traitement | "Allen" dans la première ligne de la colonne de nom de df, Miss.Elisabeth Walton " Effacer "Elisabeth"(besoin d'importation re) |
57 | En traitement | Assurez-vous qu'il n'y a pas de blanc dans la colonne préfecture et la colonne ville / quartier / ville / village de df5 「_Combiner avec(Le nouveau nom de colonne est "test2")Et affichez les 5 premières lignes |
58 | En traitement | Afficher df2 avec des lignes et des colonnes permutées |
59 | Fusionner et concaténer | Joindre à gauche DF3 à DF2 et stocker dans DF2 |
60 | Fusionner et concaténer | Joindre à droite df3 à df2 et stocker dans df2 |
61 | Fusionner et concaténer | Inner join df3 à df2 et stocker dans df2 |
62 | Fusionner et concaténer | Jointure externe de df3 à df2 et stockage dans df2 |
63 | Fusionner et concaténer | Concaténer df2 et df4 dans le sens de la colonne et stocker dans df2 |
64 | Fusionner et concaténer | df2 et df4 sont connectés dans le sens de la colonne et se chevauchent Supprimez l'une des colonnes de nom et stockez-la dans df2 |
65 | Fusionner et concaténer | df2 et df2 sont connectés dans le sens des lignes et se chevauchent Supprimez l'une des colonnes de nom et stockez-la dans df2 |
66 | statistiques | Vérifiez la valeur moyenne de la colonne age de df |
67 | statistiques | Vérifiez la valeur médiane de la colonne d'âge de df |
68 | statistiques | ① Score total pour chaque élève de df2 (total dans le sens des rangées) (2) Somme des points pour chaque sujet de df2 (total dans le sens de la colonne) |
69 | statistiques | Score maximum en anglais pour df2 |
70 | statistiques | Score minimum en anglais pour df2 |
71 | statistiques | Regroupez par classe dans df2 et trouvez les valeurs maximum, minimum et moyenne des matières pour chaque classe.(Supprimer la colonne de nom) |
72 | statistiques | dfの基本statistiques量を確認(describe) |
73 | statistiques | Entre chaque colonne de df(Pearson)Vérifiez le coefficient de corrélation |
74 | statistiques | scikit-Utilisez Learn pour standardiser l'anglais, les mathématiques et l'histoire de df2 |
75 | statistiques | scikit-Utilisez apprendre pour standardiser la colonne anglaise de df2 |
76 | statistiques | scikit-Miner les colonnes anglais, mathématiques et histoire de df2 à l'aide de learn-Échelle max |
77 | statistiques | Obtenez le nom de ligne des valeurs maximale et minimale de la colonne tarifaire de df |
78 | statistiques | Obtenez les centiles 0, 25, 50, 75, 100 de la colonne tarifaire df |
79 | statistiques | ① Obtenez la valeur la plus fréquente de la colonne d'âge de df ②value_counts()Vérifiez le nombre d'éléments dans la colonne âge à, et vérifiez la validité du résultat de ①. |
80 | étiquetage | L'étiquette encode la colonne sexe de df et affiche les 5 premières lignes de df |
81 | étiquetage | Une colonne de sexe de df-encoder à chaud et afficher les 5 premières lignes de df |
82 | Complot de pandas | Afficher un histogramme de toutes les colonnes numériques dans df |
83 | Complot de pandas | Afficher la colonne d'âge de df sous forme d'histogramme |
84 | Complot de pandas | Afficher le score total de 3 sujets pour chaque nom de df2 dans un graphique à barres |
85 | Complot de pandas | Afficher 3 sujets pour chaque élément de la colonne de nom de df2 côte à côte dans un graphique à barres |
86 | Complot de pandas | Afficher 3 sujets pour chaque élément de la colonne de nom de df2 sous forme de graphique à barres empilées |
87 | Complot de pandas | Afficher le diagramme de dispersion entre chaque colonne de df |
88 | Complot de pandas | Créer un diagramme de dispersion avec des colonnes d'âge et de tarif de df |
89 | Complot de pandas | Dans le graphique tracé dans [88], "age"-dispersion des tarifs " Donnez un titre au graphique |
90 | Prédiction du survivant du Titanic | df_Étiquette codant le sexe et colonnes de copie embarquées |
91 | Prédiction du survivant du Titanic | df_Vérifier les valeurs manquantes dans la copie |
92 | Prédiction du survivant du Titanic | df_Complétez les valeurs manquantes dans les colonnes âge et tarif de la copie avec la valeur moyenne de chaque colonne |
93 | Prédiction du survivant du Titanic | df_Supprimer les lignes inutiles non utilisées dans l'apprentissage automatique dans la copie |
94 | Prédiction du survivant du Titanic | ①df_Extraire pclass, âge, sexe, tarif, colonnes de copie embarquées et convertir au format ndarray ②df_Extrayez la colonne de copie conservée et convertissez-la au format ndarray |
95 | Prédiction du survivant du Titanic | Divisez les fonctionnalités et la cible créées dans [94] en données d'entraînement et données de test. |
96 | Prédiction du survivant du Titanic | Données d'entraînement(features、target)Effectuer l'apprentissage dans une forêt aléatoire en utilisant |
97 | Prédiction du survivant du Titanic | test_Prédire la survie des passagers dans les données X |
98 | Prédiction du survivant du Titanic | Le résultat de la prédiction est un test_y(Réponse de survie)Et combien Vérifiez si c'était cohérent(L'indice d'évaluation est la précision) |
99 | Prédiction du survivant du Titanic | Chaque colonne en apprentissage(Valeur de la fonctionnalité)Montrez l'importance de |
100 | Prédiction du survivant du Titanic | test_Sortez le résultat de la prédiction de X dans le dossier de sortie avec csv (le nom du fichier est «soumission».csv」) |
Si vous n'avez pas encore installé Python, veuillez d'abord installer anaconda sur votre propre PC. En plus de Pandas, des bibliothèques telles que Scikit-learn sont également utilisées dans le problème.
Après avoir téléchargé le dossier ZIP depuis GitHub, extrayez-le dans la zone locale de votre propre PC.
Ouvrez le fichier ipynb stocké dans le dossier "notebook" avec Jupyter Notebook (essayez d'abord d'ouvrir "01_Pandas_100_Knocks_for_Begginer_v1.0.ipynb").
Une fois le fichier ipynb ouvert, exécutez la première cellule pour charger le fichier de réponses et l'ensemble de données utilisé dans la question. L'ensemble de données utilisé est celui des passagers du Titanic.
Entrez le code de chaque question dans la cellule de chaque question.
Si vous ne connaissez pas la réponse, supprimez le "#" de la description "#print (ans [])" dans la cellule de question et exécutez-le pour afficher l'exemple de réponse.
pandas_100_knocks_v1.0 ├ notebook /… Stocke 3 fichiers ipynb ├ input /… Contient des fichiers de réponses pour 100 questions et ensembles de données utilisés dans les questions └ output /… Stocké ici lors de la sortie d'un fichier en raison d'un problème
J'espère que j'ai posé le problème en sachant que les débutants en Python peuvent atteindre le niveau 3 (je pense que vous pouvez atteindre le niveau 2 si vous le résolvez 3 fois).
Le contenu peut être téléchargé depuis GitHub.
https://github.com/kunishou/Pandas_100_knocks
Gamme d'utilisation Tout le monde peut l'utiliser indépendamment de l'individu ou de l'entreprise (Si vous nous faites savoir quand vous l'utilisez pour des sessions d'étude volontaires ou une formation en interne, l'auteur sera motivé. Je suis également heureux d'entendre des commentaires tels que "Ce contenu m'a aidé à passer l'examen de certification Python.")
Remarques Le contenu ne peut pas être redistribué ou réorganisé
Scratchpad de nbextensions est pratique en tant qu'extension de Jupyter Notebook, nous vous recommandons donc de l'installer. Tout en travaillant sur 100 coups, il est difficile de faire "Ajouter une nouvelle cellule → df.head ()" pour vérifier le contenu des données stockées dans le bloc de données. Avec Scratchpad, vous pouvez appeler une zone de cellule jetable avec "Ctrl + B".
Veuillez vous référer à ce qui suit pour la méthode d'installation.
[Python] Extensions de notebook jupyter ~
Si vous avez des questions ou des demandes concernant ce contenu, veuillez nous contacter.
Recommended Posts