Tout d'abord, présentez-vous brièvement. J'ai commencé à étudier la science des données en mai 2020.
・ C'est la première fois que vous touchez le langage de programmation lui-même jusqu'en mai 2020 ・ Comme Excel est souvent utilisé pour le travail, c'est un niveau qui peut gérer des fonctions simples.
Quand j'étudiais la science des données, je pensais Il y a peu d'endroits pour pratiquer le traitement des données, ce qui semble être le plus lourd en pratique! !! C'est.
Pendant ce temps, vers juin, la Data Scientist Association a téléchargé les problèmes optimaux sur GitHub! Citation: General Incorporated Association Data Scientist Association Data Science 100 Knock (traitement des données structurées) https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
Dans un premier temps, j'aimerais essayer ces 100 coups avec Python, SQL, R sans regarder le code de réponse. Comme mentionné ci-dessus, puisque je suis un véritable amateur en matière de programmation, il peut y avoir beaucoup de putain de code, mais jetez un coup d'œil chaleureux.
P-001: Affichez les 10 premiers éléments de tous les éléments du bloc de données (df_receipt) des détails du reçu et vérifiez visuellement le type de données dont vous disposez.
In
df_receipt.head(10)
Résultat de sortie:
P-002: indiquez les colonnes dans l'ordre de la date de vente (sales_ymd), de l'ID client (customer_id), du code produit (product_cd) et du montant des ventes (montant) à partir du bloc de données du relevé de réception (df_receipt) et affichez 10 éléments.
In
df_clms = df_receipt[["sales_ymd", "customer_id", "product_cd", "amount"]]
df_clms.head(10)
Résultat de sortie:
Je le mettrai à jour quand j'aurai le temps.
Recommended Posts