Remarques sur la gestion de grandes quantités de données avec python + pandas

Extraire des données de MySQL

"""Get data from MySQL with pandas library."""
import MySQLdb
import pandas.io.sql as psql

con = MySQLdb.connect(db='work', user='root', passwd='') #Connexion DB
sql = """SELECT product_id, product_nm, product_features FROM electronics"""
df = psql.read_sql(sql, con) #Extraire des données sous forme de pandas DataFrame
con.close()

Créer un vecteur à partir des données 1

Lors de la création d'un vecteur pour le clustering, etc. à l'aide de données à grande échelle, un traitement itératif est effectué lors de la suppression des données afin de réduire la consommation de mémoire.

"""Delete rows while creating dataset."""
X = []
for index, row in df.iterrows(): #Itérer ligne par ligne
    Xi = [row.col1, row.col2, row.col3]
    X.append(X)
    df = df.ix[index:] #Créez un vecteur lors de la suppression des données pour réduire la consommation de mémoire

Création d'un vecteur à partir des données 2 (amélioration de la vitesse)

La première méthode nettoie le code, mais présente l'inconvénient d'itérations lentes. C'est beaucoup plus rapide de lister une fois.

"""High speed row iteration in pandas DataFrame"""
#Copiez les données dans la liste
df_index, df_col1, df_col2, df_col3 = \
    list(df.index), list(df.col1), list(df.col2), list(df.col3)
del df #Suprimmer les données
for _ in df_index:
    #Itate lors de la suppression des données
    col1, col2, col3 = df_col1.pop(), df_col2.pop(), df_col3.pop()
    Xi = [col1, col2, col3]
    X.append(Xi)

Recommended Posts

Remarques sur la gestion de grandes quantités de données avec python + pandas
[Python] Notes sur l'analyse des données
Manipulation de python sur mac
Notes personnelles de prétraitement des données Python Pandas
Notes sur l'utilisation de rstrip avec python.
Comparaison de la gestion des trames de données en Python (pandas), R, Pig
Remarques sur la réalisation de l'OCR japonais avec Python
Recommandation d'Altair! Visualisation des données avec Python
Exemple de traitement efficace des données avec PANDAS
mémo pandas python
Fonctionnement automatique de Chrome avec Python + Sélénium + pandas
Une histoire sur la gestion des données binaires en Python
Folium: Visualisez les données sur une carte avec Python
Construction d'environnement Poetry-virtualenv avec python de centos-sclo-rh ~ Notes
Détecter les données General MIDI à partir d'une grande quantité de MIDI
Analyse de données avec python 2
Manipuler yaml avec python
Installer des pandas sur python2.6
Visualisation des données avec les pandas
Manipulation des données avec les Pandas!
Mélangez les données avec les pandas
Analyse de données avec Python
Remarques sur le traitement d'images HDR et RAW avec Python
Construction d'un environnement d'analyse de données avec Python (notebook IPython + Pandas)
Défiez l'analyse des composants principaux des données textuelles avec Python
Récapitulatif des méthodes Pandas utilisées lors de l'extraction de données [Python]
Analyse du squelette de plan avec Python (4) Gestion du déplacement forcé
Traiter les données csv avec python (traitement du comptage à l'aide de pandas)
[Bases de la science des données] Collecte de données depuis RSS avec python
Obtenez une grande quantité de données Twitter de Starba avec python et essayez l'analyse de données Partie 1
Consolider un grand nombre de fichiers CSV dans des dossiers avec python (données sans en-tête)
Exemple de données créées avec python
Essayez de gratter les données COVID-19 Tokyo avec Python
Obtenez des données Youtube avec python
[Python] Changer de type avec les pandas
python> Gestion des tableaux 2D
Débarrassez-vous des données sales avec Python et les expressions régulières
Installez pandas 0.14 sur python3.4 [sur Mac]
Notes d'apprentissage sur l'analyse des données Python
L'histoire du rubyiste aux prises avec Python :: Dict data with pycall
[Homologie] Comptez le nombre de trous dans les données avec Python
Remarques sur l'installation de Python sur votre Mac
Comment connaître le nombre de GPU de python ~ Remarques sur l'utilisation du multitraitement avec pytorch ~
Implémentez la normalisation du prétraitement des données d'entraînement Python avec scikit-learn [fit_transform]
Une collection de méthodes utilisées lors de l'agrégation de données avec des pandas
Remarques sur le déploiement de pyenv avec Homebrew et la gestion des versions de Python
Résumé de base de la manipulation de données avec Python Pandas - Première moitié: création et manipulation de données
Analyse de données à l'aide de pandas python
[Python] Extrait les blocs de données de Pandas qui ne correspondent pas à une colonne spécifique avec d'autres blocs de données
Remarques sur l'installation de Python sur CentOS
Conseils de traitement des données avec Pandas
Le pouvoir des pandas: Python
Lire des données json avec python
Gérez le chevauchement lors du dessin d'un diagramme de dispersion avec une grande quantité de données (Matplotlib, Pandas, Datashader)
Exercice pratique d'analyse de données avec Python ~ 2016 New Coder Survey Edition ~
Obtenez des données de VPS MySQL avec Python 3 et SQL Alchemy
[Pandas] J'ai essayé d'analyser les données de ventes avec Python [Pour les débutants]
Pratique de l'analyse de données par Python et pandas (Tokyo COVID-19 data edition)