Grattez automatiquement le site reCAPTCHA quotidiennement (3/7: traitement des fichiers xls)

  1. Définition de l'exigence ~ construction de l'environnement python
  2. Créer un mécanisme de grattage de site
  3. ** Traitez le fichier téléchargé (xls) pour créer le produit final (csv) **
  4. Créer un téléchargement de fichier depuis S3 / télécharger un fichier vers S3 1.2 Captcha implémenté
  5. Autorisez-le à démarrer dans un conteneur Docker
  6. Inscrivez-vous au lot AWS

Opération de fichier

Depuis que j'ai téléchargé le fichier en utilisant du sélénium jusqu'à la dernière fois, Décrit le processus d'acquisition, de traitement et de réenregistrement en tant que fichier csv.

Obtenir la liste des fichiers

Obtenez tous les fichiers avec un modèle spécifique dans un dossier spécifique! Dans ce cas, glob est pratique.

#Récupère la liste des fichiers de l'expression régulière(glob)
file_list = glob.glob(dl_dir+'/*')

Travailler avec des fichiers Excel

Il semble y avoir plusieurs bibliothèques pour les opérations Excel utilisant python, mais il semble utile de s'en souvenir. J'utilise xlrd.

#Travailler avec des fichiers Excel
wb = xlrd.open_workbook(file_name) #Ouvrir xls
sheet_names = wb.sheet_names() #Obtenir une liste de noms de feuilles
sheet = wb.sheet_by_name(sheet_names[1]) 
values2 = sheet.col_values(2)
values5 = sheet.col_values(5)
values2.pop(0) #Pour éliminer la première ligne ... Je me demande s'il y a une meilleure façon
values5.pop(0)
for i in range(len(channels)):
    obj = [
        word,
        someFunction2(values2[i]),
        someFunction5(values5[i])
    ]
    result.append(obj)

Enregistrer dans un fichier csv

with open(up_dir + '/result-{}.csv'.format(file_name), 'w') as f:
    writer = csv.writer(f)
    writer.writerows(result)

Achevée

Jusque là

J'ai pu le faire. Ensuite, j'écrirai sur "l'envoi du produit transformé à S3" et "l'obtention de l'ENTREE (mots) d'origine de S3".

Recommended Posts

Grattez automatiquement le site reCAPTCHA quotidiennement (3/7: traitement des fichiers xls)
Grattez automatiquement le site reCAPTCHA quotidiennement (4/7: traitement des fichiers S3)
Grattez automatiquement le site reCAPTCHA tous les jours (2/7: Scraping)
Grattez automatiquement le site reCAPTCHA quotidiennement (6/7: conteneurisation)
Grattez automatiquement le site reCAPTCHA quotidiennement (5/7: 2captcha)