Conversion de PDF en CSV de Magasins disponibles de la Chambre de commerce et d'industrie de Kagoshima

Les fichiers PDF sont séparés pour chaque zone, alors combinez-les en un seul

Grattage

import requests
from bs4 import BeautifulSoup

url = "http://www.kagoshima-cci.or.jp/?p=20375"

r = requests.get(url)
r.raise_for_status()

soup = BeautifulSoup(r.content, "html.parser")

result = []

for a in soup.select("#contents_layer > span > p > a"):

    s = a.get_text(strip=True).replace("Toute la zone", "").lstrip("〇")

    #District exclu
    if not s.endswith("district"):

        result.append({"area": s, "link": a.get("href")})

Data wrangling

import camelot
import pandas as pd

dfs = []

for data in result:

    tables = camelot.read_pdf(
        data["link"], pages="all", flavor="lattice", split_text=True, strip_text=" \n"
    )

    for table in tables:

        df_tmp = table.df.iloc[1:].set_axis(["Cinquante sons", "Nom du magasin", "emplacement"], axis=1)
        df_tmp["zone"] = data["area"]

        dfs.append(df_tmp)

df = pd.concat(dfs)

df.to_csv("kagoshima.csv", encoding="utf_8_sig")

Recommended Posts

Convertir le PDF des magasins disponibles de Go To EAT dans la préfecture de Kagoshima en CSV

Convertir le PDF des magasins membres Go To EAT de la préfecture d'Ishikawa en CSV

Convertir le PDF de la liste des magasins membres Go To EAT dans la préfecture de Niigata en CSV

Convertir le PDF de la liste des magasins membres Go To EAT dans la préfecture de Kumamoto en CSV

Convertir le PDF de la préfecture de Chiba Aller à la liste des magasins des membres EAT en CSV (commande)

Convertir le PDF de la liste des concessionnaires de la campagne Go To Eat Hokkaido en CSV

Scraping Go To EAT membres magasins dans la préfecture d'Osaka et conversion au format CSV

Convertir le PDF d'un nouveau cas d'épidémie corona dans la préfecture d'Aichi en CSV

Gratter la liste des magasins membres Go To EAT dans la préfecture de Fukuoka et la convertir en CSV

Gratter la liste des magasins membres Go To EAT dans la préfecture de Niigata et la convertir en CSV

Convertir Markdown en PDF en Python