[Bases de la science des données] Collecte de données depuis RSS avec python

Dit chose

Pour le moment, la série continue. Je prévois de continuer à écrire l'analyse des données acquises à l'avenir. (des plans)

Cette fois, nous obtiendrons des données de Yahoo! News par RSS et sortirons des titres et des liens de nouvelles.

$ python yahoo_news_rss.py

alors,

Yahoo!Sujets d'actualité-Haut
http://dailynews.yahoo.co.jp/fc/world/nuclear_weapons/?id=6160968
Le document de rupture du TNP n'a pas pu être adopté et clos
http://dailynews.yahoo.co.jp/fc/domestic/injury_case/?id=6160975
4 hommes morts et blessés arrêtés
http://dailynews.yahoo.co.jp/fc/economy/coffee_chain/?id=6160962
Plus d'un millier de personnes au Starba Tottori Open
http://dailynews.yahoo.co.jp/fc/economy/apparel/?id=6160961
Barbary va bien, mettant fin au contrat en juin
http://dailynews.yahoo.co.jp/fc/science/life_on_earth/?id=6160969
Le concept de «zéro» est-il reconnu par les singes?
http://dailynews.yahoo.co.jp/fc/sports/prowrestling/?id=6160973
Première chirurgie d'urgence au masque de tigre
http://dailynews.yahoo.co.jp/fc/entertainment/broad_casting/?id=6160945
Répulsion de diffuser en direct Yuko Ando confus
http://dailynews.yahoo.co.jp/fc/domestic/obituary/?id=6160936
Mort de l'idole de la lutte contre la maladie, Maruyama

Je vais vous expliquer comment utiliser facilement RSS jusqu'au point où il apparaît.

Qu'est-ce que RSS

RSS est un terme général désignant plusieurs formats de documents permettant de compiler et de diffuser facilement des mises à jour sur divers sites Web tels que les actualités et les blogs.

De wiki. En d'autres termes, il est difficile de faire du vrai grattage, mais on a l'impression qu'il est facile à assembler pour l'acquisition d'informations.

Alignez les modules.

Installer feedparser

Utilisez feedparser pour analyser les flux RSS.

Alors, installez l'analyseur de flux [this](http: // otiai10.hatenablog.com/entry/2012/05/04/180950)が参考になった。

Comment fonctionne Feedparser

Comme vous pouvez le voir en vous référant à Documentation, maintenons les deux touches suivantes.

entries

A list of dictionaries. Each dictionary contains data from a different entry. Entries are listed in the order in which they appear in the original feed.

feed

A dictionary of data about the feed.

Pour les clés internes de chacun, reportez-vous à la Documentation pour une liste.

Obtenir et afficher RSS

yahoo fournit RSS à [Comme ça](http://headlines.yahoo.co.jp/rss/list http://headlines.yahoo.co.jp/rss/list). Alors, voici comment analyser le XML retourné en frappant cette URL dans un dictionnaire.

yahoo_news_rss.py


import feedparser

RSS_URL = "http://rss.dailynews.yahoo.co.jp/fc/rss.xml"

yahoo_news_dic = feedparser.parse(RSS_URL)

La nouvelle est maintenant dans le dictionnaire. Consultez la documentation de feedparser pour voir quelle est la structure.

Donc, ci-dessous est où le titre complet et le titre et le lien de chaque article sont affichés.

yahoo_news_rss.py


print yahoo_news_dic.feed.title

for entry in yahoo_news_dic.entries:
  title = entry.title
  link  = entry.link
  print link
  print title

Et comme c'était au début

Yahoo!Sujets d'actualité-Haut
http://dailynews.yahoo.co.jp/fc/world/nuclear_weapons/?id=6160968
Le document de rupture du TNP n'a pas pu être adopté et clos
http://dailynews.yahoo.co.jp/fc/domestic/injury_case/?id=6160975
4 hommes morts et blessés arrêtés
http://dailynews.yahoo.co.jp/fc/economy/coffee_chain/?id=6160962
Plus d'un millier de personnes au Starba Tottori Open
http://dailynews.yahoo.co.jp/fc/economy/apparel/?id=6160961
Barbary va bien, mettant fin au contrat en juin
http://dailynews.yahoo.co.jp/fc/science/life_on_earth/?id=6160969
Le concept de «zéro» est-il reconnu par les singes?
http://dailynews.yahoo.co.jp/fc/sports/prowrestling/?id=6160973
Première chirurgie d'urgence au masque de tigre
http://dailynews.yahoo.co.jp/fc/entertainment/broad_casting/?id=6160945
Répulsion de diffuser en direct Yuko Ando confus
http://dailynews.yahoo.co.jp/fc/domestic/obituary/?id=6160936
Mort de l'idole de la lutte contre la maladie, Maruyama

Cela sort avec un sentiment.

Comme mentionné ci-dessus, le code source est également ici.

Recommended Posts

[Bases de la science des données] Collecte de données depuis RSS avec python
[Bases de la science des données] J'ai essayé d'enregistrer de csv à mysql avec python
Premiers pas avec Python Bases de Python
Collecter des informations sur Twitter avec Python (API Twitter)
Bases du traitement d'images binarisées par Python
Recevoir des données textuelles de mysql avec python
[Note] Obtenir des données de PostgreSQL avec Python
Les bases de Python ①
Recommandation d'Altair! Visualisation des données avec Python
[Introduction au Data Scientist] Bases de Python ♬
Collecter des informations depuis Twitter avec Python (construction de l'environnement)
Extraire des données d'une page Web avec Python
Analyse de données avec python 2
Collecter des tweets avec Python
Principes de base du grattage Python
# 4 [python] Bases des fonctions
Bases de python: sortie
Analyse de données avec Python
Scraping RSS avec Python
Apprenez Nim avec Python (dès le début de l'année).
Comment récupérer des données d'image de Flickr avec Python
Collecte d'informations sur Twitter avec Python (analyse morphologique avec MeCab)
Défiez l'analyse des composants principaux des données textuelles avec Python
[Bases des statistiques mathématiques modernes avec python] Chapitre 1: Probabilité
Obtenir des données de la base de données via ODBC avec Python (Access)
Exemple de données créées avec python
Obtenez des données Youtube avec python
python: principes de base de l'utilisation de scikit-learn ①
Avec skype, notifiez avec skype de python!
Principes de base de Python x SIG (1)
Lire des données json avec python
Essayez de gratter les données COVID-19 Tokyo avec Python
Extraire le modèle du fichier EML enregistré depuis Thunderbird avec python3.7
Débarrassez-vous des données sales avec Python et les expressions régulières
[Python] Extrayez des données texte à partir de données XML de 10 Go ou plus.
L'histoire du rubyiste aux prises avec Python :: Dict data with pycall
[Homologie] Comptez le nombre de trous dans les données avec Python
Résumé Xpath lors de l'extraction de données d'un site Web avec Python Scrapy
Obtenez des données de l'API d'analyse avec le client API Google pour python
Implémentez la normalisation du prétraitement des données d'entraînement Python avec scikit-learn [fit_transform]
[Python] J'ai essayé de collecter des données en utilisant l'API de wikipedia
Collecte d'informations sur Twitter avec Python (intégration de MySQL et Python)
Résumé de base de la manipulation de données avec Python Pandas - Première moitié: création et manipulation de données
Porté du langage R de "Sazae-san's Janken Data Analysis" vers Python
Comment extraire des fonctionnalités de données de séries chronologiques avec les bases de PySpark
Paiza Python Primer 5: Principes de base des dictionnaires
Appeler C depuis Python avec DragonFFI
Utilisation de Rstan de Python avec PypeR
Obtenir des données de Quandl en Python
Essai de la reconnaissance vocale à l'aide d'Azure avec Python (entrée depuis le microphone)
Installez Python à partir des sources avec Ansible
Exercice pratique d'analyse de données avec Python ~ 2016 New Coder Survey Edition ~
Existence du point de vue de Python
[Python] Obtenez des données économiques avec DataReader
Comment éviter la duplication des données lors de la saisie de Python vers SQLite.
Introduction à l'analyse de données par Python P17-P26 [ch02 1.usa.gov données de bit.ly]