Comment collecter les tweets de tweetid dès que possible (72000 tweets / heure)

environnement

MacOS, Linux python v3.4.3 PHP v2.5.0

Aperçu

La distribution des données est souvent tweetid, mais les explorations Twitter sont limitées et souvent fastidieuses à collecter. Cette fois, je vais vous montrer comment collecter les tweets de tweetid. Celui que j'utilise est celui qui reçoit 100 tweets officiellement annoncés par requête appelée GET statuses / lookup. (Je ne connais pas les détails)

L'exploration nécessite un compte Twitter

Comme beaucoup d'entre vous le savent peut-être, vous avez besoin d'un compte pour explorer Twitter. De plus, vous devez obtenir les quatre informations suivantes auprès des développeurs Twitter. L'explication roule ici, alors veuillez la récupérer vous-même.

Consumer Key (API Key) =
Consumer Secret (API Secret) =
Access Token =
Access Token Secret =

Code et utilisation

Veuillez vous référer au script publié sur Github. Script d'exploration de Twitter

Utilisez Github si nécessaire

git clone https://github.com/ace12358/twitter/

Veuillez l'utiliser car vous pouvez préparer les scripts nécessaires dans. Voici un exemple d'utilisation du code dans le src / repository.

Ensuite, ajoutez les quatre informations que vous avez obtenues au script dans tweetid2json.php.

Consumer Key =
Consumer Secret =
Access Token =
Access Token Secret =

Une fois que c'est fait

php tweetid2json.php 418033807850496002

Si vous le faites, vous pouvez analyser au format json. ici

php tweetid2json.php 418033807850496002 | python json_reader3.4.3.py

alors

418033807850496002 Bonne année! La sortie est possible avec des délimiteurs de tabulation tels que. En passant, vous pouvez demander jusqu'à 100 tweetids tels que 418033807850496002, séparés par des virgules. Il existe un script shell qui résume ces

bash make_tweet.sh ../data/tweet_id_list.txt

Lit et explore une ligne (tweetid (s)) du fichier toutes les 6 secondes en exécutant. Toutes les 6 secondes, c'est parce qu'il n'atteint pas la limite.

Limite: 180 demandes / 15 min

C'est tout pour l'explication. Pour collecter le plus efficacement possible 100 tweetids concaténés avec ',' créent un fichier sur une ligne

bash make_tweet.sh ../data/tweet_id_list.txt

Ce serait bien de courir.

Il faut environ une journée pour collecter les données d'environ 1 million de tweets. Sur le serveur etc.

nohop bash make_tweet.sh ../data/tweet_id_list.txt > tweetid_tweet.txt &

Il est bon de le laisser tel quel. Si vous êtes pressé, vous pouvez créer plusieurs comptes et les traiter en parallèle.

Si l'appel à la fonction non définie curl_init () donne une erreur après l'installation de php

Cela a bien fonctionné quand je l'ai mentionné ici
→ Lorsque l'erreur "Appel à la fonction non définie curl_init ()" apparaît dans apache

Les références

Référence pour php crawl

si tu as des problèmes

Veuillez contacter @ Ace12358. Je pense pouvoir vous répondre bientôt.