MacOS, Linux python v3.4.3 PHP v2.5.0
La distribution des données est souvent tweetid, mais les explorations Twitter sont limitées et souvent fastidieuses à collecter. Cette fois, je vais vous montrer comment collecter les tweets de tweetid. Celui que j'utilise est celui qui reçoit 100 tweets officiellement annoncés par requête appelée GET statuses / lookup. (Je ne connais pas les détails)
Comme beaucoup d'entre vous le savent peut-être, vous avez besoin d'un compte pour explorer Twitter. De plus, vous devez obtenir les quatre informations suivantes auprès des développeurs Twitter. L'explication roule ici, alors veuillez la récupérer vous-même.
Veuillez vous référer au script publié sur Github. Script d'exploration de Twitter
Utilisez Github si nécessaire
git clone https://github.com/ace12358/twitter/
Veuillez l'utiliser car vous pouvez préparer les scripts nécessaires dans. Voici un exemple d'utilisation du code dans le src / repository.
Ensuite, ajoutez les quatre informations que vous avez obtenues au script dans tweetid2json.php.
Une fois que c'est fait
php tweetid2json.php 418033807850496002
Si vous le faites, vous pouvez analyser au format json. ici
php tweetid2json.php 418033807850496002 | python json_reader3.4.3.py
alors
418033807850496002 Bonne année! La sortie est possible avec des délimiteurs de tabulation tels que. En passant, vous pouvez demander jusqu'à 100 tweetids tels que 418033807850496002, séparés par des virgules. Il existe un script shell qui résume ces
bash make_tweet.sh ../data/tweet_id_list.txt
Lit et explore une ligne (tweetid (s)) du fichier toutes les 6 secondes en exécutant. Toutes les 6 secondes, c'est parce qu'il n'atteint pas la limite.
C'est tout pour l'explication. Pour collecter le plus efficacement possible 100 tweetids concaténés avec ',' créent un fichier sur une ligne
bash make_tweet.sh ../data/tweet_id_list.txt
Ce serait bien de courir.
Il faut environ une journée pour collecter les données d'environ 1 million de tweets. Sur le serveur etc.
nohop bash make_tweet.sh ../data/tweet_id_list.txt > tweetid_tweet.txt &
Il est bon de le laisser tel quel. Si vous êtes pressé, vous pouvez créer plusieurs comptes et les traiter en parallèle.
Veuillez contacter @ Ace12358. Je pense pouvoir vous répondre bientôt.
Recommended Posts