Dans la tendance récente des mégadonnées, la quantité de données à collecter est nécessaire.
Le grattage WEB peut être adopté comme l'une des technologies.
Dans cet article, je voudrais résumer les méthodes de grattage WEB et les précautions concernant leur utilisation.
Le web scraping est une technologie logicielle informatique qui extrait des informations de sites Web. Aussi connu sous le nom de robot d'exploration [1] ou d'araignée Web [2]. Ces logiciels acquièrent généralement du contenu WWW en implémentant un HTTP de bas niveau ou en intégrant un navigateur Web. (De Wikipedia)
3-1. Blocage IP 3-2. Conformité à l'éthique de l'entreprise et conformité
Dès la conclusion, s'il n'y a pas de description correspondante dans la charge sur le serveur en raison du grattage, les conditions d'utilisation du site concerné, ** si le but est d'analyser les informations **, le droit d'auteur est exceptionnel. Il semble que l’opinion générale soit qu’il n’y ait aucun problème à enregistrer ou à adapter les informations d’autres sociétés obtenues par grattage sur un support d’enregistrement sans obtenir le consentement de la personne. (Au 23/02/2020)
Article 47-5 Contribuer à la promotion de l'utilisation des œuvres en créant de nouvelles connaissances ou informations grâce au traitement de l'information à l'aide d'ordinateurs électroniques. Les personnes qui accomplissent les actes énumérés dans les éléments suivants (y compris ceux qui accomplissent une partie de l'acte et se limitent à ceux qui accomplissent l'acte conformément aux normes spécifiées par l'ordonnance gouvernementale) sont fournies ou présentées au public (permettre la transmission). (Il en va de même ci-après dans le présent article) (ci-après dénommés "travaux de présentation fournis au public" dans le présent article et dans l'article suivant, paragraphe 2, point 2) (travaux publiés ou habilitation à la transmission) (Limité aux œuvres réalisées) peuvent être utilisées (les œuvres présentées au public) dans la mesure jugée nécessaire aux fins des actes énumérés dans chaque élément, quelle que soit la méthode utilisée en relation avec les actes. Parmi ceux-ci, la proportion de la pièce utilisée pour l'utilisation, la quantité de la pièce utilisée pour l'utilisation, la précision de l'affichage lorsque la pièce est utilisée et d'autres facteurs sont limités à ceux qui sont mineurs à la lumière d'autres facteurs. «Utilisation mineure») peut être effectuée. Cependant, si la fourniture ou la présentation de l'œuvre offerte au public au public enfreint le droit d'auteur (si la fourniture ou la présentation au public faite à l'étranger est faite dans le pays) Si l'utilisation mineure est faite en sachant qu'il doit s'agir d'une violation du droit d'auteur), les intérêts du titulaire du droit d'auteur seront indûment lésés à la lumière du type et de l'utilisation de l'œuvre fournie publiquement et du mode de l'utilisation mineure. Si tel est le cas, cela ne s'applique pas.
(1) Le titre ou le nom de l'auteur de l'œuvre dans laquelle les informations obtenues par la recherche à l'aide d'un ordinateur électronique (ci-après dénommées «informations de recherche» dans ce numéro) sont enregistrées, et le code d'identification de l'expéditeur lié aux informations de recherche peut être transmis. (Un caractère, un numéro, un symbole ou un autre code pour identifier la source de la transmission publique automatique.) Rechercher des informations concernant l'identification ou l'emplacement d'autres informations de recherche et fournir les résultats.
(Ii) ** Analyser les informations avec un ordinateur électronique et fournir les résultats. ** **
(Iii) En plus des éléments énumérés dans les deux éléments précédents, il s'agit d'un acte de création de nouvelles connaissances ou d'informations par le traitement de l'information par un ordinateur et de fournir le résultat, et c'est une ordonnance gouvernementale qui contribue à l'amélioration de la commodité de la vie des gens. Que définir
2 ** Les personnes qui se préparent aux actes énumérés dans chaque point du paragraphe précédent (limité à ceux qui collectent, organisent et fournissent des informations pour la préparation des actes conformément aux normes spécifiées par l'ordonnance gouvernementale) sont des œuvres mises à disposition du public. En ce qui concerne, dans la mesure jugée nécessaire pour la préparation à une utilisation mineure conformément aux dispositions du même paragraphe, la duplication ou la transmission publique (dans le cas d'une transmission publique automatique, la possibilité de transmission est incluse. Ci-après, le présent paragraphe et l'article 2 suivant Il en va de même pour le point 2), ou un exemplaire de celui-ci peut être distribué. ** Cependant, cela s'applique si cela porterait indûment préjudice aux intérêts du titulaire du droit d'auteur compte tenu du type et de l'utilisation de l'œuvre mise à disposition du public, du nombre d'exemplaires ou de distribution, et du mode de reproduction, de transmission publique ou de distribution. Ne pas.
Scraping éthique ① Cas de problèmes à l'étranger
Il existe des services qui interdisent le grattage afin de protéger les informations personnelles et d'éviter le vandalisme.
Par exemple, les paires d'applications correspondantes interdisent explicitement le grattage et l'exploration dans ses conditions d'utilisation.
La Société n'autorise pas l'utilisation du contenu publié à d'autres utilisateurs ou à d'autres tiers à l'exception de l'utilisateur lui-même, et l'utilisateur agit en enfreignant les droits du contenu publié d'autres utilisateurs. Ne doit pas être. En outre, l'utilisateur ne doit pas collecter et analyser automatiquement le contenu publié par exploration ou autre. (Conditions d'utilisation | Paires)
De même, Twitter interdit le grattage dans ses conditions d'utilisation.
Accédez ou recherchez Twitter par tout autre moyen (automatiquement ou non) sans passer par notre interface publique actuellement disponible fournie par Twitter (et en respectant ses conditions d'utilisation). Faites ou essayez d'accéder ou de rechercher. Cependant, cela ne s'applique pas si un contrat séparé avec Twitter le permet spécifiquement. L'exploration de Twitter est autorisée comme l'exige le fichier robots.txt. Cependant, le grattage sans le consentement préalable de Twitter est expressément interdit. (Règles | Twitter)
Ouvrez la page Web spécifiée avec le navigateur intégré de OctoParse, sélectionnez les données que vous souhaitez extraire et un robot sera créé. Aucune connaissance en programmation requise, tout le monde peut l'utiliser facilement. Lorsque vous exécutez le robot d'exploration, vous pouvez générer diverses données sur le site Web au format souhaité.
Quant au support, il prend en charge le japonais et répond rapidement.
[Introduction à Python] Principes de base du grattage avec Beautiful Soup 4 (1/2) Belle soupe en 10 minutes Pratique / Style de grattage Python sur le terrain
Résumé des résultats lors du scraping Web avec Python [Web Scraping-Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF% E3% 83% AC% E3% 82% A4% E3% 83% 94% E3% 83% B3% E3% 82% B0) Le grattage est-il illégal? Un avocat explique trois problèmes juridiques et contre-mesures en 5 minutes [Version préservée] Explication approfondie pour les débutants sur la façon de gratter avec Python![Exemple de code disponible]
Recommended Posts