Cliquez ici jusqu'à hier
Vous deviendrez ingénieur dans 100 jours - Jour 63 - Programmation - À propos de la probabilité 1
Vous deviendrez ingénieur dans 100 jours - Jour 59 - Programmation - À propos des algorithmes
Vous deviendrez ingénieur dans 100 jours --- Jour 53 --Git --À propos de Git
Vous deviendrez ingénieur dans 100 jours - Jour 42 --Cloud --À propos des services cloud
Vous deviendrez ingénieur dans 100 jours-24 jours-Python-Bases du langage Python 1
Vous deviendrez ingénieur dans 100 jours --Jour 18 --Javascript --Les bases de JavaScript 1
Vous deviendrez ingénieur dans 100 jours - Jour 14 --CSS --CSS Basics 1
Vous deviendrez ingénieur dans 100 jours - Jour 6 --HTML - Bases du HTML 1
Cette fois sur le grattage.
Qu'est-ce que le «grattage»?
Le «scraping» est une technologie permettant d'acquérir des données à partir de sites Web.
Le «grattage» lui-même peut être fait dans différentes langues.
En gros, il est utile d'avoir ces connaissances.
** Mécanisme de communication ** La communication est nécessaire pour obtenir des informations sur le WEB. Il est nécessaire de supprimer le mécanisme de communication HTTP qui est à la base d'Internet.
HTML、Javascript、CSS Le site Web est composé de HTML, Javascript et CSS. Il est nécessaire de supprimer le mécanisme des composants du site.
** Recherche de texte intégral et correspondance d'expression régulière ** Lorsque des informations sont obtenues à partir du site Web, seules les informations nécessaires sont extraites.
Ce faisant, vous devez déterminer si vous disposez des informations dont vous avez besoin et si elles correspondent aux informations dont vous avez besoin. La connaissance des expressions régulières est requise pour juger de la condition.
** Langage de programmation ** Comment accéder aux sites Web et analyser efficacement la syntaxe Une connaissance de la programmation en général et une connaissance des caractéristiques des langages de programmation sont requises.
Bibliothèque Il existe généralement des outils (bibliothèques) pour le scraping dans n'importe quel langage de programmation. Créer un programme à partir de zéro est inefficace et nécessite d'apprendre à utiliser la bibliothèque.
** Algorithme d'exploration de données ** La connaissance de l'analyse des données est nécessaire pour acquérir des informations et produire efficacement uniquement les parties nécessaires.
** Analyse DOM ** DOM (Document Object Model) est une spécification standard pour la manipulation de documents XML. Permet au langage de programmation de manipuler des éléments et du texte dans des documents XML. DOM est une méthode de lecture de l'intégralité du document XML et d'analyse de chaque élément du document en tant que nœud structuré en arborescence.
Le grattage nécessite une connaissance du DOM.
** Analyseur HTML (analyse) ** Extraire uniquement la partie texte du HTML ou extraire le contenu d'une balise spécifique
En raison de la commodité d'accéder au site Web et d'acquérir des informations, les problèmes de sécurité sont inévitables.
Si vous ne l'utilisez pas correctement, vous pouvez donner une présence au site ou être arrêté. Tu dois être prudent.
Le grattage est une technique utile, mais vous devez être conscient de ce qui suit:
** Violation des conditions d'utilisation ** Lorsque les conditions d'utilisation du site Web d'une autre personne indiquent "Pas de grattage" Le grattage peut enfreindre les conditions d'utilisation et entraîner des réclamations en dommages-intérêts.
Cependant, les mesures suivantes sont nécessaires pour que les conditions d'utilisation prennent effet auprès de l'utilisateur. Montrez les conditions d'utilisation à l'utilisateur et demandez-lui de cliquer sur le consentement pour démarrer la transaction.
Si vous souhaitez récupérer du contenu que tout le monde peut voir sans avoir à vous inscrire en tant que membre Il est possible que les conditions d'utilisation ci-dessus ne soient pas violées, mais veuillez noter que la loi change quotidiennement.
Aussi, pour les sites récupérés pour restreindre l'accès au site Web de Crawler Ramper lorsque des mesures (telles que robot.txt) ont été prises peut être un acte illégal au regard du droit civil.
Droits d'auteur Étant donné que la quantité de contenu acquis par grattage est énorme, il n'est pas réaliste d'obtenir le consentement pour chaque contenu.
Par conséquent, à titre exceptionnel, il semble que la copie à des fins d'analyse de l'information soit autorisée sans le consentement du titulaire du droit d'auteur (article 47-7 de la loi sur le droit d'auteur).
Le fait de transférer le contenu collecté à une autre personne (y compris la distribution en ligne) par grattage est une violation du droit d'auteur.
Si le contenu a de l'originalité, il sera protégé en tant qu '«œuvre» en vertu de la loi sur les droits d'auteur.
Copier un tel contenu ou le stocker sur le serveur de votre entreprise constitue une violation du droit d'auteur sans le consentement du titulaire du droit d'auteur.
** Perturbation des activités de contrefaçon ** Vous accéderez au site Web à intervalles réguliers, mais si l'intervalle devient plus court, La charge sur le serveur du site peut devenir lourde, ce qui peut interférer avec le fonctionnement normal du site.
Dans un tel cas, on suppose qu'il a interféré avec les activités de l'exploitant du site. Il est possible qu'une fausse charge d'obstruction comptable soit établie (article 233 du Code pénal).
Vers mars 2010, des citoyens au système de recherche de collection sur le site Web de la bibliothèque de la ville d'Okazaki
Il semble qu'il y ait eu une plainte selon laquelle je n'ai pas pu me connecter
Après cela, il est devenu difficile de parcourir le site Web l'un après l'autre.
Le 15 avril de la même année, la bibliothèque recevait un accès ennuyeux.
Un homme qui a soumis un rapport de dommage au poste de police de la préfecture d'Aichi à Okazaki et y accédait le 25 mai
En supposant que vous ayez volontairement envoyé une requête haute fréquence au système de recherche de collection
Il a été arrêté parce qu'il était soupçonné d'entraver les activités de contrefaçon.
Il n'y a pas d'illégalité dans le robot créé par des hommes Un problème est survenu avec le système de recherche des collections de la bibliothèque.
Cependant, le site Web de la bibliothèque centrale municipale d'Okazaki est un expert en tant que site du gouvernement local. Parce qu'il était incroyablement vulnérable C'est une combinaison de la négligence des municipalités et de l'ignorance du responsable.
À l'origine, le gouvernement local, qui était mal géré, est mauvais. Cela peut ne pas être le cas par la loi.
Les infrastructures municipales et nationales sont très puériles et souvent mal exploitées Cela peut ne pas être préférable comme cible de grattage. Soyez prudent lors du grattage.
. «Le scraping Web et l'exploration des pages de produits Amazon constituent une violation des conditions d'utilisation. Y a-t-il un problème juridique? ''
Les actes qui pèsent sur le serveur de l'autre partie peuvent correspondre à des perturbations commerciales telles que la contrefaçon ou des dommages informatiques.
Il est nécessaire de prendre des précautions telles que l'exécution du traitement suivant après avoir reçu une réponse.
De plus, comme la page est dupliquée, il peut y avoir un problème de violation du droit d'auteur si cela dépasse le cadre de la duplication privée. Vous devez le conserver dans le cadre de vos propres objectifs de navigation et d'analyse de données.
. ʻCréer un outil pour le web scraping et l'exploration des pages produits Amazon La distribution et la vente constituent-elles une violation des conditions d'utilisation? Y a-t-il un problème juridique? Cela dépend de la manière dont vous rédigez les conditions d'utilisation, mais si seule l'utilisation de l'outil est interdite Je pense que le fait d'utiliser l'outil après avoir reçu la distribution enfreint les règles. ''
Selon la manière dont il est utilisé, il peut être une aide en cas d'interruption d'activité ou de violation du droit d'auteur.
Tout d'abord, supprimons les précautions avant de gratter. Si vous exécutez le code soudainement, cela peut être difficile.
30 jours jusqu'à ce que vous deveniez ingénieur
HP d'Otsu py: http://www.otupy.net/
Youtube: https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw
Twitter: https://twitter.com/otupython
Recommended Posts