Bei der Erneuerung einer Site werden häufig Datenmigrationsarbeiten durchgeführt. Sie können es manuell tun, aber es kostet Geld, also Funktionen wie die HTML-Erfassung im Batch ⇒ Analyse ⇒ Einführung in ein neues System können hilfreich sein.
In Java ist eine Bibliothek namens jsoup berühmt. In Python ist eine Bibliothek namens beautifulsoup4 berühmt.
jsoup: https://jsoup.org/ beautifulsoup4: https://pypi.org/project/beautifulsoup4/
1 jsoup jsoup ist eine JAVA-Bibliothek für die HTML-Analyse. Sie können HTML einfach mit dem jquery-ähnlichen Selektor analysieren. Unterstützt WHATWG HTML5-Spezifikationen.
Gradle Beispiel:
// https://mvnrepository.com/artifact/org.jsoup/jsoup
compile group: 'org.jsoup', name: 'jsoup', version: '1.12.1'
package com.test.jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupHtmlParser {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://news.yahoo.co.jp").get();
//Holen Sie sich das a-Tag für jeden Artikel. Beschrieben auf die gleiche Weise wie der jQuery-Selektor
Elements newsHeadlines = doc.select(".topicsList li.topicsListItem a");
for (Element headline : newsHeadlines) {
System.out.println("title: " + headline.ownText() + ", href: " + headline.absUrl("href"));
}
}
}
title:Rekordsturm durch Taifun, bei dem zwei Menschen getötet wurden, href: https://news.yahoo.co.jp/pickup/6336014
title:Der Flughafen Narita war mit 10.000 Menschen überfüllt, href: https://news.yahoo.co.jp/pickup/6336017
title:Sicherheitsunternehmen 3.Vorkehrungen, um 600 Millionen Yen zu stehlen, href: https://news.yahoo.co.jp/pickup/6336018
title:Probleme mit der Normalisierung des geplanten Fahrplanes, href: https://news.yahoo.co.jp/pickup/6336013
title:Der summende Student zerreißt 50 Mal in Flammen, href: https://news.yahoo.co.jp/pickup/6335993
title:Basketball World Cup 5. Niederlage 3P Entfernen Sie alle, href: https://news.yahoo.co.jp/pickup/6336020
title:Rücktritt vom NPB Professional Sports Association, href: https://news.yahoo.co.jp/pickup/6336015
title:Ryo Yoshizawa "Ungewöhnlicher Druck", href: https://news.yahoo.co.jp/pickup/6336022
package com.test.jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class JsoupHtmlParser {
public static void main(String[] args) throws IOException {
String html = "<h1>HTML-Fragmente analysieren</h1><div><p>P1</p>";
Document doc = Jsoup.parseBodyFragment(html);
//Wenn Sie das Dokument so ausgeben, wie es ist, HTML,Ein Body-Tag wurde hinzugefügt. Seien Sie also vorsichtig, wenn Sie Fragmente analysieren.
System.out.println(doc.html());
System.out.println("==========================");
//Ausgabeelemente des Körpers
Element body = doc.body();
System.out.println(body.html());
}
}
<html>
<head></head>
<body>
<h1>HTML-Fragmente analysieren</h1>
<div>
<p>P1</p>
</div>
</body>
</html>
==========================
<h1>HTML-Fragmente analysieren</h1>
<div>
<p>P1</p>
</div>
Darüber hinaus gibt es auf der Site leicht verständlichen Beispielcode wie HTML-Analyse, Datenextraktion und Datenkorrektur aus Dateien. https://jsoup.org/cookbook/input/load-document-from-file
das ist alles
Recommended Posts