[JAVA] Herbst 2017 Sicherheitsspezialist Ich habe die Häufigkeit der Wörter überprüft, die am Morgen 2 erschienen sind

Am Anfang

Basierend auf Ich habe versucht, eine PDF-Datei mit Java über OCR zu verarbeiten analysierte ich die häufig verwendeten Wörter des Sicherheitsspezialisten AM2.

Referenzseite

Quelle für die Analyse

JapaneseAnalyser.java


package jpn;

import java.nio.charset.Charset;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
import java.util.stream.Collectors;

import org.atilika.kuromoji.Token;
import org.atilika.kuromoji.Tokenizer;



public class JapaneseAnalyser {
    public static void main(String[] args) throws Exception{
    	//parse_1.Das Ergebnis der OCR-Lektüre des Fragebogens des Sicherheitsspezialisten AM 2 wird in txt gespeichert
        String input = Files.lines(Paths.get("parse_1.txt"), Charset.forName("MS932"))
        .reduce((s,v)->s+v.replaceAll("\\r\\n", "").trim()).get();
        analysis(input);
    }	
    public static void analysis(String s){
        Tokenizer tokenizer = Tokenizer.builder().build();
        List<Token> tokens = tokenizer.tokenize(s);
        tokens
            .stream()
            .filter(a ->(a.getPartOfSpeech().indexOf("Substantiv")>=0))
            .map(e -> e.getSurfaceForm())
            .sorted()
            .collect(
    				Collectors.groupingBy(b->b,
    						Collectors.summingInt(b->1))
    				)
            .forEach((m1,m2)->System.out.println(String.format("Häufigkeit des Auftretens%d Erscheinendes Wort: %s",m2,m1)));
    }
}

Analyseergebnis

Ich habe es auf meinem Blog gepostet

Impressionen

Recommended Posts

Herbst 2017 Sicherheitsspezialist Ich habe die Häufigkeit der Wörter überprüft, die am Morgen 2 erschienen sind
Ein Programm, das die Anzahl der Wörter in einer Liste zählt
Ich habe den Teil von java.net.URL # getPath überprüft
Ich habe die Anzahl der Taxis mit Ruby überprüft
Als ich an den 402-Fehler dachte, der plötzlich mitten in der Einführung von PAY.jp auftrat, gab es einen unerwarteten Ort
Zählen Sie die Häufigkeit des Auftretens von Wörtern in einem Satz durch Stream-Verarbeitung (Apache Apex).
Untersuchte asynchrone Ausführung von Abfragen in Spring Boot 1.5.9
Zählen der Häufigkeit des Auftretens von Wörtern in Sätzen durch Stream-Verarbeitung (Apache Apex) Teil 2 Codierung
Ich berührte den Gerätesteuerer, den ich in der Blackbox fühlte