Basierend auf Ich habe versucht, eine PDF-Datei mit Java über OCR zu verarbeiten analysierte ich die häufig verwendeten Wörter des Sicherheitsspezialisten AM2.
JapaneseAnalyser.java
package jpn;
import java.nio.charset.Charset;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
import java.util.stream.Collectors;
import org.atilika.kuromoji.Token;
import org.atilika.kuromoji.Tokenizer;
public class JapaneseAnalyser {
public static void main(String[] args) throws Exception{
//parse_1.Das Ergebnis der OCR-Lektüre des Fragebogens des Sicherheitsspezialisten AM 2 wird in txt gespeichert
String input = Files.lines(Paths.get("parse_1.txt"), Charset.forName("MS932"))
.reduce((s,v)->s+v.replaceAll("\\r\\n", "").trim()).get();
analysis(input);
}
public static void analysis(String s){
Tokenizer tokenizer = Tokenizer.builder().build();
List<Token> tokens = tokenizer.tokenize(s);
tokens
.stream()
.filter(a ->(a.getPartOfSpeech().indexOf("Substantiv")>=0))
.map(e -> e.getSurfaceForm())
.sorted()
.collect(
Collectors.groupingBy(b->b,
Collectors.summingInt(b->1))
)
.forEach((m1,m2)->System.out.println(String.format("Häufigkeit des Auftretens%d Erscheinendes Wort: %s",m2,m1)));
}
}
Ich habe es auf meinem Blog gepostet
Recommended Posts