[Java] Spam-Beurteilung mittels morphologischer Analyse "lucene-gosen"

Was ich getan habe

Als ersten Schritt für maschinelles Lernen habe ich versucht, Spam mithilfe morphologischer Analysen zu beurteilen (Entwicklungssprache ist Java, Play Framework wird verwendet).

Was ist Lucene-Gosen

Java-Tool zur morphologischen Analyse, verfügbar durch einfaches Ablegen des Glases

Laden Sie jar von der folgenden Seite herunter https://code.google.com/p/lucene-gosen/

Lesen und Schreiben der zu analysierenden Datei

public static void writing(File readfile,File writefile) throws IOException, FileNotFoundException{
	StringTagger stirngTagger = SenFactory.getStringTagger(null);
		
		Reader reader = new InputStreamReader(new FileInputStream(readfile), "UTF-8");
		StreamTagger tagger = new StreamTagger(stirngTagger, reader);
		FileWriter filewriter = new FileWriter(writefile);
		BufferedWriter bw = new BufferedWriter(filewriter);
		
		while (tagger.hasNext()) {
			Token token = tagger.next();
			bw.write(token.getSurface());
			bw.newLine();
		}
		bw.close();
	}

Zählen Sie die geteilten Wörter und sortieren Sie sie in absteigender Reihenfolge.

public class Wordseparated {
		public CountTable count(String readfile,String writefile) throws IOException, FileNotFoundException{
		
			CountTable table = new CountTable();		
			BufferedReader brfile = new BufferedReader(new FileReader(readfile));			
			BufferedWriter bwfile = new BufferedWriter(new FileWriter(writefile));

			while (true) {
		                String linefile = brfile.readLine();
				if (linefile == null) {
					break;
				}
				for (String s : linefile.split("\\s+")) {
					if (!s.equals("")) {
						int count = table.get(s);
						table.add(s);
					}
				}
			}
			brfile.close();
			
			for (String s : table.getKeysByCount()) {
				int count = table.get(s);

				bwfile.write(s);
				bwfile.newLine();
			}
			bwfile.close();
			return table;
		}
}

Recommended Posts

[Java] Spam-Beurteilung mittels morphologischer Analyse "lucene-gosen"
NLP4J Morphologische Analyse in Java (unter Verwendung von Kuromoji)
Morphologische Analyse in Java mit Kuromoji
Sortieren mit Java-Komparator
Alle Analysen mit Javassist
[Java] Beispiel für ein Urlaubsurteil
Schrottpraxis mit Java ②
Schrottpraxis mit Java ①