[Java] Jugement de spam utilisant l'analyse morphologique "lucene-gosen"

Ce que j'ai fait

Dans un premier temps pour l'apprentissage automatique, j'ai essayé le jugement de spam en utilisant l'analyse morphologique (le langage de développement est Java, le framework de jeu est utilisé)

Qu'est-ce que lucene-gosen

Outil d'analyse morphologique Java, disponible simplement en déposant le pot

Télécharger le bocal à partir du site suivant https://code.google.com/p/lucene-gosen/

Lire et écrire le fichier que vous souhaitez analyser

public static void writing(File readfile,File writefile) throws IOException, FileNotFoundException{
	StringTagger stirngTagger = SenFactory.getStringTagger(null);
		
		Reader reader = new InputStreamReader(new FileInputStream(readfile), "UTF-8");
		StreamTagger tagger = new StreamTagger(stirngTagger, reader);
		FileWriter filewriter = new FileWriter(writefile);
		BufferedWriter bw = new BufferedWriter(filewriter);
		
		while (tagger.hasNext()) {
			Token token = tagger.next();
			bw.write(token.getSurface());
			bw.newLine();
		}
		bw.close();
	}

Comptez les mots divisés et triez-les par ordre d'apparition décroissant.

public class Wordseparated {
		public CountTable count(String readfile,String writefile) throws IOException, FileNotFoundException{
		
			CountTable table = new CountTable();		
			BufferedReader brfile = new BufferedReader(new FileReader(readfile));			
			BufferedWriter bwfile = new BufferedWriter(new FileWriter(writefile));

			while (true) {
		                String linefile = brfile.readLine();
				if (linefile == null) {
					break;
				}
				for (String s : linefile.split("\\s+")) {
					if (!s.equals("")) {
						int count = table.get(s);
						table.add(s);
					}
				}
			}
			brfile.close();
			
			for (String s : table.getKeysByCount()) {
				int count = table.get(s);

				bwfile.write(s);
				bwfile.newLine();
			}
			bwfile.close();
			return table;
		}
}

Recommended Posts

[Java] Jugement de spam utilisant l'analyse morphologique "lucene-gosen"
NLP4J [001b] Analyse morphologique en Java (utilisant kuromoji)
Analyse morphologique en Java avec Kuromoji
Tri à l'aide du comparateur java
Toutes les analyses avec Javassist
[Java] Exemple de jugement de vacances
Pratique de grattage avec Java ②
Pratique du grattage avec Java ①