[Mémo] Correspondance de texte dans le cadre de données pandas à l'aide de Flashtext

Aperçu

Installation

--Introduit avec la commande suivante.

pip install flashtext

Exemple de code

import pandas as pd
from flashtext import KeywordProcessor

#spécification de mot-clé
keyword_dict = {
'front': ['html', 'javascript','css'],
'back': ['php','python','ruby'],
'db': ['mysql','postgress','mongo']
}

# init
keyword_processor = KeywordProcessor()

#mot-clé ajouté
keyword_processor.add_keywords_from_dict(keyword_dict)

#Charger un exemple de csv
df = pd.read_csv("sample.csv")

#Traitement du compte. Ajout d'une colonne pour afficher chaque nombre compté.
#Exemple: sample.Chaque correspondance pour les données de la colonne «contenu» dans csv.
df['all_count'] = df['contents'].apply(lambda x: len(keyword_processor.extract_keywords(x)))

#Sortie 3 premières lignes
df.head(3)

image.png

référence

Recommended Posts

[Mémo] Correspondance de texte dans le cadre de données pandas à l'aide de Flashtext
Sélectionnez des fonctionnalités avec des données textuelles
Analyse de données à l'aide de pandas python
Gonfler des données textuelles par retranslation à l'aide de Google Traduction en Python
Graphique des données de séries chronologiques en Python à l'aide de pandas et matplotlib
Méthode de visualisation de données utilisant matplotlib (+ pandas) (5)
Méthode de visualisation de données utilisant matplotlib (+ pandas) (3)
Mémo d'acquisition de données à l'aide de l'API Backlog
Méthode de visualisation de données utilisant matplotlib (+ pandas) (4)
Analyser les données à l'aide du texte Flash 100x de RegEx
Mémo d'enregistrement d'informations en utilisant la session dans Django
Précautions lors de l'utilisation de l'instruction for dans les pandas
Les données RDS via la plate-forme pas à pas sont envoyées aux Pandas
SELECT des données à l'aide de la bibliothèque cliente avec BigQuery
Gérez les structures de données 3D avec les pandas
Mémo Pandas
Trouvez l'index des éléments qui correspondent aux conditions dans la trame / série de données pandas
mémo pandas
Prétraitement de texte japonais sans instruction for dans les pandas
Astuces de fourniture de données utilisant deque dans l'apprentissage automatique
[Pandas] Principes de base du traitement des données de date à l'aide de dt
100 langage de traitement knock-20 (à l'aide de pandas): lecture de données JSON
Transformez les données de vacances en une trame de données avec les pandas
Découvrez le nombre maximum de caractères dans un texte multiligne stocké dans un bloc de données