Je suis externalisé pour analyser les données des entreprises clientes. L'autre jour, j'ai reçu une demande d'un client pour évaluer le produit afin d'envisager l'introduction de Paxata, et j'ai eu l'opportunité d'essayer Paxata à titre d'essai. Paxata est un outil de préparation de données acquis par DataRobot en 2019 [^ 1]. Il existe deux modèles à utiliser, soit vous abonner, soit les mettre dans la machine virtuelle d'Azure / AWS, et cette fois, c'était le dernier.
C'est juste une impression. Le fait que chacun ait ses avantages ou ses inconvénients dépend du moment et du cas.
―― Même s'il ne s'agit pas de codage, une certaine capacité de réflexion en programmation est requise
Paxata se compose de trois éléments:
# | composant | La description |
---|---|---|
1 | Bibliothèque | Gérer les jeux de données (la sortie du projet est également gérée ici) |
2 | projet | Définition du traitement des données |
3 | Flux de projet | Définition du flux de traitement du projet et du calendrier d'exécution |
Lors du développement
Tel est le flux général.
Si vous essayez d'importer un fichier CSV, il ressemblera à ceci. Les données ont été empruntées à ici.
Une fonctionnalité appelée "Profil" vous donnera des informations sur les statistiques de base et les catégories pour chaque colonne.
Les résultats de profil sont également gérés dans la bibliothèque.
Créons un projet avec les données importées.
Si vous essayez de modifier ou de remplacer le type de données d'une colonne, vous obtiendrez un aperçu du résultat du traitement comme celui-ci.
Vous pouvez également créer de nouvelles colonnes en utilisant des fonctions comme Excel avec un outil appelé "Calcul".
La grammaire était assez sévère.
Vous pouvez également agréger avec un outil appelé «agréger». Cependant, il s'agit d'un type d'agrégation que vous ajoutez en tant que nouvelle colonne, par exemple lorsque vous comptez encoder.
Pour l'agrégation ordinaire (?), Utilisez un outil appelé "Forme".
Planifions le projet créé. En plus de l'intervalle de temps, vous pouvez également spécifier le format crontab.
Cela ressemble à ceci lorsqu'il est affiché dans un graphique. J'ai peur qu'il n'y ait qu'un seul projet ...
Une fois exécuté, cela ressemble à ceci.
Le résultat du traitement est géré dans la bibliothèque comme un ensemble de réponses.
Cet article a été rédigé avec l'autorisation de nos entreprises clientes et des distributeurs Paxata.
Recommended Posts