Le but de ce didacticiel est de fournir aux programmeurs SQL une expérience pratique de la création de solutions d'apprentissage automatique sur SQL Server. Dans ce didacticiel, vous apprendrez à intégrer Python dans votre application en ajoutant du code Python à vos procédures stockées.
[!NOTE] Cliquez ici pour la version R d'un tutoriel similaire (http://qiita.com/qio9o9/items/4f020bb93dc07567e556). La version R fonctionne à la fois sur SQL Server 2017 et SQL Server 2016.
Le cycle de vie du développement de l'apprentissage automatique comprend généralement l'acquisition et le nettoyage des données, l'exploration des données et l'ingénierie des fonctionnalités, la formation et le réglage des modèles, et enfin le déploiement des modèles en production. Pour le codage, le débogage et les tests réels, il est préférable d'utiliser l'environnement de développement intégré suivant pour Python (Python Tools for Visual Studio, PyCharm, Spyder, etc.).
Après avoir créé et testé la solution dans l'IDE Python, déployez le code Python sur SQL Server en tant que procédure stockée Transact-SQL. Ce tutoriel vous fournira tout le code Python dont vous avez besoin.
Téléchargez l'exemple de jeu de données et tous les fichiers de script sur votre ordinateur local.
Crée une base de données et une table sur l'instance spécifiée et exécute un script PowerShell qui charge les exemples de données dans la table.
Exécutez Python à partir d'une procédure stockée Transact-SQL pour effectuer une exploration et une visualisation de base des données.
L'extraction des caractéristiques des données est effectuée à l'aide de fonctions définies par l'utilisateur.
Créez et enregistrez un modèle d'apprentissage automatique avec du code Python procédural stocké.
Après avoir enregistré le modèle dans la base de données, utilisez Transact-SQL pour appeler le modèle pour la prédiction.
[!NOTE] En cas de problème avec le code intégré dans la procédure stockée, les informations renvoyées par la procédure stockée ne sont généralement pas suffisantes pour comprendre la cause de l'erreur, donc le test du code Python est un environnement de développement intégré pour Python (IDE). ) Est recommandé.
Ce didacticiel utilise le jeu de données bien connu NYC Taxi. Pour rendre ce didacticiel rapide et facile, nous allons échantillonner et utiliser les données. Sur la base de colonnes telles que le temps, la distance et le lieu de prise en charge dans cet ensemble de données, nous créerons un modèle de classification binaire qui prédit si les puces seront disponibles pour un trajet particulier.
Avant de commencer le didacticiel, vous devez effectuer les préparatifs suivants: ::
--Installez les services de moteur de base de données et les services d'apprentissage automatique (dans la base de données) pour SQL Server 2017.
―― 1. Activez la fonction d'exécution de script externe
```SQL:T-SQL
EXEC sp_configure 'external scripts enabled', 1;
```
―― 2. Redémarrez SQL Server 2017
```cmd:cmd
net stop "SQL Server Launchpad (MSSQLSERVER)"
net stop "SQL Server (MSSQLSERVER)"
net start "SQL Server (MSSQLSERVER)"
net start "SQL Server Launchpad (MSSQLSERVER)"
```
Modifiez le nom de l'instance transmis à la commande net en fonction de l'environnement. S'il existe un service qui dépend du service SQL Server, tel que le service SQL Server Agent, redémarrez-le explicitement.
Étape 1: Téléchargez des exemples de données
In-Database Python Analytics for SQL Developers
Machine Learning Services with Python
Recommended Posts