À partir de 2019, il devrait y avoir beaucoup de gens qui ne peuvent s'empêcher de vouloir devenir data scientist. Cependant, plus vous voulez faire semblant, moins vous savez faire semblant. J'ai complètement exclu l'aspect boueux du data scientist et je me suis demandé comment je pouvais le prétendre. Les conclusions que vous tirez peuvent être mises en pratique dès demain. Si vous voulez devenir un data scientist, essayez-le.
<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/e8d86648-b700-a30e-7d49-7f427a5325fe.png " width="170")> Lorsque vous ouvrez votre MacBook, vous verrez VSCODE. Qu'est-ce que vous aimez dans VSCODE? Je répondrai comme ça quand on me le demandera. "Hmm, tout d'abord, la légèreté et les extensions abondantes, le plus attrayant est le débogage à distance." Les rédacteurs doivent toujours être légers. Et les collègues et amis doivent être impressionnés par les sons à la mode des extensions et du débogage à distance.
La visualisation est l'un des points forts des data scientists. Une fois que vous avez les données, visualisons-les rapidement, même si rien d'autre. De plus, disons à un collègue qui dessine des graphiques avec MatPlotLib, "Maintenant, je recommande de visualiser avec Plotly. Après tout, il est plus pratique de pouvoir voir les données de manière interactive."
<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/7544d416-64da-7718-2868-dc0a431fc1b1.png ", width="200"><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/a08b87f1-c054-d830-6f2a-657beddf5217.jpeg ", width="200"> Ne pas utiliser le cloud n'est pas une science des données. Abordons le sujet d'AWS et de GCP. Et répétons le mot-clé de mise à l'échelle. En d'autres termes, ce serait encore mieux si nous pouvions utiliser des termes tels que S3 et IAM. Montrez la taille du champ qui peut être géré à la fois sur site et dans le cloud.
Cet article est destiné à "faire semblant" de data scientists, qui seraient l'un des métiers les plus glamour à la fin de 2019. Le déclencheur a été la situation autour de moi lorsque j'ai assisté à une conférence d'une entreprise informatique très connue. C'était très intéressant car tout le monde se ressemblait. Je l'ai écrit de manière un peu ludique, mais j'ai l'intention d'écrire quelque chose qui est correct dans une certaine mesure. Parlons un peu sérieusement de chacun et donnons quelques liens et mots utiles.
Personnellement, je pense que Windows va bien, mais je pense qu'il est excellent en termes de construction d'environnement et de compatibilité avec Linux. De nombreuses personnes recommandent Mac. Bien sûr, il y a aussi des adeptes d'Apple. Pensez à la question de savoir lequel est le meilleur, Windows ou Mac pour le développement Ce que j'ai fait avant de devenir data scientist
Je pense personnellement que c'est une option. Je ne veux plus écrire Python en dehors de VSCODE, tout comme Markdown. Le brouillon que j'écris cet article est également VSCODE. Personnellement, je ne ressens pas vraiment la raison de choisir un autre éditeur maintenant. D'une certaine manière, VScode est le plus puissant pour les débutants, n'est-ce pas? 3 raisons de penser 24 extensions recommandées pour VS Code (et quelques astuces)
Si je fais de la science des données, je me demande si je ne peux pas le supprimer maintenant. Tous les frameworks d'apprentissage automatique sont fournis en Python et sont très compatibles avec Cloud. Langage de programmation recommandé pour 2019
De plus, si vous utilisez Flask, etc., vous pouvez facilement écrire une petite application Web et diverses applications sont faciles à utiliser. Je pense que Python est excellent car je pense qu'il est important d'avoir un sens de la vitesse pour essayer un peu dans un travail qui répète des essais et des erreurs comme la science des données.
Je pense que la visualisation est l'un des éléments les plus importants pour ceux qui font de la science des données. Je l'ai écrit de manière ludique dans la partie supérieure, mais Matplotlib est une évidence, et maintenant je recommande fortement Plotly et Dash. Je pense qu'il est important d'afficher les données pour que les humains puissent les voir afin que l'on puisse dire que ce qui contrôle la visualisation contrôle les données. (Vue personnelle) Tutoriel de l'outil de visualisation Dash - Partie 1: Installation-Drawing- Créez une application Web qui peut être facilement visualisée avec Plotly Dash
Ce domaine est un peu maniaque, mais en maîtrisant la notation d'inclusion de liste, Map et Lambda, vous pouvez obtenir ce que vous voulez avec un code court et propre. Cela peut également contribuer à accélérer. Certaines personnes disent que ce n'est pas lisible, mais je pense que c'est utilisé dans une certaine mesure. The Hitchhicker's Guide to Python Ce que j'ai fait quand je voulais rendre Python plus rapide Utilisation et mauvaise utilisation de la notation d'inclusion de liste Introduction à Python one-liner super "pratique" commençant par la notation d'inclusion de liste
Après tout, je veux créer une nouvelle bibliothèque, penser à des choses avancées et encore plus rapidement, j'ai besoin de C ++. Si vous souhaitez écrire quelque chose de proche du matériel, vous aurez peut-être besoin de C. Bien sûr, il y a des limites aux langages d'interprétation, donc des langages tels que C ++ ne peuvent bien sûr pas être ridicules. Inutile de dire ici. Why is python so slow? Comparaison de vitesse de Python, Java, C ++
C'est tellement important que je ne peux pas dire dans un entretien de recrutement que je n'utilise pas le cloud à cette époque, il est donc naturel que je doive rattraper le retard. Même si vous venez de commencer la science des données, il serait pratique d'utiliser rapidement ElasticSearch, Tableau, l'environnement de développement de Jupyter et d'utiliser de nombreuses fonctions de SageMaker. La science des données peut être lancée en un jour. Introduction à la science des données Python avec Amazon SageMaker Partie 1 Machine Learning: Data Scientist
Je ne pense pas qu'il soit nécessaire de participer au concours kaggle, mais il existe de nombreuses références aux méthodes de visualisation échangées dans le cadre du concours et à la façon de créer des fonctionnalités, alors gardez un œil sur la concurrence qui vous tient à cœur. Je ne pense pas que ce soit une mauvaise chose de le laisser passer.
Surtout récemment, le noyau de kaggle est devenu plus facile à utiliser, vous pouvez donc vous sentir libre de toucher un peu les données. Plongez dans Kaggle avec un noyau sous tension
C'est la fin de l'année, j'ai donc fait un article ludique. Je vous serais reconnaissant si vous pouviez y penser un peu. C'est tout.
Recommended Posts