[JAVA] Il est temps de réfléchir sérieusement à la définition et aux compétences des data scientists

Qu'est-ce qu'un data scientist?

Comme le titre l'indique, pensons au métier de data scientist, qui est dit être divers de nos jours. Même dans l'industrie, la définition de cette profession est ambiguë et il n'y a pas de vision unifiée.

Eh bien, pour être honnête, c'est une histoire que "une personne qui veut se faire appeler un data scientist devrait se faire appeler", mais comme c'est un gros problème, je vais écrire mes pensées personnelles pendant cette période.

De plus, il n'y a peut-être rien de nouveau pour ceux qui pensent régulièrement aux data scientists.

En fait, c'est un article que je veux que les gens voient, "Comment puis-je devenir un data scientist?" Ou "Je veux embaucher un data scientist à la mode, mais quel genre de personne dois-je embaucher?" Essaye de comprendre

Jetez un œil aux opinions du grand public

Pour l'instant, jetons un coup d'œil à certaines des définitions bien connues des mythes qui existent déjà dans le monde.

"Data Scientist’ is a Data Analyst who lives in California"

"A data scientist is someone who is better at statistics than any software engineer and better at software engineering than any statistician."

Les deux semblent dire de bonnes choses et j'estime qu'ils n'ont ni ancien ni enfant.

Il y a aussi un personnage aussi célèbre

"THE DATA SCIENCE VENN DIAGRAM" http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram     Pour plus de détails, veuillez lire le lien ci-dessus, mais le fait est que les scientifiques des données possèdent les trois «compétences en piratage», «les mathématiques et les statistiques» et les «forces uniques».

Alternativement, une association professionnelle japonaise a officiellement annoncé les compétences requises pour les data scientists.

** Définition / ensemble de compétences / niveau de compétence du scientifique des données ** http://www.datascientist.or.jp/news/2014/pdf/1210.pdf   Le libellé est un peu différent, mais il est très similaire au diagramme de Ben ci-dessus.      image

Je veux une définition plus compréhensible et structurelle

Je sais ce que j'entends par les définitions existantes ci-dessus, mais j'estime qu'aucune d'elles n'est suffisante. Il y a deux raisons

** ① Non structurel. ** ** La chaîne de valeur du travail analytique en entreprise n'est pas représentée et il est difficile de comprendre quand et comment chaque compétence est requise.

** ② Il s'agit d'une double théorie pour savoir si la compétence est «oui» ou «non» ** Pour être honnête, il est très difficile d'acquérir les trois compétences présentées dans le diagramme de Ben ci-dessus à un niveau complet et parfait. En fait, je ne sais pas à quel niveau je devrais l'obtenir.

Dans cet article, j'aimerais définir structurellement les compétences du data scientist de manière à résoudre ces deux problèmes. Surtout pour (2), je voudrais discuter des compétences nécessaires après avoir introduit le concept selon lequel il existe deux niveaux de compétence, «lecture» et «écriture».

Data Scientist = Théorie "multilingue"

Je me suis toujours demandé si le concept de data scientist pourrait être un peu plus proche d'un «traducteur multilingue». Les data scientists doivent être capables de manipuler plusieurs langues différentes et de traduire entre les langues.

Le "langage" mentionné ici est

・ Langue des affaires ・ Nombre / KPI ・ Statistiques / formules mathématiques · Langage de programmation

Etc. Je veux que vous y réfléchissiez.

Les services de gestion et de planification parlent souvent le langage des affaires et ne comprennent pas les autres langues. Bien qu'il soit appelé "Viser à augmenter les ventes Yo", il n'est pas mentionné comme une formule ou un algorithme concret.    Les statisticiens sont doués pour traiter des formules difficiles, mais parfois ils ne sont pas bons pour les comparer à des événements commerciaux réels. Même si vous sortez une liste de formules et de nombres, les personnes exerçant d'autres professions ne vous regarderont pas.    Les ingénieurs ne sont pas toujours nombreux.    De plus, les ordinateurs ne comprennent rien d'autre que les langages de programmation.

Même si tous les acteurs (à l'exception des ordinateurs) comprennent l'importance de l'analyse des données et des données, les situations ci-dessus sont courantes. «Je parle dans le même japonais, donc je peux comprendre! Ne pense pas ça. De différentes positions, les mots qu'ils utilisent et la signification derrière eux sont complètement différents.

** Il y a un "data scientist" pour surmonter cette situation **, qui est l'image du data scientist dont je voudrais discuter dans cet article. Vous devez être libre de passer d'une langue à l'autre, devenir traducteur si nécessaire et être un bricoleur qui parcourt un ensemble de chaînes de valeur pour l'analyse des données.

Analyse de la chaîne de valeur et «lecture» et «écriture»

Les personnes impliquées dans la chaîne de valeur du processus d'analyse en entreprise sont grossièrement structurées comme suit. Et cette chaîne de valeur formera un flux en forme de V par le processus aller-retour «d'écriture» et de «lecture». ** Expliquons un par un. ** **

image

La plupart du processus d'analyse commence par des mots tels que «Notre structure de vente, rendez-la plus visible Yo» par les chefs d'entreprise (directeurs, chefs de produit, chefs d'entreprise, etc.), et plusieurs personnes entre les deux. Finalement, il atteindra les ressources informatiques via les parties impliquées. (Cependant, chaque personne n'est pas divisée et partagée, et il est très probable qu'une personne couvre plusieurs plages.)

C'est le ** processus "d'écriture" **.

En gros, à chaque étape de ce processus, ce qui suit se produit: Les répliques de chaque joueur sont probablement symboliques (et préjugées), et je ne pense pas que chaque prince prononce généralement tous ces mots ...

Cependant, il ne fait aucun doute que pendant le travail, nous parlons principalement dans la langue décrite ici (il peut s'agir du même japonais, mais si vous ne comprenez pas correctement cette langue, la conversation ne sera pas établie).

[Insérer une figure]Image

Il faut de très fortes compétences pour faire avancer ce processus. En général, ** le processus «d'écriture» est souvent beaucoup plus difficile que le processus de «lecture» **.

** Responsable planification et gestion **

Nous devons mobiliser toutes nos connaissances et notre logique métier pour concevoir des KPI significatifs, convaincants et calculables. Il est également important que le contenu réponde aux attentes des chefs d'entreprise.

** Personne analytique / statistique **

Il est nécessaire d'envisager des mesures spécifiques pour analyser et quantifier le KPI que vous souhaitez voir. Il est nécessaire de scruter les données qui peuvent être utilisées, de déterminer la plage de données qui est réellement utilisée (à l'exclusion des données qui font de mauvaises choses), de réfléchir à la granularité à voir et de concevoir un modèle statistique si nécessaire. Vous devez également réfléchir au type de graphique dans lequel les résultats seront affichés.

** Ingénieur **

Implémentez la logique de calcul que pense l'analyste. Il est nécessaire de faire une conception à usage général et de faire attention à la vitesse de traitement en tenant compte du moment où la plage de données et la taille des grains changent. Dans certains cas, la connaissance de l'empaquetage de modèles statistiques est également requise. Il est également souhaitable de prendre en compte le format de sortie et, si nécessaire, de se familiariser avec des méthodes telles que la visualisation.

** Infrastructure informatique **

En fonction de la quantité de données, il peut être nécessaire de disposer d'un personnel ayant des connaissances d'ingénieurs d'infrastructure pour le réglage des ressources de calcul et la parallélisation.

Fondamentalement, il est terrible ou presque impossible de demander à une seule personne toutes ces compétences. Par conséquent, si une personne qui possède une pile complète de compétences en «écriture» est définie comme un «scientifique des données», cette profession sera ** rapidement bouchée **.

«Ecrire» et «lire» ont des niveaux de difficulté différents

Que ce soit en anglais ou en libanais, la lecture est plus facile que l'écriture. Souvent, dans les cours d'apprentissage de l'anglais au Japon, le problème est que la lecture devient plus forte mais que l'écriture et la parole ne se développent pas, mais je pense personnellement que cela a beaucoup de sens de pouvoir lire (ou lire). J'espère pouvoir aussi l'écouter)

En dehors de cela, le processus «d'écriture», c'est-à-dire d'analyse et de «lecture» des résultats d'un processus métier est important et intéressant. Cela ressemblerait-il à ce qui suit s'il était écrit de la même manière qu'avant?

image

Dans ce processus, même si vous n'avez pas la capacité d'écrire, si vous avez la capacité de lire, vous pouvez participer pleinement à la conversation, et vous pouvez également contribuer en donnant votre avis.

Même si vous ne pouvez pas créer vous-même un modèle statistique, il vous suffit de connaître la structure des données d'entrée et comment lire les résultats du modèle.

Même s'il ne faut qu'une demi-personne pour concevoir les KPI, il suffit de pouvoir lire les valeurs numériques de chaque KPI et formuler des interprétations et hypothèses métier.   De plus, même si vous ne pouvez pas rayer le code vous-même, cela peut être utile si vous avez les compétences nécessaires pour corriger et réutiliser une partie du code d'une personne.

Dans ce cas, l'obstacle à apprendre est bien inférieur à celui de «l'écriture», mais il existe de nombreuses scènes utiles pour les entreprises à ce niveau.

Essayez de résumer ce dont vous avez besoin

Je pense que c'est un résumé approximatif de ce qui a été discuté jusqu'à présent. Dans ce tableau, si «écrire» a environ deux points forts et à part cela, «lire» est possible, je pense que c'est ** assez fort pour une personne impliquée dans le processus d'analyse des données **.

En d'autres termes, si vous voulez vous appeler **, vous pouvez vous appeler un data scientist, non? ** Je dis ça.

image

Ce que je veux souligner, c'est    ** 1. Vous n'avez pas à «écrire» tous les champs ** Si vous le pouvez, c'est mieux, mais c'est pratiquement difficile. Dans certains cas, il est plus avantageux de se spécialiser davantage et d'approfondir les domaines qui peuvent déjà être écrits, plutôt que de s'efforcer d'augmenter la couverture de «l'écriture».

** 2. Si vous pouvez "lire" une langue que vous ne pouvez pas "écrire" (・ ∀ ・) Bien !! ** Comme je l'ai mentionné plus tôt, la lecture est plus facile que l'écriture, que ce soit en anglais ou en libanais. Et selon ce que vous faites, cela peut suffire. La première chose est de pouvoir lire / écouter sans forcer à écrire / parler.

C'est tout. L'important est ** "vous pourrez participer à des conversations dans n'importe quelle langue" **. Et si vous parlez d'une «langue que vous pouvez écrire», vous devriez prendre plus d'initiative pour participer à la conversation.

À la fin

Je l'ai écrit dur, mais ce que je veux dire c'est

"Désespoir que je pense que le quattro lingual parfait est impossible. Mais si c'est bilingue + vous pouvez lire et entendre en deux langues, c'est à peu près tout, mais c'est quand même assez utile, alors faisons de notre mieux.

C'est.

«Avec Ph.D, ** Spark, Hadoop, SQL peut être utilisé pour **, et Python peut être appliqué non seulement pour l'analyse mais aussi pour le ** niveau de construction des algorithmes à incorporer dans les produits **, ** le modèle statistique et l'apprentissage automatique. J'espère qu'il n'y aura pas de recrutement ridicule de data scientist tel que "Recrutement de ** personnes avec des connaissances abondantes **, une ** expérience commerciale suffisante **, une bonne gestion d'équipe et ** une communication élevée".

Enjoy!

Cet article aussi

Si vous êtes intéressé par les data scientists, regardez d'abord ici, un résumé de la littérature et des vidéos http://qiita.com/hik0107/items/ef5e044d2f47940ba712

Recommended Posts

Il est temps de réfléchir sérieusement à la définition et aux compétences des data scientists
Je voulais juste extraire les données de la date et de l'heure souhaitées avec Django
[Introduction to Data Scientists] Bases de Python ♬ Fonctions et classes
À propos de Boxplot et Violinplot qui visualisent la variation des données indépendantes
Réfléchissez sérieusement au langage à utiliser dans l'enseignement de la programmation et l'enseignement de la programmation.
[Introduction to Data Scientists] Bases de Python ♬ Branchements conditionnels et boucles
[Introduction aux Data Scientists] Bases de Python ♬ Fonctions et fonctions anonymes, etc.
Méthode Ford-Falkerson et ses applications - Supplément au chapitre 8 de la référence rapide de l'algorithme -
[Introduction aux data scientists] Bases de la probabilité et des statistiques ♬ Variable de probabilité / probabilité et distribution de probabilité
Définir le fuseau horaire sur l'heure standard japonaise
Comment régler l'heure du serveur sur l'heure japonaise
Comment sensibiliser VS Code à l'environnement venv et à ses avantages
Assurez-vous que le prétraitement au moment de la création du modèle de prédiction et de la prédiction est aligné
[Vérification] LevelDB prend-il du temps pour enregistrer les données lorsque la quantité de données augmente? ??
[Python] Pensez sérieusement à la méthode gagnante M-1.
L'histoire du serveur Web et du DAG d'Airflow, dont le chargement prend beaucoup de temps
J'ai étudié le temps de calcul de "X dans la liste" (recherche linéaire / recherche dichotomique) et "X dans l'ensemble"
[Challenger à la recherche] Le chargement et l'augmentation des données les plus rapides (bloc-notes Kaggle) je pense
Analyse des données financières par pandas et leur visualisation (2)
Liste des bibliothèques Python pour les data scientists et les data ingénieurs
Analyse des données financières par pandas et leur visualisation (1)
Visualisez les données et saisissez la corrélation en même temps
À propos de l'inefficacité du transfert de données dans luigi on-memory
[Blender] Comment définir dynamiquement les sélections EnumProperty
Définissez la colonne spécifiée de QTableWidget sur ReadOnly StyledItemDelegate
Notes personnelles sur l'intégration de vscode et anaconda
Vue d'ensemble du traitement du langage naturel et de son prétraitement des données
J'ai essayé de publier automatiquement sur ChatWork au moment du déploiement avec Fabric et ChatWork Api
[Introduction au modèle SIR] Prédire l'heure de fin de chaque pays avec l'ajustement des données COVID-19 ♬
[Introduction au graphique logarithmique] Prédire l'heure de fin de chaque pays à partir du graphique logarithmique des données sur le nombre d'infections ♬
Renvoyez les données d'image avec Flask of Python et dessinez-les dans l'élément canvas de HTML
Comment calculer la somme ou la moyenne des données csv de séries chronologiques en un instant