Si vous êtes intéressé par les data scientists, regardez d'abord ici, un résumé de la littérature et des vidéos (ajoutées au besoin)

introduction

Cible de cet article

** "J'ai beaucoup entendu parler de" data scientists "et de" statistiques "récemment, et cela m'intéresse, mais honnêtement, je ne suis pas très familier avec ce domaine, alors par où dois-je commencer?" ** C'est un article dessiné pour les gens.

En d'autres termes, c'est un article que j'aurais pensé «j'aurais aimé avoir» il y a X ans.

Donc, je ne publie aucun livre qui mentionne un contenu maniaque qui rend les gens heureux, "Je suis un data scientist croquant."

** "Il n'y a pas de PRML ... Est-ce la clé de base, êtes-vous moguri?" ** Si vous pensez cela, vous ne pouvez pas l'obtenir dans cet article.

Cet article s'adresse aux débutants.

[Veuillez également ici] ・ Il est temps de réfléchir sérieusement à la définition et à l'ensemble des compétences des data scientists. http://qiita.com/hik0107/items/f9bf14a7575d5c885a16

Comment lire cet article

Il est divisé en trois parties, «Introduction», «Programmation» et «Modèle statistique / apprentissage automatique». J'espère que vous pouvez le voir d'où vous êtes intéressé.

Aussi, comme il est destiné aux débutants, j'ai dessiné le "taux de facilité d'attachement" pour chaque source d'information à ma propre discrétion.

★ ☆☆☆☆: Difficile pour les débutants ★★★★★: Facile à s'entendre même avec les débutants     De plus, ce taux est fixé de manière appropriée en toute discrétion. Il n'y a pas de base stricte. De plus, ce taux n'a rien à voir avec la qualité de l'information.

Pour la fin, le critère est de savoir si quand je l'ai vu quand j'étais débutant, je me suis dit: "C'est un peu difficile de s'entendre avec ...". S'il vous plaît voir pour référence.

Notes sur cet article

Les informations contenues dans l'article sont susceptibles d'être modifiées le cas échéant. En particulier, concernant les ajouts, il existe de nombreuses sources qui n'ont pas encore été écrites, nous prévoyons donc de les ajouter une par une.

1. Introduction

Livres

O'Reilly: Conférence sur la science des données http://goo.gl/rZqhE5

★★★☆☆ C'est assez bien organisé en guise d'introduction. Un livre qui couvre tout, de la situation actuelle des data scientists à l'esquisse de modèles statistiques et de travaux pratiques. Si vous avez une connaissance minimale du domaine de l'analyse des données, c'est un bon livre à lire en premier.

Que les mathématiques déterminent la stratégie http://goo.gl/Rkd5q

★★★★★ Ce n'est pas un livre d'étude, mais un matériel de lecture ... Un livre avec des exemples d'utilisation de données et de modèles statistiques dans divers domaines, du vin au crime, au marketing et aux films. L'auteur est professeur d'université, il n'est donc pas étrange de collecter des études de cas.

Sexy Little Numbers http://goo.gl/DMOKrs

★★★★★ Cela peut être un peu différent de l'image d'un data scientist que l'on dit dans le monde. Mais c'est un livre qui nous apprend que parfois, une grande quantité de données ou un modèle statistique difficile peuvent ne pas être nécessaires pour une analyse commerciale.

O'Reilly: de belles données http://goo.gl/LNvaUW

★★☆☆☆ Une collection d'exemples de la façon dont les données sont appliquées dans quels champs Quelque chose à propos des data scientists de Facebook, du contenu que les gens qui l'aiment aimeront

Vidéo

schoo: cours d'analyse de données utilisable sur le terrain https://schoo.jp/teacher/184

★★★★★ M. Yoshinaga, spécialiste des données chez Recruit Communications, donnera une conférence sur la pratique de l'analyse des données.

gacco: cours de science des données pour les travailleurs http://gacco.org/stat-japan/

★★★★☆ Il est fin et large, c'est donc un bon endroit pour le regarder comme première entrée. Le célèbre professeur Nishiuchi, qui a déclaré «l'étude la plus forte = statistiques», est également apparu.

Blog

Blog du data scientist travaillant à Ginza http://tjo.hatenablog.com/

★★★☆☆ C'est le blog de "T.J.Ozaki-san" qui est célèbre dans l'industrie des data scientist. Il existe une quantité considérable d'informations, mais comme il s'agit d'un blog, elles ne sont pas rédigées systématiquement. Par conséquent, il peut être préférable d'apprendre à lire les articles qui vous intéressent tout en les scannant par quelqu'un avec quelques connaissances.   Cependant, comme cela touche non seulement les modèles et la programmation mais aussi le flux de l'industrie, je pense que même les débutants peuvent facilement lire de tels articles.

2. Programmation (Python, R)

Livres

Introduction à l'analyse de données avec le traitement des données Python avec Numpy et Pandas http://goo.gl/YflT0M

★★★☆☆ En savoir plus sur Pandas et Numpy, outils essentiels pour analyser avec Python

Livres

Programmation d'intelligence collective https://www.oreilly.co.jp/books/9784873113647/

★★☆☆☆ Apprenez tout en implémentant des algorithmes d'apprentissage automatique typiques en Python Parce que c'est pour les personnes qui peuvent utiliser Python dans une certaine mesure et qui ont des connaissances de base sur les algorithmes La programmation / l'algorithme peuvent ne pas convenir comme premier livre d'apprentissage

Vidéo

Udacity: Intro to Data Science http://edmaps.co/udacity/course/ud359.html

★★★☆☆ Tout en apprenant une introduction à la science des données, découvrez les opérations sur les données en Python avec des tests de codage.

Udacity: Data Analysis with R http://edmaps.co/udacity/course/ud651.html

★★★☆☆ Classe R

site Internet

Laboratoire de science des données Doshisha http://www1.doshisha.ac.jp/~mjin/R/index.html

★★★☆☆ Vous pouvez utiliser R pour apprendre un large éventail des bases des statistiques aux modèles de statistiques / apprentissage automatique. Si vous avez le temps et que vous souhaitez utiliser R, vous pouvez l'apprendre de manière exhaustive.

Revue technique Commençons le Machine Learning http://gihyo.jp/dev/serial/01/machine-learning

★★☆☆☆ Vous pouvez implémenter des algorithmes d'apprentissage automatique simples en Python. Il est bon de procéder en expliquant le contexte théorique, etc.

Autre (Ceci est la racine de mon message)

Un résumé rudimentaire de la manipulation des données dans Python Pandas http://qiita.com/hik0107/items/d991cc44c2d1778bb82e

Analyse des données en Python Résumé des sources que les débutants devraient d'abord consulter http://qiita.com/hik0107/items/0bec82cc09d0e05d5357

Un beau dessin graphique avec python -seaborn facilite l'analyse et la visualisation des données http://qiita.com/hik0107/items/3dc541158fceb3156ee0

Supplément

En termes de programmes, il serait préférable d'utiliser SQL, Linux, Hadoop, etc. Je ne connais pas une bonne source systématique d'informations par ici parce que j'ai appris tellement mal. Si vous avez des recommandations, faites-le moi savoir m (_ _) m

3. Modèle statistique, apprentissage automatique

Livres

Une introduction à la modélisation statistique pour l'analyse des données http://goo.gl/mrX8vD En supplément, http://hosho.ees.hokudai.ac.jp/~kubo/ce/NiigataiLecture2015.html Il peut être plus facile à comprendre si vous continuez en le regardant (Le lien est vers la page où se trouve le document de la conférence de l'auteur)

★★☆☆☆ Vous pouvez systématiquement apprendre les bases des modèles statistiques et des modèles linéaires généralisés à partir de zéro. Finalement, nous parlerons de GLMM (modèle mixte) et de MCMC, mais je pense que nous devrions apprendre à GLM une fois. Pour ce genre de livre, le récit est approximatif et non strict, il est donc très facile d'y accéder.

Il est populairement connu sous le nom de "Midoribon", et des sessions de lecture sont également organisées. Des explications audio et vidéo sont également téléchargées, il peut donc être préférable pour les personnes qui ne sont pas en mesure de le faire seules pour apprendre également ces informations. https://www.youtube.com/watch?v=nD3V4ovqr1A

Statistiques douces par R http://goo.gl/RJDzI

★★★★☆ Un livre pour acquérir des connaissances de base en statistiques tout en écrivant du code en R Il est bon de pouvoir apprendre le codage et les statistiques en même temps

Vidéo

Coursera: Machine Learning https://www.coursera.org/learn/machine-learning

★★★☆☆ Une classe d'enseigne extrêmement populaire parmi les cours en ligne Coursera Classe d'apprentissage automatique Andrew Ng de Stanford. L'explication est polie et recommandée pour les débutants Les cours sont en anglais, mais vous pouvez être assuré qu'il existe des sous-titres japonais.

Commentaire de Hiérarchie Bayes et MCMC https://www.youtube.com/watch?t=5&v=wO8jd0z5YRQ

★☆☆☆☆ Une vidéo dans laquelle le professeur Kubo, l'auteur de «Introduction à la modélisation statistique pour l'analyse des données» présentée ci-dessus, expliquait lui-même le modèle hiérarchique bayésien. Cela peut être très efficace si vous étudiez avec la partie principale du livre

site Internet

Analyse marketing Teradata http://goo.gl/t3JoMx

★★★★☆ Un site avec beaucoup de détails sur le modèle d'exploration de données utilisé dans le domaine du marketing C'est vraiment bien que cette quantité d'informations soit totalement gratuite

Revue technique Apprentissage automatique Commençons http://gihyo.jp/dev/serial/01/machine-learning

★★☆☆☆ Implémenté en Python tout en apprenant une vue d'ensemble de l'apprentissage automatique Idéal pour les personnes qui veulent apprendre en bougeant leurs mains (et qui peuvent utiliser un peu Python)

Kaggle Titanic Tutorial http://kagglechallenge.hatenablog.com/entry/2015/02/13/193155

★★★★☆ Un tutoriel sur la création d'un modèle de prédiction à partir de zéro basé sur le fameux "Titanic Passenger Survival Prediction" sur le site de compétition de données Kaggle. Je suis heureux qu'il soit disponible respectivement dans Excel, Python et R.

Recommended Posts

Si vous êtes intéressé par les data scientists, regardez d'abord ici, un résumé de la littérature et des vidéos (ajoutées au besoin)
Si vous voulez un singleton en python, considérez le module comme un singleton
Analyse des données en Python Résumé des sources que les débutants devraient d'abord consulter
Même si vous êtes un débutant en python et que vous avez moins d'un an de courses de chevaux, vous avez pu gagner un triple.
Si vous définissez une méthode dans une classe Ruby, puis définissez une méthode dans celle-ci, elle devient une méthode de la classe d'origine.
Résumé des outils nécessaires pour analyser les données en Python