Il s'agit d'un ensemble de questions que j'ai posées moi-même dans le cadre du test d'analyse des données de certification d'ingénieur Python3 que j'ai passé en novembre 2020. J'espère que cela aidera ceux qui vont passer l'examen.
Le rapport d'expérience est résumé dans cet article ↓ https://qiita.com/pon_maeda/items/a6c008fb3d993278fccb
――Cette collection de questions est créée sous la forme de questions telles que répondre à chaque question et remplir les espaces vides afin que vous puissiez facilement le résoudre dans l'intervalle de temps.
L'apprentissage automatique est à peu près divisé en trois. Il existe trois types: () apprentissage, () apprentissage et () apprentissage.
La variable (), également appelée étiquette correcte, n'est utilisée que pour l'apprentissage ().
La méthode utilisée lorsque cette étiquette correcte est une valeur continue est (), et la méthode utilisée lorsqu'il s'agit d'une autre valeur est ().
Quelles sont les deux principales méthodes d'apprentissage non supervisé?
venv est un outil qui vous permet d'utiliser différentes versions de Python. (Oui Non)
Une fonction qui vous permet de spécifier le nom du fichier avec des caractères génériques en Python.
Lecture japonaise du péché, du cos et du bronzage.
Combien de napiers y a-t-il?
Quel est le logarithme de 1?
Le premier étage est.
Supposons que si vous lancez un dé hexaédrique une fois, on vous dit que vous avez un nombre impair, bien que le nombre de lancers soit inconnu. La probabilité dans ce cas est appelée probabilité (), qui est la base du théorème ().
4.1. NumPy
NumPy a un type pour les tableaux () et un type pour les matrices ().
L'une des fonctionnalités de ↑ est que vous pouvez utiliser plusieurs types ou créer un type.
Fonction pour vérifier la taille dans un tableau
La fonction ravel renvoie (), tandis que la fonction aplatir renvoie ().
Fonction pour vérifier le type de tableau
Fonction pour convertir le type d'un tableau
Une fonction qui génère un nombre aléatoire uniforme d'entiers
Une fonction qui génère un nombre aléatoire uniforme de fractions
Une fonction qui crée un nombre aléatoire à partir d'une distribution normale standard d'entiers
La distribution normale standard est-elle la distribution de la moyenne () et de la variance ()?
Quelle est la fonction pour générer un nombre aléatoire de distribution normale en spécifiant la moyenne et l'écart type?
Une fonction qui crée une matrice unitaire avec les éléments diagonaux spécifiés
Une fonction qui crée un tableau de valeurs spécifiées pour tous les éléments
Une fonction qui crée un tableau uniformément divisé dans une plage spécifiée
Une fonction qui vous permet de voir les différences entre les éléments d'un tableau
a = [1, 2, 3]
b = [4, 5, 6]
np.concatnate([a, b])
Alors, laquelle des propositions suivantes est possible?
[1, 2, 3, 4, 5, 6]
[[1, 2, 3],[4, 5, 6]]
[1, 2, 3, [4, 5, 6]]
La fonction np.concatnate est une concaténation directionnelle (ligne ou colonne) dans le cas d'une concaténation entre des tableaux unidimensionnels.
La fonction np.concatnate est concaténée dans la direction (ligne ou colonne) par défaut lors de la concaténation de tableaux à deux dimensions.
Si l'argument axis = 1 est spécifié pour cette fonction, il sera concaténé dans la direction ().
Une fonction qui divise un tableau à deux dimensions dans la direction de la colonne.
Une fonction qui divise un tableau à deux dimensions dans le sens des lignes
Que signifie la transposition d'un tableau bidimensionnel?
S'il existe un tableau à deux dimensions appelé a, comment le transposez-vous?
Quelle est la fonction qui augmente la dimension d'un tableau unidimensionnel sans spécifier le nombre d'éléments?
a = np.array([1, 5, 4])
# array([[1, 5, 4]])
Comment puis-je utiliser la fonction ci-dessus pour augmenter la dimension comme décrit ci-dessus?
a = np.array([1, 5, 4])
# array([[1],
[5],
[4]])
Comment puis-je utiliser la fonction ci-dessus pour augmenter la dimension comme décrit ci-dessus?
Quelle est la fonction qui génère les données de la grille?
np.arange(1, 10, 3)
Qu'arrivera-t-il à ce résultat?
4.1.3. Chaque fonction de NumPy Quel est le groupe de fonctions pratique de NumPy qui convertit des éléments de tableau tels que sin () et log () à la fois?
Une fonction qui renvoie la valeur absolue d'un élément de tableau
a = np.array([0, 1, 2])
b = np.array([[-3, -2, -1],
[0, 1, 2]])
a + b
Comme mentionné ci-dessus, quelle est la somme du tableau bidimensionnel et du tableau unidimensionnel?
Que signifie être capable de calculer des scalaires sur un tableau?
Que signifie l'opérateur @?
A_matrix @ B_matrix
D'une autre façon.
Une fonction qui calcule le nombre de True dans un tableau vrai / faux.
Méthode --np.count_nonzero --Une fonction qui génère le nombre d'éléments non nuls.
Une fonction qui trouve si True est inclus dans un tableau vrai / faux.
Une fonction qui trouve si tous les éléments sont True dans un tableau vrai / faux.
4.2. pandas
Avec df.head () et df.tail (), affichez uniquement la ligne () au début et à la fin du DataFrame.
Fonction pour connaître la taille de df
Comment obtenir deux informations de df, colonne A et colonne B
Comment extraire uniquement les enregistrements de 10000 pas ou plus, en supposant qu'il existe un df qui est une base de données de pas et de calories consommées
Ou
df [df.loc [:,“ étapes ”]> = 10000]
df.query ('étapes> = 10000')
etc.
Comment trier par ordre décroissant des étapes, en supposant qu'il y ait df qui est un DataFrame d'étapes et de calories ingérées
L'encodage à chaud est effectué en ajoutant «exercice» au préfixe de la colonne d'index d'exercice contenant les trois valeurs High, Mid et Low.
Comment créer un tableau de dates du 2020-01-01 au 2020-10-01.
Créez un tableau de dates pour 100 jours à partir du 01/01/2020.
Créez un tableau uniquement pour le samedi parmi les dates du 2020-01-01 au 2020-10-01.
Regroupez les données chronologiques df en données mensuelles et utilisez la valeur moyenne.
Ou
df.resample ('M'), mean ()
etc.
Argument utilisé lorsque vous souhaitez remplir Nan avec la valeur précédente dans la fonction fillna.
S'il s'agit d'un DataFrame, remplissez-le avec la valeur une ligne au-dessus. Si c'est bfill, il sera rempli avec la valeur une ligne ci-dessous.
Que faire si vous voulez donner une valeur médiane aux arguments de la fonction fillna?
Créez df_merge en concaténant df_1 et df_2 dans le sens de la colonne.
Fonction pour vérifier la valeur la plus fréquente
Fonction qui donne la valeur médiane
Une fonction qui produit l'écart type (écart type de l'échantillon)
Fonctions et arguments donnant l'écart type (population)
4.3. Matplotlib
Où est placé le graphique circulaire?
Le graphique circulaire est organisé autour (dans le sens horaire ou antihoraire).
Pour implémenter dans le sens des aiguilles d'une montre dans un graphique circulaire, passez l'argument () à la méthode ().
Pour spécifier où commencer à dessiner le graphique dans un graphique circulaire, transmettez l'argument () à la méthode ().
4.4. scikit-learn
Quelle classe est utilisée pour compléter les données s'il y a des valeurs manquantes?
À propos de la valeur transmise à l'argument de stratégie dans la classe ci-dessus.
mean = ①、median = ②、most_frequent = ③
Quelle est la classe qui code les variables catégorielles?
Quel est l'attribut qui confirme la valeur d'origine après l'encodage?
Quelle est la principale méthode de traitement avec le codage des variables catégorielles?
Une autre façon d'appeler cet encodage.
Comment appelez-vous une matrice avec de nombreux composants 0 et une matrice avec de nombreux composants non nuls?
La normalisation distribuée est le processus de conversion des quantités d'entités de sorte que la quantité d'entités moyenne soit () et l'écart type est ().
Quelle est la classe qui effectue la normalisation distribuée?
La normalisation minimale / maximale est le processus de conversion de la quantité d'entités de sorte que la valeur minimale de la quantité d'entités soit () et la valeur maximale ().
Quelle est la classe qui effectue la normalisation minimale / maximale?
La classification est une tâche typique de l'apprentissage des enseignants ().
Ce qui précède utilise l'étiquette correcte, qui est appelée la variable ().
Trois algorithmes de classification typiques
Pour créer le modèle de classification, () les données disponibles.
«Apprendre» dans la classification fait référence à la construction d'un modèle de classification à l'aide d'ensembles de données ().
Quelle est la capacité de répondre à des données inconnues calculées à partir de prédictions pour l'ensemble de données de test du modèle construit?
Quelle est la fonction qui sépare chaque ensemble de données?
Support Vector Machine est un algorithme qui peut être utilisé non seulement pour la classification et la régression, mais aussi pour ().
Lorsqu'on considère des données bidimensionnelles appartenant à deux classes, quelles sont les données les plus proches de la limite parmi les données de chaque classe?
Lorsque vous considérez des données bidimensionnelles appartenant à deux classes, tracez une ligne droite entre () de sorte que la distance entre les vecteurs de support soit la plus grande ().
La distance entre cette droite et le vecteur de support est appelée ().
Quelles sont les données d'échantillons sélectionnés au hasard et de caractéristiques (variables explicatives) utilisées dans la forêt aléatoire?
La forêt aléatoire est un ensemble d'arbres de décision, et qu'est-ce que l'apprentissage en utilisant plusieurs machines d'apprentissage de cette manière?
La régression consiste à expliquer les variables () avec des variables () représentées par des entités.
Dans la régression linéaire, lorsque la variable explicative est une variable, elle est appelée (), et lorsqu'elle est composée de deux variables ou plus, elle est appelée ().
La tâche de () données sans endommager les informations que les données ont.
Dans scikit-learn, quelle classe de quel module est utilisée pour l'analyse des composants principaux.
Quatre indicateurs qui quantifient la quantité de catégories de données attribuées.
() Taux, () Taux, () Taux, () Valeur
De plus, ces indicateurs sont calculés à partir de la matrice ().
Il y a un compromis entre le taux () et le taux ().
La courbe () et () calculées à partir de celle-ci sont utilisées comme indicateurs pour quantifier la précision de la probabilité de prédiction pour les données.
Les hyperparamètres ont des valeurs (déterminées ou indéterminées) pendant l'entraînement.
Deux méthodes typiques d'optimisation des hyperparamètres.
C'est un mauvais problème, mais j'espère que cela aide quelqu'un. Si vous faites des erreurs, je vous serais reconnaissant de bien vouloir les commenter. Merci jusqu'à la fin.
Recommended Posts