Le problème que le système redémarre sans autorisation tout en apprenant à utiliser GPU avec TensorFlow

Il existe deux causes possibles de chute du TensorFlow lorsqu'il est allumé sur le GPU.

  1. Problème de pilote nvidia
  2. Sortie insuffisante du bloc d'alimentation (bloc d'alimentation)

2 a été discuté dans la récente communauté TensorFlow 2 </ sup>. Dans de nombreux cas, il y avait un problème du côté du conducteur, mais il semble qu'il puisse chuter en raison d'une sortie insuffisante du bloc d'alimentation.

Les mises à jour de pilotes sont souvent un foyer de problèmes. Le côté nvidia n'est pas non plus très efficace pour gérer les problèmes causés par les mises à jour des pilotes. (Surtout si le joueur souffre d'un désavantage, nous ne pouvons pas nous attendre à ce que le pilote soit réparé immédiatement)

Par conséquent, il peut être préférable de soupçonner que 2 est la cause avant 1.

1. Problème de pilote nvidia

Selon la version du pilote nvidia, le système peut planter.

Veuillez mettre à jour le pilote nvidia.

2. Sortie d'alimentation insuffisante

En raison d'une puissance de sortie insuffisante, le GPU peut ne pas être alimenté suffisamment et l'ensemble du système peut tomber en panne.

Contre-mesure 1

Remplacez le bloc d'alimentation par un bloc de sortie plus élevé.

Contre-mesure 2

Utilisez la commande nvidia-smi pour définir une limite supérieure de consommation électrique côté GPU.

Par exemple, dans TITAN X, qui est à l'origine de 250 W, si vous souhaitez limiter la limite de puissance à 150 W, exécutez la commande suivante.

$ sudo nvidia-smi --power-limit=150

Cependant, l'endroit où définir la limite supérieure pour fonctionner normalement dépend du modèle.

De plus, la définition d'une limite de puissance signifie que les fonctions du GPU sont limitées et que les performances d'origine ne peuvent pas être atteintes.

Fondamentalement, il est recommandé de remplacer le bloc d'alimentation par un bloc de sortie plus élevé.

référence

1 http://suprsonicjetboy.hatenablog.com/entry/2017/04/23/194959 2 https://github.com/tensorflow/tensorflow/issues/8858

Recommended Posts

Le problème que le système redémarre sans autorisation tout en apprenant à utiliser GPU avec TensorFlow
La gestion du tensorflow a soudainement cessé de fonctionner en utilisant le GPU dans l'apprentissage en profondeur
Jusqu'à ce que l'environnement Deep Learning (TensorFlow) utilisant le GPU soit préparé pour Ubuntu 14.04
Résolvez le problème japonais lors de l'utilisation du module CSV en Python.
Solution au problème que l'affichage est corrompu lorsque la commande .exe est incluse dans la boucle while dans wsl2