> Cloud > Dépannage des problèmes de matériel dans un datacenter

Dépannage des problèmes de matériel dans un datacenter

Cloud - Par Brien M. Posey - Publié le 03 septembre 2012
email

La virtualisation complique le processus d’identification et de dépannage des problèmes matériels, mais quelques outils et techniques peuvent améliorer la gérabilité du processus.

Dépannage des problèmes de matériel dans un datacenter

Alors qu’il est généralement facile de dépanner des problèmes matériels sur un serveur ou un PC, la virtualisation complique l’identification des matériels défaillants. Néanmoins, certaines techniques éprouvées sont disponibles pour isoler les problèmes matériels sur un hôte de virtualisation.

Dépannage des problèmes de matériel dans un datacenter

En quoi est-il si compliqué d’identifier les problèmes matériels sur un serveur hôte de virtualisation ? Il n’est pas toujours difficile de comprendre que vous êtes face à un problème matériel, notamment lorsqu’il affecte le système dans son ensemble. Ainsi, une alimentation défaillante sur un serveur provoquera l’arrêt complet de ce dernier (à condition qu’il n’ait pas d’alimentation redondante). Il en va de même pour les disques durs. Les symptômes d’une défaillance d’un disque sont généralement clairement identifiables.

Toutefois, il en va autrement de certains types de défaillances. Un des composants les plus épineux à dépanner est la mémoire. Par exemple, il y a quelques semaines, je me suis retrouvé face à un début de comportement étrange d’un serveur hôte de virtualisation. Même si, au final, le problème venait de la mémoire, la couche de virtualisation a, en gros, masqué l’origine du dysfonctionnement.

J’ai constaté initialement le problème pendant la rédaction d’un article. Chaque fois que j’écris un article, je dois tester les procédures présentées et il m’arrive fréquemment de réaliser quelques captures d’écran. Par conséquent, j’ai plusieurs hôtes de virtualisation configurés pour exécuter un certain nombre de serveurs de test virtualisés. Au cours de la soirée en question, je me suis connecté à un contrôleur de domaine (DC) afin de créer un compte utilisateur. Ce serveur virtuel particulier était en service depuis au moins un an et s’était toujours montré fiable.

À l’ouverture de la console Active Directory Users and Computers (Utilisateurs et ordinateurs Active Directory), j’ai constaté que celle-ci n’affichait aucune information. J’ai essayé quelques correctifs, mais sans succès. Comme j’avais un délai à respecter, j’ai résolu le problème en plaçant un autre DC en ligne. Heureusement, celui-ci a été capable de lire toutes les informations Active Directory du DC qui me donnait du fil à retordre. Plus tard, j’ai supprimé le DC problématique et je suis passé à autre chose.

Environ une semaine plus tard, quelqu’un m’a demandé d’écrire un papier sur SharePoint 2010. Même si j’ai plusieurs déploiements SharePoint de test, je devais configurer un serveur SharePoint dédié pour l’article en question. Par conséquent, j’ai créé un nouveau serveur virtuel et j’ai installé Windows. L’installation s’est terminée sans erreurs, mais au moment d’installer les prérequis pour SharePoint, les choses ont pris une tournure délirante. Par exemple, lorsque j’ai essayé d’installer IIS, Server Manager a retourné un message d’erreur que je n’avais jamais vu auparavant.

Etant de nouveau pressé par le temps, je n’avais pas le temps de dépanner le problème. J’ai donc supprimé le nouveau serveur virtuel et j’ai essayé de le recréer. Cette fois, je ne suis même pas parvenu au bout de l’installation de Windows. A peu près à la moitié de la procédure d’installation, un message s’est affiché pour indiquer que certains fichiers nécessaires étaient absents ou corrompus. A ce stade, j’ai supposé que le DVD d’installation de Windows Server était défectueux. Dans mon travail, je configure en permanence des machines de test et j’utilisais ce DVD d’installation particulier depuis un certain temps. La piste d’un endommagement du DVD lié à trop de manipulations semblait parfaitement plausible. J’ai créé un nouveau DVD d’installation de Windows Server et le problème a semblé résolu.

Quelques jours se sont écoulés et j’ai commencé la rédaction d’un article sur Exchange Server 2010. J’ai essayé d’ouvrir Exchange Management Console sur un de mes serveurs de test (déployé depuis quelque temps) et j’ai eu la surprise de constater que la console affichait plusieurs messages d’erreur. C’est à ce moment que je me suis souvenu de certains des autres problèmes rencontrés et j’ai réalisé que tous étaient probablement liés les uns aux autres.

Si ces types de problèmes s’étaient produits sur un serveur physique, j’aurai compris plus rapidement qu’il y avait un problème de mémoire. Toutefois, comme je me trouvais dans un environnement virtuel, la piste de la mémoire physique était nettement moins manifeste.

Certains d’entre vous se demandent probablement comment j’ai pu passer à côté du problème. C’est simple. Tous les incidents décrits sont symptomatiques d’erreurs de mémoire, mais ils étaient toujours circonscrits à une seule VM à la fois. Le serveur dans sa globalité semblait OK. Même si j’avais des problèmes avec certaines VM, de nombreuses autres s’exécutaient le plus normalement du monde sur le même hôte. J’ai donc pensé initialement que cela venait d’une VM spécifique et non de composants matériels du serveur.

Téléchargez cette ressource

Guide de Sécurité IA et IoT

Guide de Sécurité IA et IoT

Compte tenu de l'ampleur des changements que l'IA est susceptible d'entraîner, les organisations doivent élaborer une stratégie pour se préparer à adopter et à sécuriser l'IA. Découvrez dans ce Livre blanc Kaspersky quatre stratégies efficaces pour sécuriser l'IA et l'IoT.

Cloud - Par Brien M. Posey - Publié le 03 septembre 2012