La virtualisation complique le processus d’identification et de dépannage des problèmes matériels, mais quelques outils et techniques peuvent améliorer la gérabilité du processus.
Dépannage des problèmes de matériel dans un datacenter
Alors qu’il est généralement facile de dépanner des problèmes matériels sur un serveur ou un PC, la virtualisation complique l’identification des matériels défaillants. Néanmoins, certaines techniques éprouvées sont disponibles pour isoler les problèmes matériels sur un hôte de virtualisation.
Dépannage des problèmes de matériel dans un datacenter
En quoi est-il si compliqué d’identifier les problèmes matériels sur un serveur hôte de virtualisation ? Il n’est pas toujours difficile de comprendre que vous êtes face à un problème matériel, notamment lorsqu’il affecte le système dans son ensemble. Ainsi, une alimentation défaillante sur un serveur provoquera l’arrêt complet de ce dernier (à condition qu’il n’ait pas d’alimentation redondante). Il en va de même pour les disques durs. Les symptômes d’une défaillance d’un disque sont généralement clairement identifiables.
Toutefois, il en va autrement de certains types de défaillances. Un des composants les plus épineux à dépanner est la mémoire. Par exemple, il y a quelques semaines, je me suis retrouvé face à un début de comportement étrange d’un serveur hôte de virtualisation. Même si, au final, le problème venait de la mémoire, la couche de virtualisation a, en gros, masqué l’origine du dysfonctionnement.
J’ai constaté initialement le problème pendant la rédaction d’un article. Chaque fois que j’écris un article, je dois tester les procédures présentées et il m’arrive fréquemment de réaliser quelques captures d’écran. Par conséquent, j’ai plusieurs hôtes de virtualisation configurés pour exécuter un certain nombre de serveurs de test virtualisés. Au cours de la soirée en question, je me suis connecté à un contrôleur de domaine (DC) afin de créer un compte utilisateur. Ce serveur virtuel particulier était en service depuis au moins un an et s’était toujours montré fiable.
À l’ouverture de la console Active Directory Users and Computers (Utilisateurs et ordinateurs Active Directory), j’ai constaté que celle-ci n’affichait aucune information. J’ai essayé quelques correctifs, mais sans succès. Comme j’avais un délai à respecter, j’ai résolu le problème en plaçant un autre DC en ligne. Heureusement, celui-ci a été capable de lire toutes les informations Active Directory du DC qui me donnait du fil à retordre. Plus tard, j’ai supprimé le DC problématique et je suis passé à autre chose.
Environ une semaine plus tard, quelqu’un m’a demandé d’écrire un papier sur SharePoint 2010. Même si j’ai plusieurs déploiements SharePoint de test, je devais configurer un serveur SharePoint dédié pour l’article en question. Par conséquent, j’ai créé un nouveau serveur virtuel et j’ai installé Windows. L’installation s’est terminée sans erreurs, mais au moment d’installer les prérequis pour SharePoint, les choses ont pris une tournure délirante. Par exemple, lorsque j’ai essayé d’installer IIS, Server Manager a retourné un message d’erreur que je n’avais jamais vu auparavant.
Etant de nouveau pressé par le temps, je n’avais pas le temps de dépanner le problème. J’ai donc supprimé le nouveau serveur virtuel et j’ai essayé de le recréer. Cette fois, je ne suis même pas parvenu au bout de l’installation de Windows. A peu près à la moitié de la procédure d’installation, un message s’est affiché pour indiquer que certains fichiers nécessaires étaient absents ou corrompus. A ce stade, j’ai supposé que le DVD d’installation de Windows Server était défectueux. Dans mon travail, je configure en permanence des machines de test et j’utilisais ce DVD d’installation particulier depuis un certain temps. La piste d’un endommagement du DVD lié à trop de manipulations semblait parfaitement plausible. J’ai créé un nouveau DVD d’installation de Windows Server et le problème a semblé résolu.
Quelques jours se sont écoulés et j’ai commencé la rédaction d’un article sur Exchange Server 2010. J’ai essayé d’ouvrir Exchange Management Console sur un de mes serveurs de test (déployé depuis quelque temps) et j’ai eu la surprise de constater que la console affichait plusieurs messages d’erreur. C’est à ce moment que je me suis souvenu de certains des autres problèmes rencontrés et j’ai réalisé que tous étaient probablement liés les uns aux autres.
Si ces types de problèmes s’étaient produits sur un serveur physique, j’aurai compris plus rapidement qu’il y avait un problème de mémoire. Toutefois, comme je me trouvais dans un environnement virtuel, la piste de la mémoire physique était nettement moins manifeste.
Certains d’entre vous se demandent probablement comment j’ai pu passer à côté du problème. C’est simple. Tous les incidents décrits sont symptomatiques d’erreurs de mémoire, mais ils étaient toujours circonscrits à une seule VM à la fois. Le serveur dans sa globalité semblait OK. Même si j’avais des problèmes avec certaines VM, de nombreuses autres s’exécutaient le plus normalement du monde sur le même hôte. J’ai donc pensé initialement que cela venait d’une VM spécifique et non de composants matériels du serveur.
Téléchargez cette ressource
Microsoft 365 Tenant Resilience
Face aux failles de résilience des tenants M365 (configurations, privilèges, sauvegarde). Découvrez 5 piliers pour durcir, segmenter et surveiller vos environnements afin de limiter l’impact des attaques. Prioriser vos chantiers cyber et améliorer la résilience de vos tenants Microsoft 365.
Les articles les plus consultés
Les plus consultés sur iTPro.fr
- Les coûts cachés des merge requests générées par l’IA
- WatchGuard lance Rai, une IA agentique taillée pour les MSP
- Mythos révèle les limites d’un Zero Trust centré sur le réseau
- Faire évoluer la souveraineté des données du statut d’ambition politique à son application opérationnelle
Articles les + lus
Pour un cloud plus fiable : renforcer l’auditabilité et la transparence au service de la sécurité
Cloud et IA : une maturité en retard face à l’explosion des usages
Le trilemme de la souveraineté : le coût caché du cloud qui freine l’IA en Europe
Cloud souverain : répondre aux enjeux d’hybridation et de maîtrise des dépendances
Mises à jour Microsoft : quand l’automatisation du cloud redéfinit la gouvernance IT
À la une de la chaîne Cloud
- Pour un cloud plus fiable : renforcer l’auditabilité et la transparence au service de la sécurité
- Cloud et IA : une maturité en retard face à l’explosion des usages
- Le trilemme de la souveraineté : le coût caché du cloud qui freine l’IA en Europe
- Cloud souverain : répondre aux enjeux d’hybridation et de maîtrise des dépendances
- Mises à jour Microsoft : quand l’automatisation du cloud redéfinit la gouvernance IT
