Problèmes de matériel

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Une fois l'approche de la gestion des systèmes décidée, la résolution de l'équation de la fiabilité du système se simplifie. Il faut à présent penser aux problèmes posés par le matériel et sa mise en oeuvre.
Commençons par l'alimentation. Les alimentations redondantes enfichables à chaud existent en standard sur tout

serveur prétendant offrir des niveaux de fiabilité
ou de disponibilité haut de gamme. Je serais néanmoins incapable de donner le
décompte du nombre d’installations que j’ai visitées où j’ai pu constater qu’elles
étaient reliées à la même alimentation de secours. Prenez le temps de vérifier
comment votre alimentation arrive dans la salle des serveurs. Si possible, reliez
chaque côté de ces systèmes d’alimentation redondants à son propre interrupteur.

Qui n’a jamais entendu raconter une de ces innombrables histoires de personnel
d’entretien débranchant un serveur hautement stratégique pour brancher le cordon
de l’aspirateur ?
Pourquoi courir le risque de laisser ainsi arrêter un serveur ?
Les défaillances de mémoire peuvent rapidement planter un serveur. La plupart
des constructeurs proposent un moyen quelconque de protéger la mémoire pour empêcher
des erreurs logicielles de provoquer une défaillance du serveur, et une protection
supplémentaire de la mémoire ECC (Error Correcting Code) peut empêcher les erreurs
matérielles de provoquer la défaillance d’un DIMM de mémoire entier. (Une erreur
logicielle, généralement provoquée par des secousses électriques, disparaît lorsque
la mémoire est rafraîchie, alors qu’une erreur matérielle consiste en une mémoire
défaillante qu’il faut remplacer). Les constructeurs, comme Compaq avec sa mémoire
ECC Avancée, offrent des systèmes de protection de la mémoire supplémentaires
qui améliorent la protection contre les erreurs de mémoire matérielles. La technologie
Chipskill d’IBM, lorsqu’elle est intégrée dans la carte-mère du système, permet
l’utilisation de mémoire non propriétaire et offre une protection supplémentaire
contre les erreurs de mémoire matérielles.

Les défaillances de disques durs sont probablement les défaillances matérielles
graves les plus communes

Les défaillances de disques durs sont probablement les défaillances matérielles
graves les plus communes rencontrées par les administrateurs systèmes. Vous avez
probablement entendu parler de la plupart des suggestions suivantes, mais elles
méritent d’être répétées.

Utilisez une forme quelconque de tolérance aux pannes. Windows
2000 et NT implémentent tous deux le RAID grâce à des logiciels. Mais le RAID
matériel est généralement plus fiable et fournit de meilleures performances. Il
offre un meilleur choix d’options de configuration et permet presque toujours
d’exercer un contrôle et une gestion plus détaillés des disques.

Faites attention à la configuration. Examinez la disposition
de votre système et les partitions de données sur votre grappe RAID. Alors que
les administrateurs systèmes des grandes entreprises sont souvent familiarisés
avec l’optimisation des grappes RAID, les administrateurs d’organisations plus
petites doivent plutôt éviter de changer les configurations d’usine des grappes.
De récentes discussions avec les informaticiens de petits réseaux, j’ai retenu
quelques informations surprenantes. Très souvent ces petites entreprises utilisent
un RAID 5 seulement composé de trois unités sur un canal SCSI unique – bref elles
ont mis tous leurs oeufs dans le même panier. Plus surprenant encore, les organisations
utilisent ces unités à la fois pour les partitions systèmes et les partitions
de données. Beaucoup d’administrateurs ne se rendent pas compte que le RAID 5
amoindrit en réalité les performances (par rapport à d’autres technologies d’entrelacement).
De plus, comme leurs fichiers d’échange et leurs partitions systèmes partagent
le même agrégat de bandes que leurs fichiers de données, ils subissent une baisse
inutile des performances.
Il est préférable d’utiliser, si possible, plus de trois lecteurs pour une grappe
RAID 5, de ne pas mettre une partition système sur les mêmes unités que les données,
et d’utiliser les contrôleurs SCSI multi-canal qu’offre chaque constructeur de
système serveur. La technologie SCSI actuelle permet de mélanger des périphériques
SCSI de vitesses différentes sur la même chaîne et d’approcher malgré tout les
performances maximales pour chacun d’eux.
C’est pourquoi il faut disposer en permanence d’unités de secours disponibles
pour une bascule instantanée. Les administrateurs qui n’ont jamais eu à prendre
en charge les requêtes des utilisateurs pendant qu’ils s’efforçaient de reconstituer
un agrégat RAID 5 sur un serveur se laissent généralement aveugler par la promesse
de fonctionnement ininterrompu du RAID 5. Oui, le système continuera à fonctionner,
mais il n’est pas souhaitable de lui imposer une grosse charge pendant qu’il récupère
un disque tombé en panne.

Envisagez une armoire externe. Même une petite entreprise peut
tirer profit d’une grappe de disques externe. Une fois correctement configurée,
celle-ci ne risque pas d’être un point de défaillance unique. La possibilité de
simplement brancher un serveur entier peut considérablement minimiser le temps
d’arrêt si toutes les données résident à l’extérieur du système.

Une autre fonction à envisager est la capacité d’enficher à chaud une carte PCI,
fonction habituellement réservée aux serveurs haut de gamme. Commercialisés sous
différentes marques commerciales, les composants PCI enfichables à chaud permettent
de maintenir les serveurs en fonctionnement, en cas de panne des contrôleurs SCSI
et des cartes réseau. Les périphériques matériels supportant cette technologie
ne sont pas nombreux, principalement parce qu’il faut écrire des drivers spécialisés
permettant au système d’arrêter et de redémarrer le composant PCI dynamiquement.
Mais la fonction fait son chemin dans la chaîne de production et vaut la peine
d’être envisagée.

Téléchargez cette ressource

Guide de technologie 5G pour l’entreprise

Le livre blanc "The Big Book of Enterprise 5G" vous fournit les informations stratégiques dont vous avez besoin pour prendre des décisions éclairées et préparer votre entreprise à prospérer dans l'ère de la 5G. Cradlepoint, part of Ericsson est le leader mondial des solutions de réseau sans fil 4G LTE et 5G fournies via le cloud. Connectez vos employés, lieux et objets avec la 4G LTE et la 5G pour un WAN sans fil d'entreprise.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Les articles les plus consultés