HardwareServeurs tolérants aux pannes
par Mark Weitz - Mis en ligne le 26/11/2003
La meilleure solution haute disponibilité ?
L'une des responsabilités d'un service
informatique est d'éviter toute interruption
des applications critiques.
Bien que les produits en cluster offrent
la haute disponibilité, le processus de
failover peut perturber le traitement
de l'application pendant 30 secondes
ou plus. Selon le modèle de l'application
client, les utilisateurs peuvent être
obligés de se reconnecter à l'application
en cluster quand elle reprend sur
le nouveau noeud...
L'une des responsabilités d'un service
informatique est d'éviter toute interruption
des applications critiques.
Bien que les produits en cluster offrent
la haute disponibilité, le processus de
failover peut perturber le traitement
de l'application pendant 30 secondes
ou plus. Selon le modèle de l'application
client, les utilisateurs peuvent être
obligés de se reconnecter à l'application
en cluster quand elle reprend sur
le nouveau noeud, et si le noeud défaillant
se trouve sur un système distant,
il faudra dépêcher un technicien
pour le réparer. De plus, les clusters
basés sur Windows 2000 Datacenter
Server exigent une administration très poussée pour garder leur haut niveau
de disponibilité.
Pour répondre à certaines de ces
préoccupations, plusieurs fournisseurs
de serveurs ont mis au point des produits
spécialisés. Marathon, NEC et
Stratus ont présenté des solutions qui
prétendent offrir une fiabilité matérielle
de 99,99 % aux départements et
aux entreprises petites et moyennes.
Leurs solutions s'appuient davantage
sur la tolérance aux pannes que sur le
clustering et elles utilisent Win2K
Advanced Server avec les versions
standard de vos applications. Contrairement
au clustering, où une
défaillance du serveur arrête temporairement
les applications tandis que le
traitement de l'application se déplace
sur un autre noeud, les systèmes tolérants
aux pannes permettent aux applications
de fonctionner sans interruption
sur un sous-système redondant.
Une fois les parties défaillantes remplacées,
les noeuds en cluster et les systèmes
tolérants aux pannes arrêtent
temporairement le traitement. NEC et
Stratus déclarent que la mise sous tension
et la resynchronisation de la nouvelle
partie (appelée réintégration
dans les systèmes tolérants aux
pannes) peut demander jusqu'à 12
secondes sous Win2K AS. Marathon
déclare que ces temps de réintégrationsont de quelques secondes au plus. Par
comparaison, la remise sur pied d'un
cluster peut arrêter le traitement de
l'application pendant 30 secondes ou
plus.
Quand on compare le clustering et
la tolérance aux pannes, il faut se souvenir
que le service Microsoft Cluster
traite des défaillances matérielles et logicielles,
tandis que les systèmes tolérants
aux pannes s'intéressent principalement
à la fiabilité du matériel. Bien
que les techniques utilisées par NEC,
Marathon et Stratus dans leurs architectures
tolérantes aux pannes réduisent
la probabilité d'une défaillance logicielle,
s'il vous faut le haut niveau de
fiabilité logicielle des services en cluster,
vous devrez acheter des versions
orientées cluster de vos applications,
ce qui constituera une dépense supplémentaire.