Continuité des opérations en environnement Microsoft : Les changements de tendance pour les années 2004 et 2005

Olivier Cohen, Directeur Commercial de Sunbelt Software nous livre son sentiment sur la continuité des opérations en environnement Microsoft.
Jusqu'ici considérés comme serveurs non critiques, les Serveurs Microsoft Exchange, SQL, Oracle, IIS, Serveurs de fichiers et d'impressions ont aujourd'hui acquis un nouveau statut. De nouveaux besoins dans le cadre de

leur continuité d’exploitation sont donc nés.
En effet, les directions informatiques ont longtemps fait la différence entre un monde Unix proche des processus centraux des grandes entreprises nécessitant une très haute disponibilité, et l’univers Microsoft réputé comme non critique.
Il serait pourtant impossible aujourd’hui de travailler sans un accès immédiat à nos bases de données, notre messagerie, notre logiciel de comptabilité ou de logistique supportés par Windows Serveur. L’accès aux données est donc devenu le coeur de la problématique dans notre monde interconnecté.

Les offres du marché
Des nombreuses approches ont été mises en oeuvre pour améliorer la protection et la disponibilité
des données. Des composants matériels à tolérance de pannes incorporés au serveur (Serveur de type Stratus par exemple) réduisent la fréquence des pannes dues au matériel. Toutefois, ces systèmes en mode duplexé restent vulnérables aux pannes imputables à l’utilisateur, au système d’exploitation, aux applications et aux sinistres affectant un site, principales sources d’indisponibilité.

Les serveurs en cluster permettent d’améliorer la disponibilité en procurant un ou plusieurs serveurs additionnels pour reprendre le traitement des données en cas de panne matérielle ou logicielle. Malheureusement, ces systèmes sont onéreux et requièrent un matériel redondant ainsi que des sous-systèmes disques partagés spécifiques. D’autres part, les serveurs en cluster sont généralement contraints d’être placés à de très courtes distances les uns des autres. Ceci rend donc difficile toute protection du site hébergeant ces systèmes locaux dans le cadre d’un plan de reprise après sinistre. La meilleure technologie de clustering ne présente guère d’intérêt si l’ensemble du site est inaccessible.
Les systèmes en cluster à disque partagé (« shared ») continuent de plus à présenter un point de rupture dans le sous-système du disque partagé, celui-ci n’étant pas doublé. Même s’ils peuvent effectivement améliorer la fiabilité, les clusters ne constituent donc pas la panacée.

Au sommet de la hiérarchie, en termes de coût et de complexité, les logiciels spécialisés distribués peuvent répondre au besoin de disponibilité des données 24 heures sur 24, 7 jours sur 7 et en temps réel pour des applications spécifiques. Oracle Parallel Server et Lotus Notes représentent deux exemples d’applications capables de garder une entreprise opérationnelle en cas de panne du serveur. Malheureusement, ces systèmes sont propres à une application et ne répondent pas au problème plus général de la disponibilité des applications en réseau d’une manière globale composées de bien d’autres applications.
Il est intéressant de noter que pour qualifier la pertinence d’une solution de tolérance de panne quelle qu’elle soit, la direction informatique doit en fait analyser quatre paramètres :

les temps de reprise générés par la mise en place de cette solution (en combien de temps le système résiliant repartira après une panne ou un sinistre ?).
le point de reprise fourni par cette solution (avec quelles données chronologiques dans le temps le système résiliant repartira après une panne ou un sinistre ?).
les points de non redondance du système, s’il en existe (la baie de stockage partagée unique dans le Cluster MSCS par exemple en est un).
les coûts globaux d’acquisition de la solution par rapport à la réalité du budget disponible.

Ces quatre paramètres devant être croisés avec une analyse de besoin réel de disponibilité par type de serveur et d’application eux-mêmes support de tel ou tel environnement de production dans l’entreprise.
Pourtant, malgré l’augmentation croissante du coût d’indisponibilité des systèmes d’information, il est inquiétant de s’apercevoir que dans l’univers Microsoft, la très grande majorité des serveurs ne sont pas protégés, car non redondants ou non doublés. L’accès aux données n’étant sécurisé que par une protection très limitée : des disques de type RAID (tolérance pour 1 disque en panne uniquement) une sauvegarde (souvent mal effectuée) et un contrat de maintenance sur site de 4 ou 6 heures d’intervention.
Ces systèmes de protection insuffisants ne préviennent en rien contre des pannes machines applicatives, ou simplement des pannes d’accès au site dues à un sinistre tel que l’incendie ou l’inondation par exemple. 6 heures, 8 heures ou 2 jours de panne des serveurs et une perte partielle ou définitive des données sont donc de plus en plus fréquents.

Que font les directions Informatiques ?

En 2002-2003, les très grandes entreprises ont commencé à réaliser la nature critique de toutes leurs ressources, et la plupart se sont tournées vers le stockage consolidé et supervisé, avec de multiples couches de réplications assurant leur protection. Souvent dans le cadre d’une infrastructure SAN doublée.
En 2004, le bouleversement majeur sera probablement le fait que les PME comprennent enfin que la continuité des opérations n’est plus l’apanage des grandes entreprises uniquement.
En effet, les PME dépendent bien plus de leurs systèmes informatiques du fait de la résilience moindre de leurs infrastructures et elles sont donc plus sensibles aux perturbations. Les technologies de réplication et de « clustering » matériel ou logiciel ayant maintenant atteint leur maturité, davantage de PME s’engagent dans la voie de la protection de leurs activités.

Emergence de 2 tendances majeures sur le marché français en 2004

La première étant la tendance croissante des entreprises à prendre en charge leur propre protection plutôt que de la confier à des entreprises spécialisées dans l’hébergement et la fourniture de sites de repli.
La seconde étant le rôle croissant du rôle des logiciels, tels que les logiciels de supervision d’applications ou des logiciels de réplication, dans les solutions de continuité de service mises en oeuvre.

Ces produits logiciels deviennent des outils d’infrastructure standards, tout comme les logiciels antiviraux et de sauvegarde sur bande. La tendance des entreprises à mettre en place des systèmes de reprise après sinistre « Disaster Recovery » et de continuité de service est très marquée.
Les entreprises reconnaissent donc de plus en plus que la disponibilité permanente des données et des applications est un facteur essentiel de protection de l’activité, de la relation client et de leur image.
Qui plus est, les systèmes informatiques Windows atteignent un degré tellement élevé de distribution (tout en restant interdépendants) que les entreprises réalisent qu’il n’y a plus de systèmes non-vitaux.

Grâce au coût réduit des solutions permettant la continuité des opérations basée sur la réplication des données notamment, tant les grandes entreprises que les PME peuvent aujourd’hui protéger un éventail croissant d’applications.
Les produits de réplication de données aujourd’hui réellement matures démocratisent finalement la tolérance de pannes et constituent de plus en plus des solutions particulièrement compatibles avec une problématique de gestion au quotidien d’un environnement Windows multi-serveurs et multi-sites.
Avec la technologie de réplication de données et de « clustering », comme par exemple avec le logiciel Double-Take (distribuée en Europe par Sunbelt Software : http://www.sunbelt-software.com), les entreprises développent un schéma de protection de données multi-sites en transférant des copies de données en temps réel, quelle que soit la distance, via des connexions standards de type Internet ou réseau. La tolérance de panne locale sur les serveurs Microsoft est aussi prise en compte par ce logiciel très peu coûteux et très rapide à mettre en oeuvre. En cas de panne, le serveur de secours reprendra la main dans la salle informatique en moins de 5 minutes dans la plupart des cas.

Sur le “front de la technologie”, le principal défi sera finalement pour les PME d’identifier correctement les ressources nécessaires pour déployer et maintenir la continuité des opérations.

Avec la disponibilité de la technologie apparaissent de nouveaux fournisseurs de solutions et une myriade d’experts. Nous ne pouvons oublier que ce domaine particulier de l’informatique (la continuité des opérations, le plan de reprise d’activité) assure la survie de nos entreprises, et donc tant les solutions que les “experts” devront être choisis avec prudence – l’expérience et l’efficacité avérées constituant les seules références acceptables.

Autre tendance en 2004 -2005 : la démocratisation des plans de reprise d’activité (PRA).

Le PRA peut revêtir une signification différente d’une entreprise à l’autre. Pour certaines, il s’agit d’un processus destiné à réduire le risque que les fonctions vitales de l’entreprise soient perturbées de façon inattendue, et à permettre de continuer d’assurer le niveau minimum de service nécessaire aux activités critiques. Pour d’autres, le PRA est un exercice beaucoup plus global de planification qui consiste à déterminer le degré d’exposition de l’organisation aux menaces internes et externes, et à synthétiser les actifs corporels et incorporels, en vue d’une prévention et d’une reprise efficaces, tout en préservant l’intégrité des avantages concurrentiels et de l’échelle de valeurs
Selon le Disaster Recovery Institute International, organisme à but non lucratif basé au Canada,
43 % des entreprises qui subissent un désastre ferment tout simplement parce qu’elles ne sont pas en mesure de composer avec le choc au moment où il survient. De plus, 29 % de celles qui reprennent leurs activités ferment dans un délai de deux ans. Une simple panne des systèmes d’information fait perdre au moins 40 % des produits d’exploitation quotidiens. Il est surprenant de constater à quel point les entreprises sont vulnérables. à€ la lumière des événements des dernières années, les problèmes semblent devenir de plus en plus graves, d’où la nécessité de recourir à un plan de reprise d’activités.

Bien que les événements du 11 septembre n’aient pas créé de besoins de PRA inexistants auparavant, ils ont amené de nombreux décideurs d’entreprise à réaliser qu’ils sont responsables d’assurer la résilience de leurs opérations. Le défi à relever consistera à rester proactif et résolu dans ces efforts, ce qui n’est pas une mince affaire.