> Tech > Superviser ses problèmes de services Azure avec Service Health

Superviser ses problèmes de services Azure avec Service Health

Tech - Par Thierry Bollet - Publié le 22 avril 2020
email

Malgré toutes les précautions prises par le fournisseur de Cloud, il y a parfois des services qui ne sont plus pleinement fonctionnels. C’est un fait.

Superviser ses problèmes de services Azure avec Service Health

Du problème matériel qui peut impacter les clients aux événements exceptionnels et (presque) imprévisibles qui vont modifier de manière incontrôlées les charges d’un Datacenter. L’actualité récente (Covid-19) a montré que malgré le pilotage des charges et les actions de planifications, il n’est pas toujours possible de tout prévoir.

En témoignent les … 775 % d’augmentation de l’utilisation de Teams sur l’Italie

Parallèlement à cet événement, l’usage du Cloud Azure a très fortement augmenté sur cette même période et cet accroissement d’usage se poursuit depuis quelques semaines.
La question est donc de savoir comment s’informer sur l’évolution des services et éventuellement se préparer pour des événements de ce type.

Quelle surveillance mettre en place ?

Il existe une page de suivi dédiée pour l’état de santé des services Azure.

Etat de santé Azure

Il conviendra d’affiner les vues lors de la première utilisation. Par exemple, le filtre Région => Global n’est pas adapté pour un client qui héberge ses ressources sur la région France Center. Cette opération est importante, il faut aussi tenir compte des services pour lesquels une redondance a été sélectionnée. Comme un réplica de base de données sur une autre région. Ne sélectionner que France Centrale si les réplicas de bases sont hébergés sur Allemagne Nord ne garantit pas une vue exhaustive.

Sur cette page, 4 rubriques différentes :

  • Evènements actifs

ce sont les événements en cours de type informations, incidents mais également l’annonce de maintenances planifiées. Cette dernière catégorie est à surveiller tout particulièrement. Une maintenance planifiée est annoncée très à l’avance et permet d’engager actions ou communication si nécessaire. Toujours intéressant de ne pas consigner d’incident sur un service alors que celui-ci est dans un cycle de maintenance annoncée dans le portail depuis plusieurs semaines…

  • History

propose de remonter dans le temps et d’afficher les événements sur une période de 3 mois. A utiliser par exemple, pour des analyses poussées lors des diagnostiques (une application se plaint d’avoir eu des lenteurs il y a plusieurs semaines).

  • Resource Health

permet de créer un filtre de vue par subscription et par type de ressources. Pour une surveillance sur une portée plus réduite.

  • Alerts

est le réceptacle pour les alertes personnalisées créés par l’opérateur. Alertes est un service Azure qui permet de déclencher sous condition des mails ou autres actions. Ces informations sont normalement distribuées sur un scope restreint (1 équipe ou quelques personnes seulement) mais sont consolidés sur le portail pour créer une vue centrale.

Le service Alertes Azure

Téléchargez cette ressource

Comment sécuriser une PME avec l’approche par les risques ?

Comment sécuriser une PME avec l’approche par les risques ?

Disposant de moyens financiers et humains contraints, les PME éprouvent des difficultés à mettre en place une véritable stratégie de cybersécurité. Opérateur de services et d’infrastructures, Naitways leur propose une approche pragmatique de sécurité « by design » en priorisant les risques auxquelles elles sont confrontées.

Pourquoi utiliser le portail ?

Le portail n’est pas la seule source d’information pour permettre le suivi. Le lien web proposé dans le premier chapitre (cloud services continuity) ou le lien public Azure status permettraient de suivre les informations.

Mais il est beaucoup plus générique, moins temps réel, et surtout, il ne fait pas l’état des ressources impactées pour le client. Car voilà bien une information essentielle !

L’exemple d’état ci-dessous alerte sur un service qui impacte ou peu impacter votre Subscription.

You were identified as a customer using Azure Active Directory who may have seen 502 and 503 errors when registering for Multi-factor Authentication or Self-Service Password Reset, launching single sign-on applications, or inviting guest users to B2B.

C’est un effort de transparence et une information donnée la plus précise possible. Sont regroupées dans cette vue, des informations d’impacts, de cause racine, de corrections en cours (mitigation) et les prochaines étapes.

Un onglet mis à jour du problème permet d’assurer un suivi, de prendre connaissance des grandes étapes de corrections et des communications autour du sujet.

 

Vue globale pour un incident

 

Conclusion

Service Health renseigne sur l’état de santé de l’environnement. Il consigne les alertes personnalisées et informe des maintenances préventives. Il offre une information personnelle sur des services que vous utilisez et qui peuvent impacter la disponibilité.

C’est un allié précieux qu’il faudra impérativement ajouter sur votre Dashboard Azure.

Tech - Par Thierry Bollet - Publié le 22 avril 2020