Trois petits mots annoncent un impact majeur (et une crainte) pour les organisations : désabonnement, incident et temps d’arrêt. Étant donné que les rapports Gartner pourraient risquent de perdre jusqu’à un demi-million de dollars par heure en raison d’incidents graves (en fonction des pertes et du temps nécessaire pour y remédier), les conseils d’administration doivent prendre au sérieux la santé des opérations numériques d’une entreprise. Heureusement, les responsables des opérations numériques et de la réponse aux incidents disposent d’une pléthore de capacités et de services qui peuvent réduire considérablement l’impact des temps d’arrêt et de l’instabilité sur leur organisation.

Avec une longue récession prévue pour le Royaume-Uni, tirer parti de ces outils pour mieux comprendre, planifier et prévoir est crucial. Atteindre cet état de maturité opérationnelle signifie que les entreprises sont équipées des bonnes analyses, communications, compréhension et capacité à prendre des mesures pour gérer toutes les menaces et tous les incidents-et essayer d’en empêcher le plus possible de se produire en premier lieu. La véritable maturité opérationnelle va au-delà de la technologie en place pour couvrir également les personnes et les processus impliqués. Ces éléments”humains”ne sont pas moins vitaux puisqu’ils sont associés à des mesures et des résultats importants tels que les heures travaillées, l’épuisement professionnel et l’attrition.

Qu’est-ce que la maturité opérationnelle ?

Chaque organisation tombe en une seule de cinq stades de maturité opérationnelle, du manuel au préventif. L’objectif est d’atteindre l’état préventif de maturité opérationnelle, mais de nombreuses organisations se retrouvent beaucoup moins préparées. Les cinq étapes peuvent être décrites comme suit (chacune s’appuyant sur la première) :

1. MANUEL–il n’y a pas d’intégrations entrantes avec les outils d’observabilité (les incidents sont initiés manuellement).

2. RÉACTIF –l’organisation n’a que quelques intégrations entrantes mais aucun processus défini pour gérer les incidents.

3. RÉACTIF–il existe des horaires d’intervention définis et plusieurs niveaux d’escalade ; avec des équipes évoluant vers la propriété de services complets.

4. PROACTIVE : les intégrations entrantes et sortantes, les dépendances de service, les événements de changement et les jeux de réponse sont tous en place pour résoudre les problèmes avant que les clients ne s’en rendent compte.

5. PRÉVENTIF : l’organisation adopte des fonctionnalités d’intelligence événementielle et/ou utilise des analyses pour permettre une correction prédictive.

Au fur et à mesure qu’une entreprise gravit l’« échelle » de maturité opérationnelle vers l’état préventif, elle trouvera à chaque pour que les incidents soient gérés plus facilement, plus rapidement et avec des ressources réduites.

Deux facteurs critiques sous-tendent l’échelle de maturité : la réactivité et la proactivité. En termes simples, la réactivité est la rapidité et l’efficacité avec lesquelles une organisation est capable de gérer un travail urgent, non planifié et critique tel qu’il apparaît. La réactivité d’une organisation est le résultat de la formation, des processus et des solutions dont elle dispose pour identifier et remédier à un incident qui se produit. Les questions importantes à poser lors de l’identification du niveau de maturité opérationnelle d’une organisation sont les suivantes : 

“Combien de temps faut-il pour qu’un incident soit reconnu ?””En combien de temps pouvons-nous mobiliser les intervenants ?””Combien de temps cela nous prend-il ? pour résoudre les incidents ?””Combien d’heures de dérangement et d’interruption nos intervenants ont-ils au cours d’un mois type ?”

Si la réactivité est la façon dont une organisation réagit à un incident, la proactivité doit être considérée comme la rapidité avec laquelle une organisation identifie cet incident. Trop souvent, les clients sont les premiers à remarquer et à alerter une entreprise du problème. Une équipe interne à cette entreprise crée ensuite manuellement un ticket, et le processus de réponse aux incidents peut enfin commencer. Mais il y a un meilleur moyen. Avec la bonne approche des opérations numériques, une organisation peut être la première à savoir quand un incident s’est produit et à le résoudre, avant même qu’un client ne soit impacté. Lors de la détermination du niveau de proactivité d’une entreprise, il est important de prendre en compte :

“Qui ou qu’est-ce qui identifie nos incidents ?””Quel est le processus pour alerter l’équipe appropriée de l’incident en question ?”

Le chemin de la maturité

L’atteinte de l’état final de pleine maturité opérationnelle dépendra d’où vous venez et, plus précisément, de l’état des opérations informatiques de l’entreprise et Infrastructure. Si ces fonctions sont axées sur la simple survie, commencez par reconnaître et soutenir les équipes qui font tourner les assiettes, puis élaborez une stratégie pour atteindre la stabilité. Le manque de ressources ne signifie pas qu’un plan ne doit pas être élaboré-soyez préparé.

Des niveaux plus élevés de maturité opérationnelle et l’adoption de la transformation numérique présentent des avantages tels qu’une réponse plus rapide aux incidents et la capacité de gérer charges de travail dans les heures de base. Ceci est important car cela permet une répartition uniforme du travail entre les équipes et réduit le labeur et le stress, ce qui entraînera une diminution de l’attrition. Avec des calendriers d’intervention et des procédures d’escalade définis, la fiabilité de la réponse s’améliore. Cela aura un impact direct sur la stabilité de l’environnement opérationnel et des applications dépendantes, réduisant les coûts encourus et/ou les dommages à la réputation causés par des événements inattendus et, à son tour, réduira l’insatisfaction et le taux de désabonnement des clients.

Il y a des chiffres derrière tout ça. Le rapport sur l’état des opérations numériques 2022 de PagerDuty a démontré, sur la base des données client, que 42 % des équipes techniques ont travaillé plus d’heures en 2021 que l’année précédente. La plupart (54 %) ont été interrompus en dehors des heures normales de travail par des travaux de dépannage. Ceux qui avaient une plus grande maturité opérationnelle souffraient moins de travaux coûteux et imprévus.

La maturité opérationnelle garantit l’excellence, élimine les soucis

Ensemble, la maturité opérationnelle, le DevOps et la propriété à service complet offrent ce modèle de responsabilité et de contrôle du numérique environnement. L’automatisation est inévitablement un élément essentiel de cet état avancé: de tels outils permettent une réponse rapide et ciblée aux événements et incidents opérationnels. Sous le capot, ces outils utilisent souvent l’apprentissage automatique pour filtrer le”bruit”, alerter les opérateurs uniquement en cas de besoin et supprimer la”fatigue d’alerte”généralement associée aux rôles d’ingénierie sur appel.

Maintenant, plus que jamais, il est important que le conseil d’administration apprécie à quel point la maturité des opérations numériques soutient les résultats de son organisation-en étant proactif et préventif dans la gestion des incidents et en essayant de s’assurer que les petits risques d’incendie ne deviennent jamais flamboyants enfers. À cette fin, la haute direction doit non seulement investir, mais aussi comprendre comment les défis de désabonnement, d’incidents et de temps d’arrêt sont mieux combattus. Chaque entreprise est une entreprise numérique, dans une plus ou moins grande mesure, et doit payer plus que des paroles en l’air à ses besoins opérationnels numériques si elle veut survivre et prospérer.

Crédit photo : pathdoc / Shutterstock

Lee Fredricks est Directeur Solutions Consulting, EMEA de PagerDuty.

By Maisy Hall

Je travaille comme écrivain indépendant. Je suis également vegan et écologiste. Chaque fois que j'ai le temps, je me concentre sur la méditation.