Drei kleine Worte kündigen große Auswirkungen (und Ängste) für Unternehmen an: Abwanderung, Zwischenfälle und Ausfallzeiten. Angesichts der Tatsache, dass Gartner-Berichte Unternehmen könnten dem Risiko ausgesetzt sind, durch schwerwiegende Vorfälle stündlich bis zu einer halben Million US-Dollar zu verlieren (basierend auf Verlusten und Zeit zur Behebung), sollten Vorstände die Gesundheit der digitalen Abläufe eines Unternehmens ernst nehmen. Glücklicherweise steht den Verantwortlichen für den digitalen Betrieb und die Reaktion auf Vorfälle eine Fülle von Fähigkeiten und Diensten zur Verfügung, die die Auswirkungen von Ausfallzeiten und Instabilität auf ihr Unternehmen drastisch reduzieren können.

Mit einer langen Rezessionsprognose für Großbritannien, Es ist von entscheidender Bedeutung, diese Tools zu nutzen, um besser zu verstehen, zu planen und vorherzusagen. Das Erreichen dieses Zustands der betrieblichen Reife bedeutet, dass Unternehmen mit der richtigen Analyse, Kommunikation, dem Verständnis und der Fähigkeit ausgestattet sind, Maßnahmen zu ergreifen, um alle Bedrohungen und Vorfälle zu bewältigen – und zu versuchen, so viele wie möglich von vornherein zu verhindern. Echte Betriebsreife geht über die vorhandene Technologie hinaus und deckt auch die beteiligten Personen und Prozesse ab. Diese”menschlichen”Elemente sind nicht weniger wichtig, da sie mit wichtigen Metriken und Ergebnissen wie Arbeitsstunden, Burnout und Fluktuation verbunden sind.

Was ist Betriebsreife?

Jede Organisation gehört zu einer von fünf Stufen der Betriebsreife, von manuell bis präventiv. Das Ziel ist es, den präventiven Zustand der Betriebsreife zu erreichen, aber viele Organisationen sind viel weniger vorbereitet. Die fünf Stufen können wie folgt beschrieben werden (jeweils aufbauend auf der vorherigen):

1. MANUELL – es gibt keine eingehenden Integrationen mit Observability-Tools (Vorfälle werden manuell initiiert).

2. REAKTIV –die Organisation hat nur einige eingehende Integrationen, aber keine definierten Prozesse zur Verwaltung von Vorfällen.

3. REAKTIONSFÄHIG – es gibt definierte Bereitschaftspläne und mehrere Eskalationsstufen; mit Teams, die sich in Richtung Full-Service-Ownership bewegen.

4. PROAKTIV – Ein-und ausgehende Integrationen, Dienstabhängigkeiten, Änderungsereignisse und Reaktionsspiele sind vorhanden, um Probleme zu beheben, bevor Kunden davon Kenntnis erhalten.

5. VORBEUGEND – die Organisation übernimmt Event-Intelligence-Funktionen und/oder verwendet Analysen, um eine vorausschauende Behebung zu ermöglichen.

Während ein Unternehmen die „Leiter“ der Betriebsreife in Richtung des vorbeugenden Zustands erklimmt, wird es bei jedem fündig dass Vorfälle reibungsloser, schneller und mit reduzierten Ressourcen gehandhabt werden.

Es gibt zwei kritische Faktoren, die der Reifeleiter zugrunde liegen: Reaktionsfähigkeit und Proaktivität. Einfach ausgedrückt, Reaktionsfähigkeit ist, wie schnell und effizient ein Unternehmen in der Lage ist, dringende, ungeplante und unternehmenskritische Aufgaben so zu bewältigen, wie es scheint. Die Reaktionsfähigkeit einer Organisation ist das Ergebnis der Schulungen, Prozesse und Lösungen, die sie hat, um einen auftretenden Vorfall zu identifizieren und zu beheben. Wichtige Fragen, die bei der Bestimmung des Betriebsreifegrades einer Organisation gestellt werden müssen, sind: 

„Wie lange dauert es, bis ein Vorfall bestätigt wird?“ „Wie schnell können wir Einsatzkräfte mobilisieren?“ „Wie viel Zeit brauchen wir dafür zur Behebung von Vorfällen?”„Wie viele Stunden Störung und Unterbrechung haben unsere Einsatzkräfte in einem typischen Monat?”

Wenn Reaktionsfähigkeit die Art und Weise ist, wie eine Organisation auf einen Vorfall reagiert, sollte Proaktivität dahingehend betrachtet werden, wie schnell eine Organisation diesen Vorfall erkennt. Zu oft sind die Kunden die ersten, die das Problem bemerken und ein Unternehmen darauf aufmerksam machen. Ein internes Team dieses Unternehmens erstellt dann manuell ein Ticket, und der Incident-Response-Prozess kann endlich beginnen. Aber es gibt einen besseren Weg. Mit dem richtigen Ansatz für den digitalen Betrieb kann ein Unternehmen als Erster erfahren, wenn ein Vorfall aufgetreten ist, und ihn beheben – noch bevor ein Kunde davon betroffen ist. Bei der Bestimmung des Proaktivitätsgrads eines Unternehmens ist Folgendes zu berücksichtigen:

„Wer oder was identifiziert unsere Vorfälle?“ „Wie wird das zuständige Team über den betreffenden Vorfall benachrichtigt?“

Der Weg zur Reife

Das Erreichen des Endzustands der vollständigen betrieblichen Reife hängt davon ab, woher Sie kommen und insbesondere vom Stand der IT-Operationen und des Unternehmens Infrastruktur. Wenn sich diese Funktionen auf das bloße Überleben konzentrieren, beginnen Sie damit, die Teams anzuerkennen und zu unterstützen, die die Teller am Laufen halten, und entwickeln Sie dann eine Strategie, um Stabilität zu erreichen. Mangel an Ressourcen bedeutet nicht, dass kein Plan erstellt werden sollte – seien Sie vorbereitet.

Ein höherer Grad an operativer Reife und Akzeptanz der digitalen Transformation bringt Vorteile wie eine schnellere Reaktion auf Vorfälle und die Fähigkeit zur Verwaltung Auslastung innerhalb der Kernzeiten. Dies ist wichtig, da es eine gleichmäßige Verteilung der Arbeit auf die Teams ermöglicht und Mühe und Stress reduziert, was zu einer geringeren Fluktuation führt. Mit definierten Einsatzplänen und Eskalationsverfahren verbessert sich die Zuverlässigkeit der Reaktion. Dies wirkt sich direkt auf die Stabilität der Betriebsumgebung und der abhängigen Anwendungen aus, reduziert die anfallenden Kosten und/oder Reputationsschäden, die durch unerwartete Ereignisse verursacht werden, und reduziert wiederum die Unzufriedenheit und Abwanderung der Kunden.

Dahinter stecken Zahlen. Der State of Digital Operations Report von PagerDuty 2022 demonstrierte auf der Grundlage von Kundendaten, dass 42 Prozent der technischen Teams im Jahr 2021 mehr Stunden gearbeitet haben als im Jahr zuvor. Die meisten (54 Prozent) wurden außerhalb der normalen Arbeitszeit durch Break-Fix-Arbeiten unterbrochen. Diejenigen mit größerer betrieblicher Reife litten weniger unter kostspieliger, ungeplanter Arbeit.

Betriebliche Reife sichert Exzellenz und beseitigt Sorgen

Betriebliche Reife, DevOps und Full-Service-Inhaberschaft bieten zusammen dieses Modell der Rechenschaftspflicht und Kontrolle des Digitalen Umgebung. Die Automatisierung ist zwangsläufig ein entscheidender Teil dieses fortgeschrittenen Zustands: Solche Tools unterstützen eine schnelle und gezielte Reaktion auf betriebliche Ereignisse und Vorfälle. Unter der Haube verwenden diese Tools oft maschinelles Lernen, um den „Lärm“ herauszufiltern, die Mitarbeiter nur bei Bedarf zu benachrichtigen und die „Warnmüdigkeit“ zu beseitigen, die normalerweise mit Bereitschaftsdiensten in Verbindung gebracht wird.

Jetzt ist es wichtiger denn je, dass der Vorstand das Ausmaß anerkennt, in dem die Ausgereiftheit digitaler Abläufe das Endergebnis ihrer Organisation unterstützt – durch proaktives und präventives Vorgehen bei der Bewältigung von Vorfällen und durch den Versuch, sicherzustellen, dass kleine Brandrisiken niemals zu einem lodernden Brand werden Höllen. Zu diesem Zweck muss die Geschäftsleitung nicht nur investieren, sondern auch verstehen, wie die Herausforderungen von Abwanderung, Zwischenfällen und Ausfallzeiten am besten bekämpft werden. Jedes Unternehmen ist mehr oder weniger ein digitales Unternehmen und muss seinen digitalen betrieblichen Anforderungen mehr als nur ein Lippenbekenntnis ablegen, wenn es überleben und gedeihen soll.

Bildnachweis: Pfaddokument / Shutterstock

Lee Fredricks ist Director Solutions Consulting, EMEA von PagerDuty. p>

By Henry Taylor

Ich arbeite als Backend-Entwickler. Einige von Ihnen haben mich vielleicht auf der Entwicklerkonferenz gesehen. In letzter Zeit arbeite ich an einem Open-Source-Projekt.