Três pequenas palavras anunciam grande impacto (e medo) para as organizações: rotatividade, incidente e tempo de inatividade. Considerando que as empresas Gartner podem correm o risco de perder até meio milhão de dólares por hora devido a incidentes graves (com base em perdas e tempo para remediar), os conselhos devem levar a sério a integridade das operações digitais de uma empresa. Felizmente, os responsáveis ​​pelas operações digitais e resposta a incidentes têm uma infinidade de recursos e serviços à sua disposição que podem reduzir drasticamente o impacto do tempo de inatividade e da instabilidade em sua organização.

Com uma longa previsão de recessão para o Reino Unido, aproveitar essas ferramentas para entender, planejar e prever melhor é crucial. Atingir esse estado de maturidade operacional significa que as empresas estão equipadas com as análises, comunicações, compreensão e capacidade corretas de agir para gerenciar todas as ameaças e incidentes-e tentar impedir que o máximo possível ocorra em primeiro lugar. A verdadeira maturidade operacional vai além da tecnologia instalada para abranger também as pessoas e os processos envolvidos. Esses elementos’humanos’não são menos vitais, pois estão associados a métricas e resultados importantes, como horas trabalhadas, desgaste da equipe e atrito.

O que é maturidade operacional?

Toda organização se enquadra em uma de cinco estágios de maturidade operacional, do manual ao preventivo. O objetivo é alcançar o estado preventivo de maturidade operacional, mas muitas organizações se encontram muito menos preparadas. Os cinco estágios podem ser descritos da seguinte forma (cada um baseado no anterior):

1. MANUAL–não há integrações de entrada com ferramentas de observabilidade (os incidentes são iniciados manualmente).

2. REATIVA –a organização tem apenas algumas integrações de entrada, mas nenhum processo definido para gerenciamento de incidentes.

3. RESPONSIVA–existem programações de chamadas definidas e vários níveis de escalonamento; com as equipes caminhando para a propriedade de serviço completo.

4. PROATIVO–integrações de entrada e saída, dependências de serviço, eventos de mudança e reproduções de resposta estão disponíveis para corrigir problemas antes que os clientes percebam.

5. PREVENTIVA–a organização adota recursos de inteligência de eventos e/ou consome análises para permitir a correção preditiva.

À medida que uma empresa sobe a’escada’de maturidade operacional em direção ao estado preventivo, ela encontrará cada degrau que os incidentes são gerenciados de forma mais suave, rápida e com recursos reduzidos.

Existem dois fatores críticos que sustentam a escada da maturidade: capacidade de resposta e proatividade. Simplificando, a capacidade de resposta é a rapidez e a eficiência com que uma organização é capaz de gerenciar o trabalho urgente, não planejado e de missão crítica conforme ele aparece. A capacidade de resposta de uma organização é o resultado do treinamento, dos processos e das soluções que ela possui para identificar e remediar um incidente ocorrido. Perguntas importantes a serem feitas ao identificar o nível de maturidade operacional de uma organização incluem: 

“Quanto tempo leva para um incidente ser reconhecido?””Com que rapidez conseguimos mobilizar os socorristas?””Quanto tempo levamos para nós para resolver incidentes?””Quantas horas de perturbação e interrupção nossos socorristas têm em um mês típico?”

Se a capacidade de resposta é como uma organização responde a um incidente, a proatividade deve ser considerada como a rapidez com que uma organização identifica esse incidente. Muitas vezes, os clientes são os primeiros a perceber e alertar uma empresa sobre o problema. Uma equipe interna dessa empresa cria manualmente um ticket e o processo de resposta a incidentes pode finalmente começar. Mas há uma maneira melhor. Com a abordagem certa para operações digitais, uma organização pode ser a primeira a saber quando um incidente ocorreu e resolvê-lo-mesmo antes de um cliente ser afetado. Ao determinar o nível de proatividade de uma empresa, é importante considerar:

“Quem ou o que está identificando nossos incidentes?””Qual é o processo para alertar a equipe apropriada sobre o incidente em questão?”

O caminho para a maturidade

Atingir o estado final de plena maturidade operacional dependerá de onde você veio e, especificamente, do estado das operações de TI da empresa e a infraestrutura. Se essas funções estão focadas na mera sobrevivência, comece reconhecendo e apoiando as equipes que mantêm os pratos girando e, em seguida, trace uma estratégia para alcançar a estabilidade. A falta de recursos não significa que um plano não deva ser feito-esteja preparado.

Maiores níveis de maturidade operacional e adoção de transformação digital apresentam benefícios como uma resposta mais rápida a incidentes e a capacidade de gerenciar cargas de trabalho dentro do horário de funcionamento. Isso é importante, pois permite a distribuição uniforme do trabalho entre as equipes e reduz o trabalho e o estresse, o que resultará em menor atrito. Com cronogramas de chamadas e procedimentos de escalonamento definidos, a confiabilidade da resposta melhora. Isso afetará diretamente a estabilidade do ambiente operacional e dos aplicativos dependentes, reduzindo os custos incorridos e/ou danos à reputação causados ​​por eventos inesperados e, por sua vez, reduzirá a insatisfação e a rotatividade do cliente.

Existem números por trás disso. O State of Digital Operations Report de 2022 da PagerDuty demonstrou, com base nos dados do cliente, que 42% das equipes técnicas trabalharam mais horas em 2021 do que no ano anterior. A maioria (54 por cento) foi interrompida fora do horário normal de trabalho com trabalho de intervalo. Aqueles com maior maturidade operacional sofreram menos com trabalhos caros e não planejados.

Maturidade operacional garante excelência, remove preocupações

Juntos, maturidade operacional, DevOps e propriedade de serviço completo oferecem esse modelo de responsabilidade e controle do digital ambiente. A automação é inevitavelmente uma parte crítica desse estado avançado: essas ferramentas oferecem suporte a uma resposta rápida e focada a eventos e incidentes operacionais. Sob o capô, essas ferramentas geralmente usam aprendizado de máquina para filtrar o’ruído’, alertar os operadores somente quando necessário e remover a’fadiga de alerta’que normalmente tem sido associada às funções de engenharia de plantão.

Agora, mais do que nunca, é importante que o conselho aprecie até que ponto a maturidade em operações digitais apoia os resultados de sua organização-sendo proativo e preventivo no gerenciamento de incidentes e tentando garantir que pequenos riscos de incêndio nunca se tornem graves infernos. Para isso, a liderança sênior deve não apenas investir, mas entender como os desafios de churn, incidentes e tempo de inatividade são melhor combatidos. Cada empresa é uma empresa digital, em maior ou menor grau, e deve prestar mais atenção às suas necessidades operacionais digitais se quiser sobreviver e prosperar.

Crédito da foto: pathdoc / Shutterstock

Lee Fredricks é Diretor de Consultoria de Soluções, EMEA da PagerDuty.

By Maisy Hall

Eu trabalho como redator freelancer. Também sou vegana e ambientalista. Sempre que tenho tempo, concentro-me na meditação.