Publicado por David Bills, estrategista-chefe em confiabilidade, Computação confiável

Eu acredito que a maioria dos provedores de serviços de nuvem reconheça como é importante que eles sejam capazes de detectar, diagnosticar e resolver os problemas que ameaçam reduzir a disponibilidade e a confiabilidade dos serviços que oferecem. Porém, devido à grande quantidade de componentes e dependências envolvidos em um típico serviço de nuvem, pode ser difícil conseguir detectar, diagnosticar e solucionar os problemas rapidamente.  Diferentes causas podem ter sintomas semelhantes. Isso significa que pode ser difícil saber com certeza se um problema foi ou não solucionado de forma definitiva.

Por exemplo, a lentidão no tempo de resposta pode ser rastreada a consultas que não foram otimizadas ou a links de rede completamente utilizados que tornam mais lenta a transferência de dados ou a máquinas fazendo permutações entre memória e disco.  A forma de solucionar cada um desses problemas é radicalmente diferente, apesar dos sintomas serem iguais: lentidão no tempo de resposta!

Muitas organizações focam a atenção no gerenciamento de incidentes, mas com base na minha experiência, são as organizações que empregam um processo de gerenciamento de problemas robusto que atinge maior confiabilidade, agilidade e eficiência ao gerenciar os serviços de nuvem.

Hoje a Microsoft lançou um novo white paper intitulado “Gerenciamento de problemas para serviços online”. O documento descreve o gerenciamento de problemas e os benefícios que as organizações obtêm ao implementarem uma estrutura de gerenciamento de problemas robusta. Ele compara o gerenciamento de incidentes ao gerenciamento de problemas e descreve os conceitos fundamentais do gerenciamento de problemas eficiente. Além de descrever os processos de gerenciamento de problemas que as organizações podem usar para ajudar a melhorar a confiabilidade dos seus serviços online. O documento também inclui dois exemplos reais de abordagens do gerenciamento de problemas usadas pela equipe de TI do Bing e da Microsoft.

Com base na minha experiência, geralmente é difícil que as organizações dediquem os recursos necessários para implementar uma metodologia de gerenciamento de problemas robusta, mas o retorno sobre o investimento realizado pelas organizações que se comprometem com isso pode ser muito vantajoso.  As equipes de gerenciamento de problemas investigam o motivo de cada incidente e correlacionam essa informação com os dados obtidos dos incidentes anteriores para tentar encontrar semelhanças. Voltando um pouco atrás e analisando a situação como um todo, eles podem oferecer padrões de identificação que de outra forma seriam ignorados: padrões que levam a soluções permanentes.

Se você estiver implantando serviços de nuvem em grande escala, seja como um provedor de serviços de nuvem que ofereça infraestrutura, plataforma ou software ou como um fornecedor de software independente, ou mesmo que você seja um cliente gerenciando sua própria nuvem privada em grande escala, eu recomendo que você faça download deste documento e leia mais sobre como implementar de forma bem-sucedida uma metodologia de gerenciamento de problemas destinada a melhorar a confiabilidade dos seus serviços online.