Trusted Cloud Team 

 

Por David Bills, Chefe estrategista de Confiabilidade Trustworthy Computing

Serviços online enfrentam um problema de confiabilidade contínuo perante ameaças relacionadas e representada por falhas no dispositivo latentes, falhas no software que está sendo desencadeado por mudanças ambientais, e erros cometidos pelos seres humanos. Na Microsoft, uma das formas que estamos ajudando a melhorar a confiabilidade de nossos serviços é investindo em Análise e Modelagem de Resiliência (RMA) como uma forma de serviço online para integrar um robusto design de resiliência  pelas as equipes de engenharia dentro do ciclo de vida do desenvolvimento. Você pode ler mais sobre RMA em nosso whitepaper.

A fase principal da RMA é a fase de "descobrir" durante o qual as equipes enumeram e registram falhas potenciais para cada componente de interação mostrada no diagrama para seus serviços. Para assegurar uma sessão eficaz de “brainstorming”, todos os grupos de engenharia devem participar ativamente na sessão.

DIAL (Descoberta, Incorreção, Autorização e Autenticação, Limites/Latência) é um útil acrônimo que representa uma confiabilidade comum às categorias de ameaça. Esta lista permite que as equipes de serviços sigam uma ordem efetivamente lógica, sobre a grande maioria dos possíveis cenários de falha para seu serviço, e para fazê-lo de uma forma estruturada, utilizam o acrônimo.

Aqui está um exemplo da lista do acrônimo "DIAL":

Descoberta
• Não é possível localizar o recurso devido a erros de configuração no “caller”

• Não é possível localizar o recurso devido a resolução do nome nomes por erros no  caller”.

Incorreção
• O “caller” recebe uma mensagem de erro porque o pedido é sintaticamente incorreto.
• O pedido não é concluído com êxito devido a dados corrompidos ou malformados quando estão sendo restabelecidos.
• Renderização  de configurações incorretas fazem o “caller”’ inoperante.
• O “caller”  recebe uma mensagem de erro porque o estado do recurso que está sendo solicitado é incompatível com a própria solicitação.

Autorização/Autenticação
• O “caller”  recebe um erro de autenticação.
• O “caller” recebe uma falha de autorização.

Limites/Latência
• O “caller” não recebe resposta do recurso resultando em um tempo limite ou bloqueio do recurso de chamado.
• O “caller”  recebe um erro relacionado com a ultrapassem dos limites do recurso chamado.
• O “caller”  recebe uma resposta bem sucedida, mas a um ritmo muito lento causando tamanho da fila a ser ultrapassado.

O acrônimo DIAL não se destina a ser um catálogo exaustivo de todos as possíveis confiabilidade relacionadas com categorias de ameaça. No entanto, a lista oferece uma forma estruturada para que as equipes possam através da confiabilidade de categorias de ameaça, a identificação da falha mais fácil, reduzindo a possibilidade de classes inteiras de falhas sendo negligenciada. Por exemplo, quando Componente A faz um pedido de recurso B, as questões podem ser encontradas na seguinte seqüência lógica:

1. Recurso B pode não existir ou não pode ser encontrado.
2. Componente A não pode autenticar-se com sucesso com recurso B.

3. Recurso B pode ser lento ou não responder ao pedido emitido pelo componente A, e assim por diante.

O acrônimo DIAL  pode ser uma referência rápida e  útil para equipes, quando trabalhando com o fase de 'descobrir'  do RMA. Você pode ler mais sobre a Análise e Modelagem de Resiliência (RMA) e baixar exemplos em nosso informativo, "Resilience by design for cloud services".

** Post anterior desta série: Confiabilidade - Series- 1 - Confiabilidade vs resiliência