Por David Bills, Jefe Estratega de Confiabilidad, Informática Confiable

Continuamente, los servicios en línea se enfrentan a amenazas de confiabilidad generadas por fallas de dispositivos, fallas potenciales del software provocadas por cambios en el entorno y errores cometidos por seres humanos. En Microsoft, una de las maneras en que ayudamos a mejorar la confiabilidad de nuestros servicios es al invertir en la creación de modelos de resistencia y su análisis (RMA) como una vía para que los equipos de ingeniería de servicios en línea incorporen un diseño sólido de resistencia en el ciclo de vida de desarrollo.  Usted puede averiguar más acerca de RMA en nuestro documento estratégico.

Una fase clave de RMA es el 'Descubrimiento', durante la cual los equipos enumeran y registran posibles fallas para cada interacción de componentes que se muestra en el diagrama de su servicio. Para asegurar una sesión de generación de lluvia de ideas eficiente, todas las disciplinas de ingeniería deben participar activamente.

DIAL (Descubrimiento, Incorrección, Autorización/Autenticación, Límites/Latencia) es un práctico acrónimo que representa las categorías de las amenazas de confiabilidad más comunes. Esta lista permite a los equipos de servicios generar lluvias de ideas de manera eficiente siguiendo un orden lógico respecto a la gran mayoría de escenarios de posibles fallas en su servicio, haciéndolo de una manera estructurada.

Éste es un ejemplo de una lista "DIAL":

Descubrimiento
•     La persona que llama no puede localizar el recurso debido a errores de configuración.
•    La persona que llama no puede localizar el recurso debido a errores de resolución de nombre.

Incorrección
•    La persona que llama recibe un mensaje de error porque la solicitud es sintácticamente incorrecta.
•    La solicitud no se completa correctamente debido a la devolución de datos corruptos o malformados.
•    Ajustes de configuración malformados que hacen que la persona que llama se vuelva incapaz de resolver el problema.
•    La persona que llama recibe un mensaje de error porque el estado del recurso solicitado es incompatible con la solicitud.

 Autorización/Autenticación
•    La persona que llama recibe un mensaje de error de autenticación.
•    La persona que llama recibe un mensaje de falta de autorización.

 Límites/Latencia
•    La persona que llama no recibe ninguna respuesta del recurso, lo que provoca que se agote el tiempo de espera o que haya un bloqueo del recurso solicitado.
•    La persona que llama recibe un mensaje de error por exceder los límites del recurso solicitado.
•    La persona que llama recibe una respuesta exitosa, pero a una tasa muy lenta que genera que se excedan las longitudes de cola.

El modelo DIAL no pretende ser un catálogo exhaustivo de todas las categorías de posibles amenazas relacionadas con la confiabilidad. Sin embargo, la lista ofrece una manera estructurada para que los equipos consideren las categorías de amenazas de confiabilidad, lo que facilita la identificación de fallas, reduciendo la posibilidad de pasar por alto clases enteras de fallas. Por ejemplo, cuando el Componente A realiza una solicitud al Recurso B, se pueden encontrar problemas en la siguiente secuencia lógica:

1.    El Recurso B no existe o no puede ser encontrado. Y si se encuentra,
2.    El Componente A no puede autenticarse exitosamente con el Recurso B. Y si puede autenticarse,
3.    El Recurso B es lento o no responde a la solicitud emitida por el Componente A, y así sucesivamente.

El modelo DIAL puede ser una referencia útil para los equipos cuando trabajan en la fase de 'Descubrimiento' de RMA. Usted puede obtener más información sobre la creación de modelos de resistencia y su análisis (RMA) y descargar ejemplos de plantillas en nuestro documento estratégico, `Resistencia por diseño para servicios en la nube'.

** Publicación anterior: Serie #1 sobre Confiabilidad: Confiabilidad vs. Resistencia