Artículo original publicado el lunes 2 de julio de 2012

En la Parte 1 de esta serie se presentó el script E2K7_IndexRebuildAnalyzer.ps1 y la Parte 2 trató sobre el Marco de reorganización de búsqueda que desarrollamos Anatoly Girko y yo. Antes de concluir esta serie considero importante proporcionar una serie de gráficos y una tabla de "medias observadas" que ilustren las características de reorganización que hemos identificado desde el inicio del marco. Espero que esto permita una mejor conceptuación y le ayude a realizar estimaciones más exactas a la hora de calcular sus propias velocidades de reorganización.

Medias observadas hasta la fecha en Microsoft

Anatoly y yo contemplamos varias formas de introducir este tema, para el que existen infinidad de posibilidades de presentación. Finalmente decidimos adaptar los gráficos y la tabla al tamaño de mensaje que usan la mayoría de los Arquitectos de almacenamiento de Exchange: 150 KB por elemento de correo. Después realizamos un filtro secundario en el Recuento del buzón y solo tuvimos en cuenta Bases de datos de buzones de correo de nuestras recopilaciones de datos con 100 buzones activos o más para crear las medias que siguen. Hecho esto, quitamos el 10% de las operaciones de reorganización de mejor rendimiento y el 10% de las operaciones de reorganización de peor rendimiento de nuestra recopilación para derivar las medias usadas en la creación de los gráficos y las tablas.

Nota: En los distintos gráficos y tablas que siguen, es evidente que faltan los Tamaños del buzón de medias de varios incrementos de intervalo. Estos datos no se pasaron por alto ni se omitieron a propósito, sino que la ausencia de datos estadísticos para ellos se debe a que no existen datos válidos en nuestras recopilaciones históricas. Dicho de otro modo, nunca hemos realizado operaciones de reorganización de Índice de contenido ni recopilado métricas posteriores a la reorganización para bases de datos con Tamaños del buzón de medias para el usuario final dentro de los siguientes intervalos:

  • 1700-1799 MB
  • 1800-1899 MB
  • 2000-2099 MB
  • 2100-2199 MB

Gráficos

Se presentarán cuatro Gráficos dinámicos de Excel que reflejan las características de rendimiento que hemos observado hasta la fecha basándonos en la recopilación filtrada que se ha expuesto anteriormente. El objetivo de estos gráficos dinámicos es ilustrar la relación existente entre las diferentes propiedades, ya que se dan en todo el Almacén del buzón (p. ej. en el recuento del buzón, en el recuento de elementos y en los tamaños de archivos EDB) y contrastarlos con las duraciones de rendimiento necesarias para completar el Rastreo completo en los Almacenes del buzón con características similares.

Gráfico 1

1

La vista del Gráfico-1 retrata específicamente la relación entre los Recuentos del buzón por base de datos, el tamaño relativo de las Bases de datos de buzones de correo en gigabytes y qué impacto tiene esto en última instancia en la duración total de finalización de la reorganización de índices de contenido de los Almacenes del buzón en minutos.

Este gráfico explica claramente que, a medida que el número total de buzones activos de una base de datos de buzones de correo de Exchange aumenta, también tenderá a haber una relación paralela de aumentos en el tamaño del archivo EDB del subsistema de almacenamiento. Como consecuencia, esta relación afecta a la duración total del Rastreo completo de un Índice de contenido. Esta es solo una manera artificiosa de decir que: normalmente, a más buzones activos, más elementos de correo; a más elementos de correo, mayor tamaño de archivos EDB en disco; a mayor tamaño de archivos EDB en disco, más tardará habitualmente la reorganización de un Índice de contenido. La única situación en la que esta hipótesis nunca se cumple es en el caso de una base de datos de buzones de correo que ha tenido gran cantidad de espacio en blanco en el archivo. En ese caso, el tiempo total para la finalización de una reorganización de Índice de contenido será mucho menor de lo previsto. Tal situación de anomalía se ha dado dentro de los entornos que admitimos, pero las estadísticas derivadas se quitaron de nuestra recopilación aprovechando la técnica de filtrado mencionada anteriormente.

Gráfico 2

2

El Gráfico 2 ilustra la relación existente entre el Tamaño medio del buzón (para buzones de bases de datos del mismo conjunto de muestra filtrado) y qué impacto tiene en el rendimiento de la reorganización de índices de contenido en el nivel de la base de datos de buzones de correo en Segundos por buzón.

Este gráfico básicamente replantea el argumento presentado en el Gráfico1, si bien es cierto que en el nivel del buzón activo. Especialmente a medida que aumentan las medias de tamaño del buzón activo, también lo hace la cantidad media de elementos de correo de esos buzones. Por lo general, a más elementos de correo dentro de un buzón, más tardará el Indizador de búsqueda en completar el rastreo de un buzón concreto, lo que afecta a la duración del Rastreo completopara todos los buzones de la base de datos.

Gráfico 3

3

El Gráfico-3 ilustra la relación existente entre el Tamaño medio del buzón (para buzones de bases de datos del mismo conjunto de muestra filtrado) y qué impacto tiene en el rendimiento de la reorganización de índices de contenido en Megabytes por segundo.

El Gráfico-3 se basa en la hipótesis inicial a la que se hizo alusión en el Gráfico-2. En concreto, muestra que a medida que el Tamaño medio del buzón y los Recuentos medios de elementos de una base de datos de buzones de correo aumentan, hay una relación negativa respecto del rendimiento del Indizador de búsqueda. El Gráfico-3 muestra esta relación en megabytes por segundo.

Gráfico 4

4

El Gráfico-4 ilustra la relación existente entre el Tamaño medio del buzón (para buzones de bases de datos del mismo conjunto de muestra filtrado) y qué impacto tiene en el rendimiento de la reorganización de índices de contenido en Elementos por segundo (basándose en el Tamaño medio del mensaje de 150KB).:

Al igual que con el Gráfico-3, el Gráfico-4 muestra el impacto de rendimiento negativo respecto del rendimiento en Elementos por segundo.

Tabla de medias observadas

Para presentar la tabla usamos el mismo conjunto filtrado (descrito anteriormente y presentado en los gráficos), pero optamos por crear medias centradas basadas en el Tamaño medio del buzón. Como consecuencia, estas filas se delinean como filas independientes en incrementos de 99 megabytes. La característica de rendimiento para cada fila representa medias agregadas para todas las bases de datos de tamaño similar que completaron operaciones de reorganización en nuestra recopilación. Especialmente donde el Tamaño medio del mensaje era de 150KB y el Tamaño medio del buzón de todos los buzones activos de aquellas bases de datos estaba dentro de los intervalos definidos en la Columna-A.

5

Las medias históricas presentadas en esta tabla (a mí, al menos) producen tres maneras potenciales de estimar los tiempos de reorganización de Índices de contenido:

  • Una "Media histórica" podría implementarse basándose en el Tamaño medio del buzón en el que el Tamaño medio del mensaje para los elementos de esos buzones sea 150KB. Como tenemos grandes cantidades de datos de reorganización históricos en nuestra recopilación, optamos por sacar provecho de esta media. Realizamos nuestra estimación determinando el valor del Tamaño medio del buzón con una métrica de "pre-reorganización" y la comparamos a la media histórica. Entonces tomamos la media compuesta para la Reorganización: segundos por buzóny multiplicamos esa cifra por el número de buzones de la base de datos que necesitan un rastreo para determinar la duración total del proceso.
  • Una “Media organizacional” también podría establecerse basándose en el Tamaño medio del mensajeindependientemente del número de elementos y del tamaño medio de los buzones en toda la organización (esa Media organizacional se facilita en la Fila de medias expuesta anteriormente).
  • Una media compuesta de media histórica y media organizacional.

Por ejemplo, si tenemos un Índice de contenido que necesita reorganizarse para una base de datos cuyos usuarios tienen un Tamaño medio de buzón agregado en el intervalo de 500-599 MB y dando por hecho que el Tamaño medio de mensaje es de 150KB, si esa base de datos tiene 200, podríamos derivar la estimación de una de las tres maneras siguientes posibles:

La tabla de medias históricas:

200 buzones* 63 segundos = 12.600 segundos en total. Esto es equiparable a 210 minutos o alrededor de 3,5 horas para completar el Rastreo completo.

La “Media organizacional”:

200 buzones * 108 segundos = 21.600 segundos en total. Esto es equiparable a 360 minutos o alrededor de 6,0 horas para completar el Rastreo completo.

Media compuesta (media de “histórica” + “organizacional”):

3,5 + 6,0 = 9,5 horas

9,5 / 2 = 4,75 horas

Conclusión

El tiempo total que lleva reorganizar un Índice de contenido siempre será variable porque las poblaciones de correo y los elementos que hay en ellas son siempre variables también. Al reorganizar Índices de contenido, las estimaciones más exactas y sólidas siempre resultarán de sacar provecho de medias históricas. También querría mencionar que cuando decido, o decidimos, reorganizar Índices de contenido internamente en MSFT, hacemos todo lo posible para programarlos para intervalos de tiempo “con menor impacto en el usuario”. En cualquier caso, nuestras implementaciones son globales, así que es casi imposible eliminar por completo el impacto en el usuario. En el mejor de los casos, puede esperar minimizar el impacto en el área de superficie. Es más, en nuestras recopilaciones de datos no contemplamos como factor los Retardos límite del indizador de búsqueda. Cualquier Retardo límite de la reorganización del indizador de búsqueda se maneja y se entiende en el momento y son representativos en los vales individuales a medida que se presentan en las operaciones. Sacando provecho de las técnicas de filtrado incluidas en esta entrada aísla las cifras de las medias negativas (lo mismo ocurre con las operaciones de reorganización de “rendimiento demasiado alto”), lo que hace que las estimaciones generales sean considerablemente más exactas.

Si es el tipo de persona propensa a hacer apuestas con las medias, le recomiendo nuestra tabla. Si se necesita una ciencia más exacta, sugeriría implementar un marco como el que se describe en esta serie de entradas.

Esperamos que la información le sea útil, y lo que es más, que haya aprendido algo nuevo por el camino.

¡Buen viaje!

Eric Norberg
Ingeniero de servicios
de Office 365

Esta entrada de blog es una traducción. Encontrará el artículo original en Establishing Exchange Content Index Rebuild Baselines – Part 3