Estabelecendo as linhas de base de compilação do índice de conteúdo do Exchange – Parte 3

Artigo original publicado na segunda-feira, 02 de julho de 2012

Na parte 1 desta série, eu expliquei o script E2K7_IndexRebuildAnalyzer.ps1e na parte 2, discuti a Estrutura de recompilação de pesquisa que Anatoly Girko e eu desenvolvemos. Antes de concluir esta série, eu queria fornecer uma série de gráficos, assim como uma tabela de "médias observadas" que ilutstra as características de recompilação que observamos desde a criação da estrutura. Espero que isso possibilite uma melhor conceitualização, assim como capacite vocês a fazerem melhores estimativas ao calcular suas próprias taxas de recompilação.

Médias observadas até o momento dentro da Microsoft

Anatoly e eu discutimos muito sobre como apresentar isso. Como você pode imaginar, existe um número infinito de possibilidades para a apresentação. Decidimos mirar os gráficos e a tabela no tamanho da mensagem que a maioria dos Arquitetos de Armazenamentos do Exchange estão projetados: 150 KB por item de correio. Realizamos um filtro secundário na Contagem de caixa de correio e levamos em conta apenas Bancos de dados de caixa de correio dentro de nossos conjuntos de dados que tinham 100 ou mais caixas de correio ativas para compilar as médias. Ao concluir, removemos 10% do melhor desempenho e 10% do pior desempenho das operações de recompilação dentro do nosso conjunto para derivar as médias usadas para compilar os gráficos e as tabelas.

Nota: Nos vários gráficos e na tabela a seguir, Tamanhos médios da caixa de correio em vários incrementos de intervalo estão ausentes. Este dado não foi ignorado ou omitido propositalmente. A ausência de dados estatísticos destes intervalos é devida ao fato que não existe nenhum dado válido em nossos conjuntos históricos. Coloque outra forma que nunca realizamos as operações de recompilação do Índice de conteúdo realizado e/ou métricas de Pós-recompilação coletadas de bancos de dados onde os Tamanhos Médios da Caixa de correio das caixas de correio do usuário final estejam nos seguintes intervalos:

  • 1700-1799 MB
  • 1800-1899 MB
  • 2000-2099 MB
  • 2100-2199 MB

Gráficos

Iremos apresentar quatro Gráficos Pivô do Excel que refletem as características do resultado que observamos até o momento com base no conjunto filtrado descrito acima. Estes Gráficos Pivô são destinados a ilustrar o relacionamento que existe entre várias propriedades, conforme ocorrem dentro e ao redor do Repositório de Caixa de correio (por exemplo, contagem de caixa de correio, contagem de item e tamanhos de arquivo EDB) e contratar com o histórico dos tempos de resultado necessários para concluir o Rastreamento Completo nos Repositórios de Caixa de correio com características semelhantes.

Gráfico 1

1

Para exibir o conteúdo do Gráfico 1 especificamente, apesar do relacionamento entre Contagens de caixa de correio por banco de dados, o tamanho relativo dos Bancos de dados de caixa de correio em gigabytes e como isto impacta o tempo total para concluir a recompilação do Índice de conteúdo dos Repositórios de caixa de correio em minutos.

Este gráfico realiza um argumento claro de que o aumento do número total de caixas de correio ativas no Banco de dados de Caixa de correio do Exchange também terão tendência a ser um relacionamento paralelo para aumentar o tamanho do arquivo EDB no subsistema de armazenamento. Este relacionamento subsequentemente possui um impacto no tempo geral para concluir um Rastreamento completo de um índice de conteúdo. Isto é realmente apenas uma forma elegante de dizer que: com mais caixas de correio ativas, geralmente vem mais itens de correio; com mais itens de correio vem tamanhos de arquivos EDB maiores no disco; maior um tamanho de arquivo EDB no disco, mais tempo "geralmente" levará para recompilar um Índice de conteúdo. A única situação onde esta hipótese nunca será verdadeira é no caso de um Banco de dados de Caixa de correio que possui uma grande quantidade de espaço em branco presente no arquivo. Em tal caso, o tempo geral para concluir uma recompilação do Índice de Conteúdo será muito mais rápido do que o esperado. Esta situação anormal ocorreu dentro de ambientes que suportamos, mas as estatísticas foram removidas do nosso conjunto ao nivelar a técnica de filtragem discutida acima.

Gráfico 2

2

Gráfico 2 representa a relação existente entre o Tamanho médio de caixa de correio (para caixas de correio existentes em bancos de dados contidos dentro do mesmo conjunto de amostra filtrado) e como impacta o resultado da recompilação do Índice de Conteúdo a nível do Banco de dados de Caixa de correio em Segundos por/caixa de correio.

Este gráfico essencialmente declara o argumento apresentado no Gráfico 1 embora o nível de caixa de correio ativa. Especificamente, conforme as médias de tamanho da caixa de correio ativa aumenta, também aumenta o número de itens de email dentro destas caixas de correio. Em média, quanto mais itens de email dentro de uma caixa de correio, mais tempo levará para o Indexador de Pesquisa concluir o rastreamento em uma determinada caixa de correio, que por sua vez, impacta quanto tempo levará para concluir o Rastreamento completo de todas as caixas de correio dentro do banco de dados.

Gráfico 3

3

Gráfico 3 representa a relação existente entre o Tamanho médio de caixa de correio (para caixas de correio existentes em bancos de dados contidos dentro do mesmo conjunto de amostra filtrado) e como impacta o resultado da recompilação do Índice de conteúdo em Megabytes por/segundo.

Gráfico 3 compila a hipótese inicial mencionada no Gráfico 2. Especificamente, mostra que conforme o Tamanho médio da caixa de correio e a Contagem média de item dentro de um Banco de dados de caixa de correio aumenta, há uma relação negativa entre o resultado do Indexador de Pesquisa. O Gráfico 3 mostra essa relação em megabytes por segundo.

Gráfico 4

4

Gráfico 4 representa a relação existente entre o Tamanho médio de caixa de correio (para caixas de correio existentes em bancos de dados contidos dentro do mesmo conjunto de amostra filtrado) e como impacta o resultado da recompilação do Índice de conteúdo em Itens por segundo ( com base no Tamanho médio da mensagem de 150 KB) :

Como foi o caso com o Gráfico 3, o Gráfico 4 mostra o impacto de desempenho negativo em relação ao resultado em Itens por/segundo.

Tabela de médias observadas

Para apresentar a tabela, utilizamos o mesmo conjunto filtrado (descrito acima e apresentado nos gráficos), mas decidimos criar médias focalizadas com base no Tamanho médio da caixa de correio. Estas linhas são delineadas subsequentemente como linhas independentes em aumentos de 99 megabytes. A característica do resultado de cada linha representa a média agregada para todos os bancos de dados dimensionados semelhantemente que concluíram as operações de recompilação em nosso conjunto. Especificamente, onde o Tamanho médio da mensagem era de 150 KB e o Tamanho médio da caixa de correio para todas as caixas de correio ativas nestes bancos de dados estavam dentro dos intervalos definidos pela Coluna A.

5

O histórico de médias apresentado nesta tabela (pelo menos para mim) produz três formas potenciais de estimar o tempo de recompilação do Índice de conteúdo:

  • Um “Histórico de médias” pode ser implementado com base no Tamanho médio da caixa de correio, onde o Tamanho médio da mensagem para os itens residindo naquelas caixas de correio é de 150 KB.Como temos grandes quantidades de dados de histórico de recompilação em nosso conjunto, escolhemos nivelar esta média. Derivamos nossa estimativa determinando o valor do Tamanho médio da caixa de correio através das métricas "pré-compilação" e comparar com o histórico de média. Pegamos a média composta para Recompilar: Segundos por/caixa de correioe multiplicar esse número pelas caixas de correio no banco de dados que exigem o rastreamento para determinar o tempo total necessário para concluir.
  • Um “Média organizacional” também pode ser estabelecida com base no Tamanho médio da mensagem, independente do número de itens e tamanho médio das caixas de correio na organização que a Média organizacional é fornecida na Linha Médias acima).
  • Um conjunto médio entre o histórico de média e a média organizacional.

Por exemplo, se tenho um Índice de Conteúdo que precisa ser recompilado para um banco de dados cujos usuários possuem um Tamanho médio da caixa de correio agregado no intervalo de 500-599 MB e assumindo que o Tamanho médio da mensagem é de 150 KB, se este banco de dados possuir 200 usuários, eu posso derivar a estimativa em uma das três formas:

A Tabela de Histórico de Médias:

200 caixas de correio * 63 segundos = 12.600 segundos total. Isto é igual a 210 ou 3,5 horas para concluir o Rastreamento completo.

A “Média Organizacional”:

200 caixas de correio * 108 segundos = 21.600 segundos total. Isto é igual a 360 minutos ou 6 horas para concluir o Rastreamento completo.

Média composta (Média do “Histórico” + “Organizacional”) :

3,5 + 6,0 = 9,5 horas

9,5 / 2 = 4,75 horas

Conclusão

O tempo total que leva para recompilar um Índice de Conteúdo sempre será variável porque as populações de email e itens também são variáveis. Ao recompilar os Índices de Conteúdo, as estimativas mais precisas e robustas sempre virão do nivelamento das médias do histórico. Eu também desejo mencionar que quando eu/nós tomamos decisões para recompilar o Índice de Conteúdo internamente na MSFT, fazemos o melhor para programar para intervalos de tempo com "menor impacto no usuário". No entanto, nossas implementações são globais, portanto é mais ou menos impossível eliminar totalmente o impacto no usuário final. O melhor que podemos esperar é minimizar o impacto superficialmente. Além disso, dentro de nossos conjuntos de dados não temos um fator nos Atrasos da Aceleração do Indexador de Pesquisa. Todo e qualquer Atraso de Aceleração de Recompilação do Indexador de Pesquisa são abordadas e compreendidas dentro do momento e são representativas dentro dos tíquetes individuais conforme são apresentadas para as operações. Nivelando nossas técnicas de filtragem usadas nesta publicação, você isola seus números destas médias negativas (o mesmo é verdadeiro para operações de recompilação "com alto resultado"), tornando suas estimativas gerais consideravelmente mais precisas.

Se você é o tipo de pessoa propensa a apostar com médias, eu defendo nosso lado totalmente. Se uma ciência mais exata é necessária, eu gostaria de sugerir a implementação de uma estrutura como a descrita nesta série de publicações.

Esperamos que você ache esta série de publicações disponíveis e, ainda mais, tenha aprendido algo durante a jornada!

Felicidades!

Eric Norberg
Engenheiro de Serviço
Exclusivo do Office 365

Esta é uma publicação de blog traduzida. O artigo original está localizado em Establishing Exchange Content Index Rebuild Baselines – Part 3