최초 문서 게시일: 2012년 7월 2일 월요일

이 시리즈의 1부에서는 E2K7_IndexRebuildAnalyzer.ps1 스크립트(영문일 수 있음)에 대해 설명했으며, 2부에서는 Anatoly Girko와 제가 개발한 검색 다시 작성 프레임워크에 대해 설명했습니다. 이제 이 프레임워크의 사용 초기부터 확인된 다시 작성 특성을 보여주는 "확인된 평균" 표와 일련의 그래프를 제공하는 것으로 이 시리즈를 마감하고자 합니다. 이 정보를 통해 다시 작성 속도를 직접 계산할 때보다 정확한 값을 예측하고 다시 작성에 대한 개념을 효유율적으로 파악하는 데 도움이 되시기를 바랍니다.

Microsoft 내에서 현재까지 확인된 평균

Anatoly와 저는 이 정보를 가장 효율적으로 제공하는 여러 가지 방법을 고려해 보았습니다. 아시다시피 정보를 표시하는 방법은 너무나 많으니까요. 그리고 최종적으로는 그래프와 테이블의 범위를 대부분의 Exchange 저장소 설계자들이 설계하는 메시지 크기인 메일 항목당 150KB로 결정했습니다. 그런 다음 사서함 수에 대해 두 번째 필터링을 수행하여 데이터 컬렉션 내에서 활성 사서함 수가 100개 이상인 사서함 데이터베이스만을 고려해 아래의 평균을 작성했습니다. 평균 작성이 완료된 후에는 성능이 상위 및 하위 10%에 속하는 다시 작성 작업을 컬렉션에서 제거하여 그래프 및 테이블 작성에 사용되는 평균값을 파생시켰습니다.

참고: 다수의 그래프와 테이블에서는 여러 범위 단위의 평균 사서함 크기가 빠져 있습니다. 이 데이터는 누락되거나 의도적으로 생략된 것이 아닙니다. 이러한 범위의 통계 데이터가 빠진 것은 내부 기록 컬렉션에 유효한 데이터가 없었기 때문입니다. 즉, 최종 사용자 사서함에 대한 평균 사서함 크기가 다음 범위에 속하는 데이터베이스에 대해서는 콘텐츠 인덱스 다시 작성 작업을 수행하거나 다시 작성 후 메트릭을 수집하지 않았습니다.

  • 1700-1,799 MB
  • 1800-1,899 MB
  • 2000-2,099 MB
  • 2100-2199MB

그래프

위에서 설명한 필터링된 컬렉션을 기준으로 하여 현재까지 확인한 처리량 특성을 반영하는 Excel 피벗 차트 4개가 제공됩니다. 이러한 피벗 차트에서는 사서함 저장소 안팎에서 다양한 속성 간에 존재하는 관계(예: 사서함 수, 항목 수, EDB 파일 크기)를 보여 주고, 해당 데이터를 유사한 특성의 사서함 저장소에 대해 전체 크롤링을 완료하는 데 걸리는 처리 시간 기록과 비교합니다.

그래프 1

1

그래프 1에 포함된 보기는 데이터베이스당 사서함 수, 사서함 데이터베이스의 상대 크기(GB), 그리고 이러한 요소가 사서함 저장소의 콘텐츠 인덱스 다시 작성을 완료하는 데 걸리는 총 시간(분)에 궁극적으로 미치는 영향 간의 관계를 구체적으로 보여 줍니다.

이 그래프는 Exchange 사서함 데이터베이스의 총 활성 사서함 수가 증가하면 저장소 하위 시스템의 EDB 파일 크기도 증가하는 평행 관계 추세가 나타남을 명확하게 보여 줍니다. 이 관계는 이후 콘텐츠 인덱스의 전체 크롤링을 완료하는 데 걸리는 전체 시간에 영향을 줍니다. 이 그래프를 통해 활성 사서함이 많아질수록 대개 메일 항목 수가 증가하고, 메일 항목 수가 증가하면 디스크의 EDB 파일 크기가 커지며, 디스크의 EDB 파일 크기가 커지면 "일반적으로" 콘텐츠 인덱스를 다시 작성하는 데 시간이 더 오래 걸린다는 결론을 내릴 수 있습니다. 이 가설이 성립하지 않는 경우는 파일에 공백이 많은 사서함 데이터베이스의 경우뿐입니다. 이러한 경우에는 콘텐츠 인덱스 다시 작성을 완료하는 데 걸리는 전체 시간이 예상보다 크게 단축됩니다. 이러한 이례적인 상황은 Microsoft에서 지원하는 환경 내에서도 확인되었지만, 후속 통계는 위에서 설명한 필터링 기술을 사용하여 컬렉션에서 제거되었습니다.

그래프 2

2

그래프 2에는 필터링된 동일 예제 집합 내에 포함된 데이터베이스에 있는 사서함에 대한 평균 사서함 크기와 이 크기가 사서함 데이터베이스 수준에서 콘텐츠 인덱스 다시 작성 처리량에 주는 영향(사서함당 시간(초) 단위) 간의 관계를 보여 줍니다.

이 그래프 역시 그래프 1에서 제시되었던 내용을 활성 사서함 수준에서 다시 보여 줍니다. 구체적으로 설명하자면, 활성 사서함 크기 평균이 증가하면 해당 사서함 내에 있는 메일 항목의 평균 수도 증가합니다. 평균적으로 사서함 내에 메일 항목이 많을수록 Search Indexer가 지정된 사서함에 대해 크롤링을 완료하는 데 시간이 더 오래 걸리며, 이는 데이터베이스 내의 모든 사서함에 대해 전체 크롤링을 완료하는 데 걸리는 시간에 영향을 줍니다.

그래프 3

3

그래프 3은 필터링된 동일 예제 집합 내에 포함된 데이터베이스에 있는 사서함에 대한 평균 사서함 크기와 이 크기가 콘텐츠 인덱스 다시 작성 처리량에 주는 영향(초당 MB 단위) 간의 관계를 보여 줍니다.

그래프 3그래프 2에서 제시된 초기 가설을 기반으로 작성된 것입니다. 구체적으로는 사서함 데이터베이스 내의 평균 사서함 크기평균 항목 수가 증가하면 Search Indexer 처리량은 떨어지는 반비례 관계를 보여 줍니다. 그래프 3에는 이 관계가 초당 MB 단위로 표시되어 있습니다.

그래프 4

4

그래프 4는 필터링된 동일 예제 집합 내에 포함된 데이터베이스에 있는 사서함에 대한 평균 사서함 크기와 이 크기가 콘텐츠 인덱스 다시 작성 처리량에 주는 영향(초당 항목 수 단위) 간의 관계를 평균 메시지 크기 150KB를 기준으로 보여 줍니다.

그래프 3에서와 마찬가지로 그래프 4에서도 초당 항목 수가 처리량과 관련하여 성능을 저하시킴을 보여 줍니다.

확인된 평균 표

아래 표에서도 위에서 설명했으며 그래프에 나와 있는 것과 같은 필터링된 집합을 사용했지만, 여기서는 평균 사서함 크기를 중심으로 하는 평균값을 작성했습니다. 표의 행은 값이 99MB씩 증가하는 독립적인 행으로 순차 나열되어 있습니다. 각 행의 처리량 특성은 저희가 사용한 컬렉션에서 다시 작성 작업이 완료되었으며 크기가 모두 비슷한 데이터베이스의 집계 평균을 나타냅니다. 구체적으로는 평균 메시지 크기가 150KB였고 데이터베이스의 모든 활성 사서함에 대한 평균 사서함 크기는 열 A에 정의된 범위 내에 포함되었습니다.

5

이 표에 나와 있는 기록 평균을 통해 콘텐츠 인덱스 다시 작성 시간을 예측하는 데 사용할 수 있는 세 가지 방법을 확인할 수 있습니다(일단 저는 확인할 수 있었습니다).

  • "기록 평균"은 평균 사서함 크기(Average Mailbox Size)를 기준으로 구현할 수 있으며, 여기서 해당 사서함 내에 있는 항목의 평균 메시지 크기(Average Message Size)는 150KB입니다. 여기서 사용하는 컬렉션에는 기록 다시 작성 데이터가 많으므로 이 평균을 사용하기로 했습니다. "다시 작성 전" 메트릭을 통해 평균 사서함 크기 값을 확인하여 예상치를 구한 다음 이 값을 기록 평균과 비교합니다. 그런 후에 다시 작성: 사서함당 시간(초)(Rebuild: Seconds per/Mailbox)의 복합 평균을 구하여 해당 값에 크롤링을 수행해야 하는 데이터베이스의 사서함 수를 곱하여 전체 크롤링을 완료하는 데 필요한 총 시간을 계산합니다.
  • "조직 평균" 역시 조직 전체의 평균 사서함 크기와 항목 수에 관계없이 평균 메시지 크기(Average Message Size)를 기준으로 설정할 수 있습니다. 위의 평균(Averages) 행에 조직 평균이 나와 있습니다.
  • 기록 평균과 조직 평균 간의 복합 평균을 사용합니다.

예를 들어 사용자의 평균 사서함 크기 집계 값이 500-599MB 범위에 속하는 데이터베이스에 대해 콘텐츠 인덱스를 다시 작성해야 하며 평균 메시지 크기가 150KB라고 가정할 때 데이터베이스의 사용자가 200명인 경우 다음의 세 가지 방식 중 하나로 전체 크롤링에 소요되는 예상 시간을 계산할 수 있습니다.

기록 평균 표:

200개 사서함 * 63초 = 총 12,600초 = 전체 크롤링을 완료하는 데 걸리는 시간 210분 또는 약 3.5시간

"조직 평균":

200개 사서함 * 108초 = 총 21,600초 = 전체 크롤링을 완료하는 데 걸리는 시간 360분 또는 약 6.0시간

복합 평균("기록" 평균과 "조직" 평균 값의 평균):

3.5 + 6.0 = 9.5시간

9.5 / 2 = 4.75시간

결론

콘텐츠 인덱스 내의 메일 수와 항목이 항상 변하므로 콘텐츠 인덱스를 다시 작성하는 데 걸리는 총 시간도 항상 변합니다. 콘텐츠 인덱스를 다시 작성할 때 가장 정확하고 효율적인 예상 값을 계산하려면 항상 기록 평균을 사용해야 합니다. 또한 MSFT에서 내부적으로 콘텐츠 인덱스 다시 작성을 결정할 때는 "사용자에게 영향이 가장 적은" 시간 간격으로 다시 작성 작업을 예약하기 위해 최선을 다합니다. 그러나 내부 구현은 전역적으로 적용되므로 최종 사용자에 대한 영향을 완전히 제거하기란 다소 어려울 수도 있습니다. 이 경우에는 표면적인 영향을 최소화하는 것이 최선입니다. 또한, 내부 데이터 컬렉션에서는 Search Indexer 제한 지연을 고려하지 않았습니다. 모든 Search Indexer 다시 작성 제한 지연은 다시 작성 중인 시간 내에서 처리 및 파악되었으며 작업에 제공되는 개별 티켓 내의 대표 값입니다. 이 게시물 전체에서 사용된 필터링 기술을 활용하면 이처럼 정확도를 떨어뜨리는 평균으로부터 계산된 값을 분리함으로써("처리량이 매우 높은" 다시 작성 작업의 경우에도 마찬가지임) 전체 예상 값의 정확도를 크게 높일 수 있습니다.

작업 시에 평균을 즐겨 사용하는 경우에는 위 표의 값을 참고하십시오. 보다 정확한 값이 필요하다면 이 게시물 시리즈 내에서 설명하는 것과 같은 프레임워크를 구현해 보시기 바랍니다.

이 게시물 시리즈가 유용했으며 원하는 정보를 얻으셨기를 바랍니다.

감사합니다.

Eric Norberg
서비스 엔지니어
Office 365 전담

이 문서는 번역된 블로그 게시물입니다. 원본 문서는 Establishing Exchange Content Index Rebuild Baselines - Part 3을 참조하십시오.