Schweizer IT Professional und TechNet Blog

Schweizer IT Professional und TechNet Blog

Info update im Search Umfeld

Info update im Search Umfeld

  • Comments 2
  • Likes

1. Tafiti

Tafiti ist ein exerimentaler, spannender Ansatz das Search User-Interface (in diesem Falle für Live.com mittels Silverlight) zu verändern, wir hatten schon darüber berichtet -- gestern wurde bekanntgegeben, dasss der Tafiti Source Code via CodePlex für Download, Modifizierungen und auch Reselling verfügbar ist. (MS-PL License)


 

2. Microsoft Filter Pack (iFilter)

Seit dem 18.12.07 ist das Microsoft Filter Pack verfügbar, welches die folgenden iFilters beinhaltet:

- Metro (.docx, .docm, .pptx, .pptm, .xlsx, .xlsm, .xlsb)

- Zip (.zip)

- OneNote (.one)

- Visio (.vdx, .vsd, .vss, .vst, .vdx, .vsx, .vtx)

Diese iFilters sind sowohl für x86 wie auch für x64 verfügbar und unterstützt die folgenden Produkte:

- Sharepoint Portal Server 2003 (SPS2003)

- Microsoft Office Sharepoint Server 2007 (MOSS2007)

- Microsoft Search Server 2007 (MSS)

- Microsoft Search Server 2007 Express (MSSX)

- Windows Sharepoint Services 2007 (WSSv3)

- Exchange 2007

- SQL Server 2005

- SQL Server 2008 

- Windows Desktop Search 3.01

- Windows Desktop Search 4

Das Filter Pack installiert diese iFilter auf der entsprechenden Maschine und registriert dort diese mit Windows Indexing Service. Je nach Server Search Produkt gibt es einen korrespondierende KB Artikel, welcher beschreibt, wie die gewünschten iFilters für dieses Produkt zu registrieren sind. In meinem Falle für MSSX bedeutet das zum Beispiel, das Eintragen von zusätzlichen Registry Keys.

Für alle "nicht-Microsoft iFilter"Den iFilter, welchen Microsoft leider nicht ausliefert, aber wohl jeder Kunde braucht, ist der PDF iFilter. Hier kenne ich zwei Varianten (für x64), die Adobe Labs Version oder Foxit. Ich persönlich bevorzuge den Foxit iFilter, welcher schneller ist (x64), weniger Ressourcen braucht und preistechnisch "vernüftig" ist (1 Server 4 Core = 500 USD) -- die Desktop-Version (x86) gibt es gratis. Foxit arbeitet zudem an einer IA64 Version. Hier sind beide Links, entscheiden Sie selber:

- http://www.foxitsoftware.com/pdf/ifilter/
- http://labs.adobe.com/wiki/index.php/PDF_iFilter_8_-_64-bit_Support

auf alle Fälle sollten Sie das iFilter BLOG anschauen für weitere Infos, u.a. ist da auch sehr schön beschrieben, wie der Foxit X64 PDF Filter zu registrieren ist.

Comments
  • PingBack from http://geeklectures.info/2007/12/19/info-update-im-search-umfeld/

  • PERFORMANCE ANALYSIS OF 32-BIT FOXIT PDF IFILTER vs. ADOBE PDF IFILTER

    Machine :   Intel Xeon CPU @ 1.4 GHz (4 hyperthreaded processors)

           4.00 GB of RAM

           32-bit Win2K3 SP1

           Indexer performance set to partly reduced.

    FOXIT v1.0 ADOBE v.8

    Total

    # of pdf documents 10917 10917

    # successful crawls 10871 10909

    # errors 44 (expired ebooks etc) 0

    # warnings 2 (corrupted doc) 2 (corrupted doc)

    CRAWL TIME:

           Portal Content 00:49:21.163 03:34:39.237

           Anchor Crawl 1 00:02:03.527 00:02:39.073

           Anchor Crawl 2 00:00:02.173 00:00:02.437

          TOTAL Crawl Time 00:51:26.863 (~ 51 minutes) 03:38:00.747 (~ 218 minutes)

    Analysis:

    1. The FOXIT filter is 4.27 times faster than the Adobe filter on a quad proc machine. This is expected since the adobe filter is not truly multithreaded and serialized the threads.

    2. The Adobe filter crawls some documents which ideally should not be crawled (expired ebooks etc).

    INTL SUFFICIENCY ANALYSIS OF 32-BIT FOXIT PDF IFILTER vs. ADOBE PDF IFILTER

    Both the adobe and FOXIT filters do not return the correct locale for non-english documents. Both of them always emits LOCALE = 1033 (en-us).Hence we pass them to the neutral wordbreaker and this compromises search relevance.

    Tests were performed on JPN, CHS, FRE and HEB pdf documents using both the indexer and standalone test tools.

    Language # Tokens MOSS returns result with FOXIT ? MOSS returns result with Adobe? Correct locale emitted by FOXIT? Correct locale emitted by Adobe?

    JPN 2 No No No No

    CHS 2 No No No No

    FRE 2 Yes Yes No No

    HEB 2 Yes Yes No No

    Note that since French is syntactically very close to English, we still get back valid results. In case of the Hebrew documents, I’d say it’s a matter of coincidence that the token the language expert gave me was correctly wordbroken.

Your comment has been posted.   Close
Thank you, your comment requires moderation so it may take a while to appear.   Close
Leave a Comment