Tafiti ist ein exerimentaler, spannender Ansatz das Search User-Interface (in diesem Falle für Live.com mittels Silverlight) zu verändern, wir hatten schon darüber berichtet -- gestern wurde bekanntgegeben, dasss der Tafiti Source Code via CodePlex für Download, Modifizierungen und auch Reselling verfügbar ist. (MS-PL License)
Seit dem 18.12.07 ist das Microsoft Filter Pack verfügbar, welches die folgenden iFilters beinhaltet:
- Metro (.docx, .docm, .pptx, .pptm, .xlsx, .xlsm, .xlsb) - Zip (.zip) - OneNote (.one) - Visio (.vdx, .vsd, .vss, .vst, .vdx, .vsx, .vtx)
- Metro (.docx, .docm, .pptx, .pptm, .xlsx, .xlsm, .xlsb)
- Zip (.zip)
- OneNote (.one)
- Visio (.vdx, .vsd, .vss, .vst, .vdx, .vsx, .vtx)
Diese iFilters sind sowohl für x86 wie auch für x64 verfügbar und unterstützt die folgenden Produkte:
- Sharepoint Portal Server 2003 (SPS2003) - Microsoft Office Sharepoint Server 2007 (MOSS2007) - Microsoft Search Server 2007 (MSS) - Microsoft Search Server 2007 Express (MSSX) - Windows Sharepoint Services 2007 (WSSv3) - Exchange 2007 - SQL Server 2005 - SQL Server 2008 - Windows Desktop Search 3.01 - Windows Desktop Search 4
- Sharepoint Portal Server 2003 (SPS2003)
- Microsoft Office Sharepoint Server 2007 (MOSS2007)
- Microsoft Search Server 2007 (MSS)
- Microsoft Search Server 2007 Express (MSSX)
- Windows Sharepoint Services 2007 (WSSv3)
- Exchange 2007
- SQL Server 2005
- SQL Server 2008
- Windows Desktop Search 3.01
- Windows Desktop Search 4
Für alle "nicht-Microsoft iFilter"Den iFilter, welchen Microsoft leider nicht ausliefert, aber wohl jeder Kunde braucht, ist der PDF iFilter. Hier kenne ich zwei Varianten (für x64), die Adobe Labs Version oder Foxit. Ich persönlich bevorzuge den Foxit iFilter, welcher schneller ist (x64), weniger Ressourcen braucht und preistechnisch "vernüftig" ist (1 Server 4 Core = 500 USD) -- die Desktop-Version (x86) gibt es gratis. Foxit arbeitet zudem an einer IA64 Version. Hier sind beide Links, entscheiden Sie selber:
- http://www.foxitsoftware.com/pdf/ifilter/- http://labs.adobe.com/wiki/index.php/PDF_iFilter_8_-_64-bit_Support
auf alle Fälle sollten Sie das iFilter BLOG anschauen für weitere Infos, u.a. ist da auch sehr schön beschrieben, wie der Foxit X64 PDF Filter zu registrieren ist.
PingBack from http://geeklectures.info/2007/12/19/info-update-im-search-umfeld/
PERFORMANCE ANALYSIS OF 32-BIT FOXIT PDF IFILTER vs. ADOBE PDF IFILTER
Machine : Intel Xeon CPU @ 1.4 GHz (4 hyperthreaded processors)
4.00 GB of RAM
32-bit Win2K3 SP1
Indexer performance set to partly reduced.
FOXIT v1.0 ADOBE v.8
Total
# of pdf documents 10917 10917
# successful crawls 10871 10909
# errors 44 (expired ebooks etc) 0
# warnings 2 (corrupted doc) 2 (corrupted doc)
CRAWL TIME:
Portal Content 00:49:21.163 03:34:39.237
Anchor Crawl 1 00:02:03.527 00:02:39.073
Anchor Crawl 2 00:00:02.173 00:00:02.437
TOTAL Crawl Time 00:51:26.863 (~ 51 minutes) 03:38:00.747 (~ 218 minutes)
Analysis:
1. The FOXIT filter is 4.27 times faster than the Adobe filter on a quad proc machine. This is expected since the adobe filter is not truly multithreaded and serialized the threads.
2. The Adobe filter crawls some documents which ideally should not be crawled (expired ebooks etc).
INTL SUFFICIENCY ANALYSIS OF 32-BIT FOXIT PDF IFILTER vs. ADOBE PDF IFILTER
Both the adobe and FOXIT filters do not return the correct locale for non-english documents. Both of them always emits LOCALE = 1033 (en-us).Hence we pass them to the neutral wordbreaker and this compromises search relevance.
Tests were performed on JPN, CHS, FRE and HEB pdf documents using both the indexer and standalone test tools.
Language # Tokens MOSS returns result with FOXIT ? MOSS returns result with Adobe? Correct locale emitted by FOXIT? Correct locale emitted by Adobe?
JPN 2 No No No No
CHS 2 No No No No
FRE 2 Yes Yes No No
HEB 2 Yes Yes No No
Note that since French is syntactically very close to English, we still get back valid results. In case of the Hebrew documents, I’d say it’s a matter of coincidence that the token the language expert gave me was correctly wordbroken.