Морфологический поиск
Коллеги,
Меня часто спрашивают про новый поиск в SharePoint 2007. Поддерживается ли морфология. Наконец-то, я смог найти в корпорации людей, сведущих в этом вопросе и они порадовали меня! МОРФОЛОГИЧЕСКИЙ ПОИСК в SharePoint 2007 есть и называтся word breakers and stemming! Более того, я смог найти небольшие упоминание про эту возможность на technet. Вот несколько ссылок
http://technet2.microsoft.com/Office/en-us/library/22d5dc9c-66bd-40d7-8c60-2a2a066db2241033.mspx?mfr=true
http://blogs.msdn.com/miketag/archive/2006/12/21/moss-search-word-stemming-part-1.aspx
http://blogs.msdn.com/miketag/archive/2006/12/27/moss-search-word-stemming-part-2.aspx
По сути этот механизм нормализует слова. Так, английские "run", "ran", "running", "runs" приводятся к аналогу инфинитива или какой-то другой нормальной формы.
Теперь как настроить:
Все, что нужно сделать - это в параметрах web-part Search Core Result поставить одну галочку Enable Search Terms Stemming

Ниже несколько примеров поиска.
Я создал файл 4.txt со следующим содержанием
knew
understood
felt
loving
После индерксирования я сделал запросы "feel", "know", "love", "understand". Результаты показаны ниже.


Теперь для каких языков это работает и будет ли поддержка РУССКОГО языка.
1. Работать будет только для тех языков, где морфология существенна. Русский язык как раз относится к языкам с глубокой морфологией
2. Русский поддерживаться должен (протестировать я пока не смог, т.к. нет доступа к русскому MOSS 2007) согласно табличке на http://technet2.microsoft.com/Office/en-us/library/22d5dc9c-66bd-40d7-8c60-2a2a066db2241033.mspx?mfr=true
The following table lists the languages for which Office SharePoint Server 2007 provides word breakers and stemmers:
|
Arabic |
Hindi |
Portuguese Portugal |
|
Bengali |
Hungarian |
Punjabi |
|
Bulgarian |
Icelandic |
Romanian |
|
Catalan |
Indonesian |
Russian |
|
CHS |
Italian |
Serbian Cyrillic |
|
CHT |
Japanese |
Serbian Latin |
|
Croatian |
Kannada |
Slovak |
|
Czech |
Korean |
Slovenian |
|
Danish |
Latvian |
Spanish |
|
Dutch |
Lithuanian |
Swedish |
|
English |
Malay |
Tamil |
|
Finnish |
Malayalam |
Telugu |
|
French |
Marathi |
Thai |
|
German |
Neutral |
Turkish |
|
Greek |
Norwegian |
Ukrainian |
|
Gujarati |
Polish |
Urdu |
|
Hebrew |
Portuguese Brazil |
Vietnamese |