Коллеги,
Меня часто спрашивают про новый поиск в SharePoint 2007. Поддерживается ли морфология. Наконец-то, я смог найти в корпорации людей, сведущих в этом вопросе и они порадовали меня! МОРФОЛОГИЧЕСКИЙ ПОИСК в SharePoint 2007 есть и называтся word breakers and stemming! Более того, я смог найти небольшие упоминание про эту возможность на technet. Вот несколько ссылок
http://technet2.microsoft.com/Office/en-us/library/22d5dc9c-66bd-40d7-8c60-2a2a066db2241033.mspx?mfr=true
http://blogs.msdn.com/miketag/archive/2006/12/21/moss-search-word-stemming-part-1.aspx
http://blogs.msdn.com/miketag/archive/2006/12/27/moss-search-word-stemming-part-2.aspx
По сути этот механизм нормализует слова. Так, английские "run", "ran", "running", "runs" приводятся к аналогу инфинитива или какой-то другой нормальной формы.
Теперь как настроить:
Все, что нужно сделать - это в параметрах web-part Search Core Result поставить одну галочку Enable Search Terms Stemming
Ниже несколько примеров поиска.
Я создал файл 4.txt со следующим содержанием
knewunderstoodfeltloving
После индерксирования я сделал запросы "feel", "know", "love", "understand". Результаты показаны ниже.
Теперь для каких языков это работает и будет ли поддержка РУССКОГО языка.
1. Работать будет только для тех языков, где морфология существенна. Русский язык как раз относится к языкам с глубокой морфологией
2. Русский поддерживаться должен (протестировать я пока не смог, т.к. нет доступа к русскому MOSS 2007) согласно табличке на http://technet2.microsoft.com/Office/en-us/library/22d5dc9c-66bd-40d7-8c60-2a2a066db2241033.mspx?mfr=true
The following table lists the languages for which Office SharePoint Server 2007 provides word breakers and stemmers:
Arabic
Hindi
Portuguese Portugal
Bengali
Hungarian
Punjabi
Bulgarian
Icelandic
Romanian
Catalan
Indonesian
Russian
CHS
Italian
Serbian Cyrillic
CHT
Japanese
Serbian Latin
Croatian
Kannada
Slovak
Czech
Korean
Slovenian
Danish
Latvian
Spanish
Dutch
Lithuanian
Swedish
English
Malay
Tamil
Finnish
Malayalam
Telugu
French
Marathi
Thai
German
Neutral
Turkish
Greek
Norwegian
Ukrainian
Gujarati
Polish
Urdu
Hebrew
Portuguese Brazil
Vietnamese