Коллеги,

 Меня часто спрашивают про новый поиск в SharePoint 2007. Поддерживается ли морфология. Наконец-то, я смог найти в корпорации людей, сведущих в этом вопросе и они порадовали меня! МОРФОЛОГИЧЕСКИЙ ПОИСК в SharePoint 2007 есть и называтся word breakers and stemming! Более того, я смог найти небольшие упоминание про эту возможность на technet. Вот несколько ссылок

http://technet2.microsoft.com/Office/en-us/library/22d5dc9c-66bd-40d7-8c60-2a2a066db2241033.mspx?mfr=true

http://blogs.msdn.com/miketag/archive/2006/12/21/moss-search-word-stemming-part-1.aspx

http://blogs.msdn.com/miketag/archive/2006/12/27/moss-search-word-stemming-part-2.aspx

По сути этот механизм нормализует слова. Так, английские "run", "ran", "running", "runs" приводятся к аналогу инфинитива или какой-то другой нормальной формы.

 Теперь как настроить:

Все, что нужно сделать - это в параметрах web-part Search Core Result поставить одну галочку Enable Search Terms Stemming

 

Ниже несколько примеров поиска.

Я создал файл 4.txt со следующим содержанием

knew
understood
felt
loving

 После индерксирования я сделал запросы "feel", "know", "love", "understand". Результаты показаны ниже.

 

 

 

 

 

Теперь для каких языков это работает и будет ли поддержка РУССКОГО языка.

1. Работать будет только для тех языков, где морфология существенна. Русский язык как раз относится к языкам с глубокой морфологией

2. Русский поддерживаться должен (протестировать я пока не смог, т.к. нет доступа к русскому MOSS 2007) согласно табличке на http://technet2.microsoft.com/Office/en-us/library/22d5dc9c-66bd-40d7-8c60-2a2a066db2241033.mspx?mfr=true

The following table lists the languages for which Office SharePoint Server 2007 provides word breakers and stemmers:

Language Language Language

Arabic

Hindi

Portuguese Portugal

Bengali

Hungarian

Punjabi

Bulgarian

Icelandic

Romanian

Catalan

Indonesian

Russian

CHS

Italian

Serbian Cyrillic

CHT

Japanese

Serbian Latin

Croatian

Kannada

Slovak

Czech

Korean

Slovenian

Danish

Latvian

Spanish

Dutch

Lithuanian

Swedish

English

Malay

Tamil

Finnish

Malayalam

Telugu

French

Marathi

Thai

German

Neutral

Turkish

Greek

Norwegian

Ukrainian

Gujarati

Polish

Urdu

Hebrew

Portuguese Brazil

Vietnamese