Blogs

Машинный перевод интерфейса

  • Comments 11
  • Likes

Очередной раз в моей команде проводим эксперимент – используем систему машинного перевода для предварительного перевода пользовательского интерфейса на немецкий и японский языки.

В основе системы лежит разработка Microsoft Research, которая строит переводы на основе документации и других источников из наших продуктов. Насколько мне известно, мы первая команда, которая использует машинный перевод для перевода интерфейса приложений. Основная сложность состоит в том, что, в отличие от длинных предложений в документации, текст элементов интерфейса очень короткий и "обрывистый" – редко когда имеющий смысл в отрыве от контекста. Система машинного перевода уже несколько лет вполне успешно работает на сайте базы знаний, где любую техническую статью можно перевести на французский, немецкий, итальянский, японский, китайский или испанский языки. Это позволяет получить необходимую информацию на родном языке, даже если исходная статья еще не была переведена.

Для программного продукта использование машинного перевода позволяет сократить время и ресурсы, необходимые для выпуска локализованной версии. Помимо этого, улучшается однообразие терминологии и стиля.

 

За несколько минут перевели все приложение. И результаты, надо заметить, не такие уж плохие, конечно же, "нечеловеческий" текст получился, но вполне читабельный. Похоже, что система работает вполне прилично, и мы будем ее использовать и для других языков. К сожалению, для русского языка результаты пока не ахти какие, но в планах для следующей версии нашего продукта русского языка пока нет, может, в следующей версии удастся поработать с машинным переводом для русского языка.
Comments
  • Интересно, а есть ли в планах встраивание технологии в Windows не для перевода, но для верификации иностранного языка?

    Средства языковой верификации на протяжении многих лет остаются на банальном уровне. В то время как для non-natives очень важно иметь настоящего помощника, а не дурачка, который только и может сказать "исправьте это". Например, в английском языке следует помогать в установке/неустановке артиклей. В немецком - в установке артиклей надлежащего рода.

  • Я думаю, что для этого в Windows нет места :-), т.к. это средство будет наиболее полезно в текстовых процессорах (приложениях) и им подобным, Например, в Microsoft Office. Я слышал, что группа Natural Language Processing проводит исследования и разработку средства проверки орфографии и грамматики для носителей другого языка, например, проверка английского языка для русскоговорящих пользователей. Известно, что носители определенного языка, русского, например, допускают типовые ошибки при написании текстов на английском. Как вы правильно заметили, для нас артикли составляют определенную проблему, т.к. в русском языке их вообще нет.

    Средства проверки орфографии и грамматики содержат небольшую подсказку по правилам, используемым для проверки. Это, конечно, не решает проблему, но помогает разобраться, что каждое проверяемое правило значит.

  • "К сожалению, для русского языка результаты пока не ахти..."

    Уф-фф! Пронесло!

    :)

  • На самом деле все не так плохо: мы ни в коем случае не планируем выпускать продукт с "сырым" машинным переводом (raw machine-translation). Безусловно все, что переведено при помощи машинного перевода, проходит не один этап проверки и редактирования. На мой взгляд, это позволяет снизить потребность в чистом переводе и сфокусироваться на редактировании переводом, тем самым улучшить качество продукта.

    TechNet - это скорее исключение, где качество перевода не является первым приоритетом, которым является время на передачу информации, иными словами, как скоро информация на родном для пользователя языке будет ему доступна.

  • "TechNet - это скорее исключение, где качество перевода не является первым приоритетом, которым является время на передачу информации, иными словами, как скоро информация на родном для пользователя языке будет ему доступна."

    Эти слова как бальзам на душу. Жаль что их не читают мои рецензенты из MILS и sub... Нам ставят "но пассаран" за каждую лишнюю запятую и "неправильную" кавычку (круглую вместо "шевронов", например)...

    :(

    Это после того, как мы выдаем 60 тыс. слов труднейших статей о новейших технологиях за 7 дней.

  • Немножко оффтопик, но все же задам вопрос: скажите, пожалуйста, есть ли новая версия документа "International Word List" (http://msdn.microsoft.com/library/en-us/dnwue/html/RUS_word_list.htm)? Этой версии уже не знаю сколько лет (по-моему с 97-го года он не менялся) и давно всем нужен перевод новых интерфейсных элементов на русский язык. Может быть я просто не знаю, где он лежит? :)

  • Да, есть - около 9000 терминов на 45-ти языках.

    http://www.microsoft.com/globaldev/tools/MILSGlossary.mspx

    Спасибо за вопрос, напишу пост на эту тему.

  • Очень часто администраторы и специалисты технической поддержки сталкиваются с необходимостью перевести

  • Огромное спасибо! Вы не поверите, но никто из моих знакомых не знал, где найти этот словарь. Более того, мои коллеги - проектировщики интерфейсов тоже не могли найти его.

    Рекомендую на старой странице с "International Word List" поставить ссылку на новую.

    Помогло то, что я наконец вышел на непосредственного участника локализации продукта, то есть на Вас. Спасибо за то, что вы стали более открытыми!

  • а насчёт технического перевода статей - это как в итоге выглядит? можно пример?

  • Примеров для русского языка у меня нет, мы пока не готовы использовать машинный перевод для технической документации для русского языка. Результаты пока не очень, надо еще поработать над движком.

    А вот для других языков, пожалуйста, например вот эта статья (я ее выбрал совершенно случайно, можно еще поискать) доступна на нескольких языках благодаря машинному переводу:

    http://support.microsoft.com/kb/884012

Your comment has been posted.   Close
Thank you, your comment requires moderation so it may take a while to appear.   Close
Leave a Comment