-- Steve Clayton, Editor blog Next

Este post fue escrito por Rick Rashid, Jefe del Área de Investigación de Microsoft.

Una demostración que ofrecí en Tianjin, China en un evento de Cómputo de Asia en el Siglo XXI de Microsoft Research, ha comenzado a generar atención y quería compartir un poco de contexto sobre la historia de la tecnología de diálogo a diálogo y los avances que hemos visto en la actualidad.

En el mundo de las interfaces naturales de usuario, la más importante – y una de las más difíciles para las computadoras – es aquella del habla humana.

En los últimos 60 años, los científicos del cómputo han trabajado para construir sistemas que puedan entender lo que una persona dice cuando habla.

En un inicio, el enfoque utilizado puede ser descrito como simple acoplamiento de patrones. La computadora examinaría las ondas producidas por el habla humana y las intentaría acoplar a ondas que pudieran asociarse a palabras particulares.

Mientras que este enfoque funcionaba en ocasiones, este era muy frágil. Todas las voces son diferentes e incluso la misma persona puede decir la misma palabra de formas diferentes. Como resultado, estos sistemas iniciales no eran en verdad funcionales para aplicaciones prácticas.

A finales de los años setenta, un grupo de investigadores de la Universidad de Carnegie Mellon consiguieron un importante avance en reconocimiento de habla a través de una técnica llamada modelado escondido de Markov, que les permitió utilizar datos de entrenamiento de diferentes personas para construir modelos estadísticos de habla que eran mucho más robustos. Como resultado, durante 30 años, los sistemas de habla han mejorado cada vez más. En los últimos 10 años, la combinación de mejores métodos, computadoras más rápidas y la posibilidad de procesar de manera más rápida grandes cantidades de datos ha llevado a muchos usos prácticos.

Hoy, si llamas a un banco en Estados Unidos es muy probable que hables a una computadora que es capaz de responder preguntas sencillas sobre tu cuenta y conectarte a una persona real si es necesario. Muchos productos en el mercado actual, como Xbox Kinect, utilizan entradas de habla para proveer respuestas sencillas o navegar una interfaz de usuario. De hecho, nuestros productos, Microsoft Windows y Office, han incluido reconocimiento de habla desde finales de los noventa. Esta funcionalidad ha sido invaluable para nuestros clientes con necesidades de accesibilidad.

A pesar de esto, los mejores sistemas de habla en la actualidad aún tienen tasas de error de 20 a 25% en habla arbitraria.

Apenas hace dos años, los investigadores en Microsoft Research y la Universidad de Toronto consiguieron otro avance. Al utilizar una técnica llamada ‘Deep Neural Networks’ (Redes Neurales Profundas), que tiene un patrón de acuerdo con el comportamiento del cerebro humano, los investigadores fueron capaces de probar mejores sistemas de reconocimiento de voz y más discriminativos que los métodos previos.

Durante mi presentación del 25 de octubre en China, tuve la oportunidad de mostrar los más recientes resultados de este trabajo. Hemos sido capaces de reducir la tasa de error en las palabras habladas en más de 30% comparado con métodos previos. Esto significa que en lugar de tener una palabra en 4 o 5 incorrectas, ahora la tasa de error es una palabra en 7 u 8. Aunque falta mucho por mejorar, este es el cambio más dramático en precisión desde la introducción del modelo de 1979, y conforme agregamos más datos al entrenamiento creemos que obtendremos mejores resultados.

La traducción de texto con máquinas es también complicada. Tal como el habla, la comunidad de investigadores ha trabajado en traducción en los últimos 60 años, y en estos momentos, la introducción de técnicas estadísticas y Big Data también ha revolucionado la traducción de máquinas en los últimos años. Hoy, millones de personas a diario utilizan productos como Bing Translator para traducir páginas web de un lenguaje a otro.

En mi presentación, mostré cómo tomamos el texto que representa mi discurso y lo traducimos –en este caso, convertimos de Inglés a Chino en dos pasos. En principio, toma mis palabras y encuentra sus equivalentes en Chino, que aunque no es trivial, es la parte sencilla. La segunda parte reordena las palabras para que sean apropiadas en Chino, un paso importante para corregir la traducción entre lenguajes.

Claro que aún hay errores qué corregir tanto en el texto en Inglés como en la traducción al Chino, y los resultados pueden ser en ocasiones cómicos. Sin embargo, la tecnología ha resultado muy útil.

Lo más significativo, hemos conseguido una importante meta al permitir que una persona que habla Inglés, como yo, al mismo tiempo presente en Chino en su propia voz, que es lo que demostramos en China. Se utilizó un sistema de texto a lenguaje que los investigadores de Microsoft construyeron con unas horas de habla de una persona nativa de China y propiedades de mi propia voz, tomadas de datos pregrabados en una hora (en Inglés), en este caso grabaciones de pláticas previas que he ofrecido.

A pesar de que era una prueba limitada, el efecto fue impresionante y la audiencia cobró vida en respuesta. Cuando hablé en Inglés, el sistema de manera automática combinó todas las tecnologías disponibles para entregar una robusta experiencia habla a habla – mi propia voz hablaba en Chino. Pueden ver la demostración en el siguiente video (a partir del minuto 6:00).

Los resultados aún no son perfectos y aún hay mucho trabajo por hacer, pero la tecnología promete mucho, y esperamos que en los siguientes años tengamos sistemas que puedan romper por completo las barreras del lenguaje.

En otras palabras, tal vez no tengamos que esperar hasta el siglo XXII por un equivalente útil del traductor universal de Star Trek, y también esperamos que esas barreras para entender el lenguaje se remuevan, igual que sea probable remover barreras para entendernos unos a otros. Las ovaciones de la gente, la mayoría estudiantes chinos, y los comentarios cada vez mayores en los foros de redes sociales desde entonces, sugieren una creciente comunidad de personas relacionadas con el cómputo que se sienten de la misma manera.

Este post fue publicado en: http://blogs.technet.com/b/next/archive/2012/11/08/microsoft-research-shows-a-promising-new-breakthrough-in-speech-translation-technology.aspx