Kinect_Voice_jpg

Durante el desarrollo de Kinect, uno de los retos de ingeniería más grandes fue la propia sala de estar. Las salas de estar tienden a ser habitaciones grandes, lo que representaba un desafío de diseño sin precedentes para el equipo de Xbox —la matriz de micrófonos de Kinect debía funcionar de manera óptima a cuatro metros desde el sofá, una distancia mucho más larga que cualquier otro sistema de reconocimiento de voz en la industria podía manejar sin problemas—.

Otra complicación era que las salas de estar son lugares de reuniones sociales y, por lo general, están llenas de ruido ambiental como conversaciones y música.

“Imagina si Xbox 360 pudiera interpretar todo lo que dices como un comando”, dice Keith Herold, gerente senior de programas en Microsoft Tellme, el servicio de reconocimiento de voz de la compañía que también activa los dispositivos Windows Phone 7 y aparece en muchos otros productos. “Ese es el problema en la sala de estar: ¿cómo podemos lograr que el dispositivo ignore todo menos los comandos?”

Para resolverlo, el equipo de Xbox acudió a Ivan Tashev, un arquitecto de software en Microsoft Research con más de una docena de patentes que ayudan a las máquinas a capturar e interpretar el sonido.

Tashev ha estado desarrollando prototipos de tecnologías para optimización de voz, procesamiento de sonido, matriz de micrófonos y cancelación de eco. En cuanto al sistema Xbox 360, se concentró en purificar la señal de audio para que Kinect pudiera entender las órdenes que se le estaban dando. Tashev aplicó su experiencia en cancelación de eco para aislar todo lo que salía de la consola —música, diálogos de películas, sonido del juego—, así como el ruido de la sala que el micrófono percibiría. Esto representaba un problema sumamente difícil que involucraba matemáticas avanzadas, pero Tashev superó el reto.

“Básicamente, incorporé en Kinect tecnologías que son el resultado de una investigación que conduje durante siete años”, comenta. “Sabemos lo que sale de la consola: una señal dinámica en constante cambio. Lo difícil era eliminar esa señal de salida de la señal de entrada. Y hacerlo en tiempo real”.

Otro de los retos era ayudar a Kinect a reconocer a la persona que estaba hablando, enfocarse en esa fuente e ignorar todo lo demás. Para lograrlo, Tashev utilizó tecnología de “formación de haces”, que identifica a la persona que está dando los comandos al sistema.

“Si hay cuatro personas en la sala y una está hablando, el sistema se enfoca en ella, y si esa persona dice ‘Xbox’, el sistema comienza a escuchar”, explica Tashev.

En síntesis, la cadena de mejoras al sonido en Kinect consiste en seis etapas principales que optimizan consecutivamente la calidad de la señal de voz, eliminando el ruido y la reverberación de la sala para que el reconocimiento de voz pueda funcionar.