Tendencias 21. Ciencia, tecnología, sociedad y cultura




Crean el primer ordenador que diferencia idiomas leyendo los labios

Puede ser útil para personas sordas, agencias de seguridad y entornos ruidosos


Científicos de la Universidad de East Anglia, en el Reino Unido, han creado el primer ordenador que lee los labios y, además, es capaz de diferenciar diversas lenguas. El sistema está basado en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación. Su nivel de aciertos fue considerable. Este logro supone un importante paso adelante en la tecnología de lectura automática de los labios, y podría tener usos prácticos para personas sordas, y fuerzas de seguridad y militares. Por Yaiza Martínez.


Yaiza Martínez
Escritora, periodista, y Directora de Tendencias21. Saber más del autor


Fuente: UEA.
Fuente: UEA.
Fuente: UEA.
Fuente: UEA.
En la pasada IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009), celebrada en Taipei entre el 19 y el 24 de abril, científicos de la Universidad de East Anglia (UEA), en el Reino Unido, presentaron el primer ordenador capaz de leer los labios que, además, puede diferenciar entre diferentes lenguas.

Según explica la UEA en un comunicado, los ordenadores capaces de leer los labios están en desarrollo desde hace un tiempo, pero ésta es la primera vez que se consigue añadir a un ordenador la capacidad de diferenciar, además, en qué idioma está hablando una persona.

Del fonema al visema

Según se explica en un artículo más extenso publicado por los autores de esta investigación, dirigida por Stephen Cox, de la escuela de ciencias computacionales de la UEA, la Identificación Automática de Lenguaje Hablado (LID) es una tecnología ya madura que alcanza altos niveles de exactitud en tan sólo unos segundos de discurso interpretativo.

Esta tecnología consiste en determinar por medios computacionales el idioma de quien habla basándose sólo en una muestra de voz. Los medios aplicados en este caso van desde la caracterización de características fonéticas de diversos idiomas, al análisis de la prosodia del discurso.

Pero, a medida que el procesamiento del discurso visual se ha ido desarrollando en los últimos años, cada vez ha resultado de mayor interés encontrar recursos computacionales capaces de identificar los idiomas a partir sólo de imágenes.

Así, se prepara a los ordenadores para distinguir los “visemas”, que son la apariencia visual de la pronunciación de un fonema (los fonemas son las unidades sonoras mínimas de las que están compuestas las palabras). Según los investigadores, las técnicas LID basadas en la teoría fonética pueden aplicarse al procesamiento de la información “visémica”.

Cómo se hizo

Los científicos de la UEA desarrollaron una tecnología para el reconocimiento de los idiomas hablados –a partir sólo de información visual- basándose en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación.

Gracias a dicho modelo estadístico, el sistema computacional pudo identificar qué idioma hablaba cada individuo en un momento dado con un nivel elevado de exactitud.

Los idiomas analizados fueron el inglés, el francés, el alemán, el árabe, el mandarín, el cantonés, el italiano, el polaco y el ruso.

En el sistema desarrollado, los datos de video fueron registrados usando un Active Appeareance Model (AAM), un “modelo de apariencia activa”. Los vectores que este proceso produjo permitieron interpretar y clasificar los rasgos físicos del discurso y, posteriormente, relacionar dichos rasgos con el idioma que se estaba hablando: la combinación del movimiento de lengua, labios y mandíbula, así como la detección y el registro de secuencias de movimiento específicas y contracciones del rostro, fue en definitiva lo que permitió al sistema identificar el idioma hablado.

Según afirma Cox, “éste ha sido un emocionante avance en la tecnología de lectura automática de los labios, y constituye además la primera confirmación empírica de algo que ya se sospechaba intuitivamente: que cuando la gente habla diversos idiomas coloca de formas diferentes la boca, en secuencias distintas”.

Así, por ejemplo, entre los hablantes en francés, se constató un uso frecuente del redondeo de los labios, y entre los hablantes en árabe se registraron más movimientos de la lengua.

Esta herramienta podría tener usos prácticos para personas sordas, pero también podría ser aprovechada por fuerzas de seguridad y militares, en entornos ruidosos o en aquéllos en los que la señal de audio no se encuentra disponible.

Antecedentes y futuro

Como hemos dicho, la técnica computacional de lectura de labios no es nueva. Uno de los antecedentes más conocidos de este nuevo sistema es el de un software (el Audio Visual Speech Recognition o AVSR) creado hace unos años por la compañía Intel, que permite a los desarrolladores informáticos crear ordenadores capaces de leer los labios del usuario.

El software de Intel surgió en un intento de resolver las deficiencias de los programas de reconocimiento de voz, afectados habitualmente por el ruido de fondo o por la mala sintonización del micrófono, y permite que los ordenadores detecten la cara de un orador y los movimientos de su boca, con el fin de que el sistema pueda sincronizar los datos obtenidos a través del vídeo con la identificación de la voz, proporcionando un reconocimiento mucho más exacto.

En definitiva, la detección de gestos y reconocimiento de idiomas son dos elementos que pueden llegar a tener una importancia muy grande en el futuro, aunque aún queda un importante hito que alcanzar: el de la traducción dinámica y casi simultánea.

Viernes, 1 de Mayo 2009
Artículo leído 7619 veces




Nota


Comente este artículo

1.Publicado por rr el 02/05/2009 07:44
interesante

2.Publicado por Carlos R Támara G el 03/05/2009 14:42
No puede uno evitar de sonreír cuando lee que "los fonemas son las unidades sonoras mínimas de las que están compuestas las palabras" Se recuerda aquella definición de célula y otra, quizás más antigua de átomo. La supuesta definición de fonema es un calco. De las antiguas definiciones de célula y átomo cambiaron los sustantivos, en busca de un apoyo sistémico, de origen del universo gramático, semiótico...etc.
Todo aquello del átomo indivisble y de la célula inviolable voló y se depedazó, tanto como la visión sistémica. Y sin embargo todo este engendro racionalista todavía invade el lenguaje cotidiano de las investigaciones y de las ciencias. Se repite, sin pensar en que lo que se dice está, por lo menos, un paradigma detrás.
Pero no era eso lo que quería comentar. Más bien quería (!) comentar ese vicio de siempre endosarle a los usos de estas investigaciones tan importantes para la humanidad, un interés militar. ¡Siempre es el aparato militar el beneficiario principal de las investigaciones que tengan que ver con el lenguaje, el manejo de la mente, la computación...y miles más! ¡Qué vaina! Como si el aparato militar fuera un benefactor común de la humanidad y de los ciudadanos y su defensor por antonomasia y no su manipulador, usándolas la más de las veces para la guerra, es decir, para matar gente, también la más de la veces, inocente! . ¡Es increible! ¡Increible!

3.Publicado por Mario el 06/05/2009 17:55
Carlos, tenés razón, pero también hay otras ventajas y otras personas que sí utilizan los avances para mejorar la calidad de vida. Encontre un ejemplo en la revista del MIT: es una especie de pen drive que avisa si tu corazón está fallando. Mal no está.

http://www.technologyreview.com/es/read_article.aspx?id=368

4.Publicado por carmen el 06/08/2011 01:40
Esto supera a cualquiera

5.Publicado por carmen el 06/08/2011 01:41
esto supera a cualquiera.- Pero la realidad es que los tiempos y los avances estan cambiando la forma de hacer las cosas.

Nuevo comentario:
Twitter

Los comentarios tienen la finalidad de difundir las opiniones que le merecen a nuestros lectores los contenidos que publicamos. Sin embargo, no está permitido verter comentarios contrarios a las leyes españolas o internacionales, así como tampoco insultos y descalificaciones de otras opiniones. Tendencias21 se reserva el derecho a eliminar los comentarios que considere no se ajustan al tema de cada artículo o que no respeten las normas de uso. Los comentarios a los artículos publicados son responsabilidad exclusiva de sus autores. Tendencias21 no asume ninguna responsabilidad sobre ellos. Los comentarios no se publican inmediatamente, sino que son editados por nuestra Redacción. Tendencias21 podrá hacer uso de los comentarios vertidos por sus lectores para ampliar debates en otros foros de discusión y otras publicaciones.

Otros artículos de esta misma sección
< >

Jueves, 1 de Diciembre 2016 - 08:00 Inteligencia artificial para catar quesos