Tendencias21
Crean el primer ordenador que diferencia idiomas leyendo los labios

Crean el primer ordenador que diferencia idiomas leyendo los labios

Científicos de la Universidad de East Anglia, en el Reino Unido, han creado el primer ordenador que lee los labios y, además, es capaz de diferenciar diversas lenguas. El sistema está basado en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación. Su nivel de aciertos fue considerable. Este logro supone un importante paso adelante en la tecnología de lectura automática de los labios, y podría tener usos prácticos para personas sordas, y fuerzas de seguridad y militares. Por Yaiza Martínez.

Crean el primer ordenador que diferencia idiomas leyendo los labios

En la pasada IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009), celebrada en Taipei entre el 19 y el 24 de abril, científicos de la Universidad de East Anglia (UEA), en el Reino Unido, presentaron el primer ordenador capaz de leer los labios que, además, puede diferenciar entre diferentes lenguas.

Según explica la UEA en un comunicado, los ordenadores capaces de leer los labios están en desarrollo desde hace un tiempo, pero ésta es la primera vez que se consigue añadir a un ordenador la capacidad de diferenciar, además, en qué idioma está hablando una persona.

Del fonema al visema

Según se explica en un artículo más extenso publicado por los autores de esta investigación, dirigida por Stephen Cox, de la escuela de ciencias computacionales de la UEA, la Identificación Automática de Lenguaje Hablado (LID) es una tecnología ya madura que alcanza altos niveles de exactitud en tan sólo unos segundos de discurso interpretativo.

Esta tecnología consiste en determinar por medios computacionales el idioma de quien habla basándose sólo en una muestra de voz. Los medios aplicados en este caso van desde la caracterización de características fonéticas de diversos idiomas, al análisis de la prosodia del discurso.

Pero, a medida que el procesamiento del discurso visual se ha ido desarrollando en los últimos años, cada vez ha resultado de mayor interés encontrar recursos computacionales capaces de identificar los idiomas a partir sólo de imágenes.

Así, se prepara a los ordenadores para distinguir los “visemas”, que son la apariencia visual de la pronunciación de un fonema (los fonemas son las unidades sonoras mínimas de las que están compuestas las palabras). Según los investigadores, las técnicas LID basadas en la teoría fonética pueden aplicarse al procesamiento de la información “visémica”.

Cómo se hizo

Los científicos de la UEA desarrollaron una tecnología para el reconocimiento de los idiomas hablados –a partir sólo de información visual- basándose en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación.

Gracias a dicho modelo estadístico, el sistema computacional pudo identificar qué idioma hablaba cada individuo en un momento dado con un nivel elevado de exactitud.

Los idiomas analizados fueron el inglés, el francés, el alemán, el árabe, el mandarín, el cantonés, el italiano, el polaco y el ruso.

En el sistema desarrollado, los datos de video fueron registrados usando un Active Appeareance Model (AAM), un “modelo de apariencia activa”. Los vectores que este proceso produjo permitieron interpretar y clasificar los rasgos físicos del discurso y, posteriormente, relacionar dichos rasgos con el idioma que se estaba hablando: la combinación del movimiento de lengua, labios y mandíbula, así como la detección y el registro de secuencias de movimiento específicas y contracciones del rostro, fue en definitiva lo que permitió al sistema identificar el idioma hablado.

Según afirma Cox, “éste ha sido un emocionante avance en la tecnología de lectura automática de los labios, y constituye además la primera confirmación empírica de algo que ya se sospechaba intuitivamente: que cuando la gente habla diversos idiomas coloca de formas diferentes la boca, en secuencias distintas”.

Así, por ejemplo, entre los hablantes en francés, se constató un uso frecuente del redondeo de los labios, y entre los hablantes en árabe se registraron más movimientos de la lengua.

Esta herramienta podría tener usos prácticos para personas sordas, pero también podría ser aprovechada por fuerzas de seguridad y militares, en entornos ruidosos o en aquéllos en los que la señal de audio no se encuentra disponible.

Antecedentes y futuro

Como hemos dicho, la técnica computacional de lectura de labios no es nueva. Uno de los antecedentes más conocidos de este nuevo sistema es el de un software (el Audio Visual Speech Recognition o AVSR) creado hace unos años por la compañía Intel, que permite a los desarrolladores informáticos crear ordenadores capaces de leer los labios del usuario.

El software de Intel surgió en un intento de resolver las deficiencias de los programas de reconocimiento de voz, afectados habitualmente por el ruido de fondo o por la mala sintonización del micrófono, y permite que los ordenadores detecten la cara de un orador y los movimientos de su boca, con el fin de que el sistema pueda sincronizar los datos obtenidos a través del vídeo con la identificación de la voz, proporcionando un reconocimiento mucho más exacto.

En definitiva, la detección de gestos y reconocimiento de idiomas son dos elementos que pueden llegar a tener una importancia muy grande en el futuro, aunque aún queda un importante hito que alcanzar: el de la traducción dinámica y casi simultánea.

Yaiza Martinez

Hacer un comentario

RSS Lo último de Tendencias21

  • El contacto con la naturaleza cambia nuestra percepción del tiempo 28 marzo, 2024
    Investigaciones recientes y en particular un nuevo estudio han demostrado que la naturaleza puede regular nuestro sentido del tiempo: estar en ámbitos naturales puede cambiar la forma en que experimentamos el tiempo y, tal vez, brindarnos la sensación de abundancia de tiempo que las exigencias de la vida contemporánea suelen reducir drásticamente.
    Pablo Javier Piacente
  • El derretimiento de los polos modifica la velocidad a la cual gira la Tierra 28 marzo, 2024
    Un nuevo estudio ha descubierto que la redistribución de la masa procedente del derretimiento del hielo polar está cambiando la velocidad a la que gira nuestro planeta. No se trata de algo anecdótico, ya que modifica la duración del año en la Tierra: los cambios han derivado en que el segundo intercalar previsto para restar […]
    Pablo Javier Piacente
  • Descubren el primer hogar del Homo Sapiens fuera de África 28 marzo, 2024
    El primer hogar que acogió al Homo Sapiens cuando emigró de África fue la así llamada Meseta Persa, donde vivió unos 20.000 años e interactuó con los neandertales hasta que oleadas de estas poblaciones se dispersaron y se asentaron por toda Eurasia.
    Redacción T21
  • Los astrónomos observan un misterioso glóbulo cometario vagando por el cosmos 27 marzo, 2024
    Utilizando el Telescopio de rastreo VLT (VST) los científicos han producido una imagen impactante de GN 16.43.7.01, un glóbulo cometario situado a 5.000 años luz de distancia de la Tierra, en la constelación de Escorpio. Se trata de pequeñas y débiles nubes interestelares de gas y polvo cósmico, con una forma similar a la de […]
    Pablo Javier Piacente
  • Sería inminente el hallazgo de vida extraterrestre en Europa, una de las lunas de Júpiter 27 marzo, 2024
    Basado en experimentos recientes, un grupo de científicos determinó en un nuevo estudio que un instrumento en particular a bordo de la futura misión Europa Clipper de la NASA, denominado SUrface Dust Analyzer, era tan sensible que probablemente podría detectar signos de vida extraterrestre en granos individuales de hielo expulsados por Europa, la luna helada […]
    Pablo Javier Piacente
  • ¿La criopreservación es el paso necesario para la resurrección moderna? 27 marzo, 2024
    En España hay cinco casos de personas sometidas a criopreservación después de fallecer, a la espera de que la tecnología permita, tal vez, volverlos a la vida en los años 50 de este siglo.
    José Luis Cordeiro (*)
  • Crean un cerebro fantasma en forma de cubo impreso en 3D 27 marzo, 2024
    Investigadores austriacos han desarrollado un modelo de cerebro impreso en 3D basado en la estructura de las fibras cerebrales visibles mediante imágenes de resonancia magnética. Permite estudiar la compleja red neuronal con una precisión sin precedentes.
    Redacción T21
  • El océano se está desgarrando 26 marzo, 2024
    2.000 terremotos en un día en Canadá insinúan el nacimiento de una nueva corteza oceánica frente a la costa de la isla de Vancouver: está a punto de nacer a través de una ruptura magmática en las profundidades del mar.
    Pablo Javier Piacente
  • Simulan una explosión termonuclear en un superordenador 26 marzo, 2024
    Una simulación por superordenador nos brinda nuevos conocimientos sobre el comportamiento de las estrellas de neutrones: al evocar la explosión termonuclear que tiene lugar cuando estos monstruos cósmicos devoran a otra estrella, los investigadores logran avanzar en la comprensión de los fenómenos más extremos que suceden en el cosmos.
    Pablo Javier Piacente
  • Las matemáticas tienen la clave para erradicar el machismo 26 marzo, 2024
    Las matemáticas demuestran que si una parte significativa de las mujeres de una población (superando el límite del 45%) se comporta solidariamente con otras mujeres (como si fuesen hermanas), el machismo se extingue.
    Alicia Domínguez y Eduardo Costas (*)