Tendencias 21. Ciencia, tecnología, sociedad y cultura




Usan la Biblia y Wikipedia para desarrollar tecnologías para idiomas minoritarios

Hasta ahora, estas tecnologías habían estado reservadas a lenguas mayoritarias, como el inglés


Apple’s Siri, el traductor de Google y otras tecnologías para lenguajes han permanecido reservadas durante mucho tiempo para los hablantes del inglés u otras lenguas mayoritarias. Esto podría cambiar porque lingüistas de la Universidad de Copenhague (Dinamarca) han producido tecnología del lenguaje que funciona, al mismo tiempo, para 100 idiomas minoritarios y grandes. Para su desarrollo, se han basado en dos fuentes muy diferentes: versículos bíblicos y artículos de Wikipedia.




Rollo de la Torá (cinco primeros libros de la Biblia). Fuente: Wikimedia Commons.
Rollo de la Torá (cinco primeros libros de la Biblia). Fuente: Wikimedia Commons.
Apple’s Siri, el traductor de Google y otras tecnologías para lenguajes han permanecido reservadas durante mucho tiempo para los hablantes del inglés u otras lenguas mayoritarias. Las personas que hablen galés o gallego, por ejemplo, no podían usarlas en su propio idioma.

Esto podría cambiar porque lingüistas de la Universidad de Copenhague (Dinamarca) han producido tecnología del lenguaje que funciona, al mismo tiempo, para 100 idiomas minoritarios y grandes. Para su desarrollo, se han basado en dos fuentes muy diferentes: versículos bíblicos y artículos de Wikipedia, la gran enciclopedia online.

“Cuando desarrollamos sistemas de traducción automática y motores de búsqueda, por lo general introducimos en la computadora grandes cantidades de textos que contienen información sobre la función y el significado de las palabras. Por razones históricas, estos textos han sido principalmente artículos de periódicos en inglés y otras grandes lenguas. No tenemos acceso a textos similares en lenguas más pequeñas como la de las Islas Feroe, el galés, el gallego y el irlandés, o incluso una lengua africana importante como yoruba, que es hablada por 28 millones de personas”, dice el profesor Anders Søgaard, de la Universidad de Copenhague, en la nota de prensa de ésta.

Anders Søgaard y sus colegas apostaron por buscar textos que hubieran sido traducidos a muchos idiomas, de modo que pudiera transmitirse el conocimiento sobre la gramática de las lenguas grandes al de las pequeñas.

“La Biblia ha sido traducida a más de 1.500 idiomas, incluso la mayoría de los más exóticos y pequeños, y las traducciones son extremadamente conservadoras; los versos tienen una estructura completamente uniforme en los diferentes idiomas, lo que significa que podemos hacer modelos informáticos adecuados incluso para lenguas muy pequeñas, con sólo doscientas páginas de texto bíblico”, explica Søgaard.

Desarrollo de recursos lingüísticos

La enciclopedia en línea hecha por usuarios Wikipedia también ha demostrado ser una fuente muy útil para los investigadores, que utilizan sus textos para desarrollar recursos lingüísticos.
 
Wikipedia contiene más de 35 millones de artículos, pero es el hecho de que por lo menos 129 idiomas estén representados - con más de 10.000 artículos de cada uno- el que hace que los investigadores la encuentren interesante, puesto que muchos artículos se refieren a los mismos conceptos y temas.

“Esto nos permite hacer lo que llamamos “indexación invertida”, lo que significa que se utiliza el concepto que los artículos tratan de describir para describir precisamente las palabras usadas para describirlo”, explica Søgaard.
 
“Si aparece la palabra gafas en la entrada de la Wikipedia sobre Harry Potter, y la palabra alemana Brille se utiliza en la entrada alemana equivalente, es muy probable que las dos palabras se representen de forma similar en nuestros modelos de sistemas de traducción automática. Y la ventaja de este modelo es que puede ser aplicado a 100 idiomas diferentes al mismo tiempo, incluyendo a muchos idiomas a los que previamente se les han negado los recursos de tecnología que usamos todos los días”.

Jueves, 10 de Septiembre 2015
Dail Software/T21
Artículo leído 3261 veces




Nota


Nuevo comentario:
Twitter

Los comentarios tienen la finalidad de difundir las opiniones que le merecen a nuestros lectores los contenidos que publicamos. Sin embargo, no está permitido verter comentarios contrarios a las leyes españolas o internacionales, así como tampoco insultos y descalificaciones de otras opiniones. Tendencias21 se reserva el derecho a eliminar los comentarios que considere no se ajustan al tema de cada artículo o que no respeten las normas de uso. Los comentarios a los artículos publicados son responsabilidad exclusiva de sus autores. Tendencias21 no asume ninguna responsabilidad sobre ellos. Los comentarios no se publican inmediatamente, sino que son editados por nuestra Redacción. Tendencias21 podrá hacer uso de los comentarios vertidos por sus lectores para ampliar debates en otros foros de discusión y otras publicaciones.

Otros artículos de esta misma sección
< >