Tendencias21

Un software descifra palabras incompletas de textos históricos

Estudiantes de Ingeniería y Artes de Estados Unidos se han valido del conocimiento digital para solucionar los problemas de transcripción de textos históricos digitalizados. Utilizando el modelado del lenguaje, técnica utilizada en programas de autocorrección y de reconocimiento de voz, han creado un software que ofrece posibilidades para corregir las palabras que faltan o los errores ortográficos en función del contexto. Por Patricia Pérez

Un software descifra palabras incompletas de textos históricos

La digitalización de libros históricos se enfrenta al problema del paso del tiempo, lo que a menudo supone páginas oscurecidas, manchadas o con roturas, además de palabras o abreviaturas en desuso actualmente. Como consecuencia, en Estados Unidos cuando los traductores no pueden leer o entender una parte de un texto, sustituyen el carácter desconocido por un punto negro, un símbolo que desluce la importancia de estos escritos.

Ahora, estudiantes de Ingeniería de la Escuela McCormick en la Universidad Northwestern, en EEUU, pretenden acabar con esas palabras desfiguradas y, en ocasiones, indescifrables que pueblan las versiones traducidas de los libros más antiguos. Trabajando en colaboración con estudiantes de Pregrado de la Escuela Weinberg de Artes y Ciencias, han diseñado un software que utiliza el modelado del lenguaje, similar a los programas de autocorrección y de reconocimiento de voz, para poner fin a las palabras incompletas.

«Los textos digitalizados son bienes de patrimonio cultural y como tal, deben estar limpios», destaca Martin Mueller, profesor emérito de Weinberg, en un artículo de la revista de ingeniería de Northwestern.

Los ingenieros pusieron a prueba el sistema con 363 textos de la misma época relativamente libres de puntos negros. Una vez que el programa entendió el mecanismo, estaba listo para trabajar con otra muestra de 359 textos defectuosos, incluyendo en esta ocasión obras de teatro, libros de texto, transcripciones de juicios, tratados o novelas románticas, entre otros.

Probabilidades y contexto

En 1999, varias universidades y bibliotecas estadounidenses se unieron para crear la Text Creation Partnership (TCP), organización sin ánimo de lucro desde la que digitalizar libros en inglés publicados antes de 1700. Además crearon una base de datos navegable gratuita para que estudiantes, académicos y lectores de todo el mundo pudieran buscar o transcribir textos y subirlos a la red.

«Con un proceso así, muchas cosas pueden salir mal», expresa Mueller. De hecho, en los 50.000 textos transcritos resultantes se registraron aproximadamente cinco millones de palabras incompletas. A los libros envejecidos y estropeados había que sumar los escaneos de mala calidad. Por ello, si los transcriptores no podían leer o entender una parte del ejemplar, se acordó sustituir el carácter desconocido por un punto negro.

Según explica la universidad en un comunicado, el sistema de modelado del lenguaje detecta tanto los puntos negros como las faltas de ortografía, evaluando entonces los 35 caracteres a la izquierda y la derecha de cada uno para ofrecer tres posibilidades de sustitución, asignando una probabilidad a cada opción en función del contexto.

Por ejemplo, la palabra «lo • e» en inglés podría ser «love» (amor), pero también “lone” (solitario), “lore” (tradición) o “lose” (perder). El software se vale del contexto para elegir la opción correcta, de forma que si dice “she was in lo•e with him» (ella estaba • de él), el programa asume que la palabra que falta es «love».

El pasado verano, los estudiantes de Weinberg trabajaron para resolver los enigmas del lenguaje, combinando opciones y seleccionando la correcta. Mientras tanto, los de Ingeniería desarrollaron una plataforma web interactiva donde los estudiantes de Humanidades podían buscar palabras en diferentes textos y corregir los errores en el acto. En muchos casos, no solo se ocupaban de palabras con huecos en blanco, sino también de errores de ortografía y de palabras o letras en desuso. Los administradores decidían después si aceptaban o rechazaban las correcciones, que se actualizaban automáticamente en el sistema.

Reducción tiempo/coste

«Las máquinas también pueden aprender de esa retroalimentación», explica el líder del proyecto Doug Downey, profesor asociado de Ingeniería Eléctrica e Informática en McCormick. «Con un poco de crowdsourcing conseguiríamos transcripciones de alta calidad», añade.

Y es que, probablemente un lector podría revisar varios textos y corregir todos los errores, pero tardaría varios minutos en encontrar sólo uno. Por esta regla de tres se necesitarían años de trabajo sin parar de una persona para hacer frente a todos los errores; una tarea poco práctica, si no humanamente imposible.

Los resultados iniciales de la colaboración indican que aproximadamente tres cuartas partes de las obras que están incompletas o mal transcritas pueden ser definitivamente corregidas con una combinación de aprendizaje automático y edición asistida, sin necesidad de consultar el texto original impreso. Esto podría reducir drásticamente el coste/tiempo humano de minutos a unos pocos segundos por palabra.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Descubren 50 especies desconocidas para la ciencia en la exótica Isla de Pascua 12 abril, 2024
    Una expedición a la Cordillera de Salas y Gómez, frente a Rapa Nui, en el Océano Pacífico, documentó 160 especies animales que no se sabía que habitaban esta región de la misteriosa Isla de Pascua, en Chile. Además, descubrieron 50 criaturas que son absolutamente nuevas para la ciencia.
    Pablo Javier Piacente
  • El clima espacial podría generar un caos satelital sin precedentes 12 abril, 2024
    Los satélites en órbita terrestre baja (LEO) pueden perder su brújula cuando el clima espacial ofrece situaciones inesperadas. El problema afecta a la Estación Espacial Internacional, la estación espacial Tiangong de China y muchos satélites de observación de la Tierra. Los expertos sostienen que esta incertidumbre de posicionamiento aumenta el riesgo de colisiones orbitales peligrosas, […]
    Pablo Javier Piacente
  • La Inteligencia Artificial puede ser envenenada para proteger los derechos de autor 12 abril, 2024
    Una herramienta llamada Nightshade cambia imágenes digitales de manera casi imperceptible para el ojo humano, pero que se ven totalmente diferentes por los modelos de IA: una forma polémica de proteger las obras de arte de posibles infracciones de derechos de autor.
    Redacción T21
  • La acidez cerebral podría estar relacionada con múltiples trastornos neurológicos 11 abril, 2024
    Un estudio en animales a gran escala vincula los cambios en el pH del cerebro con problemas cognitivos de amplio alcance, ligados a patologías como el autismo o el Alzheimer, entre otras. Los científicos creen que los problemas metabólicos en el cerebro podrían estar directamente relacionados con una variedad de trastornos neuropsiquiátricos y neurodegenerativos.
    Pablo Javier Piacente
  • Cultivan organoides cerebrales con conexiones neuronales similares a las de un cerebro real 11 abril, 2024
    Un equipo internacional de investigadores ha desarrollado una técnica para conectar tejidos cultivados en laboratorio que imitan al cerebro humano de una manera que se asemeja a los circuitos neuronales del cerebro real. El "sistema" de mini cerebros interconectados podría revolucionar nuestra comprensión de las funciones cerebrales.
    Pablo Javier Piacente
  • Los Estados se exponen a condenas judiciales por inacción climática 11 abril, 2024
    Suiza es el primer Estado condenado judicialmente por no resolver el desafío climático y violar los derechos humanos de las personas mayores. Hace un año, 16 niños y jóvenes obtuvieron una sentencia condenatoria contra el Estado de Montana por destruir con sus leyes el medioambiente. Cualquier Estado puede ser denunciado si no preserva el ambiente en […]
    Eduardo Martínez de la Fe
  • Detectan extraños pulsos de radio procedentes de un magnetar que desconciertan a los científicos 10 abril, 2024
    Los astrónomos han detectado señales de radio inusuales procedentes de XTE J1810-197, un radiomagnetar o estrella de neutrones ultramagnética situada a 8.100 años luz de distancia de la Tierra, en la constelación de Sagitario. Los resultados son inesperados y sin precedentes: a diferencia de las señales de radio que se han detectado en otros magnetares, […]
    Pablo Javier Piacente
  • La IA podría ser el límite para todas las civilizaciones avanzadas en el Universo 10 abril, 2024
    Un nuevo estudio sugiere que el desarrollo de la Inteligencia Artificial (IA) hacia una Superinteligencia Artificial (ASI) podría explicar por qué no hemos detectado aún otras civilizaciones avanzadas en el cosmos, a pesar de la alta probabilidad de su existencia: en vez de supernovas, plagas, guerras nucleares o eventos climáticos extremos que hayan sido un […]
    Pablo Javier Piacente
  • Higgs ha podido dejar abierta la puerta a la Nueva Física con su legado 10 abril, 2024
    La muerte de Peter Higgs, que pasará a la historia como el descubridor del bosón que explica cómo se forma la materia, deja un legado en la historia de la física que todavía puede aportar algo más trascendente: la prueba definitiva de una Nueva Física más allá del Modelo Estándar.
    Eduardo Martínez de la Fe
  • Descubren neuronas "zombis" en el cerebro, que serían claves en el proceso de aprendizaje 9 abril, 2024
    Las neuronas "zombis" son unidades vivas pero funcionalmente alteradas, que parecen "dormidas" en determinadas situaciones: los investigadores han revelado que cumplen un papel fundamental en el cerebelo, concretamente en aspectos relativos a la forma en la cual aprendemos.
    Pablo Javier Piacente