Tendencias 21
Coddii




Un nuevo extractor terminológico optimiza la gestión de información

Desarrollado por investigadores españoles, llega al mercado de la mano de una empresa tecnológica nacida al amparo de la UPM


Una nueva aplicación desarrollada por ingenieros informáticos españoles permite elaborar listas de términos (de entre 1 y 5 palabras) a partir de conjuntos de documentos en varios formatos. Se trata de un innovador extractor terminológico que permite visualizar la totalidad de contextos donde aparece cada término y seleccionar lo que considere oportuno. Desarrollada por investigadores españoles, la aplicación llega al mercado de la mano de una empresa tecnológica nacida al amparo de la UPM.




Investigadores españoles han desarrollado un extractor terminológico dirigido a cualquier profesional que necesite elaborar listas de términos (de entre 1 y 5 palabras) a partir de conjuntos de documentos en varios formatos (.txt, pdf, doc, docx), filtrando o no las palabras vacías, ya sea propuestas por el sistema o a petición del usuario.

La nueva aplicación, que se llama Simple Extractor, permite visualizar la totalidad de contextos (frases) donde aparece cada término y seleccionar lo que se considere oportuno, así como, entre otras cosas:

  • Proceder a la extracción terminológica a partir de textos en varios formatos (.txt, .pdf, .doc, .docx) mezclados y colocados todos en una sola carpeta si se desea. El sistema puede cargar la carpeta completa.
  • Extraer todos los términos con filtrado de palabras vacías o no.
  • Cargar un fichero de palabras vacías propuesto por el sistema (en español o inglés) o bien reutilizar el propuesto por el sistema para configurar el suyo propio.
  • Ordenar los términos extraídos por frecuencia o alfabéticamente y según número de palabras.
  • Examinar todos los contextos donde un término haya aparecido (fragmento de texto donde dicho término haya aparecido que se encuentre entre signos de puntuación).
  • Buscar términos mediante un buscador configurable, con prestaciones muy variadas.
  • Imprimir las listas de términos extraídos, ya sea la completa, ya las parciales según la selección de los mismos que se haya hecho. (formatos de guardar e imprimir en pdf, docx, csv y txt)
Los extractores de terminología son herramientas que permiten la identificación y extracción de términos dentro de los textos explorados. Estas herramientas son muy útiles en el entorno de la gestión de la información y del conocimiento, ya que contribuyen a la extracción de palabras claves como posibles candidatos a unidades de indización.

Posibles usuarios

Los usuarios del nuevo extractor pueden ser documentalistas, que lo podrán usar para seleccionar los términos de sus tesauros. También traductores para confeccionar sus glosarios, lexicógrafos para elaborar listas de términos específicas para un propósito y los contextos en los que aparecen, profesores de lengua para preparar materiales para sus alumnos y estudiar los distintos contextos de utilización de un término.

Asimismo, será útil para terminólogos, que lo podrán usar para elaborar y estudiar listas de términos, ya por su morfología, ya por su uso específico dentro de un texto.  Finalmente puede ser también de gran ayuda para especialistas en estudios literarios, con la finalidad de ver la composición y frecuencia de uso de distintos términos en una obra o autor determinado, así como para investigadores en el lenguaje general o de un autor particular y estudiosos de la lingüística de corpus.

Una empresa universitaria

La empresa que ha desarrollado esta aplicación se llama DAIL-Software (Desarrollo de Aplicaciones de Ingeniería Lingüística). Nació como idea cuando en 2011 el Grupo de Investigación en Validación y aplicaciones industriales (VAI) de la Facultad de Informática de la Universidad Politécnica de Madrid, presentó un proyecto de empresa tecnológica al concurso ActuaUPM, obteniendo el premio al tercer mejor plan de negocio entre más de 400 propuestas.

La orientación de esta empresa, nacida en 2013, es volcar al mercado (y por tanto hacer accesibles) aplicaciones informáticas desde sencillas a avanzadas para el tratamiento automatizado de la lengua.

El equipo humano inicial lo forman investigadores del VAI, así como profesionales de la informática que pertenecieron al VAI en épocas pasadas. Ante la sequía financiera para la investigación que padece España, esta empresa propone una vía alternativa de financiación de sus actividades de investigación aplicada mediante la puesta en mercado de aplicaciones útiles, sencillas de manejar, sencillas de adquirir y tan baratas como sea posible.

El Grupo de Investigación en Validación y Aplicaciones Industriales ha participado en proyectos nacionales e internacionales en temas de Ingeniería Lingüística desde hace más de 25 años.
 
 


Redacción
Lunes, 6 de Mayo 2013
Artículo leído 3223 veces



Nota

Nuevo comentario:
Twitter

Los comentarios tienen la finalidad de difundir las opiniones que le merecen a nuestros lectores los contenidos que publicamos. Sin embargo, no está permitido verter comentarios contrarios a las leyes españolas o internacionales, así como tampoco insultos y descalificaciones de otras opiniones. Tendencias21 se reserva el derecho a eliminar los comentarios que considere no se ajustan al tema de cada artículo o que no respeten las normas de uso. Los comentarios a los artículos publicados son responsabilidad exclusiva de sus autores. Tendencias21 no asume ninguna responsabilidad sobre ellos. Los comentarios no se publican inmediatamente, sino que son editados por nuestra Redacción. Tendencias21 podrá hacer uso de los comentarios vertidos por sus lectores para ampliar debates en otros foros de discusión y otras publicaciones.

Otros artículos de esta misma sección
< >

Lunes, 7 de Noviembre 2016 - 15:00 Bolotweet, la red social del aula