El contexto de la consulta, pieza clave en la nueva generación de buscadores

Los motores de búsqueda se han convertido en una herramienta imprescindible hoy en día para realizar consultas en la Web semántica o en Internet como red global, dada la cantidad de información almacenada. Sin embargo, sus limitaciones son conocidas por todos. Por una parte los usuarios tienen que filtrar manualmente resultados que poco o nada tienen que ver con su consulta. La cosa se complica aún más a medida que aumenta la complejidad de la búsqueda.

Personalizar los resultados al máximo posible es el objetivo de todo desarrollador de este tipo de herramienta, pero puede suponer un enorme esfuerzo para los servidores cuando se realizan muchas consultas a la vez. Ahora, investigadores de la Universidad Estatal de Carolina del Norte (NC State) en Estados Unidos han desarrollado una técnica de búsqueda que podría aliviar esa carga.

Según explican en un comunicado, la solución pasa por examinar el contexto de la consulta. Para ello, por un lado destacan la necesidad de tener en cuenta las exploraciones más recientes para afinar el criterio de búsqueda. El siguiente paso va más allá del uso de las tradicionales palabras clave, en busca de conceptos asociados que determinen el contexto.

“Lo que nosotros hacemos es diferente, y eso nos permite ser más eficaces en búsquedas complejas que los motores tradicionales”, asegura la doctora Kemafor Anyanwu, profesora de Ciencias de la Computación en la NC State y autora principal del estudio. Este se presentará en la Conferencia Internacional de IEEE sobre Big Data que se celebrará en octubre en California.

Conceptos asociados

Las técnicas actuales de búsqueda en la Web semántica se están alejando de lo superficial, pasando de planteamientos que simplemente encuentran coincidencias de palabras clave hacia enfoques más interpretativos que tratan de introducir otros parámetros. El problema llega a medida que la consulta se torna compleja o confusa.

Por ejemplo, si un usuario está buscando personal universitario que investigue sobre Informática Financiera, espera como resultado un listado de páginas relevantes del profesorado, no de estudiantes que citan la facultad o noticias que utilizan esos términos. Eso es una búsqueda compleja.

Del mismo modo, cuando las consultas son ambiguas, con múltiples interpretaciones posibles, los motores de búsqueda tradicionales utilizan técnicas impersonales. Así, si un usuario introduce las palabras clave “velocidad jaguar”, puede estar buscando información sobre la supercomputadora Jaguar, el animal de la selva o el coche del mismo nombre. “En un momento dado, la misma persona puede querer información sobre cualquiera de esas acepciones, por lo que guardar el perfil del usuario tampoco sería muy útil en estos casos”, explica Anyanwu.

Por el contrario, su nueva técnica apela al contexto, por lo que se buscan conceptos asociados para darle forma. Tomando el mismo ejemplo, si la búsqueda inicial de un usuario contiene la palabra “conservación”, se podría asociar a conceptos como “animales”, “animales salvajes” o incluso “zoológicos”. Al introducir después las palabras clave “velocidad jaguar”, el sistema coloca en primer lugar los resultados sobre el felino, no del automóvil o la supercomputadora. Mientras más reciente haya sido la asociación de un concepto a una búsqueda, más peso se le dará en los resultados de consultas posteriores.

Por otra parte, los motores de búsqueda han tratado hasta ahora de identificar patrones de comportamiento basándose en los resultados pinchados por el usuario, para identificar así su intención más probable ante una consulta. Sin embargo, estas técnicas son impersonales y se aplican sobre una base global. Como resultado, si el patrón más frecuente para un conjunto de palabras clave se encuentra en un contexto determinado, ese se asociará a las consultas de la mayoría o de todos los usuarios, aunque su historial de búsqueda reciente delate que su contexto es otro.

Por el contrario, el equipo de Anyanwu trata de “identificar el contexto de términos de búsqueda de cada usuario individual en tiempo real, usándolo para determinar su intención en una consulta específica en un momento determinado”, explica.

Uso eficiente

Aunque los investigadores de NC State desarrollaron su técnica de búsqueda personalizada hace más de un año, el reto radica en cómo ampliar el método. “Ejecutar un programa ambientado en el contexto para cada usuario supondría una cantidad excesiva de recursos informáticos, y eso no es posible”, reconoce la profesora.

Sin embargo, su equipo ha conseguido una técnica que incluye nuevas formas de representar datos, nuevas formas de indexarlos para que se pueda acceder de manera eficiente, y una novedosa arquitectura informática para organizar esos índices. El resultado marca una diferencia significativa.

“Nuestra nueva arquitectura de indexación y búsqueda nos permite soportar búsquedas personalizadas de unos 2.900 usuarios de forma simultánea utilizando un equipo de 8 GB, mientras el planteamiento anterior no superaba los 17. Esto hace el concepto más práctico y nos acerca a la nueva generación de motores de búsqueda”, admite Anyanwu.

El método se implementa en un sistema llamado SKI, con el que han realizado pruebas experimentales en las bases de datos de DBPedia y Billion Triple Challenges que demuestran su superioridad frente a las técnicas existentes.

Por todo ello se espera que el motor de búsqueda no quede en las páginas del estudio. Los investigadores prevén tener lista la versión beta en unos meses, y hay planes para comercializar la tecnología a largo plazo.