Crean un sistema de reconocimiento de objetos que imita al cerebro

Al tratar de discernir un determinado tipo de objeto en una imagen digital, los sistemas de reconocimiento de objetos convencionales comienzan examinando los elementos destacados del mismo. Un sistema creado para identificar caras, por ejemplo, puede buscar los elementos que parecen ojos, nariz y boca, para después determinar si se ajustan a las normas espaciales establecidas. Pero para ello es imprescindible contar con la intuición humana.

El informático debe decidir qué partes del todo son las más adecuadas para introducirlas en el programa. Eso significa que por cada nuevo objeto añadido al repertorio del sistema, el programador tiene que empezar desde cero para determinar qué partes del objeto son las más importantes.

Algo que resultaría prácticamente inviable ante sistemas diseñados para reconocer millones de tipos de objetos complejos y diferentes. Cada uno de ellos tendría su propio conjunto único de partes, pero éstas se verían diferentes desde distintas perspectivas y su catalogación ocuparía una enorme cantidad de memoria del ordenador.

Para resolver el problema un equipo de investigación de Ciencias de la Computación e Inteligencia Artificial del MIT (Instituto Tecnológico de Massachusetts), en colaboración con científicos de la UCLA (Universidad de California en Los Ángeles), ha creado un nuevo método de reconocimiento de objetos basado en un sistema de interpretación visual por categorías, según un comunicado del MIT.

Un enfoque jerárquico

Como la mayoría de los sistemas de reconocimiento de objetos, el nuevo modelo aprende a identificar datos gráficos nuevos mediante un entrenamiento con objetos ya etiquetados en imágenes digitales. Sin embargo, los modelos convencionales no tienen por qué saber de antemano qué características de los objetos deben buscar.

En el método diseñado por el MIT, lo primero es identificar los rasgos más pequeños posibles (a menudo segmentos cortos de líneas). El siguiente paso es localizar los casos en que estas características de bajo nivel están conectadas entre sí, formando figuras un poco más sofisticadas.

A continuación, busca dónde estas formas más elaboradas están conectadas las unas con las otras, y así sucesivamente, hasta que configura un catálogo jerárquico de las piezas cada vez más complejo, cuya capa superior es un modelo del objeto completo. Una vez que el sistema ha reunido su catálogo de abajo hacia arriba, lo hace en sentido inverso, de arriba hacia abajo, eliminando todas las redundancias.

Para visualizar cómo funciona el sistema, los científicos ilustran su comunicado con el siguiente ejemplo: en un catálogo de piezas para un caballo visto de perfil, la segunda capa de la parte superior podría incluir dos representaciones diferentes de la parte trasera del caballo. Una mostraría la grupa, una pata trasera y parte del vientre, y la otra la rabadilla y las dos piernas traseras. Así, podría resultar que en la gran mayoría de los casos en que el sistema identifica una de estas partes, acabe reconociendo también la otra.

Con este enfoque jerárquico, que va añadiendo nuevas capas de información acerca de los objetos representados digitalmente, se consigue ahorrar memoria, ya que los objetos diferentes pueden compartir varias partes. Es decir, en capas diferentes, los catálogos de piezas de un caballo y un ciervo pueden llegar a tener formas en común. De este modo, cuando una forma se comparte entre dos o varios catálogos, el sistema solo necesita almacenarla una vez.

Lejos de la eficacia del cerebro

Aunque el trabajo de los investigadores promete un uso más eficiente de la memoria del ordenador y el tiempo empleado por los programadores, para Tai Sing Lee, profesor asociado de Ciencias de la computación en la Universidad Carnegie Mellon, lo más importante es que crea una forma más eficaz de llevar a cabo el reconocimiento de objetos.

En su opinión, el funcionamiento de este sistema tiene mucho que ver con la forma en que nuestro cerebro asimila las imágenes. Lee señala que el procesamiento visual en el ser humano parece implicar entre cinco y siete regiones cerebrales distintas, sin embargo nadie está completamente seguro de lo que hacen. “Lo que me aturdió es que el sistema aprende desde cinco hasta siete capas”, confiesa Lee. “Eso –añade- sugiere que puede realizar el mismo tipo de procesamiento visual que se produce en el cerebro”.

Sin embargo, aunque en los ensayos el método del MIT y la UCLA obtuvo buenos resultados está todavía muy lejos de acercarse al cerebro humano. Y es que, según Lee, el sistema en la actualidad se centra principalmente en la detección de los bordes de los objetos en las representaciones bidimensionales y para alcanzar el rendimiento humano, tendría que incorporar una gran cantidad de información adicional acerca de texturas y contornos en tres dimensiones, como lo hace el cerebro.

El equipo de investigación presentará su proyecto en una conferencia sobre visión por ordenador y reconocimiento de patrones que se celebrará el próximo mes de junio en San Francisco.