jueves, 20 de marzo de 2008

La recuperación en entornos digitales: los SARI y sus tipologías

Uno de los problemas de la recuperación de fotografías es la escasez de estudios de investigación sobre el tema que, por norma general, se han centrado en la recuperación de documentos texto-lingüísticos. Sin embargo, en un contexto caracterizado por la preeminencia de la imagen, con una sobreproducción de fotografías y con un nuevo actor, Internet, que paulatinamente está modificando formas de trabajo, de organización y de intercambio informativo, nos vemos obligados a prestar especial atención al tema de la recuperación de imágenes en entornos digitales.

Una de las ventajas de la digitalización, es sin duda, la capacidad para explotar todas potencialidades de los sistemas automáticos de recuperación de las imágenes en grandes y cómodas bases de datos. En el ámbito de la imagen tenemos como instrumento imprescindible: el Sistema Automatizado de Recuperación de Imágenes (SARI) cuya definición sería “conjunto de herramientas informáticas y procesos encaminados a posibilitar la recuperación de imágenes en un fondo documental” (1) .
Actualmente existen dos técnicas de recuperación de imágenes que se pueden usar de forma individual o conjuntamente: los sistemas visuales de recuperación automática de imágenes y los sistemas basados en la representación textual lingüística de atributos visuales y temáticos fijados mediante un proceso de indización manual o automática. El primer sistema es completamente automático y se fundamenta en la operación de extracción, por parte de un programa informático, de los atributos visuales de las imágenes que serán los elementos que permitirán la recuperación de las fotografías. El usuario ataca al sistema a partir de patrones de consulta gráficos, definiendo así los atributos visuales que quiere que presenten sus documentos. Por su parte, el segundo sistema se caracteriza por ofrecer una recuperación texto lingüística de los atributos visuales y temáticas que han sido coligados previamente a las fotografías. Tanto la descripción como la recuperación de las imágenes se realizan mediante lenguaje textual.

Tipologías

Existe una tipología de SARI basada en los dos tipos de formato (textual o visual) de representación y recuperación de los documentos de un sistema. En total tenemos cinco clases (2):
1. Sistemas lingüísticos: Son sistemas que se caracterizan por ofrecer una consulta y una recuperación asociada a registros textuales que describen las imágenes. Suelen estar constituidos por dos bases de datos, una de carácter textual y otra destinada a la gestión de imágenes digitales. La primera posibilita la recuperación mediante el texto asociado a la imagen y la segunda permite mostrar la imagen vinculada al registro textual. La base de datos textual puede ser relacional, documental o relacional documental. En principio, los sistemas documentales se ajustan mejor a las imágenes pero no dejan de ser una adaptación de sistemas destinados al análisis y recuperación de documentos textuales. Por otro lado, tenemos una base de datos de fotografías que suele complementar la recuperación, al ofrecer como resultado un mosaico de imágenes que posibilita una selección visual por parte del usuario.
En este sistema se suele llevar a cabo una indización manual en base a un procedimiento clasificatorio que, en ocasiones, se complementa con procesamiento automático del texto que acompaña a una imagen (el título o el pie de foto). Es un sistema que dista de ser perfecto y presenta problemas importantes. La causa principal de que esto sea así es que se usa texto lingüístico para procesar y recuperar atributos de naturaleza gráfica. No deja de ser, por tanto, una acomodación a conjuntos de imágenes, de un procedimiento concebido originalmente para el tratamiento de documentos textuales. La lectura de una fotografía es muy diferente a la lectura de un texto, la significación es distinta y muchos aspectos de la semántica de la imagen no pueden traducirse a descriptores textuales. Esta debilidad trata de solventarse a través de los mosaicos de instantáneas mencionados anteriormente. Sin embargo, esto no es ninguna solución porque pronto el usuario se ve desbordado ante las repercusiones que implican, la navegación entre conjuntos de resultados muy voluminosos. Por tanto, el texto es un buen complemento en el procesamiento y recuperación de imágenes pero un sistema no debe descansar de forma única en esta representación. Jesús Robledano lo resume muy bien al afirmar que “el modelo lingüístico no debería ser aplicado, en exclusividad, cuando una parte importante, o la totalidad del proceso de recuperación, debe basarse en la identificación de patrones gráficos no figurados, o sensaciones subjetivas del usuario, es decir, en atributos gráficos formales de la imagen o emotivos difícilmente verbalizables, como pueden ser: formas abstractas, colores, disposición espacial y relaciones espaciales entre elementos de la imagen, texturas, o sensaciones estéticas o emocionales provocadas por la contemplación de la imagen” (3) .La situación se ve especialmente agravada si nos movemos en un sistema que por sus particularidades (fondo, usuarios,…) requiera fomentar estas cualidades como elementos clave de la recuperación, como sería el caso, por ejemplo, de fondos de fotografías médicas. Otro factor que hace perder puntos al modelo lingüístico es el gran coste económico asociado a la indexación humana (4). Un ejemplo de sistema lingüístico lo encontraríamos en el banco de imágenes online de la empresa Corbis .

2. Sistemas virtuales puros: en estos sistemas, conocidos por la abreviatura CBIR (Content-Based Image Retrieval), la recuperación y la consulta se basan, sobretodo, en los atributos formales de las imágenes y darían relevancia, por tanto, a los aspectos de contenido con un bajo nivel de abstracción, especialmente color, textura, forma y disposición de los elementos. También se están desarrollando sistemas capaces de interpretar escenas que todavía están muy limitados y se vinculan, de momento, a aplicaciones de carácter experimental.
Los sistemas visuales puros pueden usar técnicas de programación algorítmicas y de Inteligencia Artificial. El primero de los casos se basa en el empleo de un programa que realiza un análisis de los atributos intrínsecos de las imágenes, análisis que a su vez es generador de un modelo matemático específico de cada fotografía. El conjunto de modelos producidos conforma los índices visuales de la Base de datos. De esta forma se crean descripciones de las imágenes de forma totalmente automática. En este tipo de sistemas el usuario usa herramientas de recuperación totalmente visuales, especificando su necesidad informativa a través de ejemplos o lenguajes visuales. En el primer caso el usuario puede acotar su búsqueda navegando a través de muestras que pueden ser imágenes, formas, colores o texturas y, a su vez, el usuario también tiene la posibilidad de dibujar figuras y perfilar colores a través del ratón. Por su parte, el lenguaje visual permite realizar búsquedas más refinadas pero no es tan intuitivo y precisa un determinado conocimiento de un lenguaje de consulta. Finalmente el usuario puede ir acotando su resultado final moviéndose, por similaridad (cuyo nivel, en ocasiones, es ajustable), entre las imágenes mostradas. En principio los sistemas algorítmicos son capaces de identificar, representar y comparar figuras, colores, texturas y relaciones espaciales entre elementos reconocidos en la imagen. Las consultas a través de colores pueden ser de dos tipos: por similaridad global del color que hay en la imagen y por áreas de color. Es interesante mencionar, que en la búsqueda por áreas de color, podemos elegir entre similaridad de dos fotografías que presenten una disposición de zonas cromáticas semejantes o realizar un rastreo a través de un patrón gráfico propuesto por el usuario. Por otro lado, estos sistemas también suelen reconocer e indexar los textos que se pueden encontrar en una imagen, a través de tecnología OCR (reconocimiento óptico de caracteres). De esta manera añaden un nuevo elemento para pulir la recuperación. Incluso, hay sistemas que combinan la información textual del pie de foto con la información gráfica de la imagen para generar identificaciones automáticas de rostros humanos .
A nivel comercial quizá el ejemplo más paradigmático lo tengamos en Like, una empresa de compra online que ofrece una interficie de búsqueda de productos basada, justamente, en aspectos visuales, permitiendo de esta forma seleccionar el tipo de producto a partir de atributos visuales como su color, su forma y otros aspectos.



Como hemos dicho anteriormente existe otra técnica aplicable a estos sistemas visuales: la Inteligencia artificial y, concretamente, hablaríamos del uso de redes neuronales en la recuperación automática de imágenes. En los últimos años ha habido avances muy interesantes en este terreno pero los procedimientos que gozan de mayor protagonismo son los sistemas algorítmicos.
Todos estos sistemas visuales presentan claras limitaciones y seguramente la más problemática es que son sistemas enfocados a la recuperación de las características intrínsecas de las imágenes. Sin embargo, la recuperación de imágenes requiere en muchos casos atacar documentos a través de sus propiedades extrínsecas, es decir, a partir de su contenido conceptual. La extracción de la significación extrínseca de una fotografía, está basada en un percepción sensorial e interpretación llevada a cabo por un ser humano. Dicha percepción está muy unida al conocimiento que presenta el interpretante y al proceso cognitivo global. Tal y como señala Jesús Robledano Arillo, “para la replicación de funciones sensoriales biológicas, no es suficiente con imitar el sistema sensorial, sino que se tiene que replicar todo el cerebro con toda su capacidad de pensamiento. Por este motivo, difícilmente puede ser asumida la atribución de significación extrínseca por una máquina”(6). Por tanto, los sistemas automáticos presentan problemas en el momento de indexar y recuperar características que van más allá de los aspectos físicos de la imagen. Cuando tratamos con propiedades de alto nivel que son fruto de la percepción e interpretación de las características físicas, entramos en un terreno donde es difícil moverse sin la intervención humana. De todas maneras, hay que decir que se están llevando a cabo investigaciones y proyectos interesantes para tratar de solventar esta dificultad. Una posibilidad es vincular bases de conocimiento que lleven asociadas contenido conceptual con atributos intrínsecos y, de esta forma, posibilite que el sistema sea capaz de interpretar escenas con lenguaje abstracto. Otra vía, reducida a solventar la percepción asociada al color, es la implementación de principios comúnmente aceptados en las artes plásticas. Por ejemplo, sensaciones como armonía, calidez, contraste o frialdad pueden ser formalizadas de forma automática a partir del tono que predomina en una imagen. Sin embargo, esto no sirve de nada cuando trabajamos en niveles de abstracción elevados que, sin duda, requieren de la mediación de un individuo para su indexación y de un sistema texto-lingüístico para su recuperación. Sería el caso, de fotografías de carácter artístico donde los “elementos retóricos” o “elementos de connotación” construyen sistemas de significación secundarios que en muchos casos se superponen a los atributos físicos (7) .
Otro de las debilidades que se suele relacionar a estos sistemas es la imprecisión a la hora de realizar una búsqueda muy específica. En este sentido, las quejas se orientan hacia la idea de que los resultados ofrecidos son poco concretos, con generalizaciones poco útiles. Se está trabajando para tratar de solventar este problema y uno de los caminos tomados es la incorporación de herramientas que acoten las características visuales. Sería un ejemplo, la posibilidad de determinar el nivel de similaridad entre imágenes con una escala numérica limitada. Uno de los autores que más está trabajando en éste aspecto es Sara Pérez Alvárez que señala como principal elemento de mejora, la creación de un diseño intuitivo y fácilmente asumible que venga acompañado de documentación clara y didáctica sobre el funcionamiento del sistema (8). Según la investigadora “el acercamiento de esta tecnología a las comunidades de usuarios pasa por unas explicaciones didácticas, unificación de criterios a la hora de nombrar los atributos de recuperación y, hoy en día, una implementación más extensa del método de indicación de la relevancia como herramienta de ayuda para mejorar, precisamente, el criterio que el usuario pueda tener sobre el funcionamiento interno y eficacia en la recuperación que ofrecen estos sistemas” (9).
3. Sistemas de representación lingüística y recuperación visual: en estos modelos, la recuperación se resuelve a través de elementos textuales asociados a imágenes pero, a su vez, el usuario puede usar las fotografías para ejecutar sus consultas. Se trataría de tesauros visuales que, en niveles de complejidad altos, ofrecen relaciones jerárquicas y asociativas entre imágenes. La ventaja más interesante es la posibilidad de buscar y moverse por la base de datos a través de aspectos visuales. El inconveniente es que es apto únicamente para dominios muy concretos.
4. Sistemas de representación visual y recuperación lingüística: se trata de sistemas muy complejos que requieren un esfuerzo bastante elevado. La idea sería superar las debilidades de los dos principales sistemas: el lingüístico y los visuales puros. De esta manera, por un lado, la falta de especificidad en las consultas de los sistemas visuales puros se vería solventada permitiendo la construcción de ecuaciones de búsqueda con elementos textuales. Por otro lado, las limitaciones del lenguaje a la hora de describir determinados atributos intrínsecos de las imágenes, se solucionaría realizando asociaciones de fotografías a conceptos expresados lingüísticamente. El usuario ataca al sistema mediante términos y obtiene como resultados un conjunto de imágenes asociadas automáticamente por características intrínsecas. Es decir, que la persona que interactúa, textualiza su necesidad informativa y el sistema a su vez le ofrece imágenes que, en un primer paso, se circunscriben al concepto formalizado en la consulta y en un segundo paso, el sistema realiza una búsqueda automática de imágenes similares a las asociadas al concepto expresado en lenguaje natural.
Su flaqueza reside en su alto nivel de complejidad ya que requiere establecer una base de conocimiento personalizada para cada usuario.
5. Sistemas mixtos: son sistemas híbridos que tratan de complementar los modelos visuales con los lingüísticos en la operación de recuperación. Son los más indicados para trabajar con fondos de imágenes digitales de grandes dimensiones, ya que posibilita el acceso a la fotografía por cualquiera de sus atributos. Es decir, se trata de sistemas capaces de representar y recuperar por contenido en diferentes niveles de abstracción. Sin embargo, los estudios sobre esta temática son escasos y no se ha prestado mucha atención a los sistemas, enfocados al usuario no especialista, que complementan técnicas textuales y visuales para mejorar la pertinencia en la recuperación (10).
Dentro de esta categoría encontraríamos tres tipos de sistemas mixtos:

  1. El sistema visual puro integrado con un sistema lingüístico: son los más comunes entre los sistemas mixtos. Estos sistemas permiten combinar consultas de carácter visual y lingüístico. De esta manera, el usuario puede emprender una búsqueda a través de la inserción de un concepto textual, navegando a través de categorías temáticas clasficatorias o moviéndose a partir de imágenes establecidas a modo de muestra orientativa. El objetivo es que el usuario utilice, en una primera instancia, las clasificaciones temáticas y vaya especificando su necesidad hasta afinarla con las técnicas de recuperación puramente visuales. A modo de ejemplos, en el ámbito cultural hemos de destacar el sistema QBIC de IBM que funciona actualmente en el fondo de imágenes del Museo Hermitage .
  2. El sistema visual puro integrado con un sistema de representación visual y recuperación lingüística: Es un tipo de sistema que ambiciona cubrir niveles de abstracción de la imagen, de carácter más profundo. Consiste en la combinación de dos modelos: el visual puro, que se encargaría de indexar, de forma automática, los atributos formales de las fotografías (formas, disposición de elementos, tonos y texturas) y el modelo de usuario, que consistiría en usar como herramienta de recuperación el texto que la persona introduce cuando describe sensaciones que le generan imágenes que observa. El primer modelo permitiría al usuario atacar la base datos a partir de ejemplos gráficos visuales, que pueden ser creados por la propia persona mediante una pizarra electrónica. El segundo modelo es más complejo y descansa en la idea de que la máquina va aprendiendo y creando una serie de asociaciones a través de los términos que el usuario atribuye a determinadas imágenes. Para que funcione correctamente el usuario ha de realizar un registro previo, que permita a la máquina poder vislumbrar parte de su sistema cognitivo. El sistema contiene una serie de relaciones entre color y sensaciones estéticas que le permite ofrecer resultados a partir de adjetivos introducidos por el usuario. Se trata, por tanto, de un sistema hecho a la medida del usuario que requiere altos niveles de personalización asumibles, únicamente, a partir de la construcción de una base de conocimiento por cada usuario. Además, funciona con un número de adjetivos y sensaciones limitadas porque todo se basa en el registro previo que el sistema requiere a todo usuario.
  3. El sistema visual puro integrado con un modelo de clasificación automática a partir del texto lingüístico que acompaña a la imagen: Se trata de sistemas especialmente enfocados a la obtención de imágenes que cuelgan de la red. Las imágenes que van integrando el sistema son indexadas a partir de los tonos que presentan, la distribución de sus colores y el texto que les acompaña insertándolas, de manera automática, en índices clasificatorios. De esta manera, el usuario puede atacar al sistema ejecutando búsquedas combinadas donde se conjuguen texto de la web, aspectos visuales e incluso categoría temática (11)

(1) Jesús Robledano Arillo. El tratamiento de la fotografía de prensa: sistemas de análisis y recuperación. Madrid: Archiviana, 2002, p. 119.
(2) Dicha clasificación ha sido establecida por Jesús Robledano Arillo que se ha basado en la distinción previa realizada por Peter Enser, el cual diferencia entre LL (representación textual y empleo de de criterios de recuperación textuales), VV (representación automática visual y criterios de recuperación visuales), LV (representación textual y crtiterios de recuperación visuales), VL (representación visual y criterios de recuperación textuales). Peter Enser. “Progress en Documentation Pictorial Information Retrieval”. Journal of Documentation. Núm 5, 1995. Citado en: Jesús Robledano Arillo, op. cit., 160.
(3) Ibid., p. 134.
(4) Hay autores como Sara Pérez Alvárez que no prestan tanta atención al problema económico así como a la “nversión de tiempo e incosistencia que supone la indización humana. Sara Pérez Alvárez. “Usabilidad de sistemas de recuperacion de imágenes basados en atributos visuales”. 2as Jornadas de tratamiento y recuperación de la información. Madrid: Universidad Carlos III, 2003, p. 128.
(5) Es el caso del sistema que describieron Srihari y Rapaport. Rohini K. Srihari. “Automatic Indexing and Content-Based Retrieval of Captioned Images”. En: Computer. Núm.9, p. 49-56. Citado en: Jesús Robledano Arillo, op. cit., p. 144.
(6) Jesús Robledano Arillo, op. cit., p. 148.
(7) Roland Barthes, situado en niveles de abstracción muy altos, nos advierte como “percibir el significante fotográfico no es imposible (hay profesionales que lo hacen), pero exige un acto secundario de saber o de reflexión”. El autor defiende la idea de que la fotografía va más allá de lo que vemos y su sentido estaría más asociado a la “esencia” o al “referente” que acompaña a las imágenes. En este sentido, según Barthes, “sea cual sea lo que ella ofrezca a la vista y sea cual sea la manera empleada. Una foto es siempre invisible: no es a ella a quien vemos”. Roland Barthes. La cámara lúcida: Nota sobre la fotografía. 7ª ed. Barcelona [etc.] : Paidós, DL 1999, pp. 32-33.
(8) Sara Pérez Alvárez. op. cit., p. 133.
(9)
Ibid., p. 133.
(10) No se conoce ningún progreso en la materia, pero es importante señalar que esta afirmación se sostiene a partir de la lectura de la obra de Jesús Robledano Arillo que data del 2002. Jesús Robledano Arillo, op. cit., p. 153.
(11) Un claro ejemplo de este tipo de sistemas es el WebSEEK de la Universidad de Columbia dirigido y desarrollado por los profesores John R. Smith y Shih-Fu Chang, en los años 90