¿Cómo influirán herramientas como DALL-E en el estudio de la historia de las imágenes?

Los nuevos programas de generación de imágenes constituyen un desafío para los historiadores. ¿Qué pasará cuando las fuentes visuales del pasado se mezclen con los nuevos contenidos creados por una IA?

Serie de imágenes de un rinoceronte al estilo de la estampa de Alberto Durero, generada por el programa Craiyon **Craiyon**

Publicado: 12/09/2022 08:00

Actualizado: 12/09/2022 08:00

Desde hace semanas asistimos a una proliferación extraordinaria de imágenes generadas por inteligencias artificiales (IAs). Las novedades relativas a los diferentes programas y herramientas se suceden, sin que apenas dé tiempo a explorar en profundidad las posibilidades que cada versión ofrece: generar imágenes a partir de textos o de otras imágenes; editar los resultados y generar nuevas imágenes a partir de ellos; crear vídeos y animaciones a partir de estas imágenes, etc. Prácticamente cada día se anuncia una nueva aplicación, muchas veces desarrollada de forma colaborativa por comunidades de usuarios. Mientras, entre tanta noticia, cantidades ingentes de contenido visual son procesadas cada segundo.

En este artículo quisiera reflexionar acerca de este fenómeno desde una perspectiva quizás algo inusual: la de un historiador especializado en el estudio de imágenes creadas hace cientos de años, en torno a los siglos XVI y XVII. Y os preguntaréis: ¿qué tienen que ver las IAs y los contenidos visuales que circulan ahora con unas imágenes realizadas hace siglos? Más de lo que parece, como espero mostrar.

DALL-E, Midjourney, Craiyon, Stable Difussion… En cuanto tuve la oportunidad me puse a “experimentar” con estos programas. En un principio me intrigaba comprobar si estas IAs entrenadas para generar un sinfín de imágenes según los más variados estilos serían también capaces de aproximarse al tipo de fuentes visuales que analizo en mi trabajo de historiador. Decidí explorar este asunto centrándome en un tipo particular de imágenes: representaciones de animales y plantas “exóticas” realizadas durante los siglos XVI y XVII, una de mis líneas de investigación en historia de la ciencia e historia del arte.

Imágenes de tucanes realizadas en el siglo XVI según la técnica de la entalladura, generadas mediante los programas DALL-E

Es decir, frente a los innumerables paisajes con estética distópica, o retratos al estilo de Van Gogh, ¿qué tipo de resultado cabía obtener si le pedía a uno de estos programas que me generara, por ejemplo, una imagen de un tucán realizada en el siglo XVI según las diferentes técnicas empleadas en esa época?

La importancia del lenguaje

A medida que fui explorando opciones, tres aspectos del proceso me llamaron especialmente la atención. En primer lugar, la cuestión del lenguaje. Como es sabido, la mayoría de estos programas generan imágenes a partir de instrucciones o comandos textuales (prompts, en inglés). Es más, en este input textual radica gran parte de la sofisticación del resultado visual generado por las IAs, hasta el punto de que la comercialización de los prompts es ya un negocio establecido.

En mi caso, según iba experimentado con diferentes textos, los resultados, efectivamente, variaban de forma significativa. Esta dependencia con respecto al lenguaje me hizo pensar en los métodos de trabajo de mi propio campo de investigación, según los cuales el estudio de las fuentes visuales históricas no se entiende sin un análisis pormenorizado de otros elementos culturales asociados a ellas, entre ellos la dimensión lingüística.

Dos ejemplos de imágenes de tucanes de los siglos XVI y XVII según las técnicas de la entalladura y el grabado en hueco a buril, generadas mediante el programa Stable Diffusion.

En este sentido, una de las preguntas que empezó a guiar mis experimentos fue la de plantear de qué manera estas IAs están diseñadas para responder al tipo de jerga especializada que los estudiosos de las imágenes empleamos a la hora de analizar estos materiales. Me refiero, por ejemplo, al vocabulario empleado para describir las diferentes técnicas artísticas (e.g. “entalladura”), o a las categorías de periodización de un determinado corpus visual (e.g. “Barroco”). La diversidad de respuestas por parte de los programas ilustra bien la complejidad de este asunto, una complejidad a la que también debemos enfrentarnos los investigadores que trabajamos con las fuentes históricas.

Sesgo de disponibilidad

En segundo lugar, no dejaba de preguntarme por el tipo de fuentes visuales de las que se sirven estas IAs para crear las imágenes. ¿De dónde extraen la información visual y según qué criterios la procesan? El tema está dando muchísimo que hablar, sobre todo en lo que concierne al contenido visual sujeto a derechos de autor. Para el caso que nos ocupa sería interesante saber en qué medida los programas dependen de repositorios de fuentes visuales históricas digitalizadas. Y es que, a medida que iba generando resultados, podía en ocasiones reconocer la imagen de época (digitalizada) que había servido de “modelo” para el programa.

Con respecto a esto, cabe preguntarse hasta qué punto la visibilidad de ciertos materiales frente a la invisibilidad de otros en el marco de los proyectos de digitalización de fondos históricos podría influir en el tipo de resultados generados por las IAs. Dicho de otro modo, y a modo de ejemplo, la sobreabundancia de contenido digitalizado relativo a la cultura de la Edad Moderna europea, frente a la relativa invisibilidad de materiales asociados a otros contextos, podría introducir un sesgo eurocentrista en el corpus de imágenes de las que se sirven estos programas.

Finalmente, me llamó la atención la disparidad e incongruencia de los resultados. En términos generales, las imágenes generadas fueron muy poco satisfactorias, tanto a nivel de factura como de capacidad de representación. En ocasiones, sin embargo, el programa en cuestión parecía responder bien a las indicaciones textuales, hasta el punto de generar—de manera muy puntual, eso sí—resultados interesantes.

Es el caso de la serie de pruebas dedicadas a Jacopo Ligozzi (1547-1627), uno de los mayores especialistas en la creación de imágenes naturalistas de la Edad Moderna, en las que pueden apreciarse atisbos del estilo de este artista. Es el caso también de otros resultados en los que pueden reconocerse algunos elementos característicos de las imágenes de época, como las tonalidades de los fondos de algunos dibujos a color o la textura de una imagen impresa.

Serie de imágenes del siglo XVI representando un armadillo según la técnica del dibujo a color, generada mediante el programa DALL-E.

También fue interesante detectar que los programas parecían reproducir algunos de los lugares comunes y prejuicios asociados a estas fuentes visuales históricas, como, por ejemplo, asignar mayor calidad y precisión de imagen a ciertas técnicas artísticas, o a ciertos periodos. Con todo, entre los resultados generados encontré suficientes contraejemplos que restarían coherencia a estos supuestos patrones de respuesta.

DALL-E y los historiadores

¿Qué he podido sacar en claro a partir de estos primeros ensayos con las IAs? En primer lugar, no tengo dudas de que, dedicando más tiempo a estos programas e incorporando otras herramientas de creación y edición de imágenes, los resultados mejorarían muchísimo. En este sentido, es interesante constatar la importancia de la intervención humana en estos procesos—un tema que tiende a soslayarse entre tanto titular dedicado exclusivamente a la supuesta creatividad de las IAs. Por tanto, la pelota de la inventiva y a la pericia está, por así decirlo, en el campo de los usuarios y, desde luego, en el de las “cabezas pensantes” detrás de este fenómeno, esto es, los desarrolladores de estos programas.

“Los avances en este campo pueden tener repercusiones interesantes y positivas en los estudios históricos de las imágenes”

En segundo lugar, y adoptando una visión optimista, creo que los avances y mejoras en este campo pueden tener repercusiones interesantes y positivas desde la perspectiva de los estudios históricos de las imágenes. Por un lado, y al hilo de lo que comentaba anteriormente, el peso que están cobrando cuestiones relacionadas con el lenguaje—a la hora de redactar los prompts, a la hora de clasificar y etiquetar las imágenes y sus contenidos, o en el momento de comentar y analizar un resultado concreto—bien pudiera derivar en una atención más pormenorizada hacia los lenguajes técnicos y, por extensión, a las metodologías de trabajo empleados en las disciplinas especializadas en el estudio de las imágenes y sus contextos.

Dos imágenes de un mapache según el estilo de Jacopo Ligozzi, generadas mediante los programas Craiyon y Stable Diffusion.

Se trata de poner en valor la labor de profesionales en las áreas de las Humanidades y Ciencias Sociales, cuyo conocimiento experto sin duda debería tenerse en cuenta a la hora de plantear una lectura crítica acerca de esta forma nueva de cultura visual y de entender la creatividad. Por otro lado, creo que tanta expectación en torno a las imágenes generadas por IAs constituye una oportunidad idónea para regresar a las fuentes históricas y considerar y apreciar todo lo que tienen que aportar a nuestro disfrute y comprensión del complejo mundo de lo visual.

No me refiero sólo a cuestiones como la inventiva o la destreza técnica que subyacen a estas obras, o al elusivo tema de la belleza. Estoy pensando también en aspectos imposibles de captar en el ámbito de lo digital, como, por ejemplo, la dimensión material de estos objetos: la consistencia de un brochazo, la textura de una estampa, el peso de un libro, etc. En definitiva, sería deseable que el desarrollo de nuevas herramientas de visualización y creación de imágenes mediante IAs diera pie también a una revalorización del patrimonio visual existente, así como de las áreas profesionales que se dedican a su conversación y estudio.

“Se corre el riesgo de que estas nuevas herramientas acaparen de forma excesiva las fuentes de financiación”

No obstante, y por adoptar ahora una visión más crítica de este fenómeno, es importante alertar contra potenciales riesgos derivados de una fijación acrítica por estas novedades tecnológicas asociadas al mundo de la cultura visual. Por ejemplo, de manera similar a lo que sucedió hace unos años con los proyectos masivos de digitalización de patrimonio, se corre el riesgo de que estas nuevas herramientas y formas de pensar la imagen acaparen de forma excesiva recursos como las fuentes de financiación que sustentan la actividad académica, en detrimento de otras formas de aproximarse al estudio de la cultura visual que podrían ser vistas como menos atractivas o, peor aún, menos efectivas.

Serie de imágenes de la flor ave del paraíso según el estilo de Maria Sibylla Merian, generadas por el programa Midjourney.

Es lo que tienen las modas. ¿Qué intereses las impulsan? En el caso concreto que nos ocupa, ¿qué pensar, por ejemplo, de los miles de horas que los usuarios (me incluyo) estamos dedicando a poner a prueba estos programas, contribuyendo así a su desarrollo? ¿Quién se beneficia de este ejercicio colectivo de prueba y error? En cualquier caso, todo apunta a que el fenómeno de las imágenes generadas por IAs no es un fenómeno pasajero (tampoco es algo exclusivamente reciente, cabe añadir). Por ello creo que es sano mantener una actitud abierta y a la vez crítica con respecto a su evolución.

¿Nuevas imágenes para la historia?

Finalmente, quisiera aludir a una cuestión que me interesa no sólo como investigador sino también desde la perspectiva de mi labor docente y de divulgación. ¿Qué sucederá con el nuevo contenido visual generado por las IAs según se vaya incorporando al vasto corpus de imágenes que albergan sistemas como internet? ¿De qué manera condicionará este material el modo en que los usuarios hacemos uso de estos recursos, o, a nivel más amplio, las maneras en que interactuamos con las imágenes?

Imagen del siglo XVI representando un rinoceronte según la técnica de la entalladura, generada por el programa Stable Diffusion.

El experto en cultura digital y nuevos media Lev Manovich lanzaba esta pregunta hace unas semanas. El tema tiene implicaciones muy variadas. Por ejemplo, a medida que las IAs logren producir resultados cada vez más sofisticados, es posible que las imágenes obtenidas sean muy comparables a las versiones digitalizadas de las fuentes históricas. Por poner un caso: una búsqueda de imágenes de animales exóticos de la Edad Moderna podría incluir entre los resultados representaciones del tipo que he mostrado en este artículo, lo cual podría dar pie a equívocos y falsedades.

En realidad, como tantos otros ejemplos de manipulación de imágenes en la era digital—pensemos en los deep fakes—esta cuestión no es nueva, pues entronca con una problemática de largo recorrido en torno a la multiplicidad de usos de lo visual. En todo caso, y este es el punto sobre el que quiero incidir, la capacidad de discriminar emerge como requisito ineludible de cara a hacer frente a esta maraña de viejas y nuevas imágenes.

“La capacidad de discriminar emerge como requisito ineludible de cara a hacer frente a esta maraña de viejas y nuevas imágenes”

Discriminar en el sentido de saber distinguir y apreciar un tipo de material visual con respecto a otros, de saber diferenciar y valorar una manera de crear imágenes frente a otras. Reconocer, por ejemplo, la cadena de relaciones y procesos que vinculan un archivo de imagen depositado en un repositorio digital con el correspondiente objeto preservado en una biblioteca o en un museo. O comprender que este mismo archivo podría servir como modelo y punto de partida en la elaboración de una nueva imagen mediante la intervención de las IAs, dando como resultado un artefacto visual de naturaleza y contenido bien distintos.

En definitiva, el aluvión de recursos y materiales propiciado por el desarrollo de estas nuevas tecnologías puede ser una buenísima ocasión para reflexionar en diálogo con otras disciplinas qué supone trabajar con y acerca de las imágenes desde una perspectiva histórica, y, al mismo tiempo, reivindicar la importancia del saber discriminar, esto es, de educar nuestra mirada y poner a punto nuestro conocimiento. Todo ello sin menoscabo de la curiosidad e incluso admiración que, sin duda, despiertan este tipo de novedades.

Como investigador especializado en la historia de las imágenes científicas estoy siguiendo con mucho interés la evolución de los programas de generación de imágenes por #InteligenciaArtificial.

En este HILO voy a ir recopilando algunas reflexiones sobre el tema 👇 pic.twitter.com/WjX4Hr7d5a
— José Ramón Marcaida (@JoserraMarcaida) August 11, 2022

---

* José Ramón Marcaida (Instituto de Historia, CSIC) es un historiador de la ciencia y del arte interesado en las relaciones entre la cultura científica, la cultura visual y la cultura intelectual en la Edad Moderna.

Apoya el periodismo independiente y crítico de Vozpópuli

Ya no se pueden votar ni publicar comentarios en este artículo.