Cómo añadir texto en las imágenes creadas con inteligencia artificial

Millones de personas en todo el mundo crean imágenes a diario usando plataformas de Inteligencia Artificial. Desde DALL-E, herramienta integrada en ChatGPT Plus, hasta Midjourney, pasando por otras menos conocidas, estas aplicaciones forman parte ya de nuestro día a día, pero incluir texto en ellas no es una tarea tan sencilla.
Cómo añadir texto en las imágenes creadas con Inteligencia Artificial

Las herramientas de generación de imágenes que usan IA crean el contenido usando diferentes técnicas, siempre con generación de colores, píxeles y redes neuronales que indican lo que debe aparecer en cada zona, pero no están preparadas para trabajar con algo tan sencillo como un texto, por lo que debemos recurrir a técnicas específicas para obtener los resultados deseados.

Probando con Midjourney

Veamos un ejemplo con Midjourney. Si pedimos que haga una imagen de una tienda en medio del desierto, obtenemos un resultado perfecto:

Probando con Midjourney. Foto: Juan Diego Polo/MidJourney

Ahora le pedimos que dibuje una tienda en el desierto, pero que añada un cartel con el texto “oferta” en la parte superior de la puerta:

Descripción de la imagen

Fijaos que el resultado no es perfecto, podría ser mucho mejor, por lo que ahora llega el truco real, el de poner “OFERTA” con comilla doble, en lugar de con comilla simple:

Instrucciones para añadir texto a la imagen. Foto: Juan Diego Polo/Midjourney

Aún comete errores, pero el texto lo entiende mucho mejor.

Probando ahora con DALL-E

Si hacemos el mismo experimento con DALL-E el resultado es completamente diferente.

Al pedir la tienda en medio del desierto tenemos lo siguiente:

Probando ahora con DALL-E. Foto: Juan Diego Polo/DALL-E

Al pedirle que ponga un cartel de “oferta” en la parte superior, genera:

Este es el con DALL-E. Foto: Juan Diego Polo/DALL-E

Como veis, no respeta la imagen original, pero pone el texto con mucha exactitud. Eso se debe a que ChatGPT, con DALL-E integrado, tiene más control sobre los textos, debido a que en su entrenamiento ha recibido más imagen con contenido textual que el recibido por Midjourney.

Por otro lado, la calidad fotográfica sigue siendo mejor la de Midjourney, el rey en calidad de texto a imagen por el momento, aunque tenemos que tener en cuenta que la magia de Sora, plataforma de texto a vídeo que ha ocupado todos los titulares de las últimas semanas, es propiedad de OpenAI, dueños también de ChatGPT.

Por qué es tan difícil incluir texto en la IA

Incluir texto dentro de imágenes generadas por IA, como en el caso de plataformas de generación de imágenes, presenta varios desafíos técnicos y éticos. Aquí algunos de los principales motivos por los que puede ser difícil:

  • Comprensión contextual: Para incluir texto de manera efectiva en una imagen, la IA necesita entender el contexto adecuadamente, lo que incluye el significado del texto, su relevancia dentro de la escena, y cómo debería interactuar visualmente con otros elementos de la imagen. Esto requiere una comprensión avanzada de los lenguajes naturales y visuales, algo que aún está en desarrollo.
  • Colocación y diseño: La colocación adecuada del texto en una imagen es esencial para que se vea natural y sea legible. Esto implica considerar aspectos como el tamaño del texto, el contraste con el fondo, y la interacción con otros elementos de la imagen. Lograr esto automáticamente de manera consistente es un desafío técnico significativo.
  • Calidad y legibilidad del texto: Generar texto que sea legible y estéticamente agradable dentro de una variedad de contextos y fondos puede ser difícil. El texto debe ser claro y distinguible, lo cual puede ser un desafío en imágenes complejas o muy detalladas.
  • Control y personalización: Ajustar el texto para que cumpla con las intenciones específicas del usuario requiere un nivel de control y personalización que puede ser complejo de implementar. Esto incluye ajustes de fuente, color, y estilo, que deben ser flexibles y capaces de adaptarse a una amplia gama de solicitudes y preferencias.
  • Ambigüedad y errores de interpretación: La generación de texto basada en solicitudes verbales puede llevar a ambigüedades o malentendidos sobre el significado o la intención detrás del texto solicitado, lo que podría resultar en generaciones que no cumplen con las expectativas del usuario.

Estos desafíos requieren un trabajo continuo en el desarrollo de algoritmos y en la mejora de las capacidades de inteligencia artificial para manejar tareas complejas de generación de imágenes con texto de manera efectiva y ética.

Recomendamos en

Electricidad con precisión matemática, la inteligencia artificial para la predicción de los consumos energéticos

Electricidad con precisión matemática: la inteligencia artificial para la predicción de los consumos energéticos

¿Y si pudiéramos anticiparnos al consumo de electricidad con la misma precisión con la que consultamos el tiempo? Gracias a los avances en inteligencia artificial y matemáticas aplicadas, investigadores del BCAM han desarrollado modelos capaces de predecir la demanda energética en tiempo real y con fiabilidad.
  • Santiago Mazuelas Franco
  • Jose Antonio Lozano Alonso
  • Verónica Álvarez Castro
  • Onintze Zaballa Larumbe