Cómo añadir texto en las imágenes creadas con inteligencia artificial

Ingeniero

Creado: 29.02.2024 | 14:50 Actualizado: 5.03.2024 | 10:54

Las herramientas de generación de imágenes que usan IA crean el contenido usando diferentes técnicas, siempre con generación de colores, píxeles y redes neuronales que indican lo que debe aparecer en cada zona, pero no están preparadas para trabajar con algo tan sencillo como un texto, por lo que debemos recurrir a técnicas específicas para obtener los resultados deseados.

Probando con Midjourney

Veamos un ejemplo con Midjourney. Si pedimos que haga una imagen de una tienda en medio del desierto, obtenemos un resultado perfecto:

Ahora le pedimos que dibuje una tienda en el desierto, pero que añada un cartel con el texto “oferta” en la parte superior de la puerta:

Fijaos que el resultado no es perfecto, podría ser mucho mejor, por lo que ahora llega el truco real, el de poner “OFERTA” con comilla doble, en lugar de con comilla simple:

Instrucciones para añadir texto a la imagen. Foto: Juan Diego Polo/Midjourney

Aún comete errores, pero el texto lo entiende mucho mejor.

Probando ahora con DALL-E

Si hacemos el mismo experimento con DALL-E el resultado es completamente diferente.

Al pedir la tienda en medio del desierto tenemos lo siguiente:

Probando ahora con DALL-E. Foto: Juan Diego Polo/DALL-E

Al pedirle que ponga un cartel de “oferta” en la parte superior, genera:

Este es el con DALL-E. Foto: Juan Diego Polo/DALL-E

Como veis, no respeta la imagen original, pero pone el texto con mucha exactitud. Eso se debe a que ChatGPT, con DALL-E integrado, tiene más control sobre los textos, debido a que en su entrenamiento ha recibido más imagen con contenido textual que el recibido por Midjourney.

Por otro lado, la calidad fotográfica sigue siendo mejor la de Midjourney, el rey en calidad de texto a imagen por el momento, aunque tenemos que tener en cuenta que la magia de Sora, plataforma de texto a vídeo que ha ocupado todos los titulares de las últimas semanas, es propiedad de OpenAI, dueños también de ChatGPT.

Por qué es tan difícil incluir texto en la IA

Incluir texto dentro de imágenes generadas por IA, como en el caso de plataformas de generación de imágenes, presenta varios desafíos técnicos y éticos. Aquí algunos de los principales motivos por los que puede ser difícil:

Comprensión contextual: Para incluir texto de manera efectiva en una imagen, la IA necesita entender el contexto adecuadamente, lo que incluye el significado del texto, su relevancia dentro de la escena, y cómo debería interactuar visualmente con otros elementos de la imagen. Esto requiere una comprensión avanzada de los lenguajes naturales y visuales, algo que aún está en desarrollo.
Colocación y diseño: La colocación adecuada del texto en una imagen es esencial para que se vea natural y sea legible. Esto implica considerar aspectos como el tamaño del texto, el contraste con el fondo, y la interacción con otros elementos de la imagen. Lograr esto automáticamente de manera consistente es un desafío técnico significativo.
Calidad y legibilidad del texto: Generar texto que sea legible y estéticamente agradable dentro de una variedad de contextos y fondos puede ser difícil. El texto debe ser claro y distinguible, lo cual puede ser un desafío en imágenes complejas o muy detalladas.
Control y personalización: Ajustar el texto para que cumpla con las intenciones específicas del usuario requiere un nivel de control y personalización que puede ser complejo de implementar. Esto incluye ajustes de fuente, color, y estilo, que deben ser flexibles y capaces de adaptarse a una amplia gama de solicitudes y preferencias.
Ambigüedad y errores de interpretación: La generación de texto basada en solicitudes verbales puede llevar a ambigüedades o malentendidos sobre el significado o la intención detrás del texto solicitado, lo que podría resultar en generaciones que no cumplen con las expectativas del usuario.

Estos desafíos requieren un trabajo continuo en el desarrollo de algoritmos y en la mejora de las capacidades de inteligencia artificial para manejar tareas complejas de generación de imágenes con texto de manera efectiva y ética.

Cómo añadir texto en las imágenes creadas con inteligencia artificial

Probando con Midjourney

Probando ahora con DALL-E

Por qué es tan difícil incluir texto en la IA

Los secretos de los palimpsestos revelados por IA: descubre los avances recientes en la restauración digital de manuscritos medievales

Crean el "DSM" de las IA: estas son las 32 formas en la que la inteligencia artificial puede "perder la cabeza" y ser peligrosa para la humanidad

Caravaggio y Magritte bajo el pincel de la computación cuántica: una IA está creando versiones propias de arte clásico

El vídeo más pequeño del mundo: 2.024 átomos organizados por una IA para explicar la física cuántica