Imagen 2, el sistema de creación de imágenes de Google: en qué consiste y cómo usarlo

Ingeniero

Creado: 23.12.2023 | 14:59

Google ha presentado una nueva plataforma que permitirá crear imágenes a partir de texto, compitiendo así con Midjourney y DALL-E 3 (el que está incluido dentro de ChatGPT).

Algunos ejemplos generados con Imagen 2. Foto: Google

Una de las características más notables de Imagen 2 es su capacidad para realizar tareas avanzadas de edición de imágenes, como el "inpainting" y el "outpainting". El "inpainting" permite a los usuarios crear contenido nuevo dentro de una imagen existente, mientras que el "outpainting" amplía los bordes de la imagen más allá de sus límites originales. Estas capacidades de edición están programadas para ser incorporadas en Vertex AI de Google Cloud en el próximo año.

De momento, Imagen 2 se destaca en su capacidad de preguntas y respuestas visuales, generando subtítulos descriptivos para las imágenes y proporcionando respuestas informativas a preguntas sobre los detalles de la imagen. Esta funcionalidad mejora la interactividad y la comprensión del contexto visual. Es semejante al comando /describe que hacemos en Midjourney.

En términos de seguridad, Imagen 2 incluye precauciones integradas para asegurar que las imágenes generadas se alineen con los principios de IA responsable de Google, como la integración con servicios de marca de agua digital experimental y filtros de seguridad para prevenir la generación de contenido potencialmente dañino.

El corazón de Imagen 2 radica en su sofisticada infraestructura y en la avanzada tecnología de inteligencia artificial desarrollada por Google DeepMind. Utiliza técnicas de modelado y entrenamiento de vanguardia, incluyendo algoritmos de difusión y métodos de aprendizaje profundo, lo que le permite interpretar con precisión los prompts de texto y convertirlos en visualizaciones fotorrealistas.

Estos son algunos de los ejemplos presentados, con su correspondiente prompt:

Algunos ejemplos creados con Imagen 2. Foto: Juan Diego Polo

Imagen 2 tiene aplicaciones prácticas en varios campos, como el diseño gráfico, el marketing, las redes sociales y la educación. En diseño gráfico y creación de arte, facilita la generación rápida de prototipos visuales o piezas artísticas completas. En marketing y branding, su habilidad para crear logotipos y realizar superposiciones de texto en múltiples idiomas la convierte en una herramienta valiosa.

Más ejemplos creados con Imagen 2. Foto: Juan Diego Polo

Para los creadores de contenido en redes sociales, proporciona una forma rápida y eficiente de producir imágenes atractivas y originales. Por otro lado, tiene aplicaciones significativas en la educación y la exploración cultural, como en Google Arts and Culture.

Cómo se usa y para quién es

Opción de Multimodal. Foto: Juan Diego Polo

La integración de Imagen 2 con SynthID representa una medida importante para garantizar la autenticidad y trazabilidad de las imágenes generadas por esta tecnología. SynthID es un sistema de marca de agua digital que se utiliza para identificar imágenes generadas artificialmente. Esta integración permite a Imagen 2 incorporar marcas de agua digitales en las imágenes que crea, ayudando así a distinguir entre imágenes generadas por IA y fotografías reales. Esta característica es crucial para abordar preocupaciones relacionadas con la autenticidad y el uso ético de las imágenes generadas por IA.

Para utilizar Imagen 2, el sistema de inteligencia artificial generativa de Google, los usuarios deben formar parte de Vertex AI, el servicio de Google Cloud. Esta plataforma proporciona un entorno donde Imagen 2 puede desplegarse y personalizarse, aprovechando la infraestructura de nube de Google para mejorar la accesibilidad y la eficiencia.

Los pasos generales para utilizar Imagen 2 podrían ser los siguientes:

Acceder a Vertex AI: debes tener acceso a Vertex AI de Google Cloud. Esto generalmente requiere una cuenta de Google Cloud y posiblemente acceso a APIs específicas o servicios en la nube de Google.
Utilizar el Modelo Multimodal Gemini: Imagen 2 es parte del modelo multimodal de inteligencia artificial de Google, denominado DeepMind. Los usuarios necesitan interactuar con este modelo para crear imágenes.
Enviar prompts de texto: la base del funcionamiento de Imagen 2 es la conversión de prompts de texto en visualizaciones. Los usuarios deben proporcionar descripciones detalladas o prompts de texto para generar las imágenes deseadas.

Es importante destacar que el acceso a Imagen 2 actualmente está limitado a desarrolladores y usuarios con acceso a la API correspondiente, y no está disponible para el público general. Esto significa que para utilizarlo efectivamente, se necesita un cierto nivel de conocimientos técnicos y acceso a recursos de Google Cloud.

Aún así, podéis crear una cuenta gratuita en Vertex AI, y os darán 300 euros de crédito, gratis, para que probéis las funciones que hay dentro, incluyendo entrenamiento de modelos de Inteligencia Artificial, acceso a Gemini Pro y mucho más.

Imagen 2, el sistema de creación de imágenes de Google: en qué consiste y cómo usarlo

Cómo se usa y para quién es

Así emiten alertas sísmicas millones de móviles Android en todo el mundo: los científicos detrás del sistema global de Google explican cómo funciona

Google intensifica sus rebajas veraniegas y tras el Pixel 9 ahora hunde el precio del smartphone Pixel 9a

Google responde con fuerza a Xiaomi, Realme y Apple derribando considerablemente el precio de su móvil Pixel 9

Nuevo hallazgo sobre la glucosa en tu cuerpo: revelan la ruta secreta que sigue el azúcar dentro de tus células