Meta asegura tener una IA que razona como los humanos y que traerá imágenes muchos más realistas

Se llama I-JEPA y, según sus creadores ofrecerá mejores resultados que los modelos de inteligencia artificial existentes porque aprende no solo de datos, sino también de imágenes y sonidos.
Ordenador inteligencia artificial

I-JEPA es el nombre del nuevo modelo de IA, propiedad de Meta que, según la compañía, es capaz de razonar de la misma manera que lo hacemos los seres humanos. Además, la empresa de Mark Zuckerberg asegura que nos ofrecerá imágenes mucho más realistas que las que estamos acostumbrados a ver.

En Meta aseguran que I-JEPA evitará los sesgos. - iStock

El nombre del modelo, I-JEPA, significa arquitectura predictiva de incrustación conjunta de imágenes, en español. La compañía, que también posee Facebook e Instagram, ha anunciado que pondrá los componentes del nuevo modelo de IA a disposición de los investigadores para que puedan usarla en sus productos.

La inteligencia artificial de Meta funciona siguiendo la filosofía de Yann LeCun, que es el investigador jefe de inteligencia artificial de la compañía. En su opinión, la IA debería aprender a pensar como lo hacemos las personas. Eso pasaría por enseñarle qué es el sentido común y cómo funciona el mundo. De esta forma, el modelo generará contenido más desde la percepción que desde los datos, es decir, de datos no etiquetados como pueden ser las imágenes o los sonidos.

Según LeCun, con I-JEPA se tratará de evitar los sesgos y “predecir la representación de una parte de una entrada (como una imagen o un fragmento de texto) a partir de la representación de otras partes de la misma entrada”.

En el caso de las imágenes, el modelo de Meta será capaz de completar imágenes que no estén terminadas con más precisión que la que consiguen los modelos que existen en el mercado. Al rellenar lo que falta con más precisión, se reducirán las posibilidades de cometer errores en el contenido, faltas que una persona no haría, como dibujar una mano con más dedos de la cuenta.

“Al predecir representaciones a un alto nivel de abstracción en lugar de predecir directamente los valores de los píxeles, se espera aprender directamente representaciones útiles que también eviten las limitaciones de los enfoques generativos, que subyacen en los grandes modelos lingüísticos que tanta expectación han generado recientemente”, dicen desde la compañía.

En comparación con los modelos de IA de generación de imágenes existentes, I-JEPA emplea objetivos de predicción abstractos para los que se eliminan potencialmente los detalles innecesarios a nivel de píxel, lo que permite al modelo aprender más características semánticas.

Para lograr que I-JEPA produzca representaciones semánticas se ha utilizado una estrategia de enmascaramiento multibloque. “Demostramos la importancia de predecir grandes bloques que contienen información semántica (con una escala suficientemente grande), utilizando un contexto informativo (distribuido espacialmente)”, dicen en Meta.

En la compañía afirman que I-Jepa servirá también para crear vídeos a partir de entradas de audio y texto. 

Referencia: I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI. https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/

Recomendamos en