Apple, en colaboración con la Universidad de California en Santa Bárbara (UCSB), ha desarrollado un innovador modelo de inteligencia artificial denominado MGIE (MLLM-Guided Image Editing), que permite editar imágenes utilizando instrucciones en lenguaje natural. Este modelo de código abierto se distingue por su capacidad de interpretar y ejecutar órdenes de edición sin requerir un contexto detallado sobre la imagen o la solicitud.
MGIE se basa en los modelos de lenguaje multimodal de gran escala (MLLM), que combinan la comprensión del texto y el análisis de imágenes para realizar ediciones precisas y contextuales. Por ejemplo, al recibir la instrucción «hazla más saludable» aplicada a una imagen de pizza, MGIE es capaz de modificar la fotografía añadiendo tomates y hierbas, interpretando así el concepto de «saludable».
El modelo consta de dos componentes principales: un MLLM que genera instrucciones claras y concisas, y un modelo de difusión que realiza las ediciones de imagen basándose en una «imaginación latente» del resultado deseado. Este enfoque permite a MGIE manejar comandos humanos ambiguos y realizar ediciones que se alinean con las expectativas humanas, incluso en ausencia de detalles específicos.
MGIE no solo es capaz de realizar ediciones al estilo Photoshop, como eliminar elementos de una imagen, sino que también puede efectuar ajustes locales y globales, como modificar el contenido de una pantalla en una fotografía o ajustar el brillo y la definición de la imagen completa.
Aunque MGIE es actualmente un proyecto de investigación y no se ha confirmado su integración en el software de Apple disponible para el público, su desarrollo subraya el creciente interés de la compañía en la inteligencia artificial y el aprendizaje automático. Este proyecto se suma a iniciativas anteriores de Apple en el campo de la IA, como la introducción de MLX, una herramienta para crear modelos de aprendizaje automático.
Para aquellos interesados en explorar las capacidades de MGIE, está disponible una versión de prueba en Hugging Face Spaces. Además, el proyecto de código abierto ofrece acceso al código, datos y modelos preentrenados en GitHub, permitiendo a los usuarios experimentar con esta tecnología avanzada de edición de imágenes.
IA inesperadamente amena. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.