Tecnología

DALL-E 2, la Inteligencia artificial que transforma palabras a imágenes fotorealistas

Open AI ha presentado DALL-E 2, una inteligencia artificial que convierte lo que escribimos en imágenes fotorealistas.

Open AI es una organización sin ánimo de lucro que tiene como objetivo desarrollar la inteligencia artificial en beneficio de la humanidad. La compañía se fundó en San Francisco a finales de 2015 por Elon Musk y Sam Altman, entre otros. Es pionera en el desarrollo de modelos de lenguaje como el GPT que en su tercera versión ya es capaz de crear textos escritos con una calidad muy similar a los que producimos los humanos.

Esos modelos de lenguaje se llaman autorregresivos, lo que quiere decir que aprenden del pasado para predecir los valores futuros.

DALL- E es una mezcla del nombre del pintor Salvador Dalí y el del personaje principal de la película WALL-E, de Disney. La primera versión de esta IA se lanzó en enero de 2021 y, aunque estaba limitada a combinaciones preestablecidas de palabras, llamó mucho la atención.

También puedes leer: Inteligencia Artificial de Google Research entiende los chistes

Ahora Open AI acaba de presentar DALL-E 2 una versión que según dicen sus creadores es mucho más avanzada y permite convertir pensamientos en imágenes fotorealistas con solo escribir su descripción en un texto.

Cómo funciona DALL-E 2

Open AI todavía no ha compartido esta inteligencia artificial al público. Pero según la presentación de la compañía a A DALL-E 2 le puedes pedir cosas como que genere imágenes de astronautas a caballo, osos de peluche haciendo experimentos químicos en un laboratorio o un tazón de sopa que en realidad es un portal a otra dimensión.

También se puede elegir el estilo que queremos que tenga, desde una imagen completamente fotorealista a otra dibujada en el estilo de pintores.

La programación de DALL-E 2 ya no está basada en el GPT-3 como la versión anterior. Esto le permite que no tenga que estar ceñida a una combinación de conceptos preestablecidos.

Ahora funciona en dos fases:

  • La primera usa otro modelo de lenguaje de Open AI llamado CLIP, que traduce descripciones de texto en imágenes.
  • Luego se ejecuta un tipo de red neuronal (modelo de difusión) para que la imagen generada sea lo suficientemente parecida a lo que quiere el CLIP.

También puede modificar imágenes ya existentes mediante indicaciones de texto y puede eliminar, modificar y sustituir elementos de una imagen por otros como hace Photoshop manteniendo el realismo de las sombras, las texturas y los reflejos.

Open AI tiene como propósito fundamental desarrollar una inteligencia artificial general, una inteligencia capaz de rivalizar con la de los humanos, que trabaje para el bien de la humanidad. “Hemos limitado la capacidad de DALL-E 2 de generar imágenes violentas, de odio o para adultos, escriben los investigadores de Open AI. “Al eliminar el contenido más explícito de los datos de entrenamiento, minimizamos la exposición de DALL-E 2 a estos conceptos. También hemos utilizado técnicas avanzadas para evitar la generación fotorrealista de rostros de personas reales, incluidos los de personajes públicos”.

Deja un comentario

Publicaciones relacionadas

Botón volver arriba