Tecnologia con Juancho: 5 ventajas de la nueva generación de imágenes de ChatGPT con GPT-4o

OpenAI ha integrado la generación de imágenes directamente en ChatGPT, reemplazando su integración anterior con DALL-E. El nuevo sistema busca ofrecer resultados más consistentes y menos restricciones de contenido.

OpenAI comenzó a implementar esta capacidad de generación de imágenes nativa junto con GPT-4o en mayo de 2024. Según la compañía, esta función se convertirá en el generador de imágenes estándar para todos los usuarios de ChatGPT, desde los gratuitos hasta los clientes Enterprise. El acceso por API para desarrolladores está planeado para las próximas semanas. DALL-E seguirá disponible como opción separada a través de un GPT dedicado.

Mejor precisión gracias al procesamiento multimodal

El nuevo sistema procesa texto e imágenes juntos, lo que da resultados más precisos. Según OpenAI, puede manejar hasta 20 objetos diferentes simultáneamente manteniendo las relaciones correctas entre ellos. Esto lo hace especialmente útil para generar texto dentro de imágenes, como infografías o logos.

El sistema destaca con conceptos poco convencionales. Cuando se le pide generar "un caballo montando un astronauta", los modelos anteriores mostraban lo más común: un astronauta montando un caballo. Pero GPT-4o crea correctamente la escena inusual, lo que sugiere que entiende mejor las relaciones espaciales en lugar de repetir patrones comunes de sus datos de entrenamiento. Esto podría ampliar mucho las posibilidades creativas en generación de imágenes con IA.

El modelo puede "aprender en contexto", analizando imágenes subidas e incorporando sus detalles en nuevas generaciones. Los usuarios pueden refinar resultados mediante conversación natural, manteniendo el contexto en múltiples interacciones, lo que facilita perfeccionar una imagen mediante diálogo.

https://youtu.be/E9RN8jX--uc

Las primeras pruebas muestran que el sistema produce imágenes más consistentes que DALL-E 3, aunque aún no es perfecto. Pueden notarse pequeñas diferencias entre generaciones, como cambios mínimos en peinados o detalles de ropa.

OpenAI reconoce las limitaciones actuales del sistema. A veces recorta mal las imágenes, genera alucinaciones similares a las de los modelos de texto y tiene dificultades con escenas que incluyen muchos conceptos distintos.

OpenAI añade metadatos C2PA a todas las imágenes generadas, identificándolas claramente como creadas por IA. También desarrolló un sistema interno de búsqueda para rastrear imágenes creadas con este nuevo sistema.

Hacia políticas menos restrictivas

A diferencia de la estricta moderación de DALL-E 3, el CEO Sam Altman anunció que el nuevo sistema permite más libertad creativa, incluyendo contenido potencialmente ofensivo "dentro de lo razonable". Aún bloquea solicitudes de deepfakes, violencia o representaciones no autorizadas de personas reales.

Este lanzamiento sigue al reciente lanzamiento de Google de una función similar para su modelo Gemini, que también destacaba beneficios como consistencia entre imágenes, edición conversacional y renderizado preciso de texto.

Aunque generadores especializados como Midjourney o Ideogram ofrecen interfaces diseñadas específicamente para creación de imágenes, podrían no igualar la precisión de modelos multimodales integrados nativamente como esta nueva función de ChatGPT, un aspecto clave en tareas de creación visual.

Vía | OpenAI brings native image generation to ChatGPT

https://tecnologiaconjuancho.com/5-ventajas-de-la-nueva-generacion-de-imagenes-de-chatgpt-con-gpt-4o/

Tecnologia con Juancho

26 marzo 2025

5 ventajas de la nueva generación de imágenes de ChatGPT con GPT-4o

Mejor precisión gracias al procesamiento multimodal

Hacia políticas menos restrictivas

No hay comentarios.:

Publicar un comentario

Apple Intelligence retrasado: ¿La privacidad frena su IA?

Denunciar abuso