El sábado, el servicio de imágenes de IA de Midjourney comenzó la prueba alfa de la versión 4 (“v4”) de su modelo de síntesis de texto a imagen, disponible para los suscriptores en su servidor Discord. El nuevo modelo proporciona más detalles que los disponibles anteriormente, lo que inspira a algunos artistas de IA a señalar que v4 hace que sea casi “demasiado fácil” obtener resultados de alta calidad a partir de indicaciones simples.
Midjourney se abrió al público en marzo como parte de una primera ola de modelos de síntesis de imágenes de IA. Rápidamente ganó muchos seguidores debido a su estilo distintivo y por estar disponible públicamente antes de DALL-E y Stable Diffusion. En poco tiempo, la obra de arte de Midjourney llegó a los titulares al ganar concursos de arte, proporcionar material para registros de derechos de autor potencialmente históricos y aparecer en sitios web de ilustraciones de archivo (luego prohibidos).
Con el tiempo, Midjourney ha refinado su modelo con más capacitación, nuevas funciones y más detalles. El modelo predeterminado actual, conocido como “v3”, debutó en agosto. Ahora, Midjourney v4 es puesto a prueba por miles de miembros del servidor Discord del servicio que crean imágenes a través del bot Midjourney. Actualmente, los usuarios pueden probar v4 agregando “–v 4” a sus avisos.
“V4 es una base de código completamente nueva y una arquitectura de IA completamente nueva”, escribió el fundador de Midjourney, David Holz, en un anuncio de Discord. “Es nuestro primer modelo entrenado en un nuevo supercúmulo de inteligencia artificial Midjourney y ha estado en proceso durante más de 9 meses”.
En nuestras pruebas del modelo v4 de Midjourney, encontramos que proporciona muchos más detalles que v3, una mejor comprensión de las indicaciones, mejores composiciones de escena y, a veces, una mejor proporcionalidad en sus temas. Al buscar imágenes fotorrealistas, algunos resultados que hemos visto pueden ser difíciles de distinguir de las fotos reales a resoluciones más bajas.
Según Holz, otras características de v4 incluyen:
– Mucho más conocimiento (de criaturas, lugares y más)
– Mucho mejor para obtener pequeños detalles (en todas las situaciones)
– Maneja solicitudes más complejas (con más niveles de detalle)
– Mejor con escenas multi-objeto/multi-personaje
– Admite funciones avanzadas como solicitud de imagen y solicitudes múltiples
– Admite –chaos arg (configúrelo de 0 a 100) para controlar la variedad de cuadrículas de imágenes
La reacción a Midjourney v4 ha sido positiva en Discord del servicio, y los fanáticos de otros modelos de síntesis de imágenes, que regularmente luchan con solicitudes complejas para obtener buenos resultados, están tomando nota.
Un usuario de Reddit llamado Jon Bristow publicó en la comunidad r / StableDiffusion: “¿Alguien más piensa que Midjourney v4 es ‘demasiado fácil’? Este fue un ‘primer plano de una cara’ y parece que no lo lograste. Como si fuera prefabricado”. En respuesta, alguien bromeó: “Triste por los apuntadores profesionales que perderán su nuevo trabajo creado hace un mes”.
Midjourney dice que v4 todavía está en alfa, por lo que continuará corrigiendo las peculiaridades del nuevo modelo con el tiempo. La compañía planea aumentar la resolución y la calidad de las imágenes ampliadas en v4, agregando una relación de aspecto personalizada (como v3), aumentando la nitidez de la imagen y reduciendo los artefactos de texto. Midjourney está disponible por una tarifa de suscripción mensual que varía entre US $ 10 y $ 50 por mes.
Teniendo en cuenta el progreso que Midjourney ha logrado en ocho meses de trabajo, nos preguntamos qué traerá el próximo año en síntesis de imágenes.
Ir a debate…