El proyecto, identificado técnicamente como Gemini 3.1 Flash Image, combina elementos de versiones anteriores, como Nano Banana y Nano Banana Pro, con una arquitectura denominada Flash que busca acelerar la producción de imágenes sin sacrificar la calidad visual.
El modelo de Nano Banana 2 puede traducir indicaciones de texto (prompts) en imagenes generadas algorítmicamente, con capacidades tanto de creación desde cero como de edición de imágenes existentes. Está integrado en diversos productos y servicios del ecosistema de Google, incluyendo la aplicación de Gemini, el modo IA y Google Lens en Búsqueda, herramientas para desarrolladores y plataformas en la nube.
El modelo pretende un equilibrio entre velocidad y fidelidad visual. Según la documentación oficial, ofrece detalles de iluminación más ricos, texturas más nítidas y una resolución de salida que puede alcanzar hasta 4K dependiendo del flujo de trabajo elegido.
Entre las funciones que destacan en la presentación oficial se incluyen:
*Consistencia de sujetos: el modelo puede mantener la identidad visual de hasta cinco personajes y la fidelidad de hasta 14 objetos en un mismo conjunto de imágenes generadas.
*Seguimiento de instrucciones complejas: Nano Banana 2 busca interpretar con mayor precisión descripciones detalladas para ajustar el resultado final.
*Producción en múltiples resoluciones: se pueden generar imágenes desde 512 px hasta 4K, con control de relaciones de aspecto variadas.
*Renderizado y traducción de texto dentro de imágenes: la herramienta incorpora capacidades para incorporar y localizar texto en múltiples idiomas directamente en el resultado visual.
Además, el modelo aprovecha lo que la empresa describe como «conocimiento avanzado del mundo» al apoyarse en datos e imágenes de búsquedas web en tiempo real para contextualizar mejor ciertos temas.




