Editar videos ya es tan fácil como chatear: así funciona Gemini Omni el nuevo modelo de IA de Google

mayo 28, 2026
11:44 am

Qué puede hacer Omni que otros modelos no podían

Antes de Omni, los modelos de generación de video de Google —entre ellos Veo— requerían instrucciones muy precisas para funcionar bien. Se describía cada detalle: el ángulo de la cámara, la iluminación, el movimiento, el ambiente. Omni elimina esa carga.

De acuerdo con la guía técnica publicada por Google DeepMind , con Omni no es necesario ser tan específico en el prompt porque el modelo razona sobre lo que debería suceder y llena los detalles usando su propio conocimiento del mundo: historia, ciencia, física, cultura. Le puedes decir «explica visualmente la diferencia entre computación clásica y computación cuántica» sin describir cómo debería verse cada escena. Omni lo deduce.

A eso se suma otra capacidad clave: la memoria de contexto. Cuando editas un video, el modelo recuerda lo que ya hiciste. Los personajes mantienen coherencia visual entre instrucciones.

Cómo se edita un video con lenguaje natural

El flujo de trabajo funciona como una conversación. Subes tu video —o partes desde uno generado por el modelo— y empiezas a dar instrucciones en texto. Cada instrucción se construye sobre la anterior.

Google DeepMind documenta varios tipos de edición que el modelo entiende de forma nativa:

Cambios de elementos específicos. Puedes pedirle que transforme un objeto en particular sin alterar el resto del video. En los ejemplos de la guía oficial, una instrucción como «cambia la mariposa por una abeja» modifica ese elemento y preserva todo lo demás. Una instrucción posterior —»convierte la abeja en un pequeño enjambre de luciérnagas»— toma el resultado anterior como punto de partida.

Control de cámara. Omni entiende terminología cinematográfica real. Puedes pedirle ángulos específicos como «static», «locked off» o «fixed». Puedes indicar movimientos como «push in», «dolly zoom» o «punch in». También puedes definir el estilo de cámara: «natural smartphone zoom», «film camera» o «webcam style». No necesitas saber qué significa cada término para usarlo —puedes experimentar— pero el modelo los ejecuta con precisión técnica.

source

Web Medios

Colaboración de contenido "Expanción"

Virgin Mobile y Uber lanzan recargas con créditos para viajes y entregas

mayo 25, 2026

Kodak Chamera, el gadget que quiere revivir a Kodak y la nostalgia por el rollo

mayo 25, 2026

Centros de datos espaciales en dos años es “muy ambicioso”, dice Bezos

mayo 24, 2026

Tras juicio con Musk, OpenAI iría contra Apple por su integración de ChatGPT

mayo 23, 2026

La IA entra al negocio de los seguros de autos en México