Qué puede hacer Omni que otros modelos no podían
Antes de Omni, los modelos de generación de video de Google —entre ellos Veo— requerían instrucciones muy precisas para funcionar bien. Se describía cada detalle: el ángulo de la cámara, la iluminación, el movimiento, el ambiente. Omni elimina esa carga.
De acuerdo con la guía técnica publicada por Google DeepMind , con Omni no es necesario ser tan específico en el prompt porque el modelo razona sobre lo que debería suceder y llena los detalles usando su propio conocimiento del mundo: historia, ciencia, física, cultura. Le puedes decir «explica visualmente la diferencia entre computación clásica y computación cuántica» sin describir cómo debería verse cada escena. Omni lo deduce.

A eso se suma otra capacidad clave: la memoria de contexto. Cuando editas un video, el modelo recuerda lo que ya hiciste. Los personajes mantienen coherencia visual entre instrucciones.
Cómo se edita un video con lenguaje natural
El flujo de trabajo funciona como una conversación. Subes tu video —o partes desde uno generado por el modelo— y empiezas a dar instrucciones en texto. Cada instrucción se construye sobre la anterior.
Google DeepMind documenta varios tipos de edición que el modelo entiende de forma nativa:
Cambios de elementos específicos. Puedes pedirle que transforme un objeto en particular sin alterar el resto del video. En los ejemplos de la guía oficial, una instrucción como «cambia la mariposa por una abeja» modifica ese elemento y preserva todo lo demás. Una instrucción posterior —»convierte la abeja en un pequeño enjambre de luciérnagas»— toma el resultado anterior como punto de partida.

Control de cámara. Omni entiende terminología cinematográfica real. Puedes pedirle ángulos específicos como «static», «locked off» o «fixed». Puedes indicar movimientos como «push in», «dolly zoom» o «punch in». También puedes definir el estilo de cámara: «natural smartphone zoom», «film camera» o «webcam style». No necesitas saber qué significa cada término para usarlo —puedes experimentar— pero el modelo los ejecuta con precisión técnica.




