Google dio a conocer Gemini Omni, su más reciente modelo de inteligencia artificial con capacidades multimodales. Esta herramienta es capaz de comprender y generar contenido que combina video, imagen, texto y audio de manera integrada, según informó la compañía.
La presentación oficial de esta tecnología tuvo lugar durante el evento Google I/O 2026, lo que representa un paso importante en la estrategia de la empresa frente al crecimiento de otras firmas en el sector de la IA generativa.
¿Qué es Gemini Omni y cómo funciona?
Gemini Omni es la última apuesta de Google DeepMind en el campo de la inteligencia artificial generativa. Se trata de un modelo clasificado como “Modelo del Mundo”, diseñado para procesar simultáneamente lenguaje, imágenes, audio y video, facilitando una interacción fluida y natural con el usuario.
De acuerdo con Demis Hassabis, director ejecutivo de Google DeepMind, el objetivo principal es “crear cualquier cosa a partir de cualquier entrada”.
A diferencia de plataformas previas, Gemini Omni es nativamente multimodal. Esto implica que puede tomar como referencia cualquier combinación de imágenes, textos, videos o audios, y generar contenido cohesivo que responda a las instrucciones del usuario.
Por ejemplo, un usuario puede subir una fotografía, añadir un texto descriptivo y una pista de audio, y solicitar a Omni que produzca un video que combine todos estos elementos de manera coherente.
El primer modelo disponible dentro de esta familia es Gemini Omni Flash, que permite la creación de clips de hasta 10 segundos con video y audio. Esta herramienta destaca por su capacidad para editar y transformar videos utilizando simplemente lenguaje natural, lo que supone un avance frente a los sistemas tradicionales de texto a video.
Gemini Omni permite al usuario modificar fondos, introducir efectos especiales, alterar ángulos de cámara o cambiar detalles concretos dentro de una escena, todo ello a través de instrucciones conversacionales. Además, mantiene la coherencia de los personajes, la física de los movimientos y la memoria de los cambios realizados en la secuencia, facilitando una edición mucho más intuitiva.

Usos y aplicaciones de Gemini Omni
La utilidad de Gemini Omni se extiende tanto a la creación de contenido original como a la edición de material ya existente. Un usuario puede grabar un video y pedir al modelo que transforme la acción, agregue nuevos objetos o personajes, o reinterprete la escena bajo un nuevo estilo o contexto.
Por ejemplo, se puede solicitar que una escultura aparezca hecha de burbujas, o que el reflejo de un espejo se convierta en líquido cuando una persona lo toca.
Otra función destacada es la capacidad para refinar videos en múltiples etapas. Es posible realizar una primera edición, visualizar el resultado y, posteriormente, añadir nuevas instrucciones para modificar el entorno, el estilo visual, los efectos de movimiento o cualquier detalle específico, sin perder la coherencia con la edición original.
Gemini Omni también puede generar explicaciones visuales complejas a partir de indicaciones breves. Por ejemplo, puede crear un video estilo claymation para explicar el proceso de plegamiento de proteínas, o producir secuencias educativas que integren referencias históricas, científicas o culturales, aprovechando el conocimiento contextual del modelo.
[IMAGEM_1]
¿Cómo se podrá acceder a Gemini Omni?
El despliegue de Gemini Omni ha comenzado con el modelo Omni Flash, disponible desde este martes para los usuarios de los planes Google AI Plus, Pro y Ultra, a través de la aplicación Gemini y Google Flow. Próximamente, la tecnología llegará también a YouTube Shorts y YouTube Create, donde estará disponible de forma gratuita.
Para quienes deseen utilizar Omni con fines profesionales o integrarlo en desarrollos propios, Google ha anunciado que en las próximas semanas habilitará el acceso mediante API para desarrolladores y empresas. Por el momento, no se ha confirmado una fecha oficial para esta segunda etapa.
El nuevo plan AI Ultra de Google tendrá un costo de 100 dólares mensuales, ofreciendo límites de uso más elevados. El plan anterior, de 250 dólares, reducirá su precio a 200 dólares, lo que busca ampliar el acceso a la herramienta en distintos segmentos de usuarios.
Fuente: Infobae