Google ha dado un paso significativo en la evolución de su inteligencia artificial con la integración de la ‘agentic vision’ (visión agéntica) en el modelo Gemini 3 Flash. Esta innovadora funcionalidad permite que el sistema no solo observe una imagen de forma superficial, sino que la inspeccione y manipule de forma secuencial antes de ofrecer una contestación definitiva al usuario.
El modelo Gemini 3 Flash se presentó originalmente en el mes de diciembre como una alternativa más ágil y económica frente a la versión estándar de Gemini 3. Su propósito principal es optimizar las labores diarias y mejorar los flujos de trabajo mediante el uso de agentes de inteligencia artificial que requieren respuestas veloces y precisas.
Un enfoque activo en el análisis visual
Con esta actualización, se busca solventar una de las limitaciones recurrentes en el análisis de archivos por parte de los modelos tradicionales. En lugar de procesar los contenidos mediante un «solo vistazo estático», la nueva característica le permite a la herramienta adoptar un enfoque mucho más activo y detallado para estudiar cada elemento visual con detenimiento.
Según se ha detallado, el renovado Gemini 3 Flash
«introduce un ciclo de pensamiento, acción y observación en las tareas de comprensión de imágenes»
. Este avance se logra al entrelazar el razonamiento visual avanzado con la ejecución técnica de código, logrando que las respuestas finales estén sólidamente fundamentadas en evidencia visual real y comprobable.
Procesamiento mediante código Python
En la práctica, esto implica que la IA diseña una estrategia de múltiples etapas basada tanto en la imagen como en la solicitud del usuario. Durante este flujo de trabajo, el modelo posee la capacidad de generar y correr código Python para realizar acciones específicas sobre el archivo, tales como:
- Ampliar zonas de interés específico para ver detalles ocultos.
- Rotar y recortar la fotografía para mejorar la perspectiva de análisis.
- Anotar detalles relevantes que ayuden a la comprensión del contexto.
A través de esta metodología, el sistema crea una imagen transformada que incluye metadatos adicionales, facilitando un entendimiento profundo que es inspeccionado exhaustivamente por el modelo antes de emitir cualquier tipo de resolución final para el usuario.
Fuente: Fuente