- 1) ¿Qué es Gemini Robotics ?
- 2) Arquitectura (alto nivel): de VLM a VLA con “razonamiento embebido”
- 3) Datos y generalización: del X-Embodiment a la adaptación rápida
- 4) ¿Qué hace diferente a Gemini frente a la generación anterior?
- 5) Casos de uso (industria y servicios)
- 6) Despliegue: nube, híbrido y on-device
- 7) Relación con el estado del arte académico
- 8) Limitaciones actuales
- 9) Conclusión
- 🔗 Referencias
1) ¿Qué es Gemini Robotics ?
Gemini Robotics es la familia de modelos de DeepMind diseñada para que un agente de IA vea, entienda y actúe en el mundo físico: integra visión, lenguaje y acción (VLA) y añade razonamiento espacial y planificación sobre secuencias de pasos, cerrando la brecha entre “comprender” y “mover” un robot. En marzo de 2025, DeepMind presentó Gemini Robotics y Gemini Robotics-ER (Embodied Reasoning): un modelo que ejecuta la secuencia completa (percepción → estimación de estado → entendimiento espacial → planificación → generación de código/acciones) y mejora de 2× a 3× la tasa de éxito frente a Gemini 2.0 en escenarios robóticos controlados. Google DeepMind
En septiembre de 2025, DeepMind anunció Gemini Robotics 1.5, con foco en agentes físicos capaces de percibir, planificar, usar herramientas y actuar con mayor fiabilidad en tareas de varios pasos. Google DeepMind
Además, existe una variante On-Device (local) pensada para correr directamente en el robot , esta es útil en entornos de baja conectividad o con requisitos de privacidad— manteniendo adaptación rápida a nuevas tareas con decenas de demostraciones. Google DeepMind+1
2) Arquitectura (alto nivel): de VLM a VLA con “razonamiento embebido”
A grandes rasgos, Gemini Robotics se organiza en tres bloques:
- Percepción multimodal (encoder)
Convierte imágenes/video + texto en representaciones latentes consistentes con la geometría y la semántica de la escena (detección 3D, “pointing”, affordances). Gemini Robotics-ER potencia ese entendimiento espacial para tareas de agarre, trayectoria y seguridad. Google DeepMind - Razonamiento y planificación (capa deliberativa)
Sobre esas representaciones, el modelo descompone objetivos en sub-pasos, genera planes y, cuando procede, código que conecte con controladores de bajo nivel (por ejemplo, para cambiar un tipo de pinza o definir una vía libre de colisiones). Google DeepMind - Acción / control (capa motora)
Traduce el plan en comandos de acción o código que invoca controladores existentes (cartesiano/joint-space, MPC, etc.). En configuraciones locales, la variante On-Device ejecuta esta etapa directamente en el robot con baja latencia. Google DeepMind+1
Contexto: Gemini surge sobre la ola previa de RT-2 (transformer visión-lenguaje-acción que transfiere conocimiento web a control robótico) y ecosistema abierto como OpenVLA (7B, entrenado con ~970k demostraciones). Estos trabajos validaron que un único modelo pueda mapear observaciones a acciones aprovechando pre-entrenamiento a escala web y grandes datasets robóticos. arxiv.org+3arxiv.org+3arxiv.org+3
3) Datos y generalización: del X-Embodiment a la adaptación rápida
La clave para que Gemini funcione en múltiples robots (brazos, móviles, humanoides) es el entrenamiento con datos amplios y diversos. El esfuerzo Open X-Embodiment consolidó >1M trayectorias de 22 robots y publicó RT-X checkpoints para fine-tuning y evaluación cruzada entre cuerpos y tareas, cimentando la generalización multi-embodiment. arxiv.org+1
Gemini 1.5 enfatiza planificación de horizonte largo y uso de herramientas, mientras que On-Device prioriza eficiencia y adaptación con pocas demos (50–100) para llevar el modelo “a pie de planta” (warehouse, manufactura, hogar). Google DeepMind+1
4) ¿Qué hace diferente a Gemini frente a la generación anterior?
- Razonamiento espacial + planificación integrados (no sólo mapeo directo imagen→acción). Google DeepMind
- Código como interfaz: cuando conviene, el propio modelo genera código que enlaza con controladores existentes (flexibilidad y tool-use). Google DeepMind
- Modo On-Device: latencia baja y resiliencia sin depender siempre de nube; opción clave para seguridad y privacidad en campo. Google DeepMind+1
- Mejor zero/few-shot en tareas nuevas con demostraciones mínimas (dato relevante para pymes y retrofits de robots). The Verge
Comparativamente, RT-2 demostró transferir conocimiento web a acciones robóticas (hito de 2023), y OpenVLA abrió una ruta reproducible para la comunidad; Gemini Robotics lleva esto a razonamiento, planificación y despliegue local/híbrido. arxiv.org+1
5) Casos de uso (industria y servicios)
- Picking y montaje mixto (variantes, novedad de piezas): entendimiento 3D + plan seguro + llamada a controlador; puede ejecutarse localmente por requisitos de tiempo de ciclo. Google DeepMind+1
- Asistencia en entornos semiestructurados (retail, hospital): seguir instrucciones en lenguaje natural, razonar restricciones y accionar con robustez. Google DeepMind
- Humanoides y mobile manipulators: percepción multimodal, planes de varios pasos y uso de herramientas (abrir, verter, limpiar, etc.). Google DeepMind
6) Despliegue: nube, híbrido y on-device
DeepMind describe un continuo cloud ↔ híbrido ↔ on-device. El modo On-Device sacrifica algo de capacidad respecto al modelo grande, pero aporta operación offline, seguridad y respuesta rápida, y ya se ha adaptado a múltiples plataformas (ej.: ALOHA, humanoides/aparatos bíceps) con un SDK para evaluaciones por early testers.
7) Relación con el estado del arte académico
La tendencia VLA también avanza fuera de Google:
- OpenVLA (2024): 7B, ~970k demostraciones; código abierto para entrenar/ajustar VLAs. arxiv.org+1
- ThinkAct (2025): marco “dual-system” que separa razonamiento de alto nivel y ejecución de bajo nivel mediante un “visual plan latent” reforzado. Ilustra cómo planificación explícita + acción mejora tareas de largo horizonte. arxiv.org+2arxiv.org+2
8) Limitaciones actuales
- Estandarización de benchmarks en escenarios reales aún en evolución.
- Coste y gobernanza: desplegar agentes que planifican y actúan exige controles de seguridad multicapa (contenidos, guardrails y pruebas físicas)
- Eficiencia energética y tamaño del modelo para operar en robots móviles durante horas.
9) Conclusión
Gemini Robotics cristaliza la visión de Physical AI: una inteligencia que comprende el mundo y actúa con planes razonados, ya sea desde la nube o directamente en el robot. Con datos multi-embodiment, planificación explícita y variantes on-device.
🔗 Referencias
- DeepMind – Gemini Robotics brings AI into the physical world (presentación Gemini Robotics + ER, métricas 2–3×). Google DeepMind
- DeepMind – Gemini Robotics On-Device brings AI to local robotic devices (modelo local eficiente). Google DeepMind
- DeepMind – Gemini Robotics 1.5 brings AI agents into the physical world (agentes físicos, planificación y uso de herramientas). Google DeepMind
- RT-2 (CoRL 2023) – Vision-Language-Action Models transfer web knowledge to robotic control. arxiv.org+1
- OpenVLA (2024) – paper + repositorio. arxiv.org+1
- Open X-Embodiment (2023–2025) – dataset y RT-X checkpoints (>1M trayectorias, 22 robots). arxiv.org+1
- ThinkAct (2025) – razonamiento VLA con “visual latent planning”. arxiv.org+2arxiv.org+2
- Contexto seguridad/impacto – cobertura periodística. Axios
- Google DeepMind (noticia/SDK, adaptación multi-plataforma) – cobertura técnica. The Verge


コメント