- Introducción
- 1. Arquitectura general de un VLA: visión, lenguaje y acción
- 2. Alineación visión–lenguaje y espacios latentes compartidos
- 3. “Action Tokenization”: de la representación al control
- 4. De tokens a torque: Action Heads discretos vs continuos
- 5. Grounding físico: affordances y constraints
- 6. Qué NO hacen los VLA — limitaciones críticas
- 7. Fallos comunes y desafíos emergentes
- 8. Investigación avanzada y estado del arte
- 9. Conclusión
- Referencias académicas y fuentes confiables
Introducción
Los modelos Vision–Language–Action (VLA) constituyen uno de los desarrollos más avanzados dentro de la inteligencia artificial robótica y los sistemas de agentes autónomos. A diferencia de los modelos tradicionales de visión por computadora o incluso de los Vision-Language Models (VLM) que producen respuestas textuales o razonamiento semántico, los VLA extienden este flujo hacia el mundo físico: interpretan imágenes y lenguaje natural para generar acciones ejecutables por un robot real. En otras palabras: llevan una instrucción humana desde la percepción visual hasta el control físico; esto incluye trayectorias, fuerzas y, en última instancia, torque aplicado por actuadores. Pero, ¿cómo ocurre esa transformación? ¿Qué representaciones se construyen en el proceso, qué limitaciones tienen y qué no hacen hoy los VLA? Este blog desentraña ese viaje desde la imagen hasta el torque, con detalles técnicos, investigaciones importantes y explicaciones críticas basadas en publicaciones académicas recientes.
1. Arquitectura general de un VLA: visión, lenguaje y acción
1.1 Encoders visuales y lingüísticos
La primera etapa de cualquier VLA es la percepción. Las imágenes capturadas por las cámaras del robot se codifican mediante encoders visuales preentrenados como DINOv2 y SigLIP, que generan embeddings ricos en semántica visual sin necesidad de supervisión explícita en todas las tareas específicas. (arXiv)
Estos encodings visuales se combinan con las representaciones obtenidas del language encoder (generalmente un transformer grande que entiende instrucciones en lenguaje natural). El objetivo aquí es proyectar ambos, visión y lenguaje, en un espacio latente compartido donde la representación visual y la semántica textual puedan correlacionarse de forma coherente para tareas de acción. (arXiv)
ConvNeXt y otros backbones tradicionales también se emplean en esta etapa para tareas específicas de percepción, dependiendo de los requisitos de precisión visual o velocidad de inferencia. (arXiv)
2. Alineación visión–lenguaje y espacios latentes compartidos
Una vez que tenemos embeddings visuales y lingüísticos, el desafío es fusionarlos de manera que puedan influir conjuntamente en la generación de acción. Esto se logra con mecanismos de cross-modal attention, co-embedding y arquitecturas que buscan proyectar ambas modalidades en un espacio latente común. (arXiv)
En este espacio latente, la información visual (posiciones, objetos, relaciones espaciales) y la semántica lingüística (intenciones, tareas) se combinan para formar una representación integrada de la tarea a realizar. Este vector latente es la base sobre la cual se predice la acción, pero aún no es torque, sino una representación abstracta de la intención de acción. (arXiv)
3. “Action Tokenization”: de la representación al control
Un concepto técnico clave en muchos modelos VLA actuales es la tokenización de acciones (Action Tokenization). En lugar de predecir directamente variables continuas como posiciones o fuerzas, algunos modelos convierten las acciones en tokens discretos análogos a palabras en un lenguaje. (arXiv)
3.1 Por qué tokenizar acciones
- Permite usar mecanismos de modelado de secuencia (como los transformers) para planificar acciones.
- Aprovecha técnicas de NLP para predecir secuencias de “palabras de acción”.
- Facilita el entrenamiento con grandes cantidades de datos multimodales de forma más estable que las predicciones continuas directas. (arXiv)
3.2 Limitaciones de la tokenización
Sin embargo, tokenizar acciones continuas (p. ej., torque, velocidad o posición) impone discretización y compresión, lo que introduce un trade-off inevitable entre fidelidad y eficiencia. En la práctica, esto puede degradar:
- precisión de control fino (especialmente cuando el actuador requiere comandos continuos de torque o microajustes),
- frecuencia efectiva de actualización (si la política debe predecir muchos tokens para representar acciones rápidas),
- y la suavidad/fluidez del movimiento en manipulación delicada, donde pequeños errores de cuantización se traducen en vibración, overshoot o falta de compliance.
Este cuello de botella ha motivado enfoques híbridos (tokens + decodificación continua) y, más recientemente, tokenizadores en el dominio de la frecuencia que comprimen chunks de control de alta tasa. Un ejemplo representativo es FAST (Frequency-space Action Sequence Tokenization), que transforma secuencias de acciones en una representación compacta usando Discrete Cosine Transform (DCT) y aprende un mapeo tokenizado más eficiente para tareas diestras y datos de alta frecuencia, donde la discretización por binning por dimensión/timestep suele fallar. (arxiv.org)
4. De tokens a torque: Action Heads discretos vs continuos
Una vez que la representación de la acción está tokenizada o codificada, el modelo utiliza un action head para generar comandos que puedan convertirse en torque o comandos de actuadores del robot.
La cabeza de acción (action head) es el componente responsable de traducir las representaciones latentes multimodales (visión + lenguaje + estado) en comandos ejecutables por el sistema físico. En modelos VLA modernos, esta capa define qué tipo de control es posible, qué tan suave es el movimiento y qué nivel de interacción física puede lograrse.
4.1 Action Heads discretos
Los action heads discretos generan secuencias de tokens que representan acciones simbólicas o referencias cuantizadas, como:
- selecciones de waypoints,
- comandos de alto nivel (abrir, cerrar, mover),
- Referencias de posición discretizadas por eje o por etapa.
Este enfoque es especialmente efectivo cuando:
- el espacio de acción puede estructurarse como una secuencia finita de decisiones,
- las tareas están bien definidas por puntos de control o estados nominales,
- se prioriza generalización semántica sobre precisión física extrema.
Por estas razones, los action heads discretos han sido ampliamente utilizados en VLA de gran escala, como RT-2 y OpenVLA, donde el objetivo principal es mapear lenguaje e imágenes a comportamientos plausibles en múltiples tareas.
Sin embargo, esta representación presenta limitaciones fundamentales cuando se aplica a control físico continuo:
- la cuantización de acciones introduce error acumulado,
- cada grado de libertad se discretiza de forma independiente, ignorando acoplamientos dinámicos,
- la interacción con entornos dinámicos o con contacto físico sufre por la falta de continuidad temporal y diferencial.
Estas limitaciones hacen que los action heads discretos sean insuficientes para control de fuerzas, compliance, interacción por contacto y manipulación diestra, donde pequeñas variaciones continuas son críticas para la estabilidad y la seguridad.
4.2 Action Heads continuos
Para superar estas restricciones, modelos VLA más avanzados incorporan action heads continuos, capaces de generar directamente:
- trayectorias en espacio cartesiano o articular,
- señales de velocidad o aceleración,
- comandos de torque y fuerza de alta resolución temporal.
Estos enfoques se basan típicamente en modelos generativos continuos, como:
- Diffusion Policies,
- Normalizing Flows,
- Modelos latentes temporales entrenados sobre demostraciones densas.
A diferencia de la tokenización discreta, estas arquitecturas modelan distribuciones continuas sobre el espacio de acción, preservando la suavidad temporal y permitiendo:
- manipulación con contacto físico sostenido,
- agarre delicado y control de fuerza,
- movimientos coordinados en sistemas con múltiples grados de libertad.
Trabajos como Diffusion Policy y extensiones posteriores han demostrado que estos modelos pueden generar señales de control a frecuencias del orden de 50–100 Hz, compatibles con lazos de control robótico reales, algo extremadamente difícil de lograr con tokens discretos sin introducir latencia o pérdida de precisión.
Desde una perspectiva de control, los action heads continuos son los únicos capaces de integrarse de forma natural con:
- controladores clásicos (PID, MPC),
- capas de seguridad,
- restricciones físicas explícitas del robot.
Por esta razón, los sistemas VLA desplegables en el mundo real tienden a combinar razonamiento discreto de alto nivel con generación continua de bajo nivel, separando claramente decisión de ejecución física.
5. Grounding físico: affordances y constraints
5.1 Affordances y significado físico
Los VLA no operan solo en el dominio lógico o semántico, sino que deben comprender el entorno desde una perspectiva física. Esto se logra mediante affordances, las posibles interacciones que un objeto permite en función de sus propiedades físicas. (arXiv)
Modelos avanzados integran affordances en sus pipelines para que el agente no solo perciba un objeto, sino que entienda cómo interactuar con él (agarrar, empujar, apilar, etc.). (openaccess.thecvf.com)
5.2 Constraints físicas
Además de affordances, los VLA deben respetar constraints reales:
- límites de fuerza/torque
- no colisionar con humanos u objetos
- estabilidad dinámica
Aunque hay enfoques que integran estos constraints dentro de la predicción, muchos modelos los tratan como capas de seguridad externas que validan las acciones antes de ejecutarlas, debido a que los modelos estadísticos por sí solos no garantizan cumplimiento de leyes físicas absolutas. (arXiv)
6. Qué NO hacen los VLA — limitaciones críticas
A pesar de su impacto, los VLA no son omnipotentes. Aquí un análisis crítico de lo que hoy todavía no logran:
❌ No modelan leyes físicas explícitas
Los VLA no tienen un modelado inherente de la física como lo tiene un simulador. Aprenden de datos, no de leyes dinámicas explícitas, lo cual limita su robustez ante cambios abruptos en la física del entorno o cargas inesperadas. (arXiv)
❌ No garantizan seguridad física por diseño
Aunque pueden aprender patrones físicos, no garantizan límites de seguridad como condiciones de colisión o de torque máximo sin capas adicionales de control o supervisión. (arXiv)
❌ Fallas en contactos complejos y fuerzas delicadas
Especialmente donde se requiere contacto suave o control de fuerza continuo, los métodos discretos aún no compiten con controladores clásicos de robótica bien tunados. (arXiv)
❌ Generalización física limitada
Aunque generalizan bien a nuevas escenas visuales o instrucciones, su generalización a entornos físicos completamente nuevos (con fricción, masa, inercias distintas) aún es problemática. (arXiv)
7. Fallos comunes y desafíos emergentes
- ❌ Interpretación de profundidad y geometría fina: algunos modelos confunden o no distinguen bien relaciones físicas complejas (rivales a sensores de profundidad o SLAM clásicos). (arXiv)
- ❌ Latencia en inferencia real-time: modelos grandes requieren hardware muy poderoso para ejecutarse con frecuencias controlables. (arXiv)
- ❌ Dependencia de datos de robot etiquetados: los conjuntos de datos son costosos de generar y no cubren todas las variantes del mundo real. (arXiv)
8. Investigación avanzada y estado del arte
La comunidad académica está desarrollando soluciones para cada una de estas limitaciones. Algunos trabajos recientes destacan:
📌 SemanticVLA: mejora eficiencia y alineación semántica para manipulación robótica con menos redundancia perceptual. (arXiv)
📌 LatBot: aprende acciones latentes transferibles para permitir generalización con pocos datos reales. (arXiv)
📌 CoA-VLA: incorpora comportamientos secuenciales de affordances para mejorar razonamiento y robustez en tareas complejas. (openaccess.thecvf.com)
📌 Nuevos modelos como DreamVLA incorporan generación de mundos imaginarios para mejorar la predicción de acciones. (OpenReview)
9. Conclusión
Los modelos Vision–Language–Action (VLA) representan un importante desarrollo y contribución en la parte conceptual y arquitectónica en la intersección entre visión por computadora, procesamiento del lenguaje natural y robótica física. Han mostrado que es posible traducir imágenes e instrucciones textuales en acciones ejecutables por robots reales, pero lo hacen a través de representaciones latentes, tokenización de acciones y mecanismos de control que no son físicamente explícitos. Su verdadero valor está en su capacidad de generalizar semánticamente, no en sustituir completamente los sistemas de control tradicionales basados en la física que involucra la dinámica del mundo físico real.
Referencias académicas y fuentes confiables
- R. Sapkota et al., Vision-Language-Action Models: Concepts, Progress, Applications and Challenges — revisión sistemática del paradigma VLA. (arXiv)
- Y. Zhong et al., A Survey on Vision-Language-Action Models: An Action Tokenization Perspective — análisis profundo sobre tokenización de acciones. (arXiv)
- Vision-Language-Action Models for Robotics — cobertura amplia de estrategias, arquitecturas y desafíos. (arXiv)
- J. Li et al., CoA-VLA: Improving Vision-Language-Action Models via Visual-Text Chain of Affordance, ICCV 2025. (openaccess.thecvf.com)
- Wei Li et al., SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation — mejoras de eficiencia. (arXiv)
- Zuolei Li et al., LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models — acciones latentes transferibles. (arXiv)
- W. Zhang et al., DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge. (OpenReview)
- FAST: Efficient Action Tokenization for Vision-Language-Action Models – arXiv (2025) (arxiv.org)
- OpenVLA (repo) – GitHub (2025) (github.com)

コメント