Algoritmos Cognitivos para Robots: del razonamiento simbólico a los agentes LLM

Inteligencia Artificial (IA)

Introducción

Cuando hablamos de robots, solemos pensar en control, trayectorias y sensores. Pero lo que está pasando actualmente es: cómo hacemos que esos robots piensen de forma estructurada, tomen decisiones razonadas, puedan explicarlas y actúen como respuesta a su contexto. Es decir, cómo pasamos de un brazo que ejecuta comandos a un agente cognitivo que entiende objetivos, descompone tareas, se coordina con otros sistemas y aprende de sus errores.

La generación de los modelos de lenguaje (LLM) y de las arquitecturas Vision-Language-Action (VLA) ha cambiado por completo nuestra visión. De repente, podemos conectar en el mismo proceso: lenguaje natural, planificación simbólica, razonamiento multi-paso y acción física. Esto nos lleva a una arquitectura muy clara, inspirada en la psicología cognitiva: un “Sistema 1” rápido y reactivo (políticas de control, VLA como RT-X, OpenVLA o Gemini Robotics) y un “Sistema 2” deliberativo (LLMs, planificación simbólica, agentes con Chain-of-Thought y Tree-of-Thought).

En este contexto, los algoritmos cognitivos para robots puede decirse que son la capa que une tres mundos antes aislados, lo simbólico, lo generativo y lo motor. En este blog recorremos ese puente: desde la planificación clásica con PDDL y HTN, hasta los agentes LLM que actúan como meta-controladores, pasando por patrones como ReAct, Self-Refine y Reflexion, y arquitecturas como ThinkAct, RT-X, OpenVLA y Gemini Robotics. La idea es entender, de forma práctica y técnica, cómo se diseña un robot que piensa, decide y actúa con estructura.


1. Cognición robótica en 2025: más que percepción y control

Durante años, la robótica se centró en percepción, control y navegación. Hoy, la frontera está en la integración cognitiva: robots capaces de razonar sobre metas, planificar secuencias complejas, comprender el contexto, anticipar consecuencias y corregirse a sí mismos.

El marco de Sistemas 1 y 2 ayuda a describir esta transición:

  • Sistema 1: rápido, reactivo, basado en políticas aprendidas y control continuo.
  • Sistema 2: deliberativo, secuencial, estratégico, capaz de planificar con múltiples pasos y restricciones.

Los avances recientes establecen arquitecturas donde ambos sistemas conviven: percepciones profundas para acción inmediata y razonadores simbólicos o LLMs para toma de decisiones de alto nivel.


2. Algoritmos clásicos vs. algoritmos cognitivos

PDDL (Planning Domain Definition Language)

PDDL es un lenguaje formal para describir dominios y problemas de planificación. Permite definir estados, acciones, precondiciones, efectos y objetivos de forma explícita y verificable. Durante décadas, ha sido la herramienta base para generar planes simbólicos en robótica.

Su mayor valor es la rigurosidad lógica. Su mayor limitación: requiere modelar manualmente el mundo, algo costoso y frágil en entornos reales. La tendencia actual es combinar PDDL con LLMs que ayudan a generar o ajustar automáticamente los modelos, reduciendo la carga de ingeniería.

HTN (Hierarchical Task Networks)

HTN es un enfoque de planificación basado en descomposición jerárquica: una tarea compleja se divide en subtareas más pequeñas hasta llegar a acciones ejecutables. Este modelo es extremadamente natural para la robótica porque refleja cómo piensan los humanos al resolver problemas (“para poner la mesa, primero coloco platos; para colocar platos, primero limpio el área…”).

HTN destaca por su:

  • Expresividad procedimental
  • Robustez en tareas largas
  • Combinación fluida con control físico

Por eso, muchas arquitecturas cognitivas modernas siguen basándose en HTN como columna simbólica central.

Los límites del enfoque GOFAI

La robótica clásica —razonamiento simbólico puro— aportó bases sólidas, pero aún en desarrollo procedimientos y algoritmos para adaptarse al ruido y a la incertidumbre del mundo real. Lo importante ahora no es abandonar lo simbólico, sino fusionarlo con modelos generativos, aprendizaje profundo y razonamiento estructurado asistido por LLMs.


3. La revolución del razonamiento estructurado con LLMs

Chain-of-Thought (CoT) y Tree-of-Thought (ToT)

Estos dos patrones cambiaron la percepción del razonamiento en LLMs:

  • CoT hace que el modelo exponga pasos intermedios, mejorando la precisión en problemas secuenciales.
  • ToT explora múltiples ramas de pensamiento, evaluando opciones antes de decidir.

Para robots, esta capacidad se traduce en mejores planes, explicaciones claras y decisiones más seguras.

ReAct: razonar mientras se actúa

ReAct integra dos flujos: pensamiento y acción. El robot razona, actúa, observa el resultado, ajusta su razonamiento y vuelve a actuar. Es una estructura cognitiva completa, ideal para integrar percepción, planificación y ejecución.

Auto-reflexión: Self-Refine y Reflexion

Los modelos ahora pueden criticarse a sí mismos:

  • Self-Refine: el modelo revisa y mejora su propia salida.
  • Reflexion: mantiene una memoria textual de errores y aciertos, y mejora con cada episodio.

En robots, esto significa aprendizaje sin reentrenamiento: anotan sus fallos (“apliqué demasiada fuerza”, “perdí el objeto”) y ajustan futuros planes.

Enfoques neuro-simbólicos tipo AlphaGeometry

Este paradigma combina creatividad generativa con verificación simbólica. El LLM propone hipótesis; el módulo simbólico lo valida. En robótica, esto garantiza que los planes generados no solo sean plausibles, sino correctos y seguros.


4. PDDL + LLMs: del lenguaje natural al plan ejecutable

Hoy es posible convertir una instrucción en lenguaje natural en un plan formal usando un pipeline híbrido:

  1. El usuario describe una tarea.
  2. El LLM interpreta la escena y genera (o corrige) el dominio PDDL.
  3. Un planificador simbólico produce el plan óptimo y verificable.
  4. Un módulo geométrico lo transforma en acciones físicas reales.

Así, el LLM se convierte en un ingeniero de conocimiento automático, creando modelos simbólicos que antes requerían expertos.


5. LLMs como meta-controladores: agentes que coordinan el sistema

Frameworks como CrewAI, LangGraph o AgentKit permiten crear agentes LLM que actúan como capas ejecutivas dentro del robot:

  • Deciden qué planificador activar
  • Gestionan herramientas
  • Mantienen memoria
  • Verifican pasos críticos
  • Observan, corrigen y continúan

En esencia, convierten al robot en un sistema agéntico, capaz de coordinar percepción, planificación, razonamiento y acción sin perder trazabilidad ni estructura.


6. Arquitecturas cognitivas modernas: ThinkAct, RT-X, OpenVLA, Gemini Robotics

ThinkAct

Separa la fase de pensamiento multimodal de la fase de acción física, conectadas por un visual latent plan. Esto permite mejor coherencia entre intención, percepción y movimiento, especialmente en tareas largas.

RT-X

Producto del esfuerzo Open X-Embodiment, RT-X entrena un modelo unificado con datos de múltiples robots. Es ideal como Sistema 1, ya que ejecuta acciones robustas y generalizadas bajo instrucciones en lenguaje natural.

OpenVLA

Modelo VLA completamente abierto, modular y escalable. Su diseño disentangled facilita añadir nuevas tareas, ajustar comportamientos e integrarlo con razonamiento simbólico o agentes LLM.

Gemini Robotics 1.5

Incorpora razonamiento interno explícito, Motion Transfer entre robots diferentes y una integración natural entre visión, lenguaje y acción. Es uno de los primeros modelos que exponen su “traza de pensamiento” mientras planifican y ejecutan.


7. Arquitectura ganadora: robots que piensan y actúan

La tendencia dominante es clara: arquitecturas dual-system, donde:

  • El Sistema 1 (RT-X, OpenVLA, Gemini) ejecuta acciones rápidas y estables.
  • El Sistema 2 (LLM + PDDL/HTN + agentes) razona, planifica, verifica y supervisa.

Un diseño práctico incluye:

  1. Base sensoriomotora: un VLA para acción inmediata.
  2. Planificación simbólica: PDDL y HTN para garantizar coherencia.
  3. Meta-control LLM agentic: orquestación entre todos los módulos.
  4. Auto-reflexión: memoria textual y mejora iterativa.
  5. Verificación: simbólica y geométrica para seguridad real.

El resultado es un robot que:

  • Razona
  • Planifica
  • Actúa con precisión
  • Se auto-corrige
  • Explica sus decisiones

Una verdadera arquitectura cognitiva “embodied robotics” significa que la inteligencia del robot está ligada al cuerpo físico del robot, a su sensorimotricidad, interacción con el entorno, percepción en tiempo real, física, fricción, peso, etc.


Conclusión

Los robots ya no son solo mecanismos que ejecutan trayectorias: están entrando en una etapa donde razonan, descomponen tareas, se autoevalúan y se ajustan dinámicamente al entorno. La combinación de modelos simbólicos (PDDL, HTN), modelos generativos (LLMs), arquitecturas VLA y frameworks agénticos está creando sistemas que integran pensamiento, lenguaje y acción en una sola estructura coherente.

La próxima década en robótica pertenecerá a los sistemas capaces de pensar y actuar, actuar mientras razonan y aprender mientras interactúan.

コメント

タイトルとURLをコピーしました