Introducción
En los últimos años, los robots sociales se han convertido en agentes capaces de mantener conversaciones abiertas, adaptarse al contexto y mostrar señales emocionales. Gracias a la integración de modelos de lenguaje grandes (LLMs) y modelos multimodales (Vision-Language Models, VLMs), hoy podemos aspirar a robots sociales que “entienden” más allá de comandos: que perciben entorno, emociones, gestos, adaptan su voz, recordan interacciones pasadas y reaccionan apropiadamente.
Este artículo explora con detalle cómo se usan LLM/GenAI en robótica social actual: arquitecturas, métodos, materiales, técnicas de grounding, memoria, evaluación, retos clave y visiones futuras. También incluyo ejemplos concretos de proyectos recientes, con referencias técnicas.
- 1. Fundamento conceptual: ¿qué roles juegan los modelos generativos en robots sociales?
- 2. Casos reales y prototipos representativos
- 2.1 LaMI (Large Language Models for Multi-Modal HRI)
- 2.2 Designing Social Robots with LLMs for Engaging Human Interaction
- 2.3 Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory
- 2.4 Exploring LLM-powered multi-session human-robot interaction
- 2.5 First impressions of a humanoid social robot with natural language
- 3. Métodos técnicos, conceptos y herramientas usadas
- 3.1. Prompt engineering, chain-of-thought, razonamiento intermedio
- 3.2. Técnicas híbridas / agentes compuestos
- 3.3. Memoria estructurada y recuperación selectiva
- 3.4. Gestión de latencia, capacidad y recursos
- 3.5. Evaluación (métricas y protocolos)
- 3.6. Seguridad, moderación y restricciones éticas
- 3.7. Materiales y hardware típicos
- 4. Retos clave y limitaciones actuales
- 5. Rumbo al futuro: oportunidades y líneas prometedoras
- 6. Conclusión
- 7. Referencias
1. Fundamento conceptual: ¿qué roles juegan los modelos generativos en robots sociales?
1.1. Fundamentación: ¿por qué usar LLMs en robótica?
- Los Large Language Models (LLMs) — como GPT-4, LLaMA, etc. — son redes transformadoras preentrenadas en enormes corpora lingüísticos. Poseen habilidades de razonamiento emergente, generación de lenguaje coherente, few-shot / zero-shot, conocimiento generalizado.
- En robótica, los LLMs no actúan como controladores de bajo nivel, sino como cerebros de alto nivel: generan planes, deciden qué decir o hacer, integran conocimientos de sentido común.
- Al combinarse con módulos especializados de percepción, control y ejecución, los LLMs permiten dotar al robot de flexibilidad, adaptabilidad y “contexto” conversacional.
Varios trabajos recientes analizan ese potencial:
- A Survey on Integration of Large Language Models with Intelligent Robots analiza cómo los LLM pueden integrarse en los módulos clásicos de robótica (percepción, comunicación, planificación, control). arxiv.org
- Foundation Model Driven Robotics propone un enfoque estructurado de robótica basada en modelos fundacionales (LLMs, VLMs), identificando fortalezas y cuellos de botella (embodiment, grounding, latencia). arxiv.org
- En robótica social, el artículo “Review: Large language models for human–robot interaction” ofrece una panorámica de los recientes avances y retos para aplicar LLMs a robots sociales. sciencedirect.com
1.2. Multimodalidad y grounding sensorial
Un robot social no solo “habla”: ve, escucha, percibe gestos, proximidad, expresión emocional. Integrar esa multimodalidad es un reto:
- Los Vision-Language Models (VLMs) permiten fusionar visión + lenguaje. Por ejemplo, procesan imágenes del entorno y extraen representaciones textuales o semánticas que el LLM puede usar como contexto.
- En el artículo “Towards Multimodal Social Conversations with Robots”, los autores proponen adaptar VLMs para interacción social situada: juicio de identidad, gestos, referencia contextual visual. arxiv.org
- Pero los VLMs estándar no están diseñados para agentes encarnados: interpretar continuamente escenas visuales, razonar sobre personas, objetos, relaciones espaciales con latencia baja, es complejo. arxiv.org
- Modelos de visión-acción (Vision-Language-Action, VLA) buscan saltar el paso intermedio: dado un input visual y un texto, producir acciones directamente ejecutables. en.wikipedia.org
Por ejemplo, Helix es un modelo de tipo VLA que controla partes superiores del cuerpo humanoide (brazos, cabeza, manos) integrando un módulo de escena + decodificador de acción. en.wikipedia.org
1.3. Módulos arquitectónicos comunes
Una arquitectura típica para robot social con LLM puede contemplar los siguientes componentes:
- Percepción / Sensores
- Cámaras RGB, sensores de profundidad (RGB-D), micrófonos, sensores de proximidad.
- Procesamiento de visión: detección de personas, reconocimiento facial, posturas, objeto, emociones faciales (por ejemplo, redes CNN, transformadores visuales).
- Procesamiento de audio: reconocimiento de voz (ASR), detección de entonación/emoción (prosodia), separación de fuentes, cancelación de ruido.
- Módulo de representación intermedia / escena
- Se construye un grafo semántico del entorno, un mapa simbólico, objetos con relaciones espaciales y estados.
- Filtrado temporal: mantener sólo lo relevante, gestionar cambios dinámicos. Por ejemplo un trabajo reciente “Time is on my sight” explora grafo semántico dinámico aplicado a LLM-driven robots. (mencionado en papers de vanguardia)
- Módulo de memoria / contexto
- Memoria episódica: almacenaje de eventos pasados con el usuario A (qué se dijo, reacciones).
- Memoria resumida: compresión de lo esencial para mantener contexto largo sin saturar al LLM.
- Estrategias de recuperación: decidir qué recuerdos son relevantes para la conversación actual.
- Por ejemplo, Nadine: An LLM-driven Intelligent Social Robot integra memoria a largo plazo y estados emocionales simulados. arxiv.org
- Otro trabajo Building Knowledge from Interactions propone una arquitectura para tutoría robótica donde el robot “recuerda” interacciones previas y las usa para personalización social. arxiv.org
- Módulo de razonamiento / decisión (LLM + agente)
- El LLM recibe contexto (texto + input sensorial) + memoria + prompt de objetivo, y decide qué acción lingüística / social / física ejecutar.
- Técnicas como prompt engineering, chain-of-thought prompting, plan & act, React, tool use son comunes.
- En algunos sistemas se usan agentes híbridos, que combinan el LLM con módulos especializados de lógica simbólica o planificación clásica.
- Por ejemplo, en Designing Social Robots with LLMs for Engaging Human Interaction, se describe cómo integrar memoria, condicionamiento de personalidad (“persona”), ajuste acústico, turn-taking adaptativo. mdpi.com
- Módulo de expresividad / actuation
- Traduce las decisiones del LLM en señales físicas: movimientos de cabeza, gestos de manos, cambios en ojos / cejas, postura corporal, expresión facial, control de voz (entonación, pausas).
- El mapeo “decisión → actuador” puede requerir modelado cinemático, interpolaciones suaves, constraints físicos del robot.
- Combinaciones visual-lingüísticas: por ejemplo, usar proyección en pantallas (como el robot Furhat proyecta expresiones faciales en una máscara). en.wikipedia.org
- En LaMI: Large Language Models for Multi-Modal Human-Robot Interaction esta capa se llama “Expresser”: se coordina voz + movimientos físicos basados en la salida del LLM. dl.acm.org
- Capas de seguridad, filtro, moderación / supervisión humana
- Validación de la acción propuesta (¿es segura? ¿apropiada socialmente?).
- Restricciones lógicas: no permitir comportamientos no deseados.
- Mecanismos de retroalimentación humana: corrección, supervisión en tiempo real.
Una arquitectura genérica puede representarse como:
Sensores → Preprocesamiento → Representación de escena + memoria → LLM / agente → Decisión social / acción → Motor físico / actuation → Retroalimentación al sistema
2. Casos reales y prototipos representativos
Aquí algunos trabajos concretos que demuestran cómo se hace esto en la práctica:
2.1 LaMI (Large Language Models for Multi-Modal HRI)
- En este proyecto, se diseña un robot que integra un módulo “Scene Narrator” que convierte percepciones sensoriales en descripciones textuales, un “Planner” que interacciona con el LLM para decidir qué responder o hacer, y un “Expresser” que lleva las decisiones del LLM a movimientos físicos (cabeza, brazos) y entonación. dl.acm.org
- Se usa prompt engineering estructurado: por ejemplo, se le envía al LLM una descripción de la escena + intención conversacional, y se pide la mejor acción comunicativa + gestual.
- El sistema permite guiar el comportamiento vía instrucciones de alto nivel (por ejemplo “saludar al usuario que entra”) sin diseñar cada transición de estados manualmente.
- Se han demostrado conversaciones multimodales relativamente fluidas entre humanos y robot, aunque en entornos controlados.
2.2 Designing Social Robots with LLMs for Engaging Human Interaction
- Este trabajo explora integración centrada en el usuario (personas mayores socialmente aisladas). mdpi.com
- Arquitectura:
- Captura de voz en tiempo real con streaming continuo para reducir la latencia y apoyar el turn-taking fluido.
- Memoria estructurada en capas: memoria a corto plazo, memoria larga, mapas de interés personal.
- Condicionamiento de personalidad / identidad: para que el robot mantenga coherencia de “quién es” durante la conversación.
- Adaptación multilingüe / acentos para que la voz del robot sea culturalmente congruente con el usuario.
- Hicieron ensayos con adultos mayores (n = 7) dentro de casas, y estudios exploratorios con jóvenes (n = 43).
- Observaciones: la continuidad de memoria, el turno adaptativo (respetar pausas humanas), el diseño de la voz (tono, pausas) influyeron en que los usuarios percibieran mayor naturalidad, confianza, presencia social.
- Limitaciones: latencia aún considerable, alucinaciones del modelo, manejo de expectativas (cuando el robot “falla”).
2.3 Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory
- Proyecto que integra un robot social llamado Nadine con capacidades afectivas y memoria humana remodelada. arxiv.org
- Propone un marco llamado SoR-ReAct: LLM actuando como agente social que decide entre razonar (“Reason”) y actuar (“Act”).
- El sistema simula estados emocionales internos (por ejemplo “feliz”, “triste”) basados en interacción con el humano — estas emociones influyen en las respuestas generadas.
- La memoria reconoce usuarios previos y carga recuerdos relevantes, lo que permite una interacción más personalizada.
2.4 Exploring LLM-powered multi-session human-robot interaction
- Estudio exploratorio (2025) de interacciones abiertas de múltiples sesiones entre humanos y robot social habilitado por LLMs. pmc.ncbi.nlm.nih.gov
- Investigan cómo las sesiones sucesivas pueden mejorar la relación humano-robot: qué tan bien el sistema recuerda preferencias, nombres, estilos de conversación.
- Desafíos señalados: deriva de tema, inconsistencias en respuestas, cómo priorizar memoria relevante, cuánto “confianza” construir.
2.5 First impressions of a humanoid social robot with natural language
- En un entorno público (“in the wild”) se usó al robot Pepper combinado con ChatGPT para interactuar con asistentes en un festival. Nature
- Se entrevistó a 88 participantes después de su interacción con Pepper, recolectando percepciones cualitativas: sorpresa, dudas sobre naturalidad, expectativa vs realidad, rol social que esperando del robot.
- Resultado: las primeras impresiones son clave; errores menores pueden dañar la experiencia emocional. Es importante que el robot controle expectativas.
3. Métodos técnicos, conceptos y herramientas usadas
Aquí detallo algunos métodos, tecnologías y estrategias que se usan hoy:
3.1. Prompt engineering, chain-of-thought, razonamiento intermedio
- En muchos sistemas, el LLM no recibe directamente solo el input + pregunta, sino que se le guía con cadena de pensamiento (CoT) para que “razone en pasos”.
- Se pueden usar prompt templates estructurados, con secciones: descripción de escena, memoria relevante, objetivos sociales, listado de posibles acciones.
- En arquitecturas plan-and-act, el LLM genera un plan en lenguaje (por ejemplo “saludar, esperar respuesta, preguntar estado”) y luego otro módulo ejecuta cada paso.
3.2. Técnicas híbridas / agentes compuestos
- No todo se hace ordenado dentro del LLM. Muchas arquitecturas combinan el LLM con módulos simbólicos, lógicos o de planificación clásica (PDDL, búsqueda heurística) para control más robusto.
- Por ejemplo, ciertas decisiones “qué hacer ahora” pueden pasar por un sistema de supervisor que filtra o corrige la salida del LLM.
- En Foundation Model Driven Robotics, se habla de “estrategias integradas a nivel de sistema” en lugar de enfoques modulares aislados. arxiv.org
3.3. Memoria estructurada y recuperación selectiva
- No es viable mantener todo el historial de la conversación como prompt; se requiere comprensión / resúmenes.
- Métodos usados:
- Memoria episódica + resumen temático
- Indexación semántica (embedding) para recuperar recuerdos relevantes
- Filtrado por relevancia, temporalidad o emoción
- Por ejemplo, Building Knowledge from Interactions implementa una memoria que selecciona qué guardar y cuándo recuperarlo para afectar la futura conversación. arxiv.org
3.4. Gestión de latencia, capacidad y recursos
- LLM grandes tienen costos computacionales elevados y latencia no trivial: hay que optimizar la inferencia, o usar versiones “ligeras” / cuantizadas / edge models.
- Algunas estrategias:
- Pre-caching de respuestas frecuentes
- División de tareas: respuestas “costeras” asíncronas y respuestas rápidas locales
- Uso de modelos cuantizados, pruning, distillation
- Ejecutar partes del modelo localmente (on-device) y otras en la nube
- Uso de pipelines que priorizan baja latencia para tareas interactivas inmediatas, y trabajo diferido para cálculo más pesado
3.5. Evaluación (métricas y protocolos)
Evaluar robots sociales generativos es complicado. Algunos enfoques:
- Evaluaciones por turnos (“turn-level”) vs evaluación de toda la conversación
- Escalas subjetivas: naturalidad, empatía, presencia social, fluidez
- Evaluaciones in situ (“in the wild”) para capturar reacciones reales (como el estudio con Pepper) Nature
- Comparación con diálogo humano-humano como referencia ideal
- Anotación externa o usuarios evaluadores después de interactuar
- Métricas automáticas: coherencia, repetición, diversidad lingüística
- Robustez a rupturas: cómo se recupera el robot cuando algo sale mal
3.6. Seguridad, moderación y restricciones éticas
- Filtros de contenido: evitar que el robot diga cosas ofensivas, peligrosas o inapropiadas.
- Mecanismos de fallback (“no sé”, “prefiero no contestar”, pedir clarificación).
- Capas de verificación lógica: si el LLM propone una acción física, verificar en simulador virtual si es segura.
- Supervisión humana: logs, monitoreo, intervención humana en casos críticos.
- Privacidad de datos del usuario: manejar cuidadosamente el almacenamiento de memoria y el consentimiento explícito.
3.7. Materiales y hardware típicos
- Robots sociales: humanoides (Pepper, Nadine), bustos robóticos (Furhat), robots móviles con torso expresivo.
- Actuadores: motores para cabeza, cuello, brazos, manos, servos para movimientos finos.
- Sensores: cámaras RGB / RGB-D, micrófonos array, sensores de proximidad, LIDAR ligero a veces.
- Computación embarcada: GPU / TPU / módulos de aceleración (NVIDIA Jetson, Edge TPUs).
- Infraestructura: conexión de red (a nube), módulos de procesamiento local + remoto híbrido.
4. Retos clave y limitaciones actuales
Aunque hay progresos prometedores, los retos son muchos:
- Grounding robusto en entorno real
– Traducir sensor raw a representaciones simbólicas coherentes es difícil.
– Escenarios dinámicos (múltiples personas, objetos en movimiento) complican la interpretación visual-temporal.
– Ambigüedades (¿qué mira la persona?, ¿qué objeto menciona?) - Latencia y recursos computacionales
—La inferencia de modelos grandes es pesada.
– Fallas de tiempo real pueden romper la inmersión, generar pausas incómodas.
– Dividir tareas en local vs nube sin comprometer fluidez es un problema de arquitectura. - Coherencia emocional y estabilidad conversacional
– Evitar que el robot cambie abruptamente de “estado emocional” sin justificación.
– Manejar las alucinaciones y respuestas incoherentes.
– Control del nivel de “personalidad” del robot sin que parezca caricaturesco. - Memoria y continuidad
– Decidir qué recordar, qué olvidar, qué priorizar.
– Evitar contradicciones en la narrativa del robot (por ejemplo: “¿no me dijiste hace un rato que…”).
– Crecer la memoria sin saturar el prompt. - Decidir cuándo interactuar (“turn-taking social”)
– Saber cuándo interrumpir, esperar, mantenerse en silencio.
– En ambientes ruidosos o con múltiples interlocutores, decidir a quién responder. - Evaluación realista (transferencia laboratorio → mundo real)
– Lo que funciona en laboratorio muchas veces no escala “in the wild”.
– Los usuarios no expertos tienen expectativas altas, sensibilidad a fallas menores. - Riesgos de seguridad, manipulación e interpretabilidad
– Robots conectados a LLM pueden ser manipulados mediante prompts maliciosos (ver investigación en vulnerabilidades).
– La toma de decisiones del LLM puede ser opaca: difícil explicar por qué hizo algo.
– Riesgo de dependencia emocional o atribución excesiva de agencia por parte del usuario. - Escalabilidad, costo y accesibilidad
– Robots complejos tienen alto costo de hardware y mantenimiento.
– No todos los usuarios tendrán acceso a robots con capacidad de GPU potente.
– Despliegue a escala en hogares requiere robustez prolongada, actualizaciones, fiabilidad.
5. Rumbo al futuro: oportunidades y líneas prometedoras
Aquí algunas direcciones que, si se resuelven, podrían transformar el panorama:
- Modelos multimodales de próxima generación: VLM/VLA que integren visión, audio, acción, lenguaje en un solo modelo robusto.
- Entrenamiento continuo / aprendizaje en el campo: robots que aprendan tras cada interacción, adaptándose al usuario.
- Transferencia sim-to-real más robusta: entrenar en simulaciones realistas y transferir a hardware real con menor penalidad.
- Mejora de interpretabilidad y explicabilidad: que el robot “explique” por qué hizo algo (“Decidí esperar porque vi que estabas hablando”).
- Robots sociales modulares y escalables: hardware estándar, módulos plug-and-play de lenguaje, expresividad, percepción.
- Estudios longitudinales reales: medir cómo evoluciona la relación humano-robot en meses/años en escenarios cotidianos.
- Ética integrada desde el diseño: que los robots desde el inicio consideren límites sociales, privacidad, consentimiento, roles no manipulativos.
6. Conclusión
La integración de GenAI / LLM en robótica social es una de las fronteras más fascinantes de la inteligencia artificial aplicada: no solo se trata de que un robot “hable bien”, sino de que se convierta en un ente social, emocionalmente resonante y adaptativo.
Hoy ya existen prototipos que combinan percepción visual, memoria estructurada, razonamiento generativo y actuación expresiva para interactuar de forma más natural. Pero los desafíos — grounding del entorno real, latencia, coherencia emocional, memoria duradera, seguridad y escalabilidad — siguen siendo grandes. La promesa es que, con avances en modelos multimodales, hardware más eficiente y mejores arquitecturas híbridas, en un futuro no muy lejano veremos robots verdaderamente integrados en nuestras vidas sociales.
7. Referencias
🔹 Papers y artículos principales (2024–2025)
- Ain’t Misbehavin’: Using LLMs to Generate Expressive Robot Behavior in Conversations with the Tabletop Robot Haru
Hiroshi Ishiguro et al., 2024.
arXiv: 2402.11571 - LaMI: Large Language Models for Multi-Modal Human-Robot Interaction
ACM Transactions on Human-Robot Interaction, 2024.
arXiv: 2401.15174 - Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory
Nadine Project, University of Geneva, 2024.
arXiv: 2405.20189 - Designing Social Robots with LLMs for Engaging Human Interaction
Applied Sciences (MDPI), Vol. 15, No. 11, 6377, 2025.
DOI: 10.3390/app15116377 - Exploring LLM-powered Multi-Session Human-Robot Interaction
Frontiers in Robotics and AI, 2025.
PMC Article: PMC12170534 - First Impressions of a Humanoid Social Robot with Natural Language
Scientific Reports (Nature), 2025.
DOI: 10.1038/s41598-025-04274-z - Building Knowledge from Interactions: A Memory Architecture for Human-Robot Tutoring
arXiv preprint, 2025.
arXiv: 2504.01588 - Foundation Model Driven Robotics: Opportunities and Challenges
arXiv preprint, 2025.
arXiv: 2507.10087 - Time is on My Sight: Scene Graph Filtering for Dynamic Environment Perception in LLM-Driven Robots
arXiv preprint, 2024.
arXiv: 2411.15027 - Plan-and-Act Using Large Language Models for Interactive Agreement
arXiv preprint, 2025.
arXiv: 2504.01252 - Agreeing to Interact: Deciding When a Robot Should Engage with Humans Using LLMs and Vision-Language Models (VLMs)
arXiv preprint, 2025.
arXiv: 2503.15491 - A Survey on Integration of Large Language Models with Intelligent Robots
IEEE Transactions on Artificial Intelligence, 2024.
arXiv: 2404.09228 - Towards Multimodal Social Conversations with Robots
arXiv preprint, 2025.
arXiv: 2507.19196 - GRACE: Generating Socially Appropriate Robot Actions Leveraging LLMs and Human Explanations
arXiv preprint, 2025.
arXiv: 2409.16879 - SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Models and Deep Reinforcement Learning
arXiv preprint, 2024.
arXiv: 2403.15648 - Do As I Can, Not As I Say: Grounding Language in Robotic Skills
Brohan et al., Google Research, 2023.
arXiv: 2204.01691
🔹 Artículos conceptuales y teóricos
- Large Language Models for Human-Robot Interaction – A Meta-Study
arXiv preprint, 2024.
arXiv: 2405.00693 - The Potential of Large Language Models for Social Robots in Special Education
Springer AI & Society Journal, 2025.
DOI: 10.1007/s13748-025-00363-2 - Trusting Emotional Support from Generative Artificial Intelligence
Computers in Human Behavior, Elsevier, 2025.
DOI: 10.1016/j.chb.2025.108753 - Techno-Emotional Projection in Human–GenAI Relationships
Frontiers in Psychology, 2025.
DOI: 10.3389/fpsyg.2025.1662206 - Evaluating the Alignment of AI with Human Emotions
Artificial Intelligence Review, Elsevier, 2024.
DOI: 10.1016/j.artint.2024.103893 - Large Language Models for Robotics: Opportunities, Challenges, and Use Cases
arXiv preprint, 2024.
arXiv: 2401.04334 - Grounding Multimodal Human-Robot Conversation and Collaboration
arXiv preprint, 2024.
arXiv: 2407.00518
🔹 Frameworks y modelos relacionados
- Furhat Robotics Platform – Multimodal Expressive Head Robot
Furhat Robotics AB (Product Whitepaper), 2024.
https://furhatrobotics.com - Helix: Vision-Language-Action Model for Embodied Intelligence
NVIDIA Research, 2025.
https://research.nvidia.com/publication/helix - Google Robotics – SayCan Framework (Language-to-Action Planning)
Google Research Blog, 2023.
https://robotics.googleblog.com/2023/05/saycan-language-to-action.html - Haru Communication Robot Project – Honda Research Institute Japan
HRI Labs, 2024.
https://www.honda-ri.jp/haru
コメント