Robots sociales con “emociones” impulsados por GenAI / LLMs: estado del arte, desafíos y futuro

Introducción

En los últimos años, los robots sociales se han convertido en agentes capaces de mantener conversaciones abiertas, adaptarse al contexto y mostrar señales emocionales. Gracias a la integración de modelos de lenguaje grandes (LLMs) y modelos multimodales (Vision-Language Models, VLMs), hoy podemos aspirar a robots sociales que “entienden” más allá de comandos: que perciben entorno, emociones, gestos, adaptan su voz, recordan interacciones pasadas y reaccionan apropiadamente.

Este artículo explora con detalle cómo se usan LLM/GenAI en robótica social actual: arquitecturas, métodos, materiales, técnicas de grounding, memoria, evaluación, retos clave y visiones futuras. También incluyo ejemplos concretos de proyectos recientes, con referencias técnicas.

1. Fundamento conceptual: ¿qué roles juegan los modelos generativos en robots sociales?
2. Casos reales y prototipos representativos
3. Métodos técnicos, conceptos y herramientas usadas
4. Retos clave y limitaciones actuales
5. Rumbo al futuro: oportunidades y líneas prometedoras
6. Conclusión
7. Referencias

1. Fundamento conceptual: ¿qué roles juegan los modelos generativos en robots sociales?

1.1. Fundamentación: ¿por qué usar LLMs en robótica?

Los Large Language Models (LLMs) — como GPT-4, LLaMA, etc. — son redes transformadoras preentrenadas en enormes corpora lingüísticos. Poseen habilidades de razonamiento emergente, generación de lenguaje coherente, few-shot / zero-shot, conocimiento generalizado.
En robótica, los LLMs no actúan como controladores de bajo nivel, sino como cerebros de alto nivel: generan planes, deciden qué decir o hacer, integran conocimientos de sentido común.
Al combinarse con módulos especializados de percepción, control y ejecución, los LLMs permiten dotar al robot de flexibilidad, adaptabilidad y “contexto” conversacional.

Varios trabajos recientes analizan ese potencial:

A Survey on Integration of Large Language Models with Intelligent Robots analiza cómo los LLM pueden integrarse en los módulos clásicos de robótica (percepción, comunicación, planificación, control). arxiv.org
Foundation Model Driven Robotics propone un enfoque estructurado de robótica basada en modelos fundacionales (LLMs, VLMs), identificando fortalezas y cuellos de botella (embodiment, grounding, latencia). arxiv.org
En robótica social, el artículo “Review: Large language models for human–robot interaction” ofrece una panorámica de los recientes avances y retos para aplicar LLMs a robots sociales. sciencedirect.com

1.2. Multimodalidad y grounding sensorial

Un robot social no solo “habla”: ve, escucha, percibe gestos, proximidad, expresión emocional. Integrar esa multimodalidad es un reto:

Los Vision-Language Models (VLMs) permiten fusionar visión + lenguaje. Por ejemplo, procesan imágenes del entorno y extraen representaciones textuales o semánticas que el LLM puede usar como contexto.
En el artículo “Towards Multimodal Social Conversations with Robots”, los autores proponen adaptar VLMs para interacción social situada: juicio de identidad, gestos, referencia contextual visual. arxiv.org
Pero los VLMs estándar no están diseñados para agentes encarnados: interpretar continuamente escenas visuales, razonar sobre personas, objetos, relaciones espaciales con latencia baja, es complejo. arxiv.org
Modelos de visión-acción (Vision-Language-Action, VLA) buscan saltar el paso intermedio: dado un input visual y un texto, producir acciones directamente ejecutables. en.wikipedia.org

Por ejemplo, Helix es un modelo de tipo VLA que controla partes superiores del cuerpo humanoide (brazos, cabeza, manos) integrando un módulo de escena + decodificador de acción. en.wikipedia.org

1.3. Módulos arquitectónicos comunes

Una arquitectura típica para robot social con LLM puede contemplar los siguientes componentes:

Percepción / Sensores
- Cámaras RGB, sensores de profundidad (RGB-D), micrófonos, sensores de proximidad.
- Procesamiento de visión: detección de personas, reconocimiento facial, posturas, objeto, emociones faciales (por ejemplo, redes CNN, transformadores visuales).
- Procesamiento de audio: reconocimiento de voz (ASR), detección de entonación/emoción (prosodia), separación de fuentes, cancelación de ruido.
Módulo de representación intermedia / escena
- Se construye un grafo semántico del entorno, un mapa simbólico, objetos con relaciones espaciales y estados.
- Filtrado temporal: mantener sólo lo relevante, gestionar cambios dinámicos. Por ejemplo un trabajo reciente “Time is on my sight” explora grafo semántico dinámico aplicado a LLM-driven robots. (mencionado en papers de vanguardia)
Módulo de memoria / contexto
- Memoria episódica: almacenaje de eventos pasados con el usuario A (qué se dijo, reacciones).
- Memoria resumida: compresión de lo esencial para mantener contexto largo sin saturar al LLM.
- Estrategias de recuperación: decidir qué recuerdos son relevantes para la conversación actual.
- Por ejemplo, Nadine: An LLM-driven Intelligent Social Robot integra memoria a largo plazo y estados emocionales simulados. arxiv.org
- Otro trabajo Building Knowledge from Interactions propone una arquitectura para tutoría robótica donde el robot “recuerda” interacciones previas y las usa para personalización social. arxiv.org
Módulo de razonamiento / decisión (LLM + agente)
- El LLM recibe contexto (texto + input sensorial) + memoria + prompt de objetivo, y decide qué acción lingüística / social / física ejecutar.
- Técnicas como prompt engineering, chain-of-thought prompting, plan & act, React, tool use son comunes.
- En algunos sistemas se usan agentes híbridos, que combinan el LLM con módulos especializados de lógica simbólica o planificación clásica.
- Por ejemplo, en Designing Social Robots with LLMs for Engaging Human Interaction, se describe cómo integrar memoria, condicionamiento de personalidad (“persona”), ajuste acústico, turn-taking adaptativo. mdpi.com
Módulo de expresividad / actuation
- Traduce las decisiones del LLM en señales físicas: movimientos de cabeza, gestos de manos, cambios en ojos / cejas, postura corporal, expresión facial, control de voz (entonación, pausas).
- El mapeo “decisión → actuador” puede requerir modelado cinemático, interpolaciones suaves, constraints físicos del robot.
- Combinaciones visual-lingüísticas: por ejemplo, usar proyección en pantallas (como el robot Furhat proyecta expresiones faciales en una máscara). en.wikipedia.org
- En LaMI: Large Language Models for Multi-Modal Human-Robot Interaction esta capa se llama “Expresser”: se coordina voz + movimientos físicos basados en la salida del LLM. dl.acm.org
Capas de seguridad, filtro, moderación / supervisión humana
- Validación de la acción propuesta (¿es segura? ¿apropiada socialmente?).
- Restricciones lógicas: no permitir comportamientos no deseados.
- Mecanismos de retroalimentación humana: corrección, supervisión en tiempo real.

Una arquitectura genérica puede representarse como:

Sensores → Preprocesamiento → Representación de escena + memoria → LLM / agente → Decisión social / acción → Motor físico / actuation → Retroalimentación al sistema

2. Casos reales y prototipos representativos

Aquí algunos trabajos concretos que demuestran cómo se hace esto en la práctica:

2.1 LaMI (Large Language Models for Multi-Modal HRI)

En este proyecto, se diseña un robot que integra un módulo “Scene Narrator” que convierte percepciones sensoriales en descripciones textuales, un “Planner” que interacciona con el LLM para decidir qué responder o hacer, y un “Expresser” que lleva las decisiones del LLM a movimientos físicos (cabeza, brazos) y entonación. dl.acm.org
Se usa prompt engineering estructurado: por ejemplo, se le envía al LLM una descripción de la escena + intención conversacional, y se pide la mejor acción comunicativa + gestual.
El sistema permite guiar el comportamiento vía instrucciones de alto nivel (por ejemplo “saludar al usuario que entra”) sin diseñar cada transición de estados manualmente.
Se han demostrado conversaciones multimodales relativamente fluidas entre humanos y robot, aunque en entornos controlados.

2.2 Designing Social Robots with LLMs for Engaging Human Interaction

Este trabajo explora integración centrada en el usuario (personas mayores socialmente aisladas). mdpi.com
Arquitectura:
1. Captura de voz en tiempo real con streaming continuo para reducir la latencia y apoyar el turn-taking fluido.
2. Memoria estructurada en capas: memoria a corto plazo, memoria larga, mapas de interés personal.
3. Condicionamiento de personalidad / identidad: para que el robot mantenga coherencia de “quién es” durante la conversación.
4. Adaptación multilingüe / acentos para que la voz del robot sea culturalmente congruente con el usuario.
Hicieron ensayos con adultos mayores (n = 7) dentro de casas, y estudios exploratorios con jóvenes (n = 43).
Observaciones: la continuidad de memoria, el turno adaptativo (respetar pausas humanas), el diseño de la voz (tono, pausas) influyeron en que los usuarios percibieran mayor naturalidad, confianza, presencia social.
Limitaciones: latencia aún considerable, alucinaciones del modelo, manejo de expectativas (cuando el robot “falla”).

2.3 Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory

Proyecto que integra un robot social llamado Nadine con capacidades afectivas y memoria humana remodelada. arxiv.org
Propone un marco llamado SoR-ReAct: LLM actuando como agente social que decide entre razonar (“Reason”) y actuar (“Act”).
El sistema simula estados emocionales internos (por ejemplo “feliz”, “triste”) basados en interacción con el humano — estas emociones influyen en las respuestas generadas.
La memoria reconoce usuarios previos y carga recuerdos relevantes, lo que permite una interacción más personalizada.

2.4 Exploring LLM-powered multi-session human-robot interaction

Estudio exploratorio (2025) de interacciones abiertas de múltiples sesiones entre humanos y robot social habilitado por LLMs. pmc.ncbi.nlm.nih.gov
Investigan cómo las sesiones sucesivas pueden mejorar la relación humano-robot: qué tan bien el sistema recuerda preferencias, nombres, estilos de conversación.
Desafíos señalados: deriva de tema, inconsistencias en respuestas, cómo priorizar memoria relevante, cuánto “confianza” construir.

2.5 First impressions of a humanoid social robot with natural language

En un entorno público (“in the wild”) se usó al robot Pepper combinado con ChatGPT para interactuar con asistentes en un festival. Nature
Se entrevistó a 88 participantes después de su interacción con Pepper, recolectando percepciones cualitativas: sorpresa, dudas sobre naturalidad, expectativa vs realidad, rol social que esperando del robot.
Resultado: las primeras impresiones son clave; errores menores pueden dañar la experiencia emocional. Es importante que el robot controle expectativas.

3. Métodos técnicos, conceptos y herramientas usadas

Aquí detallo algunos métodos, tecnologías y estrategias que se usan hoy:

3.1. Prompt engineering, chain-of-thought, razonamiento intermedio

En muchos sistemas, el LLM no recibe directamente solo el input + pregunta, sino que se le guía con cadena de pensamiento (CoT) para que “razone en pasos”.
Se pueden usar prompt templates estructurados, con secciones: descripción de escena, memoria relevante, objetivos sociales, listado de posibles acciones.
En arquitecturas plan-and-act, el LLM genera un plan en lenguaje (por ejemplo “saludar, esperar respuesta, preguntar estado”) y luego otro módulo ejecuta cada paso.

3.2. Técnicas híbridas / agentes compuestos

No todo se hace ordenado dentro del LLM. Muchas arquitecturas combinan el LLM con módulos simbólicos, lógicos o de planificación clásica (PDDL, búsqueda heurística) para control más robusto.
Por ejemplo, ciertas decisiones “qué hacer ahora” pueden pasar por un sistema de supervisor que filtra o corrige la salida del LLM.
En Foundation Model Driven Robotics, se habla de “estrategias integradas a nivel de sistema” en lugar de enfoques modulares aislados. arxiv.org

3.3. Memoria estructurada y recuperación selectiva

No es viable mantener todo el historial de la conversación como prompt; se requiere comprensión / resúmenes.
Métodos usados:
- Memoria episódica + resumen temático
- Indexación semántica (embedding) para recuperar recuerdos relevantes
- Filtrado por relevancia, temporalidad o emoción
Por ejemplo, Building Knowledge from Interactions implementa una memoria que selecciona qué guardar y cuándo recuperarlo para afectar la futura conversación. arxiv.org

3.4. Gestión de latencia, capacidad y recursos

LLM grandes tienen costos computacionales elevados y latencia no trivial: hay que optimizar la inferencia, o usar versiones “ligeras” / cuantizadas / edge models.
Algunas estrategias:
- Pre-caching de respuestas frecuentes
- División de tareas: respuestas “costeras” asíncronas y respuestas rápidas locales
- Uso de modelos cuantizados, pruning, distillation
- Ejecutar partes del modelo localmente (on-device) y otras en la nube
- Uso de pipelines que priorizan baja latencia para tareas interactivas inmediatas, y trabajo diferido para cálculo más pesado

3.5. Evaluación (métricas y protocolos)

Evaluar robots sociales generativos es complicado. Algunos enfoques:

Evaluaciones por turnos (“turn-level”) vs evaluación de toda la conversación
Escalas subjetivas: naturalidad, empatía, presencia social, fluidez
Evaluaciones in situ (“in the wild”) para capturar reacciones reales (como el estudio con Pepper) Nature
Comparación con diálogo humano-humano como referencia ideal
Anotación externa o usuarios evaluadores después de interactuar
Métricas automáticas: coherencia, repetición, diversidad lingüística
Robustez a rupturas: cómo se recupera el robot cuando algo sale mal

3.6. Seguridad, moderación y restricciones éticas

Filtros de contenido: evitar que el robot diga cosas ofensivas, peligrosas o inapropiadas.
Mecanismos de fallback (“no sé”, “prefiero no contestar”, pedir clarificación).
Capas de verificación lógica: si el LLM propone una acción física, verificar en simulador virtual si es segura.
Supervisión humana: logs, monitoreo, intervención humana en casos críticos.
Privacidad de datos del usuario: manejar cuidadosamente el almacenamiento de memoria y el consentimiento explícito.

3.7. Materiales y hardware típicos

Robots sociales: humanoides (Pepper, Nadine), bustos robóticos (Furhat), robots móviles con torso expresivo.
Actuadores: motores para cabeza, cuello, brazos, manos, servos para movimientos finos.
Sensores: cámaras RGB / RGB-D, micrófonos array, sensores de proximidad, LIDAR ligero a veces.
Computación embarcada: GPU / TPU / módulos de aceleración (NVIDIA Jetson, Edge TPUs).
Infraestructura: conexión de red (a nube), módulos de procesamiento local + remoto híbrido.

4. Retos clave y limitaciones actuales

Aunque hay progresos prometedores, los retos son muchos:

Grounding robusto en entorno real
– Traducir sensor raw a representaciones simbólicas coherentes es difícil.
– Escenarios dinámicos (múltiples personas, objetos en movimiento) complican la interpretación visual-temporal.
– Ambigüedades (¿qué mira la persona?, ¿qué objeto menciona?)
Latencia y recursos computacionales
—La inferencia de modelos grandes es pesada.
– Fallas de tiempo real pueden romper la inmersión, generar pausas incómodas.
– Dividir tareas en local vs nube sin comprometer fluidez es un problema de arquitectura.
Coherencia emocional y estabilidad conversacional
– Evitar que el robot cambie abruptamente de “estado emocional” sin justificación.
– Manejar las alucinaciones y respuestas incoherentes.
– Control del nivel de “personalidad” del robot sin que parezca caricaturesco.
Memoria y continuidad
– Decidir qué recordar, qué olvidar, qué priorizar.
– Evitar contradicciones en la narrativa del robot (por ejemplo: “¿no me dijiste hace un rato que…”).
– Crecer la memoria sin saturar el prompt.
Decidir cuándo interactuar (“turn-taking social”)
– Saber cuándo interrumpir, esperar, mantenerse en silencio.
– En ambientes ruidosos o con múltiples interlocutores, decidir a quién responder.
Evaluación realista (transferencia laboratorio → mundo real)
– Lo que funciona en laboratorio muchas veces no escala “in the wild”.
– Los usuarios no expertos tienen expectativas altas, sensibilidad a fallas menores.
Riesgos de seguridad, manipulación e interpretabilidad
– Robots conectados a LLM pueden ser manipulados mediante prompts maliciosos (ver investigación en vulnerabilidades).
– La toma de decisiones del LLM puede ser opaca: difícil explicar por qué hizo algo.
– Riesgo de dependencia emocional o atribución excesiva de agencia por parte del usuario.
Escalabilidad, costo y accesibilidad
– Robots complejos tienen alto costo de hardware y mantenimiento.
– No todos los usuarios tendrán acceso a robots con capacidad de GPU potente.
– Despliegue a escala en hogares requiere robustez prolongada, actualizaciones, fiabilidad.

5. Rumbo al futuro: oportunidades y líneas prometedoras

Aquí algunas direcciones que, si se resuelven, podrían transformar el panorama:

Modelos multimodales de próxima generación: VLM/VLA que integren visión, audio, acción, lenguaje en un solo modelo robusto.
Entrenamiento continuo / aprendizaje en el campo: robots que aprendan tras cada interacción, adaptándose al usuario.
Transferencia sim-to-real más robusta: entrenar en simulaciones realistas y transferir a hardware real con menor penalidad.
Mejora de interpretabilidad y explicabilidad: que el robot “explique” por qué hizo algo (“Decidí esperar porque vi que estabas hablando”).
Robots sociales modulares y escalables: hardware estándar, módulos plug-and-play de lenguaje, expresividad, percepción.
Estudios longitudinales reales: medir cómo evoluciona la relación humano-robot en meses/años en escenarios cotidianos.
Ética integrada desde el diseño: que los robots desde el inicio consideren límites sociales, privacidad, consentimiento, roles no manipulativos.

6. Conclusión

La integración de GenAI / LLM en robótica social es una de las fronteras más fascinantes de la inteligencia artificial aplicada: no solo se trata de que un robot “hable bien”, sino de que se convierta en un ente social, emocionalmente resonante y adaptativo.

Hoy ya existen prototipos que combinan percepción visual, memoria estructurada, razonamiento generativo y actuación expresiva para interactuar de forma más natural. Pero los desafíos — grounding del entorno real, latencia, coherencia emocional, memoria duradera, seguridad y escalabilidad — siguen siendo grandes. La promesa es que, con avances en modelos multimodales, hardware más eficiente y mejores arquitecturas híbridas, en un futuro no muy lejano veremos robots verdaderamente integrados en nuestras vidas sociales.

7. Referencias

🔹 Papers y artículos principales (2024–2025)

Ain’t Misbehavin’: Using LLMs to Generate Expressive Robot Behavior in Conversations with the Tabletop Robot Haru
Hiroshi Ishiguro et al., 2024.
arXiv: 2402.11571
LaMI: Large Language Models for Multi-Modal Human-Robot Interaction
ACM Transactions on Human-Robot Interaction, 2024.
arXiv: 2401.15174
Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory
Nadine Project, University of Geneva, 2024.
arXiv: 2405.20189
Designing Social Robots with LLMs for Engaging Human Interaction
Applied Sciences (MDPI), Vol. 15, No. 11, 6377, 2025.
DOI: 10.3390/app15116377
Exploring LLM-powered Multi-Session Human-Robot Interaction
Frontiers in Robotics and AI, 2025.
PMC Article: PMC12170534
First Impressions of a Humanoid Social Robot with Natural Language
Scientific Reports (Nature), 2025.
DOI: 10.1038/s41598-025-04274-z
Building Knowledge from Interactions: A Memory Architecture for Human-Robot Tutoring
arXiv preprint, 2025.
arXiv: 2504.01588
Foundation Model Driven Robotics: Opportunities and Challenges
arXiv preprint, 2025.
arXiv: 2507.10087
Time is on My Sight: Scene Graph Filtering for Dynamic Environment Perception in LLM-Driven Robots
arXiv preprint, 2024.
arXiv: 2411.15027
Plan-and-Act Using Large Language Models for Interactive Agreement
arXiv preprint, 2025.
arXiv: 2504.01252
Agreeing to Interact: Deciding When a Robot Should Engage with Humans Using LLMs and Vision-Language Models (VLMs)
arXiv preprint, 2025.
arXiv: 2503.15491
A Survey on Integration of Large Language Models with Intelligent Robots
IEEE Transactions on Artificial Intelligence, 2024.
arXiv: 2404.09228
Towards Multimodal Social Conversations with Robots
arXiv preprint, 2025.
arXiv: 2507.19196
GRACE: Generating Socially Appropriate Robot Actions Leveraging LLMs and Human Explanations
arXiv preprint, 2025.
arXiv: 2409.16879
SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Models and Deep Reinforcement Learning
arXiv preprint, 2024.
arXiv: 2403.15648
Do As I Can, Not As I Say: Grounding Language in Robotic Skills
Brohan et al., Google Research, 2023.
arXiv: 2204.01691

🔹 Artículos conceptuales y teóricos

Large Language Models for Human-Robot Interaction – A Meta-Study
arXiv preprint, 2024.
arXiv: 2405.00693
The Potential of Large Language Models for Social Robots in Special Education
Springer AI & Society Journal, 2025.
DOI: 10.1007/s13748-025-00363-2
Trusting Emotional Support from Generative Artificial Intelligence
Computers in Human Behavior, Elsevier, 2025.
DOI: 10.1016/j.chb.2025.108753
Techno-Emotional Projection in Human–GenAI Relationships
Frontiers in Psychology, 2025.
DOI: 10.3389/fpsyg.2025.1662206
Evaluating the Alignment of AI with Human Emotions
Artificial Intelligence Review, Elsevier, 2024.
DOI: 10.1016/j.artint.2024.103893
Large Language Models for Robotics: Opportunities, Challenges, and Use Cases
arXiv preprint, 2024.
arXiv: 2401.04334
Grounding Multimodal Human-Robot Conversation and Collaboration
arXiv preprint, 2024.
arXiv: 2407.00518

🔹 Frameworks y modelos relacionados

Furhat Robotics Platform – Multimodal Expressive Head Robot
Furhat Robotics AB (Product Whitepaper), 2024.
https://furhatrobotics.com
Helix: Vision-Language-Action Model for Embodied Intelligence
NVIDIA Research, 2025.
https://research.nvidia.com/publication/helix
Google Robotics – SayCan Framework (Language-to-Action Planning)
Google Research Blog, 2023.
https://robotics.googleblog.com/2023/05/saycan-language-to-action.html
Haru Communication Robot Project – Honda Research Institute Japan
HRI Labs, 2024.
https://www.honda-ri.jp/haru