Robots sociales con “emociones” impulsados por GenAI / LLMs: estado del arte, desafíos y futuro

Inteligencia Artificial (IA)

Introducción

En los últimos años, los robots sociales se han convertido en agentes capaces de mantener conversaciones abiertas, adaptarse al contexto y mostrar señales emocionales. Gracias a la integración de modelos de lenguaje grandes (LLMs) y modelos multimodales (Vision-Language Models, VLMs), hoy podemos aspirar a robots sociales que “entienden” más allá de comandos: que perciben entorno, emociones, gestos, adaptan su voz, recordan interacciones pasadas y reaccionan apropiadamente.

Este artículo explora con detalle cómo se usan LLM/GenAI en robótica social actual: arquitecturas, métodos, materiales, técnicas de grounding, memoria, evaluación, retos clave y visiones futuras. También incluyo ejemplos concretos de proyectos recientes, con referencias técnicas.


1. Fundamento conceptual: ¿qué roles juegan los modelos generativos en robots sociales?

1.1. Fundamentación: ¿por qué usar LLMs en robótica?

  • Los Large Language Models (LLMs) — como GPT-4, LLaMA, etc. — son redes transformadoras preentrenadas en enormes corpora lingüísticos. Poseen habilidades de razonamiento emergente, generación de lenguaje coherente, few-shot / zero-shot, conocimiento generalizado.
  • En robótica, los LLMs no actúan como controladores de bajo nivel, sino como cerebros de alto nivel: generan planes, deciden qué decir o hacer, integran conocimientos de sentido común.
  • Al combinarse con módulos especializados de percepción, control y ejecución, los LLMs permiten dotar al robot de flexibilidad, adaptabilidad y “contexto” conversacional.

Varios trabajos recientes analizan ese potencial:

  • A Survey on Integration of Large Language Models with Intelligent Robots analiza cómo los LLM pueden integrarse en los módulos clásicos de robótica (percepción, comunicación, planificación, control). arxiv.org
  • Foundation Model Driven Robotics propone un enfoque estructurado de robótica basada en modelos fundacionales (LLMs, VLMs), identificando fortalezas y cuellos de botella (embodiment, grounding, latencia). arxiv.org
  • En robótica social, el artículo “Review: Large language models for human–robot interaction” ofrece una panorámica de los recientes avances y retos para aplicar LLMs a robots sociales. sciencedirect.com

1.2. Multimodalidad y grounding sensorial

Un robot social no solo “habla”: ve, escucha, percibe gestos, proximidad, expresión emocional. Integrar esa multimodalidad es un reto:

  • Los Vision-Language Models (VLMs) permiten fusionar visión + lenguaje. Por ejemplo, procesan imágenes del entorno y extraen representaciones textuales o semánticas que el LLM puede usar como contexto.
  • En el artículo “Towards Multimodal Social Conversations with Robots”, los autores proponen adaptar VLMs para interacción social situada: juicio de identidad, gestos, referencia contextual visual. arxiv.org
  • Pero los VLMs estándar no están diseñados para agentes encarnados: interpretar continuamente escenas visuales, razonar sobre personas, objetos, relaciones espaciales con latencia baja, es complejo. arxiv.org
  • Modelos de visión-acción (Vision-Language-Action, VLA) buscan saltar el paso intermedio: dado un input visual y un texto, producir acciones directamente ejecutables. en.wikipedia.org

Por ejemplo, Helix es un modelo de tipo VLA que controla partes superiores del cuerpo humanoide (brazos, cabeza, manos) integrando un módulo de escena + decodificador de acción. en.wikipedia.org

1.3. Módulos arquitectónicos comunes

Una arquitectura típica para robot social con LLM puede contemplar los siguientes componentes:

  1. Percepción / Sensores
    • Cámaras RGB, sensores de profundidad (RGB-D), micrófonos, sensores de proximidad.
    • Procesamiento de visión: detección de personas, reconocimiento facial, posturas, objeto, emociones faciales (por ejemplo, redes CNN, transformadores visuales).
    • Procesamiento de audio: reconocimiento de voz (ASR), detección de entonación/emoción (prosodia), separación de fuentes, cancelación de ruido.
  2. Módulo de representación intermedia / escena
    • Se construye un grafo semántico del entorno, un mapa simbólico, objetos con relaciones espaciales y estados.
    • Filtrado temporal: mantener sólo lo relevante, gestionar cambios dinámicos. Por ejemplo un trabajo reciente “Time is on my sight” explora grafo semántico dinámico aplicado a LLM-driven robots. (mencionado en papers de vanguardia)
  3. Módulo de memoria / contexto
    • Memoria episódica: almacenaje de eventos pasados con el usuario A (qué se dijo, reacciones).
    • Memoria resumida: compresión de lo esencial para mantener contexto largo sin saturar al LLM.
    • Estrategias de recuperación: decidir qué recuerdos son relevantes para la conversación actual.
    • Por ejemplo, Nadine: An LLM-driven Intelligent Social Robot integra memoria a largo plazo y estados emocionales simulados. arxiv.org
    • Otro trabajo Building Knowledge from Interactions propone una arquitectura para tutoría robótica donde el robot “recuerda” interacciones previas y las usa para personalización social. arxiv.org
  4. Módulo de razonamiento / decisión (LLM + agente)
    • El LLM recibe contexto (texto + input sensorial) + memoria + prompt de objetivo, y decide qué acción lingüística / social / física ejecutar.
    • Técnicas como prompt engineering, chain-of-thought prompting, plan & act, React, tool use son comunes.
    • En algunos sistemas se usan agentes híbridos, que combinan el LLM con módulos especializados de lógica simbólica o planificación clásica.
    • Por ejemplo, en Designing Social Robots with LLMs for Engaging Human Interaction, se describe cómo integrar memoria, condicionamiento de personalidad (“persona”), ajuste acústico, turn-taking adaptativo. mdpi.com
  5. Módulo de expresividad / actuation
    • Traduce las decisiones del LLM en señales físicas: movimientos de cabeza, gestos de manos, cambios en ojos / cejas, postura corporal, expresión facial, control de voz (entonación, pausas).
    • El mapeo “decisión → actuador” puede requerir modelado cinemático, interpolaciones suaves, constraints físicos del robot.
    • Combinaciones visual-lingüísticas: por ejemplo, usar proyección en pantallas (como el robot Furhat proyecta expresiones faciales en una máscara). en.wikipedia.org
    • En LaMI: Large Language Models for Multi-Modal Human-Robot Interaction esta capa se llama “Expresser”: se coordina voz + movimientos físicos basados en la salida del LLM. dl.acm.org
  6. Capas de seguridad, filtro, moderación / supervisión humana
    • Validación de la acción propuesta (¿es segura? ¿apropiada socialmente?).
    • Restricciones lógicas: no permitir comportamientos no deseados.
    • Mecanismos de retroalimentación humana: corrección, supervisión en tiempo real.

Una arquitectura genérica puede representarse como:

Sensores → Preprocesamiento → Representación de escena + memoria → LLM / agente → Decisión social / acción → Motor físico / actuation → Retroalimentación al sistema

2. Casos reales y prototipos representativos

Aquí algunos trabajos concretos que demuestran cómo se hace esto en la práctica:

2.1 LaMI (Large Language Models for Multi-Modal HRI)

  • En este proyecto, se diseña un robot que integra un módulo “Scene Narrator” que convierte percepciones sensoriales en descripciones textuales, un “Planner” que interacciona con el LLM para decidir qué responder o hacer, y un “Expresser” que lleva las decisiones del LLM a movimientos físicos (cabeza, brazos) y entonación. dl.acm.org
  • Se usa prompt engineering estructurado: por ejemplo, se le envía al LLM una descripción de la escena + intención conversacional, y se pide la mejor acción comunicativa + gestual.
  • El sistema permite guiar el comportamiento vía instrucciones de alto nivel (por ejemplo “saludar al usuario que entra”) sin diseñar cada transición de estados manualmente.
  • Se han demostrado conversaciones multimodales relativamente fluidas entre humanos y robot, aunque en entornos controlados.

2.2 Designing Social Robots with LLMs for Engaging Human Interaction

  • Este trabajo explora integración centrada en el usuario (personas mayores socialmente aisladas). mdpi.com
  • Arquitectura:
    1. Captura de voz en tiempo real con streaming continuo para reducir la latencia y apoyar el turn-taking fluido.
    2. Memoria estructurada en capas: memoria a corto plazo, memoria larga, mapas de interés personal.
    3. Condicionamiento de personalidad / identidad: para que el robot mantenga coherencia de “quién es” durante la conversación.
    4. Adaptación multilingüe / acentos para que la voz del robot sea culturalmente congruente con el usuario.
  • Hicieron ensayos con adultos mayores (n = 7) dentro de casas, y estudios exploratorios con jóvenes (n = 43).
  • Observaciones: la continuidad de memoria, el turno adaptativo (respetar pausas humanas), el diseño de la voz (tono, pausas) influyeron en que los usuarios percibieran mayor naturalidad, confianza, presencia social.
  • Limitaciones: latencia aún considerable, alucinaciones del modelo, manejo de expectativas (cuando el robot “falla”).

2.3 Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory

  • Proyecto que integra un robot social llamado Nadine con capacidades afectivas y memoria humana remodelada. arxiv.org
  • Propone un marco llamado SoR-ReAct: LLM actuando como agente social que decide entre razonar (“Reason”) y actuar (“Act”).
  • El sistema simula estados emocionales internos (por ejemplo “feliz”, “triste”) basados en interacción con el humano — estas emociones influyen en las respuestas generadas.
  • La memoria reconoce usuarios previos y carga recuerdos relevantes, lo que permite una interacción más personalizada.

2.4 Exploring LLM-powered multi-session human-robot interaction

  • Estudio exploratorio (2025) de interacciones abiertas de múltiples sesiones entre humanos y robot social habilitado por LLMs. pmc.ncbi.nlm.nih.gov
  • Investigan cómo las sesiones sucesivas pueden mejorar la relación humano-robot: qué tan bien el sistema recuerda preferencias, nombres, estilos de conversación.
  • Desafíos señalados: deriva de tema, inconsistencias en respuestas, cómo priorizar memoria relevante, cuánto “confianza” construir.

2.5 First impressions of a humanoid social robot with natural language

  • En un entorno público (“in the wild”) se usó al robot Pepper combinado con ChatGPT para interactuar con asistentes en un festival. Nature
  • Se entrevistó a 88 participantes después de su interacción con Pepper, recolectando percepciones cualitativas: sorpresa, dudas sobre naturalidad, expectativa vs realidad, rol social que esperando del robot.
  • Resultado: las primeras impresiones son clave; errores menores pueden dañar la experiencia emocional. Es importante que el robot controle expectativas.

3. Métodos técnicos, conceptos y herramientas usadas

Aquí detallo algunos métodos, tecnologías y estrategias que se usan hoy:

3.1. Prompt engineering, chain-of-thought, razonamiento intermedio

  • En muchos sistemas, el LLM no recibe directamente solo el input + pregunta, sino que se le guía con cadena de pensamiento (CoT) para que “razone en pasos”.
  • Se pueden usar prompt templates estructurados, con secciones: descripción de escena, memoria relevante, objetivos sociales, listado de posibles acciones.
  • En arquitecturas plan-and-act, el LLM genera un plan en lenguaje (por ejemplo “saludar, esperar respuesta, preguntar estado”) y luego otro módulo ejecuta cada paso.

3.2. Técnicas híbridas / agentes compuestos

  • No todo se hace ordenado dentro del LLM. Muchas arquitecturas combinan el LLM con módulos simbólicos, lógicos o de planificación clásica (PDDL, búsqueda heurística) para control más robusto.
  • Por ejemplo, ciertas decisiones “qué hacer ahora” pueden pasar por un sistema de supervisor que filtra o corrige la salida del LLM.
  • En Foundation Model Driven Robotics, se habla de “estrategias integradas a nivel de sistema” en lugar de enfoques modulares aislados. arxiv.org

3.3. Memoria estructurada y recuperación selectiva

  • No es viable mantener todo el historial de la conversación como prompt; se requiere comprensión / resúmenes.
  • Métodos usados:
    • Memoria episódica + resumen temático
    • Indexación semántica (embedding) para recuperar recuerdos relevantes
    • Filtrado por relevancia, temporalidad o emoción
  • Por ejemplo, Building Knowledge from Interactions implementa una memoria que selecciona qué guardar y cuándo recuperarlo para afectar la futura conversación. arxiv.org

3.4. Gestión de latencia, capacidad y recursos

  • LLM grandes tienen costos computacionales elevados y latencia no trivial: hay que optimizar la inferencia, o usar versiones “ligeras” / cuantizadas / edge models.
  • Algunas estrategias:
    • Pre-caching de respuestas frecuentes
    • División de tareas: respuestas “costeras” asíncronas y respuestas rápidas locales
    • Uso de modelos cuantizados, pruning, distillation
    • Ejecutar partes del modelo localmente (on-device) y otras en la nube
    • Uso de pipelines que priorizan baja latencia para tareas interactivas inmediatas, y trabajo diferido para cálculo más pesado

3.5. Evaluación (métricas y protocolos)

Evaluar robots sociales generativos es complicado. Algunos enfoques:

  • Evaluaciones por turnos (“turn-level”) vs evaluación de toda la conversación
  • Escalas subjetivas: naturalidad, empatía, presencia social, fluidez
  • Evaluaciones in situ (“in the wild”) para capturar reacciones reales (como el estudio con Pepper) Nature
  • Comparación con diálogo humano-humano como referencia ideal
  • Anotación externa o usuarios evaluadores después de interactuar
  • Métricas automáticas: coherencia, repetición, diversidad lingüística
  • Robustez a rupturas: cómo se recupera el robot cuando algo sale mal

3.6. Seguridad, moderación y restricciones éticas

  • Filtros de contenido: evitar que el robot diga cosas ofensivas, peligrosas o inapropiadas.
  • Mecanismos de fallback (“no sé”, “prefiero no contestar”, pedir clarificación).
  • Capas de verificación lógica: si el LLM propone una acción física, verificar en simulador virtual si es segura.
  • Supervisión humana: logs, monitoreo, intervención humana en casos críticos.
  • Privacidad de datos del usuario: manejar cuidadosamente el almacenamiento de memoria y el consentimiento explícito.

3.7. Materiales y hardware típicos

  • Robots sociales: humanoides (Pepper, Nadine), bustos robóticos (Furhat), robots móviles con torso expresivo.
  • Actuadores: motores para cabeza, cuello, brazos, manos, servos para movimientos finos.
  • Sensores: cámaras RGB / RGB-D, micrófonos array, sensores de proximidad, LIDAR ligero a veces.
  • Computación embarcada: GPU / TPU / módulos de aceleración (NVIDIA Jetson, Edge TPUs).
  • Infraestructura: conexión de red (a nube), módulos de procesamiento local + remoto híbrido.

4. Retos clave y limitaciones actuales

Aunque hay progresos prometedores, los retos son muchos:

  1. Grounding robusto en entorno real
    – Traducir sensor raw a representaciones simbólicas coherentes es difícil.
    – Escenarios dinámicos (múltiples personas, objetos en movimiento) complican la interpretación visual-temporal.
    – Ambigüedades (¿qué mira la persona?, ¿qué objeto menciona?)
  2. Latencia y recursos computacionales
    —La inferencia de modelos grandes es pesada.
    – Fallas de tiempo real pueden romper la inmersión, generar pausas incómodas.
    – Dividir tareas en local vs nube sin comprometer fluidez es un problema de arquitectura.
  3. Coherencia emocional y estabilidad conversacional
    – Evitar que el robot cambie abruptamente de “estado emocional” sin justificación.
    – Manejar las alucinaciones y respuestas incoherentes.
    – Control del nivel de “personalidad” del robot sin que parezca caricaturesco.
  4. Memoria y continuidad
    – Decidir qué recordar, qué olvidar, qué priorizar.
    – Evitar contradicciones en la narrativa del robot (por ejemplo: “¿no me dijiste hace un rato que…”).
    – Crecer la memoria sin saturar el prompt.
  5. Decidir cuándo interactuar (“turn-taking social”)
    – Saber cuándo interrumpir, esperar, mantenerse en silencio.
    – En ambientes ruidosos o con múltiples interlocutores, decidir a quién responder.
  6. Evaluación realista (transferencia laboratorio → mundo real)
    – Lo que funciona en laboratorio muchas veces no escala “in the wild”.
    – Los usuarios no expertos tienen expectativas altas, sensibilidad a fallas menores.
  7. Riesgos de seguridad, manipulación e interpretabilidad
    – Robots conectados a LLM pueden ser manipulados mediante prompts maliciosos (ver investigación en vulnerabilidades).
    – La toma de decisiones del LLM puede ser opaca: difícil explicar por qué hizo algo.
    – Riesgo de dependencia emocional o atribución excesiva de agencia por parte del usuario.
  8. Escalabilidad, costo y accesibilidad
    – Robots complejos tienen alto costo de hardware y mantenimiento.
    – No todos los usuarios tendrán acceso a robots con capacidad de GPU potente.
    – Despliegue a escala en hogares requiere robustez prolongada, actualizaciones, fiabilidad.

5. Rumbo al futuro: oportunidades y líneas prometedoras

Aquí algunas direcciones que, si se resuelven, podrían transformar el panorama:

  • Modelos multimodales de próxima generación: VLM/VLA que integren visión, audio, acción, lenguaje en un solo modelo robusto.
  • Entrenamiento continuo / aprendizaje en el campo: robots que aprendan tras cada interacción, adaptándose al usuario.
  • Transferencia sim-to-real más robusta: entrenar en simulaciones realistas y transferir a hardware real con menor penalidad.
  • Mejora de interpretabilidad y explicabilidad: que el robot “explique” por qué hizo algo (“Decidí esperar porque vi que estabas hablando”).
  • Robots sociales modulares y escalables: hardware estándar, módulos plug-and-play de lenguaje, expresividad, percepción.
  • Estudios longitudinales reales: medir cómo evoluciona la relación humano-robot en meses/años en escenarios cotidianos.
  • Ética integrada desde el diseño: que los robots desde el inicio consideren límites sociales, privacidad, consentimiento, roles no manipulativos.

6. Conclusión

La integración de GenAI / LLM en robótica social es una de las fronteras más fascinantes de la inteligencia artificial aplicada: no solo se trata de que un robot “hable bien”, sino de que se convierta en un ente social, emocionalmente resonante y adaptativo.

Hoy ya existen prototipos que combinan percepción visual, memoria estructurada, razonamiento generativo y actuación expresiva para interactuar de forma más natural. Pero los desafíos — grounding del entorno real, latencia, coherencia emocional, memoria duradera, seguridad y escalabilidad — siguen siendo grandes. La promesa es que, con avances en modelos multimodales, hardware más eficiente y mejores arquitecturas híbridas, en un futuro no muy lejano veremos robots verdaderamente integrados en nuestras vidas sociales.

7. Referencias

🔹 Papers y artículos principales (2024–2025)

  1. Ain’t Misbehavin’: Using LLMs to Generate Expressive Robot Behavior in Conversations with the Tabletop Robot Haru
    Hiroshi Ishiguro et al., 2024.
    arXiv: 2402.11571
  2. LaMI: Large Language Models for Multi-Modal Human-Robot Interaction
    ACM Transactions on Human-Robot Interaction, 2024.
    arXiv: 2401.15174
  3. Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory
    Nadine Project, University of Geneva, 2024.
    arXiv: 2405.20189
  4. Designing Social Robots with LLMs for Engaging Human Interaction
    Applied Sciences (MDPI), Vol. 15, No. 11, 6377, 2025.
    DOI: 10.3390/app15116377
  5. Exploring LLM-powered Multi-Session Human-Robot Interaction
    Frontiers in Robotics and AI, 2025.
    PMC Article: PMC12170534
  6. First Impressions of a Humanoid Social Robot with Natural Language
    Scientific Reports (Nature), 2025.
    DOI: 10.1038/s41598-025-04274-z
  7. Building Knowledge from Interactions: A Memory Architecture for Human-Robot Tutoring
    arXiv preprint, 2025.
    arXiv: 2504.01588
  8. Foundation Model Driven Robotics: Opportunities and Challenges
    arXiv preprint, 2025.
    arXiv: 2507.10087
  9. Time is on My Sight: Scene Graph Filtering for Dynamic Environment Perception in LLM-Driven Robots
    arXiv preprint, 2024.
    arXiv: 2411.15027
  10. Plan-and-Act Using Large Language Models for Interactive Agreement
    arXiv preprint, 2025.
    arXiv: 2504.01252
  11. Agreeing to Interact: Deciding When a Robot Should Engage with Humans Using LLMs and Vision-Language Models (VLMs)
    arXiv preprint, 2025.
    arXiv: 2503.15491
  12. A Survey on Integration of Large Language Models with Intelligent Robots
    IEEE Transactions on Artificial Intelligence, 2024.
    arXiv: 2404.09228
  13. Towards Multimodal Social Conversations with Robots
    arXiv preprint, 2025.
    arXiv: 2507.19196
  14. GRACE: Generating Socially Appropriate Robot Actions Leveraging LLMs and Human Explanations
    arXiv preprint, 2025.
    arXiv: 2409.16879
  15. SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Models and Deep Reinforcement Learning
    arXiv preprint, 2024.
    arXiv: 2403.15648
  16. Do As I Can, Not As I Say: Grounding Language in Robotic Skills
    Brohan et al., Google Research, 2023.
    arXiv: 2204.01691

🔹 Artículos conceptuales y teóricos

  1. Large Language Models for Human-Robot Interaction – A Meta-Study
    arXiv preprint, 2024.
    arXiv: 2405.00693
  2. The Potential of Large Language Models for Social Robots in Special Education
    Springer AI & Society Journal, 2025.
    DOI: 10.1007/s13748-025-00363-2
  3. Trusting Emotional Support from Generative Artificial Intelligence
    Computers in Human Behavior, Elsevier, 2025.
    DOI: 10.1016/j.chb.2025.108753
  4. Techno-Emotional Projection in Human–GenAI Relationships
    Frontiers in Psychology, 2025.
    DOI: 10.3389/fpsyg.2025.1662206
  5. Evaluating the Alignment of AI with Human Emotions
    Artificial Intelligence Review, Elsevier, 2024.
    DOI: 10.1016/j.artint.2024.103893
  6. Large Language Models for Robotics: Opportunities, Challenges, and Use Cases
    arXiv preprint, 2024.
    arXiv: 2401.04334
  7. Grounding Multimodal Human-Robot Conversation and Collaboration
    arXiv preprint, 2024.
    arXiv: 2407.00518

🔹 Frameworks y modelos relacionados

  1. Furhat Robotics Platform – Multimodal Expressive Head Robot
    Furhat Robotics AB (Product Whitepaper), 2024.
    https://furhatrobotics.com
  2. Helix: Vision-Language-Action Model for Embodied Intelligence
    NVIDIA Research, 2025.
    https://research.nvidia.com/publication/helix
  3. Google Robotics – SayCan Framework (Language-to-Action Planning)
    Google Research Blog, 2023.
    https://robotics.googleblog.com/2023/05/saycan-language-to-action.html
  4. Haru Communication Robot Project – Honda Research Institute Japan
    HRI Labs, 2024.
    https://www.honda-ri.jp/haru

コメント

タイトルとURLをコピーしました