Système de dialogue de robotique augmentée pour améliorer l’interaction homme-robot (projet informatique)
->
ABSTRAIT
La réalité augmentée, la télévision augmentée et le second écran sont des technologies de pointe qui fournissent aux utilisateurs finaux des informations supplémentaires et améliorées liées à certains événements en temps réel. Ces informations enrichies aident les utilisateurs à mieux comprendre ces événements, en même temps offrant une expérience plus satisfaisante. Dans le présent article, nous appliquons cette idée principale à l’interaction homme-robot (HRI), à la manière dont les utilisateurs et les robots échangent des informations.
Le but ultime de cet article est d’améliorer la qualité de HRI, en développant un nouveau système de gestion de dialogue qui incorpore des informations enrichies du web sémantique. Ce travail présente le système de dialogue robotique augmenté (ARDS), qui utilise des mécanismes de compréhension du langage naturel pour fournir deux fonctionnalités: (i) un texte non grammatical d’entrée multimodal (verbal et / ou écrit); et (ii) une contextualisation des informations véhiculées dans l’interaction.
Cette contextualisation est réalisée par des techniques d’enrichissement d’informations qui relient les informations extraites du dialogue avec des informations supplémentaires sur le monde disponibles dans les bases de connaissances sémantiques. Ces informations enrichies ou contextualisées (enrichissement d’informations, amélioration sémantique ou informations contextualisées sont utilisées de manière interchangeable dans la suite de cet article) offrent de nombreuses possibilités en termes de HRI.
Par exemple, il peut améliorer la pro-activité du robot lors d’un dialogue homme-robot (les informations enrichies peuvent être utilisées pour proposer de nouveaux sujets lors du dialogue, tout en assurant une interaction cohérente). Une autre possibilité est d’afficher un contenu multimédia supplémentaire lié aux informations enrichies sur un dispositif visuel. Cet article décrit l’ARDS et montre une preuve de concept de ses applications.
PRÉSENTATION DU SYSTÈME
La figure 1 montre le robot social Maggie avec quelques détails du matériel et une tablette tactile externe accessible au robot. Maggie, en tant que plate-forme de recherche robotique, a été décrite plus en détail dans d’autres articles, et ici, nous nous concentrerons sur les composants pertinents pour le présent article.
NIVEAUX DE LANGUE NATURELLE DANS LE SYSTÈME
La recherche présentée dans cet article comprend plusieurs domaines: les systèmes de gestion de dialogue (DMS), la reconnaissance automatique de la parole (ASR), la reconnaissance optique de caractères (OCR), l’extraction d’informations (IEx) et l’enrichissement d’informations (IEn). Nous nous sommes inspirés de plusieurs articles de ces domaines et avons utilisé les outils disponibles pour faire une intégration complète dans un véritable robot social interactif.
LE SYSTÈME DE DIALOGUE ROBOTIQUE: LE CADRE DU SYSTÈME DE DIALOGUE ROBOT AUGMENTÉ
Ici, nous décrivons brièvement le RDS pour faciliter la compréhension du reste de cet article. Plus de détails peuvent être trouvés. Le RDS est destiné à gérer l’interaction entre un robot et un ou plusieurs utilisateurs. Il est intégré à l’architecture de contrôle du robot, qui gère toutes les tâches et tous les processus, notamment la navigation, l’interaction de l’utilisateur et d’autres compétences du robot. Voir la figure 2.
LE SYSTÈME DE DIALOGUE ROBOTIQUE AUGMENTÉ
La figure 3 illustre les différents composants du SDRA. La nouvelle fonctionnalité d’entrée est présentée comme les modules d’entrée suivants: OCR et ASR non grammatical. L’autre nouvelle fonctionnalité est présentée dans le module NLU. Ce composant prend les informations extraites des modules OCR et ASR et en extrait une partie de son contenu sémantique.
La technique de l’OCR a été largement appliquée. Cependant, seuls quelques chercheurs ont travaillé sur l’OCR en temps réel. Milyaev et al ont reconnu le texte d’une vidéo en temps réel (voir la figure 5). Le texte peut être écrit sur différentes surfaces et sa taille, sa position et son orientation peuvent varier.
PREUVE DE CONCEPT: HRI ET ARDS
La figure 8 montre l’interaction entre l’utilisateur et le robot dans le cadre de la preuve de concept dans deux scénarios différents: dans un environnement naturel commun, un salon et au laboratoire. Notez comment le robot est capable de regarder l’écran externe où les informations enrichies sont affichées, de sorte qu’une interaction triangulaire entre l’écran, le robot et l’utilisateur est générée.
La figure 10 montre le flux d’informations de l’acte de communication perçu (CA) à l’expression multimodale du robot. Le module de fusion envoie le CA au DM, qui remplit certains des emplacements d’informations définis dans la boîte de dialogue active. Ces emplacements comprennent ce que le module d’extraction d’informations a détecté: le nombre et les noms des principales entités et concepts ainsi que les données IEn: les URL liées à ces entités.
CONCLUSIONS ET RECHERCHE FUTURE
Cet article a décrit le système de dialogue robotique augmenté et son implémentation dans le robot social Maggie. D’autres recherches similaires ont déjà utilisé des techniques de traitement du langage naturel, la fonctionnalité IEx et IEn pour améliorer l’expérience utilisateur, mais aucune dans un système unique et complet, ni dans un robot social interactif. L’un des principaux avantages de l’ARDS est la possibilité de communiquer avec le robot avec ou sans grammaire, c’est-à-dire en utilisant le langage naturel.
Les grammaires sont formées par des règles qui délimitent les phrases acceptables pour un dialogue. L’utilisation de grammaires permet au système de dialogue d’atteindre une précision de reconnaissance élevée. En revanche, les grammaires limitent considérablement la langue d’entrée interprétable. L’utilisation d’un ASR sans grammaire en conjonction avec les modules IEx permet d’interagir avec le robot en utilisant le langage naturel. Ces modules traitent les énoncés de l’utilisateur et extraient leurs informations sémantiques de tout énoncé d’entrée naturel.
Plus tard, ces informations sont utilisées dans la boîte de dialogue, affichant le contenu multimédia associé. De plus, l’ARDS facilite le maintien d’un dialogue cohérent. Les principaux sujets du dialogue peuvent être extraits; ainsi, le robot peut continuer à parler du même sujet ou détecter quand le sujet change. Encourager les dialogues proactifs homme-robot est également un point clé. Le module IEn fournit de nouvelles informations sur ce dont parle l’utilisateur. Le robot peut prendre l’initiative et introduire ces nouvelles informations dans le dialogue, conduisant le dialogue vers de nouveaux domaines tout en conservant la cohérence.
Bien que cela puisse également s’appliquer à d’autres domaines, il est important de se rappeler que l’ARDS a été conçu pour les robots sociaux, qui sont des robots destinés principalement à HRI. Pour ces robots, il est important d’impliquer les gens dans la boucle d’interaction. Compte tenu des points forts déjà évoqués (compréhension du langage naturel, cohérence et dialogues proactifs), l’ARDS tente d’améliorer cet engagement.
De plus, le sentiment extrait du message de l’utilisateur peut également contribuer à améliorer l’engagement. Il peut être utilisé pour détecter le moment où l’utilisateur perd tout intérêt pour la conversation, afin que le robot puisse essayer de récupérer dans cette situation. En outre, l’expressivité du robot est complétée par des modes de sortie non conventionnels, tels qu’une tablette, qui peuvent rendre le résultat plus attrayant pour les utilisateurs.
Source: Université de Vienne
Auteurs: Fernando Alonso-Martin | Alvaro Castro-Gonzalez | Francisco Javier Fernandez de Gorostiza Luengo | Miguel Angel Salichs