Behavior

Une méthodologie pour capturer l'attention visuelle conjointe à l'aide de eye-trackers mobiles

Published: January 18, 2020 doi: 10.3791/60670

¹Learning, Innovation, and Technology Lab, Graduate School of Education, Harvard University

Summary

L'utilisation de capteurs multimodaux est un moyen prometteur de comprendre le rôle des interactions sociales dans les milieux éducatifs. Cet article décrit une méthodologie pour capturer l'attention visuelle commune des dyades colocated es utilisant les eye-trackers mobiles.

Abstract

Avec l'avènement de nouvelles avancées technologiques, il est possible d'étudier les interactions sociales à un niveau microavec une précision sans précédent. Les capteurs à haute fréquence, tels que les eye-trackers, les bracelets d'activité électrodermique, les bandes D'EEG et les capteurs de mouvement fournissent des observations au niveau de la milliseconde. Ce niveau de précision permet aux chercheurs de collecter de grands ensembles de données sur les interactions sociales. Dans cet article, je discute de la façon dont plusieurs eye-trackers peuvent capturer une construction fondamentale dans les interactions sociales, l'attention visuelle conjointe (JVA). JVA a été étudié par des psychologues du développement pour comprendre comment les enfants acquièrent la langue, les scientifiques d'apprentissage pour comprendre comment de petits groupes d'apprenants travaillent ensemble, et les chercheurs en sciences sociales pour comprendre les interactions dans de petites équipes. Cet article décrit une méthodologie pour capturer JVA dans des paramètres colocated à l'aide de eye-trackers mobiles. Il présente quelques résultats empiriques et discute des implications de la capture des microobservations pour comprendre les interactions sociales.

Introduction

JVA a fait l'objet d'études approfondies au cours du siècle dernier, en particulier par des psychologues du développement qui étudient l'acquisition du langage. Il a été rapidement établi que l'attention commune est plus qu'un simple moyen d'apprendre les mots, mais plutôt un précurseur des théories de l'esprit des enfants¹. Ainsi, il joue un rôle important dans de nombreux processus sociaux, tels que la communication avec les autres, la collaboration et le développement de l'empathie. Les enfants autistes, par exemple, n'ont pas la capacité de coordonner leur attention visuelle avec leurs soignants, ce qui est associé à des déficiences sociales importantes². Les humains ont besoin d'une attention commune pour devenir des membres fonctionnels de la société, pour coordonner leurs actions et pour apprendre des autres. Des enfants qui acquièrent leurs premiers mots, des adolescents qui apprennent des enseignants, des élèves qui collaborent à des projets et des groupes d'adultes qui travaillent à la recherche d'objectifs communs, l'attention commune est un mécanisme fondamental pour établir un terrain d'entente entre les individus³. Dans cet article, je me concentre sur l'étude de jAV dans la recherche éducative. Comprendre comment l'attention commune se déroule au fil du temps est d'une importance primordiale pour l'étude des processus d'apprentissage collaboratif. En tant que tel, il joue un rôle prédominant dans les milieux socioconstructivistes.

La définition exacte de l'attention commune est encore débattue⁴. Ce document concerne une sous-construction de l'attention conjointe (JA), à savoir JVA. JVA se produit lorsque deux sujets regardent au même endroit en même temps. Il convient de noter que JVA ne fournit aucune information sur d'autres constructions importantes d'intérêt dans l'étude de la JA, telles que le suivi de l'attention commune, mutuelle et partagée, ou plus généralement, la conscience de la cognition d'un autre membre du groupe. Cet article opérationnalise et simplifie JVA en combinant les données de suivi oculaire de deux participants et en analysant la fréquence dans laquelle ils alignent leurs regards. Pour une discussion plus complète, le lecteur intéressé peut en apprendre davantage sur l'étude de la construction JA dans Siposovaet^{al. 4}.

Au cours de la dernière décennie, les progrès technologiques ont radicalement transformé la recherche sur la JVA. Le changement de paradigme principal était d'utiliser de multiples eye-trackers pour obtenir des mesures quantitatives des alignements attentionnels, par opposition à l'analyse qualitative des enregistrements vidéo en laboratoire ou en milieu écologique. Ce développement a permis aux chercheurs de recueillir des informations précises et détaillées sur la coordination visuelle des dyades. De plus, les eye-trackers sont de plus en plus abordables : jusqu'à récemment, leur utilisation était réservée aux milieux académiques ou aux grandes entreprises. Il est maintenant possible d'acheter des eye-trackers bon marché qui génèrent des jeux de données fiables. Enfin, l'inclusion progressive des capacités de suivi du regard dans les appareils existants comme les ordinateurs portables haut de gamme et les casques de réalité virtuelle et augmentée suggère que le suivi des yeux deviendra bientôt omniprésent.

En raison de la popularisation des dispositifs de suivi oculaire, il est important de comprendre ce qu'ils peuvent et ne peuvent pas nous dire sur les interactions sociales. La méthodologie présentée dans ce document marque un premier pas dans cette direction. Je réponds à deux défis dans la capture de JVA à partir de multiples eye-trackers: synchroniser les données sur 1) l'échelle temporelle, et 2) sur l'échelle spatiale. Plus précisément, ce protocole utilise des marqueurs fiduciaux placés dans des environnements réels pour éclairer les algorithmes de vision par ordinateur où les participants orientent leur regard. Ce nouveau type de méthodologie ouvre la voie à une analyse rigoureuse du comportement humain en petits groupes.

Ce protocole de recherche est conforme aux lignes directrices du comité d'éthique de la recherche humaine de l'Université Harvard.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Dépistage des participants

Assurez-vous que les participants ayant une vision normale ou corrigée à la normale sont recrutés. Étant donné que les participants seront invités à porter un eye-tracker mobile, ils peuvent porter des lentilles cornéennes, mais pas des lunettes régulières.

2. Préparation à l'expérience

Dispositifs de suivi des yeux
1. Utilisez n'importe quel eye-tracker mobile capable de capturer le mouvement des yeux dans des environnements réels.
  REMARQUE: Les eye-trackers mobiles utilisés ici étaient deux tobii Pro Glasses 2 (voir Tableau des Matériaux). En plus des caméras spécialisées qui peuvent suivre les mouvements oculaires, les lunettes sont également équipées d'une caméra de scène HD et d'un microphone afin que le regard puisse être visualisé dans le contexte du champ visuel de l'utilisateur. Ces lunettes capturent les données du regard 50 fois par seconde. D'autres chercheurs ont utilisé ASL Mobile Eye⁵, SMI⁶, ou Pupil-labs⁷, qui fournissent tous des flux vidéo à partir de la caméra de scène et des coordonnées de suivi oculaire à des taux d'échantillonnage variables (30-120 Hz). La procédure ci-dessous peut varier légèrement avec d'autres dispositifs de suivi oculaire.
Marqueurs Fiducial
1. Les deux étapes ci-dessous (c.-à-d. les alignements temporels et spatiaux) nécessitent l'utilisation de marqueurs fiducial. Il existe plusieurs bibliothèques de vision par ordinateur qui fournissent aux chercheurs ces marqueurs et algorithmes pour les détecter sur une image ou un flux vidéo. Le protocole décrit utilise la bibliothèque Chilitag⁸.
Alignement temporel
1. Étant donné que les données de suivi oculaire sont enregistrées sur deux unités distinctes, assurez-vous que les données sont correctement synchronisées (figure 1). Deux méthodes principales peuvent être utilisées. Ce manuscrit ne couvre que la première méthode, car la synchronisation des serveurs fonctionne différemment avec chaque marque de eye-tracker mobile.
  1. Afficher brièvement un marqueur fiducial sur un écran d'ordinateur pour marquer le début et la fin d'une session. Ceci est similaire à un visuel "coup de main" (Figure 2).
  2. Vous pouvez également utiliser un serveur pour synchroniser les horloges des deux unités de collecte de données. Cette méthode est légèrement plus précise et recommandée si une précision temporelle plus élevée est requise.
Alignement spatial
1. Pour savoir si deux participants regardent le même endroit en même temps, tracez leurs regards vers un plan commun. Ce plan peut être une image du réglage expérimental (voir le côté gauche de la figure 3). Concevez soigneusement cette image avant l'expérience.
2. Taille des marqueurs fiducial : La taille générale des marqueurs fiducial dépend de l'algorithme utilisé pour les détecter à partir de la vidéo de suivi oculaire. Les surfaces proches des participants peuvent avoir des marqueurs fiduciaux plus petits, tandis que les surfaces plus loin d'elles doivent être plus grandes, de sorte qu'elles ressemblent du point de vue des participants. Essayez différentes tailles à l'avance pour vous assurer qu'ils peuvent être détectés à partir de la vidéo de suivi des yeux.
3. Nombre de marqueurs fiduciaux : Pour que le processus de cartographie des points de regard soit réussi dans un plan commun, assurez-vous d'avoir plusieurs marqueurs fiducial visibles du point de vue des participants à un moment donné.
4. Emplacement des marqueurs fiduciaires : Encadrer les zones d'intérêt pertinentes avec des bandes de marqueurs fiduciaires (p. ex., voir l'écran de l'ordinateur portable à la figure 3).
Enfin, exécutez les pilotes pour tester la procédure de synchronisation et déterminer l'emplacement, la taille et le nombre optimaux de marqueurs fiducial. Les vidéos de suivi oculaire peuvent être traitées par un algorithme de vision par ordinateur pour voir si les marqueurs fiducial sont détectés de manière fiable.

3. Exécution de l'expérience

Instructions
1. Demandez aux participants de mettre les lunettes de suivi des yeux comme ils le feraient une paire normale de lunettes. En fonction des traits du visage distincts des participants, des morceaux de nez de différentes hauteurs peuvent devoir être utilisés pour préserver la qualité des données.
2. Après avoir allumé le eye-tracker, demandez aux participants de couper l'unité d'enregistrement à eux-mêmes pour permettre le mouvement naturel du corps.
Étalonnage
1. Demandez aux participants de regarder le centre du marqueur d'étalonnage fourni par Tobii pendant que la fonction d'étalonnage du logiciel est activée. Une fois l'étalonnage terminé, l'enregistrement peut être commencé à partir du logiciel.
2. Demandez aux participants de ne pas déplacer les eye-trackers mobiles après l'étalonnage. Si c'est le cas, les données sont susceptibles d'être inexactes et la procédure d'étalonnage devra être effectuée à nouveau.
Surveillance des données
1. Surveillez le processus de collecte de données pendant l'étude et assurez-vous que les données de suivi oculaire sont recueillies correctement. La plupart des eye-trackers mobiles peuvent fournir un flux en direct sur un appareil séparé (par exemple, une tablette) à cette fin.
Exportation de données
1. Une fois la séance d'enregistrement terminée, demandez au participant d'enlever les lunettes de suivi oculaire et l'unité de collecte de données. Éteignez l'unité.
2. Extraire des données à l'aide d'un autre logiciel, Tobii Pro Lab, en supprimant la carte SD de l'unité de collecte de données qui importe les données de session. Tobii Pro Lab peut être utilisé pour rejouer la vidéo, créer des visualisations et exporter les données de suivi oculaire sous forme de fichiers séparés par virgule (.csv) ou séparés par onglet (.tsv).

4. Prétraitement des données de double suivi oculaire

Vérification des données de suivi des yeux de la santé mentale
1. Vérifiez visuellement les données de suivi des yeux après la collecte de données. Il n'est pas rare que certains participants aient des données manquantes. Par exemple, une certaine physiologie oculaire particulière peut poser des problèmes aux algorithmes de suivi oculaire, les lunettes peuvent changer pendant l'expérience, le logiciel de collecte de données pourrait s'écraser, etc.
2. Utilisez des statistiques descriptives pour vérifier la quantité de données perdues au cours de chaque session et exclure les sessions qui ont des quantités importantes de données manquantes ou bruyantes.
Alignement temporel
1. Réduisez les données de chaque eye-tracker mobile pour inclure uniquement les interactions entre les participants. Pour ce faire, on peut utiliser la méthode décrite ci-dessus (c.-à-d. présenter deux marqueurs fiducial spéciaux aux participants au début et à la fin de la session). Ces marqueurs fiducial peuvent alors être détectés à partir de la vidéo de suivi oculaire pour couper les jeux de données.
Alignement spatial
REMARQUE : Pour déterminer si deux participants regardent le même endroit en même temps, il est nécessaire de remap le regard des participants sur un plan commun (c.-à-d., une image du cadre expérimental). Une méthode de calcul pour atteindre cet objectif est une homographie (c.-à-d., une transformation de perspective d'un plan). D'un point de vue technique, deux images d'une même surface planaire dans l'espace sont relatées par une matrice d'homographie. Sur la base d'un ensemble commun de points, cette matrice peut être utilisée pour déduire l'emplacement des points supplémentaires entre deux plans. Dans la figure 3, par exemple, si un algorithme de vision par ordinateur sait où se trouvent les marqueurs fiducial s'ils se trouvent sur le document, il peut remap le regard du participant sur le plan commun sur le côté gauche. Les lignes blanches relient les deux ensembles de points partagés par le flux vidéo de chaque participant et la scène, qui sont ensuite utilisés pour la construction de l'homographie pour remap les points verts et bleus sur le côté gauche.
1. Utilisez la version Python d'OpenCV, par exemple, pour calculer la matrice d'homographie à partir des marqueurs fiducial, puis pour remap les données de suivi oculaire à la scène du paramètre expérimental (ou toute autre bibliothèque appropriée dans votre langue de choix). OpenCV fournit deux fonctions utiles: findHomography() pour obtenir la matrice d'homographie, et perspectiveTransform() pour transformer le point d'une perspective à l'autre.
2. Pour utiliser findHomography(), exécuter avec deux arguments: les coordonnées X,Y des points sources (c.-à-d., les marqueurs fiducial détectés à partir de la vidéo de scène des participants, montré à droite dans la figure 3) et les points de destination correspondants (c.-à-d., les mêmes marqueurs fiducials détectés sur l'image de la scène, montré sur la gauche dans la figure 3).
3. Alimentez la matrice d'homographie résultante dans la fonction perspectiveTransform() avec un nouveau point qui doit être cartographié à partir de l'image source à l'image de destination (par exemple, les données de suivi des yeux indiquées comme un point bleu/ vert sur le côté droit de la figure 3). La fonction perspectiveTransform renvoie la nouvelle coordonnées du même point sur l'image de la scène (c.-à-d., les points bleus/verts indiqués sur le côté gauche de la figure 3).
  REMARQUE : Pour plus d'informations, la documentation officielle d'OpenCV fournit des exemples de code et des exemples pour mettre en œuvre l'homographie : docs.opencv.org/master/d1/de0/tutorial_py_feature_homography.html.
Sanity vérifier l'homographie
1. Terminez la section 4.3 pour toute la session, et effectuez une homographie sur chaque image de la vidéo mobile de suivi oculaire pour vérifier la qualité de l'homographie. Bien qu'il n'existe aucun moyen automatisé d'estimer l'exactitude des données de suivi oculaire qui en résultent, des vidéos comme celle présentée dans la figure 4 devraient être utilisées pour vérifier manuellement la santé mentale de chaque session.
2. Si la qualité est inférieure aux prévisions, considérez des paramètres supplémentaires pour améliorer les résultats de l'homographie :
  1. Nombre de marqueurs fiducial détectés : effectuez seulement l'homographie si suffisamment de marqueurs fiduciaux peuvent être détectés à partir du flux vidéo. Ce nombre peut être déterminé en examinant la vidéo produite ci-dessus.
  2. Emplacement des marqueurs fiducial : Si différents marqueurs sont à des profondeurs et des orientations différentes, la qualité de l'homographie augmente habituellement lorsque les marqueurs les plus proches des coordonnées du regard sont sélectionnés, étant donné qu'il y a suffisamment de marqueurs pour construire un homographie.
  3. Orientation des marqueurs fiducial : La combinaison de marqueurs fiducial s'adminant d'orientations différentes (p. ex. horizontale et verticale) produira des homographies inexactes. Il est recommandé de détecter d'abord quel plan ou zones d'intérêt (AOIs) le participant regarde (par exemple, l'écran de l'ordinateur, la feuille de triche, la table, voir la figure 3) et ensuite utiliser les marqueurs fiducial sur ce plan pour l'homographie.
  4. Qualité du flux vidéo : Les mouvements soudains de la tête peuvent brouiller les images vidéo et rendre les données inutilisables, car les marqueurs fiducial ne peuvent pas être détectés de façon fiable (Figure 4). La méthodologie de cet article n'est pas appropriée pour les expériences qui impliquent beaucoup de mouvements soudains de la tête.

5. Analyse des données de suivi oculaire double

Données manquantes
1. Afin de s'assurer que les données ont été correctement répérées sur l'image de référence, de produire des graphiques de visualisation (p. ex., figure 5, figure 6) et des statistiques descriptives pour vérifier la quantité de données manquantes.
Graphiques de récurrence croisée
1. Utilisez des graphiques de récurrence^{croisée 9} pour représenter la synchronisation visuelle entre deux participants (figure 6), où l'axe X représente du temps pour le premier participant, et l'axe Y représente du temps pour le deuxième participant. Les carrés noirs indiquent que les participants regardent la même zone, une ligne diagonale noire décrit deux sujets regardant la même chose exactement en même temps, et les carrés noirs au large de la ligne diagonale décrit quand deux sujets regardant la même chose avec un décalage temporel. Enfin, la différenciation entre les données manquantes (carré blanc) et les données existantes sans JVA (carrés gris) permet d'identifier les sessions problématiques. Cela permet aux chercheurs de vérifier leur santé mentale visuelle.
Calcul JVA
1. Après le filtrage des données manquantes, calculez une mesure pour JVA en comptant le nombre de fois que les regards des participants sont dans le même rayon dans la scène (définie ci-dessous) dans une fenêtre de temps de -2/2. Divisez ce nombre par le nombre de points de données valides qui peuvent être utilisés pour calculer JVA. Le résultat de la division représente le pourcentage de temps que deux sujets ont examiné conjointement au même endroit. Cette dernière étape est nécessaire pour éviter de gonfler les scores des groupes avec plus de données après l'homographie.
  REMARQUE : Deux paramètres doivent être définis avant que JVA puisse être calculé, la distance minimale entre deux points de regard, et la fenêtre de temps entre eux (figure 7): 1) Fenêtre de temps : Une étude fondamentale¹⁰ tôt a employé un eye-tracker simple pour mesurer JVA entre un auditeur et un haut-parleur. Les chercheurs ont demandé à une première série de participants (« conférenciers ») de parler d'une émission de télévision dont les personnages étaient affichés devant eux. Un deuxième ensemble de participants (« auditeurs ») a ensuite regardé la même émission tout en écoutant l'enregistrement audio des haut-parleurs. Les mouvements oculaires des haut-parleurs et des auditeurs ont été comparés, et il a été constaté que les mouvements oculaires d'un auditeur correspondaient étroitement au mouvement oculaire d'un haut-parleur avec un retard de 2 s. Dans les travaux ultérieurs¹¹ chercheurs ont analysé les dialogues en direct et ont constaté qu'un retard de 3 meilleurs moments capturés de JVA. Étant donné que chaque tâche est unique et peut présenter des décalages temporels différents, il est également suggéré d'explorer comment différents décalages temporels affectent les résultats d'une expérience donnée. Dans l'ensemble, il est courant de rechercher JVA dans une fenêtre de temps de 2/3 s en fonction de la tâche expérimentale, puis d'explorer comment différents décalages temporels pourraient changer les résultats. 2) Distance entre les regards: il n'y a pas de distance empiriquement définie entre deux regards pour qu'ils comptent comme JVA. Cette distance dépend des questions de recherche définies par les chercheurs. Les questions de recherche devraient indiquer la taille des cibles d'intérêt. Dans l'exemple vu dans la figure 7, un rayon de 100 pixels sur l'image de la scène (cercles bleus/verts) a été choisi pour l'analyse car il suffit de capturer lorsque les participants regardent le robot dans le labyrinthe, ainsi que des éléments d'interface utilisateur similaires sur l'écran de l'ordinateur, qui sont les deux principaux domaines d'intérêt pour cette tâche expérimentale.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

La méthodologie présentée ci-dessus a été utilisée pour étudier les étudiants qui suivaient un programme de formation professionnelle en logistique (n ' 54)¹². Dans cette expérience, des paires d'étudiants ont interagi avec une interface utilisateur tangible (TUI) qui simulait un entrepôt à petite échelle. Les marqueurs fiduciaux placés sur le TUI ont permis à l'équipe de recherche de remap les regards des étudiants sur un plan commun et de calculer les niveaux de JVA. Les résultats ont indiqué que les groupes qui avaient des niveaux plus élevés de JVA avaient tendance à faire mieux à la tâche qui leur était confiée, en ont appris davantage et avaient une meilleure qualité de collaboration¹³ (figure 8, côté gauche). Les ensembles de données de suivi des yeux doubles nous ont également permis de capturer des dynamiques de groupe particulières comme l'effet free-rider. Nous avons estimé cet effet en identifiant qui était susceptible d'avoir initié chaque moment de JVA (c.-à-d., dont le regard était là en premier) et qui y a répondu (c.-à-d., dont le regard était là en second). Nous avons constaté une corrélation significative entre les gains d'apprentissage et la tendance des étudiants à partager également la responsabilité d'initier et de répondre aux offres de JVA. En d'autres termes, les groupes dans lesquels la même personne a toujours initié des moments de JVA étaient moins susceptibles d'apprendre(figure 8, côté droit) et les groupes où cette responsabilité était également partagée étaient plus susceptibles d'apprendre. Cette constatation montre que nous pouvons aller au-delà de la simple quantification de la JV, et identifier la dynamique et la productivité du groupe à l'aide de données à double suivi oculaire.

Figure 1 : Chaque participant génère deux flux vidéo avec les coordonnées X,Y de son regard sur chaque image vidéo. Cette méthodologie traite de la synchronisation des données temporellement et spatialement entre les participants. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 2 : Méthodologie de synchronisation des deux ensembles de données. Affichage brièvement marqueur fiducial unique sur un écran d'ordinateur pour marquer le début et la fin de l'activité. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 3 : Utilisation de marqueurs fiducial diffusés dans l'environnement pour recarer le regard des participants sur un plan commun (côté gauche). Les lignes blanches indiquent les marqueurs fiduciaux qui ont été détectés dans les deux images. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 4 : Exemples de mauvaise qualité des données. Gauche : Un cadre flou de la vidéo de suivi des yeux causée par un mouvement soudain de la tête. Les marqueurs fiducial n'ont pas pu être détectés dans cette image. Droite : Une homographie ratée où les données de marqueur fiducial n'ont pas été correctement synchronisées avec le flux vidéo. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 5 : Cartes thermiques. Gauche : Une carte thermique des données de suivi oculaire recense sur la scène expérimentale. Cette visualisation a été utilisée comme un contrôle de santé mentale pour l'homographie. Droite : Groupe qui avait trop de données manquantes et qui a dû être jeté. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 6 : Graphique de récurrence croisée généré à partir de trois dyades pour visualiser JVA. P1 représente du temps pour le premier participant, P2 représente du temps pour le deuxième participant. Les carrés noirs montrent JVA; les carrés gris montrent des moments où les participants regardent différents endroits; les carrés blancs montrent les données manquantes. Le carré le long de la diagonale principale indique les moments où les participants regardaient au même endroit en même temps. Cette visualisation a été utilisée comme une vérification de la santé mentale pour les mesures de JVA à partir des données combinées de suivi oculaire. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 7 : Cadre vidéo où JVA a été détecté entre deux participants (points rouges). Richardson et coll.¹¹ recommandent de regarder une fenêtre temporelle de 2 s. lors de l'informatique jVA. En outre, les chercheurs doivent définir la distance minimale entre deux points de regard pour compter comme JVA. Un rayon de 100 pixels a été choisi sur l'image du milieu ci-dessus. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Figure 8 : Exemples de résultats. Données de Schneider et coll.^12, où le pourcentage de temps passé à regarder au même endroit en même temps était corrélé avec la qualité de collaboration des participants : r(24) - 0,460, P - 0,018 (côté gauche) et les déséquilibres dans l'initiation/la réponse aux offres de JVA étaient corrélés avec leurs gains d'apprentissage : r(24) - 0,47, P 0,02 (côté droit). Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La méthodologie décrite dans ce document fournit un moyen rigoureux de capturer JVA dans les dyades colocalisées. Avec l'émergence d'une technologie de détection abordable et d'algorithmes de vision par ordinateur améliorés, il est maintenant possible d'étudier les interactions collaboratives avec une précision qui n'était pas disponible auparavant. Cette méthodologie tire parti des marqueurs fiducial diffusés dans l'environnement et utilise les homographies comme un moyen de remap les regards des participants sur un plan commun. Cela permet aux chercheurs d'étudier rigoureusement jVA dans des groupes colocated.

Cette méthode comprend plusieurs contrôles de santé mentale qui doivent être effectués à divers moments de l'expérience. Comme il s'agit d'une procédure complexe, les chercheurs doivent s'assurer que les ensembles de données qui en résultent sont complets et valides. Enfin, il est recommandé de mener des études pilotes avant l'expérience proprement dite et de reconstituer les interactions des participants au cours de la collecte de données(figure 3, figure 4, figure 5, figure 6).

Il y a plusieurs limitations associées à cette méthode :

Nombre de participants. Bien que cette méthodologie fonctionne bien pour deux participants, l'analyse devient plus compliquée avec les grands groupes. Les marqueurs fiducial peuvent encore être utilisés pour remap regards sur une vérité de fond, mais savoir comment identifier JVA devient un processus plus nuancé. Faut-il définir j'ai l'atout comme le même endroit ou deux participants au même endroit ? En outre, les visualisations comme le graphique de récurrence croisée deviennent impraticables avec plus de 2/3 personnes.

Paramètres. La méthode décrite dans cet article est appropriée pour les petits milieux contrôlés (p. ex., les études de laboratoire). Les paramètres ouverts, tels que l'extérieur ou les grands espaces, sont généralement trop compliqués à instrumenter avec des marqueurs fiducial et peuvent donc limiter l'utilité des données de suivi oculaire. En outre, les marqueurs fiducial peuvent être distrayant et encombrer l'environnement. À l'avenir, de meilleurs algorithmes de vision par ordinateur seront en mesure d'extraire automatiquement des caractéristiques communes entre deux perspectives. Il existe déjà des algorithmes à cette fin, mais nous avons constaté que le niveau de précision n'était pas encore acceptable pour le type d'expérience décrite ci-dessus.

AoIs. En ce qui concerne le point ci-dessus, l'homographie informatique et le graphique de récurrence croisée fonctionnent bien avec un nombre stable de domaines d'intérêt, mais des corrections doivent être apportées lors de la comparaison de différentes tâches avec différents nombres de domaines d'intérêt.

Utilisation de l'équipement. Les eye-trackers mobiles peuvent être gênants, affectant le comportement des participants ou ne pas travailler avec une physiologie oculaire particulière.

En conclusion, la méthodologie décrite dans ce document est un moyen prometteur d'étudier les interactions colocalisées. Il permet aux chercheurs de capturer une mesure précise pour JVA, qui est une construction critique dans les sciences sociales¹. En outre, il est possible de détecter des indicateurs plus fins de l'apprentissage collaboratif grâce à cette méthodologie¹² par rapport aux analyses qualitatives traditionnelles. En bref, c'est une façon plus efficace et plus précise d'étudier les interactions sociales.

L'application potentielle de cette méthode comprend la conception d'interventions pour soutenir la collaboration au moyen de données de suivi oculaire en temps réel. Certains travaux pionniers ont produit des visualisations de regard partagés à l'aide de suivis oculaires à distance, qui a été montré pour bénéficier de l'apprentissage collaboratif à distance¹⁴. Les dyads qui pouvaient voir le regard de leur partenaire en temps réel ont montré plus de JVA, ont mieux collaboré et ont réalisé des gains d'apprentissage plus élevés par rapport à un groupe témoin. Les travaux futurs examineront si ce type d'intervention peut soutenir des processus collaboratifs dans des contextes de colocation (p. ex., par l'intermédiaire de casques de réalité virtuelle ou augmentée).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs déclarent qu'ils n'ont pas d'intérêts financiers concurrents.

Acknowledgments

Le développement de cette méthodologie a été soutenu par la National Science Foundation (NSF #0835854), le Leading House Technologies for Vocation Education, financé par le Secrétariat d'État suisse pour l'éducation, la recherche et l'innovation, et le Fonds de capital-risque de doyen de la Harvard School of Education.

Materials

Name	Company	Catalog Number	Comments
Tobii Glasses 2	Tobii	N/A	https://www.tobiipro.com/product-listing/tobii-pro-glasses-2/
Fiducial markers	Chili lab – EPFL, Switzerland	N/A	https://github.com/chili-epfl/chilitags

DOWNLOAD MATERIALS LIST

References

Tomasello, M. Joint attention as social cognition. Joint attention: Its origins and role in development. Moore, C., Dunham, P. J. , Lawrence Erlbaum Associates, Inc. Hillsdale, NJ, England. 103-130 (1995).
Mundy, P., Sigman, M., Kasari, C. A longitudinal study of joint attention and language development in autistic children. Journal of Autism and Developmental Disorders. 20, 115-128 (1990).
Clark, H. H., Brennan, S. E. Grounding in communication. Perspectives on socially shared cognition. Resnick, L. B., Levine, J. M., Teasley, S. D. , American Psychological Association. Washington, DC, US. 127-149 (1991).
Siposova, B., Carpenter, M. A new look at joint attention and common knowledge. Cognition. 189, 260-274 (2019).
Gergle, D., Clark, A. T. See What I'm Saying?: Using Dyadic Mobile Eye Tracking to Study Collaborative Reference. Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work. , ACM. New York, NY, USA. 435-444 (2011).
Renner, P., Pfeiffer, T., Wachsmuth, I. Spatial References with Gaze and Pointing in Shared Space of Humans and Robots. Spatial Cognition IX. Freksa, C., Nebel, B., Hegarty, M., Barkowsky, T. , Springer International Publishing. 121-136 (2014).
Shvarts, A. Y. Automatic detection of gaze convergence in multimodal collaboration: a dual eye-tracking technology. The Russian Journal of Cognitive Science. 5, 4 (2018).
Bonnard, Q., et al. Chilitags: Robust Fiducial Markers for Augmented Reality [software]. , Available from: https://github.com/chili-epfl/qml-chilitags (2013).
Jermann, P., Mullins, D., Nüssli, M. -A., Dillenbourg, P. Collaborative Gaze Footprints: Correlates of Interaction Quality. Connecting Computer-Supported Collaborative Learning to Policy and Practice. CSCL2011 Conference Proceedings., Volume I - Long Papers. , 184-191 (2011).
Richardson, D. C., Dale, R. Looking To Understand: The Coupling Between Speakers' and Listeners' Eye Movements and Its Relationship to Discourse Comprehension. Trends in Cognitive Sciences. 29, 1045-1060 (2005).
Richardson, D. C., Dale, R., Kirkham, N. Z. The Art of Conversation Is Coordination Common Ground and the Coupling of Eye Movements During Dialogue. Psychological Science. 18, 407-413 (2007).
Schneider, B., et al. Using Mobile Eye-Trackers to Unpack the Perceptual Benefits of a Tangible User Interface for Collaborative Learning. ACM Transactions on Computer-Human Interaction. 23, 1-23 (2016).
Meier, A., Spada, H., Rummel, N. A rating scheme for assessing the quality of computer-supported collaboration processes. Int. J. Comput.-Support. Collab. Learn. 2, 63-86 (2007).
Schneider, B., Pea, R. Real-time mutual gaze perception enhances collaborative learning and collaboration quality. Journal of Computer-Supported Collaborative Learning. 8, 375-397 (2013).

Behavior

Une méthodologie pour capturer l'attention visuelle conjointe à l'aide de eye-trackers mobiles

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.