Behavior

Eine Methodik zur Erfassung der gemeinsamen visuellen Aufmerksamkeit mit mobilen Eye-Trackern

Published: January 18, 2020 doi: 10.3791/60670

¹Learning, Innovation, and Technology Lab, Graduate School of Education, Harvard University

Summary

Die Verwendung multimodaler Sensoren ist ein vielversprechender Weg, um die Rolle sozialer Interaktionen in Bildungseinrichtungen zu verstehen. Dieses Papier beschreibt eine Methode zur Erfassung der visuellen Aufmerksamkeit von colocated Dyads mit mobilen Eye-Trackern.

Abstract

Mit dem Aufkommen neuer technologischer Fortschritte ist es möglich, soziale Interaktionen auf Mikroebene mit beispielloser Genauigkeit zu untersuchen. Hochfrequenzsensoren wie Eyetracker, elektrodermittlere Aktivitätsarmbänder, EEG-Bänder und Bewegungssensoren liefern Beobachtungen auf Millisekundenebene. Diese Präzision ermöglicht es Forschern, große Datensätze über soziale Interaktionen zu sammeln. In diesem Beitrag bespreche ich, wie mehrere Eyetracker ein grundlegendes Konstrukt in sozialen Interaktionen, der gemeinsamen visuellen Aufmerksamkeit (JVA) erfassen können. Die JVA wurde von Entwicklungspsychologen untersucht, um zu verstehen, wie Kinder Sprache erwerben, Wissenschaftler lernen, wie kleine Gruppen von Lernenden zusammenarbeiten, und Sozialwissenschaftler, um Interaktionen in kleinen Teams zu verstehen. In diesem Artikel wird eine Methode zum Erfassen der JVA in kolokalisierten Einstellungen mit mobilen Eyetrackern beschrieben. Es präsentiert einige empirische Ergebnisse und diskutiert imponationiert die Erfassung von Mikrobeobachtungen, um soziale Interaktionen zu verstehen.

Introduction

Die JVA wurde im letzten Jahrhundert umfassend untersucht, insbesondere von Entwicklungspsychologen, die den Spracherwerb studierten. Es wurde schnell festgestellt, dass gemeinsame Aufmerksamkeit mehr ist als nur eine Möglichkeit, Worte zu lernen, sondern eher ein Vorläufer der Theorien des Geistes der Kinder¹. So spielt es eine wichtige Rolle in vielen gesellschaftlichen Prozessen, wie z. B. kommunikation mit anderen, Zusammenarbeit und Entwicklung von Empathie. Autistische Kinder zum Beispiel haben nicht die Möglichkeit, ihre visuelle Aufmerksamkeit mit ihren Betreuern zu koordinieren, was mit erheblichen sozialen Beeinträchtigungen verbunden ist². Menschen brauchen gemeinsame Aufmerksamkeit, um funktionale Mitglieder der Gesellschaft zu werden, ihr Handeln zu koordinieren und von anderen zu lernen. Von Kindern, die ihre ersten Worte lernen, Teenagern, die von Lehrern lernen, Schülern, die an Projekten mitarbeiten, bis hin zu Gruppen von Erwachsenen, die auf gemeinsame Ziele hinarbeiten, ist die gemeinsame Aufmerksamkeit ein grundlegender Mechanismus, um eine gemeinsame Basis zwischen Individuen zu schaffen³. In diesem Beitrag konzentriere ich mich auf das Studium der JVA in der Bildungsforschung. Das Verständnis, wie sich die gemeinsame Aufmerksamkeit im Laufe der Zeit entwickelt, ist für das Studium kollaborativer Lernprozesse von größter Bedeutung. Als solches spielt es eine vorherrschende Rolle in soziokonstruktivistischen Umgebungen.

Die genaue Definition der gemeinsamen Aufmerksamkeit wird noch diskutiert⁴. In diesem Papier geht es um ein Unterbau der gemeinsamen Aufmerksamkeit (JA), nämlich die JVA. JvA geschieht, wenn zwei Probanden an der gleichen Stelle zur gleichen Zeit suchen. Es sei darauf hingewiesen, dass die JVA keine Informationen über andere wichtige Konstrukte liefert, die für die Untersuchung von JA von Interesse sind, wie die Überwachung gemeinsamer, gegenseitiger und geteilter Aufmerksamkeit oder ganz allgemein des Bewusstseins für die Erkenntnis eines anderen Gruppenmitglieds. Dieses Papier operationalisiert und vereinfacht die JVA, indem es die Eye-Tracking-Daten von zwei Teilnehmern kombiniert und die Häufigkeit analysiert, in der sie ihre Blicke ausrichten. Für eine umfassendere Diskussion kann der interessierte Leser mehr über die Studie des JA-Konstrukts in Siposovaet^{al. 4}erfahren.

In den letzten zehn Jahren haben technologische Fortschritte die FORSCHUNG zur JVA radikal verändert. Der wichtigste Paradigmenwechsel bestand darin, mehrere Eyetracker zu verwenden, um quantitative Messgrößen für Aufmerksamkeitsausrichtungen zu erhalten, im Gegensatz zur qualitativen Analyse von Videoaufzeichnungen in einem Labor oder einer ökologischen Umgebung. Diese Entwicklung hat es den Forschern ermöglicht, präzise, detaillierte Informationen über die visuelle Koordination von Dyaden zu sammeln. Darüber hinaus werden Eye-Tracker erschwinglicher: Bis vor kurzem war ihre Verwendung akademischen Umgebungen oder großen Unternehmen vorbehalten. Es ist jetzt möglich, preiswerte Eyetracker zu kaufen, die zuverlässige Datensätze generieren. Schließlich deutet die fortschreitende Einbeziehung von Gaze-Tracking-Funktionen in bestehende Geräte wie High-End-Laptops und Virtual-Reality- und Augmented-Reality-Headsets darauf hin, dass Eye-Tracking bald allgegenwärtig sein wird.

Aufgrund der Popularisierung von Eye-Tracking-Geräten ist es wichtig zu verstehen, was sie uns über soziale Interaktionen erzählen können und was nicht. Die in diesem Papier vorgestellte Methodik stellt einen ersten Schritt in diese Richtung dar. Ich beschäften mich mit zwei Herausforderungen bei der Erfassung der JVA von mehreren Eyetrackern: die Synchronisierung der Daten auf 1) der zeitlichen Skala und 2) auf der räumlichen Skala. Genauer gesagt nutzt dieses Protokoll treue Marker, die in realen Umgebungen platziert werden, um Computer-Vision-Algorithmen zu informieren, bei denen die Teilnehmer ihren Blick richten. Diese neue Methode ebnet den Weg für eine rigorose Analyse menschlichen Verhaltens in kleinen Gruppen.

Dieses Forschungsprotokoll entspricht den Richtlinien der Ethikkommission für Humanforschung der Harvard University.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Teilnehmer-Screening

Stellen Sie sicher, dass Teilnehmer mit normalem oder korrigiertem Sehvermögen rekrutiert werden. Da die Teilnehmer aufgefordert werden, einen mobilen Eyetracker zu tragen, können sie Kontaktlinsen tragen, aber keine normale Brille.

2. Vorbereitung auf das Experiment

Eye-Tracking-Geräte
1. Verwenden Sie jeden mobilen Eyetracker, der in der Lage ist, Augenbewegungen in realen Umgebungen zu erfassen.
  HINWEIS: Die mobilen Eyetracker, die hier verwendet wurden, waren zwei Tobii Pro Brillen 2 (siehe Tabelle der Materialien). Neben speziellen Kameras, die Augenbewegungen verfolgen können, sind die Brillen auch mit einer HD-Szenenkamera und einem Mikrofon ausgestattet, so dass der Blick im Kontext des Gesichtsfeldes des Benutzers visualisiert werden kann. Diese Brillen erfassen Blickdaten 50 Mal pro Sekunde. Andere Forscher haben ASL Mobile Eye⁵, SMI⁶oder Pupil-labs⁷verwendet, die alle Videostreams von der Szenenkamera und Eye-Tracking-Koordinaten mit unterschiedlichen Abtastraten (30–120 Hz) bereitstellen. Das folgende Verfahren kann bei anderen Eye-Tracking-Geräten leicht variieren.
Fiducial Marker
1. Die beiden folgenden Schritte (d. h. zeitliche und räumliche Ausrichtungen) erfordern die Verwendung von Treuhandmarkern. Es gibt mehrere Computer Vision Bibliotheken, die Forscher mit diesen Markern und Algorithmen zur Verfügung stellen, um sie auf einem Bild- oder Videofeed zu erkennen. Das beschriebene Protokoll verwendet die Chilitag-Bibliothek⁸.
Zeitliche Ausrichtung
1. Da die Eye-Tracking-Daten auf zwei separaten Einheiten aufgezeichnet werden, stellen Sie sicher, dass die Daten ordnungsgemäß synchronisiert sind (Abbildung 1). Es können zwei Hauptmethoden verwendet werden. Dieses Manuskript deckt nur die erste Methode ab, da die Serversynchronisierung mit jeder Marke des mobilen Eyetrackers unterschiedlich funktioniert.
  1. Zeigen Sie kurz einen Fiducial-Marker auf einem Computerbildschirm an, um den Anfang und das Ende einer Sitzung zu markieren. Dies ähnelt einem visuellen "Handklatschen" (Abbildung 2).
  2. Alternativ können Sie einen Server verwenden, um die Uhren der beiden Datenerfassungseinheiten zu synchronisieren. Diese Methode ist etwas genauer und wird empfohlen, wenn eine höhere zeitliche Genauigkeit erforderlich ist.
Räumliche Ausrichtung
1. Um herauszufinden, ob zwei Teilnehmer gleichzeitig am selben Ort suchen, kartieren Sie ihre Blicke einer gemeinsamen Ebene. Diese Ebene kann ein Bild der experimentellen Einstellung sein (siehe die linke Seite von Abbildung 3). Entwerfen Sie dieses Bild sorgfältig vor dem Experiment.
2. Größe der Treuhandmarker: Die allgemeine Größe der Treuhandmarker hängt von dem Algorithmus ab, der verwendet wird, um sie aus dem Eye-Tracking-Video zu erkennen. Flächen in der Nähe der Teilnehmer können kleinere Treuhandmarkierungen haben, während Flächen weiter von ihnen entfernt größer sein müssen, damit sie aus der Sicht der Teilnehmer ähnlich aussehen. Probieren Sie im Voraus verschiedene Größen aus, um sicherzustellen, dass sie aus dem Eye-Tracking-Video erkannt werden können.
3. Anzahl der Treuhandmarker: Um den Prozess der Kartierung von Blickpunkten in eine gemeinsame Ebene erfolgreich zu gestalten, stellen Sie sicher, dass mehrere treusinnische Marker aus der Sicht der Teilnehmer zu einem bestimmten Zeitpunkt sichtbar sind.
4. Position der Treuhandmarkierungen: Rahmen Relevanter Interessengebiete mit Streifen von Treuhandmarkierungen (siehe Laptop-Bildschirm in Abbildung 3).
Führen Sie schließlich Piloten aus, um die Synchronisierungsprozedur zu testen und die optimale Position, Größe und Anzahl der Treuhandmarkierungen zu bestimmen. Eye-Tracking-Videos können über einen Computer-Vision-Algorithmus verarbeitet werden, um zu sehen, ob die Treuhandmarker zuverlässig erkannt werden.

3. Ausführen des Experiments

Anweisungen
1. Weisen Sie die Teilnehmer an, die Brille wie eine normale Brille aufzuziehen. Basierend auf den unterschiedlichen Gesichtszügen der Teilnehmer müssen möglicherweise Nasenstücke unterschiedlicher Höhe verwendet werden, um die Datenqualität zu erhalten.
2. Nachdem Sie den Eyetracker eingeschaltet haben, lassen Sie die Teilnehmer die Aufnahmeeinheit selbst beschneiden, um eine natürliche Körperbewegung zu ermöglichen.
Kalibrierung
1. Weisen Sie die Teilnehmer an, sich die Mitte des von Tobii bereitgestellten Kalibriermarkers anzusehen, während die Kalibrierungsfunktion der Software aktiviert ist. Sobald die Kalibrierung abgeschlossen ist, kann die Aufzeichnung innerhalb der Software gestartet werden.
2. Weisen Sie die Teilnehmer an, die mobilen Eyetracker nach der Kalibrierung nicht zu bewegen. Wenn dies der Vorgang der Letzter erweist, sind die Daten wahrscheinlich ungenau, und das Kalibrierungsverfahren muss erneut durchgeführt werden.
Datenüberwachung
1. Überwachen Sie den Datenerfassungsprozess während der Studie und stellen Sie sicher, dass die Eye-Tracking-Daten ordnungsgemäß erfasst werden. Die meisten mobilen Eyetracker können zu diesem Zweck einen Live-Stream auf einem separaten Gerät (z. B. einem Tablet) bereitstellen.
Datenexport
1. Weisen Sie den Teilnehmer an, nach Abschluss der Aufzeichnungssitzung die Brille und die Datenerfassungseinheit zu entfernen. Schalten Sie das Gerät aus.
2. Extrahieren Sie Daten mit einer anderen Software, Tobii Pro Lab, indem Sie die SD-Karte aus der Datenerfassungseinheit entfernen, die die Sitzungsdaten importiert. Tobii Pro Lab kann verwendet werden, um das Video wiederzugeben, Visualisierungen zu erstellen und die Eye-Tracking-Daten als durch Kommas getrennte (.csv) oder tab-getrennte (.tsv) Dateien zu exportieren.

4. Vorverarbeitung der dualen Eye-Tracking-Daten

Sanity-Prüfung von Eye-Tracking-Daten
1. Überprüfen Sie die Eye-Tracking-Daten visuell nach der Datenerfassung. Es ist nicht ungewöhnlich, dass einige Teilnehmer daten fehlen. Zum Beispiel kann eine bestimmte Augenphysiologie Probleme für Eye-Tracking-Algorithmen verursachen, die Brille könnte sich während des Experiments verschieben, die Datenerfassungssoftware könnte abstürzen usw.
2. Verwenden Sie beschreibende Statistiken, um zu überprüfen, wie viele Daten während jeder Sitzung verloren gegangen sind, und schließen Sie Sitzungen mit erheblichen Mengen fehlender oder lauter Daten aus.
Zeitliche Ausrichtung
1. Schneiden Sie die Daten von jedem mobilen Eyetracker so, dass sie nur Interaktionen zwischen den Teilnehmern enthalten. Dies kann durch die oben beschriebene Methode erreicht werden (d. h. die Präsentation von zwei speziellen Treuhandmarkern für die Teilnehmer zu Beginn und am Ende der Sitzung). Diese fiducial Marker können dann aus dem Eye-Tracking-Video erkannt werden, um die Datensätze zu trimmen.
Räumliche Ausrichtung
ANMERKUNG: Um festzustellen, ob zwei Teilnehmer gleichzeitig an denselben Ort schauen, ist es notwendig, den Blick der Teilnehmer auf eine gemeinsame Ebene (d. h. ein Bild der experimentellen Einstellung) neu zuzuordnen. Eine Berechnungsmethode zur Erreichung dieses Ziels ist eine Homographie (d. h. eine perspektivische Transformation einer Ebene). Aus technischer Sicht sind zwei Bilder derselben planaren Oberfläche im Raum durch eine Homographiematrix miteinander verbunden. Basierend auf einem gemeinsamen Satz von Punkten kann diese Matrix verwendet werden, um die Position zusätzlicher Punkte zwischen zwei Ebenen abzuleiten. Wenn z. B. in Abbildung 3ein Computer-Vision-Algorithmus weiß, wo sich die Treuhandmarkierungen auf dem Handzettel befinden, kann er den Blick des Teilnehmers auf die gemeinsame Ebene auf der linken Seite neu zuordnen. Die weißen Linien verbinden die beiden Sätze von Punkten, die vom Videofeed jedes Teilnehmers und der Szene gemeinsam genutzt werden, die dann zum Erstellen der Homographie verwendet werden, um die grünen und blauen Punkte auf der linken Seite neu zuzuordnen.
1. Verwenden Sie die Python-Version von OpenCV, z. B. um die Homographie-Matrix aus den Treuhandmarkern zu berechnen und dann die Eye-Tracking-Daten der Szene der experimentellen Einstellung (oder einer anderen geeigneten Bibliothek in Ihrer Sprache Ihrer Wahl) neu zuzuordnen. OpenCV bietet zwei nützliche Funktionen: findHomography(), um die Homographie-Matrix zu erhalten, und perspectiveTransform(), um den Punkt von einer Perspektive in die andere zu transformieren.
2. Um findHomography()zu verwenden, führen Sie mit zwei Argumenten aus: den X-Y-Koordinaten der Quellpunkte (d. h. den aus dem Szenenvideo der Teilnehmer erkannten, rechts in Abbildung 3)und den entsprechenden Zielpunkten (d. h. den gleichen Fiducials-Markern, die auf dem Szenenbild erkannt wurden, siehe Abbildung 3).
3. Führen Sie die resultierende Homographie-Matrix in die perspectiveTransform()-Funktion ein, zusammen mit einem neuen Punkt, der vom Quellbild zum Zielbild zugeordnet werden muss (z. B. die Eye-Tracking-Daten, die als blau/grüner Punkt auf der rechten Seite von Abbildung 3angezeigt werden). Die funktion perspectiveTransform gibt die neue Koordinate desselben Punkts im Szenenbild zurück (d. h. die blau/grünen Punkte, die auf der linken Seite von Abbildung 3dargestellt sind).
  HINWEIS: Weitere Informationen finden Sie in der offiziellen OpenCV-Dokumentation mit Beispielcode und Beispielen für die Implementierung der Homographie: docs.opencv.org/master/d1/de0/tutorial_py_feature_homography.html.
Sanity-Prüfung der Homographie
1. Füllen Sie Abschnitt 4.3 für die gesamte Sitzung aus, und führen Sie eine Homographie auf jedem Frame des mobilen Eye-Tracking-Videos durch, um die Qualität der Homographie zu überprüfen. Obwohl es keine automatisierten Möglichkeiten gibt, die Genauigkeit der resultierenden Eye-Tracking-Daten zu schätzen, sollten Videos wie die in Abbildung 4 gezeigte verwendet werden, um jede Sitzung manuell zu überprüfen.
2. Wenn die Qualität niedriger ist als erwartet, sollten Sie zusätzliche Parameter in Betracht ziehen, um die Ergebnisse der Homographie zu verbessern:
  1. Anzahl der erkannten Treuhandmarker: Führen Sie die Homographie nur aus, wenn genügend Treuhandmarker aus dem Videostream erkannt werden können. Diese Zahl kann durch Untersuchung des oben produzierten Videos ermittelt werden.
  2. Position der Treuhandmarkierungen: Wenn sich unterschiedliche Marker in unterschiedlichen Tiefen und Ausrichtungen befinden, erhöht sich die Qualität der Homographie in der Regel, wenn die Marker, die den Blickkoordinaten am nächsten sind, ausgewählt werden, da genügend Marker vorhanden sind, um eine robuste Homographie.
  3. Ausrichtung der Treuhandmarker: Das Kombinieren von Treuhandmarkern mit unterschiedlichen Ausrichtungen (z. B. horizontal und vertikal) führt zu ungenauen Homographien. Es wird empfohlen, zuerst zu erkennen, welche Ebene oder Interessengebiete (AOIs) der Teilnehmer betrachtet (z. B. den Computerbildschirm, das Spickzettel, die Tabelle, siehe Abbildung 3) und dann die Treuhandmarkierungen auf dieser Ebene für die Homographie zu verwenden.
  4. Qualität des Videostreams: Plötzliche Kopfbewegungen können Videoframes verwischen und die Daten unbrauchbar machen, da Treuhandmarker nicht zuverlässig erkannt werden können (Abbildung 4). Die Methodik dieses Papiers ist nicht geeignet für Experimente, die viele plötzliche Kopfbewegungen beinhalten.

5. Analysieren der dualen Eye-Tracking-Daten

Fehlende Daten
1. Um sicherzustellen, dass die Daten ordnungsgemäß auf das Referenzbild neu zugeordnet wurden, erstellen Sie Visualisierungsdiagramme (z. B. Abbildung 5, Abbildung 6) und beschreibende Statistiken, um zu überprüfen, wie viele Daten fehlen.
Cross-Rezidivdiagramme
1. Verwenden Sie Die Diagramme⁹ für die Wiederholung, um die visuelle Synchronisierung zwischen zwei Teilnehmern darzustellen (Abbildung 6), wobei die X-Achse die Zeit für den ersten Teilnehmer und die Y-Achse die Zeit für den zweiten Teilnehmer darstellt. Schwarze Quadrate zeigen an, dass die Teilnehmer den gleichen Bereich betrachten, eine schwarze diagonale Linie zwei Themen beschreibt, die genau zur gleichen Zeit das gleiche betrachten, und schwarze Quadrate außerhalb der diagonalen Linie beschreibt, wenn zwei Subjekte dasselbe mit einer Zeitverzögerung betrachten. Schließlich hilft die Unterscheidung zwischen fehlenden Daten (weißes Quadrat) und vorhandenen Daten ohne JVA (graue Quadrate) problematische Sitzungen zu identifizieren. Dies bietet Forschern einen visuellen Wahnsinns-Check.
Computer JVA
1. Berechnen Sie nach dem Filtern nach fehlenden Daten eine Metrik für die JVA, indem Sie in einem Zeitfenster von -2/+2 s die Anzahl der Blicke der Teilnehmer im gleichen Radius in der Szene (unten definiert) zählen. Teilen Sie diese Zahl durch die Anzahl der gültigen Datenpunkte, die zum Berechnen der JVA verwendet werden können. Das Ergebnis der Teilung stellt den Prozentsatz der Zeit dar, in der zwei Probanden gemeinsam denselben Ort betrachteten. Dieser letzte Schritt ist notwendig, um zu vermeiden, dass die Anzahl der Gruppen mit mehr Daten nach der Homographie aufgeblasen wird.
  HINWEIS: Bevor die JVA berechnet werden kann, müssen zwei Parameter festgelegt werden, der minimale Abstand zwischen zwei Blickpunkten und das Zeitfenster zwischen ihnen(Abbildung 7):1) Zeitfenster: Eine frühe Grundlagenstudie¹⁰ verwendete einen einzigen Eye-Tracker, um die JVA zwischen einem Hörer und einem Lautsprecher zu messen. Die Forscher baten eine erste Gruppe von Teilnehmern ("Sprecher"), über eine Fernsehsendung zu sprechen, deren Charaktere vor ihnen gezeigt wurden. Eine zweite Gruppe von Teilnehmern ("Hörer") sah dann die gleiche Show, während Audio-Aufnahme der Lautsprecher zu hören. Die Augenbewegungen der Sprecher und Zuhörer wurden verglichen, und es wurde festgestellt, dass die Augenbewegungen eines Zuhörers mit einer Verzögerung von 2 s eng mit der Augenbewegung eines Sprechers übereinstimmten. In der anschließenden Arbeit analysierten¹¹ Forscher Live-Dialoge und fanden heraus, dass eine Verzögerung von 3 s am besten erfasst momente der JVA. Da jede Aufgabe einzigartig ist und unterschiedliche Zeitverzögerungen aufweisen kann, wird auch empfohlen zu untersuchen, wie sich unterschiedliche Zeitverzögerungen auf die Ergebnisse eines bestimmten Experiments auswirken. Insgesamt ist es üblich, je nach Versuchsaufgabe in einem Zeitfenster von 2/3 s nach JVA zu suchen und dann zu untersuchen, wie unterschiedliche Zeitverzögerungen die Ergebnisse verändern können. 2) Abstand zwischen den Blicken: Es gibt keinen empirisch definierten Abstand zwischen zwei Blicken, die als JVA gezählt werden können. Diese Entfernung hängt von den von den Forschern definierten Forschungsfragen ab. Die Forschungsfragen sollten über die Größe der Interessenziele informieren. Im Beispiel in Abbildung 7wurde für die Analyse ein Radius von 100 Pixeln auf dem Szenenbild (blau/grüne Kreise) ausgewählt, da es ausreicht, um zu erfassen, wann die Teilnehmer den Roboter im Labyrinth betrachten, sowie auf ähnliche Benutzeroberflächenelemente auf dem Computerbildschirm, die die beiden Hauptinteressenbereiche für diese experimentelle Aufgabe sind.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die oben vorgestellte Methodik wurde verwendet, um Studenten zu studieren, die eine Berufsausbildung in Logistik (n = 54)¹²absolvierten. In diesem Experiment interagierten Studentenpaare mit einer Tangible User Interface (TUI), die ein kleines Lager simulierte. Die auf der TUI platzierten Treuhandmarkierungen ermöglichten es dem Forschungsteam, die Blicke der Schüler auf eine gemeinsame Ebene umzubilden und die JVA-Ebene zu berechnen. Die Ergebnisse zeigten, dass Gruppen mit höheren JVA-Niveaus dazu neigten, die ihnen übertragene Aufgabe besser zu erfüllen, mehr lernten und eine bessere Qualität der Zusammenarbeit hatten¹³ (Abbildung 8, linke Seite). Mit zwei Eye-Tracking-Datensätzen konnten wir auch bestimmte Gruppendynamiken wie den Trittbrettfahrereffekt erfassen. Wir schätzten diesen Effekt, indem wir ermittelten, wer wahrscheinlich jeden Moment der JVA initiiert hatte (d.h. wessen Blick zuerst da war) und wer darauf reagierte (d.h. wessen Blick dort an zweiter Stelle war). Wir stellten einen signifikanten Zusammenhang zwischen Denkzuwächsen und der Tendenz der Studierenden fest, die Verantwortung für die Initiierung und Reaktion auf Angebote der JVA gleichermaßen zu teilen. Mit anderen Worten, Gruppen, in denen dieselbe Person immer Momente der JVA initiierte, lernten seltener(Abbildung 8, rechte Seite) und Gruppen, in denen diese Verantwortung gleichermaßen geteilt wurde, lernten eher. Diese Feststellung zeigt, dass wir über die bloße Quantifizierung von GU hinausgehen und die Gruppendynamik und Produktivität anhand von Dual-Eye-Tracking-Daten identifizieren können.

Abbildung 1: Jeder Teilnehmer generiert zwei Video-Feeds mit den X-Y-Koordinaten seines Blicks auf jedem Videoframe. Diese Methodik befasst sich mit der zeitlichen und räumlichen Synchronisierung der Daten zwischen den Teilnehmern. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Eine Methode zum Synchronisieren der beiden Datensätze. Kurz mit dem eindeutigen Fiducial-Marker auf einem Computerbildschirm, um den Start und das Ende der Aktivität zu markieren. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 3: Verwendung von in der Umgebung verbreiteten Fiducial-Markern, um die Blicke der Teilnehmer auf einen gemeinsamen Plan (linke Seite) neu zu zuordnen. Weiße Linien zeigen Treuhandmarkierungen an, die in beiden Bildern erkannt wurden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 4: Beispiele für eine schlechte Datenqualität. Links: Ein verschwommener Rahmen aus dem Eye-Tracking-Video, verursacht durch eine plötzliche Kopfbewegung. In diesem Bild konnten keine Fiducial-Marker erkannt werden. Rechts: Eine fehlgeschlagene Homographie, bei der die fiduzialen Markerdaten nicht ordnungsgemäß mit dem Videofeed synchronisiert wurden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 5: Heatmaps. Links: Eine Heatmap der Eye-Tracking-Daten, die der experimentellen Szene zugeordnet sind. Diese Visualisierung wurde als Sanitätscheck für die Homographie verwendet. Rechts: Eine Gruppe, die zu viele fehlende Daten hatte und verworfen werden musste. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 6: Kreuzwiederholungsdiagramm, das aus drei Dyaen generiert wurde, um die JVA zu visualisieren. P1 steht für den ersten Teilnehmer für Zeit, P2 für den zweiten Teilnehmer. Schwarze Quadrate zeigen JVA; graue Quadrate zeigen Momente, in denen die Teilnehmer verschiedene Orte betrachten; weiße Quadrate zeigen fehlende Daten an. Quadrat entlang der Hauptdiagonale zeigt Momente an, in denen die Teilnehmer zur gleichen Zeit an der gleichen Stelle betrachtet enden. Diese Visualisierung wurde als Sanitätsprüfung für Messungen der JVA aus den kombinierten Eye-Tracking-Daten verwendet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 7: Ein Videorahmen, in dem die JVA zwischen zwei Teilnehmern erkannt wurde (rote Punkte). Richardson et al.¹¹ empfehlen, sich ein Zeitfenster von +/-2 s. bei der Berechnung der JVA anzusehen. Zusätzlich müssen die Forscher den minimalen Abstand zwischen zwei Blickpunkten definieren, der als JVA zu zählen ist. Im mittleren Bild oben wurde ein Radius von 100 Pixel gewählt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 8: Beispiele für Ergebnisse. Daten von Schneider et al.^12, bei denen der Prozentsatz der Zeit, die gleichzeitig am selben Ort betrachtet wurde, mit der Qualität der Zusammenarbeit der Teilnehmer korreliert waren: r(24) = 0,460, P = 0,018 (linke Seite) und Ungleichgewichte bei der Initiierung/Reaktion auf Angebote der JVA korrelierten mit ihren Lernzuwächsen: r(24) = 0,47, P = 0,02 (rechte Seite). Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Die in diesem Papier beschriebene Methodik bietet eine strenge Möglichkeit, die JVA in kozessorkten Dyaden zu erfassen. Mit der Entstehung erschwinglicher Sensortechnologie und verbesserter Computer-Vision-Algorithmen ist es nun möglich, kollaborative Interaktionen mit einer Genauigkeit zu untersuchen, die zuvor nicht verfügbar war. Diese Methode nutzt die in der Umwelt verbreiteten Fiducial-Marker und nutzt Homographien, um den Blick der Teilnehmer auf eine gemeinsame Ebene neu zu zuordnen. Dies ermöglicht es den Forschern, die JVA in ko-lokalisierten Gruppen rigoros zu untersuchen.

Diese Methode umfasst mehrere Überprüfungen der Sanität, die an verschiedenen Punkten des Experiments durchgeführt werden müssen. Da es sich um ein komplexes Verfahren handelt, müssen Die Forscher sicherstellen, dass die resultierenden Datasets vollständig und gültig sind. Schließlich wird empfohlen, Pilotstudien vor dem eigentlichen Experiment durchzuführen und die Interaktionen der Teilnehmer zu rekonstruieren, wenn ein Video nach Abschluss der Datenerhebung abgeschlossen ist (Abbildung 3, Abbildung 4, Abbildung 5, Abbildung 6).

Diese Methode hat mehrere Einschränkungen:

Anzahl der Teilnehmer. Während diese Methode für zwei Teilnehmer gut funktioniert, wird die Analyse mit größeren Gruppen komplizierter. Fiducial Marker können immer noch verwendet werden, um Blicke auf eine Bodenwahrheit neu zu kartieren, aber zu wissen, wie man JVA identifiziert, wird zu einem nuancierteren Prozess. Sollte die JVA definiert werden als die Zeiten, in denen alle gleichzeitig am selben Ort schauen oder wenn zwei Teilnehmer am selben Ort schauen? Darüber hinaus werden Visualisierungen wie das Cross-Recurrence-Diagramm mit mehr als 2–3 Personen unpraktisch.

Einstellungen. Die in diesem Papier beschriebene Methode eignet sich für kleine, kontrollierte Einstellungen (z. B. Laboruntersuchungen). Offene Einstellungen, wie z. B. im Freien oder in großen Räumen, sind in der Regel zu kompliziert, um mit Treuhandmarkern zu instrumentieren und können so die Nützlichkeit der Eye-Tracking-Daten einschränken. Darüber hinaus können die Treuhandmarker die Umgebung ablenken und durcheinanderbringen. In Zukunft werden bessere Computer-Vision-Algorithmen in der Lage sein, automatisch gemeinsame Merkmale zwischen zwei Perspektiven zu extrahieren. Es gibt bereits Algorithmen, die für diesen Zweck existieren, aber wir fanden heraus, dass der Genauigkeitsgrad für die oben beschriebene Art des Experiments noch nicht akzeptabel war.

AOIs. Im Zusammenhang mit dem oben genannten Punkt funktionieren die Computerhomographie und das Kreuzwiederholungsdiagramm gut mit einer stabilen Anzahl von Interessengebieten, aber es müssen Korrekturen vorgenommen werden, wenn verschiedene Aufgaben mit unterschiedlichen Interessensgebieten verglichen werden.

Verwendung von Geräten. Mobile Eyetracker können aufdringlich sein, das Verhalten der Teilnehmer beeinflussen oder nicht mit einer bestimmten Augenphysiologie arbeiten.

Zusammenfassend lässt sich sagen, dass die in diesem Dokument beschriebene Methodik eine vielversprechende Methode ist, um kolozende Wechselwirkungen zu untersuchen. Es ermöglicht forschern, eine genaue Metrik für die JVA zu erfassen, die ein kritisches Konstrukt in den Sozialwissenschaften^{ist 1}. Darüber hinaus ist es möglich, mit dieser Methode¹² im Vergleich zu herkömmlichen qualitativen Analysen genauere Indikatoren für kollaboratives Lernen zu erkennen. Kurz gesagt, es ist eine effizientere und genauere Möglichkeit, soziale Interaktionen zu studieren.

Die mögliche Anwendung dieser Methode umfasst das Entwerfen von Interventionen zur Unterstützung der Zusammenarbeit durch Echtzeit-Eye-Tracking-Daten. Einige pionierische Arbeiten haben Shared-Gaze-Visualisierungen mit Entfernten erstellt, die nachweislich kollaboratives Lernen aus der^Fernenutzen. Dyaden, die den Blick ihres Partners in Echtzeit sehen konnten, zeigten mehr JVA, arbeiteten besser zusammen und erzielten höhere Lernzuwächse im Vergleich zu einer Kontrollgruppe. Zukünftige Arbeiten werden untersuchen, ob diese Art von Intervention kollaborative Prozesse in kolocateden Einstellungen unterstützen kann (z. B. durch virtuelle oder Augmented-Reality-Headsets).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren erklären, dass sie keine konkurrierenden finanziellen Interessen haben.

Acknowledgments

Die Entwicklung dieser Methodik wurde von der National Science Foundation (NSF #0835854), dem Leading House Technologies for Vocation Education, das vom Schweizerischen Staatssekretariat für Bildung, Forschung und Innovation und dem Dean Venture Fund der Harvard School of Education finanziert wurde, unterstützt.

Materials

Name	Company	Catalog Number	Comments
Tobii Glasses 2	Tobii	N/A	https://www.tobiipro.com/product-listing/tobii-pro-glasses-2/
Fiducial markers	Chili lab – EPFL, Switzerland	N/A	https://github.com/chili-epfl/chilitags

DOWNLOAD MATERIALS LIST

References

Tomasello, M. Joint attention as social cognition. Joint attention: Its origins and role in development. Moore, C., Dunham, P. J. , Lawrence Erlbaum Associates, Inc. Hillsdale, NJ, England. 103-130 (1995).
Mundy, P., Sigman, M., Kasari, C. A longitudinal study of joint attention and language development in autistic children. Journal of Autism and Developmental Disorders. 20, 115-128 (1990).
Clark, H. H., Brennan, S. E. Grounding in communication. Perspectives on socially shared cognition. Resnick, L. B., Levine, J. M., Teasley, S. D. , American Psychological Association. Washington, DC, US. 127-149 (1991).
Siposova, B., Carpenter, M. A new look at joint attention and common knowledge. Cognition. 189, 260-274 (2019).
Gergle, D., Clark, A. T. See What I'm Saying?: Using Dyadic Mobile Eye Tracking to Study Collaborative Reference. Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work. , ACM. New York, NY, USA. 435-444 (2011).
Renner, P., Pfeiffer, T., Wachsmuth, I. Spatial References with Gaze and Pointing in Shared Space of Humans and Robots. Spatial Cognition IX. Freksa, C., Nebel, B., Hegarty, M., Barkowsky, T. , Springer International Publishing. 121-136 (2014).
Shvarts, A. Y. Automatic detection of gaze convergence in multimodal collaboration: a dual eye-tracking technology. The Russian Journal of Cognitive Science. 5, 4 (2018).
Bonnard, Q., et al. Chilitags: Robust Fiducial Markers for Augmented Reality [software]. , Available from: https://github.com/chili-epfl/qml-chilitags (2013).
Jermann, P., Mullins, D., Nüssli, M. -A., Dillenbourg, P. Collaborative Gaze Footprints: Correlates of Interaction Quality. Connecting Computer-Supported Collaborative Learning to Policy and Practice. CSCL2011 Conference Proceedings., Volume I - Long Papers. , 184-191 (2011).
Richardson, D. C., Dale, R. Looking To Understand: The Coupling Between Speakers' and Listeners' Eye Movements and Its Relationship to Discourse Comprehension. Trends in Cognitive Sciences. 29, 1045-1060 (2005).
Richardson, D. C., Dale, R., Kirkham, N. Z. The Art of Conversation Is Coordination Common Ground and the Coupling of Eye Movements During Dialogue. Psychological Science. 18, 407-413 (2007).
Schneider, B., et al. Using Mobile Eye-Trackers to Unpack the Perceptual Benefits of a Tangible User Interface for Collaborative Learning. ACM Transactions on Computer-Human Interaction. 23, 1-23 (2016).
Meier, A., Spada, H., Rummel, N. A rating scheme for assessing the quality of computer-supported collaboration processes. Int. J. Comput.-Support. Collab. Learn. 2, 63-86 (2007).
Schneider, B., Pea, R. Real-time mutual gaze perception enhances collaborative learning and collaboration quality. Journal of Computer-Supported Collaborative Learning. 8, 375-397 (2013).

Behavior

Eine Methodik zur Erfassung der gemeinsamen visuellen Aufmerksamkeit mit mobilen Eye-Trackern

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.