Wir haben eine einfache, anpassbare und effiziente Methode entwickelt, um quantitative Prozessdaten aus interaktiven räumlichen Aufgaben zu erfassen und diese Rotationsdaten mit Eye-Tracking-Daten abzubilden.
Method Article
Wir haben eine einfache, anpassbare und effiziente Methode entwickelt, um quantitative Prozessdaten aus interaktiven räumlichen Aufgaben zu erfassen und diese Rotationsdaten mit Eye-Tracking-Daten abzubilden.
Wir stellen eine Methode zur Echtzeitaufzeichnung menschlicher Interaktion mit dreidimensionalen (3D) virtuellen Objekten vor. Der Ansatz besteht darin, Rotationsdaten des manipulierten Objekts mit Verhaltensmaßstäben wie Eye-Tracking zu verknüpfen, um bessere Rückschlüsse auf die zugrunde liegenden kognitiven Prozesse zu ziehen.
Die Aufgabe besteht darin, zwei identische Modelle desselben 3D-Objekts (eines Moleküls) auf einem Computerbildschirm darzustellen: ein rotierendes, interaktives Objekt (iObj) und ein statisches Zielobjekt (tObj). Die Teilnehmer müssen iObj mit der Maus drehen, bis sie der Meinung sind, dass die Ausrichtung mit der von tObj identisch ist. Der Computer verfolgt alle Interaktionsdaten in Echtzeit. Auch die Blickdaten des Teilnehmers werden mit Hilfe eines Eyetrackers erfasst. Die Messfrequenz beträgt 10 Hz am Computer und 60 Hz am Eyetracker.
Die Orientierungsdaten von iObj in Bezug auf tObj werden in Rotationsquaternionen aufgezeichnet. Die Anvisiertdaten werden mit der Ausrichtung von iObj synchronisiert und mit demselben System referenziert. Diese Methode ermöglicht es uns, die folgenden Visualisierungen des menschlichen Interaktionsprozesses mit iObj und tObj zu erhalten: (1) Winkeldisparität, synchronisiert mit anderen zeitabhängigen Daten; (2) 3D-Rotationsbahn innerhalb dessen, was wir als "Ball der Rotationen" bezeichnen; (3) 3D-Fixierungs-Heatmap. Alle Schritte des Protokolls haben freie Software wie GNU Octave und Jmol verwendet, und alle Skripte stehen als ergänzendes Material zur Verfügung.
Mit diesem Ansatz können wir detaillierte quantitative Studien über den Prozess der Aufgabenlösung durchführen, der mentale oder physische Rotationen beinhaltet, und nicht nur über das erreichte Ergebnis. Es ist möglich, genau zu messen, wie wichtig jeder Teil der 3D-Modelle für den Teilnehmer bei der Lösung von Aufgaben ist, und so die Modelle mit relevanten Variablen wie den Eigenschaften der Objekte, den kognitiven Fähigkeiten der Individuen und den Eigenschaften der Mensch-Maschine-Schnittstelle in Beziehung zu setzen.
Mentale Rotation (MR) ist eine kognitive Fähigkeit, die es Individuen ermöglicht, Objekte mental zu manipulieren und zu drehen, was ein besseres Verständnis ihrer Merkmale und räumlichen Beziehungen ermöglicht. Es handelt sich um eine der visuell-räumlichen Fähigkeiten, einer grundlegenden kognitiven Gruppe, die bereits 1890 untersuchtwurde. Visuell-räumliche Fähigkeiten sind ein wichtiger Bestandteil des kognitiven Repertoires eines Individuums, das sowohl von vererbten als auch von Umweltfaktoren beeinflusst wird 2,3,4,5. Das Interesse an visuell-räumlichen Fähigkeiten hat im Laufe des 20. Jahrhunderts zugenommen, da sich die Beweise für ihre Bedeutung in Schlüsselfächern wie Alter6 und Entwicklung7, Leistung in Mathematik, Informatik, Naturwissenschaften und Technik (MINT)8,9, Kreativität10 und evolutionäre Merkmale11 häufen.
Die zeitgenössische Idee der MR leitet sich aus der Pionierarbeit von Shepard und Metzler (SM) aus dem Jahr 197112 ab. Sie entwickelten eine chronometrische Methode mit einer Reihe von "gleichen oder unterschiedlichen" Aufgaben, die zwei Projektionen abstrakter 3D-Objekte präsentierten, die nebeneinander angezeigt wurden. Die Teilnehmer mussten die Objekte mental um eine bestimmte Achse drehen und entscheiden, ob diese Projektionen das gleiche Objekt anders drehten oder unterschiedliche Objekte darstellten. Die Studie zeigte eine positive lineare Korrelation zwischen der Reaktionszeit (RT) und der Winkeldisparität (AD) zwischen Repräsentationen desselben Objekts. Diese Korrelation wird als Winkeldisparitätseffekt (ADE) bezeichnet. ADE wird als Verhaltensmanifestation der MR angesehen und wurde in mehreren einflussreichen nachfolgenden Studien auf diesem Gebiet allgegenwärtig 13,14,15,16,17,18,19,20,21,22,23,24,25. Die 3D-Objekte, die in der SM-Studie verwendet wurden, bestanden aus 10 zusammenhängenden Würfeln, die von dem Computergraphen-Pionier Michael Noll in den Bell Laboratories26 erzeugt wurden. Sie werden als SM-Zahlen bezeichnet und sind in MRT-Studien weit verbreitet.
Zwei Fortschritte waren in Shepards und Metzlers bahnbrechender Arbeit von großer Bedeutung; erstens, unter Berücksichtigung der Beiträge auf dem Gebiet der MR-Bewertungen. Im Jahr 1978 entwickelten Vanderberg und Kuze27 einen psychometrischen Bleistift-und-Papier-Test mit 20 Punkten, der auf SM-Zahlen "gleich oder unterschiedlich" basierte, der als mentaler Rotationstest (VKMRT) bekannt wurde. Jeder Testgegenstand stellt einen Zielreiz dar. Die Teilnehmer müssen unter vier Stimuli auswählen, welche das gleiche Objekt repräsentieren, das im Zielstimulus dargestellt wird, und welche nicht. VKMRT wurde verwendet, um die Korrelation zwischen MR-Fähigkeit und verschiedenen anderen Faktoren zu untersuchen, wie z.B. geschlechtsbezogene Unterschiede 6,21,24,28,29,30, Altern und Entwicklung 6,31,32, akademische Leistung8,33, und Fähigkeiten in Musik und Sport34. 1995 veröffentlichten Peters et al. eine Studie mit neu gezeichneten Zahlen für die VKMRT35,36. In ähnlicher Weise wurden nach dem "gleichen oder unterschiedlichen" Aufgabendesign eine Vielzahl anderer Bibliotheken computergenerierter Stimuli eingesetzt, um MR-Prozesse zu untersuchen und MR-Fähigkeiten zu bewerten (3D-Versionen der ursprünglichen SM-Stimuli 19,22,23,37,38, menschlicher Körper, der SM-Figurennachahmt 25,39,40, flache Polygone für die 2D-Rotation 41, 42, Anatomie und Organe43, organische Formen44, Moleküle45,46 u.a.21). Der von Guay 1976 vorgeschlagene Purdue Spatial Visualization Test (PSVT)47 ist ebenfalls relevant. Es beinhaltet eine Reihe von Tests, einschließlich MR (PSVT:R). PSVT:R verwendet andere Stimuli als in der VKMRT und verlangt von den Teilnehmern, eine Rotationsoperation in einem Modellstimulus zu identifizieren und sie mental auf einen anderen anzuwenden. PSVT:R ist ebenfalls weit verbreitet, insbesondere in Studien, die die Rolle der MR bei der MINT-Leistung untersuchen 48,49,50.
Der zweite Fortschritt, der in der bahnbrechenden Arbeit von Shepard und Metzler von großer Bedeutung ist, umfasst die Beiträge zum Verständnis des MRT-Prozesses, insbesondere mit dem Einsatz von Eye-Tracking-Geräten. Im Jahr 1976 verwendeten Just und Carpenter14 analoge videobasierte Eye-Tracking-Geräte, um eine Studie durchzuführen, die auf dem ADE-Experiment von Shepard und Metzler basierte. Aus ihren Ergebnissen zu sakkadischen Augenbewegungen und RTs schlugen sie ein Modell von MRT-Prozessen vor, das aus drei Phasen besteht: 1) der Suchphase, in der ähnliche Teile der Figuren erkannt werden; 2) die Transformations- und Vergleichsphase, in der einer der identifizierten Teile gedanklich gedreht wird; 3) die Bestätigungsphase, in der entschieden wird, ob die Zahlen gleich sind oder nicht. Die Phasen werden rekursiv wiederholt, bis eine Entscheidung getroffen werden kann. Jeder Schritt entspricht spezifischen sakkadischen und fixativen Augenbewegungsmustern in enger Beziehung zu den beobachteten ADEs. Durch die Korrelation der Augenaktivität mit chronometrischen Daten lieferten Just und Carpenter eine kognitive Signatur für die Untersuchung von MR-Prozessen. Bisher wurde dieses Modell, wenn auch mit Anpassungen, in mehreren Studien übernommen 15,42,46,51,52,53.
Diesem Pfad folgend, wurden mehrere nachfolgende Studien zur Überwachung des Verhaltens 18,19,22,23,25,34,40,54,55 und der Gehirnaktivität 20,22,56,57 Funktionen während der Stimulirotation wurden durchgeführt. Ihre Ergebnisse deuten auf eine kooperative Rolle zwischen MR und motorischen Prozessen hin. Darüber hinaus besteht ein wachsendes Interesse an der Untersuchung von Problemlösungsstrategien mit MR in Bezug auf individuelle Unterschiede 15,41,46,51,58.
Insgesamt kann davon ausgegangen werden, dass das Design von Studien zum Verständnis von MRT-Prozessen darauf basiert, eine Aufgabe mit visuellen Reizen zu präsentieren, die die Teilnehmer auffordert, eine MRT-Operation durchzuführen, die wiederum eine motorische Reaktion nach sich zieht. Wenn diese Reaktion eine Rotation der Reize ermöglicht, wird sie oft als physikalische Rotation (PR) bezeichnet. Abhängig von den spezifischen Zielen der jeweiligen Studie wurden unterschiedliche Strategien und Geräte zur Datenerfassung und -analyse von MR und PR eingesetzt. Im Schritt der Präsentation von Aufgabenreizen ist es möglich, die Arten von Reizen zu ändern (d. h. die zuvor zitierten Beispiele); die Projektion (computergenerierte Bilder in herkömmlichen Displays 22,23,25,29,40,41,59 sowie in Stereoskopen19 und virtuellen60 und gemischten43 Realitätsumgebungen); und die Interaktivität der Reize (statische Bilder 12,27,36, Animationen 61 und interaktive virtuelle Objekte 19,22,23,43,53,59).
Die MR wird in der Regel aus Messungen der RTs (ADE) sowie der Augen- und Gehirnaktivität abgeleitet 25,46,62. Die Messung der Augenaktivität erfolgt anhand von Eye-Tracking-Daten, die aus sakkadischen Bewegungen und Fixationen 14,15,42,51,52,54,58,60 sowie Pupillometrie40 bestehen. RT-Daten ergeben sich typischerweise aus Motorreaktionsdaten, die während der Betätigung verschiedener Geräte aufgezeichnet werden, wie z. B. Hebel13, Tasten und Schalter14, 53, Pedale53, Drehknöpfe19, Joysticks37, Tastatur61 und Maus29, 58, 60 Antriebsräder53, Inertialsensoren22, 53, Touchscreens52, 59und Mikrofone22. Um die PR zu messen, wird das Studiendesign zusätzlich zu den RTs auch die Aufzeichnung manueller Rotationen interaktiver Stimuli umfassen, während die Teilnehmer die MR-Aufgabe 22,23,52,53 ausführen.
Im Jahr 1998 verwendeten Wohlschläger und Wohlschläger19 "gleiche oder verschiedene" Aufgaben mit interaktiven virtuellen SM-Stimuli, die mit einem Knopf manipuliert wurden, wobei die Rotationen auf eine Achse pro Aufgabe beschränkt waren. Sie maßen die RT und die kumulative Aufzeichnung der körperlichen Rotationen, die während der Aufgaben durchgeführt wurden. Durch den Vergleich von Situationen mit und ohne tatsächliche Rotation der interaktiven Stimuli kamen sie zu dem Schluss, dass MR und PR einen gemeinsamen Prozess sowohl für imaginierte als auch für tatsächlich durchgeführte Rotationen haben.
Im Jahr 2014 wurden zwei Studien durchgeführt, in denen die gleiche Art von Aufgaben mit virtuellen interaktiven Reizen verwendetwurden 22,23. Die Objekte wurden jedoch mit Inertialsensoren manipuliert, die Bewegungen im 3D-Raum erfassten. In beiden Fällen wurden zusätzlich zu den RTs auch Rotationstrajektorien aufgezeichnet - die Entwicklung der Rotationsunterschiede zwischen Referenz- und interaktiven Stimuli während der Aufgaben. Aus diesen Trajektorien war es möglich, sowohl kumulative Informationen (d.h. die Gesamtzahl der Umdrehungen in quaternionischen Einheiten) als auch detaillierte Informationen über Lösungsstrategien zu extrahieren. Adams et al.23 untersuchten den kooperativen Effekt zwischen MR und PR. Zusätzlich zu den RTs verwendeten sie das Integral der Rotationstrajektorien als Parameter für die Genauigkeit und Objektivität der Auflösung. Die Interpretation der Kurvenprofile erfolgte nach einem dreistufigen Modell63 (Planung, große Umdrehung, Feinjustierung). Die Ergebnisse deuten darauf hin, dass MR und PR nicht notwendigerweise einen einzigen, gemeinsamen Faktor haben. Gardony et al.22 sammelten Daten zu RT, Genauigkeit und Echtzeitrotation. Die Analyse der Rotationstrajektorien bestätigte nicht nur den Zusammenhang zwischen MR und PR, sondern zeigte auch, dass die Teilnehmer die Zahlen so lange manipulierten, bis sie erkennen konnten, ob sie unterschiedlich waren oder nicht. Wenn sie gleich waren, drehten die Teilnehmer sie, bis sie gleich aussahen.
Um diese Strategie fortzusetzen, setzten Wetzel und Bertel52 im Jahr 2018 auch interaktive SM-Figuren bei "gleichen oder unterschiedlichen" Aufgaben mit Touchscreen-Tablets als Schnittstelle ein. Darüber hinaus verwendeten sie ein Eye-Tracking-Gerät, um kumulative Daten zur Fixationszeit und zur sakkadischen Amplitude als Parameter der kognitiven Belastung bei der Lösung von MRT-Aufgaben zu erhalten. Die Autoren bestätigten die oben diskutierten Studien zu den Zusammenhängen zwischen MR und PR und den Aufgabenlösungsprozessen. In dieser Studie verwendeten sie jedoch keine Fixationskartierungs- und Sakkadendaten für die Stimuli.
Methodische Ansätze für die Kartierung von Eye-Tracking-Daten über virtuelle 3D-Objekte wurden vorgeschlagen und ständig verbessert, häufig von Forschern, die daran interessiert sind, die Faktoren im Zusammenhang mit der visuellen Aufmerksamkeit in virtuellen Umgebungen zu untersuchen64. Obwohl diese Methoden erschwinglich sind und ähnliche Eye-Tracking-Geräte verwenden, wurden sie anscheinend nicht effektiv in das experimentelle Repertoire integriert, das in mentalen Rotationsstudien mit interaktiven 3D-Objekten wie den zuvor erwähnten verwendet wird. Umgekehrt fanden wir in der Literatur keine Studien, die über eine Echtzeit-Kartierung von Fixations- und Sakkadenbewegungsdaten auf interaktiven 3D-Objekten berichten. Es scheint keine bequeme Methode zu geben, um Augenaktivitätsdaten einfach in Rotationsverläufe zu integrieren. Mit dieser Forschung wollen wir dazu beitragen, diese Lücke zu schließen. Das Vorgehen wird von der Datenerfassung bis zur grafischen Ausgabegenerierung detailliert dargestellt.
In diesem Artikel beschreiben wir detailliert eine Methode zur Untersuchung mentaler Rotationsprozesse mit virtuellen interaktiven 3D-Objekten. Die folgenden Fortschritte sind hervorgehoben. Zunächst integriert es die quantitative verhaltensmotorische (handgesteuerte Objektdrehung über eine Computerschnittstelle) und die okuläre (Eye-Tracking) Datenerfassung während Interaktionssitzungen mit virtuellen 3D-Modellen. Zweitens werden nur herkömmliche Computergeräte und Eye-Tracking-Geräte für die Gestaltung visueller Aufgaben, die Datenerfassung, die Aufzeichnung und die Verarbeitung benötigt. Drittens generiert es auf einfache Weise eine grafische Ausgabe, um die Datenanalyse zu erleichtern - Winkeldisparität, physikalische Rotation, quaternionische Rotationstrajektorien und Hit-Mapping von Eye-Tracking-Daten über virtuelle 3D-Objekte. Schließlich erfordert die Methode nur freie Software. Alle entwickelten Codes und Skripte stehen kostenlos zur Verfügung (https://github.com/rodrigocnstest/rodrigocnstest.github.io).
1. Vorbereitung von Datenerhebungsinstrumenten
2. Datenerhebung
3. Datenverarbeitung und -analyse
4. Anpassung der Aufgabe
HINWEIS: Dieser gesamte Abschnitt ist optional und wird nur für diejenigen empfohlen, die gerne experimentieren oder verstehen, wie man programmiert. Im Folgenden finden Sie einige der vielen anpassbaren Optionen, die verfügbar sind, und weitere Optionen werden verfügbar werden, wenn wir die Methoden weiterentwickeln.
Entwicklung der Winkeldisparität und anderer Variablen
Wie in Schritt 3.3.1 in der Zusatzdatei 2 dargestellt, werden dem Teilnehmer auf dem Videomonitorbildschirm zwei Leinwände präsentiert, auf denen Kopien desselben virtuellen 3D-Objekts in unterschiedlichen Ausrichtungen angezeigt werden. Auf der linken Leinwand bleibt das Zielobjekt (tObj) statisch und dient als Zielposition oder tObj-Position. Auf der rechten Leinwand wird das interaktive Objekt (iObj) in einer anderen Position dargestellt und ermöglicht es dem Teilnehmer, es mit der Maus über die Zeit um ein festes Rotationszentrum zu bewegen (nur Rotationen; Verschiebungen sind deaktiviert). Die anstehende Aufgabe besteht darin, iObj so anzupassen, dass es auf der Grundlage des Urteils des Teilnehmers genau mit tObj übereinstimmt. Die drei verwendeten 3D-Objekte sind in Abbildung 1 zu sehen. Der Lösungsprozess ist zwar komplex, kann aber für die spätere Analyse akribisch aufgezeichnet werden. Diese Aufzeichnung geht über reines Videomaterial hinaus, da jede Position im Zeitverlauf in festen Intervallen von 0,1 s als Quaternion erfasst wird und eine Zeitreihe bildet, die eine vollständige Rekonstruktion des gesamten Prozesses ermöglicht. An jeder Position gibt es eine einzigartige Drehung um eine bestimmte Achse, die von 0° bis 180° reicht und die tObj-Position direkt in die iObj-Position umwandelt. Diese Drehung ist zwar abstrakt und hat nichts mit der PR des Teilnehmers während der Aufgabe zu tun, zeigt aber genau die genaue iObj-Position relativ zu tObj an. AD ist der Winkel dieser Drehung und kann aus dem jeweiligen Quaternion berechnet werden. Wenn sich die iObj-Position der tObj-Position nähert, nähert sich dieser Wert Null.
Nach Schritt 3.1.6 des Abschnitts Datenverarbeitung und -analyse wurden zwei Dateien erstellt: output merge X Y.xlsx und output jmol console X Y.xlsx, wobei X der sessionID-Wert und Y der taskID-Wert ist. Wenn Sie die Standardwerte verwenden, indem Sie die Eingabefelder leer lassen, sollten die Dateien output merge 1682707472090 bolaBastao_c.xlsx und output jmol console 1682707472090 bolaBastao_c.xlsx heißen. Die Merge X Y.xlsx-Dateien der Ausgabe enthalten die ausgewählten Eyetracker-Daten, die mit den iRT-Daten zusammengeführt werden, ausgerichtet nach der UNIX-Epochenzeit, ähnlich wie in Abbildung 2A , wenn alles korrekt abgelaufen ist, oder in Abbildung 2B , wenn ein Problem aufgetreten ist.
Die Ausgabedateien der Jmol-Konsole X Y.xlsx enthalten bis zu fünf Registerkarten, die mit Befehlen der Jmol-Konsole gefüllt sind, die beim Einfügen in die Jmol-Konsole die Bewegungen des Teilnehmers beim Lösen der Aufgabe reproduzieren: Die Rotationswiedergabe reproduziert die vom Teilnehmer vorgenommenen iObj-Rotationen; gaze replay int reproduziert die iObj-Rotationen mit zusätzlicher Fixations-Heatmap auf dem Objekt in der Zeit unter Verwendung einer Transparenz-/Undurchsichtigkeitsskala. gaze replay tgt zeigt nur die 3D-Fixations-Heatmap von tObj während der Aufgabe; gaze frame int und gaze frame tgt zeigen das gesamte Fixationsmapping des gesamten Prozesses für iObj und tObj. Alle sind in Abbildung 3A-F dargestellt. Jmol und JSmol sind im Wesentlichen identisch, wobei Jmol das Plugin ist, das auf der Programmiersprache Java basiert, und JSmol in der Programmiersprache JavaScript, die beide die gleichen Funktionalitäten haben und austauschbar verwendet werden.
Abbildung 4 veranschaulicht die Entwicklung der Winkeldisparität als Funktion der Zeit für sechs verschiedene Szenarien mit zwei Teilnehmern und drei Objekten. Die Dauer des Prozesses kann je nach Leistung des Teilnehmers mit dem interaktiven Aufgabenobjekt erheblich variieren. Bei jeder Aufgabe, die vom Teilnehmer korrekt ausgeführt wird, tendiert AD dazu, am Ende auf Null zu gehen. Wenn derselbe Graph dieses Verhalten nicht zeigt, konnte der Teilnehmer entweder die Aufgabe nicht abschließen, weil er aufgegeben oder das Zeitlimit pro Aufgabe (ca. 5 Minuten) erreicht hat, oder es ist ein Fehler bei der Datenverarbeitung aufgetreten.
Die kombinierten Ergebnisse der iObj PR-Aufzeichnungen und der Daten aus den Eye-Tracking-Messungen sind in Abbildung 5 dargestellt. Die Variation der Winkeldisparität zwischen dem Ziel und den Inertialobjekten in Abhängigkeit von der Zeit weist auf drei verschiedene Phasen im Prozess der Lösung der gestellten Aufgabe hin: die anfängliche Beobachtung der Modelle; ballistische Drehung des interaktiven Modells; Feinabstimmung der Drehung des interaktiven Modells. Abbildung 5A zeigt den Wechsel des Blicks zwischen den Modellen in der Anfangsphase und insbesondere in der Feinabstimmungsphase. Abbildung 5B zeigt, dass die Pupille in der Anfangs- und Feinabstimmungsphase weiter geweitet bleibt. In der Feinabstimmungsphase entspricht die lange Fixationszeit auf dem interaktiven Modell (40-47s in Abbildung 5A) einem Plateau im Pupillendurchmesser (40-47s, Abbildung 5B).
Diese Ergebnisse deuten darauf hin, dass die mit der hier vorgeschlagenen Methode gewonnenen Daten konsistent sind mit dem Modell der mentalen Rotationsproblemlösung, das auf der Grundlage von Blickfixationsdaten für statische Modelle14,66 und für interaktive Modelle23 vorgeschlagen wurde. Ein solches Modell würde drei Phasen umfassen: Suche, Transformation und Vergleich sowie Bestätigung der Übereinstimmung oder Nichtübereinstimmung zwischen den Modellen. Darüber hinaus stimmt der Wechsel der Fixierungen zwischen dem Ziel- und dem interaktiven Modell in den in Abbildung 5A beobachteten Vergleichsstufen mit den Ergebnissen überein, die in Tests vom Typ Sheppard und Metzler erzielt wurden, die statische Bilder verwenden42,66. Im Fall von interaktiven Modellen ist es jedoch wahrscheinlich, dass diese Phasen der Suche, Transformation, des Vergleichs und der Bestätigung nacheinander durch Interaktion und Neupositionierung des interaktiven Modells erfolgen.
3D-Rotationstrajektorien
Jede Drehung in einem 3D-Raum von 0° bis 180° kann in einen Punkt innerhalb einer Kugel (der als das Volumen innerhalb einer Kugel verstanden wird) mit einem Radius von 180° übersetzt werden. Abbildung 6 veranschaulicht diese Entsprechung anhand von drei Beispielrotationen. Der Abstand des Punktes zum Mittelpunkt der Kugel ist die iObj-Winkeldisparität von der tObj-Position, und der Vektor, der von der Mitte der Kugel zum Punkt zeigt, ist die Drehrichtung, wobei die Drehung im Uhrzeigersinn von der Mitte aus gesehen erfolgt. Diese Übersetzung von Rotationen in Punkte in einem Ball ermöglicht es jemandem, in einer einzigen 3D-Zeichnung direkt die gesamte Flugbahn der Rotationen zu visualisieren, die der Teilnehmer in einer Aufgabe gemacht hat. Wir nennen diese Zeichnung die 3D-Rotationsbahn.
Analog zum AD-Maß sollte sich die Flugbahn für alle Aufgaben, die der Teilnehmer korrekt erledigt hat, am Ende der Mittelpunkt des Balls nähern. Wenn die Flugbahn bei einer Drehung von 180° die Begrenzung der Kugel erreicht, wickelt sie sich bis zum Antipodenpunkt auf der Kugel um. Abbildung 7 veranschaulicht die Rotationsbahn der beiden zuvor erwähnten Teilnehmer bei der Ausführung der dritten Aufgabe (C1 und C2 in Abbildung 4), sowohl perspektivisch als auch in Projektionen auf den drei Koordinatenebenen betrachtet. Aus der Abbildung wird deutlich, dass Teilnehmer 1 trotz des relativ geringen Anfangs-AD von fast 45° zunächst von der Zielposition abwich, bevor er einen endgültigen Weg zur Lösung fand, im Gegensatz zu Teilnehmer 2, der die Aufgabe schneller erledigte.
3D-Fixierungs-Heatmap
Während des Problemlösungsprozesses wechselt der Blick zwischen tObj und iObj, während er mit iObj interagiert. Mit den Eye-Tracking-Daten können wir die Blickposition des Teilnehmers extrahieren und eine Heatmap der Bildschirmbereiche erstellen, die in einem bestimmten Intervall die meiste und die geringste Aufmerksamkeit des Teilnehmers auf sich gezogen haben. Wenn wir noch weiter gehen, können wir mit der Synchronisierung der Eye-Tracking- und iRT-Quaternionendaten gleichzeitig im 3D-Raum und in der Zeit abbilden, wie viel Aufmerksamkeit jeder der Objektvertices erhält, selbst bei Objekten, die in der Zeit gedreht werden.
In Abbildung 3 wird die Aufmerksamkeit, die dem Objekt geschenkt wird, durch die Deckkraft der einzelnen Scheitelpunkte dargestellt. Je näher es am Blick des Teilnehmers ist und je länger es in der Nähe bleibt, desto mehr Aufmerksamkeit erhält es, was zu einer höheren Deckkraft in diesem Bereich des Objekts führt. Die räumliche Abnahme der Aufmerksamkeit wird mit einer bivariaten homogenen Gaußschen Funktion für die Blickposition und einer einfachen homogenen Gaußschen Funktion für die verstrichene Zeit modelliert. Die Standardabweichung dieser Gaußschen Winkel wurde unter der Annahme eines Sehwinkels von 2 Grad67 und eines visuellen Kurzzeitgedächtnisses von 10 s68 gewählt. Um visuelle Artefakte bei dieser Methode zu vermeiden, werden die Anvisieren-Proximity-Daten auf Null gesetzt, während sich das Anvisieren außerhalb des Objekt-Canvas befindet (iObj erhält keine verbleibende Aufmerksamkeit, wenn sich das Anvisieren innerhalb des tObj-Canvas oder außerhalb von beiden befindet). Abbildung 3 zeigt einen einzelnen Frame von jedem Objekt einer gesamten Wiedergabeanimation und dieselben Frames mit der 3D-Fixations-Heatmap. Ein möglicher Vergleich zwischen tObj und iObj durch den Teilnehmer während des Lösungsprozesses ist erkennbar (Abbildung 3C,D), da sich die Aufgabe ihrem Abschluss nähert (Zeit = 6,3 s). Der gesamte Prozess ist als Video in Supplemental Video S1 zu sehen. Wir berichten über die Ergebnisse der computervermittelten Rotation von 3D-Modellen, die den Teilnehmern als eine Aufgabe präsentiert werden, die unter normalen Bedingungen durchgeführt wurde.

Abbildung 1: Verwendete Zielobjekte. Bild der 3D-Modelle, die in den Webseitenaufgaben verwendet werden. (A) ein Molekül mit Kugel- und Stabdarstellung, (B) Das gleiche Molekül mit gefüllten Polygonen, ohne Wasserstoffatome und nur durch Stäbe dargestellt; (C) ein Polywürfel ähnlich einer der Shepard- und Metzler-Abbildungen13, abgeleitet aus der Stimulibibliothek von Peters und Battista36. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Vergleich von Tabellen. (A,B) Die Bilder stammen aus dem 1682707472090 bolaBastao_c.xlsx der Tabellenausgabe. Die Spalten A bis G enthalten iRT-Datenwerte, während die Spalten H bis N Eyetracker-Datenwerte enthalten. In (A) ist alles korrekt, während in (B) in den Spalten des Eyetrackers alle Werte konstant sind und nicht mit den Zeitwerten des iRT-Systems übereinstimmen. Wenn bei der Datensynchronisierung ein Problem auftritt, tritt dieser Fehler wahrscheinlich auf. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 3: 3D-Fixations-Heatmap. Fixierungs-Heatmap über dem 3D-Objekt unter Verwendung einer Deckkraftskala, wobei undurchsichtiger mit mehr Zeit korreliert, die in der Nähe des Blicks der Teilnehmer verbracht wird. (A,B) tObj- und iObj-Bilder der Aufgabe, die der Teilnehmer bei der 6,3-s-Marke löst. (C,D) Dieselben Bilder wie (A,B) im selben Moment mit der zusätzlichen Deckkraftskala der Heatmap. (E,F) Fixations-Heatmap-Bilder unter Berücksichtigung des gesamten Zeitraums, in dem der Teilnehmer die Objekte sehen konnte. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 4: AD-Raster. Plot Grid der Winkeldisparität über zwei Teilnehmer und drei Aufgaben. Spalten stellen die Teilnehmer 1 und 2 dar, und Zeilen stellen die Aufgaben dar, die von den Teilnehmern mit den drei in Abbildung 3 dargestellten Objekten gelöst wurden. Beachten Sie, dass AD zwar zwischen 0° und 180° variiert, der Zeitbereich jedoch nicht festgelegt ist und mit der Leistung des Teilnehmers und seiner eigenen Entscheidung, den Prozess zu stoppen, variiert. Wenn der Teilnehmer iObj dreht, variiert die AD zwischen tObj und iObj im Laufe der Zeit, und schließlich wählt der Teilnehmer die aktuelle iObj-Ausrichtung aus, die tObj am nächsten kommt. In der 1. und 2. Aufgabe schienen beide Teilnehmer auf ähnliche Weise vorangeschritten zu sein, aber Teilnehmer 1 nahm sich halb so viel Zeit wie Teilnehmer 2. Und in der 3. Aufgabe hatte Teilnehmer 1 die Aufgabe bereits vor der 20-s-Marke gelöst und nahm immer wieder kleine Anpassungen vor, um iObj besser mit tObj abzugleichen. Abkürzung: AD = Winkeldisparität. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 5: AD mit Eye-Tracking-Daten. Entwicklung der Winkeldisparität in Kombination mit Eye-Tracker-Daten. (A) Winkeldisparität und Blickposition, die Entwicklung der Winkeldisparität zwischen tObj und iObj, gekoppelt mit regionalen Fixationsdaten für jedes Modell. Das Diagramm zeigt, in welchem Bereich sich der Blick des Teilnehmers befindet: rot, wenn er sich innerhalb der iObj-Leinwand befindet, blau, wenn er sich innerhalb der tObj-Leinwand befindet, und grau, wenn er außerhalb beider Elemente auf ein anderes Element auf dem Bildschirm schaut oder von ihm wegschaut. (B) Winkeldisparität und Pupillendurchmesser. Winkeldisparität, in blau, gekoppelt mit Daten des Pupillendurchmessers, in orange. Der Pupillendurchmesser ist der Mittelwert der linken und rechten Pupille zu jedem Zeitpunkt. Abkürzung: AD = Winkeldisparität. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 6: Ball der Rotationen. Diese Abbildung zeigt, wie jede mögliche Rotationsposition eines Objekts von einer Referenzposition aus als Punkt in einer Kugel mit einem Radius von 180° dargestellt werden kann, was eine vollständige Darstellung der Rotationsposition des Objekts in allen drei Achsen ermöglicht. Unter einer Kugel versteht man dabei das Volumen, das von einer Kugel begrenzt wird. (A) Das als Beispiel verwendete Objekt ist eine asymmetrische Vereinigung von sieben Würfeln, die oben links dargestellt ist. Drei einfache Drehungen mit den Nummern I, II und III werden auf dieses Objekt angewendet, wie rechts gezeigt. Sie betragen +90° auf der x-Achse, -60° auf der z-Achse und 180° auf einer Achse zwischen +x und -y, bei 45° von beiden Achsen. (B) Der Drehball wird mit den Punkten dargestellt, die den Umdrehungen I, II und III entsprechen. Der Abstand zur Mitte des Balls ist die Winkeldisparität. Da III den maximalen Drehwinkel (180°) erreicht, wird er auch an seinem Antipodenpunkt dargestellt, da sie im Wesentlichen gleich sind. Die Drehung II, die gegen den Uhrzeigersinn in Bezug auf die positive Richtung der Achse z verläuft, erscheint auf der negativen Seite. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 7: 3D-Rotationstrajektorie. Die Rotationsbahn innerhalb der Kugel der Rotationen, die von den beiden Teilnehmern der dritten Aufgabe ausgeführt wurden, sowohl perspektivisch (A) als auch in Projektionen auf den Koordinatenebenen (B-D). Die Linienstärke nimmt mit der Zeit ab. Jede Spalte entspricht einem Teilnehmer (v1 und v2). Je näher sich die Flugbahnen der Mitte des Balls nähern, desto näher kommen die Teilnehmer der Lösung der Aufgabe. '0' gibt die Ausgangsposition der Aufgabe an. Die folgenden Zahlen geben Punkte an, an denen die Flugbahn den Rand des Balls erreicht und sich durch den Antipodenpunkt auf der gegenüberliegenden Seite fortsetzt (1 zu 2, 2 zu 3, 3 zu 4 usw.). Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Ergänzende Tabelle S1: Blattüberschriften. Liste der Kopfzeilen in der geklonten Blattdatei. Jeder Header entspricht einem Variablennamen und erhält Daten aus dieser Variablen, die eine Spalte mit Werten bilden, die bei der Verarbeitung und Analyse unserer Daten verwendet werden. Bitte klicken Sie hier, um diese Datei herunterzuladen.
Ergänzende Datei 1: Anleitung für Protokollschritt 1. Eine Liste von Screenshots, die durch die Schritte der Protokollmethode "1. Vorbereitung von Datenerhebungsinstrumenten". Bitte klicken Sie hier, um diese Datei herunterzuladen.
Ergänzende Datei 2: Anleitung für Protokollschritt 3. Eine Liste von Screenshots, die durch die Schritte der Protokollmethode "3. Datenverarbeitung und -analyse". Bitte klicken Sie hier, um diese Datei herunterzuladen.
Ergänzendes Video 1: Wiederholung des Fixationsmappings. Ein Beispiel für animierte Wiederholungen des temporalen Aufmerksamkeitsmappings in 3D von iObj und tObj gleichzeitig. Aufgenommen mit OBS Studios und gerendert mit OpenShot Video Editor. Bitte klicken Sie hier, um diese Datei herunterzuladen.
Wie bereits erwähnt, zielt dieses Papier darauf ab, ein detailliertes Verfahren zur Echtzeit-Kartierung von Fixations- und Sakkadenbewegungsdaten auf interaktiven 3D-Objekten vorzustellen, das leicht anpassbar ist und nur kostenlos verfügbare Software verwendet und Schritt-für-Schritt-Anweisungen bietet, damit alles funktioniert.
Während dieser Versuchsaufbau eine hochgradig interaktive Aufgabe beinhaltete, wie z. B. das Verschieben eines 3D-Objekts, um die Ausrichtung eines anderen Objekts mit PR in zwei der drei möglichen Achsen abzugleichen, stellten wir eine gründliche Dokumentation unserer Skripte durch angemessene Kommentare sicher, um jede Anpassung zu erleichtern. Es können verschiedene andere Arten von Experimenten konzipiert werden, wobei das Eye-Tracking-Gerät nur eines von vielen anderen möglichen Geräten ist, die für die zeitliche Datenerfassung verwendet werden.
Die Header in der kopierten Datei aus Schritt 1.1.3.3 definieren den Inhalt und den Ort, an dem die Daten online gesammelt werden. Die ergänzende Tabelle S1 listet die Variablennamen (alle unter Berücksichtigung der Groß- und Kleinschreibung) und ihre Bedeutung auf. Diese Variablen spiegeln die Variablen wider, die in den JavaScript-Dateien im GitHub-Repository zu finden sind. Die Art und Vielfalt der Daten und Variablennamen, sowohl aus diesem Blatt als auch aus den JavaScript-Dateien, sollten entsprechend dem Umfang und den Anforderungen der Forschung geändert werden.
Die Aufzeichnung der Rotationsdaten in Quaternionen ermöglicht es dem Forscher, die gleichen Bewegungen der Teilnehmer während der Aufgaben zu reproduzieren, was eine Analyse des Prozesses erleichtert und den Speicherplatz im Vergleich zu einer Bildschirmaufnahme viel effizienter nutzt. Detailliertere Analysen, wie z. B. die 3D-Rotationstrajektorie, die in Abbildung 7 mit dem Rotationsball gezeigt wird, sind nur durch die internen Quaternionendaten der interaktiven Objekte möglich. Dieser neue Diagrammtyp, der von Gardony22 und Adams23 aus dem AD-Diagramm im Zeitverlauf erweitert wurde, liefert detailliertere Informationen mit den tatsächlichen 3D-Rotationskoordinaten in der Zeit.
Ein weiterer Vorteil ergibt sich aus der Verwendung eines Standardzeitmaßes zur Synchronisierung aller Datenquellen. Das Zusammenführen verschiedener Schichten zeitabhängiger Informationen damit wird viel einfacher, wie z.B. das Überlagern von Graphen mit mehreren Datenquellen, wie in Abbildung 5B mit der Pupillenerweiterungsmessung, oder in Abbildung 5A mit farbigen vertikalen Bändern, die mögliche Muster im Lösungsprozess der Teilnehmer anzeigen, auch wenn in iObj fast keine Rotation stattfand. Die in Abbildung 3 gezeigte 3D-Fixations-Heatmap ist nur sowohl aus Quaternionendaten als auch aus der Datensynchronisation möglich.
Es ist wichtig, die Synchronisation durch ein Standardzeitmaß zu verwenden, um eine Integration von Zeitdaten zu gewährleisten. Der für unser Projekt gewählte Zeitstandard war die UNIX Epoche, die in JavaScript und den meisten anderen Programmiersprachen verwendet wird. Für jeden Datensatz muss ein Typ bekannter Zeitstandard verwendet werden, auch wenn ein anderer Standard verwendet wird, der später in UNIX Epoch konvertiert werden kann. Zeitliche Daten, die keine Standards verwenden, werden mit Sicherheit nicht synchronisiert werden können und ihre Nützlichkeit verlieren.
Eine weitere Einschränkung ist die relativ niedrige Frequenz von 10 Hz, die in den iRT-Tests im Verhältnis zur Eyetracker-Frequenz von 60 Hz verwendet wurde. Dies geschieht zum Teil aufgrund von Einschränkungen bei der Datenverarbeitung und -übertragung innerhalb des Browsers, da jede höhere Frequenz das maximale Zeitlimit jeder Aufgabe, das derzeit bei 327 s liegt, proportional reduzieren würde. Darüber hinaus stellte das reibungslose Rendern komplexer Animationen in Jmol bei dieser Framerate bereits eine Herausforderung dar. Ergänzendes Video S1 ist eine Videoaufzeichnung von Jmol, die eine Wiedergabe mit der Änderung der Deckkraft in der Zeit rendert und die Fokusstärke jedes empfangenen Vertex abbildet. Während die Videodauer fast 2 Minuten beträgt, wurde die eigentliche Aufgabe in 63 s erledigt. Zukünftige Softwareentwicklungen, die speziell auf solche Funktionalitäten zugeschnitten sind, anstatt bestehende anzupassen, könnten diese Einschränkungen beseitigen und die Datenerfassungs- und Analysefähigkeiten verbessern.
Die Autoren haben keine Interessenkonflikte offenzulegen.
Die Autoren danken der Coordination for the Improvement of Higher Education Personnel (CAPES) - Finance Code 001 und der Federal University of ABC (UFABC). João R. Sato erhielt finanzielle Unterstützung von der Forschungsstiftung von São Paulo (FAPESP, Stipendien Nr. 2018/21934-5, 2018/04654-9 und 2023/02538-0).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Firefox | Mozilla Foundation (Open Source) | Jeder aktualisierte moderne Browser, der mit WebGL (https://caniuse.com/webgl) und wiederum mit Jmol kompatibel ist, kann verwendet werden | |
| GNU Octave | Open Source | https://octave.org/ | |
| Google Apps Script | Google LLC | script.google.com | |
| Google Sheets | Google LLC | https://www.google.com/sheets/about/ | |
| Laptop | Jeder Computer, auf dem die Software des Eye-Tracking-Systems ausgeführt werden kann. | ||
| Mangold Software Suite | Mangold | Softwareschnittstelle, die für das Eye-Tracking-Gerät verwendet wird. Jede Software, die die Daten mit Systemzeitwerten ausgibt, kann verwendet werden. | |
| Maus | Jede Maus, die mit einfachen Bewegungen klicken und ziehen kann, sollte kompatibel sein. Menschliche Schnittstellen, die einer Maus mit den gleichen Funktionen entsprechen, wie z. B. ein Touchscreen oder ein Zeiger, sollten kompatibel sein, können sich aber unterschiedlich verhalten. | ||
| VT3mini | EyeTech Digitale Systeme | 60 Hz. Jedes funktionierende Eye-Tracking-Gerät sollte kompatibel sein. |
Request permission to reuse the text or figures of this JoVE article
Request Permission