Opracowaliśmy prostą, konfigurowalną i efektywną metodę rejestrowania ilościowych danych procesowych z interaktywnych zadań przestrzennych i mapowania tych danych rotacji za pomocą danych śledzenia wzroku.
Method Article
Opracowaliśmy prostą, konfigurowalną i efektywną metodę rejestrowania ilościowych danych procesowych z interaktywnych zadań przestrzennych i mapowania tych danych rotacji za pomocą danych śledzenia wzroku.
Prezentujemy metodę rejestrowania interakcji człowieka z trójwymiarowymi (3D) wirtualnymi obiektami w czasie rzeczywistym. Podejście to polega na powiązaniu danych o rotacji manipulowanego obiektu z pomiarami behawioralnymi, takimi jak śledzenie ruchu gałek ocznych, w celu uzyskania lepszych wniosków na temat leżących u podstaw procesów poznawczych.
Zadanie polega na wyświetleniu dwóch identycznych modeli tego samego obiektu 3D (cząsteczki), prezentowanych na ekranie komputera: obracającego się, interaktywnego obiektu (iObj) i statycznego, docelowego obiektu (tObj). Uczestnicy muszą obracać iObj za pomocą myszy, dopóki nie uznają, że jego orientacja jest identyczna z tObj. Komputer śledzi wszystkie dane dotyczące interakcji w czasie rzeczywistym. Dane dotyczące spojrzenia uczestnika są również rejestrowane za pomocą urządzenia do śledzenia ruchu gałek ocznych. Częstotliwość pomiaru wynosi 10 Hz na komputerze i 60 Hz na monitorze ruchu gałek ocznych.
Dane dotyczące orientacji iObj względem tObj są zapisywane w kwaternionach rotacji. Dane spojrzenia są synchronizowane z orientacją iObj i przywoływane za pomocą tego samego systemu. Metoda ta pozwala na uzyskanie następujących wizualizacji procesu interakcji człowieka z iObj i tObj: (1) rozbieżność kątowa zsynchronizowana z innymi danymi zależnymi od czasu; (2) Trajektoria rotacji 3D wewnątrz tego, co zdecydowaliśmy się nazwać "kulą obrotów"; (3) Mapa cieplna fiksacji 3D. Wszystkie kroki protokołu korzystały z wolnego oprogramowania, takiego jak GNU Octave i Jmol, a wszystkie skrypty są dostępne jako materiał dodatkowy.
Dzięki takiemu podejściu, możemy przeprowadzić szczegółowe badania ilościowe procesu rozwiązywania zadań obejmującego rotacje mentalne lub fizyczne, a nie tylko osiągnięty wynik. Możliwe jest dokładne zmierzenie, jak ważna jest każda część modeli 3D dla uczestnika w rozwiązywaniu zadań, a tym samym odniesienie modeli do odpowiednich zmiennych, takich jak charakterystyka obiektów, zdolności poznawcze osób oraz charakterystyka interfejsu człowiek-maszyna.
Rotacja mentalna (MR) to zdolność poznawcza, która umożliwia jednostkom mentalne manipulowanie i obracanie obiektów, ułatwiając lepsze zrozumienie ich cech i relacji przestrzennych. Jest to jedna ze zdolności wzrokowo-przestrzennych, podstawowa grupa poznawcza, która była badana już w 1890 roku1. Zdolności wzrokowo-przestrzenne są ważnym składnikiem repertuaru poznawczego jednostki, na który wpływają zarówno czynniki dziedziczone, jak i środowiskowe2,3,4,5. Zainteresowanie zdolnościami wzrokowo-przestrzennymi wzrosło w XX wieku ze względu na coraz liczniejsze dowody na ich znaczenie w kluczowych dziedzinach, takich jak starzenie się6 i rozwój7, wyniki w naukach ścisłych, technologii, inżynierii i matematyce (STEM)8,9, creativity10 oraz cechy ewolucyjne11.
Współczesna idea MR wywodzi się z pionierskiej pracy opublikowanej przez Sheparda i Metzlera (SM) w 1971 roku12. Opracowali oni metodę chronometryczną wykorzystującą serię "takich samych lub różnych" zadań, prezentując dwie projekcje abstrakcyjnych obiektów 3D wyświetlanych obok siebie. Uczestnicy musieli w myślach obrócić obiekty wokół jakiejś osi i zdecydować, czy te projekcje przedstawiały ten sam obiekt obrócony inaczej, czy też odrębne obiekty. Badanie wykazało dodatnią korelację liniową między czasem odpowiedzi (RT) a rozbieżnością kątową (AD) między reprezentacjami tego samego obiektu. Ta korelacja jest znana jako efekt rozbieżności kątów (ADE). ADE jest uważane za behawioralną manifestację MR i stało się wszechobecne w kilku wpływowych późniejszych badaniach w tej dziedzinie13,14,15,16,17,18,19,20,21, 22,23,24,25. Obiekty 3D wykorzystane w badaniu SM składały się z 10 sąsiadujących ze sobą sześcianów wygenerowanych przez pioniera grafów komputerowych Michaela Nolla z Bell Laboratories26. Są one określane jako figury SM i są szeroko stosowane w badaniach MR.
Dwa postępy były bardzo ważne w przełomowej pracy Sheparda i Metzlera; po pierwsze, biorąc pod uwagę wkład w dziedzinie oceny MR. W 1978 roku Vanderberg i Kuze27 opracowali psychometryczny 20-punktowy test ołówkiem i papierem oparty na "tych samych lub różnych" figurach SM, który stał się znany jako test rotacji mentalnej (VKMRT). Każdy element testowy przedstawia bodziec docelowy. Uczestnicy muszą wybrać spośród czterech bodźców, które reprezentują ten sam obiekt przedstawiony w bodźcu docelowym, a które nie. VKMRT został wykorzystany do zbadania korelacji między zdolnością MR a różnymi innymi czynnikami, takimi jak różnice związane z płcią6,21,24,28,29,30, starzenie się i development6,31,32, wyniki w nauce8,33, oraz umiejętności muzyczne i sportowe34. W 1995 roku Peters i in. opublikowali badanie z przerysowanymi rysunkami dla klasy VKMRT35,36. Podobnie, zgodnie z "tym samym lub innym" projektem zadania, wykorzystano wiele innych bibliotek bodźców generowanych komputerowo do badania procesów MR i oceny zdolności MR (wersje 3D oryginalnych bodźców SM 19,22,23,37,38, ludzkie ciało naśladujące postacie SM25,39,40, płaskie wielokąty do obrotu 2D41,42, anatomia i narządy43, kształty organiczne44, molekuły45,46, między innymi21). Test Wizualizacji Przestrzennej Purdue (PSVT) zaproponowany przez Guaya w 1976 roku47 jest również istotny. Pociąga to za sobą szereg testów, w tym MR (PSVT:R). Wykorzystując inne bodźce niż te w VKMRT, PSVT:R wymaga od uczestników zidentyfikowania operacji rotacji w bodźcu modelowym i mentalnego zastosowania jej do innego. PSVT:R jest również szeroko stosowany, szczególnie w badaniach badających rolę MR w osiągnięciach STEM48,49,50.
Drugim ważnym osiągnięciem w przełomowej pracy Sheparda i Metzlera jest wkład w zrozumienie procesu MR, w szczególności za pomocą urządzeń śledzących ruch gałek ocznych. W 1976 roku Just i Carpenter14 użyli analogowego sprzętu do śledzenia ruchu gałek ocznych opartego na wideo, aby przeprowadzić badanie oparte na eksperymencie ADE Sheparda i Metzlera. Na podstawie wyników badań nad sakkadowymi ruchami gałek ocznych i RT zaproponowali model procesów MR składający się z trzech faz: 1) fazy poszukiwania, w której rozpoznawane są podobne części figur; 2) faza transformacji i porównania, w której jedna ze zidentyfikowanych części zostaje mentalnie obrócona; 3) faza potwierdzenia, w której podejmuje się decyzję, czy liczby są takie same, czy nie. Fazy są powtarzane rekurencyjnie, aż będzie można podjąć decyzję. Każdy krok odpowiada specyficznym sakkadowym i fiksacyjnym wzorcom ruchu gałek ocznych w ścisłym związku z obserwowanymi ADE. W ten sposób, korelując aktywność oczu z danymi chronometrycznymi, Just i Carpenter dostarczyli sygnaturę kognitywną do badania procesów MR. Do tej pory model ten, choć z adaptacjami, został przyjęty w kilku badaniach15,42,46,51,52,53.
Podążając tą ścieżką, kilka kolejnych badań monitorujących zachowanie18,19,22,23,25,34,40,54,55 i aktywność mózgu20,22,56,57 funkcji podczas rotacji bodźców. Ich odkrycia wskazują na kooperatywną rolę między rezonansem magnetycznym a procesami motorycznymi. Co więcej, rośnie zainteresowanie badaniem strategii rozwiązywania problemów z udziałem MR w odniesieniu do różnic indywidualnych 15,41,46,51,58.
Ogólnie rzecz biorąc, można uznać, że projekt badań mających na celu zrozumienie procesów MR opiera się na przedstawieniu zadania za pomocą bodźców wizualnych, które wymagają od uczestników wykonania operacji MR, która z kolei pociąga za sobą reakcję motoryczną. Jeśli ta reakcja pozwala na rotację bodźców, często nazywa się to rotacją fizyczną (PR). W zależności od szczegółowych celów każdego badania, do pozyskiwania i analizy danych MR i PR zastosowano różne strategie i urządzenia. Na etapie prezentacji bodźca zadaniowego możliwa jest zmiana rodzajów bodźców (tj. wcześniej przytoczonych przykładów); Projekcja (obrazy generowane komputerowo na tradycyjnych wyświetlaczach22,23,25,29,40,41,59, a także w stereoscopes19 i virtual60 i mixed43 środowiska rzeczywistości); oraz interaktywność bodźców (obrazy statyczne12,27,36, animacje61, oraz interaktywne obiekty wirtualne19,22,23,43,53,59).
MR jest zwykle wnioskowane na podstawie pomiarów RTs (ADE), a także aktywności oczu i mózgu25,46,62. Aktywność oka jest mierzona za pomocą danych śledzenia wzroku składających się z ruchów sakkadowych i fiksacji14,15,42,51,52,54,58,60, a także pupillometry40. Dane RT zazwyczaj pochodzą z danych reakcji silnika zarejestrowanych podczas obsługi różnych urządzeń, takich jak dźwignie13, przyciski i przełączniki14,53, pedals53, pokrętła19, joysticks37, keyboard61 i mouse29,58,60, koła napędowe53, czujniki bezwładnościowe22,23, ekrany dotykowe52,59, oraz mikrofony22. Aby zmierzyć PR, oprócz RT, projekt badania będzie również obejmował rejestrowanie ręcznych rotacji interaktywnych bodźców podczas wykonywania przez uczestników zadania MR 22,23,52,53.
W 1998 roku Wohlschläger i Wohlschläger19 używali "tych samych lub różnych" zadań z interaktywnymi wirtualnymi bodźcami SM manipulowanymi za pomocą pokrętła, z obrotami ograniczonymi do jednej osi na zadanie. Zmierzyli RT i skumulowany zapis fizycznych rotacji wykonanych podczas zadań. Porównując sytuacje z rzeczywistą rotacją interaktywnych bodźców i bez niej, doszli do wniosku, że MR i PR mają wspólny proces zarówno dla wyobrażonych, jak i faktycznie wykonywanych rotacji.
W 2014 roku przeprowadzono dwa badania wykorzystujące ten sam typ zadań z wirtualnymi interaktywnymi bodźcami22,23. Obiektami manipulowano jednak za pomocą czujników inercyjnych, które rejestrowały ruch w przestrzeni 3D. W obu przypadkach, oprócz RT, zarejestrowano trajektorie rotacji – ewolucję różnic rotacyjnych między bodźcami referencyjnymi a interaktywnymi podczas zadań. Z tych trajektorii możliwe było wydobycie zarówno informacji skumulowanych (tj. całkowitej liczby obrotów w jednostkach czwartorzędowych), jak i szczegółowych informacji o strategiach rozwiązań. Adams i wsp.23 badali efekt współpracy między MR i PR. Oprócz RT wykorzystali całkę trajektorii rotacji jako parametr dokładności i obiektywności rozdzielczości. Profile krzywych zostały zinterpretowane zgodnie z trzyetapowym modelem63 (planowanie, główny obrót, dokładna regulacja). Wyniki wskazują, że MR i PR niekoniecznie mają jeden, wspólny czynnik. Gardony et al.22 zebrali dane na temat RT, dokładności i rotacji w czasie rzeczywistym. Oprócz potwierdzenia związku między MR i PR, analiza trajektorii rotacji ujawniła, że uczestnicy manipulowali liczbami, dopóki nie byli w stanie określić, czy są one różne, czy nie. Jeśli były takie same, uczestnicy obracali je, aż wyglądały tak samo.
Kontynuując tę strategię, w 2018 roku Wetzel i Bertel52 również wykorzystali interaktywne figurki SM w "tych samych lub różnych" zadaniach, używając tabletów z ekranem dotykowym jako interfejsu. Ponadto wykorzystali urządzenie śledzące ruch gałek ocznych, aby uzyskać skumulowane dane na temat czasu fiksacji i amplitudy sakkady jako parametrów obciążenia poznawczego związanego z rozwiązywaniem zadań MR. Autorzy potwierdzili wcześniejsze badania omówione powyżej dotyczące relacji między MR i PR a procesami rozwiązywania zadań. Jednak w tym badaniu nie wykorzystali mapowania fiksacji i danych sakkad dla bodźców.
Metodologiczne podejścia do mapowania danych śledzenia wzroku na wirtualnych obiektach 3D zostały zaproponowane i stale ulepszane, zwykle przez badaczy zainteresowanych badaniem czynników związanych z uwagą wzrokową w środowiskach wirtualnych64. Chociaż są one przystępne cenowo i wykorzystują podobne urządzenia do śledzenia ruchu gałek ocznych, najwyraźniej metody te nie zostały skutecznie zintegrowane z repertuarem eksperymentalnym stosowanym w badaniach rotacji umysłowej z interaktywnymi obiektami 3D, takimi jak te wcześniej wspomniane. Z drugiej strony, nie znaleźliśmy żadnych badań w literaturze opisujących mapowanie w czasie rzeczywistym danych dotyczących ruchu fiksacji i sakad na interaktywnych obiektach 3D. Wydaje się, że nie ma wygodnej metody łatwej integracji danych o aktywności oczu z trajektoriami rotacji. W tym badaniu staramy się przyczynić do wypełnienia tej luki. Procedura jest szczegółowo przedstawiona, od akwizycji danych do graficznego generowania danych wyjściowych.
W tym artykule szczegółowo opisujemy metodę badania procesów rotacji mentalnej za pomocą wirtualnych interaktywnych obiektów 3D. Podkreślono następujące postępy. Po pierwsze, integruje ilościowy silnik behawioralny (ręczne obracanie obiektów za pomocą interfejsu komputerowego) i gromadzenie danych ocznych (śledzenie oczu) podczas sesji interakcji z wirtualnymi modelami 3D. Po drugie, wymaga jedynie konwencjonalnego sprzętu komputerowego i urządzeń śledzących ruch gałek ocznych do wizualnego projektowania zadań, akwizycji, nagrywania i przetwarzania danych. Po trzecie, z łatwością generuje dane graficzne, aby ułatwić analizę danych - rozbieżności kątowych, rotacji fizycznej, trajektorii rotacji czwartorzędowej i mapowania trafień danych śledzenia wzroku nad wirtualnymi obiektami 3D. Wreszcie, metoda wymaga tylko wolnego oprogramowania. Cały opracowany kod i skrypty są dostępne bezpłatnie (https://github.com/rodrigocnstest/rodrigocnstest.github.io).
1. Przygotowanie narzędzi do zbierania danych
2. Zbieranie danych
3. Przetwarzanie i analiza danych
4. Personalizacja zadań
UWAGA: Cała ta sekcja jest opcjonalna i zalecana tylko dla tych, którzy lubią eksperymentować lub rozumieją, jak kodować. Poniżej znajdziesz niektóre z wielu dostępnych opcji, które można dostosować, a więcej opcji stanie się dostępnych w miarę dalszego rozwoju metod.
Ewolucja rozbieżności kątowej i innych zmiennych
Jak pokazano w kroku 3.3.1 w pliku uzupełniającym 2, na ekranie monitora wideo prezentowane są uczestnikowi dwa płótna, na których wyświetlane są kopie tego samego wirtualnego obiektu 3D w różnych orientacjach. Na lewym płótnie obiekt docelowy (tObj) pozostaje statyczny i służy jako pozycja docelowa lub pozycja tObj. Na prawym płótnie interaktywny obiekt (iObj) jest pokazany w innej pozycji i pozwala uczestnikowi przesuwać go w czasie wokół ustalonego środka obrotu za pomocą myszy (tylko obroty; translacje są wyłączone). Zadanie polega na dostosowaniu iObj tak, aby ściśle odpowiadał tObj w oparciu o ocenę uczestnika. Trzy użyte obiekty 3D można zobaczyć w Rysunek 1. Proces rozwiązywania, choć złożony, może być skrupulatnie rejestrowany w celu późniejszej analizy. To nagranie wykracza poza zwykły materiał wideo, ponieważ każda pozycja w czasie jest rejestrowana w stałych odstępach 0,1 s jako kwaternion, tworząc szereg czasowy, który umożliwia pełną rekonstrukcję całego procesu. W każdej pozycji występuje unikalny obrót wokół określonej osi, w zakresie od 0° do 180°, który bezpośrednio przekształca pozycję tObj w pozycję iObj. Chociaż ta rotacja jest abstrakcyjna i niezwiązana z PR uczestnika podczas zadania, dokładnie wskazuje dokładną pozycję iObj względem tObj. AD jest kątem tego obrotu i może być obliczony z odpowiedniego kwaternionu. Gdy pozycja iObj zbliża się do pozycji tObj, wartość ta zbliża się do zera.
Po kroku 3.1.6 sekcji Przetwarzanie i analiza danych, zostały utworzone dwa pliki: output merge X Y.xlsx i output jmol console X Y.xlsx, gdzie X to wartość sessionID, a Y to wartość taskID. W przypadku korzystania z wartości domyślnych przez pozostawienie pustych pól wejściowych pliki powinny mieć nazwy wyjściowe scalanie 1682707472090 bolaBastao_c.xlsx i wyjściowe jmol console 1682707472090 bolaBastao_c.xlsx. Wyjściowe scalanie plików X Y.xlsx zawiera wybrane dane śledzenia ruchu gałek ocznych scalone z danymi iRT, wyrównane według czasu epoki UNIX, podobnie jak Rysunek 2A, jeśli wszystko przebiegło poprawnie, lub Rysunek 2B, jeśli wystąpił jakiś problem.
Wyjściowe pliki konsoli jmol X Y.xlsx zawierają do pięciu zakładek wypełnionych poleceniami konsoli Jmol, które po wklejeniu do konsoli Jmol odtworzą ruchy uczestnika podczas rozwiązywania zadania: powtórka obrotu odtwarza obroty iObj wykonane przez uczestnika; gaze replay int odtwarza obroty iObj z dodaną mapą termiczną fiksacji na obiekcie w czasie przy użyciu skali przezroczystości/nieprzezroczystości; powtórka spojrzenia tgt pokazuje tylko mapę cieplną fiksacji 3D tObj podczas zadania; ramka spojrzenia INT i ramka spojrzenia TGT pokazują ogólne mapowanie fiksacji całego procesu zarówno dla iObj, jak i tObj. Wszystkie z nich są zilustrowane w Rysunek 3A-F. Jmol i JSmol są zasadniczo identyczne, Jmol jest wtyczką opartą na języku programowania Java, a JSmol w języku programowania JavaScript, oba mają te same funkcje i są używane zamiennie.
Rysunek 4 ilustruje ewolucję rozbieżności kątowej w funkcji czasu dla sześciu różnych scenariuszy z udziałem dwóch uczestników i trzech obiektów. Czas trwania procesu może się znacznie różnić w zależności od wyników uczestnika z interaktywnym obiektem zadania. W każdym zadaniu wykonanym poprawnie przez uczestnika, AD dąży do zera na końcu. Jeśli ten sam wykres nie pokazuje tego zachowania, oznacza to, że uczestnik nie był w stanie ukończyć zadania, ponieważ zrezygnował lub osiągnął limit czasu na zadanie (około 5 minut), albo wystąpił błąd w przetwarzaniu danych.
Połączone wyniki rekordów PR iObj i dane uzyskane z pomiarów eye-trackingowych są pokazane w Rysunek 5. Zmienność rozbieżności kątowej między obiektami docelowymi a inercyjnymi w funkcji czasu wskazuje na trzy odrębne etapy w procesie rozwiązywania zadanego zadania: wstępna obserwacja modeli; rotacja balistyczna modelu interaktywnego; Dostrajanie obrotu modelu interaktywnego. Rysunek 5A pokazuje wzrok na przemian między modelami w początkowej fazie, a dokładniej w fazie dostrajania. Rysunek 5B pokazuje, że źrenica pozostaje bardziej rozszerzona w początkowej fazie i dostrajaniu. W fazie dostrajania długi okres fiksacji na modelu interaktywnym (40-47 s w Rysunek 5A) odpowiada plateau średnicy źrenicy (40-47 s, Rysunek 5B).
Te wyniki sugerują, że dane uzyskane za pomocą proponowanej tutaj metody są zgodne z modelem rozwiązywania problemów rotacji mentalnej zaproponowanym na podstawie danych o koncentracji wzroku dla modeli statycznych14,66 i dla modeli interaktywnych23. Taki model obejmowałby trzy etapy: wyszukiwanie, przekształcanie i porównywanie oraz potwierdzanie zgodności lub niezgodności między modelami. Ponadto naprzemienność fiksacji między modelem docelowym a interaktywnym na etapach porównania obserwowana w Rysunek 5A jest zgodna z wynikami uzyskanymi w testach typu Sheppard i Metzler, które wykorzystują obrazy statyczne42,66. Jednak w przypadku modeli interaktywnych jest prawdopodobne, że te etapy wyszukiwania, transformacji, porównywania i potwierdzania następują kolejno poprzez interakcję i repozycjonowanie interaktywnego modelu.
Trajektorie rotacji 3D
Każdy obrót w przestrzeni 3D od 0° do 180° może być przesunięty na punkt wewnątrz kuli (który jest rozumiany jako objętość wewnątrz kuli) o promieniu równym 180°. Rysunek 6 pokazuje tę zgodność z trzema przykładowymi obrotami. Odległość punktu do środka piłki to rozbieżność kąta iObj od pozycji tObj, a wektor wskazujący od środka piłki do punktu to kierunek obrotu, przy czym obrót jest wykonywany w sensie zgodnym z ruchem wskazówek zegara, patrząc ze środka. To przełożenie obrotów na punkty w piłce pozwala komuś bezpośrednio zwizualizować, na jednym rysunku 3D, całą trajektorię obrotów wykonanych przez uczestnika w zadaniu. Nazywamy to rysowaniem trajektorii obrotu 3D.
Analogicznie do miary AD, dla każdego zadania poprawnie wykonanego przez uczestnika, trajektoria powinna zbliżać się, w końcu, do środka piłki. Jeśli trajektoria osiągnie granicę kuli przy obrocie o 180°, owinie się wokół punktu antypodalnego na kuli. Rysunek 7 ilustruje trajektorię obrotu obraną przez dwóch wcześniej wymienionych uczestników wykonujących trzecie zadanie (C1 i C2 w Rysunek 4), oglądaną zarówno w perspektywie, jak i w rzutach na trzy płaszczyzny współrzędnych. Z rysunku jasno wynika, że pomimo stosunkowo niewielkiego początkowego AD bliskiego 45°, uczestnik 1 początkowo zboczył z pozycji docelowej, zanim znalazł ostateczną drogę do rozwiązania, w przeciwieństwie do uczestnika 2, który wykonał zadanie szybciej.
Mapa termiczna 3D Fixation
Podczas procesu rozwiązywania problemów uczestnik naprzemiennie przenosi wzrok między tObj i iObj podczas interakcji z iObj. Dzięki danym ze śledzenia wzroku możemy wyodrębnić pozycję wzroku uczestnika i stworzyć mapę cieplną regionów ekranu, które przyciągnęły najwięcej i najmniej uwagi uczestnika w danym interwale. Idąc dalej, dzięki zsynchronizowanym danym kwaternionów zarówno ze śledzenia ruchu gałek ocznych, jak i kwaternionów iRT, możemy jednocześnie mapować w przestrzeni 3D i w czasie, ile uwagi poświęca się każdemu z wierzchołków obiektu, nawet w przypadku obiektów obracanych w czasie.
W Rysunek 3, uwaga poświęcona obiektowi jest reprezentowana przez poziom krycia każdego wierzchołka. Im bliżej jest wzroku uczestnika i im dłużej pozostaje w pobliżu, tym więcej uwagi otrzymuje, co skutkuje większą nieprzezroczystością w tym obszarze obiektu. Przestrzenny spadek uwagi jest modelowany za pomocą dwuwymiarowej jednorodnej funkcji Gaussa dla pozycji spojrzenia i prostej jednorodnej funkcji Gaussa zastosowanej dla czasu, który upłynął. Odchylenie standardowe tych Gaussianów zostało wybrane przy założeniu kąta widzenia 2 stopnie67 oraz krótkotrwałej pamięci wizualnej 10 s68. Aby zapobiec wszelkim artefaktom wizualnym za pomocą tej metody, dane o bliskości spojrzenia są ustawiane na zero, gdy spojrzenie znajduje się poza płótnem obiektu (iObj nie otrzymuje żadnej szczątkowej uwagi, gdy spojrzenie znajduje się wewnątrz płótna tObj lub na zewnątrz obu). Rysunek 3 pokazuje pojedynczą klatkę z każdego obiektu z całej animacji odtwarzania i te same klatki z mapą termiczną fiksacji 3D. Możliwe porównanie tObj i iObj przez uczestnika podczas procesu rozwiązywania można zobaczyć (Rysunek 3C,D), gdy zadanie zbliża się do końca (czas = 6,3 s). Cały proces można zobaczyć w formie filmu w filmie uzupełniającym S1. Relacjonujemy wyniki komputerowego obracania modeli 3D przedstawionych uczestnikom jako zadanie wykonane w normalnych warunkach.

Rysunek 1: Użyte obiekty docelowe. Obraz modeli 3D używanych w zadaniach na stronie internetowej. (A) Cząsteczka z reprezentacją kuli i patyka; (B) Ta sama cząsteczka z wypełnionymi wielokątami, bez wodoru i reprezentowana tylko przez pałeczki; (C) wielosześcian podobny do jednej z figur Sheparda i Metzlera13, pochodzący z biblioteki bodźców Petersa i Battisty36. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 2: Porównanie arkuszy. (A,B) Obrazy pochodzą z 1682707472090 bolaBastao_c.xlsx scalania arkusza kalkulacyjnego. Kolumny od A do G zawierają wartości danych iRT, natomiast kolumny od H do N zawierają wartości danych śledzenia ruchu gałek ocznych. W (A) wszystko się zgadza, natomiast w (B) w kolumnach eye trackera wszystkie wartości są stałe i nie zgadzają się z wartościami czasu systemowego iRT. Jeśli wystąpi jakikolwiek problem z procesem synchronizacji danych, ten błąd prawdopodobnie wystąpi. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3: Mapa termiczna utrwalenia 3D. Mapa termiczna fiksacji na obiekcie 3D przy użyciu skali krycia, gdzie większa nieprzezroczystość koreluje z dłuższym czasem spędzonym w pobliżu wzroku uczestnika. (A,B) obrazy tObj i iObj przedstawiające zadanie rozwiązywane przez uczestnika po upływie 6,3 s. (C,D) Te same obrazy co (A,B) w tym samym momencie z dodaną skalą krycia mapy cieplnej. (E,F) Obrazy mapy cieplnej fiksacji uwzględniające cały okres, w którym uczestnik mógł zobaczyć obiekty. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 4: Siatka AD. Narysuj siatkę rozbieżności kątowej między dwoma uczestnikami i trzema zadaniami. Kolumny reprezentują uczestników 1 i 2, a wiersze reprezentują zadania rozwiązane przez uczestników za pomocą trzech obiektów zilustrowanych na Rysunek 3. Należy pamiętać, że chociaż AD waha się od 0° do 180°, zakres czasu nie jest stały i zmienia się w zależności od wyników uczestnika i jego własnej decyzji o zatrzymaniu procesu. Gdy uczestnik obraca iObj, AD między tObj i iObj zmienia się w miarę upływu czasu, aż w końcu uczestnik wybiera bieżącą orientację iObj jako najbliższą tObj. Wpierwszym i drugim zadaniu obaj uczestnicy wydawali się robić postępy w podobny sposób, ale uczestnik 1 zajmował o połowę mniej czasu niż uczestnik 2. A wtrzecim zadaniu, chociaż uczestnik 2 potrzebował mniej czasu na wykonanie zadania, uczestnik 1 rozwiązał zadanie przed upływem 20 sekund i dokonywał drobnych korekt, aby lepiej dopasować iObj do tObj. Skrót: AD = rozbieżność kątowa. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 5: AD z danymi śledzenia wzroku. Ewolucja rozbieżności kątowej w połączeniu z danymi z eye-trackerów. (A) Rozbieżność kątowa i pozycja spojrzenia, ewolucja rozbieżności kątowej między tObj i iObj, w połączeniu z danymi dotyczącymi fiksacji regionalnej dla każdego modelu. Wykres pokazuje, w jakim regionie znajduje się wzrok uczestnika: czerwony, gdy znajduje się na płótnie iObj, niebieski, gdy znajduje się na płótnie tObj i szary, gdy znajduje się na zewnątrz obu, patrząc na inny element na ekranie lub odwracając od niego wzrok. (B) Rozbieżność kątowa i średnica źrenicy. Rozbieżność kątowa, w kolorze niebieskim, w połączeniu z danymi o średnicy źrenicy, w kolorze pomarańczowym. Średnica źrenicy to średnia wartość lewej i prawej źrenicy w każdym momencie. Skrót: AD = rozbieżność kątowa. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 6: Kula obrotów. Rysunek ten ilustruje, w jaki sposób każda możliwa pozycja obrotu obiektu z pozycji odniesienia może być przedstawiona jako punkt w kuli o promieniu 180°, co pozwala na pełne odwzorowanie pozycji obrotu obiektu we wszystkich trzech osiach. Tutaj kula jest rozumiana jako objętość ograniczona kulą. (A) Obiekt użyty jako przykład to asymetryczny związek siedmiu sześcianów, przedstawiony na górze, po lewej stronie. Trzy proste obroty ponumerowane I, II i III są stosowane do tego obiektu, jak pokazano po prawej. Wynoszą one odpowiednio +90° na osi x, -60° na osi z i 180° na osi między +x a -y, w odległości 45° od obu osi. (B) Kula obrotu jest pokazana z punktami odpowiadającymi obrotom I, II i III. Odległość od środka piłki to różnica kątów. Ponieważ III osiąga maksymalny kąt obrotu (180°), jest również reprezentowany w swoim antypodalnym punkcie, ponieważ są one zasadniczo takie same. Obrót II, będący przeciwny do ruchu wskazówek zegara w stosunku do dodatniego kierunku osi z, pojawia się po stronie ujemnej. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 7: Trajektoria obrotu 3D. Trajektoria obrotu wewnątrz kuli obrotów wykonywanych przez dwóch uczestników trzeciego zadania, oglądana zarówno w perspektywie (A), jak i w rzutach na płaszczyzny współrzędnych (B-D). Grubość linii zmniejsza się z czasem. Każda kolumna odpowiada uczestnikowi (v1 i v2). Gdy trajektorie zbliżają się do środka piłki, uczestnicy są bliżej rozwiązania zadania. Wartość "0" oznacza początkową pozycję zadania. Kolejne liczby wskazują punkty, w których trajektoria dociera do krawędzi piłki i przechodzi przez punkt antypodalny po przeciwnej stronie (1 do 2, 2 do 3, 3 do 4 itd.). Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
Tabela uzupełniająca S1: Nagłówki arkuszy. Lista nagłówków w sklonowanym pliku arkusza. Każdy nagłówek odpowiada nazwie zmiennej i będzie otrzymywał dane z tej zmiennej tworzącej kolumnę wartości używanych w przetwarzaniu i analizie naszych danych. Kliknij tutaj, aby pobrać ten plik.
Plik uzupełniający 1: Przewodnik po kroku 1 protokołu. Lista zrzutów ekranu prowadzących przez kolejne kroki metody protokołu "1. Przygotowanie narzędzi do zbierania danych". Kliknij tutaj, aby pobrać ten plik.
Plik uzupełniający 2: Przewodnik po kroku 3 protokołu. Lista zrzutów ekranu prowadzących przez kolejne kroki metody protokołu "3. Przetwarzanie i analiza danych". Kliknij tutaj, aby pobrać ten plik.
Dodatkowe wideo 1: Powtórka mapowania fiksacji. Przykład animowanych powtórek czasowego mapowania uwagi w 3D z iObj i tObj jednocześnie. Nagrane przy użyciu OBS Studios i renderowane za pomocą edytora wideo OpenShot. Kliknij tutaj, aby pobrać ten plik.
Jak wspomniano wcześniej, niniejszy artykuł ma na celu przedstawienie szczegółowej procedury mapowania w czasie rzeczywistym danych ruchu fiksacji i sakad na interaktywnych obiektach 3D, która jest łatwo konfigurowalna i wykorzystuje tylko oprogramowanie dostępne za darmo, dostarczając instrukcje krok po kroku, aby wszystko działało.
Chociaż ta eksperymentalna konfiguracja obejmowała wysoce interaktywne zadanie, takie jak przesuwanie obiektu 3D w celu dopasowania orientacji innego obiektu do PR w dwóch z trzech możliwych osi, zadbaliśmy o dokładną dokumentację naszych skryptów poprzez odpowiednie komentarze, aby ułatwić wszelkie dostosowania. Można zaprojektować różne inne rodzaje eksperymentów, przy czym urządzenie śledzące ruch gałek ocznych jest tylko jednym z wielu innych możliwych urządzeń używanych do pozyskiwania danych czasowych.
Nagłówki w skopiowanym pliku z kroku 1.1.3.3 definiują zawartość i miejsce, w którym dane będą zbierane online. Tabela uzupełniająca S1 zawiera listę nazw zmiennych (we wszystkich rozróżniana jest wielkość liter) i ich znaczenie. Te zmienne odzwierciedlają zmienne znajdujące się w plikach JavaScript w repozytorium GitHub. Rodzaj i różnorodność danych oraz nazw zmiennych, zarówno z tego arkusza, jak i plików JavaScript, powinny być zmieniane zgodnie z zakresem i wymaganiami badania.
Zapis danych rotacyjnych w kwaternionach pozwala badaczowi odtworzyć te same ruchy wykonywane przez uczestników podczas zadań, ułatwiając analizę procesu i znacznie efektywniej wykorzystując przestrzeń dyskową w porównaniu ze zrzutem ekranu. Bardziej szczegółowa analiza, taka jak trajektoria obrotu 3D, pokazana na rysunku 7 przy użyciu kuli obrotów, jest możliwa tylko dzięki wewnętrznym danym kwaternionowym interaktywnych obiektów. Ten nowy typ wykresu, rozwijający się z wykresu AD w czasie przez Gardony22 i Adams23, dostarcza bardziej szczegółowych informacji, z rzeczywistymi współrzędnymi obrotu 3D w czasie.
Kolejną zaletą jest użycie standardowej miary czasu do synchronizacji wszystkich źródeł danych. Łączenie z tym różnych warstw informacji zależnych od czasu staje się znacznie łatwiejsze, na przykład nakładanie wykresów z wieloma źródłami danych, jak na rysunku 5B z pomiarem rozszerzenia źrenicy lub na rysunku 5A z kolorowymi pionowymi pasami, oznaczającymi możliwe wzorce w procesie rozwiązywania przez uczestników, nawet jeśli w iObj prawie nie zachodził obrót. Mapa cieplna fiksacji 3D pokazana na rysunku 3 jest możliwa tylko na podstawie danych kwaternionów i synchronizacji danych.
Bardzo ważne jest, aby korzystać z synchronizacji za pomocą standardowej miary czasu, aby zapewnić jakąkolwiek integrację danych czasowych. Standardem czasowym wybranym dla naszego projektu była epoka UNIX, która jest używana w JavaScript i większości innych języków programowania. Dla każdego zestawu danych musi być używany pewien typ znanego standardu czasu, nawet jeśli inny standard, który może być później przekonwertowany na epokę systemu UNIX. Dane czasowe, które nie korzystają z żadnych standardów, z całą pewnością nie będą w stanie się zsynchronizować i stracą swoją użyteczność.
Kolejnym ograniczeniem jest stosunkowo niska częstotliwość 10 Hz stosowana w testach iRT w stosunku do częstotliwości śledzenia ruchu gałek ocznych wynoszącej 60 Hz. Dzieje się tak częściowo z powodu ograniczeń w przetwarzaniu i przesyłaniu danych w przeglądarce, ponieważ każda wyższa częstotliwość proporcjonalnie skróciłaby maksymalny limit czasu każdego zadania, który obecnie wynosi 327 s. Dodatkowo, płynne renderowanie złożonych animacji w Jmol przy tej liczbie klatek na sekundę już stanowiło wyzwanie. Dodatkowe wideo S1 to nagranie wideo, na którym Jmol renderuje powtórkę ze zmianą krycia w czasie, odwzorowując stopień skupienia otrzymanego przez każdy wierzchołek. Podczas gdy czas trwania filmu wynosi prawie 2 minuty, rzeczywiste zadanie zostało wykonane w 63 s. Przyszłe prace nad oprogramowaniem, które skupiałyby się specjalnie na takich funkcjach, zamiast dostosowywać istniejące, mogłyby wyeliminować te ograniczenia i zwiększyć możliwości gromadzenia i analizy danych.
Autorzy nie mają do ujawnienia żadnych konfliktów interesów.
Autorzy są wdzięczni Koordynacji na rzecz Doskonalenia Kadr Szkolnictwa Wyższego (CAPES) - Kod Finansowy 001 oraz Uniwersytetowi Federalnemu ABC (UFABC). João R. Sato otrzymał wsparcie finansowe od Fundacji Badawczej São Paulo (FAPESP, granty nr 2018/21934-5, 2018/04654-9 i 2023/02538-0).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| Firefox | Mozilla Foundation (Open Source) | Każda zaktualizowana nowoczesna przeglądarka, która jest kompatybilna z WebGL (https://caniuse.com/webgl), a z kolei z Jmol, może być używana | |
| GNU Octave | Open Source | https://octave.org/ | |
| Google Apps Script | Google LLC | script.google.com | |
| Arkusze Google | LLC | https://www.google.com/sheets/about/ | |
| Laptop | Dowolny komputer, na którym można uruchomić oprogramowanie systemu śledzenia ruchu gałek ocznych. | ||
| Pakiet oprogramowania Mangold Mangold | Interfejs oprogramowania używany w urządzeniu śledzącym ruch gałek ocznych. Można użyć dowolnego oprogramowania, które wyprowadza dane z wartościami czasu systemowego. | ||
| Mysz | Każda mysz zdolna do klikania i przeciągania prostymi ruchami powinna być kompatybilna. Interfejsy człowieka analogiczne do myszy o tych samych możliwościach, takie jak ekran dotykowy lub wskaźnik, powinny być kompatybilne, ale mogą zachowywać się inaczej. | ||
| Vt3mini | cyfrowe EyeTech | 60 Hz. Każde działające urządzenie do śledzenia ruchu gałek ocznych powinno być kompatybilne. |
Request permission to reuse the text or figures of this JoVE article
Request Permission