Behavior

Una metodología para capturar la atención visual conjunta mediante rastreadores oculares móviles

Published: January 18, 2020 doi: 10.3791/60670

¹Learning, Innovation, and Technology Lab, Graduate School of Education, Harvard University

Summary

El uso de sensores multimodales es una forma prometedora de entender el papel de las interacciones sociales en entornos educativos. Este artículo describe una metodología para capturar la atención visual conjunta de los diques colocados utilizando rastreadores oculares móviles.

Abstract

Con la llegada de los nuevos avances tecnológicos, es posible estudiar las interacciones sociales a micronivel con una precisión sin precedentes. Los sensores de alta frecuencia, como los rastreadores oculares, las pulseras de actividad electrodérmica, las bandas EEG y los sensores de movimiento proporcionan observaciones a nivel de milisegundos. Este nivel de precisión permite a los investigadores recopilar grandes conjuntos de datos sobre las interacciones sociales. En este artículo, analizo cómo múltiples rastreadores oculares pueden capturar una construcción fundamental en las interacciones sociales, la atención visual conjunta (JVA). JVA ha sido estudiada por psicólogos del desarrollo para entender cómo los niños adquieren el lenguaje, aprender a los científicos para entender cómo los pequeños grupos de estudiantes trabajan juntos, y los científicos sociales para entender las interacciones en equipos pequeños. Este artículo describe una metodología para capturar JVA en entornos colocados utilizando rastreadores oculares móviles. Presenta algunos resultados empíricos y analiza las implicaciones de capturar microobservaciones para entender las interacciones sociales.

Introduction

JVA ha sido ampliamente estudiada durante el siglo pasado, especialmente por psicólogos del desarrollo que estudian la adquisición del lenguaje. Rápidamente se estableció que la atención conjunta es más que una forma de aprender palabras, sino más bien un precursor de las teorías infantiles de la mente¹. Por lo tanto, desempeña un papel importante en muchos procesos sociales, como comunicarse con otros, colaborar y desarrollar empatía. Los niños autistas, por ejemplo, carecen de la capacidad de coordinar su atención visual con sus cuidadores, lo que se asocia con impedimentos sociales significativos². Los seres humanos necesitan atención conjunta para convertirse en miembros funcionales de la sociedad, para coordinar sus acciones y para aprender de los demás. Desde los niños adquiriendo sus primeras palabras, adolescentes aprendiendo de maestros de escuela, estudiantes que colaboran en proyectos, y a grupos de adultos que trabajan hacia objetivos comunes, la atención conjunta es un mecanismo fundamental para establecer un terreno común entre las personas^3. En este artículo, me enfoco en el estudio de JVA en la investigación educativa. Entender cómo se desarrolla la atención conjunta con el tiempo es de importancia primordial para el estudio de los procesos de aprendizaje colaborativo. Como tal, desempeña un papel predominante en entornos socioconstructivistas.

La definición exacta de atención conjunta se sigue debatiendo⁴. Este documento se refiere a una subconstrucción de atención conjunta (JA), a saber, JVA. JVA ocurre cuando dos sujetos están mirando el mismo lugar al mismo tiempo. Cabe señalar que la JVA no proporciona ninguna información sobre otras construcciones importantes de interés en el estudio de la JA, como el monitoreo de la atención común, mutua y compartida, o más en general, la conciencia de la cognición de otro miembro del grupo. Este documento opera y simplifica la JVA combinando los datos de seguimiento ocular de dos participantes y analizando la frecuencia en la que alinean sus miradas. Para una discusión más completa, el lector interesado puede aprender más sobre el estudio de la construcción de JA en Siposovaet al.⁴.

En la última década, los avances tecnológicos han transformado radicalmente la investigación sobre JVA. El principal cambio de paradigma fue utilizar múltiples rastreadores oculares para obtener medidas cuantitativas de alineaciones atencionales, en lugar de analizar cualitativamente las grabaciones de vídeo en un entorno de laboratorio o ecológico. Este desarrollo ha permitido a los investigadores recopilar información precisa y detallada sobre la coordinación visual de los diápsidos. Además, los rastreadores oculares son cada vez más asequibles: hasta hace poco, su uso estaba reservado a entornos académicos o grandes corporaciones. Ahora es posible comprar rastreadores oculares económicos que generan conjuntos de datos confiables. Por último, la inclusión progresiva de las capacidades de seguimiento de la mirada en los dispositivos existentes, como los portátiles de gama alta y los auriculares de realidad virtual y aumentada, sugiere que el seguimiento ocular pronto se volverá omnipresente.

Debido a la popularización de los dispositivos de seguimiento ocular, es importante entender lo que pueden y no pueden decirnos acerca de las interacciones sociales. La metodología presentada en este documento marca un primer paso en esta dirección. Abordo dos desafíos en la captura de JVA de múltiples rastreadores oculares: sincronizar los datos en 1) la escala temporal y 2) en la escala espacial. Más específicamente, este protocolo hace uso de marcadores fiduciarios colocados en entornos del mundo real para informar a los algoritmos de visión por ordenador donde los participantes están orientando su mirada. Este nuevo tipo de metodología allana el camino para un análisis riguroso del comportamiento humano en grupos pequeños.

Este protocolo de investigación cumple con las directrices del comité de ética de la investigación humana de la Universidad de Harvard.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Examen de participantes

Asegúrese de que los participantes con visión normal o corregida a normal sean reclutados. Debido a que se les pedirá a los participantes que usen un rastreador de ojos móvil, pueden usar lentes de contacto, pero no anteojos regulares.

2. Preparación para el experimento

Dispositivos de seguimiento ocular
1. Utilice cualquier rastreador de ojos móvil capaz de capturar el movimiento de los ojos en entornos del mundo real.
  NOTA: Los rastreadores oculares móviles utilizados aquí fueron dos gafas Tobii Pro 2 (ver Tabla de Materiales). Además de cámaras especializadas que pueden rastrear los movimientos oculares, las gafas también están equipadas con una cámara de escena HD y un micrófono para que la mirada se pueda visualizar en el contexto del campo visual del usuario. Estas gafas capturan los datos de la mirada 50 veces por segundo. Otros investigadores han utilizado ASL Mobile Eye^5,SMI⁶o Pupil-labs^7,todos los cuales proporcionan secuencias de vídeo de la cámara de la escena y coordenadas de seguimiento ocular a diferentes velocidades de muestreo (30-120 Hz). El siguiente procedimiento puede variar ligeramente con otros dispositivos de seguimiento ocular.
Marcadores fiduciarios
1. Los dos pasos siguientes (es decir, alineaciones temporales y espaciales) requieren el uso de marcadores fiduciarios. Hay varias bibliotecas de visión por ordenador que proporcionan a los investigadores estos marcadores y algoritmos para detectarlos en una imagen o fuente de vídeo. El protocolo descrito utiliza la biblioteca Chilitag^8.
Alineación temporal
1. Dado que los datos de seguimiento ocular se registran en dos unidades independientes, asegúrese de que los datos estén correctamente sincronizados(figura 1). Se pueden utilizar dos métodos principales. Este manuscrito solo cubre el primer método, ya que la sincronización del servidor funciona de manera diferente con cada marca de rastreador de ojos móvil.
  1. Mostrar brevemente un marcador fiduciario en la pantalla de un ordenador para marcar el principio y el final de una sesión. Esto es similar a un "aplauso de mano" visual (Figura 2).
  2. Como alternativa, utilice un servidor para sincronizar los relojes de las dos unidades de recopilación de datos. Este método es ligeramente más preciso y se recomienda si se requiere una mayor precisión temporal.
Alineación espacial
1. Para averiguar si dos participantes están mirando el mismo lugar al mismo tiempo, mapee sus miradas a un plano común. Este plano puede ser una imagen de la configuración experimental (consulte el lado izquierdo de la Figura 3). Diseñe cuidadosamente esta imagen antes del experimento.
2. Tamaño de los marcadores fiduciarios: El tamaño general de los marcadores fiduciarios depende del algoritmo utilizado para detectarlos a partir del vídeo de seguimiento ocular. Las superficies cercanas a los participantes pueden tener marcadores fiduciarios más pequeños, mientras que las superficies más alejadas de ellos deben ser más grandes, de modo que se vean similares desde la perspectiva de los participantes. Pruebe de antemano diferentes tamaños para asegurarse de que se pueden detectar desde el vídeo de seguimiento ocular.
3. Número de marcadores fiduciarios: Para que el proceso de mapeo de los puntos de mira en un plano común sea exitoso, asegúrese de que varios marcadores fiduciarios sean visibles desde el punto de vista de los participantes en un momento dado.
4. Ubicación de los marcadores fiduciarios: Encuadre áreas relevantes de interés con tiras de marcadores fiduciarios (por ejemplo, consulte la pantalla del portátil en la Figura 3).
Por último, ejecute pilotos para probar el procedimiento de sincronización y determinar la ubicación, el tamaño y el número óptimos de marcadores fiduciarios. Los videos de seguimiento ocular se pueden procesar a través de un algoritmo de visión por ordenador para ver si los marcadores fiduciarios se detectan de forma fiable.

3. Ejecutar el experimento

Instrucciones
1. Indique a los participantes que se pongan las gafas de seguimiento ocular como lo harían con un par de anteojos normales. Sobre la base de los rasgos faciales distintivos de los participantes, es posible que sea necesario utilizar piezas nasales de diferentes alturas para preservar la calidad de los datos.
2. Después de encender el rastreador de ojos, pida a los participantes que corten la unidad de grabación a sí mismos para permitir el movimiento natural del cuerpo.
Calibración
1. Indique a los participantes que miren el centro del marcador de calibración proporcionado por Tobii mientras la función de calibración del software está activada. Una vez completada la calibración, la grabación se puede iniciar desde el software.
2. Indique a los participantes que no muevan los rastreadores oculares móviles después de la calibración. Si lo hacen, es probable que los datos sean inexactos y que el procedimiento de calibración deba realizarse de nuevo.
Monitorización de datos
1. Supervise el proceso de recopilación de datos durante el estudio y asegúrese de que los datos de seguimiento ocular se recopilan correctamente. La mayoría de los rastreadores oculares móviles pueden proporcionar una transmisión en vivo en un dispositivo separado (por ejemplo, una tableta) para este propósito.
Exportación de datos
1. Una vez completada la sesión de grabación, indique al participante que retire las gafas de seguimiento ocular y la unidad de recopilación de datos. Apague la unidad.
2. Extraiga datos utilizando otro software, Tobii Pro Lab, eliminando la tarjeta SD de la unidad de recopilación de datos importando los datos de la sesión. Tobii Pro Lab se puede utilizar para reproducir el vídeo, crear visualizaciones y exportar los datos de seguimiento ocular como archivos separados por comas (.csv) o separados por tabulaciones (.tsv).

4. Preprocesamiento de los datos de seguimiento ocular dual

Sanidad comprobando datos de seguimiento ocular
1. Compruebe visualmente los datos de seguimiento ocular después de la recopilación de datos. No es raro que algunos participantes tengan datos que faltan. Por ejemplo, algunas fisiología ocular en particular pueden plantear problemas a los algoritmos de seguimiento ocular, las gafas pueden cambiar durante el experimento, el software de recopilación de datos podría bloquearse, etc.
2. Utilice estadísticas descriptivas para comprobar cuántos datos se perdieron durante cada sesión y excluir sesiones que tienen cantidades significativas de datos que faltan o ruidosos.
Alineación temporal
1. Recortar los datos de cada rastreador de ojos móvil para incluir solo interacciones entre los participantes. Esto se puede lograr utilizando el método descrito anteriormente (es decir, presentando dos marcadores fiduciarios especiales a los participantes al inicio y al final de la sesión). Estos marcadores fiduciarios se pueden detectar desde el vídeo de seguimiento ocular para recortar los conjuntos de datos.
Alineación espacial
NOTA: Para detectar si dos participantes están mirando el mismo lugar al mismo tiempo, es necesario reasignar la mirada de los participantes en un plano común (es decir, una imagen del entorno experimental). Un método computacional para lograr este objetivo es una homografía (es decir, una transformación de perspectiva de un plano). Desde una perspectiva técnica, dos imágenes de la misma superficie plana en el espacio están relacionadas por una matriz de homografía. Basándose en un conjunto común de puntos, esta matriz se puede utilizar para inferir la ubicación de puntos adicionales entre dos planos. En la Figura 3, por ejemplo, si un algoritmo de visión por ordenador sabe dónde están los marcadores fiduciarios en el volante, puede reasignar la mirada del participante en el plano común en el lado izquierdo. Las líneas blancas conectan los dos conjuntos de puntos compartidos por la fuente de vídeo de cada participante y la escena, que luego se utilizan para construir la homografía para reasignar los puntos verdes y azules en el lado izquierdo.
1. Utilice la versión de Python de OpenCV, por ejemplo, para calcular la matriz de homografía a partir de los marcadores fiduciarios y, a continuación, para reasignar los datos de seguimiento ocular a la escena de la configuración experimental (o cualquier otra biblioteca adecuada en su idioma de elección). OpenCV proporciona dos funciones útiles: findHomography() para obtener la matriz de homografía y perspectiveTransform() para transformar el punto de una perspectiva a la otra.
2. Para utilizar findHomography(), ejecute con dos argumentos: las coordenadas X,Y de los puntos de origen (es decir, los marcadores fiduciarios detectados a partir del vídeo de escena de los participantes, que se muestran a la derecha en la Figura 3) y los puntos de destino correspondientes (es decir, los mismos marcadores fiduciarios detectados en la imagen de la escena, que se muestran a la izquierda en la Figura 3).
3. Alimentar la matriz de homografía resultante en la función perspectiveTransform(), junto con un nuevo punto que debe asignarse desde la imagen de origen a la imagen de destino (por ejemplo, los datos de seguimiento ocular que se muestran como un punto azul/verde en el lado derecho de la Figura 3). La función perspectiveTransform devuelve la nueva coordenada del mismo punto en la imagen de escena (es decir, los puntos azules/verdes que se muestran en el lado izquierdo de la Figura 3).
  NOTA: Para obtener más información, la documentación oficial de OpenCV proporciona código de ejemplo y ejemplos para implementar la homografía: docs.opencv.org/master/d1/de0/tutorial_py_feature_homography.html.
Sanidad comprobando la homografía
1. Complete la sección 4.3 para toda la sesión y realice una homografía en cada fotograma del vídeo móvil de seguimiento ocular para comprobar la calidad de la homografía. Aunque no hay formas automatizadas de estimar la precisión de los datos de seguimiento ocular resultantes, se deben usar vídeos como el que se muestra en la Figura 4 para comprobar manualmente la cordura en cada sesión.
2. Si la calidad es inferior a la esperada, considere parámetros adicionales para mejorar los resultados de la homografía:
  1. Número de marcadores fiduciarios detectados: Solo realice la homografía si se pueden detectar suficientes marcadores fiduciarios desde la secuencia de vídeo. Este número se puede determinar examinando el vídeo producido anteriormente.
  2. Ubicación de los marcadores fiduciarios: Si diferentes marcadores están en diferentes profundidades y orientaciones, la calidad de la homografía suele aumentar cuando se seleccionan los marcadores más cercanos a las coordenadas de la mirada, dado que hay suficientes marcadores para construir un tomografía.
  3. Orientación de los marcadores fiduciarios: La combinación de marcadores fiduciarios que tienen diferentes orientaciones (por ejemplo, horizontales y verticales) producirá homografías inexactas. Se recomienda detectar primero qué plano o áreas de interés (AOI) el participante está mirando (por ejemplo, la pantalla del ordenador, la hoja de trucos, la tabla, ver figura 3) y luego utilizar los marcadores fiduciarios en este plano para la homografía.
  4. Calidad de la secuencia de vídeo: los movimientos repentinos de la cabeza pueden desenfocar los fotogramas de vídeo y hacer que los datos sean inutilizables, ya que los marcadores fiduciarios no se pueden detectar de forma fiable(Figura 4). La metodología de este documento no es apropiada para experimentos que implican una gran cantidad de movimientos repentinos de la cabeza.

5. Análisis de los datos de seguimiento ocular dual

Faltan datos
1. Para asegurarse de que los datos se reasignaron correctamente a la imagen de referencia, genere gráficos de visualización (por ejemplo, Figura 5, Figura 6)y estadísticas descriptivas para comprobar cuántos datos faltan.
Gráficos de recurrencia cruzada
1. Utilice los gráficos de periodicidad cruzada⁹ para representar la sincronización visual entre dos participantes(figura 6), donde el eje X representa el tiempo para el primer participante y el eje Y representa el tiempo para el segundo participante. Los cuadrados negros indican que los participantes están mirando la misma área, una línea diagonal negra describe dos temas mirando la misma cosa exactamente al mismo tiempo, y los cuadrados negros fuera de la línea diagonal describen cuando dos temas mirando la misma cosa con un retraso de tiempo. Por último, la diferenciación entre los datos que faltan (cuadrado blanco) y los datos existentes sin JVA (cuadrados grises) ayuda a identificar sesiones problemáticas. Esto proporciona a los investigadores una comprobación de cordura visual.
Computación JVA
1. Después de filtrar los datos que faltan, calcule una métrica para JVA contando el número de veces que las miradas de los participantes están en el mismo radio en la escena (definida a continuación) en una ventana de tiempo de -2/+2 s. Divida este número por el número de puntos de datos válidos que se pueden utilizar para calcular JVA. El resultado de la división representa el porcentaje de tiempo que dos sujetos estaban mirando conjuntamente en el mismo lugar. Este último paso es necesario para evitar inflar las puntuaciones de los grupos con más datos después de la tomografía.
  NOTA: Es necesario establecer dos parámetros antes de que se pueda calcular JVA, la distancia mínima entre dos puntos de mirada y la ventana de tiempo entre ellos(Figura 7): 1) Ventana de tiempo: Un estudio fundacional temprano¹⁰ utilizó un solo rastreador de ojos para medir JVA entre un oyente y un altavoz. Los investigadores pidieron a un primer grupo de participantes ("altavoces") que hablaran sobre un programa de televisión cuyos personajes se mostraban frente a ellos. Un segundo conjunto de participantes ("listeners") vieron el mismo programa mientras escuchaban la grabación de audio de los altavoces. Los movimientos oculares de los altavoces y oyentes se compararon, y se encontró que los movimientos oculares de un oyente coincidían estrechamente con el movimiento de los ojos de un orador con un retraso de 2 s. En el trabajo posterior¹¹ investigadores analizaron los diálogos en vivo y encontraron que un retraso de 3 s mejor capturado momentos de JVA. Debido a que cada tarea es única y puede exhibir diferentes retrasos de tiempo, también se sugiere explorar cómo los diferentes retrasos de tiempo afectan a los resultados de un experimento determinado. En general, es común buscar JVA en una ventana de tiempo de 2/3 s dependiendo de la tarea experimental y luego explorar cómo diferentes retrasos de tiempo podrían cambiar los resultados. 2) Distancia entre miradas: no hay una distancia definida empíricamente entre dos miradas para que cuenten como JVA. Esta distancia depende de las preguntas de investigación definidas por los investigadores. Las preguntas de investigación deben informar el tamaño de los objetivos de interés. En el ejemplo visto en la Figura 7, se eligió un radio de 100 píxeles en la imagen de la escena (círculos azules/verdes) para el análisis porque es suficiente para capturar cuando los participantes están mirando el robot en el laberinto, así como en elementos similares de la interfaz de usuario en la pantalla del ordenador, que son las dos áreas principales de interés para esta tarea experimental.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

La metodología presentada anteriormente se utilizó para estudiar a los estudiantes que seguían un programa de formación profesional en logística (n.o 54)¹². En este experimento, los pares de alumnos interactuaron con una interfaz de usuario tangible (TUI) que simulaba un almacén a pequeña escala. Los marcadores fiduciarios colocados en el TUI permitieron al equipo de investigación reasignar las miradas de los estudiantes en un plano común y calcular los niveles de JVA. Los hallazgos indicaron que los grupos que tenían niveles más altos de JVA tendían a hacerlo mejor en la tarea que se les dio, aprendieron más y tenían una mejor calidad de colaboración¹³ (Figura 8, lado izquierdo). Los conjuntos de datos de seguimiento ocular doble también nos permitieron capturar dinámicas de grupo particulares como el efecto free-rider. Estimamos este efecto identificando quién probablemente habría iniciado cada momento de JVA (es decir, cuya mirada estaba allí primero) y quién respondió a ella (es decir, cuya mirada estaba allí en segundo lugar). Encontramos una correlación significativa entre las ganancias de aprendizaje y la tendencia de los estudiantes a compartir por igual la responsabilidad de iniciar y responder a las ofertas de JVA. En otras palabras, los grupos en los que la misma persona siempre inició momentos de JVA eran menos propensos a aprender(Figura 8,lado derecho) y grupos donde esta responsabilidad se compartía por igual eran más propensos a aprender. Este hallazgo muestra que podemos ir más allá de la mera cuantificación de JV, y en realidad identificar la dinámica de grupo y la productividad mediante datos de seguimiento ocular dual.

Figura 1: Cada participante genera dos fuentes de vídeo con las coordenadas X,Y de su mirada en cada fotograma de vídeo. Esta metodología aborda la sincronización de los datos temporal y espacialmente entre los participantes. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Una metodología para sincronizar los dos conjuntos de datos. Mostrar brevemente un marcador fiduciario único en la pantalla de un ordenador para etiquetar el inicio y el final de la actividad. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Uso de marcadores fiduciarios difundidos en el entorno para reasignar las miradas de los participantes a un plan común (lado izquierdo). Las líneas blancas indican marcadores fiduciarios que se han detectado en ambas imágenes. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Ejemplos de mala calidad de los datos. Izquierda: Un marco borroso del vídeo de seguimiento ocular causado por un movimiento repentino de la cabeza. No se pudieron detectar marcadores fiduciarios en esta imagen. Derecha: Una tomografía fallida en la que los datos del marcador fiduciario no se sincronizaron correctamente con la fuente de vídeo. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Mapas de calor. Izquierda: Un mapa de calor de los datos de seguimiento ocular reasignados a la escena experimental. Esta visualización se utilizó como una comprobación de cordura para la homografía. Derecha: Un grupo al que le faltaban demasiados datos y que tenía que ser descartado. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6: Gráfico de recurrencia cruzada generado a partir de tres diáptulas para visualizar JVA. P1 representa el tiempo para el primer participante, P2 representa el tiempo para el segundo participante. Los cuadrados negros muestran JVA; los cuadrados grises muestran momentos en los que los participantes están mirando diferentes lugares; cuadrados blancos muestran los datos que faltan. Cuadrado a lo largo de la diagonal principal indica momentos en los que los participantes miraron el mismo lugar al mismo tiempo. Esta visualización se utilizó como una comprobación de cordura para las medidas de JVA a partir de los datos combinados de seguimiento ocular. Haga clic aquí para ver una versión más grande de esta figura.

Figura 7: Un fotograma de vídeo donde se detectó JVA entre dos participantes (puntos rojos). ¹¹ recomiendan mirar una ventana de tiempo de +/-2 s. al calcular JVA. Además, los investigadores necesitan definir la distancia mínima entre dos puntos de mirada para contar como JVA. Se eligió un radio de 100 píxeles en la imagen central de arriba. Haga clic aquí para ver una versión más grande de esta figura.

Figura 8: Ejemplos de resultados. Los datos de Schneider et al.^12, en los que el porcentaje de tiempo que miraba en el mismo lugar al mismo tiempo se correlacionaba con la calidad de colaboración de los participantes: r(24) a 0,460, P a 0,018 (lado izquierdo) y los desequilibrios al iniciar/responder a las ofertas de JVA se correlacionaban con sus ganancias de aprendizaje: r(24) a 0,47, P a 0,02 (lado derecho). Haga clic aquí para ver una versión más grande de esta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La metodología descrita en este documento proporciona una manera rigurosa de capturar JVA en diques colocados. Con la aparición de tecnología de detección asequible y algoritmos de visión por computadora mejorados, ahora es posible estudiar interacciones colaborativas con una precisión que antes no estaba disponible. Esta metodología aprovecha los marcadores fiduciarios difundidos en el entorno y utiliza las homografías como una forma de reasignar las miradas de los participantes en un plano común. Esto permite a los investigadores estudiar rigurosamente JVA en grupos colocados.

Este método incluye varias comprobaciones de cordura que deben realizarse en varios puntos del experimento. Dado que se trata de un procedimiento complejo, los investigadores deben asegurarse de que los conjuntos de datos resultantes son completos y válidos. Por último, se recomienda realizar estudios piloto antes del experimento real y reconstruir las interacciones de los participantes a través de un vídeo después de que se complete la recopilación de datos(Figura 3, Figura 4, Figura 5, Figura 6).

Hay varias limitaciones asociadas con este método:

Número de participantes. Si bien esta metodología funciona bien para dos participantes, el análisis se complica con grupos más grandes. Los marcadores fiduciarios todavía se pueden utilizar para reasignar las miradas a una verdad de terreno, pero saber cómo identificar JVA se convierte en un proceso más matizado. ¿Debe definirse JVA como los momentos en que todos están mirando el mismo lugar al mismo tiempo, o cuando dos participantes están mirando el mismo lugar? Además, visualizaciones como el gráfico de recurrencia cruzada se vuelven poco prácticas con más de 2-3 personas.

Ajustes. El método descrito en este documento es adecuado para entornos pequeños y controlados (por ejemplo, estudios de laboratorio). Los ajustes abiertos, como espacios al aire libre o grandes, suelen ser demasiado complicados de instrumentar con marcadores fiduciarios y, por lo tanto, pueden limitar la utilidad de los datos de seguimiento ocular. Además, los marcadores fiduciarios pueden distraer y desordenar el medio ambiente. En el futuro, mejores algoritmos de visión por ordenador podrán extraer automáticamente características comunes entre dos perspectivas. Ya existen algoritmos para este propósito, pero encontramos que el nivel de precisión aún no era aceptable para el tipo de experimento descrito anteriormente.

AoIs. Relacionado con el punto anterior, la homografía informática y el gráfico de recurrencia cruzada funcionan bien con un número estable de áreas de interés, pero las correcciones deben hacerse al comparar diferentes tareas con diferentes números de áreas de interés.

Uso de equipos. Los rastreadores oculares móviles pueden ser molestos, afectar el comportamiento de los participantes o no trabajar con fisiología ocular en particular.

En conclusión, la metodología descrita en este documento es una forma prometedora de estudiar las interacciones colocadas. Permite a los investigadores capturar una métrica precisa para JVA, que es una construcción crítica en las ciencias sociales¹. Además, es posible detectar indicadores más detallados del aprendizaje colaborativo a través de esta metodología¹² en comparación con los análisis cualitativos tradicionales. En resumen, es una forma más eficiente y precisa de estudiar las interacciones sociales.

La posible aplicación de este método incluye el diseño de intervenciones para apoyar la colaboración a través de datos de seguimiento ocular en tiempo real. Algunos trabajos pioneros han producido visualizaciones de mirada compartida utilizando rastreadores oculares remotos, lo que ha demostrado beneficiar el aprendizaje colaborativo desde la distancia^14. Los Dyads que podían ver la mirada de su pareja en tiempo real exhibieron más JVA, colaboraron mejor y lograron mayores ganancias de aprendizaje en comparación con un grupo de control. El trabajo futuro examinará si este tipo de intervención puede apoyar procesos colaborativos en entornos colocados (por ejemplo, a través de auriculares de realidad virtual o aumentada).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores declaran que no tienen intereses financieros en competencia.

Acknowledgments

El desarrollo de esta metodología fue apoyado por la National Science Foundation (NSF #0835854), la Leading House Technologies for Vocation Education, financiada por la Secretaría de Estado De Suiza de Educación, Investigación e Innovación, y el Fondo de Empresa Dean de la Escuela de Educación de Harvard.

Materials

Name	Company	Catalog Number	Comments
Tobii Glasses 2	Tobii	N/A	https://www.tobiipro.com/product-listing/tobii-pro-glasses-2/
Fiducial markers	Chili lab – EPFL, Switzerland	N/A	https://github.com/chili-epfl/chilitags

DOWNLOAD MATERIALS LIST

References

Tomasello, M. Joint attention as social cognition. Joint attention: Its origins and role in development. Moore, C., Dunham, P. J. , Lawrence Erlbaum Associates, Inc. Hillsdale, NJ, England. 103-130 (1995).
Mundy, P., Sigman, M., Kasari, C. A longitudinal study of joint attention and language development in autistic children. Journal of Autism and Developmental Disorders. 20, 115-128 (1990).
Clark, H. H., Brennan, S. E. Grounding in communication. Perspectives on socially shared cognition. Resnick, L. B., Levine, J. M., Teasley, S. D. , American Psychological Association. Washington, DC, US. 127-149 (1991).
Siposova, B., Carpenter, M. A new look at joint attention and common knowledge. Cognition. 189, 260-274 (2019).
Gergle, D., Clark, A. T. See What I'm Saying?: Using Dyadic Mobile Eye Tracking to Study Collaborative Reference. Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work. , ACM. New York, NY, USA. 435-444 (2011).
Renner, P., Pfeiffer, T., Wachsmuth, I. Spatial References with Gaze and Pointing in Shared Space of Humans and Robots. Spatial Cognition IX. Freksa, C., Nebel, B., Hegarty, M., Barkowsky, T. , Springer International Publishing. 121-136 (2014).
Shvarts, A. Y. Automatic detection of gaze convergence in multimodal collaboration: a dual eye-tracking technology. The Russian Journal of Cognitive Science. 5, 4 (2018).
Bonnard, Q., et al. Chilitags: Robust Fiducial Markers for Augmented Reality [software]. , Available from: https://github.com/chili-epfl/qml-chilitags (2013).
Jermann, P., Mullins, D., Nüssli, M. -A., Dillenbourg, P. Collaborative Gaze Footprints: Correlates of Interaction Quality. Connecting Computer-Supported Collaborative Learning to Policy and Practice. CSCL2011 Conference Proceedings., Volume I - Long Papers. , 184-191 (2011).
Richardson, D. C., Dale, R. Looking To Understand: The Coupling Between Speakers' and Listeners' Eye Movements and Its Relationship to Discourse Comprehension. Trends in Cognitive Sciences. 29, 1045-1060 (2005).
Richardson, D. C., Dale, R., Kirkham, N. Z. The Art of Conversation Is Coordination Common Ground and the Coupling of Eye Movements During Dialogue. Psychological Science. 18, 407-413 (2007).
Schneider, B., et al. Using Mobile Eye-Trackers to Unpack the Perceptual Benefits of a Tangible User Interface for Collaborative Learning. ACM Transactions on Computer-Human Interaction. 23, 1-23 (2016).
Meier, A., Spada, H., Rummel, N. A rating scheme for assessing the quality of computer-supported collaboration processes. Int. J. Comput.-Support. Collab. Learn. 2, 63-86 (2007).
Schneider, B., Pea, R. Real-time mutual gaze perception enhances collaborative learning and collaboration quality. Journal of Computer-Supported Collaborative Learning. 8, 375-397 (2013).

Behavior

Una metodología para capturar la atención visual conjunta mediante rastreadores oculares móviles

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.