Summary

Una metodología para capturar la atención visual conjunta mediante rastreadores oculares móviles

Published: January 18, 2020
doi:

Summary

El uso de sensores multimodales es una forma prometedora de entender el papel de las interacciones sociales en entornos educativos. Este artículo describe una metodología para capturar la atención visual conjunta de los diques colocados utilizando rastreadores oculares móviles.

Abstract

Con la llegada de los nuevos avances tecnológicos, es posible estudiar las interacciones sociales a micronivel con una precisión sin precedentes. Los sensores de alta frecuencia, como los rastreadores oculares, las pulseras de actividad electrodérmica, las bandas EEG y los sensores de movimiento proporcionan observaciones a nivel de milisegundos. Este nivel de precisión permite a los investigadores recopilar grandes conjuntos de datos sobre las interacciones sociales. En este artículo, analizo cómo múltiples rastreadores oculares pueden capturar una construcción fundamental en las interacciones sociales, la atención visual conjunta (JVA). JVA ha sido estudiada por psicólogos del desarrollo para entender cómo los niños adquieren el lenguaje, aprender a los científicos para entender cómo los pequeños grupos de estudiantes trabajan juntos, y los científicos sociales para entender las interacciones en equipos pequeños. Este artículo describe una metodología para capturar JVA en entornos colocados utilizando rastreadores oculares móviles. Presenta algunos resultados empíricos y analiza las implicaciones de capturar microobservaciones para entender las interacciones sociales.

Introduction

JVA ha sido ampliamente estudiada durante el siglo pasado, especialmente por psicólogos del desarrollo que estudian la adquisición del lenguaje. Rápidamente se estableció que la atención conjunta es más que una forma de aprender palabras, sino más bien un precursor de las teorías infantiles de la mente1. Por lo tanto, desempeña un papel importante en muchos procesos sociales, como comunicarse con otros, colaborar y desarrollar empatía. Los niños autistas, por ejemplo, carecen de la capacidad de coordinar su atención visual con sus cuidadores, lo que se asocia con impedimentos sociales significativos2. Los seres humanos necesitan atención conjunta para convertirse en miembros funcionales de la sociedad, para coordinar sus acciones y para aprender de los demás. Desde los niños adquiriendo sus primeras palabras, adolescentes aprendiendo de maestros de escuela, estudiantes que colaboran en proyectos, y a grupos de adultos que trabajan hacia objetivos comunes, la atención conjunta es un mecanismo fundamental para establecer un terreno común entre las personas3. En este artículo, me enfoco en el estudio de JVA en la investigación educativa. Entender cómo se desarrolla la atención conjunta con el tiempo es de importancia primordial para el estudio de los procesos de aprendizaje colaborativo. Como tal, desempeña un papel predominante en entornos socioconstructivistas.

La definición exacta de atención conjunta se sigue debatiendo4. Este documento se refiere a una subconstrucción de atención conjunta (JA), a saber, JVA. JVA ocurre cuando dos sujetos están mirando el mismo lugar al mismo tiempo. Cabe señalar que la JVA no proporciona ninguna información sobre otras construcciones importantes de interés en el estudio de la JA, como el monitoreo de la atención común, mutua y compartida, o más en general, la conciencia de la cognición de otro miembro del grupo. Este documento opera y simplifica la JVA combinando los datos de seguimiento ocular de dos participantes y analizando la frecuencia en la que alinean sus miradas. Para una discusión más completa, el lector interesado puede aprender más sobre el estudio de la construcción de JA en Siposovaet al.4.

En la última década, los avances tecnológicos han transformado radicalmente la investigación sobre JVA. El principal cambio de paradigma fue utilizar múltiples rastreadores oculares para obtener medidas cuantitativas de alineaciones atencionales, en lugar de analizar cualitativamente las grabaciones de vídeo en un entorno de laboratorio o ecológico. Este desarrollo ha permitido a los investigadores recopilar información precisa y detallada sobre la coordinación visual de los diápsidos. Además, los rastreadores oculares son cada vez más asequibles: hasta hace poco, su uso estaba reservado a entornos académicos o grandes corporaciones. Ahora es posible comprar rastreadores oculares económicos que generan conjuntos de datos confiables. Por último, la inclusión progresiva de las capacidades de seguimiento de la mirada en los dispositivos existentes, como los portátiles de gama alta y los auriculares de realidad virtual y aumentada, sugiere que el seguimiento ocular pronto se volverá omnipresente.

Debido a la popularización de los dispositivos de seguimiento ocular, es importante entender lo que pueden y no pueden decirnos acerca de las interacciones sociales. La metodología presentada en este documento marca un primer paso en esta dirección. Abordo dos desafíos en la captura de JVA de múltiples rastreadores oculares: sincronizar los datos en 1) la escala temporal y 2) en la escala espacial. Más específicamente, este protocolo hace uso de marcadores fiduciarios colocados en entornos del mundo real para informar a los algoritmos de visión por ordenador donde los participantes están orientando su mirada. Este nuevo tipo de metodología allana el camino para un análisis riguroso del comportamiento humano en grupos pequeños.

Este protocolo de investigación cumple con las directrices del comité de ética de la investigación humana de la Universidad de Harvard.

Protocol

1. Examen de participantes Asegúrese de que los participantes con visión normal o corregida a normal sean reclutados. Debido a que se les pedirá a los participantes que usen un rastreador de ojos móvil, pueden usar lentes de contacto, pero no anteojos regulares. 2. Preparación para el experimento Dispositivos de seguimiento ocular Utilice cualquier rastreador de ojos móvil capaz de capturar el movimiento de los ojos en entornos del mundo real.NOTA: Los rastreadores oculares móviles utilizados aquí fueron dos gafas Tobii Pro 2 (ver Tabla de Materiales). Además de cámaras especializadas que pueden rastrear los movimientos oculares, las gafas también están equipadas con una cámara de escena HD y un micrófono para que la mirada se pueda visualizar en el contexto del campo visual del usuario. Estas gafas capturan los datos de la mirada 50 veces por segundo. Otros investigadores han utilizado ASL Mobile Eye5,SMI6o Pupil-labs7,todos los cuales proporcionan secuencias de vídeo de la cámara de la escena y coordenadas de seguimiento ocular a diferentes velocidades de muestreo (30-120 Hz). El siguiente procedimiento puede variar ligeramente con otros dispositivos de seguimiento ocular. Marcadores fiduciarios Los dos pasos siguientes (es decir, alineaciones temporales y espaciales) requieren el uso de marcadores fiduciarios. Hay varias bibliotecas de visión por ordenador que proporcionan a los investigadores estos marcadores y algoritmos para detectarlos en una imagen o fuente de vídeo. El protocolo descrito utiliza la biblioteca Chilitag8. Alineación temporal Dado que los datos de seguimiento ocular se registran en dos unidades independientes, asegúrese de que los datos estén correctamente sincronizados(figura 1). Se pueden utilizar dos métodos principales. Este manuscrito solo cubre el primer método, ya que la sincronización del servidor funciona de manera diferente con cada marca de rastreador de ojos móvil. Mostrar brevemente un marcador fiduciario en la pantalla de un ordenador para marcar el principio y el final de una sesión. Esto es similar a un “aplauso de mano” visual (Figura 2). Como alternativa, utilice un servidor para sincronizar los relojes de las dos unidades de recopilación de datos. Este método es ligeramente más preciso y se recomienda si se requiere una mayor precisión temporal. Alineación espacial Para averiguar si dos participantes están mirando el mismo lugar al mismo tiempo, mapee sus miradas a un plano común. Este plano puede ser una imagen de la configuración experimental (consulte el lado izquierdo de la Figura 3). Diseñe cuidadosamente esta imagen antes del experimento. Tamaño de los marcadores fiduciarios: El tamaño general de los marcadores fiduciarios depende del algoritmo utilizado para detectarlos a partir del vídeo de seguimiento ocular. Las superficies cercanas a los participantes pueden tener marcadores fiduciarios más pequeños, mientras que las superficies más alejadas de ellos deben ser más grandes, de modo que se vean similares desde la perspectiva de los participantes. Pruebe de antemano diferentes tamaños para asegurarse de que se pueden detectar desde el vídeo de seguimiento ocular. Número de marcadores fiduciarios: Para que el proceso de mapeo de los puntos de mira en un plano común sea exitoso, asegúrese de que varios marcadores fiduciarios sean visibles desde el punto de vista de los participantes en un momento dado. Ubicación de los marcadores fiduciarios: Encuadre áreas relevantes de interés con tiras de marcadores fiduciarios (por ejemplo, consulte la pantalla del portátil en la Figura 3). Por último, ejecute pilotos para probar el procedimiento de sincronización y determinar la ubicación, el tamaño y el número óptimos de marcadores fiduciarios. Los videos de seguimiento ocular se pueden procesar a través de un algoritmo de visión por ordenador para ver si los marcadores fiduciarios se detectan de forma fiable. 3. Ejecutar el experimento Instrucciones Indique a los participantes que se pongan las gafas de seguimiento ocular como lo harían con un par de anteojos normales. Sobre la base de los rasgos faciales distintivos de los participantes, es posible que sea necesario utilizar piezas nasales de diferentes alturas para preservar la calidad de los datos. Después de encender el rastreador de ojos, pida a los participantes que corten la unidad de grabación a sí mismos para permitir el movimiento natural del cuerpo. Calibración Indique a los participantes que miren el centro del marcador de calibración proporcionado por Tobii mientras la función de calibración del software está activada. Una vez completada la calibración, la grabación se puede iniciar desde el software. Indique a los participantes que no muevan los rastreadores oculares móviles después de la calibración. Si lo hacen, es probable que los datos sean inexactos y que el procedimiento de calibración deba realizarse de nuevo. Monitorización de datos Supervise el proceso de recopilación de datos durante el estudio y asegúrese de que los datos de seguimiento ocular se recopilan correctamente. La mayoría de los rastreadores oculares móviles pueden proporcionar una transmisión en vivo en un dispositivo separado (por ejemplo, una tableta) para este propósito. Exportación de datos Una vez completada la sesión de grabación, indique al participante que retire las gafas de seguimiento ocular y la unidad de recopilación de datos. Apague la unidad. Extraiga datos utilizando otro software, Tobii Pro Lab, eliminando la tarjeta SD de la unidad de recopilación de datos importando los datos de la sesión. Tobii Pro Lab se puede utilizar para reproducir el vídeo, crear visualizaciones y exportar los datos de seguimiento ocular como archivos separados por comas (.csv) o separados por tabulaciones (.tsv). 4. Preprocesamiento de los datos de seguimiento ocular dual Sanidad comprobando datos de seguimiento ocular Compruebe visualmente los datos de seguimiento ocular después de la recopilación de datos. No es raro que algunos participantes tengan datos que faltan. Por ejemplo, algunas fisiología ocular en particular pueden plantear problemas a los algoritmos de seguimiento ocular, las gafas pueden cambiar durante el experimento, el software de recopilación de datos podría bloquearse, etc. Utilice estadísticas descriptivas para comprobar cuántos datos se perdieron durante cada sesión y excluir sesiones que tienen cantidades significativas de datos que faltan o ruidosos. Alineación temporal Recortar los datos de cada rastreador de ojos móvil para incluir solo interacciones entre los participantes. Esto se puede lograr utilizando el método descrito anteriormente (es decir, presentando dos marcadores fiduciarios especiales a los participantes al inicio y al final de la sesión). Estos marcadores fiduciarios se pueden detectar desde el vídeo de seguimiento ocular para recortar los conjuntos de datos. Alineación espacialNOTA: Para detectar si dos participantes están mirando el mismo lugar al mismo tiempo, es necesario reasignar la mirada de los participantes en un plano común (es decir, una imagen del entorno experimental). Un método computacional para lograr este objetivo es una homografía (es decir, una transformación de perspectiva de un plano). Desde una perspectiva técnica, dos imágenes de la misma superficie plana en el espacio están relacionadas por una matriz de homografía. Basándose en un conjunto común de puntos, esta matriz se puede utilizar para inferir la ubicación de puntos adicionales entre dos planos. En la Figura 3, por ejemplo, si un algoritmo de visión por ordenador sabe dónde están los marcadores fiduciarios en el volante, puede reasignar la mirada del participante en el plano común en el lado izquierdo. Las líneas blancas conectan los dos conjuntos de puntos compartidos por la fuente de vídeo de cada participante y la escena, que luego se utilizan para construir la homografía para reasignar los puntos verdes y azules en el lado izquierdo. Utilice la versión de Python de OpenCV, por ejemplo, para calcular la matriz de homografía a partir de los marcadores fiduciarios y, a continuación, para reasignar los datos de seguimiento ocular a la escena de la configuración experimental (o cualquier otra biblioteca adecuada en su idioma de elección). OpenCV proporciona dos funciones útiles: findHomography() para obtener la matriz de homografía y perspectiveTransform() para transformar el punto de una perspectiva a la otra. Para utilizar findHomography(), ejecute con dos argumentos: las coordenadas X,Y de los puntos de origen (es decir, los marcadores fiduciarios detectados a partir del vídeo de escena de los participantes, que se muestran a la derecha en la Figura 3) y los puntos de destino correspondientes (es decir, los mismos marcadores fiduciarios detectados en la imagen de la escena, que se muestran a la izquierda en la Figura 3). Alimentar la matriz de homografía resultante en la función perspectiveTransform(), junto con un nuevo punto que debe asignarse desde la imagen de origen a la imagen de destino (por ejemplo, los datos de seguimiento ocular que se muestran como un punto azul/verde en el lado derecho de la Figura 3). La función perspectiveTransform devuelve la nueva coordenada del mismo punto en la imagen de escena (es decir, los puntos azules/verdes que se muestran en el lado izquierdo de la Figura 3).NOTA: Para obtener más información, la documentación oficial de OpenCV proporciona código de ejemplo y ejemplos para implementar la homografía: docs.opencv.org/master/d1/de0/tutorial_py_feature_homography.html. Sanidad comprobando la homografía Complete la sección 4.3 para toda la sesión y realice una homografía en cada fotograma del vídeo móvil de seguimiento ocular para comprobar la calidad de la homografía. Aunque no hay formas automatizadas de estimar la precisión de los datos de seguimiento ocular resultantes, se deben usar vídeos como el que se muestra en la Figura 4 para comprobar manualmente la cordura en cada sesión. Si la calidad es inferior a la esperada, considere parámetros adicionales para mejorar los resultados de la homografía: Número de marcadores fiduciarios detectados: Solo realice la homografía si se pueden detectar suficientes marcadores fiduciarios desde la secuencia de vídeo. Este número se puede determinar examinando el vídeo producido anteriormente. Ubicación de los marcadores fiduciarios: Si diferentes marcadores están en diferentes profundidades y orientaciones, la calidad de la homografía suele aumentar cuando se seleccionan los marcadores más cercanos a las coordenadas de la mirada, dado que hay suficientes marcadores para construir un tomografía. Orientación de los marcadores fiduciarios: La combinación de marcadores fiduciarios que tienen diferentes orientaciones (por ejemplo, horizontales y verticales) producirá homografías inexactas. Se recomienda detectar primero qué plano o áreas de interés (AOI) el participante está mirando (por ejemplo, la pantalla del ordenador, la hoja de trucos, la tabla, ver figura 3) y luego utilizar los marcadores fiduciarios en este plano para la homografía. Calidad de la secuencia de vídeo: los movimientos repentinos de la cabeza pueden desenfocar los fotogramas de vídeo y hacer que los datos sean inutilizables, ya que los marcadores fiduciarios no se pueden detectar de forma fiable(Figura 4). La metodología de este documento no es apropiada para experimentos que implican una gran cantidad de movimientos repentinos de la cabeza. 5. Análisis de los datos de seguimiento ocular dual Faltan datos Para asegurarse de que los datos se reasignaron correctamente a la imagen de referencia, genere gráficos de visualización (por ejemplo, Figura 5, Figura 6)y estadísticas descriptivas para comprobar cuántos datos faltan. Gráficos de recurrencia cruzada Utilice los gráficos de periodicidad cruzada9 para representar la sincronización visual entre dos participantes(figura 6), donde el eje X representa el tiempo para el primer participante y el eje Y representa el tiempo para el segundo participante. Los cuadrados negros indican que los participantes están mirando la misma área, una línea diagonal negra describe dos temas mirando la misma cosa exactamente al mismo tiempo, y los cuadrados negros fuera de la línea diagonal describen cuando dos temas mirando la misma cosa con un retraso de tiempo. Por último, la diferenciación entre los datos que faltan (cuadrado blanco) y los datos existentes sin JVA (cuadrados grises) ayuda a identificar sesiones problemáticas. Esto proporciona a los investigadores una comprobación de cordura visual. Computación JVA Después de filtrar los datos que faltan, calcule una métrica para JVA contando el número de veces que las miradas de los participantes están en el mismo radio en la escena (definida a continuación) en una ventana de tiempo de -2/+2 s. Divida este número por el número de puntos de datos válidos que se pueden utilizar para calcular JVA. El resultado de la división representa el porcentaje de tiempo que dos sujetos estaban mirando conjuntamente en el mismo lugar. Este último paso es necesario para evitar inflar las puntuaciones de los grupos con más datos después de la tomografía.NOTA: Es necesario establecer dos parámetros antes de que se pueda calcular JVA, la distancia mínima entre dos puntos de mirada y la ventana de tiempo entre ellos(Figura 7): 1) Ventana de tiempo: Un estudio fundacional temprano10 utilizó un solo rastreador de ojos para medir JVA entre un oyente y un altavoz. Los investigadores pidieron a un primer grupo de participantes (“altavoces”) que hablaran sobre un programa de televisión cuyos personajes se mostraban frente a ellos. Un segundo conjunto de participantes (“listeners”) vieron el mismo programa mientras escuchaban la grabación de audio de los altavoces. Los movimientos oculares de los altavoces y oyentes se compararon, y se encontró que los movimientos oculares de un oyente coincidían estrechamente con el movimiento de los ojos de un orador con un retraso de 2 s. En el trabajo posterior11 investigadores analizaron los diálogos en vivo y encontraron que un retraso de 3 s mejor capturado momentos de JVA. Debido a que cada tarea es única y puede exhibir diferentes retrasos de tiempo, también se sugiere explorar cómo los diferentes retrasos de tiempo afectan a los resultados de un experimento determinado. En general, es común buscar JVA en una ventana de tiempo de 2/3 s dependiendo de la tarea experimental y luego explorar cómo diferentes retrasos de tiempo podrían cambiar los resultados. 2) Distancia entre miradas: no hay una distancia definida empíricamente entre dos miradas para que cuenten como JVA. Esta distancia depende de las preguntas de investigación definidas por los investigadores. Las preguntas de investigación deben informar el tamaño de los objetivos de interés. En el ejemplo visto en la Figura 7, se eligió un radio de 100 píxeles en la imagen de la escena (círculos azules/verdes) para el análisis porque es suficiente para capturar cuando los participantes están mirando el robot en el laberinto, así como en elementos similares de la interfaz de usuario en la pantalla del ordenador, que son las dos áreas principales de interés para esta tarea experimental.

Representative Results

La metodología presentada anteriormente se utilizó para estudiar a los estudiantes que seguían un programa de formación profesional en logística (n.o 54)12. En este experimento, los pares de alumnos interactuaron con una interfaz de usuario tangible (TUI) que simulaba un almacén a pequeña escala. Los marcadores fiduciarios colocados en el TUI permitieron al equipo de investigación reasignar las miradas de los estudiantes en un plano común y calcular los niveles de JVA. Los hallazgos indic…

Discussion

La metodología descrita en este documento proporciona una manera rigurosa de capturar JVA en diques colocados. Con la aparición de tecnología de detección asequible y algoritmos de visión por computadora mejorados, ahora es posible estudiar interacciones colaborativas con una precisión que antes no estaba disponible. Esta metodología aprovecha los marcadores fiduciarios difundidos en el entorno y utiliza las homografías como una forma de reasignar las miradas de los participantes en un plano común. Esto permite …

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

El desarrollo de esta metodología fue apoyado por la National Science Foundation (NSF #0835854), la Leading House Technologies for Vocation Education, financiada por la Secretaría de Estado De Suiza de Educación, Investigación e Innovación, y el Fondo de Empresa Dean de la Escuela de Educación de Harvard.

Materials

Tobii Glasses 2 Tobii N/A https://www.tobiipro.com/product-listing/tobii-pro-glasses-2/
Fiducial markers Chili lab – EPFL, Switzerland N/A https://github.com/chili-epfl/chilitags

Referencias

  1. Tomasello, M., Moore, C., Dunham, P. J. Joint attention as social cognition. Joint attention: Its origins and role in development. , 103-130 (1995).
  2. Mundy, P., Sigman, M., Kasari, C. A longitudinal study of joint attention and language development in autistic children. Journal of Autism and Developmental Disorders. 20, 115-128 (1990).
  3. Clark, H. H., Brennan, S. E., Resnick, L. B., Levine, J. M., Teasley, S. D. Grounding in communication. Perspectives on socially shared cognition. , 127-149 (1991).
  4. Siposova, B., Carpenter, M. A new look at joint attention and common knowledge. Cognition. 189, 260-274 (2019).
  5. Gergle, D., Clark, A. T. See What I’m Saying?: Using Dyadic Mobile Eye Tracking to Study Collaborative Reference. Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work. , 435-444 (2011).
  6. Renner, P., Pfeiffer, T., Wachsmuth, I., Freksa, C., Nebel, B., Hegarty, M., Barkowsky, T. Spatial References with Gaze and Pointing in Shared Space of Humans and Robots. Spatial Cognition IX. , 121-136 (2014).
  7. Shvarts, A. Y. Automatic detection of gaze convergence in multimodal collaboration: a dual eye-tracking technology. The Russian Journal of Cognitive Science. 5, 4 (2018).
  8. . Chilitags: Robust Fiducial Markers for Augmented Reality [software] Available from: https://github.com/chili-epfl/qml-chilitags (2013)
  9. Jermann, P., Mullins, D., Nüssli, M. -. A., Dillenbourg, P. Collaborative Gaze Footprints: Correlates of Interaction Quality. Connecting Computer-Supported Collaborative Learning to Policy and Practice. CSCL2011 Conference Proceedings., Volume I – Long Papers. , 184-191 (2011).
  10. Richardson, D. C., Dale, R. Looking To Understand: The Coupling Between Speakers’ and Listeners’ Eye Movements and Its Relationship to Discourse Comprehension. Trends in Cognitive Sciences. 29, 1045-1060 (2005).
  11. Richardson, D. C., Dale, R., Kirkham, N. Z. The Art of Conversation Is Coordination Common Ground and the Coupling of Eye Movements During Dialogue. Psychological Science. 18, 407-413 (2007).
  12. Schneider, B., et al. Using Mobile Eye-Trackers to Unpack the Perceptual Benefits of a Tangible User Interface for Collaborative Learning. ACM Transactions on Computer-Human Interaction. 23, 1-23 (2016).
  13. Meier, A., Spada, H., Rummel, N. A rating scheme for assessing the quality of computer-supported collaboration processes. Int. J. Comput.-Support. Collab. Learn. 2, 63-86 (2007).
  14. Schneider, B., Pea, R. Real-time mutual gaze perception enhances collaborative learning and collaboration quality. Journal of Computer-Supported Collaborative Learning. 8, 375-397 (2013).

Play Video

Citar este artículo
Schneider, B. A Methodology for Capturing Joint Visual Attention Using Mobile Eye-Trackers. J. Vis. Exp. (155), e60670, doi:10.3791/60670 (2020).

View Video