Journal
/
/
Una metodología para capturar la atención visual conjunta mediante rastreadores oculares móviles
JoVE Revista
Comportamiento
Author Produced
Se requiere una suscripción a JoVE para ver este contenido.  Inicie sesión o comience su prueba gratuita.
JoVE Revista Comportamiento
A Methodology for Capturing Joint Visual Attention Using Mobile Eye-Trackers

Una metodología para capturar la atención visual conjunta mediante rastreadores oculares móviles

7,442 Views

12:39 min

January 18, 2020

DOI:

12:39 min
January 18, 2020

5 Views

Transcripción

Automatically generated

Hola, mi nombre es Bertrand Schneider y soy profesor asistente en la Harvard Graduate School of Education. En este video voy a mostrarte cómo podemos usar rastreadores oculares móviles para capturar una construcción central en la ciencia social, atención visual conjunta. La atención visual conjunta ha sido ampliamente estudiada por psicólogos y se ha encontrado que está estrechamente relacionada con la calidad de las interacciones entre los miembros del grupo.

Resulta que cuando las personas construyen un terreno común y crean una comprensión compartida de una tarea, tienden a mirar con frecuencia el mismo lugar al mismo tiempo. Tradicionalmente, los investigadores han estudiado la atención visual conjunta cualitativamente mediante la codificación manual de vídeos. Voy a mostrarle cómo podemos utilizar rastreadores oculares móviles para obtener una medida cuantitativa de esta construcción en entornos ubicados conjuntamente.

En este vídeo utilizaremos las gafas Tobii Pro Dos. Estas gafas son rastreadores oculares portátiles que pueden capturar el movimiento ocular en entornos del mundo real. Además de las cámaras especializadas en el marco para rastrear los movimientos oculares, el dispositivo también está equipado con una cámara de escena Full-HD y un micrófono, por lo que el comportamiento de la mirada se puede visualizar en el contexto del campo visual del usuario.

Para estas gafas la mirada se captura 50 veces por segundo y una señal de vídeo en directo de las gafas se puede transmitir a un ordenador de forma inalámbrica o a través de un cable Ethernet. Sin embargo, las gafas tienen una limitación, ya que no funcionarán sobre las gafas normales. El procedimiento para configurar el rastreador ocular es relativamente sencillo.

En primer lugar, se les pedirá a los participantes que se pongan los anteojos, ya que lo harían con un par normal de gafas. Basado en los rasgos faciales distintos de los participantes, las piezas nasales con diferentes alturas pueden necesitar ser utilizadas para preservar la calidad de los datos. Después de activar el rastreador ocular, los participantes deben recortar la unidad de recopilación de datos a sus personas para permitir movimientos corporales desenfrenados.

El controlador Tobii Pro Glasses debe abrirse y se debe indicar a los participantes que miren el centro del marcador de calibración proporcionado por Tobii, mientras se habilita la función de calibración del software. Una vez completada la calibración, la grabación se puede iniciar desde el software. Una vez completada la sesión de grabación, termine la grabación desde el software Tobii antes de indicar al participante que retire las gafas de seguimiento ocular y la unidad de recopilación de datos.

Y luego, apague la unidad. Los datos se pueden extraer a través de otro software, Tobii Pro Lab, retirando la tarjeta SD de la unidad de recopilación de datos e insertando la tarjeta en el ordenador. Tobii Pro Lab es capaz de importar todas las sesiones de grabación almacenadas en la tarjeta SD al mismo tiempo.

Los archivos se pueden procesar dentro de Tobii Pro Lab para generar vídeos, diferentes visualizaciones o ser generados como valores separados por tabulaciones o archivos TSV para su posterior análisis. Aquí puede ver los datos de seguimiento ocular sin procesar de un estudio que realizamos recientemente, donde dos participantes estaban aprendiendo a programar un robot. A cada lado se puede ver la secuencia de vídeo generada por cada rastreador de ojos con la ubicación de la mirada del participante.

Como puedes ver, es imposible saber si están mirando el mismo lugar al mismo tiempo, porque el punto de vista de cada participante es diferente. Además, la grabación de datos puede comenzar en diferentes momentos. Esto significa que los datos deben sincronizarse temporal y espacialmente.

Voy a mostrarte cómo abordar estos dos problemas en este video. En primer lugar, voy a describir un procedimiento para sincronizar los datos temporalmente. Para el primer participante tiene un cierto número de fotogramas de vídeo.

Algunos de ellos son antes o después de la tarea experimental real. Como el primer cuadro, donde el experimentador está calibrando el rastreador ocular. Del mismo modo, para los demás participantes tiene el mismo tipo de datos.

No se muestra aquí, pero cada fotograma del vídeo también está asociado con una coordenada x e y que representa la mirada de cada participante. Para sincronizar los datos, mostramos brevemente un marcador fiduciario en la pantalla del ordenador antes y después de la tarea experimental. Mediante el uso de un algoritmo de visión por ordenador, podemos detectar cuándo se presenta este marcador a cada participante, lo que nos permite recortar y alinear los datos.

Por lo tanto, esta es una manera de tratar con problemas de sincronización de datos. En las siguientes partes, vamos a ver el segundo problema: Cómo sincronizar los datos espacialmente. Como se mencionó anteriormente, los datos provienen de cada rastreador ocular en forma de una fuente de vídeo asociada con la ubicación de la mirada de cada participante, aquí en azul y verde.

Mientras que las coordenadas x e y pueden ser las mismas para ambos participantes, no significa que estén mirando el mismo lugar porque están mirando la pantalla desde dos perspectivas diferentes. Una forma de resolver este problema es crear una imagen de la configuración experimental que servirá como referencia y dónde vamos a reasignar la ubicación del caso de cada participante. Esto nos permite detectar para cada fotograma del video de seguimiento ocular, si los participantes están mirando en el mismo lugar al mismo tiempo.

Pero, ¿cómo reasignamos estas coordenadas en la imagen de la izquierda? Vamos a utilizar el mismo algoritmo de visión cooperativa que nos permitió sincronizar los datos antes. Al aplicarlo en cada fotograma de las grabaciones de vídeo, ahora podemos detectar la ubicación de los marcadores fiduciarios desde la perspectiva de los participantes.

Esto nos permite conectar los mismos marcadores en la imagen de referencia a la izquierda. Conociendo las coordenadas de este conjunto compartido de puntos, podemos inferir la ubicación de la mirada de cada persona usando una operación matemática conocida como homografía. Al aplicar este procedimiento en cada fotograma, podemos generar un vídeo para asegurarnos de que la homografía funcionara.

En el lado derecho se puede ver la grabación de vídeo de cada participante con la ubicación de su mirada en azul y verde. Los mismos marcadores fiduciarios están conectados con una línea blanca entre la imagen de la izquierda y el punto de vista del participante en el lado derecho. Las miradas reasignadas se muestran a la izquierda y se vuelven rojas cuando hay cierta atención visual conjunta.

Generar este video es un paso importante para asegurarse de que los datos están limpios y que la homografía se realizó correctamente. Además, hay otras dos visualizaciones que se pueden producir para comprobar los datos de cordura. La primera visualización es un mapa de calor.

Para cada participante podemos trazar cada punto de mirada en la imagen de la configuración experimental. Esto asegura que la homografía funcionó correctamente y nos permite categorizar estos puntos de caso en diferentes áreas de interés. Aquí, por ejemplo, podemos ver que la mayor parte del tiempo se pasó mirando la pantalla del ordenador y se pasó muy poco tiempo mirando las hojas de trucos.

La segunda visualización se denomina gráfico de periodicidad cruzada. Los gráficos de recurrencia cruzada nos permiten visualizar datos de seguimiento ocular para un par de participantes. El tiempo para el primer participante se muestra en el eje X, el tiempo para el segundo participante se muestra en el eje Y.

Los cuadrados negros significan que ambos participantes están mirando el mismo lugar, el cuadrado blanco representa los datos que faltan y el cuadrado gris representa cuando los participantes están mirando diferentes ubicaciones. Los cuadrados negros a lo largo de la diagonal significan que están mirando el mismo lugar al mismo tiempo. Los cuadrados negros fuera de la diagonal significan que los participantes están mirando en el mismo lugar pero en diferentes momentos.

A la izquierda, se puede ver una diaad con altos niveles de atención visual de las articulaciones. En el medio, una diad con bajos niveles de atención visual articular. En el lado derecho, un grupo con una gran cantidad de datos que faltan.

Al realizar estas comprobaciones de cordura, puede asegurarse de que ha sincronizado y reasignado correctamente los datos en una imagen común de la configuración experimental. Estos pasos son críticos y deben realizarse antes de que se realice cualquier análisis. Por último, hay dos parámetros que deben elegirse antes de calcular una medida de la atención visual conjunta.

El primer parámetro es la ventana de tiempo en la que los participantes pueden mirar en la misma ubicación. Trabajos previos de Richardson y Dale habían establecido que los participantes pueden tardar hasta dos segundos en desvincularse de lo que están haciendo para prestar atención a lo que su pareja está haciendo. Por lo tanto, determinamos que hay atención visual conjunta si dos participantes han mirado el mismo lugar dentro de una ventana más y menos dos segundos.

El segundo parámetro es la distancia mínima entre dos puntos de mirada para que califiquen como atención visual conjunta. Esta distancia depende del contexto y debe ser definida por los investigadores dependiendo de la tarea administrada y sus preguntas de investigación. Para algunas tareas, la distancia puede ser corta.

Aquí, por ejemplo, usamos 100 píxeles. Para otras tareas, esta distancia puede ser mayor. A continuación, voy a presentar algunos resultados encontrados usando esta metodología.

Después de obtener una estimación de la cantidad de atención visual conjunta en el grupo, puede correlacionar esta medida con otras variables de interés. Por ejemplo, en el trabajo hemos correlacionado esta medida con el esquema de calificación desarrollado en ciencias del aprendizaje que captura una calidad de colaboración de los grupos. Para cada grupo asignamos una puntuación en los nueves de dimensiones presentadas aquí.

Por ejemplo, cuán bien las personas sostuvieron la comprensión mutua o la facilidad con la que llegaron a un consenso. Estas puntuaciones tienen que recibir una inter confiabilidad aceptable con otra cuota. Por último, también podemos agregar esas puntuaciones en una métrica general que se aproxima a la calidad de colaboración para cada grupo.

Un resultado que se ha encontrado en nuestro trabajo, así como en otros estudios, es que la atención visual conjunta está significativamente correlacionada con la calidad de la colaboración, medida por el esquema de calificación presentado anteriormente. Los grupos que están altamente clasificados usando este esquema de codificación tienden a tener más atención visual conjunta que los grupos que recibieron puntuaciones bajas. Esto muestra que las interacciones productivas a menudo se asocian con una mayor atención visual de las articulaciones.

En la siguiente diapositiva voy a mostrarles otro resultado que se basa en este hallazgo. Por lo tanto, una ventaja de tener datos finos de seguimiento ocular es que podemos extraer otras medidas de atención visual de las articulaciones. Por ejemplo, podemos calcular quién inició y respondió a una oferta de atención visual conjunta.

En particular, en el eje X de este gráfico la puntuación de cero significa la distribución igual de estos comportamientos y una puntuación de uno significa que una persona siempre estaba respondiendo o iniciando momentos de atención visual de unión. En este estudio encontramos una correlación inversa con las ganancias de aprendizaje mostradas en el eje Y medida por pre y post-pruebas. Los grupos en los que la misma persona iniciaba o respondía constantemente a momentos de atención visual conjunta eran menos propensos a aprender y los grupos donde esta responsabilidad era igualmente compartida eran más propensos a puntuar más alto en las pruebas posteriores al controlar las puntuaciones en la prueba previa.

En este video he presentado la metodología que ayuda a los investigadores a sincronizar datos móviles de seguimiento ocular tanto temporal como espacialmente. Los hallazgos sugieren que los datos de seguimiento ocular dual pueden proporcionar indicadores de colaboración mediante medidas informáticas de atención visual conjunta. Además, he presentado resultados que muestran que podemos ir más allá de simples medidas de atención conjunta, por ejemplo, mirando quién inició o respondió a un episodio de atención visual conjunta.

Encontramos que esta medida estaba relacionada con otras medidas de resultados, como los beneficios de aprendizaje. Calcular este tipo de medida no sería posible sin datos de seguimiento ocular. En resumen, encontramos que la metodología presentada en este video puede ayudar a los investigadores a obtener nuevos conocimientos sobre los procesos colaborativos.

Muchas gracias por ver este video y no dude en consultar el periódico para obtener más información.

Summary

Automatically generated

El uso de sensores multimodales es una forma prometedora de entender el papel de las interacciones sociales en entornos educativos. Este artículo describe una metodología para capturar la atención visual conjunta de los diques colocados utilizando rastreadores oculares móviles.

Read Article