Резюме

Методология захвата совместного визуального внимания с помощью мобильных глаз-трекеров

Published: January 18, 2020
doi:
Please note that all translations are automatically generated. Click here for the English version.

Резюме

Использование мультимодальных датчиков является многообещающим способом понять роль социальных взаимодействий в образовательных учреждениях. В настоящем документе описывается методология захвата совместного визуального внимания от колокационных диад с помощью мобильных глаз-трекеров.

Abstract

С появлением новых технологических достижений можно изучать социальные взаимодействия на микроуровне с беспрецедентной точностью. Высокочастотные датчики, такие как глаз-трекеры, электродермальная активность браслеты, ЭЭГ полосы, и датчики движения обеспечивают наблюдения на миллисекундном уровне. Такой уровень точности позволяет исследователям собирать большие наборы данных о социальных взаимодействиях. В этой статье я обсуждаю, как несколько глаз-трекеров может захватить фундаментальную конструкцию в социальных взаимодействиях, совместное визуальное внимание (JVA). JVA был изучен психологов развития, чтобы понять, как дети приобретают язык, обучение ученых, чтобы понять, как небольшие группы учащихся работают вместе, и социологи, чтобы понять взаимодействия в небольших группах. В настоящем документе описывается методология захвата JVA в колокационных настройках с помощью мобильных глаз-трекеров. Он представляет некоторые эмпирические результаты и обсуждает последствия захвата микронаблюдений для понимания социальных взаимодействий.

Introduction

JVA была широко изучена в течение последнего столетия, особенно психологов по развитию, изучающих приобретение языка. Было быстро установлено, что совместное внимание больше, чем просто способ узнать слова, а скорее предшественником детских теорий ума1. Таким образом, он играет важную роль во многих социальных процессах, таких как общение с другими людьми, сотрудничество и развитие эмпатии. Аутистических детей, например, не хватает возможности координировать свое визуальное внимание со своими воспитателями, что связано со значительными социальными нарушениями2. Людям необходимо совместное внимание, чтобы стать функциональными членами общества, координировать свои действия и учиться у других. От детей, приобретающих свои первые слова, подростков, обучающихся у школьных учителей, студентов, сотрудничающих над проектами, и групп взрослых, работающих над достижением общих целей, совместное внимание является фундаментальным механизмом для установления общей позиции между людьми3. В этой статье я сосредотачиваюсь на изучении JVA в области образовательных исследований. Понимание того, как совместное внимание разворачивается с течением времени, имеет первостепенное значение для изучения совместных процессов обучения. Как таковой, он играет доминирующую роль в социокструктивистских условиях.

Точное определение совместного внимания по-прежнему обсуждается4. Этот документ касается подконструкции совместного внимания (JA), а именно JVA. JVA происходит, когда два предмета смотрят на одном и том же месте в то же время. Следует отметить, что JVA не предоставляет никакой информации о других важных конструкциях, представляющих интерес для изучения JA, таких как мониторинг общего, взаимного и общего внимания, или, в более общем плане, осведомленности о познании другого члена группы. Этот документ упрощает и упрощает JVA путем объединения глаз отслеживания данных от двух участников и анализа частоты, в которой они выравнивают их взгляды. Для более всестороннего обсуждения, заинтересованный читатель может узнать больше об изучении конструкции JA в Siposovaet al.4.

За последнее десятилетие технологический прогресс коренным образом изменил исследования jVA. Основной сдвиг парадигмы заключается в использовании нескольких глаз-трекеров для получения количественных показателей внимания выравнивания, в отличие от качественного анализа видеозаписей в лаборатории или экологической обстановке. Такое развитие событий позволило исследователям собрать точную и подробную информацию о зрительной координации диад. Кроме того, глаз-трекеры становятся все более доступными: до недавнего времени их использование было зарезервировано для академических параметров или крупных корпораций. Теперь можно приобрести недорогие глаз-трекеры, которые генерируют надежные наборы данных. Наконец, постепенное включение возможностей слежения за взглядом в существующие устройства, такие как ноутбуки высокого класса и гарнитуры виртуальной и дополненной реальности, предполагает, что отслеживание глаз скоро станет повсеместным.

Из-за популяризации устройств слежения за глазами, важно понимать, что они могут и не могут рассказать нам о социальных взаимодействиях. Методология, представленная в настоящем документе, знаменует собой первый шаг в этом направлении. Я решаю две задачи в захвате JVA из нескольких глаз-трекеров: синхронизация данных на 1) временной шкале, и 2) по пространственной шкале. В частности, в этом протоколе используются фидуциальные маркеры, размещенные в реальных средах, для информирования алгоритмов компьютерного зрения, где участники ориентируются. Этот новый вид методологии прокладывает путь к тщательному анализу поведения человека в небольших группах.

Этот протокол исследования соответствует руководящим принципам комитета по этике исследований человека Гарвардского университета.

протокол

1. Скрининг участников Убедитесь, что участники с нормальным или исправленным к нормальному зрению набираются. Поскольку участникам будет предложено носить мобильный глаз-трекер, они могут носить контактные линзы, но не обычные очки. 2. Подготовка к эксперименту Устройства для слежения за глазами Используйте любой мобильный глаз-трекер, способный захватывать движение глаз в реальных условиях.ПРИМЕЧАНИЕ: Мобильные глаз-трекеры, используемые здесь были два Tobii Pro очки 2 (см. Таблица материалов). В дополнение к специализированным камерам, которые могут отслеживать движения глаз, очки также оснащены камерой HD сцены и микрофоном, так что взгляд может быть визуализирован в контексте поля зрения пользователя. Эти очки захватывают данные взгляда 50 раз в секунду. Другие исследователи использовали ASL Mobile Eye5, SMI6, или ученик-лаборатории7, все из которых обеспечивают видео потоки из сцены камеры и глаз отслеживания координат с различной скоростью отбора проб (30-120 Гц). Процедура ниже может немного отличаться с другими устройствами слежения за глазами. Фидуциальные маркеры Два шага ниже (т.е. временные и пространственные выравнивания) требуют использования фидуциальных маркеров. Есть несколько библиотек компьютерного зрения, которые предоставляют исследователям эти маркеры и алгоритмы, чтобы обнаружить их на изображении или видео-канал. Описанный протокол использует библиотеку Chilitag8. Временное выравнивание Поскольку данные слежения за глазами регистрируются на двух отдельных единицах, убедитесь, что данные должным образом синхронизированы(рисунок 1). Можно использовать два основных метода. Данная рукопись охватывает только первый метод, потому что синхронизация серверов работает по-разному с каждой маркой мобильного глаз-трекера. Кратко отображаем фидуциальный маркер на экране компьютера, чтобы отметить начало и конец сеанса. Это похоже на визуальный “хлопать в ладоши”(рисунок 2). Кроме того, используйте сервер для синхронизации часов двух единиц сбора данных. Этот метод является немного более точным и рекомендуется, если требуется более высокая висхотиваемые точность. Пространственное выравнивание Чтобы узнать, смотрят ли два участника на одно и то же место одновременно, наденьте свои взгляды на общую плоскость. Эта плоскость может быть изображением экспериментальной настройки (см. левую сторону рисунка 3). Тщательно спроектируйте это изображение перед экспериментом. Размер фидуциальных маркеров: Общий размер фидуциальных маркеров зависит от алгоритма, используемого для их обнаружения из видео слежения за глазами. Поверхности, близкие к участникам, могут иметь меньшие фидуциальные маркеры, в то время как поверхности, расположенные дальше от них, должны быть больше, чтобы они выглядели похожими с точки зрения участников. Попробуйте различные размеры заранее, чтобы убедиться, что они могут быть обнаружены из глаз отслеживания видео. Количество фидуциальных маркеров: Чтобы сделать процесс отображения взгляда указывает на общую плоскость успешной, убедитесь, что несколько фидуциальных маркеров видны с точки зрения участников в любой момент времени. Расположение фидуциальных маркеров: Кадр соответствующих областей, представляющих интерес с полосками фидуциальных маркеров (например, см. экран ноутбука на рисунке 3). Наконец, запустите пилоты для тестирования процедуры синхронизации и определения оптимального местоположения, размера и количества фидуциальных маркеров. Видео слежения за глазами можно обрабатывать с помощью алгоритма компьютерного зрения, чтобы увидеть, надежно ли обнаружены фидуциальные маркеры. 3. Запуск эксперимента Инструкции Поручить участникам надеть очки для слежения за глазами, как они будут нормальной пары очков. Исходя из отличительных черт участников, для сохранения качества данных, возможно, потребуется использовать фрагменты носа различной высоты. После включения глаз-трекера, пусть участники зажимают блок записи к себе, чтобы обеспечить естественное движение тела. Калибровки Поручить участникам посмотреть на центр маркера калибровки, предоставленного Tobii, в то время как функция калибровки программного обеспечения включена. После завершения калибровки запись может быть запущена из программного обеспечения. Поручить участникам не перемещать мобильные глаз-трекеры после калибровки. Если они это сделают, данные, скорее всего, будут неточными, и процедура калибровки должна быть выполнена снова. Мониторинг данных Мониторинг процесса сбора данных в ходе исследования и обеспечение надлежащего сбора данных с отслеживания глаз. Большинство мобильных глаз-трекеров может обеспечить живой эфир на отдельном устройстве (например, планшет) для этой цели. Экспорт данных После завершения сеанса записи поручить участнику удалить очки для слежения за глазами и единицу сбора данных. Выключите устройство. Извлекайте данные с помощью другого программного обеспечения, Tobii Pro Lab, удалив SD-карту из единицы сбора данных, импортирующей данные сеанса. Tobii Pro Lab можно использовать для воспроизведения видео, создания визуализаций и экспорта данных слежения за глазами в виде файлов, разделенных запятой (.csv) или файлов, разделенных на вкладках (.tsv). 4. Предварительная обработка данных двойного слежения за глазами Проверка смягщейости данных слежения Проверьте данные слежения за глазами визуально после сбора данных. Это не редкость для некоторых участников, чтобы иметь отсутствующие данные. Например, определенная физиология глаз может создавать проблемы алгоритмам слежения за глазами, очки могут смещаться во время эксперимента, программное обеспечение для сбора данных может выйти из строя и т.д. Используйте описательную статистику, чтобы проверить, сколько данных было потеряно во время каждого сеанса, и исключить сеансы, в которых есть значительное количество отсутствующих или шумных данных. Временное выравнивание Обрезать данные с каждого мобильного глаз-трекера, чтобы включить только взаимодействия между участниками. Это может быть достигнуто с помощью описанного выше метода (т.е. представления двух специальных фидуциальных маркеров участникам в начале и в конце сессии). Эти фидуциальные маркеры могут быть обнаружены из видео слежения за глазами, чтобы обрезать наборы данных. Пространственное выравниваниеПРИМЕЧАНИЕ: Чтобы определить, смотрят ли два участника на одно и то же место одновременно, необходимо переоставить взгляд участников на общую плоскость (т.е. изображение экспериментальной настройки). Вычислительный метод для достижения этой цели является гомография (т.е. перспективная трансформация плоскости). С технической точки зрения два изображения одной и той же планарной поверхности в космосе связаны с матрицей гомографии. На основе общего набора точек эта матрица может использоваться для определения расположения дополнительных точек между двумя плоскостями. На рисунке 3, например, если алгоритм компьютерного зрения знает, где фидуциальные маркеры находятся на раздаточном, он может переоставить взгляд участника на общую плоскость на левой стороне. Белые линии соединяют два набора точек, разделяемых видеоканалом каждого участника и сценой, которые затем используются для создания гомографии для перекарты зеленых и синих точек на левой стороне. Используйте версию Python OpenCV, например, для вычисления матрицы гомографии из фидуциальных маркеров, а затем переопогнать данные слежения за глазами к месту экспериментальной настройки (или любой другой подходящей библиотеке на вашем языке выбора). OpenCV предоставляет две полезные функции: findHomography () для получения матрицы гомографии и perspectiveTransform() для преобразования точки с одной точки зрения на другую. Для использования findHomography (), запустить с двумя аргументами: X, Y координаты исходных точек (т.е. фидуциальные маркеры, обнаруженные из сцены видео участников, показанные справа на рисунке 3) и соответствующие точки назначения (т.е. те же фидуциальные маркеры обнаружены на изображении сцены, показано слева на рисунке 3). Кормите полученную матрицу гомографии в функцию perspectiveTransform() наряду с новой точкой, которая должна быть отображена от исходного изображения к изображению назначения (например, данные отслеживания глаз, показанные как синяя/зеленая точка на правой стороне рисунка 3). Функция perspectiveTransform возвращает новую координату той же точки на изображении сцены (т.е. синие/зеленые точки, показанные на левой стороне рисунка 3).ПРИМЕЧАНИЕ: Для получения дополнительной информации в официальной документации OpenCV приводится пример кода и примеры для реализации гомографии: docs.opencv.org/master/d1/de0/tutorial_py_feature_homography.html. Санити проверки гомографии Заполните раздел 4.3 для всего сеанса, и выполнить гомографию на каждом кадре мобильного видео слежения за глазами, чтобы проверить качество гомографии. Хотя нет автоматизированных способов оценки точности полученных данных слежения за глазами, видео, подобные тому, что показано на рисунке 4, следует использовать для проверки вменяемости вручную для проверки вменяемости каждого сеанса. Если качество ниже, чем ожидалось, рассмотреть дополнительные параметры для улучшения результатов гомографии: Количество обнаруженных фидуциальных маркеров: только выполнять гомографии, если достаточно фидуциальных маркеров могут быть обнаружены из видео потока. Это число можно определить, изучив видео, произведенное выше. Расположение фидуциальных маркеров: Если различные маркеры находятся на разных глубинах и ориентациях, качество гомографии обычно увеличивается, когда маркеры, наиболее близкие к координатам взгляда, выбраны, учитывая, что есть достаточно маркеров, чтобы построить надежный гомография. Ориентация фидуциальных маркеров: Объединение фидуциальных маркеров, которые имеют различные ориентации (например, горизонтальные и вертикальные) будет производить неточные гомографии. Рекомендуется сначала определить, какой самолет или области интересов (AOIs) участник смотрит на (например, экран компьютера, шпаргалка, таблица, см. Рисунок 3), а затем использовать фидуциарные маркеры на этом самолете для гомографии. Качество видеопотока: Внезапные движения головы могут размыть видеорамки и сделать данные непригодными для использования, потому что фидуциальные маркеры не могут быть надежно обнаружены (Рисунок 4). Методология этого документа не подходит для экспериментов, которые включают в себя много резких движений головы. 5. Анализ данных двойного слежения за глазами Отсутствующие данные Для того, чтобы убедиться, что данные были должным образом перебрасываются на эталонное изображение, производить графики визуализации (например, рисунок 5, рисунок 6) и описательную статистику, чтобы проверить, сколько данных отсутствует. Графики перекрестного повторения Используйте графики перекрестного повторения9 для представления визуальной синхронизации между двумя участниками(рисунок 6),где X-ось представляет время для первого участника, а оси Y представляет время для второго участника. Черные квадраты показывают, что участники смотрят на одну и ту же область, черная диагональная линия описывает два предмета, смотрящих на одно и то же время, и черные квадраты от диагональной линии, описывающие, когда два субъекта смотрят на одно и то же с временной лагом. Наконец, дифференциация между недостающими данными (белый квадрат) и существующими данными без JVA (серые квадраты) помогает определить проблемные сеансы. Это дает исследователям проверку визуального вменяемости. Вычислительная JVA После фильтрации недостающих данных вычислите метрику для JVA, подсчитав количество раз, когда взгляды участников находятся в том же радиусе сцены (определено ниже) в часовом окне времени -2 / 2. Разделите это число на количество действительных точек данных, которые могут быть использованы для вычисления JVA. Результат разделения представляет собой процент времени, что два субъекта совместно смотрели на одном и том же месте. Этот последний шаг необходим, чтобы избежать раздувания десятков групп с большим количеством данных после гомографии.ПРИМЕЧАНИЕ: Два параметра должны быть установлены, прежде чем JVA может быть вычислена, минимальное расстояние между двумя точками взгляда, и временное окно между ними (Рисунок 7): 1) Время окна: раннее фундаментальное исследование10 использовали один глаз-трекер для измерения JVA между слушателем и оратором. Исследователи попросили первый набор участников (“спикеров”) рассказать о телевизионном шоу, чьи персонажи были показаны перед ними. Второй набор участников (“слушателей”) затем смотрел то же шоу во время прослушивания аудиозаписи ораторов. Были сравнены движения глаз динамиков и слушателей, и было установлено, что движения глаз слушателя тесно совпадают с движением глаз говорящего с задержкой в 2 с. В последующей работе11 исследователей проанализировали живые диалоги и обнаружили, что задержка 3 с лучшими захваченными моментами JVA. Поскольку каждая задача уникальна и может иметь различные временные лаги, также предлагается изучить, как различные временные лаги влияют на результаты данного эксперимента. В целом, обычно можно искать JVA в окне времени 2/3 в зависимости от экспериментальной задачи, а затем исследовать, как различные временные лаги могут изменить результаты. 2) Расстояние между взглядами: нет эмпирически определенного расстояния между двумя взглядами для них, чтобы считаться JVA. Это расстояние зависит от исследовательских вопросов, определенных исследователями. Вопросы исследований должны информировать о размере целей, представляющих интерес. В примере, показанном на рисунке 7,радиус 100 пикселей на изображении сцены (синие/зеленые круги) был выбран для анализа, поскольку достаточно запечатлеть, когда участники смотрят на робота в лабиринте, а также на аналогичные элементы пользовательского интерфейса на экране компьютера, которые являются двумя основными областями, представляющими интерес для этой экспериментальной задачи.

Representative Results

Методология, представленная выше, была использована для обучения студентов, которые следовали программе профессионального обучения в области логистики (n No 54)12. В этом эксперименте пары студентов взаимодействовали с осязаемым пользовательским интерфейсом (TUI), который ими…

Discussion

Методология, описанная в настоящем документе, обеспечивает строгий способ захвата JVA в колокационных диадах. С появлением доступной технологии зондирования и усовершенствованных алгоритмов компьютерного зрения, теперь можно изучать совместное взаимодействие с точностью, которая ра?…

Раскрытие информации

The authors have nothing to disclose.

Acknowledgements

Разработка этой методологии была поддержана Национальным научным фондом (NSF #0835854), ведущим домом технологий образования для призвания, финансируемых Швейцарским государственным секретариатом по образованию, исследованиям и инновациям, и Декан венчурный фонд Гарвардской школы образования.

Materials

Tobii Glasses 2 Tobii N/A https://www.tobiipro.com/product-listing/tobii-pro-glasses-2/
Fiducial markers Chili lab – EPFL, Switzerland N/A https://github.com/chili-epfl/chilitags

Ссылки

  1. Tomasello, M., Moore, C., Dunham, P. J. Joint attention as social cognition. Joint attention: Its origins and role in development. , 103-130 (1995).
  2. Mundy, P., Sigman, M., Kasari, C. A longitudinal study of joint attention and language development in autistic children. Journal of Autism and Developmental Disorders. 20, 115-128 (1990).
  3. Clark, H. H., Brennan, S. E., Resnick, L. B., Levine, J. M., Teasley, S. D. Grounding in communication. Perspectives on socially shared cognition. , 127-149 (1991).
  4. Siposova, B., Carpenter, M. A new look at joint attention and common knowledge. Cognition. 189, 260-274 (2019).
  5. Gergle, D., Clark, A. T. See What I’m Saying?: Using Dyadic Mobile Eye Tracking to Study Collaborative Reference. Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work. , 435-444 (2011).
  6. Renner, P., Pfeiffer, T., Wachsmuth, I., Freksa, C., Nebel, B., Hegarty, M., Barkowsky, T. Spatial References with Gaze and Pointing in Shared Space of Humans and Robots. Spatial Cognition IX. , 121-136 (2014).
  7. Shvarts, A. Y. Automatic detection of gaze convergence in multimodal collaboration: a dual eye-tracking technology. The Russian Journal of Cognitive Science. 5, 4 (2018).
  8. . Chilitags: Robust Fiducial Markers for Augmented Reality [software] Available from: https://github.com/chili-epfl/qml-chilitags (2013)
  9. Jermann, P., Mullins, D., Nüssli, M. -. A., Dillenbourg, P. Collaborative Gaze Footprints: Correlates of Interaction Quality. Connecting Computer-Supported Collaborative Learning to Policy and Practice. CSCL2011 Conference Proceedings., Volume I – Long Papers. , 184-191 (2011).
  10. Richardson, D. C., Dale, R. Looking To Understand: The Coupling Between Speakers’ and Listeners’ Eye Movements and Its Relationship to Discourse Comprehension. Trends in Cognitive Sciences. 29, 1045-1060 (2005).
  11. Richardson, D. C., Dale, R., Kirkham, N. Z. The Art of Conversation Is Coordination Common Ground and the Coupling of Eye Movements During Dialogue. Psychological Science. 18, 407-413 (2007).
  12. Schneider, B., et al. Using Mobile Eye-Trackers to Unpack the Perceptual Benefits of a Tangible User Interface for Collaborative Learning. ACM Transactions on Computer-Human Interaction. 23, 1-23 (2016).
  13. Meier, A., Spada, H., Rummel, N. A rating scheme for assessing the quality of computer-supported collaboration processes. Int. J. Comput.-Support. Collab. Learn. 2, 63-86 (2007).
  14. Schneider, B., Pea, R. Real-time mutual gaze perception enhances collaborative learning and collaboration quality. Journal of Computer-Supported Collaborative Learning. 8, 375-397 (2013).

Play Video

Cite This Article
Schneider, B. A Methodology for Capturing Joint Visual Attention Using Mobile Eye-Trackers. J. Vis. Exp. (155), e60670, doi:10.3791/60670 (2020).

View Video