RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
ru_RU
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
В этой статье предлагается система на основе искусственного интеллекта для автоматического определения того, обращают ли студенты внимание на класс или отвлекаются. Эта система предназначена для того, чтобы помочь учителям удерживать внимание учеников, оптимизировать их уроки и динамически вносить изменения, чтобы они были более увлекательными.
Уровень внимания учащихся в классе может быть повышен с помощью методов искусственного интеллекта (ИИ). Автоматически определяя уровень внимания, учителя могут использовать стратегии для восстановления концентрации внимания учащихся. Этого можно достичь с помощью различных источников информации.
Одним из источников является анализ эмоций, отражающихся на лицах студентов. ИИ может обнаруживать эмоции, такие как нейтральность, отвращение, удивление, грусть, страх, счастье и гнев. Кроме того, направление взгляда учащихся также потенциально может указывать на уровень их внимания. Другой источник – наблюдение за положением тела учеников. С помощью камер и методов глубокого обучения можно анализировать осанку, чтобы определить уровень внимания. Например, учащиеся, которые сутулятся или кладут голову на парты, могут иметь более низкий уровень внимания. Умные часы, раздаваемые студентам, могут предоставлять биометрические и другие данные, включая частоту сердечных сокращений и инерционные измерения, которые также могут использоваться в качестве индикаторов внимания. Комбинируя эти источники информации, систему ИИ можно обучить определять уровень внимания в классе. Однако интеграция различных типов данных представляет собой проблему, требующую создания помеченного набора данных. Для точной маркировки мы обращаемся к экспертам и существующим исследованиям. В данной статье мы предлагаем интегрировать такие измерения и создать набор данных и классификатор потенциального внимания. Чтобы обеспечить обратную связь с учителем, мы изучаем различные методы, такие как умные часы или компьютеры с прямым управлением. Как только учитель осознает проблемы с вниманием, он может скорректировать свой подход к обучению, чтобы снова вовлечь и мотивировать учеников. Таким образом, методы искусственного интеллекта могут автоматически определять уровень внимания учащихся, анализируя их эмоции, направление взгляда, положение тела и биометрические данные. Эта информация может помочь учителям в оптимизации процесса преподавания и обучения.
В современных образовательных учреждениях точная оценка и удержание внимания учащихся имеет решающее значение для эффективного преподавания и обучения. Тем не менее, традиционные методы измерения вовлеченности, такие как самоотчетность или субъективные наблюдения учителя, отнимают много времени и подвержены предубеждениям. Для решения этой проблемы методы искусственного интеллекта (ИИ) стали многообещающими решениями для автоматизированного обнаружения внимания. Одним из важных аспектов понимания уровня вовлеченности учащихся является распознавание эмоций1. Системы искусственного интеллекта могут анализировать выражения лица для выявления таких эмоций, как нейтральность, отвращение, удивление, печаль, страх, счастье и гнев.
Направление взгляда и положение тела также являются важными показателями внимания учащихся3. Используя камеры и передовые алгоритмы машинного обучения, системы искусственного интеллекта могут точно отслеживать, куда смотрят учащиеся, и анализировать их положение тела, чтобы обнаружить признаки отсутствия интереса или усталости4. Кроме того, включение биометрических данных повышает точность и надежность обнаружения внимания5. Собирая измерения, такие как частота сердечных сокращений и уровень насыщения крови кислородом, с помощью умных часов, которые носят учащиеся, можно получить объективные показатели внимания, дополняющие другие источники информации.
В этой статье предлагается система, которая оценивает уровень внимания человека с помощью цветных камер и других различных сенсоров. Он сочетает в себе распознавание эмоций, анализ направления взгляда, оценку осанки тела и биометрические данные, чтобы предоставить преподавателям полный набор инструментов для оптимизации процесса преподавания и обучения и повышения вовлеченности учащихся. Используя эти инструменты, преподаватели могут получить всестороннее представление о процессе преподавания и обучения и повысить вовлеченность учащихся, тем самым оптимизируя общий образовательный опыт. Применяя методы искусственного интеллекта, можно даже автоматически оценивать эти данные.
Основная цель данной работы — описать систему, которая позволяет нам захватывать всю информацию и, будучи захваченной, обучать модель искусственного интеллекта, которая позволяет нам привлекать внимание всего класса в режиме реального времени. Хотя в других работах уже предлагалось привлекать внимание с помощью визуальной или эмоциональнойинформации6, в этой работе предлагается комбинированное использование этих методов, что обеспечивает целостный подход, позволяющий использовать более сложные и эффективные методы ИИ. Более того, доступные до сих пор наборы данных ограничены либо набором видео, либо набором биометрических данных. В литературе отсутствуют датасеты, предоставляющие полные данные с изображениями лица учащегося или его тела, биометрические данные, данные о должности учителя и т.д. С помощью представленной здесь системы можно захватывать этот тип набора данных.
Система связывает уровень внимания с каждым учеником в каждый момент времени. Это значение представляет собой вероятностное значение внимания в диапазоне от 0% до 100%, которое можно интерпретировать как низкий уровень внимания (0%-40%), средний уровень внимания (40%-75%) и высокий уровень внимания (75%-100%). На протяжении всего текста эта вероятность внимания называется уровнем внимания, вниманием учащихся или тем, отвлечены ли студенты или нет, но все они связаны с одним и тем же выходным значением нашей системы.
С годами область автоматического обнаружения вовлечения значительно выросла благодаря своему потенциалу революционизировать образование. Исследователи предложили различные подходы к этой области исследований.
Ma et al.7 представили новый метод, основанный на нейронной машине Тьюринга для автоматического распознавания вовлеченности. Они извлекли определенные особенности, такие как взгляд, мимические единицы действий, поза головы и поза тела, чтобы создать всеобъемлющее представление о распознавании вовлеченности.
EyeTab8, еще одна инновационная система, использовала модели для оценки того, куда человек смотрит обоими глазами. Он был специально сделан для бесперебойной работы на стандартном планшете без каких-либо модификаций. Эта система использует известные алгоритмы обработки изображений и анализа компьютерного зрения. Их конвейер оценки взгляда включает в себя детектор глаз на основе функций Haar, а также подход к подгонке лимба на основе RANSAC.
Sanghvi et al.9 предлагают подход, который опирается на методы, основанные на зрении, для автоматического извлечения выразительных постуральных черт из видео, записанных с бокового обзора, фиксируя поведение детей. Проводится первичная оценка, включающая обучение множественных моделей распознавания с использованием контекстуализированных аффективных постуральных выражений. Полученные результаты демонстрируют, что паттерны постурального поведения могут эффективно предсказывать взаимодействие детей с роботом.
В других работах, таких как Гупта и др.10, метод, основанный на глубоком обучении, используется для определения вовлеченности онлайн-учащихся в режиме реального времени путем анализа их мимики и классификации их эмоций. Этот подход использует распознавание эмоций лица для расчета индекса вовлеченности (EI), который предсказывает два состояния вовлеченности: вовлеченность и невовлеченность. Различные модели глубокого обучения, включая Inception-V3, VGG19 и ResNet-50, оцениваются и сравниваются, чтобы определить наиболее эффективную модель предиктивной классификации для обнаружения взаимодействия в режиме реального времени.
В работе Altuwairqi et al.11 исследователи представили новый автоматический мультимодальный подход к оценке уровня вовлеченности учащихся в режиме реального времени. Чтобы обеспечить точные и надежные измерения, команда интегрировала и проанализировала три различных модальности, которые фиксируют поведение учащихся: выражения лица для выражения эмоций, нажатия клавиш на клавиатуре и движения мыши.
Guillén et al.12 предлагают разработку системы мониторинга, которая использует электрокардиографию (ЭКГ) в качестве первичного физиологического сигнала для анализа и прогнозирования наличия или отсутствия когнитивного внимания у людей во время выполнения задачи.
Албан и др.13 используют нейронную сеть (НС) для обнаружения эмоций путем анализа значений частоты сердечных сокращений (ЧСС) и электрокожной активности (ЭДА) различных участников как во временной, так и в частотной областях. Они обнаружили, что увеличение среднеквадратичного значения последовательных различий (RMSDD) и интервалов стандартного отклонения от нормы к норме (SDNN) в сочетании со снижением среднего ЧСС указывает на повышенную активность в симпатической нервной системе, которая связана со страхом.
Кадживара и др.14 предлагают инновационную систему, которая использует носимые датчики и глубокие нейронные сети для прогнозирования уровня эмоций и вовлеченности работников. Система состоит из трех этапов. Первоначально носимые датчики захватывают и собирают данные о поведении и пульсовых волнах. Впоследствии на основе полученных поведенческих и физиологических данных рассчитываются особенности временных рядов. Наконец, глубокие нейронные сети используются для ввода характеристик временных рядов и прогнозирования эмоций человека и уровня вовлеченности.
В других исследованиях, таких как Costante et al.15, предлагается подход, основанный на новом алгоритме обучения на основе трансферной метрики, который использует предварительные знания о предопределенном наборе жестов для улучшения распознавания жестов, определенных пользователем. Это улучшение достигается при минимальной зависимости от дополнительных обучающих выборок. Аналогичным образом, для решения задачи безличного распознавания сложных видов человеческой деятельности представлена основанная на датчиках структура16 для решения задачи обезличенного распознавания сложных видов человеческой деятельности. Данные сигнала, собранные с датчиков, носимых на запястье, используются в разработанной среде распознавания человеческой активности с использованием четырех моделей DL на основе RNN (долгосрочная-краткосрочная память, двунаправленная долгосрочная-краткосрочная память, стробированные рекуррентные единицы и двунаправленные стробные рекуррентные единицы) для исследования действий, выполняемых пользователем носимого устройства.
Следующий протокол соответствует рекомендациям комитета по этике исследований человека Университета Аликанте с утвержденным протоколом No UA-2022-11-12. Информированное согласие всех участников было получено для проведения данного эксперимента и использования приведенных здесь данных.
1. Аппаратное и программное обеспечение и настройка классов

Рисунок 1: Аппаратное обеспечение и конвейер данных. Данные камер и умных часов собираются и подаются в алгоритмы машинного обучения для обработки. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.

Рисунок 2: Положение датчиков, учителя и учеников. Схема, показывающая расположение камер, смарт-часов и графического интерфейса пользователя в классе с учителем и учениками. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
2. Конвейер захвата и обработки данных
ПРИМЕЧАНИЕ: Все эти шаги выполняются автоматически программным обеспечением, развернутым на сервере. Реализация, использованная для экспериментов в этой работе, была написана на Python 3.8.

Рисунок 3: Данные, собранные умными часами. Умные часы предоставляют гироскоп, акселерометр, частоту сердечных сокращений и состояние света в виде потоков данных. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.

Рисунок 4: Примеры категорий, рассматриваемых моделью распознавания активности. Модель распознавания действий распознает четыре различных действия: рукописный ввод, ввод текста на клавиатуре, использование смартфона и положение в положении покоя. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Целевой группой данного исследования являются студенты бакалавриата и магистратуры, поэтому основная возрастная группа – от 18 до 25 лет. Эта группа была выбрана потому, что они могут обращаться с электронными устройствами с меньшим количеством отвлекающих факторов, чем младшие школьники. Всего в группу входило 25 человек. Эта возрастная группа может предоставить наиболее надежные результаты для проверки предложения.
Результаты показа уровня внимания учителю состоят из 2 частей. В части А результата представлена индивидуальная информация о текущем уровне внимания каждого студента. Затем часть Б предназначена для привлечения среднего внимания всего класса и его временной истории на протяжении всего урока. Это позволяет нам уловить общую тенденцию внимания студента в классе и адаптировать методологию, используемую учителем, в режиме реального времени. Каждую секунду интерфейс запрашивает новую информацию с сервера. Кроме того, этот вид включает в себя использование уведомлений браузера, что позволяет демонстрировать радикальные изменения во внимании учеников ненавязчивым образом, в то время как учитель выполняет свои действия в обычном режиме, без необходимости держать этот графический интерфейс на переднем плане. Пример этого графического интерфейса можно увидеть на рисунке 5.

Рисунок 5: Графический пользовательский интерфейс системы. Уровень внимания отображается в графическом интерфейсе, доступ к которому может получить любой интернет-браузер на любом функциональном устройстве, таком как планшет, смартфон, настольный компьютер или ноутбук. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Что касается модели распознавания активности, то была определена рекуррентная нейронная сеть, такая, что она получает на вход последовательность из 200 измерений по 6 значений каждое: а именно, три значения от акселерометра и 3 от гироскопа. Модель имеет слой LSTM с 64 единицами, за которым следует активируемый SoftMax полносвязный слой с четырьмя выходными нейронами, по одному на каждую категорию. Архитектура изображена на рисунке 6.

Рисунок 6: Архитектура классификатора деятельности. В качестве входных данных модель принимает данные умных часов и обрабатывает их через слой LSTM, за которым следует полностью подключенный слой. Выходными данными является вероятность того, что выборка будет отображать каждое действие. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
В качестве выходных данных классификатор возвращает класс, соответствующий предполагаемому действию, выполняемому учащимся. Эта нейронная сеть была обучена с использованием данных, полученных от 6 разных людей. Каждый из них был записан во время выполнения действий из четырех различных категорий в течение 200 секунд. Все полученные данные дублировались, генерируя новый зеркальный набор данных путем инвертирования значения, полученного от датчиков по оси X. Это похоже на сбор данных как с правой, так и с левой руки всех людей. Это распространенная практика в области машинного обучения, которая предназначена для создания большего количества выборок из существующего набора данных, чтобы избежать переобучения.
200 измерений (одна запись в секунду) сгруппированы в потоки по 4 с, чтобы соответствовать входным данным из сети LSTM, перемещая окно по одной секунде за раз. В результате мы получили 197 комбинаций данных, полученных с интервалом в 4 с. Подводя итог, можно сказать, что в общей сложности имеется 9 456 входных данных, 6 человек, 4 класса, 2 руки и 197 тренировочных наборов. Данные были разделены на 90% обучения и 10% валидации, и сеть была обучена в течение 300 эпох и размера пакета 64.
Как показано на рисунке 7, модель обучалась в течение 300 эпох. Потери при валидации составили менее 0,1%, а точность валидации — 97%. Полученные метрики подчеркивают хорошую производительность модели.

Рисунок 7: Потери и точность при обучении и валидации. Потери и точность при обучении и валидации показывают, что производительность модели адекватна и не страдает от переобучения. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Наконец, результаты каждой подсистемы (поза головы, оценка позы, прогнозирование эмоций и распознавание активности) объединяются в повышающий классификатор, который предоставляет значение вероятности того, внимателен ли учащийся к уроку.
Чтобы продвинуть концептуальное и процедурное уточнение для точной маркировки и получения экспертного вклада, были проведены консультации с существующими исследованиями, как описано ниже.
Что касается экспертного вклада, то был выбран метод Дельфи 20,21,22, метод, который становится все более актуальным в технологической области 23. Как указывалось в предыдущей публикации, метод Дельфи определяется как итеративный, групповой и анонимный процесс для выработки мнений по определенной теме и поиска консенсуса среди экспертов поэтой теме. В представленном здесь случае 6 экспертов внесли свой вклад в течение 2 недель и 2 раундов консультаций, в соответствии с Ходяковым и др.24. В связи с важностью профиля участвующих экспертов, в консультации приняли участие академические специалисты из университетов в области психологии, педагогики и информатики. Для сбора данных был использован количественный метод. Результаты привели к консенсусу по поводу маркировки, используемой в этом исследовании.
Что касается исследований, которые легли в основу маркировки, мы начали с поискового исследования в основных базах данных, таких как WOS и Scopus. В этой связи стоит упомянуть вклад более ранних исследований 25,26,27,28. Все они рассматривают проблему ухода с конкретной точки зрения, но не целостным образом с помощью интеллектуальной системы, как это предполагается в данном исследовании. С другой стороны, есть исследования, которые объединяют два конкретных источника, например, в Zaletelj et al.29, где они сосредоточены на чертах лица и тела, но они далеки от глобальных подходов, таких как это исследование. В одной из предыдущих работ выделяется30, в которой приводится таксономия Познера, которая учтена в данном исследовании. Познер рассматривает внимание как набор изолированных нейронных систем (бдительность, ориентация и исполнительный контроль), которые часто работают вместе, организуяповедение.
Повышающий классификатор представляет собой ансамблевый алгоритм, который изучает веса для каждого слабого результата классификатора и генерирует окончательное значение с помощью взвешенной комбинации каждого отдельного решения. Эта информация, как обсуждалось в шаге 2.9, представляется в режиме реального времени через веб-интерфейс, чтобы учитель мог заметить резкие изменения в уровне внимания класса с помощью уведомлений браузера. С помощью этого интерфейса визуализации, который показывает эволюцию общего уровня внимания учащихся в режиме реального времени, учителя могут адаптировать свои классы для вовлечения учащихся в свои уроки и получить больше от урока.
В таблице 1 показана структура набора данных, которая состоит из следующих элементов: Отдельная камера: одно изображение в секунду с RGB 960 x 720 пикселей; Фотоаппараты «Зенит»: два снимка в секунду с разрешением 1920 x 1080 пикселей RGB; Гироскоп: 50 данных в секунду, каждый данные разлагается на 3 значения с плавающей запятой с 19 десятичными значениями, соответствующими координатам X, Y, Z. Измеряет угловое ускорение в °/с; Акселерометр: 50 данных в секунду, каждый данные разлагается на 3 значения с плавающей запятой с 19 десятичными знаками, соответствующими координатам X, Y, Z. Измеряет ускорение в м/с2; Вектор вращения: 50 данных в секунду, каждый данные разлагается на кватернион с 4 значениями с плавающей запятой и 19 знаками после запятой (со значениями от -1 до 1); Частота сердечных сокращений: одно значение в секунду для измерения ударов в минуту; Датчик освещенности: примерно 8-10 значений в секунду измерение уровня освещенности с целыми числами; Направление головы: Для каждого изображения 3 десятичных числа представляют ось X (крен), ось Y (тангаж) и ось Z (рысканье), которые указывают на наклон головы; Поза тела: Для каждого изображения 18 десятичных чисел представляют координаты X и Y 9 ключевых точек.
| Индивидуальная камера | Фотоаппараты «Зенитал» | Гироскоп | Акселерометр | Вектор вращения | Частота сердечных сокращений | Световое состояние | Направление движения | Поза тела |
| Изображение RGB с разрешением 960 x 720 пикселей | 2 x (1920 x 1080 пикселей) | 50 x 3 (XYZ) | 50 x 3 (XYZ) | 50 x кватернион | ударов в минуту | 10 х люмен | 3 (XYZ) десятичные цифры | 9 x 2 (XY) десятичные числа |
| RGB изображение | десятичные числа | десятичные числа |
Таблица 1: Структура набора данных. Набор данных показывает различные данные для целей классификации. Все отображаемые данные основаны на биометрических данных и изображениях, сделанных с разных камер.
Авторы заявляют, что у них нет известных конкурирующих финансовых интересов или личных отношений, которые могли бы повлиять на работу, описанную в этой статье.
В этой статье предлагается система на основе искусственного интеллекта для автоматического определения того, обращают ли студенты внимание на класс или отвлекаются. Эта система предназначена для того, чтобы помочь учителям удерживать внимание учеников, оптимизировать их уроки и динамически вносить изменения, чтобы они были более увлекательными.
Работа выполнена при финансовой поддержке Programa Prometeo, идентификатор проекта CIPROM/2021/017. Профессор Розабель Роиг является председателем Программы ЮНЕСКО «Образование, исследования и цифровая инклюзия».
| 4 графических процессора Nvidia A40 Ampere | NVIDIA | TCSA40M-PB | GPU для централизованной обработки моделей сервера |
| FusionServer 2288H V5 | X-Fusion | 02311XBK | Platform, которая включает в себя блок питания и материнскую плату для централизованной обработки моделей сервера |
| Карта памяти Evo Plus 128 ГБ | Samsung | MB-MC128KA/EU | Карта памяти для работы raspberry pi 4b 2gb. По одному на каждую малину. |
| NEMIX RAM - 512 ГБ Комплект DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM для централизованного сервера обработки моделей |
| Процессор Intel Xeon Gold 6330 | Intel | CD8068904572101 | Процессор для централизованной обработки моделей |
| сервера Raspberry PI 4B 2GB | Raspberry | 1822095 | Локальный сервер, который получает запросы от часов и отправляет их на общий сервер. Один раз в двух студентах. |
| Samsung Galaxy Watch 5 (40 мм) | Samsung | SM-R900NZAAPHE | Часы, которые следят за активностью каждого ученика. Для каждого студента. |
| Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch Ssd | Samsung | MZQL23T8HCLS-00B7C | Внутреннее хранилище для централизованной обработки моделей |
| сервер WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD. По одному на каждого студента плюс два на студенческие позы. |