Разработка интерактивных инструментов искусственного интеллекта для персонализированной соматосенсорной и ритмической оценки на интеллектуальных образовательных платформах

Wang Min; Li Yan

doi:10.3791/69058

Research Article

Разработка интерактивных инструментов искусственного интеллекта для персонализированной соматосенсорной и ритмической оценки на интеллектуальных образовательных платформах

DOI:

10.3791/69058

⸱

December 19th, 2025

Wang Min¹ , Li Yan¹

¹Department of Art, Hefei College of Early Childhood Education

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В этом исследовании представлен воспроизводимый соматосенсорный протокол обучения музыке, сочетающий остаточное распознавание LSTM с TRPO для адаптивной сложности. Она охватывает предварительную обработку, функции FFT, обучение, персонализацию и оценку. В публичном наборе данных гибридная модель достигла Acc 95.0 / P 93.5 / R 94.6 / F1 94.2 по трём непересекающимся складкам.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Традиционное музыкальное образование часто не обладает интерактивностью и адаптивностью в реальном времени, особенно в удалённых условиях. В данном исследовании представлена персонализированная соматосенсорная структура TRPO-ResLSTM для платформ музыкального образования. Система фиксирует движение, ритм и время отклика, предварительно обрабатывает данные с помощью фильтрации Винера и нормализации Z-score, а также извлекает признаки с помощью FFT. Распознавание жестов осуществляется с помощью DeepRes-LSTM, а адаптивная сложность регулируется подкреплением обучения TRPO. Постепенное обучение обеспечивает персонализацию на протяжении всех сессий. Эксперименты на общедоступном, анонимизированном наборе данных по жестам-ритмам (n = 2 730 образцов; разделение обучения/валидации/тестирования 15.70.15) демонстрируют превосходящую производительность по сравнению с мультимодальными базовыми линиями, достигая точности 95%, точности 93,5%, воспоминания 94,6% и 94,2% результата F1. Исследования абляции подтверждают индивидуальный вклад TRPO и Res-LSTM. Инновация этого протокола заключается в интеграции обучения с подкреплением с остаточным временным моделированием для адаптивного распознавания жестов, что обеспечивает стабильное, но персонализированное обучение. Эта работа демонстрирует, что адаптивные, реагирующие на жесты инструменты могут повысить вовлечённость, персонализацию и прогрессивное развитие навыков в интеллектуальном музыкальном образовании. Ограничения включают зависимость от единого набора данных и необходимость валидации реальных обучающихся, что определяет направления для будущей работы.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Недавние достижения в области искусственного интеллекта (ИИ) и соматосенсорных технологий меняют музыкальное образование, позволяя учащимся взаимодействовать с музыкой через движения тела, где жесты преобразуются в ноты, ритмы или управление виртуальными^{инструментами} ^1,2. Эти интерактивные функции повышают вовлечённость, запоминание и креативность по сравнению с традиционным обучением в классе, а соматосенсорные инструменты позволяют студентам практиковать ритм, координацию и выражение с помощью перкуссии тела, дирижирования жестов и ансамблевых^{симуляций 3}. В сочетании с адаптивными путями на базе ИИ учащиеся получают индивидуальный контент, обратную связь в реальном времени и прогрессивное развитие навыков, которые улучшают мотивацию и результаты ^4,5.

Несмотря на эти изменения, существующие платформы часто опираются на ограниченные модальности, не имеют непрерывности персонализации или не адаптируются к разнообразным культурным и физическим стилям^{обучения} ^6,7. Традиционные подходы также не позволяют реализовать корректировки на основе данных в реальном времени, отражающие развивающиеся возможности обучающегося. Например, устройства захвата движения и носимые устройства могут генерировать богатые наборы данных, но часто недостаточно используются в адаптивном^{обучении} ^8,9. Кроме того, хотя музыкальные библиотеки и системы управления обучением расширили доступность, они редко обеспечивают динамичную персонализацию между сессиями, что критически важно в мультикультурных и гетерогенных образовательных^{контекстах 10}.

Для устранения этих пробелов в исследовании предлагается новая рамка Trust Region Optimized Deep Residual Long Short-Term Memory (TRPO-ResLSTM) для платформ музыкального^{образования 11}. Система интегрирует передовые методы предварительной обработки, включая фильтрацию Винера и нормализацию Z-score, с быстрым преобразованием Фурье для извлечения признаков в частотной области. Res-LSTM обеспечивает надёжное распознавание жестов и временных последовательностей, тогда как подкрепляющее обучение TRPO динамически корректирует сложность задачи в зависимости от результатов учащихся. Постепенное обучение дополнительно укрепляет персонализацию, обновляя модели на протяжении сессий.

Эксперименты проводились на наборе данных Kaggle по музыкальным жестам и ритмам, включающем 2 730 образцов, разделённых на подмножества обучения, валидации и тестирования. Результаты показывают, что предлагаемый метод стабильно превосходит базовые мультимодальные архитектуры, достигая точности, точности, отзыва и значений F1 в диапазоне 93%–95%. Абляционные анализы подтверждают эффективность как компонентов TRPO, так и Res-LSTM. Повышая точность ритма, вовлечённость пользователей и стабильность политики в реальном времени, фреймворк предоставляет практическое решение для повышения эффективности музыкального образования в условиях ограниченных ресурсов и дистанционного обучения. Связанные исследования по музыкальному образованию на базе искусственного интеллекта подчеркнули потенциал соматосенсорного взаимодействия, персонализации адаптивного обучения и даже применения в музыкальной терапии и автоматизированной^{композиции} ^12,13. Это исследование опирается на эти выводы, предлагая воспроизводимый протокол, который сочетает обучение с подкреплением и глубоким временным моделированием для продвижения области интеллектуального музыкального образования.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В этом исследовании анализировались анонимные, общедоступные данные и не участвовали в участии людей или животных. Поэтому дополнительное этическое одобрение не требовалось.

1. Обзор

Этот протокол описывает воспроизводимую структуру для соматосенсорного музыкального образования, основанную на глубоком остаточном распознавании LSTM и оптимизации политики региона доверия (TRPO) для адаптивного контроля сложности. Он включает подготовку наборов данных, предварительную обработку, извлечение признаков в частотной области, архитектуру моделей, обучение, персонализацию и оценку. Рисунок 1 иллюстрирует сквозной рабочий^{процесс 14}.

2. Набор данных

Использовался общедоступный, анонимизированный музыкальный набор жестов и ритмов, который фиксирует реакции тела на слуховые сигналы, такие как темп и интенсивность ритма. Набор данных предоставляет мультимодальные временные ряды, подходящие для изучения выполнения ритма и поведения обучения. Каждая запись содержит паттерны движения, измерения точности ритма и тайминг, обратную связь и время выполнения задач. Поскольку набор данных был полностью анонимизирован и доступен для общественности, дополнительное одобрение институциональной инспекционной комиссии не^{требовалось 15}. Для экспериментов данные делились по субъектам на подмножества обучения, валидации и тестирования, чтобы избежать утечки идентичности; подробная статистика и коэффициенты разделения приведены в таблице 1. Использовались три непересекающихся сгиба, фиксированные случайные семена на всех сериях и идентичная предварительная обработка для всех вариантов моделей для обеспечения^{сопоставимости 16}.

Набор данных предоставил сбалансированное распределение ритмических жестов, при этом обучающие, валидационные и тестовые разделы показывали сопоставимую вариацию в тайминге и особенностях движения. Описательная статистика (медиана ± IQR) по отклонению темпа и амплитуды движения была сопоставима между разделениями, что указывает на минимальный сдвиг ковариат.

3. Предварительная обработка данных

Нормализация Z-балла
Исходные данные стандартизировались с помощью нормализации Z-score. Для канала c и времени t:
(1)
Мы вычислили μ_c и σ c только на обучающем наборе и применили их к валидации и тестовым наборам, чтобы избежать утечки¹⁷.
После нормализации все каналы показали почти нулевую среднюю и единицную дисперсию, что обеспечило сопоставимость между участниками. По группам диагностика не показала дрейфа между складками.
Фильтрация Винера
Для подавления шума мы применили фильтр Винера в частотной области:
(2)
где Y(k) — наблюдаемый спектр, \hat{X}(k) — оценка безшума, а S_xx(k), S_nn(k) обозначают спектральные плотности мощности сигнала/шума. Мы использовали длину окна и перекрытие, соответствующие следующему FFT, чтобы поддерживать фазовую^{когерентность 18}.
Винер-фильтрация снизила высокочастотный шум на ~30%, сохранив при этом доминирующие ритмические компоненты. Соотношение сигнал/шум улучшилось без ослабления пиков, связанных с ритмом.
Извлечение признаков (FFT)
Функции кратковременного FFT использовались на перекрывающихся окнах:
(3)
Извлеченные дескрипторы включали доминирующую частоту, спектральный поток и отношение полос-энергии. Также были вычислены темпо-фиксированная выделённость пиков и изменчивость между пиками для фиксации стабильности микровремени¹⁹.
FFT выявил чёткие спектральные пики, соответствующие музыкальному темпу (2-3 Гц), подтверждая ритмическую структуру в наборе данных. В правильно проведённых испытаниях соотношение пиков к шуму превышало в среднем 6-8 дБ.

4. Модель: TRPO-ResLSTM

Остаточный LSTM (ResLSTM)
Временные паттерны моделировались с помощью стекированных LSTM с остаточными ярлыками:
(4)
где P — тождественная или проекция, соответствующая размерностям. Остаточные соединения смягчают нулевые градиенты и позволяют создавать более глубокие временные стеки, сохраняя при этом стабильность^{тренировки 20}.
Остаточные соединения улучшили градиентный поток и точность классификации по сравнению с обычным LSTM. Абляции показали точность +0,7-1,1 pp по неостаточным стекам при сопоставимом уровне параметров.
Оптимизация политики региона доверия (TRPO)
TRPO динамически управлял сложностью задачи. Персонализированное вознаграждение было следующим:
(5)
с показателем успеха s_t, отклонением темпаΔtempo t, непохожими жестами d_t (например, дистанция DTW или потеря классификации), а также индикатором переключателя u t (наказывая частые изменения сложности). Мы оптимизировали цель доверяющего региона с ограничением KL:
(6)
1. Настройка и обозначение обучения с подкреплением
  Адаптивная сложность была сформулирована как конечный горизонт MDP, в котором состояние s_t агрегирует оконные соматосенсорные признаки (каналы акселерометра, положения суставов рук, дескрипторы ритма после нормализации, фильтрация Винера и FFT), а действие a_t — это дискретный уровень сложности, контролирующий толерантность к темпу и строгость жестов. Награда r_t балансирует успех задачи, отклонение времени и вовлечённость, с небольшим штрафом за чрезмерную сложность переключения, чтобы предотвратить колебания. Обновления политики следуют за TRPO с ограничением на расхождения от KL для консервативных шагов. В уравнениях. (5-6), g(y,x) обозначает градиент потерь, специфичный для задачи, W(ζ) — регуляризатор L2 над параметрами ζ, _{π θ} — стохастическая политика с параметрами θ, D_KL определяет область доверия, γ — коэффициент дисконтирования, а δ — радиус области доверия. Гиперпараметры α, β, γ, δ были выбраны с помощью поиска по сетке на разделе валидации (диапазоны в таблице 2) для баланса стабильности и отзывчивости; ранняя остановка началась, когда средний уровень KL достиг 0,9²¹.
2. Обоснование против альтернатив
  Обновления политики TRPO с ограничением KL предпочитались для небольших сессионных пакетов и поведения учащихся; PPO/SAC остаются перспективными и будут оцениваться в будущих^{работах 22}.
  TRPO обеспечивал стабильное обучение и более плавную корректировку сложности по сравнению с базовыми контроллерами, обеспечивая стабильную сходимость. Кривая обучения показала монотонное улучшение и более раннюю стабилизацию KL для TRPO-ResLSTM по сравнению с однокомпонентными базовыми линиями.
Персонализация и обновления сессии
Инкрементальные обновления усовершенствовали как модели ResLSTM, так и TRPO после каждой пользовательской сессии с небольшими скоростями обучения и буферами для репетиций. Мы использовали небольшой репетиционный буфер из недавних испытаний на каждого учащегося, чтобы предотвратить дрейф, и ограничили обновления на сессию фиксированным бюджетом для сохранения стабильности. Эффективность персонализации измерялась как относительный прирост в F1 между первой и последней сессией учащегося в пределах фиксированного^{горизонта 23}.
Персонализация от сессии к сессии повысила точность пользователя на 2%-3% без катастрофических потерь. Наибольшие приросты были у учащихся с точностью среднего базового уровня, что указывает на запас для адаптивного каркасирования.
Алгоритм и реализация
Полный псевдокод («Алгоритм 1: TRPO-ResLSTM») и эталонная реализация Python 3.10.1 представлены в виде. Все рисунки и таблицы содержат определения измерений, шкалы ошибок и размеры выборок. Мы сообщаем среднее ± SD по трём непересекающимся складкам и оцениваем межмодельные различия с повторяющимися измерениями тестов ANOVA или Фридмана по мере необходимости, с учетом множественности пост-хок сравнений (α = 0,05). Для обеспечения воспроизводимости мы указываем версии пакетов и спецификации GPU/CPU в Таблице материалов , а также включаем README с конфигурацией среды и seed²⁴.
Протокол стабильно воспроизводил улучшения по сравнению с мультимодальными базовыми линиями, подтверждая их воспроизводимость. Независимые повторные проверки семян дали дисперсию точности <0,5 pp для интегрированной модели.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Экспериментальная установка
Фреймворк TRPO-ResLSTM был реализован на Python 3.10.1 с ускорением GPU. Вычислительная среда, аппаратное обеспечение для датчиков движения и библиотеки на Python приведены в таблице материалов. Данные были разделены на разделы обучения/валидации/тестирования, как показано в Таблице 1 (15.07.15). Ключевые гиперпараметры приведены в таблице 2. Были оценены три модели: базовый TRPO, базовый ResLSTM и интегрир...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В данном исследовании предлагается гибридный протокол TRPO-ResLSTM, который интегрирует обучение с подкреплением и остаточное временное моделирование для музыкального образования на основе жестов. Объединяя стабильность оптимизации политики региона доверия (TRPO) с возможностью последовательного обучения остаточных LSTM, фреймворк обеспечивает распознавание жестов в реальном времени вместе с адаптивным контролем сложности, обеспечивая персонализированную обратную связь и прогрессивное пр...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Авторы не заявляют о конфликтах интересов.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Авторы благодарят коллег за конструктивную обратную связь по дизайну исследования и подготовке рукописи. Эта работа не получила специального гранта от каких-либо фондов в государственном, коммерческом или некоммерческом секторе.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
Данные акселерометра с датчиков	Kaggle (общественное достояние)	Мультимодальные входные сигналы (паттерны движения, особенности тайминга), включённые в набор данных
Рабочая станция GPU	Корпорация NVIDIA, США	Оборудование для обучения: NVIDIA RTX 3080 (10 ГБ), 32 ГБ оперативной памяти, Ubuntu 20.04
Рука — данные положения суставов	Kaggle (общественное достояние)	Соматосенсорный ввод для распознавания жестов
Matplotlib (v3.7)	https://matplotlib.org	Библиотека визуализации для построения графиков и метрик производительности
NumPy (v1.23)	https://numpy.org	Численная вычислительная библиотека для операций с массивом
Публичный музыкальный набор жестов и ритмов	Kaggle (общественное достояние)	Анонимизированный набор данных из 2 730 образцов, фиксирующих реакции тела на темп и ритм; Используется для обучения/валидации/тестирования (15.70.15)
Python 3.10.1	Фонд программного обеспечения Python, https://www.python.org	Среда программирования для реализации и анализа модели
PyTorch (v1.13)	https://pytorch.org	Фреймворк глубокого обучения для реализации модулей ResLSTM и TRPO
SCIKIT - Учиться (v1.2)	https://scikit-learn.org	Утилиты машинного обучения для предварительной обработки и оценки
SciPy (v1.10)	https://scipy.org	Научная вычислительная библиотека (используется для фильтрации Винера)

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wei, J., Karuppiah, M., Prathik, A. College music education and teaching based on AI techniques. Comput Electr Eng. 100, 107851(2022).
Yu, X., et al. Developments and applications of artificial intelligence in music education. Technol. 11 (2), 42(2023).
Fang, J. Artificial intelligence robots based on machine learning and visual algorithms for interactive experience assistance in music classrooms. Entertain Comput. 52, 100779(2025).
Zhang, S., Lu, X., Liu, X. Study on the influence of AI composition software on students' creative ability in music education. J Educ Technol Innov. 6 (2), (2024).
Feng, Y. Design and research of music teaching system based on virtual reality system in the context of education informatization. PLoS One. 18 (10), e0285331(2023).
Zhou, X. Entertainment performance robots application in music network classrooms based on speech sensor recognition and artificial intelligence. Entertain Comput. 52, 100782(2025).
Yu, H., Zou, Z. The music education and teaching innovation using blockchain technology supported by artificial intelligence. Int J Grid Util Comput. 14 (2-3), 278-296 (2023).
Hong Yun, Z., et al. A decision-support system for assessing the function of machine learning and artificial intelligence in music education for network games. Soft Comput. 26 (20), 11063-11075 (2022).
Dey, M. T., Patra, S., Mitra, S. Enhancing music education with innovative tools and techniques: The role of artificial intelligence in musical works. Enhancing Music Education With Innovative Tools and Techniques. , IGI Global. 19-50 (2025).
Lin, X., et al. The application of music therapy in the rehabilitation education of children with cerebral palsy. J Investig Med. 73 (1 Suppl. 1), (2025).
Wang, X. Design of vocal music teaching system platform for music majors based on artificial intelligence. Wirel Commun Mob Comput. 2022 (1), 5503834(2022).
Chen, Y., Sun, Y. The usage of artificial intelligence technology in music education system under deep learning. IEEE Access. , 130546-130556 (2024).
Yang, Y., et al. Multi-source and heterogeneous online music education mechanism: An artificial intelligence-driven approach. Fractals. 31 (6), 2340154(2023).
Sang, J. The intersection of technology and art: A study on AI-driven CTCL music teaching paradigm. , (2024).
Yin, Y. Research on technological innovation and application of music education transformation under the background of technology. J Educ Theory Pract. 2 (2), (2025).
Yuan, Y. Influencing factors and modeling methods of vocal music teaching quality supported by artificial intelligence technology. Int J Web Based Learn Teach Technol. 19 (1), 1-16 (2024).
Sanganeria, M., Gala, R. Tuning music education: AI-powered personalization in learning music. arXiv Prepr. , (2024).
Qiusi, M. Research on the improvement method of music education level under the background of AI technology. Mob Inf Syst. 2022 (1), 7616619(2022).
Xu, Z. Construction of an intelligent recognition and learning education platform of national music genre under deep learning. Front Psychol. 13, 843427(2022).
Wang, X., et al. College music teaching and ideological and political education integration mode based on deep learning. J Intell Syst. 31 (1), 466-476 (2022).
Tang, H., Zhang, Y., Zhang, Q. The use of deep learning-based intelligent music signal identification and generation technology in national music teaching. Front Psychol. 13, 762402(2022).
Artificial intelligence in music education: Exploring applications, benefits, and challenges. Yue, Y., Jing, Y. Proc Int Conf Educ Inf Technol, , 141-146 (2025).
Bai, A., Yeh, C. K., Hsieh, C. J., Taly, A. An efficient rehearsal scheme for catastrophic forgetting mitigation during multi-stage fine-tuning. arXiv Prepr. , (2024).
Ravi, N., Goel, A., Davis, J. C., Thiruvathukal, G. K. Improving the reproducibility of deep learning software: An initial investigation through a case study analysis. arXiv Prepr. , (2025).
Chen, J., Jin, F., Jiao, Y., Zhan, Y., Qin, X. Improving dynamic gesture recognition with attention-enhanced LSTM and grounding SAM. Electronics. 14 (9), 1793(2025).
Ouyang, F., Dai, X., Chen, S. Applying multimodal learning analytics to examine the immediate and delayed effects of instructor scaffoldings on small groups' collaborative programming. Int J STEM Educ. 9 (1), 45(2022).
Aoyama Lawrence,, Weinberger, L., A, Being in-sync: A multimodal framework on the emotional and cognitive synchronization of collaborative learners. Front Educ. , (2022).
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. Proximal policy optimization algorithms. arXiv Prepr. , (2017).
Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. PMLR. Haarnoja, T., Zhou, A., Abbeel, P., Levine, S. Proc Int Conf Mach Learn, , (2018).
Huang, S., Dossa, R. F. J., Raffin, A., Kanervisto, A., Wang, W. The 37 implementation details of proximal policy optimization. ICLR Blog Track. , https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ (2023).
Sclater, N., Bailey, P. Code of practice for learning analytics. , https://www.jisc.ac.uk/guides/code-of-practice-for-learning-analytics (2022).
Rabiner, L. R. A tutorial on hidden Markov models and selected applications in speech recognition. Proc IEEE. 77 (2), 257-286 (2002).
Tao, S., et al. MusicalPT: Augmenting physical therapy by integrating adaptive musical guidance to enhance exercise quality and patient experience. Proc ACM Interact Mob Wearable Ubiquitous Technol. 9 (3), 1-32 (2025).
Proverbio, A. M., Camporeale, E., Brusa, A. Multimodal recognition of emotions in music and facial expressions. Front Hum Neurosci. 14, 32(2025).
Kang, S. Adaptations, code-switching, and novelty with cultural integrity: Musicians performing and learning musical instruments in different musical traditions. J Res Music Educ. , (2025).
Han, Y., Han, L., Zeng, C., Zhao, W. The innovation path of VR technology integration into music classroom teaching in colleges and universities. Sci Rep. 15 (1), 12200(2025).
Huang, A. Y., Lu, O. H., Yang, S. J. Effects of artificial intelligence-enabled personalized recommendations on learners' learning engagement, motivation, and outcomes in a flipped classroom. Comput Educ. 194, 104684(2023).
Tao, S., et al. MusicalPT: Augmenting physical therapy by integrating adaptive musical guidance to enhance exercise quality and patient experience. Proc ACM Interact Mob Wearable Ubiquitous Technol. 9 (3), 1-32 (2025).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles