Entwicklung interaktiver künstlicher Intelligenz für personalisierte somatosensorische und rhythmische Bewertung in intelligenten Musikbildungsplattformen

Wang Min; Li Yan

doi:10.3791/69058

Research Article

Entwicklung interaktiver künstlicher Intelligenz für personalisierte somatosensorische und rhythmische Bewertung in intelligenten Musikbildungsplattformen

DOI:

10.3791/69058

⸱

December 19th, 2025

Wang Min¹ , Li Yan¹

¹Department of Art, Hefei College of Early Childhood Education

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie präsentiert ein reproduzierbares somatosensorisches Musiklernprotokoll, das Residual-LSTM-Erkennung mit TRPO für adaptive Schwierigkeiten kombiniert. Es behandelt Preprocessing, FFT-Funktionen, Training, Personalisierung und Evaluation. In einem öffentlichen Datensatz erreichte das Hybridmodell Acc 95,0 / P 93,5 / R 94,6 / F1 94,2 über drei subjekt-disjunkte Faltungen.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der traditionelle Musikunterricht weist oft keine Interaktivität und Anpassungsfähigkeit in Echtzeit auf, besonders in entfernten Umgebungen. Diese Studie führt ein personalisiertes somatosensorisches Framework, TRPO-ResLSTM, für Musikbildungsplattformen ein. Das System erfasst Bewegung, Rhythmus und Reaktionszeit, verarbeitet Daten mit Wiener-Filterung und Z-Score-Normalisierung vor und extrahiert Features mittels FFT. Gestenerkennung wird durch DeepRes-LSTM durchgeführt, während die adaptive Schwierigkeit durch TRPO-Verstärkungslernen reguliert wird. Inkrementelles Lernen sorgt für Personalisierung zwischen den Sitzungen. Experimente an einem öffentlich zugänglichen, anonymisierten Gestenrhythmus-Datensatz (n = 2.730 Stichproben; Training/Validierung/Test-Aufteilung 70/15/15) zeigen eine überlegene Leistung gegenüber multimodalen Baselines und erreichen 95 % Genauigkeit, 93,5 % Präzision, 94,6 % Erinnerung und 94,2 % F1-Score. Ablationsstudien bestätigen die individuellen Beiträge von TRPO und Res-LSTM. Die Innovation dieses Protokolls liegt in der Integration von Verstärkungslernen mit Residualzeitmodellierung für adaptive Gestenerkennung, was stabiles, aber personalisiertes Lernen ermöglicht. Diese Arbeit zeigt, dass adaptive, gestenresponsive Werkzeuge Engagement, Personalisierung und fortschreitende Kompetenzentwicklung in der intelligenten Musikausbildung fördern können. Einschränkungen umfassen die Abhängigkeit von einem einzigen Datensatz und die Notwendigkeit der Validierung durch echte Lernende, die die Richtungen für zukünftige Arbeiten festlegen.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Jüngste Fortschritte in der künstlichen Intelligenz (KI) und somatosensorischen Technologien verändern den Musikunterricht, indem sie es Lernenden ermöglichen, mit Musik durch Körperbewegungen zu interagieren, wobei Gesten in Noten, Rhythmen oder Steuerungen für virtuelle Instrumente^übersetzt ^werden. Diese interaktiven Funktionen verbessern Engagement, Bindung und Kreativität im Vergleich zum traditionellen Unterricht, und somatosensorische Werkzeuge ermöglichen es den Schülern, Rhythmus, Koordination und Ausdruck durch Körperperkussion, Gesten und Ensemble-Simulationen zu üben³. In Kombination mit KI-gesteuerten adaptiven Pfaden erhalten Lernende individuelle Inhalte, Echtzeitfeedback und eine fortschreitende Kompetenzentwicklung, die Motivation und Ergebnisse verbessern ^4,5.

Trotz dieser Entwicklungen basieren bestehende Plattformen oft auf begrenzten Modalitäten, fehlen eine kontinuierliche Personalisierung oder passen sich nicht an unterschiedliche kulturelle und physische Lernstile^an. Traditionelle Ansätze sind zudem nicht ausreichend bei der Umsetzung von Echtzeit-datenbasierten Anpassungen, die die sich entwickelnden Fähigkeiten des Lernenden widerspiegeln. Beispielsweise können Motion-Capture- und tragbare Geräte reichhaltige Datensätze erzeugen, werden jedoch oft in adaptiver Anleitung ^8,9 untergenutzt. Außerdem haben Musikbibliotheken und Lernmanagementsysteme zwar die Zugänglichkeit erweitert, bieten aber selten eine dynamische Personalisierung über die Sitzungen hinweg, was in multikulturellen und heterogenen^{Lernkontexten} entscheidend ist.

Um diese Lücken zu schließen, schlägt diese Studie einen neuartigen Trust Region Policy Optimized Deep Residual Long Short-Term Memory (TRPO-ResLSTM)-Rahmen für Musikbildungsplattformen¹¹ vor. Das System integriert fortschrittliche Vorverarbeitungsmethoden, darunter Wiener-Filterung und Z-Score-Normalisierung, mit einer schnellen Fourier-Transformation zur Extraktion von Merkmalen im Frequenzbereich. Res-LSTM bietet eine robuste Erkennung von Gesten und zeitlichen Sequenzen, während TRPO Reinforcement Learning die Aufgabenschwierigkeit dynamisch an die Leistung der Lernenden anpasst. Inkrementelles Lernen stärkt die Personalisierung weiter, indem Modelle über Sitzungen hinweg aktualisiert werden.

Experimente wurden am Kaggle-Musik-Gesten- und Rhythmusdatensatz durchgeführt, der 2.730 Proben umfasste, aufgeteilt in Trainings-, Validierungs- und Test-Subsets. Die Ergebnisse zeigen, dass die vorgeschlagene Methode konsequent die multimodalen Basisarchitekturen übertrifft und Genauigkeit, Präzision, Rückruf und F1-Werte im Bereich von 93 % bis 95 % erreicht. Ablationsanalysen bestätigen die Wirksamkeit sowohl der TRPO- als auch der Res-LSTM-Komponenten. Durch die Verbesserung der Rhythmusgenauigkeit, der Nutzerbindung und der Stabilität der Richtlinien in Echtzeit bietet das Framework eine praktische Lösung zur Verbesserung der Effizienz der Musikausbildung in ressourcenbegrenzten und fernen Lernumgebungen. Verwandte Arbeiten zur KI-gesteuerten Musikausbildung haben das Potenzial von somatosensorischer Beteiligung, adaptiver Lernpersonalisierung und sogar Anwendungen in Musiktherapie und automatisierter Komposition^{hervorgehoben} ^12,13. Diese Studie baut auf diesen Ergebnissen auf, indem sie ein reproduzierbares Protokoll anbietet, das Reinforcement Learning mit tiefgehender zeitlicher Modellierung kombiniert, um das Feld der intelligenten Musikausbildung voranzubringen.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie analysierte anonymisierte, öffentlich zugängliche Daten und betraf weder menschliche Probanden noch Tiere. Daher war keine zusätzliche ethische Zustimmung erforderlich.

1. Überblick

Dieses Protokoll beschreibt einen reproduzierbaren Rahmen für somatosensorische Musikausbildung, basierend auf tiefer Residual-LSTM-Erkennung und Trust Region Policy Optimization (TRPO) zur Kontrolle adaptiver Schwierigkeiten. Sie umfasst die Vorbereitung von Datensätzen, Vorverarbeitung, Extraktion von Frequenzdomänenmerkmalen, Modellarchitektur, Schulung, Personalisierung und Bewertung. Abbildung 1 zeigt den End-to-End-Workflow¹⁴.

2. Datensatz

Ein öffentlich zugänglicher, anonymisierter Datensatz für Musikgesten und Rhythmus wurde verwendet, der Körperreaktionen auf akustische Hinweise wie Tempo und Beatintensität aufzeichnet. Der Datensatz liefert multimodale Zeitreihendaten, die sich zur Untersuchung von Rhythmusausführung und Lernverhalten eignen. Jeder Datensatz enthält Bewegungsmuster, Timing- und Rhythmusgenauigkeitsmessungen, Reaktionsfeedback und Aufgabenabschlusszeit. Da der Datensatz vollständig anonymisiert und öffentlich zugänglich war, war keine zusätzliche^{Genehmigung des} institutionellen Überprüfungsausschusses erforderlich. Für Experimente wurden die Daten nach Probanden in Trainings-, Validierungs- und Testteilmengen aufgeteilt, um Identitätslecks zu vermeiden; detaillierte Statistiken und Split-Ratios sind in Tabelle 1 aufgeführt. Drei subjekt-disjunkte Falten wurden verwendet, feste zufällige Seeds über alle Durchläufe hinweg und identische Vorverarbeitung für alle Modellvarianten, um Vergleichbarkeit¹⁶ sicherzustellen.

Der Datensatz lieferte eine ausgewogene Verteilung rhythmischer Gesten, wobei Trainings-, Validierungs- und Testpartitionen vergleichbare Varianzen bei Timing- und Bewegungsmerkmalen zeigten. Deskriptive Statistiken (Median ± IQR) für Tempoabweichung und Bewegungsamplitude waren über Splits hinweg vergleichbar und deuten auf minimale Kovariatenverschiebung hin.

3. Datenvorverarbeitung

Z-Score-Normalisierung
Die Rohdaten wurden mittels Z-Score-Normalisierung standardisiert. Für Kanal c und Zeit t:
(1)
Wir berechneten μ_c und _{σ c} nur auf dem Trainingsset und wandten sie auf Validierungs- und Testsets an, um Leckage¹⁷ zu vermeiden.
Nach der Normalisierung zeigten alle Kanäle nahezu null Mittelwert und Einheitsvarianz, was eine Vergleichbarkeit zwischen den Teilnehmern gewährleistete. Chargenweise Diagnostik bestätigte keine Drift zwischen den Faltungen.
Wiener-Filterung
Um Rauschen zu unterdrücken, haben wir einen Wiener-Filter im Frequenzbereich angewendet:
(2)
wobei Y(k) das beobachtete Spektrum ist, \hat{X}(k) die entrauschte Schätzung und S_xx(k), S_nn(k) die Signal-/Rauschleistungs-Spektraldichten bezeichnen. Wir haben eine Fensterlänge und Überlappung verwendet, die mit downstream FFT übereinstimmen, um die Phasenkohärenz¹⁸ aufrechtzuerhalten.
Wiener-Filterung reduzierte hochfrequentes Rauschen um ~30 %, während dominante rhythmische Komponenten beibehalten wurden. Das Signal-Rausch-Verhältnis verbesserte sich, ohne beat-locked Peaks zu dämpfen.
Merkmalsextraktion (FFT)
Kurzzeitige FFT-Funktionen wurden auf überlappenden Fenstern verwendet:
(3)
Extrahierte Deskriptoren umfassten dominante Frequenz, spektralen Fluss und Band-Energie-Verhältnisse. Tempo-gesperrte Peak-Prominenz und Inter-Peak-Variabilität wurden ebenfalls berechnet, um die Mikro-Timing-Stabilität¹⁹ zu erfassen.
FFT zeigte klare spektrale Spitzen, die mit dem musikalischen Tempo (2–3 Hz) übereinstimmten und die rhythmische Struktur im Datensatz bestätigten. Das Peak-zu-Rausch-Verhältnis überschritt im Durchschnitt 6–8 dB in korrekt durchgeführten Studien.

4. Modell: TRPO-ResLSTM

Residuales LSTM (ResLSTM)
Zeitliche Muster wurden mit gestapelten LSTMs mit Restabkürzungen modelliert:
(4)
wobei P die Identität oder eine Projektion zur Übereinstimmung mit Dimensionen ist. Residualverbindungen mindern verschwindende Gradienten und ermöglichen tiefere temporale Stacks, während die Trainingsstabilität^{erhalten bleibt}.
Residualverbindungen verbesserten den Gradientenfluss und die Klassifikationsgenauigkeit im Vergleich zu einfachen LSTM. Ablationen zeigten eine Genauigkeit von +0,7–1,1 pp über nicht-residuelle Stacks bei vergleichbaren Parameterzählungen.
Optimierung der Treuhandregion (TRPO)
TRPO steuerte die Aufgabenschwierigkeit dynamisch. Die personalisierte Belohnung war:
(5)
mit Erfolgswert s_t, Tempoabweichung Δtempot, Gestendifferenz d_t (z. B. DTW-Entfernung oder Klassifikationsverlust) und einem Schaltindikator u_t (die häufige Schwierigkeitsänderungen bestraft). Wir haben ein Trust-Region-Ziel mit einer KL-Einschränkung optimiert:
(6)
1. Aufbau und Notation von Reinforcement-Learning
  Adaptive Schwierigkeit wurde als endlicher Horizont MDP formuliert, in dem der Zustand s_t gefensterte somatosensorische Merkmale (Beschleunigungskanäle, Handgelenkpositionen, Rhythmusdeskriptoren nach Normalisierung, Wiener-Filterung und FFT) aggregiert und die Aktion a_t ein diskretes Schwierigkeitsniveau ist, das Tempotoleranz und Gestenstrenge steuert. Die Belohnung r_t balanciert den Erfolg der Aufgabe, die Abweichung des Timings und das Engagement aus, mit einem kleinen Nachteil bei übermäßigem Schwierigkeitsgrad, um Oszillationen zu verhindern. Politik-Updates folgen TRPO mit einer KL-Divergenz-Einschränkung für konservative Schritte. In Gleichungen. (5-6) bezeichnet g(y,x) den aufgabenspezifischen Verlustgradienten, W(ζ) ist ein L2-Regularisator über den Parametern ζ, π_θ ist die stochastische Politik mit den Parametern θ, D_KL definiert die Vertrauensregion, γ der Abzinsungsfaktor und δ der Vertrauensbereichsradius. Hyperparameter α, β, γ, δ wurden per Rastersuche im Validierungssplit (Bereiche in Tabelle 2) ausgewählt, um Stabilität und Reaktionsfähigkeit auszubalancieren; Frühzeitige Stopps wurden ausgelöst, als der durchschnittliche KL 0,9²¹ erreichte.
2. Begründung versus Alternativen
  Die KL-eingeschränkten On-Policy-Updates von TRPO wurden für kleine, sitzungsnahe Batches und nicht-stationäres Lernverhalten bevorzugt; PPO/SAC bleiben vielversprechend und werden in zukünftigen Arbeiten²² benchmarked werden.
  TRPO erreichte stabiles Lernen und eine reibungslosere Schwierigkeitsanpassung als Baseline-Controller mit konsistenter Konvergenz. Die Lernkurven zeigten eine monotone Verbesserung und eine frühere KL-Stabilisierung für TRPO-ResLSTM als für Einzelkomponenten-Baselines.
Personalisierung und Sitzungsupdates
Inkrementelle Updates verbesserten nach jeder Benutzersitzung sowohl ResLSTM- als auch TRPO-Modelle mit geringen Lernraten und Übungspuffern. Wir nutzten einen kleinen Probenpuffer mit aktuellen Versuchen pro Lernender, um Drift zu vermeiden, und begrenzte Updates pro Sitzung auf ein festes Budget, um die Stabilität zu wahren. Die Personalisierungseffizienz wurde als relativer Gewinn in F1 zwischen der ersten und letzten Sitzung eines Lernenden innerhalb eines festen^{Horizonts 23} gemessen.
Die Personalisierung von Sitzung zu Sitzung erhöhte die benutzerspezifische Genauigkeit um 2 % bis 3 %, ohne dass es kaputt vergessen würde. Die Fortschritte waren bei Lernenden mit mittlerer Basisgenauigkeit am größten, was auf Spielraum für adaptives Gerüst hindeutet.
Algorithmus und Implementierung
Der vollständige Pseudocode ("Algorithmus 1: TRPO-ResLSTM") und eine Referenzimplementierung von Python 3.10.1 werden bereitgestellt als. Alle Abbildungen und Tabellen enthalten Messdefinitionen, Fehlerbalken und Stichprobengrößen. Wir berichten über den Mittelwert ± SD über drei subjekt-disjunkte Falten und bewerten intermodellartige Unterschiede mit wiederholten ANOVA- oder Friedman-Tests, je nach Bedarf mit multiplizitätsbereinigten Post-hoc-Vergleichen (α = 0,05). Um die Reproduzierbarkeit sicherzustellen, listen wir Paketversionen und GPU/CPU-Spezifikationen in der Materialtafel auf und fügen eine README mit Umgebung und Seed-Konfiguration²⁴ bei.
Das Protokoll reproduzierte konsequent Verbesserungen gegenüber multimodalen Baselines und validierte seine Reproduzierbarkeit. Unabhängige Wiederholungen über Samen ergaben <0,5 pp Varianz in der Genauigkeit für das integrierte Modell.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Versuchsaufbau
Das TRPO-ResLSTM-Framework wurde in Python 3.10.1 mit GPU-Beschleunigung implementiert. Die Rechenumgebung, die Bewegungssensor-Hardware und die Python-Bibliotheken sind in der Materialtabelle aufgeführt. Die Daten wurden in subjekt-disjunkte Trainings-/Validierungs-/Testpartitionen aufgeteilt, wie in Tabelle 1 (15.70.15) dargestellt. Wichtige Hyperparameter sind in Tabelle 2 zusammengefasst. Drei Modelle wurden bewerte...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie schlägt ein hybrides Protokoll vor, TRPO-ResLSTM, das Reinforcement Learning und residualzeitliche Modellierung für gestenbasierte Musikerziehung integriert. Durch die Kombination der Stabilität der Trust Region Policy Optimization (TRPO) mit der Sequenzlernkapazität verbleibender LSTMs liefert das Framework Echtzeit-Gestenerkennung zusammen mit adaptiver Schwierigkeitskontrolle, was personalisiertes Feedback und progressiven Kompetenzerwerb^ermöglicht...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren erklären keine Interessenkonflikte.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren danken ihren Kollegen für konstruktives Feedback zum Studiendesign und zur Manuskripterstellung. Dieses Werk erhielt keine spezifische Förderung von einer Förderagentur im öffentlichen, kommerziellen oder gemeinnützigen Sektor.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
Beschleunigungssensordaten	Kaggle (Gemeinfrei)	Multimodale Eingangssignale (Bewegungsmuster, Zeitfunktionen), enthalten im Datensatz
GPU-Arbeitsstation	NVIDIA Corporation, USA	Trainingshardware: NVIDIA RTX 3080 (10 GB), 32 GB RAM, Ubuntu 20.04
Hand- und Gelenkpositionsdaten	Kaggle (Gemeinfrei)	Somatosensorischer Input für Gestenerkennung
Matplotlib (v3.7)	https://matplotlib.org	Visualisierungsbibliothek zum Darstellen von Zahlen und Leistungskennzahlen
NumPy (v1.23)	https://numpy.org	Numerische Berechnungsbibliothek für Array-Operationen
Datensatz für öffentliche Musikgestik und Rhythmus	Kaggle (Gemeinfrei)	Anonymisierter Datensatz mit 2.730 Proben, der Körperreaktionen auf Tempo und Beat aufzeichnet; Verwendung für Training/Validierung/Tests (15.70.15)
Python 3.10.1	Python Software Foundation, https://www.python.org	Programmierumgebung für Modellimplementierung und -analyse
PyTorch (v1.13)	https://pytorch.org	Deep-Learning-Framework zur Implementierung von ResLSTM- und TRPO-Modulen
Scikit – Learn (v1.2)	https://scikit-learn.org	Maschinelle Lernprogramme für Vorverarbeitung und Bewertung
SciPy (v1.10)	https://scipy.org	Wissenschaftliche Rechenbibliothek (verwendet für Wiener-Filterung)

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wei, J., Karuppiah, M., Prathik, A. College music education and teaching based on AI techniques. Comput Electr Eng. 100, 107851(2022).
Yu, X., et al. Developments and applications of artificial intelligence in music education. Technol. 11 (2), 42(2023).
Fang, J. Artificial intelligence robots based on machine learning and visual algorithms for interactive experience assistance in music classrooms. Entertain Comput. 52, 100779(2025).
Zhang, S., Lu, X., Liu, X. Study on the influence of AI composition software on students' creative ability in music education. J Educ Technol Innov. 6 (2), (2024).
Feng, Y. Design and research of music teaching system based on virtual reality system in the context of education informatization. PLoS One. 18 (10), e0285331(2023).
Zhou, X. Entertainment performance robots application in music network classrooms based on speech sensor recognition and artificial intelligence. Entertain Comput. 52, 100782(2025).
Yu, H., Zou, Z. The music education and teaching innovation using blockchain technology supported by artificial intelligence. Int J Grid Util Comput. 14 (2-3), 278-296 (2023).
Hong Yun, Z., et al. A decision-support system for assessing the function of machine learning and artificial intelligence in music education for network games. Soft Comput. 26 (20), 11063-11075 (2022).
Dey, M. T., Patra, S., Mitra, S. Enhancing music education with innovative tools and techniques: The role of artificial intelligence in musical works. Enhancing Music Education With Innovative Tools and Techniques. , IGI Global. 19-50 (2025).
Lin, X., et al. The application of music therapy in the rehabilitation education of children with cerebral palsy. J Investig Med. 73 (1 Suppl. 1), (2025).
Wang, X. Design of vocal music teaching system platform for music majors based on artificial intelligence. Wirel Commun Mob Comput. 2022 (1), 5503834(2022).
Chen, Y., Sun, Y. The usage of artificial intelligence technology in music education system under deep learning. IEEE Access. , 130546-130556 (2024).
Yang, Y., et al. Multi-source and heterogeneous online music education mechanism: An artificial intelligence-driven approach. Fractals. 31 (6), 2340154(2023).
Sang, J. The intersection of technology and art: A study on AI-driven CTCL music teaching paradigm. , (2024).
Yin, Y. Research on technological innovation and application of music education transformation under the background of technology. J Educ Theory Pract. 2 (2), (2025).
Yuan, Y. Influencing factors and modeling methods of vocal music teaching quality supported by artificial intelligence technology. Int J Web Based Learn Teach Technol. 19 (1), 1-16 (2024).
Sanganeria, M., Gala, R. Tuning music education: AI-powered personalization in learning music. arXiv Prepr. , (2024).
Qiusi, M. Research on the improvement method of music education level under the background of AI technology. Mob Inf Syst. 2022 (1), 7616619(2022).
Xu, Z. Construction of an intelligent recognition and learning education platform of national music genre under deep learning. Front Psychol. 13, 843427(2022).
Wang, X., et al. College music teaching and ideological and political education integration mode based on deep learning. J Intell Syst. 31 (1), 466-476 (2022).
Tang, H., Zhang, Y., Zhang, Q. The use of deep learning-based intelligent music signal identification and generation technology in national music teaching. Front Psychol. 13, 762402(2022).
Artificial intelligence in music education: Exploring applications, benefits, and challenges. Yue, Y., Jing, Y. Proc Int Conf Educ Inf Technol, , 141-146 (2025).
Bai, A., Yeh, C. K., Hsieh, C. J., Taly, A. An efficient rehearsal scheme for catastrophic forgetting mitigation during multi-stage fine-tuning. arXiv Prepr. , (2024).
Ravi, N., Goel, A., Davis, J. C., Thiruvathukal, G. K. Improving the reproducibility of deep learning software: An initial investigation through a case study analysis. arXiv Prepr. , (2025).
Chen, J., Jin, F., Jiao, Y., Zhan, Y., Qin, X. Improving dynamic gesture recognition with attention-enhanced LSTM and grounding SAM. Electronics. 14 (9), 1793(2025).
Ouyang, F., Dai, X., Chen, S. Applying multimodal learning analytics to examine the immediate and delayed effects of instructor scaffoldings on small groups' collaborative programming. Int J STEM Educ. 9 (1), 45(2022).
Aoyama Lawrence,, Weinberger, L., A, Being in-sync: A multimodal framework on the emotional and cognitive synchronization of collaborative learners. Front Educ. , (2022).
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. Proximal policy optimization algorithms. arXiv Prepr. , (2017).
Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. PMLR. Haarnoja, T., Zhou, A., Abbeel, P., Levine, S. Proc Int Conf Mach Learn, , (2018).
Huang, S., Dossa, R. F. J., Raffin, A., Kanervisto, A., Wang, W. The 37 implementation details of proximal policy optimization. ICLR Blog Track. , https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ (2023).
Sclater, N., Bailey, P. Code of practice for learning analytics. , https://www.jisc.ac.uk/guides/code-of-practice-for-learning-analytics (2022).
Rabiner, L. R. A tutorial on hidden Markov models and selected applications in speech recognition. Proc IEEE. 77 (2), 257-286 (2002).
Tao, S., et al. MusicalPT: Augmenting physical therapy by integrating adaptive musical guidance to enhance exercise quality and patient experience. Proc ACM Interact Mob Wearable Ubiquitous Technol. 9 (3), 1-32 (2025).
Proverbio, A. M., Camporeale, E., Brusa, A. Multimodal recognition of emotions in music and facial expressions. Front Hum Neurosci. 14, 32(2025).
Kang, S. Adaptations, code-switching, and novelty with cultural integrity: Musicians performing and learning musical instruments in different musical traditions. J Res Music Educ. , (2025).
Han, Y., Han, L., Zeng, C., Zhao, W. The innovation path of VR technology integration into music classroom teaching in colleges and universities. Sci Rep. 15 (1), 12200(2025).
Huang, A. Y., Lu, O. H., Yang, S. J. Effects of artificial intelligence-enabled personalized recommendations on learners' learning engagement, motivation, and outcomes in a flipped classroom. Comput Educ. 194, 104684(2023).
Tao, S., et al. MusicalPT: Augmenting physical therapy by integrating adaptive musical guidance to enhance exercise quality and patient experience. Proc ACM Interact Mob Wearable Ubiquitous Technol. 9 (3), 1-32 (2025).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Entwicklung interaktiver künstlicher Intelligenz für personalisierte somatosensorische und rhythmische Bewertung in intelligenten Musikbildungsplattformen

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles