インテリジェント音楽教育プラットフォームにおけるパーソナライズされた体感およびリズム評価のためのインタラクティブ人工知能ツールの開発

Wang Min; Li Yan

doi:10.3791/69058

Research Article

インテリジェント音楽教育プラットフォームにおけるパーソナライズされた体感およびリズム評価のためのインタラクティブ人工知能ツールの開発

DOI:

10.3791/69058

⸱

December 19th, 2025

Wang Min¹ , Li Yan¹

¹Department of Art, Hefei College of Early Childhood Education

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究は、残留LSTM認識とTRPOを組み合わせた、適応難易度に対する再現可能な体性感覚音楽学習プロトコルを提示します。前処理、FFT機能、トレーニング、パーソナライズ、評価をカバーしています。公開データセットでは、ハイブリッドモデルは3つの主体非相斥フォールドでAcc 95.0 / P 93.5 / R 94.6 / F1 94.2に達しました。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

伝統的な音楽教育は、特に遠隔地ではインタラクティブ性やリアルタイムの適応性が欠けていることが多いです。本研究は、音楽教育プラットフォーム向けにパーソナライズされた体性感覚フレームワークであるTRPO-ResLSTMを導入します。このシステムは動き、リズム、応答時間を捉え、ウィーナーフィルタリングとZスコア正規化でデータを前処理し、FFT によって 特徴を抽出します。ジェスチャー認識はDeepRes-LSTMによって行われ、適応的難易度はTRPO強化学習によって調整されます。漸進学習はセッション全体のパーソナライズを保証します。公開されている匿名化されたジェスチャーリズムデータセット(n = 2,730サンプル;トレーニング/検証/テスト分割70/15/15)を用いた実験では、マルチモーダルベースラインよりも優れた性能を示し、95%の精度、93.5%の精度、94.6%の想起率、94.2%のF1スコアを達成しました。アブレーション研究により、TRPOおよびRes-LSTMの個別の寄与が確認されています。このプロトコルの革新は、強化学習と残差時間モデルを統合して適応ジェスチャー認識を実現し、安定的かつ個別化された学習を可能にする点にあります。この研究は、適応的でジェスチャー応答型のツールが、知的な音楽教育におけるエンゲージメント、パーソナライズ、そして進歩的なスキル開発を高めることを示しています。制約としては、単一のデータセットに依存することや、将来の研究の方向性を定める実学習者検証の必要性があります。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

人工知能(AI)や体性感覚技術の最近の進展により、学習者が身体の動きを通じて音楽と関わることが可能になり、ジェスチャーが音符やリズム、または仮想楽器のコントロールに変換されることが可能になり、音楽教育の再構築が進^{んでいます。}これらのインタラクティブ機能は従来の教室指導と比べて、関与度、記憶力、創造性を高め、体性感覚ツールは、身体打楽器、ジェスチャーの指揮、アンサンブルシミュレーションを通じてリズム、協調性、表現を練習できるようにします。³.AI駆動の適応経路と組み合わせることで、学習者は個別化されたコンテンツ、リアルタイムのフィードバック、そしてモチベーションと成果を向上させる段階的なスキル開発を受けられます ^4,5。

これらの発展にもかかわらず、既存のプラットフォームは限られた学習方法に依存していたり、パーソナライズの連続性が欠けていたり、多様な文化的・身体的学習スタイルに適応できなかったりすることが多い^6,7。従来のアプローチは、学習者の進化する能力を反映したリアルタイムかつデータ駆動型の調整を提供するのに不十分です。例えば、モーションキャプチャやウェアラブルデバイスは豊富なデータセットを生成できますが、適応型指導^8,9ではしばしば十分に活用されていません。さらに、音楽ライブラリや学習管理システムはアクセス性を拡大しましたが、セッション間での動的なパーソナライズはほとんど提供されておらず、これは多文化的かつ多様な学習文脈で極めて重要です。¹⁰。

これらのギャップを解消するため、本研究は音楽^{教育プラットフォーム向けの}新しいトラストリージョン政策最適化深部残留長期短期記憶(TRPO-ResLSTM)フレームワークを提案します。このシステムは、ウィーナーフィルタリングやZスコア正規化などの高度な前処理手法と、周波数領域特徴抽出のための高速フーリエ変換を統合しています。Res-LSTMはジェスチャーや時間的シーケンスの堅牢な認識を提供し、TRPO強化学習は学習者の成果に応じて課題の難易度を動的に調整します。漸進学習は、セッションごとにモデルを更新することでさらにパーソナライズを強化します。

実験は、Kaggleの音楽、ジェスチャー、リズムデータセット(2,730サンプル)を用いて、トレーニング、検証、テストのサブセットに分けて実施されました。結果は、提案された手法が基準的なマルチモーダルアーキテクチャを一貫して上回る性能を示し、精度、精度、リコール率、F1値が93%〜95%の範囲で達成していることを示しています。アブレーション解析により、TRPOおよびRes-LSTM成分の有効性が確認されました。リズムの精度、ユーザーエンゲージメント、ポリシーの安定性をリアルタイムで向上させることで、このフレームワークは資源制約のあるリモート学習環境における音楽教育の効率向上に向けた実用的な解決策を提供します。AI駆動の音楽教育に関する関連研究は、体性感覚関与、適応学習のパーソナライズ、さらには音楽療法や自動作曲への応用の可能性を強調しています^12,13。本研究はこれらの発見を基に、強化学習とディープタイムモデリングを組み合わせた再現可能なプロトコルを提供し、知的音楽教育の分野を前進させます。

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

この研究は匿名化された公開データを分析し、被験者や動物は関与していません。したがって、追加の倫理的承認は必要ありませんでした。

1. 概要

本プロトコルは、深層残差LSTM認識とトラストリージョン政策最適化(TRPO)に基づく体性感覚音楽教育の再現可能なフレームワークを説明し、適応的な難易度制御を実現します。データセットの準備、前処理、周波数領域の特徴抽出、モデルアーキテクチャ、トレーニング、パーソナライズ、評価が含まれます。図1はエンドツーエンドのワークフロー^{を示しています。}

2. データセット

公開されている匿名化された音楽のジェスチャーとリズムデータセットが使用され、テンポやビートの強さなどの聴覚手がかりに対する身体の反応を記録しました。このデータセットは、リズム実行や学習行動の研究に適したマルチモーダル時系列データを提供します。各記録には動きパターン、タイミング、リズム精度の測定、応答フィードバック、タスク完了時間が含まれています。データセットは完全に匿名化され、一般公開されているため、追加の機関審査委員会の^{承認は必要}ありませんでした。実験では、識別漏れを防ぐために、データを訓練、検証、テストのサブセットに被験者ごとに分割されました。詳細な統計と分配比率は表1に報告されています。3つの被験者非相素フォールドを使用し、すべてのランで固定ランダムシードを用い、すべてのモデルバリアントで同一の前処理を行い、比較可能性を確保しました^。

このデータセットはリズミカルジェスチャーのバランスの取れた分布を示し、トレーニング、検証、テストの各区分でタイミングや動きの特徴に類似の分散を示しました。テンポ偏差と動き振幅の記述統計(中央値±IQR)は分割間で比較可能であり、共変量シフトが最小であることを示しました。

3. データ前処理

Zスコア正規化
生データはZスコア正規化を用いて標準化されました。チャンネルcと時間tの場合:
(1)
トレーニングセット上でμ_cとσ_cを計算し、^{リーケージ}を避けるために検証セットとテストセットに適用しました。
正規化後、すべてのチャネルで平均および単位分散がほぼゼロとなり、参加者間の比較可能性が保証されました。バッチごとの診断では、折り目間のドリフトは確認されませんでした。
ウィーナーフィルタリング
ノイズを抑制するために、周波数領域にウィーナーフィルターを適用しました。
(2)
ここでY(k)は観測されたスペクトル、\hat{X}(k)はノイズ除去推定値、 S_xx(k)、 S_nn(k)は信号/雑音パワースペクトル密度を示します。位相コヒーレンス¹⁸を維持するために、下流FFTと一致するウィンドウ長と重なりを用いました。
ウィーナーフィルタリングは、支配的なリズム成分を保持しつつ、高周波ノイズを~30%削減しました。ビートロックピークを減衰させることなく、信号対雑音比が改善されました。
特徴抽出(FFT)
重複するウィンドウに対して短時間FFT機能が使用されました:
(3)
抽出された記述子には、支配周波数、スペクトルフラックス、バンドエネルギー比が含まれていました。テンポロックされたピークプロミネンスおよびピーク間変動も計算され、マイクロタイミング安定性¹⁹を捉えました。
FFTは音楽テンポ(2〜3Hz)に沿った明確なスペクトルピークを明らかにし、データセット内のリズム構造を確認しました。正しく実行された試行では、ピーク対ノイズ比は平均6〜8 dBを超えました。

4. モデル:TRPO-ResLSTM

残留LSTM(ResLSTM)
時間パターンは、残留ショートカットを用いた積み重ねされたLSTMを用いてモデル化されました。
(4)
ここでPは単位元または次元に合う射影です。残留接続は、消失する勾配を緩和し、より深い時間スタックを可能にする一方で、トレーニングの安定性を維持^{できます。}
残差接続により、単純なLSTMと比べて勾配流と分類精度が向上しました。アブレーションでは、同等のパラメータカウントで非残差スタックに対して+0.7〜1.1ppの精度が示されました。
トラストリージョン政策最適化(TRPO)
TRPOはタスク難易度を動的に制御しました。パーソナライズされた報酬は以下の通りです:
(5)
成功スコア s_t 、テンポ偏差 Δtempot、ジェスチャーの不一致 d_t(例:DTW距離や分類の損失)、スイッチインジケーター u_t(頻繁な難易度変更にペナルティ)を付けます。KL制約を用いて信頼領域の目的を最適化しました:
(6)
1. 強化学習のセットアップと表記法
  適応難易度は有限地平線MDPとして定式化され、状態s_tはウィンドウ化された体性感覚特徴(加速度計チャネル、手関節位置、正規化後のリズム記述子、ウィーナーフィルタリング、FFT)を集約し、アクションatはテンポ許容範囲とジェスチャーの厳密さを制御する離散的な難易度レベルである。報酬_rtは、タスクの成功、タイミングのずれ、エンゲージメントのバランスを取っており、過度な切り替えに小さなペナルティが課され、振動を抑止します。ポリシーの更新は保守的なステップに対してKL発散制約を持つTRPOに従います。方程式において(5-6)、g(y,x)はタスク特有の損失勾配を表し、W(ζ)はパラメータζ上のL₂正則化子、π_θはパラメータθを持つ確率政策、D_KLは信頼領域、γは割引係数、δは信頼領域半径を表します。ハイパーパラメータα,β,γ,δは、安定性と応答性のバランスを取るために、検証分割(表2の範囲)上でグリッドサーチによって選択されました。早期ストップは平均KLが0.9²¹に達したときに始まりました。
2. 理由と代替案
  TRPOのKL制約によるオンポリシー更新は、小規模なセッションレベルのバッチや定常学習者でない学習者行動に好まれていました。PPO/SACは引き続き有望であり、今後のワーク²²でベンチマークされる予定です。
  TRPOはベースラインコントローラよりも安定した学習と滑らかな難易度調整を実現し、収束も一貫していました。学習曲線では、単調な改善と単一成分ベースラインよりもTRPO-ResLSTMのKL安定化が早期に見られました。
パーソナライズとセッションの更新
各ユーザーセッション後にResLSTMおよびTRPOモデルを段階的に改良し、学習率とリハーサルバッファを小さく抑えました。ドリフトを防ぐために、学習者一人あたりの最近の試験の小さなリハーサルバッファを使用し、安定性を保つために固定予算内でセッションごとの更新を限定しました。パーソナライズ効果は、学習者の初回セッションと最後のセッション間のF1における相対的な増加として測定^{されました。}
セッションごとのパーソナライズは、ユーザー固有の精度を2%〜3%向上させ、壊滅的な忘却を防ぐことができました。中程度の基準精度を持つ学習者で最大の増加が見られ、適応的足場構築のための余裕があることを示唆しました。
アルゴリズムと実装
完全な疑似コード(「アルゴリズム1:TRPO-ResLSTM」)と参照Python 3.10.1の実装が提供されています。すべての図と表には測定定義、誤差バー、サンプルサイズが含まれています。被験者±3つの互いにないフォールドで平均 SDを報告し、必要に応じて反復測定ANOVAまたはフリードマン検定でモデル間差を評価し、多重度調整後の比較(α = 0.05)を用います。再現性を確保するため、パッケージのバージョンとGPU/CPU仕様を材料表に記載し、環境およびシード構成²⁴を含むREADMEを含みます。
このプロトコルはマルチモーダルベースラインに比べて一貫して改善を再現し、その再現性を検証しました。種子間の独立再実行では、統合モデルの精度が<0.5ppの分散が得られました。

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

実験装置
TRPO-ResLSTMフレームワークは、GPU アクセラレーションを用いたPython 3.10.1で実装されました。コンピューティング環境、モーションセンシングハードウェア、PythonライブラリはTable of Materialsに記載されています。データは表1 (70/15/15)に示されるように、被験者と非相応なトレーニング/検証/テストの分割に分割されました。主要なハイパーパラメータは表2にまとめられています。評価されたモデルは、ベースラインTRPO、ベースラインResLSTM、そして統合TRPO-ResLSTMです。この仕組みにより、ジェスチャー認識、適応難易度制御、音楽学習シナリオにおけるパーソナライズの一貫した評価が可能となりました。

混乱マトリックス
分類性能は、保留されたテストセット上の混乱行列を用いて最初に検証されました(

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究は、強化学習と残留時間モデリングを統合したハイブリッドプロトコルであるTRPO-ResLSTMを提案します。トラストリージョンポリシー最適化(TRPO)の安定性と残留LSTMのシーケンス学習能力を組み合わせることで、このフレームワークはリアルタイムのジェスチャー認識と適応的な難易度制御を提供し、個別化されたフィードバックと進行的なスキル習得^{を可能にします。}再現性を確保するために、被験者と非相斥のフォールド、固定シード、モデル間で同一の前処理が用いられ、平均±SDは3つのフォールドで報告され、有意性検定は結果セクションに合わせられました。

この研究の貢献は、パーソナライズされインタラクティブな学習環境の推進にあります。静的指導や単一モーダル認識に依存するシステムとは異なり、TRPO-ResLSTMは学習者のリズムや動きのパターンに動的に適応し、実践志向のセッション²⁶での関与と記憶をサポートします。私たちが報告する教...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者たちは利益相反を一切認めていない。

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者たちは、研究デザインと原稿作成に関する建設的なフィードバックをいただいた同僚に感謝しています。この研究は、公共、商業、非営利のいかなる資金提供機関からも具体的な助成金を受けていません。

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
加速度センサーのデータ	カグル(パブリックドメイン)	データセットに含まれるマルチモーダル入力信号(動きパターン、タイミング特徴)
GPUワークステーション	NVIDIA社、アメリカ	トレーニング用ハードウェア:NVIDIA RTX 3080(10GB)、32GB RAM、Ubuntu 20.04
手 - 関節位置データ	カグル(パブリックドメイン)	ジェスチャー認識のための体感覚入力
Matplotlib(v3.7)	https://matplotlib.org	数値と性能指標のプロット用可視化ライブラリ
NumPy(v1.23)	https://numpy.org	配列演算のための数値計算ライブラリ
公共音楽ジェスチャーおよびリズムデータセット	カグル(パブリックドメイン)	2,730サンプルの匿名データセットで、テンポと拍子に対する身体の反応を記録しています。トレーニング/検証/テストに使用(70/15/15)
Python 3.10.1	Python Software Foundation、https://www.python.org	モデル実装および解析のためのプログラミング環境
PyTorch(v1.13)	https://pytorch.org	ResLSTMおよびTRPOモジュールの実装のためのディープラーニングフレームワーク
Scikit - Learn (v1.2)	https://scikit-learn.org	前処理および評価のための機械学習ユーティリティ
SciPy(バージョン1.10)	https://scipy.org	科学計算ライブラリ(ウィーナーフィルタリングに使用)

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wei, J., Karuppiah, M., Prathik, A. College music education and teaching based on AI techniques. Comput Electr Eng. 100, 107851(2022).
Yu, X., et al. Developments and applications of artificial intelligence in music education. Technol. 11 (2), 42(2023).
Fang, J. Artificial intelligence robots based on machine learning and visual algorithms for interactive experience assistance in music classrooms. Entertain Comput. 52, 100779(2025).
Zhang, S., Lu, X., Liu, X. Study on the influence of AI composition software on students' creative ability in music education. J Educ Technol Innov. 6 (2), (2024).
Feng, Y. Design and research of music teaching system based on virtual reality system in the context of education informatization. PLoS One. 18 (10), e0285331(2023).
Zhou, X. Entertainment performance robots application in music network classrooms based on speech sensor recognition and artificial intelligence. Entertain Comput. 52, 100782(2025).
Yu, H., Zou, Z. The music education and teaching innovation using blockchain technology supported by artificial intelligence. Int J Grid Util Comput. 14 (2-3), 278-296 (2023).
Hong Yun, Z., et al. A decision-support system for assessing the function of machine learning and artificial intelligence in music education for network games. Soft Comput. 26 (20), 11063-11075 (2022).
Dey, M. T., Patra, S., Mitra, S. Enhancing music education with innovative tools and techniques: The role of artificial intelligence in musical works. Enhancing Music Education With Innovative Tools and Techniques. , IGI Global. 19-50 (2025).
Lin, X., et al. The application of music therapy in the rehabilitation education of children with cerebral palsy. J Investig Med. 73 (1 Suppl. 1), (2025).
Wang, X. Design of vocal music teaching system platform for music majors based on artificial intelligence. Wirel Commun Mob Comput. 2022 (1), 5503834(2022).
Chen, Y., Sun, Y. The usage of artificial intelligence technology in music education system under deep learning. IEEE Access. , 130546-130556 (2024).
Yang, Y., et al. Multi-source and heterogeneous online music education mechanism: An artificial intelligence-driven approach. Fractals. 31 (6), 2340154(2023).
Sang, J. The intersection of technology and art: A study on AI-driven CTCL music teaching paradigm. , (2024).
Yin, Y. Research on technological innovation and application of music education transformation under the background of technology. J Educ Theory Pract. 2 (2), (2025).
Yuan, Y. Influencing factors and modeling methods of vocal music teaching quality supported by artificial intelligence technology. Int J Web Based Learn Teach Technol. 19 (1), 1-16 (2024).
Sanganeria, M., Gala, R. Tuning music education: AI-powered personalization in learning music. arXiv Prepr. , (2024).
Qiusi, M. Research on the improvement method of music education level under the background of AI technology. Mob Inf Syst. 2022 (1), 7616619(2022).
Xu, Z. Construction of an intelligent recognition and learning education platform of national music genre under deep learning. Front Psychol. 13, 843427(2022).
Wang, X., et al. College music teaching and ideological and political education integration mode based on deep learning. J Intell Syst. 31 (1), 466-476 (2022).
Tang, H., Zhang, Y., Zhang, Q. The use of deep learning-based intelligent music signal identification and generation technology in national music teaching. Front Psychol. 13, 762402(2022).
Artificial intelligence in music education: Exploring applications, benefits, and challenges. Yue, Y., Jing, Y. Proc Int Conf Educ Inf Technol, , 141-146 (2025).
Bai, A., Yeh, C. K., Hsieh, C. J., Taly, A. An efficient rehearsal scheme for catastrophic forgetting mitigation during multi-stage fine-tuning. arXiv Prepr. , (2024).
Ravi, N., Goel, A., Davis, J. C., Thiruvathukal, G. K. Improving the reproducibility of deep learning software: An initial investigation through a case study analysis. arXiv Prepr. , (2025).
Chen, J., Jin, F., Jiao, Y., Zhan, Y., Qin, X. Improving dynamic gesture recognition with attention-enhanced LSTM and grounding SAM. Electronics. 14 (9), 1793(2025).
Ouyang, F., Dai, X., Chen, S. Applying multimodal learning analytics to examine the immediate and delayed effects of instructor scaffoldings on small groups' collaborative programming. Int J STEM Educ. 9 (1), 45(2022).
Aoyama Lawrence,, Weinberger, L., A, Being in-sync: A multimodal framework on the emotional and cognitive synchronization of collaborative learners. Front Educ. , (2022).
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. Proximal policy optimization algorithms. arXiv Prepr. , (2017).
Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. PMLR. Haarnoja, T., Zhou, A., Abbeel, P., Levine, S. Proc Int Conf Mach Learn, , (2018).
Huang, S., Dossa, R. F. J., Raffin, A., Kanervisto, A., Wang, W. The 37 implementation details of proximal policy optimization. ICLR Blog Track. , https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/ (2023).
Sclater, N., Bailey, P. Code of practice for learning analytics. , https://www.jisc.ac.uk/guides/code-of-practice-for-learning-analytics (2022).
Rabiner, L. R. A tutorial on hidden Markov models and selected applications in speech recognition. Proc IEEE. 77 (2), 257-286 (2002).
Tao, S., et al. MusicalPT: Augmenting physical therapy by integrating adaptive musical guidance to enhance exercise quality and patient experience. Proc ACM Interact Mob Wearable Ubiquitous Technol. 9 (3), 1-32 (2025).
Proverbio, A. M., Camporeale, E., Brusa, A. Multimodal recognition of emotions in music and facial expressions. Front Hum Neurosci. 14, 32(2025).
Kang, S. Adaptations, code-switching, and novelty with cultural integrity: Musicians performing and learning musical instruments in different musical traditions. J Res Music Educ. , (2025).
Han, Y., Han, L., Zeng, C., Zhao, W. The innovation path of VR technology integration into music classroom teaching in colleges and universities. Sci Rep. 15 (1), 12200(2025).
Huang, A. Y., Lu, O. H., Yang, S. J. Effects of artificial intelligence-enabled personalized recommendations on learners' learning engagement, motivation, and outcomes in a flipped classroom. Comput Educ. 194, 104684(2023).
Tao, S., et al. MusicalPT: Augmenting physical therapy by integrating adaptive musical guidance to enhance exercise quality and patient experience. Proc ACM Interact Mob Wearable Ubiquitous Technol. 9 (3), 1-32 (2025).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

インテリジェント音楽教育プラットフォームにおけるパーソナライズされた体感およびリズム評価のためのインタラクティブ人工知能ツールの開発

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles