RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
ja
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
この論文では、学生がクラスに注意を払っているか、気を散らしているかを自動的に検出する人工知能ベースのシステムを提案しています。このシステムは、教師が生徒の注意を引き付け、授業を最適化し、生徒がより魅力的になるように動的に変更を導入できるように設計されています。
教室での生徒の注意力は、人工知能(AI)技術を使用することで向上させることができます。注意力のレベルを自動的に特定することで、教師は生徒の集中力を取り戻すための戦略を採用できます。これは、さまざまな情報源を通じて実現できます。
その一つが、生徒の顔に映る感情を分析することです。AIは、中立、嫌悪感、驚き、悲しみ、恐怖、幸福、怒りなどの感情を検出できます。さらに、生徒の視線の方向も、生徒の注意力のレベルを示している可能性があります。もう一つの情報源は、生徒の体の姿勢を観察することです。カメラやディープラーニングの手法を用いることで、姿勢を解析し、注意力の度合いを判断することができます。たとえば、前かがみになったり、机に頭を乗せたりしている学生は、注意力が低い可能性があります。学生に配布されるスマートウォッチは、心拍数や慣性測定などの生体認証やその他のデータを提供でき、注意の指標としても使用できます。これらの情報源を組み合わせることで、AIシステムを訓練して、教室での注意のレベルを特定できます。ただし、さまざまな種類のデータを統合するには、ラベル付きデータセットを作成する必要があるという課題があります。正確なラベリングのために、専門家の意見と既存の研究が参照されます。この論文では、そのような測定値の統合と、データセットと潜在的な注意分類器の作成を提案します。教師にフィードバックを提供するために、スマートウォッチやダイレクトコンピューターなど、さまざまな方法を検討します。教師が注意力の問題に気付いたら、生徒を再び関与させ、やる気を起こさせるために、教育アプローチを調整することができます。要約すると、AI技術は、学生の感情、視線方向、体の姿勢、および生体認証データを分析することにより、学生の注意レベルを自動的に識別できます。この情報は、教師が教育と学習のプロセスを最適化するのに役立ちます。
現代の教育現場では、効果的な教育と学習のためには、生徒の注意を正確に評価し、維持することが重要です。しかし、自己報告や教師の主観的な観察など、エンゲージメントを測定する従来の方法は時間がかかり、バイアスがかかりやすい。この課題に対処するために、人工知能(AI)技術が自動アテンション検出の有望なソリューションとして浮上しています。学生のエンゲージメントレベルを理解する上で重要な側面の1つは、感情認識1です。AIシステムは、顔の表情を分析して、中立、嫌悪、驚き、悲しみ、恐怖、幸福、怒りなどの感情を特定できます2。
視線の向きと体の姿勢も、生徒の注意力の重要な指標です3。カメラと高度な機械学習アルゴリズムを活用することで、AIシステムは生徒がどこを見ているかを正確に追跡し、生徒の体の姿勢を分析して、興味のなさや疲労の兆候を検出することができます4。さらに、生体認証データを組み込むことで、注意検出の精度と信頼性が向上します5。生徒が着用するスマートウォッチを通じて、心拍数や血中酸素飽和度などの測定値を収集することにより、注意の客観的な指標を取得し、他の情報源を補完することができます。
本稿では、カラーカメラなどのセンサーを用いて個人の注意力を評価するシステムを提案します。感情認識、視線方向分析、身体姿勢評価、生体認証データを組み合わせて、教育学習プロセスを最適化し、学生のエンゲージメントを向上させるための包括的なツールセットを教育者に提供します。これらのツールを使用することで、教育者は教育と学習のプロセスを包括的に理解し、学生の関与を高めることで、全体的な教育体験を最適化することができます。AIの技術を応用することで、このデータを自動的に評価することも可能です。
この作業の主な目標は、すべての情報をキャプチャできるシステムについて説明し、キャプチャすると、クラス全体の注意をリアルタイムで取得できるAIモデルをトレーニングすることです。他の研究では、視覚的または感情的な情報を使用して注意を引くことをすでに提案していますが6、この研究では、これらの技術を組み合わせて使用することを提案しており、これにより、より複雑で効果的なAI技術の使用を可能にする全体的なアプローチが提供されます。また、これまで利用可能なデータセットは、動画のセットまたは生体認証データの1つに限定されていました。文献には、生徒の顔や体の画像、生体認証データ、教師の位置に関するデータなど、完全なデータを提供するデータセットは含まれていません。ここで紹介するシステムでは、このタイプのデータセットをキャプチャすることができます。
システムは、各時点で各学生に注意のレベルを関連付けます。この値は、0% から 100% の間の注意の確率値であり、注意のレベルが低い (0%-40%)、注意のレベルが中程度 (40%-75%)、注意のレベルが高い (75%-100%) と解釈できます。テキスト全体を通して、この注意力の確率は、注意力のレベル、生徒の注意力、または生徒が気を散らしているかどうかと呼ばれますが、これらはすべてシステムの同じ出力値に関連しています。
長年にわたり、自動エンゲージメント検出の分野は、教育に革命をもたらす可能性を秘めているため、大幅に成長してきました。研究者は、この研究分野に対してさまざまなアプローチを提案しています。
Ma et al.7 は、ニューラルチューリングマシンに基づく自動エンゲージメント認識のための新しい方法を導入しました。彼らは、視線入力、顔のアクション ユニット、頭のポーズ、体のポーズなどの特定の特徴を抽出して、エンゲージメント認識の包括的な表現を作成しました。
EyeTab8 も革新的なシステムであり、モデルを使用して、誰かが両目でどこを見ているかを推定しました。これは、標準のタブレットで問題なくスムーズに動作するように特別に作られました。このシステムは、画像の処理とコンピュータービジョンの分析によく知られているアルゴリズムを利用しています。彼らの視線推定パイプラインには、Haarのような特徴ベースのアイ検出器と、RANSACベースのリンバス楕円フィッティングアプローチが含まれています。
Sanghviら9 は、視覚ベースの技術に依存して、横方向から記録されたビデオから表現力豊かな姿勢の特徴を自動的に抽出し、子供たちの行動を捉えるアプローチを提案しています。初期評価が行われ、文脈に応じた感情的な姿勢表現を使用した複数の認識モデルのトレーニングが含まれます。得られた結果は、姿勢行動のパターンが、ロボットに対する子どもの関与を効果的に予測できることを示しています。
Guptaら10などの他の研究では、ディープラーニングベースの方法が採用されており、オンライン学習者の顔の表情を分析し、感情を分類することにより、オンライン学習者のリアルタイムのエンゲージメントを検出しています。このアプローチでは、顔の感情認識を利用して、エンゲージメントとエンゲージメント解除の 2 つのエンゲージメント状態を予測するエンゲージメント インデックス (EI) を計算します。Inception-V3、VGG19、ResNet-50 など、さまざまなディープラーニング モデルが評価され、比較され、リアルタイムのエンゲージメント検出に最も効果的な予測分類モデルが特定されます。
Altuwairqi et al.11 では、研究者は、学生のエンゲージメント レベルをリアルタイムで評価するための新しい自動マルチモーダル アプローチを提示しています。正確で信頼性の高い測定を確保するために、チームは、感情の表情、キーボードのキーストローク、マウスの動きという、生徒の行動を捉える3つの異なるモダリティを統合して分析しました。
Guillénら12 は、タスクを実行している間の個人の認知的注意の有無を分析および予測するための主要な生理学的信号として心電図(ECG)を使用するモニタリングシステムの開発を提案しています。
Alban et al.13 は、ニューラルネットワーク(NN)を利用して、時間領域と周波数領域の両方でさまざまな参加者の心拍数(HR)と皮膚電気活動(EDA)の値を分析することにより、感情を検出します。その結果、逐次差の二乗平均平方根(RMSDD)と標準偏差の正常から正常(SDNN)の間隔の増加は、平均HRの減少と相まって、交感神経系の活動が活発化していることを示しており、これは恐怖と関連していることが分かった。
梶原ら14 は、ウェアラブルセンサーとディープニューラルネットワークを用いて、労働者の感情とエンゲージメントのレベルを予測する革新的なシステムを提案しています。システムは3段階のプロセスに従います。当初、ウェアラブルセンサーは、行動と脈波に関するデータを取得して収集します。その後、取得した行動データや生理学的データに基づいて時系列特徴量が計算されます。最後に、ディープニューラルネットワークを使用して時系列の特徴を入力し、個人の感情とエンゲージメントレベルについて予測を行います。
Costante et al.15などの他の研究では、新しい転送メトリック学習アルゴリズムに基づくアプローチが提案されており、これは、事前定義されたジェスチャーのセットに関する事前知識を利用して、ユーザー定義のジェスチャーの認識を強化します。この改善は、追加のトレーニングサンプルへの依存を最小限に抑えることで達成されます。同様に、センサベースの人間活動認識フレームワーク16 は、複雑な人間活動の非人格的認識の目標に対処するために提示される。腕時計型センサーから収集した信号データは、4つのRNNベースのDLモデル(Long-Short Term Memories、Bidirectional Long-Short Term Memories、Gated Recurrent Units、Bidirectional Gated Recurrent Units)を用いて、ウェアラブルデバイスのユーザーが行った活動を調査し、ヒト活動認識フレームワークに活用されます。
次のプロトコルは、アリカンテ大学の人間研究倫理委員会のガイドラインに従っており、承認されたプロトコル番号は UA-2022-11-12 です。この実験およびここにあるデータの使用について、すべての参加者からインフォームド コンセントが得られています。
1. ハードウェア、ソフトウェア、クラスのセットアップ

図 1: ハードウェアとデータ パイプライン。 カメラとスマートウォッチのデータは収集され、機械学習アルゴリズムに供給されて処理されます。 この図の拡大版を表示するには、ここをクリックしてください。

図2:センサー、教師、生徒の位置。 教師と生徒がいる教室のカメラ、スマートウォッチ、GUIの位置を示す図。 この図の拡大版を表示するには、ここをクリックしてください。
2. キャプチャとデータ処理パイプライン
注: これらの手順はすべて、サーバーに展開されたソフトウェアを処理することによって自動的に実行されます。この作業の実験に使用された実装は、Python 3.8 で書かれました。

図3:スマートウォッチによってキャプチャされたデータ。 スマートウォッチは、ジャイロスコープ、加速度計、心拍数、および光の状態をデータの流れとして提供します。 この図の拡大版を表示するには、ここをクリックしてください。

図4:アクティビティ認識モデルで考慮されるカテゴリの例。 アクティビティ認識モデルでは、手書き、キーボードでの入力、スマートフォンの使用、休息位置の 4 つの異なるアクションが認識されます。 この図の拡大版を表示するには、ここをクリックしてください。
本研究の対象グループは学部生と修士課程の学生であり、18歳から25歳が主な年齢層です。この集団は、若い学生よりも気を散らすものが少なく電子機器を扱えるため、選ばれました。グループには合計25人が含まれていました。この年齢層は、プロポーザルをテストするための最も信頼性の高い結果を提供できます。
教師に示された注意力の結果は2つの部分から成ります。結果のパートAは、各生徒の現在の注意レベルに関する個々の情報を示しています。パートBは、クラス全体の平均的な注意と、レッスン全体を通してその時間的履歴を得ることを目的としています。これにより、教室での生徒の注意の一般的な傾向を捉え、教師が使用する方法論をライブで適応させることができます。毎秒、インターフェイスはサーバーから新しい情報を要求します。さらに、このビューにはブラウザ通知の使用が組み込まれているため、教師が通常どおり活動を行っている間、このGUIをフォアグラウンドに保持することなく、生徒の注意の大幅な変化を邪魔にならない方法で表示できます。この GUI の例を 図 5 に示します。

図5:システムのグラフィカルユーザーインターフェース。 注目度は、タブレット、スマートフォン、デスクトップまたはラップトップコンピュータなど、あらゆる対応デバイス上の任意のインターネットブラウザからアクセスできるGUIに示されています。 この図の拡大版を表示するには、ここをクリックしてください。
活動認識モデルに関しては、リカレントニューラルネットワークが定義され、それぞれ6つの値を入力として200回の測定値のシーケンスを受け取るようにしました(つまり、加速度計から3つの値とジャイロスコープから3つの値)。このモデルには、64 ユニットの LSTM 層と、それに続く 4 つの出力ニューロン (カテゴリごとに 1 つ) を持つ SoftMax 活性化全結合層があります。アーキテクチャを 図 6 に示します。

図 6: アクティビティ分類子のアーキテクチャ。 入力として、モデルはスマートウォッチのデータを取得し、LSTM 層とそれに続く全結合層を介して処理します。出力は、サンプルが各アクティビティを描写する確率です。 この図の拡大版を表示するには、ここをクリックしてください。
出力として、分類子は、学生が実行している推定アクションに対応するクラスを返します。このニューラルネットワークは、6人の異なる個人から取得したデータを使用して訓練されました。それぞれが、4つの異なるカテゴリのアクションを200秒間実行しながら記録されました。取得したすべてのデータが複製され、センサーから取得した値をX軸に反転させることで、新しいミラーリングされたデータセットが生成されました。これは、すべての個人の右手と左手の両方からデータを収集するのと似ています。これは機械学習の分野では一般的な方法であり、既存のデータセットからより多くのサンプルを生成して過剰適合を回避することを目的としています。
200 の測定値 (1 秒あたり 1 レコード) は、ウィンドウを一度に 1 秒ずつ移動することで LSTM ネットワークからの入力と一致するように、4 秒のストリームにグループ化されます。その結果、4秒間隔で取得したデータの197の組み合わせが得られました。まとめると、合計で9,456のデータ入力、6人、4つのクラス、2つの手、197のトレーニングセットがあります。データは 90% の学習と 10% の検証に分けられ、ネットワークは 300 エポックと 64 のバッチ サイズで学習されました。
図 7 に示すように、モデルは 300 エポックで学習されました。検証損失は0.1%未満で、検証精度は97%でした。取得されたメトリクスは、モデルの良好なパフォーマンスを強調しています。

図7:トレーニングと検証の損失と精度。 トレーニングと検証の損失と精度は、モデルのパフォーマンスが適切であり、オーバーフィッティングの影響を受けていないことを示しています。 この図の拡大版を表示するには、ここをクリックしてください。
最後に、各サブシステム (頭の姿勢、姿勢推定、感情予測、および活動認識) の結果は、生徒がレッスンに注意を払っているかどうかの確率値を提供するブースティング分類器にマージされます。
正確なラベリングと専門家の意見を取り入れるための概念的および手続き的な明確化を進めるために、以下に述べるように既存の研究を参照した。
専門家の意見に関しては、デルファイ法が選ばれた 20,21,22、技術分野でますます関連性が高まっている方法23。以前の出版物で指摘されているように、Delphiの方法は、トピックに関する意見を生成し、そのトピックに関する専門家間のコンセンサスを探るための反復的なグループおよび匿名のプロセスとして定義されています23。ここで紹介したケースでは、6人の専門家が、Khodyakov et al.24の同意を得て、2週間と2ラウンドの協議に貢献した。参加した専門家のプロフィールが重要であるため、コンサルテーションには、心理学、教育学、コンピューターサイエンスの分野の大学の学術専門家が含まれていました。定量的な方法を使用してデータを収集しました。その結果、この研究で使用されたラベリングについてコンセンサスが得られました。
ラベリングの基礎として参照された研究については、WOSやScopusなどの主要なデータベースでの探索的研究から始めました。この点で、以前の研究25,26,27,28の貢献は言及する価値があります。それらはすべて、特定の視点からケアの問題に取り組んでいますが、この研究が取り組んでいるように、インテリジェントシステムからの全体的な方法ではありません。一方、Zaletelj et al.29のように、顔と体の特徴に焦点を当てた2つの特定の情報源を組み合わせた研究もありますが、この研究のようなグローバルなアプローチにはほど遠いものです。以前の研究の1つは、この研究で考慮されているポズナーの分類法を引用して、30を際立たせています。ポズナーは、注意を分離可能な神経系(覚醒、方向付け、および実行制御)のセットと見なしており、これらはしばしば一緒に働いて行動を組織化する30。
ブースティング分類器は、分類器の弱い出力ごとに重みを学習し、個々の決定の重み付けされた組み合わせによって最終値を生成するアンサンブル アルゴリズムです。ステップ2.9で説明したように、この情報はWebインターフェイスを介してリアルタイムで表示されるため、教師はブラウザの通知でクラスの注意レベルの大幅な変化に気付くことができます。この視覚化インターフェースは、生徒の全体的な注意力のリアルタイムの進化を示すため、教師は生徒を授業に引き込み、授業からより多くのことを引き出すようにクラスを適応させることができます。
表1 は、次の要素で構成されるデータセット構造を示しています:個々のカメラ:960 x 720ピクセルRGBで1秒あたり1つの画像。Zenitalカメラ:1920 x 1080ピクセルRGBで毎秒2つの画像。ジャイロスコープ:毎秒50データ、各データは座標X、Y、Zに対応する19の10進値を持つ3つの浮動小数点値に分解されます。加速度計:毎秒50データ、各データは座標X、Y、Zに対応する19の10進値を持つ3つの浮動小数点値に分解されます。回転ベクトル:毎秒50データ、各データは小数点以下19桁の4つの浮動小数点値を持つ四元数に分解されます(値は-1から1の間)。心拍数:1秒あたり1つの値、1分あたりのビートを測定。光センサー:毎秒約8〜10個の値で、整数で光のレベルを測定します。頭の方向:各画像について、3つの10進数がX軸(ロール)、Y軸(ピッチ)、Z軸(ヨー)を表し、頭の傾きを示します。体のポーズ: 各画像について、18 個の 10 進数が 9 つのキーポイントの X 座標と Y 座標を表します。
| 個々のカメラ | Zenithal カメラ | ジャイロスコープ | 加速度計 | 回転ベクトル | 心拍数 | ライトコンディション | ヘッドの向き | ボディポーズ |
| 960 x 720ピクセルRGB画像 | 2 x (1920 x 1080 ピクセル) | 50 x 3 (XYZ) | 50 x 3 (XYZ) | 50 x クォータニオン | 毎分ビート | 10 x ルーメン | 3 (XYZ) 10 進数 | 9 x 2 (XY) の 10 進数 |
| RGB画像 | 10進数 | 10進数 |
表1:データセットの構造。 データセットには、分類のためにさまざまなデータが表示されます。表示されているすべてのデータは、生体認証データとさまざまなカメラから撮影された画像から取得されています。
著者らは、この論文で報告された研究に影響を与えたと思われる可能性のある既知の競合する金銭的利益や個人的な関係がないことを宣言します。
この論文では、学生がクラスに注意を払っているか、気を散らしているかを自動的に検出する人工知能ベースのシステムを提案しています。このシステムは、教師が生徒の注意を引き付け、授業を最適化し、生徒がより魅力的になるように動的に変更を導入できるように設計されています。
この研究は、 Programa Prometeo(プロジェクトID CIPROM/2021/017)からの資金提供を受けて開発されました。ロザベル・ロイグ教授は、ユネスコの「教育、研究、デジタルインクルージョン」の議長です。
| 4つのGPU Nvidia A40 Ampere | 集中型モデル処理サーバー用 | NVIDIA | TCSA40M-PB | GPU
| FusionServer 2288H V5 | X-Fusion | 02311XBK | 集中型モデル処理サーバー用の電源とマザーボードを含むプラットフォーム |
| メモリカード Evo Plus 128 GB | Samsung | MB-MC128KA/EU | ラズベリーパイ4b 2GBの操作用メモリカード。 ラズベリー1個につき1個 |
| NEMIX RAM - 512 GB キット DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM 集中型モデル処理サーバー用 |
| プロセッサ Intel Xeon Gold 6330 | Intel | CD8068904572101 | 集中型モデル処理サーバー用 |
| プロセッサ Raspberry PI 4B 2GB | Raspberry | 1822095 | クロックから要求を受信し、一般サーバーに送信するローカル サーバー。生徒の2人に1人です。 |
| Samsung Galaxy Watch 5 (40mm) | 各 | 生徒の活動を監視するSamsungSM-R900NZAAPHE | クロック。各学生に |
| Samsung MZQL23T8HCLS-00B7C PM9A3 3.84Tb Nvme U.2 PCI-Express-4 x4 2.5inch SSDサムスン | MZQL23T8HCLS-00B7C | 集中型モデル処理サーバー用内部ストレージ | |
| WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD.各生徒に1つ、生徒のポーズに2つ。 |