RESEARCH
Peer reviewed scientific video journal
Video encyclopedia of advanced research methods
Visualizing science through experiment videos
EDUCATION
Video textbooks for undergraduate courses
Visual demonstrations of key scientific experiments
BUSINESS
Video textbooks for business education
OTHERS
Interactive video based quizzes for formative assessments
Products
RESEARCH
JoVE Journal
Peer reviewed scientific video journal
JoVE Encyclopedia of Experiments
Video encyclopedia of advanced research methods
EDUCATION
JoVE Core
Video textbooks for undergraduates
JoVE Science Education
Visual demonstrations of key scientific experiments
JoVE Lab Manual
Videos of experiments for undergraduate lab courses
BUSINESS
JoVE Business
Video textbooks for business education
Solutions
Language
German
Menu
Menu
Menu
Menu
A subscription to JoVE is required to view this content. Sign in or start your free trial.
Research Article
Please note that some of the translations on this page are AI generated. Click here for the English version.
Erratum Notice
Important: There has been an erratum issued for this article. View Erratum Notice
Retraction Notice
The article Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data (10.3791/61715) has been retracted by the journal upon the authors' request due to a conflict regarding the data and methodology. View Retraction Notice
In diesem Artikel wird ein auf künstlicher Intelligenz basierendes System vorgeschlagen, das automatisch erkennt, ob die Schüler auf den Unterricht achten oder abgelenkt sind. Dieses System soll Lehrern helfen, die Aufmerksamkeit der Schüler aufrechtzuerhalten, ihren Unterricht zu optimieren und dynamisch Änderungen vorzunehmen, damit sie ansprechender sind.
Das Aufmerksamkeitsniveau der Schüler in einem Klassenzimmer kann durch den Einsatz von Techniken der künstlichen Intelligenz (KI) verbessert werden. Durch die automatische Identifizierung des Aufmerksamkeitsniveaus können Lehrer Strategien anwenden, um die Konzentration der Schüler wiederherzustellen. Dies kann durch verschiedene Informationsquellen erreicht werden.
Eine Quelle ist die Analyse der Emotionen, die sich in den Gesichtern der Schüler widerspiegeln. KI kann Emotionen wie Neutralität, Ekel, Überraschung, Traurigkeit, Angst, Glück und Wut erkennen. Darüber hinaus kann auch die Blickrichtung der Schüler möglicherweise auf ihren Aufmerksamkeitsgrad hinweisen. Eine weitere Quelle ist die Beobachtung der Körperhaltung der Schüler. Durch den Einsatz von Kameras und Deep-Learning-Techniken kann die Körperhaltung analysiert werden, um das Maß an Aufmerksamkeit zu bestimmen. Zum Beispiel können Schüler, die krumm sitzen oder ihren Kopf auf ihre Schreibtische legen, ein geringeres Maß an Aufmerksamkeit haben. Smartwatches, die an die Schüler verteilt werden, können biometrische und andere Daten liefern, einschließlich Herzfrequenz- und Trägheitsmessungen, die auch als Aufmerksamkeitsindikatoren verwendet werden können. Durch die Kombination dieser Informationsquellen kann ein KI-System so trainiert werden, dass es den Aufmerksamkeitsgrad im Klassenzimmer erkennt. Die Integration der verschiedenen Datentypen stellt jedoch eine Herausforderung dar, die die Erstellung eines beschrifteten Datensatzes erfordert. Expertenbeiträge und vorhandene Studien werden für eine genaue Kennzeichnung herangezogen. In diesem Artikel schlagen wir die Integration solcher Messungen und die Erstellung eines Datensatzes und eines potenziellen Aufmerksamkeitsklassifikators vor. Um der Lehrkraft Feedback zu geben, erforschen wir verschiedene Methoden, wie z.B. Smartwatches oder direkte Computer. Sobald der Lehrer sich der Aufmerksamkeitsprobleme bewusst wird, kann er seinen Unterrichtsansatz anpassen, um die Schüler wieder zu motivieren und zu motivieren. Zusammenfassend lässt sich sagen, dass KI-Techniken das Aufmerksamkeitsniveau der Schüler automatisch identifizieren können, indem sie ihre Emotionen, Blickrichtung, Körperhaltung und biometrischen Daten analysieren. Diese Informationen können Lehrenden helfen, den Lehr-Lern-Prozess zu optimieren.
In modernen Bildungsumgebungen ist die genaue Bewertung und Aufrechterhaltung der Aufmerksamkeit der Schüler entscheidend für effektives Lehren und Lernen. Traditionelle Methoden zur Messung des Engagements, wie z. B. Selbstauskünfte oder subjektive Beobachtungen von Lehrern, sind jedoch zeitaufwändig und anfällig für Verzerrungen. Um diese Herausforderung zu bewältigen, haben sich Techniken der künstlichen Intelligenz (KI) als vielversprechende Lösungen für die automatisierte Aufmerksamkeitserkennung herausgestellt. Ein wichtiger Aspekt für das Verständnis des Engagements der Schüler ist die Emotionserkennung1. KI-Systeme können Gesichtsausdrücke analysieren, um Emotionen wie Neutralität, Ekel, Überraschung, Traurigkeit, Angst, Glück und Wutzu identifizieren 2.
Auch die Blickrichtung und die Körperhaltung sind entscheidende Indikatoren für die Aufmerksamkeit der Schülerinnenund Schüler 3. Durch den Einsatz von Kameras und fortschrittlichen Algorithmen für maschinelles Lernen können KI-Systeme genau verfolgen, wohin die Schüler schauen, und ihre Körperhaltung analysieren, um Anzeichen von Desinteresse oder Müdigkeit zu erkennen4. Darüber hinaus verbessert die Einbeziehung biometrischer Daten die Genauigkeit und Zuverlässigkeit der Aufmerksamkeitserkennung5. Durch das Sammeln von Messwerten wie Herzfrequenz und Blutsauerstoffsättigung durch Smartwatches, die von Schülern getragen werden, können objektive Aufmerksamkeitsindikatoren erhalten werden, die andere Informationsquellen ergänzen.
In diesem Artikel wird ein System vorgeschlagen, das den Aufmerksamkeitsgrad einer Person mithilfe von Farbkameras und anderen verschiedenen Sensoren bewertet. Es kombiniert Emotionserkennung, Blickrichtungsanalyse, Bewertung der Körperhaltung und biometrische Daten, um Pädagogen ein umfassendes Set an Tools zur Optimierung des Lehr-Lern-Prozesses und zur Verbesserung des Engagements der Schüler zur Verfügung zu stellen. Durch den Einsatz dieser Tools können Pädagogen ein umfassendes Verständnis des Lehr-Lern-Prozesses erlangen und das Engagement der Schüler verbessern, wodurch die gesamte Bildungserfahrung optimiert wird. Durch den Einsatz von KI-Techniken ist es sogar möglich, diese Daten automatisiert auszuwerten.
Das Hauptziel dieser Arbeit ist es, das System zu beschreiben, das es uns ermöglicht, alle Informationen zu erfassen und, sobald sie erfasst sind, ein KI-Modell zu trainieren, das es uns ermöglicht, die Aufmerksamkeit der gesamten Klasse in Echtzeit zu gewinnen. Obwohl in anderen Arbeiten bereits vorgeschlagen wurde, Aufmerksamkeit anhand visueller oder emotionaler Informationen zu erregen6, schlägt diese Arbeit den kombinierten Einsatz dieser Techniken vor, der einen ganzheitlichen Ansatz bietet, der den Einsatz komplexerer und effektiverer KI-Techniken ermöglicht. Darüber hinaus beschränken sich die bisher verfügbaren Datensätze entweder auf eine Reihe von Videos oder auf biometrische Daten. Die Literatur enthält keine Datensätze, die vollständige Daten mit Bildern des Gesichts oder des Körpers des Schülers, biometrischen Daten, Daten zur Position des Lehrers usw. liefern. Mit dem hier vorgestellten System ist es möglich, diese Art von Datensatz zu erfassen.
Das System ordnet jedem Schüler zu jedem Zeitpunkt ein gewisses Maß an Aufmerksamkeit zu. Dieser Wert ist ein Wahrscheinlichkeitswert für Aufmerksamkeit zwischen 0% und 100%, der als niedriges Aufmerksamkeitsniveau (0%-40%), mittleres Aufmerksamkeitsniveau (40%-75%) und hohes Aufmerksamkeitsniveau (75%-100%) interpretiert werden kann. Im gesamten Text wird diese Wahrscheinlichkeit der Aufmerksamkeit als das Aufmerksamkeitsniveau, die Aufmerksamkeit der Schüler oder die Frage, ob die Schüler abgelenkt sind oder nicht, bezeichnet, aber diese beziehen sich alle auf den gleichen Ausgabewert unseres Systems.
Im Laufe der Jahre ist der Bereich der automatischen Engagement-Erkennung aufgrund seines Potenzials, die Bildung zu revolutionieren, erheblich gewachsen. Forscher haben verschiedene Ansätze für diesen Forschungsbereich vorgeschlagen.
Ma et al.7 stellten eine neuartige Methode vor, die auf einer Neural Turing Machine zur automatischen Engagement-Erkennung basiert. Sie extrahierten bestimmte Merkmale wie Blick, Gesichtsbewegungseinheiten, Kopf- und Körperhaltung, um eine umfassende Darstellung der Engagement-Erkennung zu erstellen.
EyeTab8, ein weiteres innovatives System, verwendet Modelle, um mit beiden Augen zu schätzen, wohin jemand schaut. Es wurde speziell entwickelt, um reibungslos auf einem Standard-Tablet ohne Änderungen zu funktionieren. Dieses System nutzt bekannte Algorithmen für die Verarbeitung von Bildern und die Analyse von Computer Vision. Ihre Pipeline zur Blickschätzung umfasst einen Haar-ähnlichen, merkmalsbasierten Augendetektor sowie einen RANSAC-basierten Limbusellipsenanpassungsansatz.
Sanghvi et al.9 schlagen einen Ansatz vor, der auf sehbasierten Techniken beruht, um ausdrucksstarke Haltungsmerkmale automatisch aus Videos zu extrahieren, die aus einer Seitenansicht aufgenommen wurden, und das Verhalten der Kinder zu erfassen. Es wird eine erste Evaluation durchgeführt, die das Training mehrerer Erkennungsmodelle unter Verwendung kontextualisierter affektiver Haltungsausdrücke umfasst. Die erzielten Ergebnisse zeigen, dass Haltungsmuster die Auseinandersetzung der Kinder mit dem Roboter effektiv vorhersagen können.
In anderen Arbeiten, wie z.B. Gupta et al.10, wird eine Deep-Learning-basierte Methode eingesetzt, um das Echtzeit-Engagement von Online-Lernenden zu erkennen, indem ihre Gesichtsausdrücke analysiert und ihre Emotionen klassifiziert werden. Der Ansatz nutzt die Erkennung von Gesichtsemotionen, um einen Engagement-Index (EI) zu berechnen, der zwei Engagement-Zustände vorhersagt: engagiert und unengagiert. Verschiedene Deep-Learning-Modelle, darunter Inception-V3, VGG19 und ResNet-50, werden evaluiert und verglichen, um das effektivste prädiktive Klassifizierungsmodell für die Echtzeit-Erkennung von Interaktionen zu identifizieren.
In Altuwairqi et al.11 stellen die Forscher einen neuartigen automatischen multimodalen Ansatz zur Bewertung des Engagements von Schülern in Echtzeit vor. Um genaue und zuverlässige Messungen zu gewährleisten, integrierte und analysierte das Team drei verschiedene Modalitäten, die das Verhalten der Schüler erfassen: Gesichtsausdrücke für Emotionen, Tastenanschläge auf der Tastatur und Mausbewegungen.
Guillén et al.12 schlagen die Entwicklung eines Überwachungssystems vor, das die Elektrokardiographie (EKG) als primäres physiologisches Signal verwendet, um das Vorhandensein oder Fehlen von kognitiver Aufmerksamkeit bei Individuen während der Ausführung einer Aufgabe zu analysieren und vorherzusagen.
Alban et al.13 verwenden ein neuronales Netzwerk (NN), um Emotionen zu erkennen, indem sie die Herzfrequenz (HR) und die elektrodermale Aktivität (EDA) verschiedener Teilnehmer sowohl im Zeit- als auch im Frequenzbereich analysieren. Sie stellen fest, dass eine Zunahme des Root-Mean-Square of Successive Differences (RMSDD) und der Standardabweichung von Normal-zu-Normal-Intervallen (SDNN), gepaart mit einer Abnahme der durchschnittlichen HR, auf eine erhöhte Aktivität im sympathischen Nervensystem hinweist, die mit Angst verbunden ist.
Kajiwara et al.14 schlagen ein innovatives System vor, das tragbare Sensoren und tiefe neuronale Netze verwendet, um das Ausmaß der Emotionen und des Engagements von Arbeitern vorherzusagen. Das System folgt einem dreistufigen Prozess. Zunächst erfassen und sammeln tragbare Sensoren Daten über Verhaltensweisen und Pulswellen. Anschließend werden Zeitreihenmerkmale auf der Grundlage der gewonnenen Verhaltens- und physiologischen Daten berechnet. Schließlich werden tiefe neuronale Netze verwendet, um die Zeitreihenmerkmale einzugeben und Vorhersagen über die Emotionen und das Engagement der Person zu treffen.
In anderen Forschungen, wie z.B. Costante et al.15, wird ein Ansatz vorgeschlagen, der auf einem neuartigen transfermetrischen Lernalgorithmus basiert, der das Vorwissen über einen vordefinierten Satz von Gesten nutzt, um die Erkennung von benutzerdefinierten Gesten zu verbessern. Diese Verbesserung wird mit minimaler Abhängigkeit von zusätzlichen Trainingsgebieten erreicht. In ähnlicher Weise wird ein sensorgestütztes Rahmenwerk zur Erkennung menschlicher Aktivitäten16 vorgestellt, um das Ziel der unpersönlichen Erkennung komplexer menschlicher Aktivitäten zu adressieren. Signaldaten, die von am Handgelenk getragenen Sensoren gesammelt werden, werden in dem entwickelten Framework zur Erkennung menschlicher Aktivitäten verwendet, wobei vier RNN-basierte DL-Modelle (Long-Short Term Memorys, Bidirectional Long-Short Term Memorys, Gated Recurrent Units und Bidirectional Gated Recurrent Units) verwendet werden, um die Aktivitäten des Benutzers des tragbaren Geräts zu untersuchen.
Das folgende Protokoll folgt den Richtlinien der Ethikkommission für die Humanforschung der Universität Alicante mit der genehmigten Protokollnummer UA-2022-11-12. Für dieses Experiment und für die Verwendung der Daten hier wurde von allen Teilnehmern eine Einverständniserklärung eingeholt.
1. Hardware-, Software- und Klasseneinrichtung

Abbildung 1: Hardware- und Datenpipeline. Die Daten der Kameras und Smartwatches werden gesammelt und den Algorithmen des maschinellen Lernens zur Verarbeitung zugeführt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Position der Sensoren, des Lehrers und der Schüler. Diagramm, das die Positionen der Kameras, Smartwatches und der GUI im Klassenzimmer mit dem Lehrer und den Schülern zeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
2. Pipeline für Erfassung und Datenverarbeitung
HINWEIS: Alle diese Schritte werden automatisch von der Verarbeitungssoftware ausgeführt, die auf einem Server bereitgestellt wird. Die Implementierung, die für die Experimente in dieser Arbeit verwendet wurde, wurde in Python 3.8 geschrieben.

Abbildung 3: Daten, die von der Smartwatch erfasst werden. Die Smartwatch stellt ein Gyroskop, einen Beschleunigungsmesser, eine Herzfrequenz und einen Lichtzustand als Datenströme zur Verfügung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 4: Beispiele für die Kategorien, die vom Aktivitätserkennungsmodell berücksichtigt werden. Das Aktivitätserkennungsmodell erkennt vier verschiedene Aktionen: Handschreiben, Tippen auf einer Tastatur, Verwenden eines Smartphones und Ruheposition. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Die Zielgruppe dieser Studie sind Bachelor- und Masterstudierende, so dass die Hauptaltersgruppe zwischen 18 und 25 Jahren liegt. Diese Population wurde ausgewählt, weil sie mit elektronischen Geräten mit weniger Ablenkungen umgehen kann als jüngere Schüler. Insgesamt umfasste die Gruppe 25 Personen. Diese Altersgruppe kann die zuverlässigsten Ergebnisse liefern, um den Vorschlag zu testen.
Die Ergebnisse des Aufmerksamkeitsniveaus, das dem Lehrer gezeigt wird, bestehen aus 2 Teilen. Teil A des Ergebnisses zeigt individuelle Informationen über das aktuelle Aufmerksamkeitsniveau jedes Schülers. Teil B soll dann die durchschnittliche Aufmerksamkeit der gesamten Klasse und ihre zeitliche Geschichte während der gesamten Lektion gewinnen. Dies ermöglicht es uns, einen allgemeinen Trend der Aufmerksamkeit der Schüler im Klassenzimmer zu erfassen und die vom Lehrer verwendete Methodik live anzupassen. Jede Sekunde fordert die Schnittstelle neue Informationen vom Server an. Darüber hinaus beinhaltet diese Ansicht die Verwendung von Browser-Benachrichtigungen, die es ermöglichen, drastische Veränderungen in der Aufmerksamkeit der Schüler auf unaufdringliche Weise anzuzeigen, während der Lehrer seine Aktivitäten normal ausführt, ohne dass diese GUI im Vordergrund bleiben muss. Ein Beispiel für diese GUI ist in Abbildung 5 zu sehen.

Abbildung 5: Grafische Benutzeroberfläche des Systems. Der Grad der Aufmerksamkeit wird in einer GUI angezeigt, auf die jeder Internetbrowser auf jedem fähigen Gerät zugreifen kann, z. B. einem Tablet, Smartphone und Desktop- oder Laptop-Computer. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Was das Aktivitätserkennungsmodell betrifft, so wurde ein rekurrentes neuronales Netz definiert, so dass es eine Sequenz von 200 Messungen mit jeweils 6 Werten als Eingabe erhält: nämlich drei Werte vom Beschleunigungsmesser und 3 vom Gyroskop. Das Modell besteht aus einer LSTM-Schicht mit 64 Einheiten, gefolgt von einer SoftMax-aktivierten, vollständig verbundenen Schicht mit vier Ausgangsneuronen, eines pro Kategorie. Die Architektur ist in Abbildung 6 dargestellt.

Abbildung 6: Architektur des Aktivitätsklassifikators. Als Eingabe nimmt das Modell Smartwatch-Daten und verarbeitet sie über eine LSTM-Schicht, gefolgt von einer vollständig verbundenen Schicht. Die Ausgabe ist die Wahrscheinlichkeit, dass die Stichprobe jede Aktivität abbildet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Als Ausgabe gibt der Klassifizierer die Klasse zurück, die der geschätzten Aktion entspricht, die vom Schüler ausgeführt wird. Dieses neuronale Netzwerk wurde mit Daten trainiert, die von 6 verschiedenen Personen erfasst wurden. Jeder wurde aufgenommen, während er 200 Sekunden lang Aktionen aus den vier verschiedenen Kategorien ausführte. Alle erfassten Daten wurden dupliziert, wodurch ein neuer gespiegelter Datensatz erzeugt wurde, indem der von den Sensoren in der X-Achse erhaltene Wert invertiert wurde. Dies ist vergleichbar mit dem Sammeln von Daten sowohl von der rechten als auch von der linken Hand aller Personen. Dies ist eine gängige Praxis im Bereich des maschinellen Lernens und soll dazu dienen, mehr Stichproben aus dem vorhandenen Datensatz zu generieren, um eine Überanpassung zu vermeiden.
Die 200 Messungen (ein Datensatz pro Sekunde) werden in Streams von 4 s gruppiert, um den Eingaben aus dem LSTM-Netzwerk zu entsprechen, indem das Fenster jeweils um eine Sekunde verschoben wird. Als Ergebnis erhielten wir 197 Kombinationen von Daten, die in einem Intervall von 4 s aufgenommen wurden. Zusammenfassend gibt es insgesamt 9.456 Dateneingaben, 6 Personen, 4 Klassen, 2 Hände und 197 Trainingssätze. Die Daten wurden in 90 % Training und 10 % Validierung unterteilt, und das Netzwerk wurde für 300 Epochen und eine Batchgröße von 64 trainiert.
Wie in Abbildung 7 gezeigt, wurde das Modell für 300 Epochen trainiert. Der Validierungsverlust betrug weniger als 0,1 % und die Validierungsgenauigkeit 97 %. Die erhaltenen Metriken unterstreichen die gute Leistung des Modells.

Abbildung 7: Trainings- und Validierungsverluste und -genauigkeiten. Trainings- und Validierungsverluste und -genauigkeiten zeigen, dass die Leistung des Modells angemessen ist und nicht unter einer Überanpassung leidet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Schließlich werden die Ergebnisse jedes Subsystems (Kopfhaltung, Posenschätzung, Emotionsvorhersage und Aktivitätserkennung) in einem Boosting-Klassifikator zusammengeführt, der einen Wahrscheinlichkeitswert dafür liefert, ob der Schüler der Lektion aufmerksam folgt oder nicht.
Um die konzeptionelle und verfahrenstechnische Klärung für eine korrekte Kennzeichnung und Expertenbeiträge voranzutreiben, wurden bestehende Studien wie unten beschrieben konsultiert.
Was den Input von Experten anbelangt, so wurde die Delphi-Methodegewählt 20,21,22, eine Methode, die im technologischen Bereich23 zunehmend an Bedeutung gewinnt. Wie in einer früheren Veröffentlichung erwähnt, ist die Delphi-Methode definiert als ein iterativer, gruppenbezogener und anonymer Prozess, um Meinungen zu einem Thema zu generieren und den Konsens unter Experten zu diesem Thema zu erforschen23. In dem hier vorgestellten Fall trugen 6 Experten für 2 Wochen und 2 Konsultationsrunden bei, in Übereinstimmung mit Khodyakov et al.24. Aufgrund der Bedeutung des Profils der teilnehmenden Experten wurden akademische Spezialisten von Universitäten aus den Bereichen Psychologie, Pädagogik und Informatik in die Konsultation einbezogen. Für die Erhebung der Daten wurde eine quantitative Methode verwendet. Die Ergebnisse haben zu einem Konsens über die in dieser Studie verwendete Kennzeichnung geführt.
In Bezug auf die Studien, die als Grundlage für die Kennzeichnung herangezogen wurden, begannen wir mit einer explorativen Studie in den wichtigsten Datenbanken, wie WOS und Scopus. Erwähnenswert sind in diesem Zusammenhang die Beiträge früherer Studien 25,26,27,28. Sie alle betrachten die Problematik der Versorgung aus spezifischen Perspektiven, aber nicht ganzheitlich aus einem intelligenten System, wie es in dieser Studie thematisiert werden soll. Auf der anderen Seite gibt es Studien, die zwei spezifische Quellen kombinieren, wie z.B. in Zaletelj et al.29, wo sie sich auf Gesichts- und Körpermerkmale konzentrieren, aber sie sind weit entfernt von globalen Ansätzen wie dieser Studie. Eine frühere Arbeit sticht mit30 heraus und zitiert die Taxonomie von Posner, die in dieser Studie berücksichtigt wird. Posner betrachtet Aufmerksamkeit als eine Reihe isolierbarer neuronaler Systeme (Wachsamkeit, Orientierung und exekutive Kontrolle), die oft zusammenarbeiten, um Verhalten zu organisieren30.
Der Boosting-Klassifikator ist ein Ensemble-Algorithmus, der Gewichte für jede schwache Ausgabe des Klassifikators lernt und durch eine gewichtete Kombination jeder einzelnen Entscheidung einen endgültigen Wert generiert. Diese Informationen werden, wie in Schritt 2.9 beschrieben, in Echtzeit über eine Webschnittstelle dargestellt, so dass der Lehrer drastische Veränderungen des Aufmerksamkeitsniveaus der Klasse mit Browserbenachrichtigungen bemerken kann. Mit dieser Visualisierungsoberfläche, die die Entwicklung des allgemeinen Aufmerksamkeitsniveaus der Schüler in Echtzeit anzeigt, können Lehrer ihren Unterricht so anpassen, dass die Schüler in ihren Unterricht eingebunden werden und mehr aus dem Unterricht herausgeholt wird.
Tabelle 1 zeigt die Datensatzstruktur, die sich aus folgenden Elementen zusammensetzt: Einzelne Kamera: ein Bild pro Sekunde bei 960 x 720 Pixel RGB; Zenital-Kameras: zwei Bilder pro Sekunde mit 1920 x 1080 Pixeln RGB; Gyroskop: 50 Daten pro Sekunde, jeder Datensatz wird in 3 Gleitkommawerte mit 19 Dezimalwerten zerlegt, die den Koordinaten X, Y, Z entsprechen. Misst die Winkelbeschleunigung in °/s; Beschleunigungsmesser: 50 Daten pro Sekunde, jeder Datensatz wird in 3 Gleitkommawerte mit 19 Dezimalwerten zerlegt, die den Koordinaten X, Y, Z entsprechen. Misst die Beschleunigung in m/s2; Rotationsvektor: 50 Daten pro Sekunde, jeder Datensatz wird in eine Quaternion mit 4 Gleitkommawerten mit 19 Dezimalstellen (mit Werten zwischen -1 und 1) zerlegt; Herzfrequenz: ein Wert pro Sekunde zur Messung von Schlägen pro Minute; Light-Sensor: ca. 8-10 Werte pro Sekunde zur Messung des Lichtverhältnisses mit ganzen Zahlen; Kopfrichtung: Für jedes Bild stehen 3 Dezimalzahlen für die X-Achse (Rollen), die Y-Achse (Neigung) und die Z-Achse (Gieren), die die Neigung des Kopfes angeben. Körperpose: Für jedes Bild stehen 18 Dezimalzahlen für die X- und Y-Koordinaten von 9 Schlüsselpunkten.
| Individuelle Kamera | Zenithal-Kameras | Gyroskop | Beschleunigungssensor | Rotations-Vektor | Herzfrequenz | Lichtzustand | Richtung Kopf | Körperhaltung |
| 960 x 720 Pixel RGB-Bild | 2 x (1920 x 1080 Pixel) | 50 x 3 (XYZ) | 50 x 3 (XYZ) | 50 x Quaternion | Schläge pro Minute | 10 x Lumen | 3 (XYZ) Dezimalzahlen | 9 x 2 (XY) Dezimalzahlen |
| RGB-Bild | Dezimalzahlen | Dezimalzahlen |
Tabelle 1: Struktur des Datensatzes. Der Datensatz zeigt zu Klassifizierungszwecken unterschiedliche Daten an. Alle angezeigten Daten stammen aus biometrischen Daten und Bildern, die von verschiedenen Kameras aufgenommen wurden.
Die Autoren erklären, dass ihnen keine konkurrierenden finanziellen Interessen oder persönlichen Beziehungen bekannt sind, die die in diesem Artikel berichtete Arbeit beeinflusst haben könnten.
In diesem Artikel wird ein auf künstlicher Intelligenz basierendes System vorgeschlagen, das automatisch erkennt, ob die Schüler auf den Unterricht achten oder abgelenkt sind. Dieses System soll Lehrern helfen, die Aufmerksamkeit der Schüler aufrechtzuerhalten, ihren Unterricht zu optimieren und dynamisch Änderungen vorzunehmen, damit sie ansprechender sind.
Diese Arbeit wurde mit Mitteln des Programa Prometeo, Projekt-ID CIPROM/2021/017, entwickelt. Prof. Rosabel Roig ist Vorsitzende der UNESCO "Bildung, Forschung und digitale Inklusion".
| 4 GPUs Nvidia A40 Ampere | NVIDIA | TCSA40M-PB | GPU für den zentralisierten Modellverarbeitungsserver |
| FusionServer 2288H V5 | X-Fusion | 02311XBK | Plattform, die ein Netzteil und ein Motherboard für den zentralen Modellverarbeitungsserver umfasst |
| Speicherkarte Evo Plus 128 GB | Samsung | MB-MC128KA/EU | Speicherkarte für den Betrieb des Raspberry Pi 4b 2 GB. Einen für jede Himbeere. |
| NEMIX RAM - 512 GB Kit DDR4-3200 PC4-25600 8Rx4 EC | NEMIX | M393AAG40M32-CAE | RAM für zentralisierte Modellverarbeitungsserver |
| Prozessor Intel Xeon Gold 6330 | Intel | CD8068904572101 | Prozessor für zentralisierte Modellverarbeitungsserver |
| Raspberry PI 4B 2GB | Raspberry | 1822095 | Lokaler Server, der Anfragen von den Uhren empfängt und an den allgemeinen Server sendet. Jeder zweite Schüler. |
| Samsung Galaxy Watch 5 (40mm) | Samsung | SM-R900NZAAPHE | Uhr, die die Aktivitäten jedes Schülers überwacht. Für jeden Schüler. |
| Samsung MZQL23T8HCLS-00B7C PM9A3 3,84 TB Nvme U.2 PCI-Express-4 x4 2,5" SSD | Samsung | MZQL23T8HCLS-00B7C | Interner Speicher für zentralisierten Modellverarbeitungsserver |
| WebCam HD Pro C920 Webcam FullHD | Logitech | 960-001055 | Webcam HD. Eine für jeden Schüler plus zwei für die Posen der Schüler. |