$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Het creëren van een database
We hebben een multimodale dataset gemaakt voor valdetectie en menselijke activiteitsherkenning, namelijk UP-Fall Detection21. De gegevens werden verzameld over een periode van vier weken aan de School of Engineering van Universidad Panamericana (Mexico-Stad, Mexico). Het testscenario werd geselecteerd met de volgende vereisten: a) een ruimte waarin proefpersonen gemakkelijk en veilig vallen en activiteiten konden uitvoeren, en (b) een binnenomgeving met natuurlijk en kunstlicht die zeer geschikt is voor multimodale sensoren instellingen.
Er zijn gegevensmonsters van 17 proefpersonen die 5 soorten vallen en 6 verschillende eenvoudige activiteiten hebben uitgevoerd, tijdens 3 proeven. Alle informatie werd verzameld met behulp van een in-house data acquisition systeem met 5 draagbare sensoren (tri-as versnellingsmeter, gyroscoop en lichtintensiteit), 1 elektro-encefalograaf helm, 6 infrarood sensoren als omgevingssensoren, en 2 camera's op zij- en voorgezichtspunten. Figuur 1 toont de lay-out van de sensorplaatsing in de omgeving en op het lichaam. De sampling rate van de gehele dataset is 18 Hz. De database bevat twee gegevenssets: de geconsolideerde onbewerkte gegevensset (812 GB) en een functiegegevensset (171 GB). Alle databases die in de cloud zijn opgeslagen voor openbare toegang: https://sites.google.com/up.edu.mx/har-up/. Meer informatie over gegevensverwerving, voorverwerking, consolidatie en opslag van deze database, evenals details over synchronisatie en gegevensconsistentie vindt u in Martínez-Villaseñor et al.21.
Voor deze database waren alle proefpersonen gezonde jonge vrijwilligers (9 mannetjes en 8 vrouwtjes) zonder enige beperking, variërend op 18 tot 24 jaar oud, met een gemiddelde hoogte van 1,66 m en een gemiddeld gewicht van 66,8 kg. Tijdens het verzamelen van gegevens hield de technisch verantwoordelijke onderzoeker toezicht op de correct uitgevoerde activiteiten van de proefpersonen. Proefpersonen uitgevoerd vijf soorten vallen, elk voor 10 seconden, als vallen: vooruit met behulp van handen (1), vooruit met behulp van knieën (2), achteruit (3), zittend in een lege stoel (4) en zijwaarts (5). Ze voerden ook zes dagelijkse activiteiten voor 60 s elk, behalve voor het springen (30 s): wandelen (6), staan (7), het oppakken van een object (8), zitten (9), springen (10) en leggen (11). Hoewel gesimuleerde vallen niet alle soorten vallen in de praktijk kunnen reproduceren, is het op zijn minst belangrijk om representatieve soorten vallen op te nemen die het mogelijk maken om betere valdetectiemodellen te creëren. Het is ook relevant om APL's te gebruiken en, in het bijzonder, activiteiten die meestal kunnen worden verward met vallen, zoals het oppakken van een object. De typen dalingen en APL's werden geselecteerd na een herziening van gerelateerde valdetectiesystemen21. Figuur 2 toont bijvoorbeeld een reeks afbeeldingen van één proef wanneer een onderwerp zijwaarts valt.
We haalden 12 temporele (gemiddelde, standaarddeviatie, maximale amplitude, minimale amplitude, wortelgemiddelde vierkant, mediaan, nul-kruisingsnummer, scheefheid, kurtose, eerste kwartiel, derde kwartiel en autocorrelatie) en 6 frequente (gemiddelde, mediaan, entropie, energie, belangrijkste frequentie en spectrale centroid) functies21 van elk kanaal van de draagbare en omgevingssensoren bestaande uit 756 functies in totaal. We hebben ook berekend 400 visuele functies21 voor elke camera over de relatieve beweging van pixels tussen twee aangrenzende beelden in de video's.
Data-analyse tussen Unimodale en Multimodale benaderingen
Vanuit de UP-Fall Detection database analyseerden we de gegevens voor vergelijkingsdoeleinden tussen unimodale en multimodale benaderingen. In die zin vergeleken we zeven verschillende combinaties van informatiebronnen: alleen infraroodsensoren (IR); draagbare sensoren alleen (IMU); draagbare sensoren en helm (IMU+EEG); infrarood- en draagbare sensoren en helmen (IR+IMU+EEG); camera's alleen (CAM); infraroodsensoren en -camera's (IR+CAM); en draagbare sensoren, helmen en camera's (IMU+EEG+CAM). Daarnaast vergeleken we drie verschillende tijdvensterformaten met 50% overlappende: een seconde, twee seconden en drie seconden. In elk segment hebben we de meest handige functies geselecteerd die functieselectie en rangschikking toepassen. Met behulp van deze strategie hebben we slechts 10 functies per modaliteit gebruikt, behalve in de IR-modaliteit met behulp van 40 functies. Bovendien werd de vergelijking gemaakt over vier bekende machine learning classifiers: RF, SVM, MLP en KNN. We gebruikten 10-voudige cross-validatie, met datasets van 70% trein en 30% test, om de machine learning modellen te trainen. Tabel 1 toont de resultaten van deze benchmark, waarin de beste prestaties worden weergegeven die voor elke modaliteit zijn verkregen, afhankelijk van het machine learning-model en de beste configuratie van de vensterlengte. De evaluatiestatistieken rapporteren nauwkeurigheid, precisie, gevoeligheid, specificiteit en F1-score. Figuur 3 toont deze resultaten in een grafische weergave, in termen van F1-score.
Uit tabel 1, multimodale benaderingen (infrarood en draagbare sensoren en helm, IR + IMU + EEG; en draagbare sensoren en helm en camera's, IMU + EEG + CAM) verkregen de beste F1-score waarden, in vergelijking met unimodale benaderingen (alleen infrarood, IR; en camera's alleen, CAM). We merkten ook dat alleen draagbare sensoren (IMU) vergelijkbare prestaties behaalden dan een multimodale benadering. In dit geval hebben we gekozen voor een multimodale aanpak omdat verschillende informatiebronnen de beperkingen van anderen aankunnen. Obtrusiveness in camera's kan bijvoorbeeld worden afgehandeld met draagbare sensoren en niet met alle draagbare sensoren kan worden aangevuld met camera's of omgevingssensoren.
Wat de benchmark van de datagestuurde modellen betreft, toonden experimenten in tabel 1 aan dat RF de beste resultaten in bijna het hele experiment presenteert; hoewel MLP en SVM niet erg consistent waren in prestaties (bijvoorbeeld standaarddeviatie in deze technieken toont meer variabiliteit dan in RF). Over de venstergrootte, vertegenwoordigden deze geen significante verbetering onder hen. Het is belangrijk op te merken dat deze experimenten werden gedaan voor de herfst en menselijke activiteit classificatie.
Sensorplaatsing en beste multimodale combinatie
Aan de andere kant hebben we de beste combinatie van multimodale apparaten voor valdetectie bepaald. Voor deze analyse beperkten we de informatiebronnen tot de vijf draagbare sensoren en de twee camera's. Deze apparaten zijn de meest comfortabele voor de aanpak. Daarnaast hebben we twee klassen overwogen: vallen (elk type val) of geen val (enige andere activiteit). Alle machine learning-modellen en vensterformaten blijven hetzelfde als in de vorige analyse.
Voor elke draagbare sensor bouwden we een onafhankelijk classificatiemodel voor elke vensterlengte. We trainden het model met 10-voudige cross-validatie met 70% training en 30% testen van datasets. Tabel 2 geeft een overzicht van de resultaten voor de rangschikking van de draagbare sensoren per prestatieclassificatie, op basis van de F1-score. Deze resultaten werden gesorteerd in aflopende volgorde. Zoals te zien in tabel 2,de beste prestaties wordt verkregen bij het gebruik van een enkele sensor in de taille, nek of strakke rechterzak (schaduwgebied). Bovendien, enkel en linker pols draagbare sensoren presteerden het slechtst. Tabel 3 toont de voorkeur voor vensterlengte per draagbare sensor om de beste prestaties in elke classificatie te krijgen. Uit de resultaten, taille, hals en strakke rechter zak sensoren met RF classifier en 3 s venster grootte met 50% overlappende zijn de meest geschikte draagbare sensoren voor valdetectie.
We hebben een soortgelijke analyse uitgevoerd voor elke camera in het systeem. We bouwden een onafhankelijk classificatiemodel voor elke venstergrootte. Voor training hebben we 10-voudige cross-validatie gedaan met 70% training en 30% testen van datasets. Tabel 4 toont de rangschikking van de beste camera gezichtspunt per classificatie, op basis van de F1-score. Zoals waargenomen, de laterale weergave (camera 1) uitgevoerd de beste valdetectie. Bovendien presteerde RF beter dan de andere classifiers. Tabel 5 toont ook de voorkeur voor de vensterlengte per cameragezichtspunt. Uit de resultaten, vonden we dat de beste locatie van een camera is in laterale gezichtspunt met behulp van RF in 3 s venster grootte en 50% overlappende.
Tot slot hebben we gekozen voor twee mogelijke plaatsingen van draagbare sensoren (d.w.z. taille en strakke rechterzak) om te worden gecombineerd met de camera van zijwaartsgezichtspunt. Na dezelfde opleidingsprocedure hebben we de resultaten van tabel 6 verkregen. Zoals getoond, de RF-model classificatie kreeg de beste prestaties in nauwkeurigheid en F1-score in beide multimodaliteiten. Ook de combinatie tussen taille en camera 1 gerangschikt in de eerste positie het verkrijgen van 98,72% in nauwkeurigheid en 95,77% in F1-score.

Figuur 1: Lay-out van de draagbare (links) en ambient (rechts) sensoren in de UP-Fall Detection database. De draagbare sensoren zijn geplaatst in het voorhoofd, de linkerpols, de nek, de taille, de rechterzak van de broek en de linkerenkel. De omgevingssensoren zijn zes gekoppelde infraroodsensoren om de aanwezigheid van onderwerpen en twee camera's te detecteren. Camera's bevinden zich aan de zijdelingse weergave en aan de voorkant, zowel met betrekking tot de menselijke val. Klik hier om een grotere versie van dit cijfer te bekijken.

Figuur 2: Voorbeeld van een video-opname uit de UP-Fall Detection-database. Aan de bovenkant is er een opeenvolging van beelden van een onderwerp naar rechts vallen. Aan de onderkant is er een reeks van beelden die de visie functies geëxtraheerd. Deze functies zijn de relatieve beweging van pixels tussen twee aangrenzende afbeeldingen. Witte pixels vertegenwoordigen snellere beweging, terwijl zwarte pixels een langzamere (of bijna nul) beweging vertegenwoordigen. Deze volgorde wordt van links naar rechts gesorteerd, chronologisch. Klik hier om een grotere versie van dit cijfer te bekijken.

Figuur 3: Vergelijkende resultaten die de beste F1-score van elke modaliteit rapporteren met betrekking tot het machine learning-model en de beste vensterlengte. Balken vertegenwoordigen de gemiddelde waarden van f1-score. Tekst in gegevenspunten vertegenwoordigt gemiddelde en standaarddeviatie tussen haakjes. Klik hier om een grotere versie van dit cijfer te bekijken.
| Modaliteit | Model | Nauwkeurigheid (%) | Precisie (%) | Gevoeligheid (%) | Specificiteit (%) | F1-score (%) |
| Ir | RF (3 sec) | 67,38 ± 0,65 | 36,45 ± 2,46 | 31,26 ± 0,89 | 96,63 ± 0,07 | 32,16 ± 0,99 |
| SVM (3 sec) | 65,16 ± 0,90 | 26,77 ± 0,58 | 25,16 ± 0,29 | 96,31 ± 0,09 | 23,89 ± 0,41 |
| MLP (3 sec) | 65,69 ± 0,89 | 28,19 ± 3,56 | 26,40 ± 0,71 | 96,41 ± 0,08 | 25,13 ± 1,09 |
| kNN (3 sec) | 61,79 ± 1,47 | 30,04 ± 1,44 | 27,55 ± 0,97 | 96,05 ± 0,16 | 27,89 ± 1,13 |
| IMU (IMU) | RF (1 sec) | 95,76 ± 0,18 | 70,78 ± 1,53 | 66,91 ± 1,28 | 99,59 ± 0,02 | 68,35 ± 1,25 |
| SVM (1 sec) | 93,32 ± 0,23 | 66,16 ± 3,33 | 58,82 ± 1,53 | 99,32 ± 0,02 | 60,00 ± 1,34 |
| MLP (1 sec) | 95,48 ± 0,25 | 73,04 ± 1,89 | 69,39 ± 1,47 | 99,56 ± 0,02 | 70,31 ± 1,48 |
| kNN (1 sec) | 94,90 ± 0,18 | 69,05 ± 1,63 | 64,28 ± 1,57 | 99,50 ± 0,02 | 66,03 ± 1,52 |
| IMU+EEG | RF (1 sec) | 95,92 ± 0,29 | 74,14 ± 1,29 | 66,29 ± 1,66 | 99,59 ± 0,03 | 69,03 ± 1,48 |
| SVM (1 sec) | 90,77 ± 0,36 | 62,51 ± 3,34 | 52,46 ± 1,19 | 99,03 ± 0,03 | 53,91 ± 1,16 |
| MLP (1 sec) | 93,33 ± 0,55 | 74,10 ± 1,61 | 65,32 ± 1,15 | 99,32 ± 0,05 | 68,13 ± 1,16 |
| kNN (1 sec) | 92,12 ± 0,31 | 66,86 ± 1,32 | 58,30 ± 1,20 | 98,89 ± 0,05 | 60,56 ± 1,02 |
| IR+IMU+EEG | RF (2 sec) | 95,12 ± 0,36 | 74,63 ± 1,65 | 66,71 ± 1,98 | 99,51 ± 0,03 | 69,38 ± 1,72 |
| SVM (1 sec) | 90,59 ± 0,27 | 64,75 ± 3,89 | 52,63 ± 1,42 | 99,01 ± 0,02 | 53,94 ± 1,47 |
| MLP (1 sec) | 93,26 ± 0,69 | 73,51 ± 1,59 | 66,05 ± 1,11 | 99,31 ± 0,07 | 68,19 ± 1,02 |
| kNN (1 sec) | 92,24 ± 0,25 | 67,33 ± 1,94 | 58,11 ± 1,61 | 99,21 ± 0,02 | 60,36 ± 1,71 |
| Cam | RF (3 sec) | 32,33 ± 0,90 | 14,45 ± 1,07 | 14,48 ± 0,82 | 92,91 ± 0,09 | 14,38 ± 0,89 |
| SVM (2 sec) | 34,40 ± 0,67 | 13,81 ± 0,22 | 14,30 ± 0,31 | 92,97 ± 0,06 | 13,83 ± 0,27 |
| MLP (3 sec) | 27,08 ± 2,03 | 8,59 ± 1,69 | 10,59 ± 0,38 | 92,21 ± 0,09 | 7,31 ± 0,82 |
| kNN (3 sec) | 34,03 ± 1,11 | 15,32 ± 0,73 | 15,54 ± 0,57 | 93,09 ± 0,11 | 15,19 ± 0,52 |
| IR+CAM | RF (3 sec) | 65,00 ± 0,65 | 33,93 ± 2,81 | 29,02 ± 0,89 | 96,34 ± 0,07 | 29,81 ± 1,16 |
| SVM (3 sec) | 64,07 ± 0,79 | 24,10 ± 0,98 | 24,18 ± 0,17 | 96,17 ± 0,07 | 22,38 ± 0,23 |
| MLP (3 sec) | 65,05 ± 0,66 | 28,25 ± 3,20 | 25,40 ± 0,51 | 96,29 ± 0,06 | 24,39 ± 0,88 |
| kNN (3 sec) | 60,75 ± 1,29 | 29,91 ± 3,95 | 26,25 ± 0,90 | 95,95 ± 0,11 | 26,54 ± 1,42 |
| IMU+EEG+CAM | RF (1 sec) | 95,09 ± 0,23 | 75,52 ± 2,31 | 66,23 ± 1,11 | 99,50 ± 0,02 | 69,36 ± 1,35 |
| SVM (1 sec) | 91,16 ± 0,25 | 66,79 ± 2,79 | 53,82 ± 0,70 | 99,07 ± 0,02 | 55,82 ± 0,77 |
| MLP (1 sec) | 94,32 ± 0,31 | 76,78 ± 1,59 | 67,29 ± 1,41 | 99,42 ± 0,03 | 70,44 ± 1,25 |
| kNN (1 sec) | 92,06 ± 0,24 | 68,82 ± 1,61 | 58,49 ± 1,14 | 99,19 ± 0,02 | 60,51 ± 0,85 |
Tabel 1: Vergelijkende resultaten die de beste prestaties van elke modaliteit rapporteren met betrekking tot het machine learning-model en de beste vensterlengte (tussen haakjes). Alle prestatiewaarden vertegenwoordigen het gemiddelde en de standaarddeviatie.
| # | IMU-type |
| Rf | Svm | Mlp | KNN (KNN) |
| 1 | (98.36) Taille | (83.30) Rechterzak | (57.67) Rechterzak | (73.19) Rechterzak |
| 2 | (95.77) Nek | (83.22) Taille | (44.93) Nek | (68.73) Taille |
| 3 | (95.35) Rechterzak | (83.11) Nek | (39.54) Taille | (65.06) Nek |
| 4 | (95.06) Enkel | (82.96) Enkel | (39.06) Linkerpols | (58.26) Enkel |
| 5 | (94.66) Linkerpols | (82.82) Linkerpols | (37.56) Enkel | (51.63) Linkerpols |
Tabel 2: Rangschikking van de beste draagbare sensor per classificatie, gesorteerd op de F1-score (tussen haakjes). De gebieden in de schaduw vertegenwoordigen de top drie classifiers voor valdetectie.
| IMU-type | Vensterlengte |
| Rf | Svm | Mlp | KNN (KNN) |
| Linker enkel | 2-sec | 3-sec | 1-sec | 3-sec |
| Taille | 3-sec | 1-sec | 1-sec | 2-sec |
| Nek | 3-sec | 3-sec | 2-sec | 2-sec |
| Rechterzak | 3-sec | 3-sec | 2-sec | 2-sec |
| Linkerpols | 2-sec | 2-sec | 2-sec | 2-sec |
Tabel 3: Gewenste tijdvensterlengte in de draagbare sensoren per classificatie.
| # | Cameraweergave |
| Rf | Svm | Mlp | KNN (KNN) |
| 1 | (62.27) Laterale weergave | (24.25) Laterale weergave | (13.78) Vooraanzicht | (41.52) Laterale weergave |
| 2 | (55.71) Vooraanzicht | (0.20) Vooraanzicht | (5.51) Zijdelingse weergave | (28.13) Vooraanzicht |
Tabel 4: Rangschikking van het beste camerastandpunt per classificatie, gesorteerd op de F1-score (tussen haakjes). De gebieden in de schaduw vertegenwoordigen de hoogste classificatie voor valdetectie.
| Camera | Vensterlengte |
| Rf | Svm | Mlp | KNN (KNN) |
| Zijdelingse weergave | 3-sec | 3-sec | 2-sec | 3-sec |
| Vooraanzicht | 2-sec | 2-sec | 3-sec | 2-sec |
Tabel 5: Gewenste tijdvensterlengte in de camerastandpunten per classificatie.
| Multimodale | Classificatie | Nauwkeurigheid (%) | Precisie (%) | Gevoeligheid (%) | F1-score (%) |
Taille + Zijdelingse weergave | Rf | 98,72 ± 0,35 | 94,01 ± 1,51 | 97,63 ± 1,56 | 95,77 ± 1,15 |
| Svm | 95,59 ± 0,40 | 100 | 70,26 ± 2,71 | 82,51 ± 1,85 |
| Mlp | 77,67 ± 11,04 | 33,73 ± 11,69 | 37,11 ± 26,74 | 29,81 ± 12,81 |
| KNN (KNN) | 91,71 ± 0,61 | 77,90 ± 3,33 | 61,64 ± 3,68 | 68,73 ± 2,58 |
Rechterzak + Zijdelingse weergave | Rf | 98,41 ± 0,49 | 93,64 ± 1,46 | 95,79 ± 2,65 | 94,69 ± 1,67 |
| Svm | 95,79 ± 0,58 | 100 | 71,58 ± 3,91 | 83,38 ± 2,64 |
| Mlp | 84,92 ± 2,98 | 55,70 ± 11,36 | 48,29 ± 25,11 | 45,21 ± 14,19 |
| KNN (KNN) | 91,71 ± 0,58 | 73,63 ± 3,19 | 68,95 ± 2,73 | 71,13 ± 1,69 |
Tabel 6: Vergelijkende resultaten van de gecombineerde draagbare sensor en camera gezichtspunt met behulp van 3-seconden venster lengte. Alle waarden vertegenwoordigen de gemiddelde en standaarddeviatie.