$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Creazione di un database
Abbiamo creato un set di dati multimodale per il rilevamento delle cadute e il riconoscimento delle attività umane, vale a dire UP-Fall Detection21. I dati sono stati raccolti per un periodo di quattro settimane presso la School of Engineering dell'Universidad Panamericana (Città del Messico, Messico). Lo scenario di test è stato selezionato considerando i seguenti requisiti: (a) uno spazio in cui i soggetti potevano eseguire comodamente e in modo sicuro cadute e attività, e (b) un ambiente interno con luce naturale e artificiale che è adatto per le impostazioni dei sensori multimodali.
Ci sono campioni di dati da 17 soggetti che hanno eseguito 5 tipi di cadute e 6 diverse attività semplici, durante 3 prove. Tutte le informazioni sono state raccolte utilizzando un sistema di acquisizione dati interno con 5 sensori indossabili (accelerometro a tre assi, giroscopio e intensità della luce), 1 casco elettroencefalografo, 6 sensori a infrarossi come sensori ambientali e 2 telecamere nei punti di vista laterali e anteriori. Figura 1 Mostra il layout del posizionamento del sensore nell'ambiente e sul corpo. La frequenza di campionamento dell'intero set di dati è 18 Hz. Il database contiene due set di dati: il set di dati non elaborati consolidato (812 GB) e un set di dati di entità geografiche (171 GB). Tutti i database archiviati nel cloud per l'accesso pubblico: https://sites.google.com/up.edu.mx/har-up/. Ulteriori dettagli sull'acquisizione, la pre-elaborazione, il consolidamento e l'archiviazione di questo database, nonché i dettagli sulla sincronizzazione e la coerenza dei dati sono disponibili in Martènez-Villaseor etal.
Per questa banca dati, tutti i soggetti erano giovani volontari sani (9 maschi e 8 femmine) senza alcuna menomazione, di età compresa tra i 18 e i 24 anni, con un'altezza media di 1,66 m e un peso medio di 66,8 kg. Durante la raccolta dei dati, il ricercatore tecnico responsabile stava supervisionando che tutte le attività sono state eseguite dai soggetti correttamente. I soggetti hanno eseguito cinque tipi di cadute, ognuna per 10 secondi, come caduta: in avanti con le mani (1), in avanti con le ginocchia (2), all'indietro (3), seduto su una sedia vuota (4) e lateralmente (5). Hanno anche condotto sei attività quotidiane per 60 s ciascuna tranne che per saltare (30 s): camminare (6), in piedi (7), raccogliere un oggetto (8), sedersi (9), saltare (10) e posare (11). Sebbene le cadute simulate non siano in grado di riprodurre tutti i tipi di cadute reali, è importante almeno includere tipi rappresentativi di cadute che consentano la creazione di modelli di rilevamento delle cadute migliori. È anche rilevante utilizzare ADL e, in particolare, attività che di solito possono essere scambiate con cadute come la raccolta di un oggetto. I tipi di caduta e ADL sono stati selezionati dopo una revisione dei relativi sistemi di rilevamento delle cadute21. Ad esempio, Figura 2 Mostra una sequenza di immagini di uno studio quando un soggetto cade lateralmente.
Abbiamo estratto 12 temporali (media, deviazione standard, ampiezza massima, ampiezza minima, quadrato medio radice, mediana, numero di incrocio zero, asimmetria, curtosi, primo quartile, terzo quartile e autocorrelazione) e 6 frequenti (media, mediana, entropia, energia, frequenza principale e centroide spettrale) caratteristiche21 da ogni canale del tagliabile e sensori comprendente 756 in totale. Abbiamo anche calcolato 400 funzioni visive21 per ogni telecamera sul movimento relativo dei pixel tra due immagini adiacenti nei video.
Analisi dei dati tra approcci unimodali e multimodali
Dal database UP-Fall Detection, abbiamo analizzato i dati a scopo di confronto tra approcci unimodali e multimodale. In questo senso, abbiamo confrontato sette diverse combinazioni di fonti di informazione: solo sensori a infrarossi (IR); sensori indossabili (IMU); sensori indossabili e casco (IMU-EEG); sensori a infrarossi e indossabili e casco (IR-IMU-EEG); solo telecamere (CAM); sensori a infrarossi e telecamere (IR-CAM); e sensori indossabili, casco e telecamere (IMU-EEG-CAM). Inoltre, abbiamo confrontato tre diverse dimensioni dell'intervallo di tempo con il 50% di sovrapposizione: un secondo, due secondi e tre secondi. Ad ogni segmento, abbiamo selezionato le funzioni più utili applicando la selezione e la classificazione delle funzioni. Utilizzando questa strategia, abbiamo impiegato solo 10 funzionalità per modalità, ad eccezione della modalità IR utilizzando 40 funzionalità. Inoltre, il confronto è stato fatto su quattro classificatori di apprendimento automatico ben noti: RF, SVM, MLP e KNN. Abbiamo impiegato una convalida incrociata di 10 volte, con set di dati del 70% di training e test del 30%, per addestrare i modelli di apprendimento automatico. La tabella 1 mostra i risultati di questo benchmark, segnalando le migliori prestazioni ottenute per ogni modalità a seconda del modello di apprendimento automatico e della migliore configurazione della lunghezza della finestra. Le metriche di valutazione segnalano precisione, precisione, sensibilità, specificità e punteggio F1. Figura 3 Mostra questi risultati in una rappresentazione grafica, in termini di F1-score.
Dalla Tabella 1, gli approcci multimodali (sensori a infrarossi e indossabili e casco, IR-IMU-EEG; e sensori indossabili e casco e telecamere, IMU-EEG-CAM) hanno ottenuto i migliori valori di Punteggio F1, rispetto agli approcci unimodali (solo infrarossi, IR; e solo telecamere, CAM). Abbiamo anche notato che solo i sensori indossabili (IMU) hanno ottenuto prestazioni simili rispetto a un approccio multimodale. In questo caso, abbiamo optato per un approccio multimodale perché diverse fonti di informazioni possono gestire le limitazioni da altri. Ad esempio, l'invadente nelle telecamere può essere gestita da sensori indossabili e non utilizzando tutti i sensori indossabili può essere completata da telecamere o sensori ambientali.
In termini di benchmark dei modelli basati sui dati, gli esperimenti nella Tabella 1 hanno dimostrato che la RF presenta i migliori risultati in quasi tutti gli esperimenti; mentre MLP e SVM non erano molto coerenti nelle prestazioni (ad esempio, la deviazione standard in queste tecniche mostra una variabilità maggiore rispetto alla RF). Per quanto riguarda le dimensioni della finestra, queste non hanno rappresentato alcun miglioramento significativo tra di loro. È importante notare che questi esperimenti sono stati fatti per la caduta e la classificazione dell'attività umana.
Posizionamento del sensore e migliore combinazione multimodale
D'altra parte, abbiamo mirato a determinare la migliore combinazione di dispositivi multimodali per il rilevamento delle cadute. Per questa analisi, abbiamo limitato le fonti di informazioni ai cinque sensori indossabili e alle due telecamere. Questi dispositivi sono i più comodi per l'approccio. Inoltre, abbiamo considerato due classi: caduta (qualsiasi tipo di caduta) o no-fall (qualsiasi altra attività). Tutti i modelli di apprendimento automatico e le dimensioni delle finestre rimangono le stesse dell'analisi precedente.
Per ogni sensore indossabile, abbiamo creato un modello di classificatore indipendente per ogni lunghezza della finestra. Abbiamo eseguito il training del modello usando la convalida incrociata di 10 volte con il 70% di training e il 30% di set di dati di test. Nella Tabella 2 sono riepilogati i risultati per la classificazione dei sensori indossabili per classificatore di prestazioni, in base al punteggio F1. Questi risultati sono stati ordinati in ordine decrescente. Come si è visto nella tabella 2, le migliori prestazioni si ottengono quando si utilizza un singolo sensore alla vita, collo o stretta tasca destra (regione ombreggiata). Inoltre, i sensori indossabili per caviglie e polsi e polsi hanno ottenuto il peggio. La tabella 3 mostra la preferenza della lunghezza della finestra per sensore indossabile per ottenere le migliori prestazioni in ogni classificatore. Dai risultati, i sensori per la vita, il collo e la tasca destra stretti con classificatore RF e le dimensioni della finestra a 3 s con una sovrapposizione del 50% sono i sensori indossabili più adatti per il rilevamento delle cadute.
Abbiamo condotto un'analisi simile per ogni telecamera nel sistema. È stato creato un modello di classificazione indipendente per ogni dimensione della finestra. Per il training, abbiamo esito una convalida incrociata di 10 volte con il 70% di training e il 30% di set di dati di test. La tabella 4 mostra la classifica del miglior punto di vista della telecamera per classificatore, in base al punteggio F1. Come osservato, la vista laterale (telecamera 1) ha eseguito il miglior rilevamento di caduta. Inoltre, RF ha sovraperformato rispetto agli altri classificatori. Inoltre, la tabella 5 mostra la preferenza della lunghezza della finestra per punto di vista della fotocamera. Dai risultati, abbiamo scoperto che la migliore posizione di una fotocamera è in punto di vista laterale utilizzando RF in 3 s dimensione della finestra e 50% sovrapposti.
Infine, abbiamo scelto due possibili posizionamenti di sensori indossabili (ad esempio, vita e tasca destra stretta) da combinare con la fotocamera del punto di vista laterale. Dopo la stessa procedura di formazione, abbiamo ottenuto i risultati dalla tabella 6. Come illustrato, il classificatore del modello RF ha ottenuto le migliori prestazioni in termini di precisione e punteggio F1 in entrambe le multimodalità. Inoltre, la combinazione tra vita e telecamera 1 classificata in prima posizione ottenendo il 98,72% di precisione e il 95,77% nel punteggio di F1.

Figura 1: Layout dei sensori indossabili (a sinistra) e ambientali (a destra) nel database UP-Fall Detection. I sensori indossabili sono posizionati sulla fronte, sul polso sinistro, sul collo, sulla vita, sulla tasca destra dei pantaloni e sulla caviglia sinistra. I sensori ambientali sono sei sensori a infrarossi accoppiati per rilevare la presenza di soggetti e due telecamere. Le telecamere si trovano alla vista laterale e alla vista frontale, sia per quanto riguarda la caduta umana. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Esempio di una registrazione video estratta dal database UP-Fall Detection. Nella parte superiore, c'è una sequenza di immagini di un soggetto che cade lateralmente. Nella parte inferiore, c'è una sequenza di immagini che rappresentano le caratteristiche di visione estratte. Queste caratteristiche sono il movimento relativo dei pixel tra due immagini adiacenti. I pixel bianchi rappresentano un movimento più veloce, mentre i pixel neri rappresentano un movimento più lento (o prossimo allo zero). Questa sequenza viene ordinata da sinistra a destra, in ordine cronologico. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3: Risultati comparativi che riportano il miglior punteggio F1 di ogni modalità rispetto al modello di apprendimento automatico e la migliore lunghezza della finestra. Le barre rappresentano i valori medi del punteggio F1. Il testo nei punti dati rappresenta la media e la deviazione standard tra parentesi. Fare clic qui per visualizzare una versione più grande di questa figura.
| Modalità | Modello | Precisione (%) | Precisione (%) | Sensibilità (%) | Specificità (%) | Punteggio F1 (%) |
| Ir | RF (3 sec) | 67,38 : 0,65 | 36,45 x 2,46 | 31,26 - 0,89 | 96,63 x 0,07 | 32,16 - 0,99 |
| SVM (3 sec) | 65,16 x 0,90 | 26,77 x 0,58 | 25,16 x 0,29 | 96,31 - 0,09 | 23,89 x 0,41 |
| MLP (3 sec) | 65,69 x 0,89 | 28,19 x 3,56 | 26.40 - 0,71 | 96.41 - 0,08 | 25,13 x 1,09 |
| kNN (3 sec) | 61,79 x 1,47 | 30,04 x 1,44 | 27,55 x 0,97 | 96,05 x 0,16 | 27,89 x 1,13 |
| Imu | RF (1 sec) | 95,76 x 0,18 | 70,78 x 1,53 | 66,91 x 1,28 | 99,59 x 0,02 | 68,35 x 1,25 |
| SVM (1 sec) | 93,32 x 0,23 | 66,16 x 3,33 | 58,82 x 1,53 | 99,32 - 0,02 | 60,00 x 1,34 |
| MLP (1 sec) | 95,48 x 0,25 | 73,04 - 1,89 | 69,39 x 1,47 | 99,56 - 0,02 | 70.31 - 1,48 |
| kNN (1 sec) | 94,90 x 0,18 | 69,05 x 1,63 | 64,28 x 1,57 | 99,50 x 0,02 | 66,03 x 1,52 |
| IMU-EEG | RF (1 sec) | 95,92 x 0,29 | 74,14 x 1,29 | 66,29 x 1,66 | 99,59 x 0,03 | 69.03 - 1,48 |
| SVM (1 sec) | 90,77 x 0,36 | 62,51 - 3,34 | 52,46 x 1,19 | 99.03 - 0,03 | 53,91 - 1,16 |
| MLP (1 sec) | 93,33 x 0,55 | 74.10 - 1,61 | 65,32 x 1,15 | 99,32 x 0,05 | 68.13 - 1,16 |
| kNN (1 sec) | 92,12 x 0,31 | 66,86 x 1,32 | 58,30 x 1,20 | 98,89 x 0,05 | 60,56 x 1,02 |
| IR-IMU-EEG | RF (2 sec) | 95,12 x 0,36 | 74,63 x 1,65 | 66,71 - 1,98 | 99,51 - 0,03 | 69,38 x 1,72 |
| SVM (1 sec) | 90,59 x 0,27 | 64,75 x 3,89 | 52,63 x 1,42 | 99.01 - 0,02 | 53,94 x 1,47 |
| MLP (1 sec) | 93,26 - 0,69 | 73,51 - 1,59 | 66,05 x 1,11 | 99,31 - 0,07 | 68,19 x 1,02 |
| kNN (1 sec) | 92,24 x 0,25 | 67,33 x 1,94 | 58.11 - 1,61 | 99.21 - 0,02 | 60,36 x 1,71 |
| Cam | RF (3 sec) | 32,33 X 0,90 | 14,45 x 1,07 | 14.48 - 0,82 | 92,91 - 0,09 | 14,38 - 0,89 |
| SVM (2 sec) | 34,40 x 0,67 | 13,81 - 0,22 | 14,30 : 0,31 | 92,97 - 0,06 | 13,83 x 0,27 |
| MLP (3 sec) | 27,08 x 2,03 | 8.59 x 1,69 | 10,59 x 0,38 | 92,21 - 0,09 | 7.31 - 0,82 |
| kNN (3 sec) | 34.03 - 1,11 | 15,32 x 0,73 | 15,54 x 0,57 | 93.09 - 0,11 | 15,19 x 0,52 |
| IR-CAM | RF (3 sec) | 65,00 - 0,65 | 33,93 x 2,81 | 29.02 - 0,89 | 96,34 x 0,07 | 29,81 x 1,16 |
| SVM (3 sec) | 64,07 - 0,79 | 24,10 - 0,98 | 24.18 x 0,17 | 96,17 x 0,07 | 22,38 x 0,23 |
| MLP (3 sec) | 65,05 - 0,66 | 28,25 x 3,20 | 25.40 - 0,51 | 96,29 x 0,06 | 24,39 x 0,88 |
| kNN (3 sec) | 60,75 x 1,29 | 29,91 x 3,95 | 26,25 x 0,90 | 95,95 x 0,11 | 26,54 x 1,42 |
| IMU-EEG-CAM | RF (1 sec) | 95.09 - 0,23 | 75,52 x 2,31 | 66,23 x 1,11 | 99,50 x 0,02 | 69,36 x 1,35 |
| SVM (1 sec) | 91,16 - 0,25 | 66,79 x 2,79 | 53,82 : 0,70 | 99.07 - 0.02 | 55,82 x 0,77 |
| MLP (1 sec) | 94,32 x 0,31 | 76,78 x 1,59 | 67.29 x 1,41 | 99,42 - 0,03 | 70,44 x 1,25 |
| kNN (1 sec) | 92,06 - 0,24 | 68,82 x 1,61 | 58,49 x 1,14 | 99,19 - 0,02 | 60,51 - 0,85 |
Tabella 1: risultati comparativi che riportano le migliori prestazioni di ogni modalità rispetto al modello di apprendimento automatico e la migliore lunghezza della finestra (tra parentesi). Tutti i valori delle prestazioni rappresentano la media e la deviazione standard.
| # | Tipo IMU |
| Rf | Svm | Mlp | KNN (KNN) |
| 1 | (98.36) Vita | (83.30) Tasca destra | (57.67) Tasca destra | (73.19) Tasca destra |
| 2 | (95.77) Collo | (83.22) Vita | (44.93) Collo | (68,73) Vita |
| 3 | (95.35) Tasca destra | (83.11) Collo | (39.54) Vita | (65.06) Collo |
| 4 | (95.06) Caviglia | (82,96) Caviglia | (39.06) Polso sinistro | (58.26) Caviglia |
| 5 | (94.66) Polso sinistro | (82.82) Polso sinistro | (37.56) Caviglia | (51.63) Polso sinistro |
Tabella 2: Classificazione del miglior sensore indossabile per classificatore, ordinato in base al punteggio F1 (tra parentesi). Le aree in ombra rappresentano i primi tre classificatori per il rilevamento delle cadute.
| Tipo IMU | Lunghezza finestra |
| Rf | Svm | Mlp | KNN (KNN) |
| Caviglia sinistra | 2 secondi | 3-sec | 1-sec | 3-sec |
| Vita | 3-sec | 1-sec | 1-sec | 2 secondi |
| Collo | 3-sec | 3-sec | 2 secondi | 2 secondi |
| Tasca destra | 3-sec | 3-sec | 2 secondi | 2 secondi |
| Polso sinistro | 2 secondi | 2 secondi | 2 secondi | 2 secondi |
Tabella 3: Lunghezza della finestra temporale preferita nei sensori indossabili per classificatore.
| # | Vista Fotocamera |
| Rf | Svm | Mlp | KNN (KNN) |
| 1 | (62.27) Vista laterale | (24.25) Vista laterale | (13.78) Vista frontale | (41.52) Vista laterale |
| 2 | (55.71) Vista frontale | (0.20) Vista frontale | (5.51) Vista laterale | (28.13) Vista frontale |
Tabella 4: Classificazione del miglior punto di vista della telecamera per classificatore, ordinato in base al punteggio F1 (tra parentesi). Le aree in ombra rappresentano il classificatore superiore per il rilevamento delle cadute.
| Fotocamera | Lunghezza finestra |
| Rf | Svm | Mlp | KNN (KNN) |
| Vista laterale | 3-sec | 3-sec | 2 secondi | 3-sec |
| Vista frontale | 2 secondi | 2 secondi | 3-sec | 2 secondi |
Tabella 5: Lunghezza della finestra temporale preferita nei punti di vista della telecamera per classificatore.
| Multimodale | Classificatore | Precisione (%) | Precisione (%) | Sensibilità (%) | Punteggio F1 (%) |
Vita + Vista laterale | Rf | 98,72 x 0,35 | 94.01 - 1,51 | 97,63 x 1,56 | 95,77 x 1,15 |
| Svm | 95,59 x 0,40 | 100 | 70,26 x 2,71 | 82,51 - 1,85 |
| Mlp | 77,67 x 11,04 | 33,73 x 11,69 | 37.11 - 26,74 | 29.81 - 12,81 |
| KNN (KNN) | 91,71 - 0,61 | 77,90 x 3,33 | 61,64 x 3,68 | 68,73 x 2,58 |
Tasca destra + Vista laterale | Rf | 98.41 - 0,49 | 93,64 x 1,46 | 95,79 x 2,65 | 94,69 x 1,67 |
| Svm | 95,79 x 0,58 | 100 | 71,58 x 3,91 | 83,38 x 2,64 |
| Mlp | 84,92 x 2,98 | 55,70 x 11,36 | 48,29 x 25,11 | 45.21 - 14,19 |
| KNN (KNN) | 91,71 - 0,58 | 73,63 x 3,19 | 68,95 x 2,73 | 71.13 - 1,69 |
Tabella 6: Risultati comparativi del sensore indossabile combinato e del punto di vista della fotocamera utilizzando la lunghezza della finestra di 3 secondi. Tutti i valori rappresentano la media e la deviazione standard.