$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Creación de una base de datos
Hemos creado un conjunto de datos multimodal para la detección de caídas y el reconocimiento de actividad humana, a saber, UP-Fall Detection21. Los datos se recopilaron durante un período de cuatro semanas en la Escuela de Ingeniería de la Universidad Panamericana (Ciudad de México, México). El escenario de prueba fue seleccionado teniendo en cuenta los siguientes requisitos: a) un espacio en el que los sujetos pudieran realizar de forma cómoda y segura caídas y actividades, y b) un entorno interior con luz natural y artificial que sea adecuado para la configuración de sensores multimodales.
Hay muestras de datos de 17 sujetos que realizaron 5 tipos de caídas y 6 actividades simples diferentes, durante 3 ensayos. Toda la información se recopiló utilizando un sistema interno de adquisición de datos con 5 sensores portátiles (acelerómetro de trieje, giroscopio e intensidad de luz), 1 casco de electroencefalógrafo, 6 sensores infrarrojos como sensores ambientales y 2 cámaras en los puntos de vista laterales y frontales. La Figura 1 muestra el diseño de la colocación del sensor en el entorno y en el cuerpo. La frecuencia de muestreo de todo el dataset es de 18 Hz. La base de datos contiene dos conjuntos de datos: el conjunto de datos sin procesar consolidado (812 GB) y un conjunto de datos de entidades (171 GB). Todas las bases de datos almacenadas en la nube para el acceso público: https://sites.google.com/up.edu.mx/har-up/. Puede encontrar más detalles sobre la adquisición de datos, el preprocesamiento, la consolidación y el almacenamiento de esta base de datos, así como detalles sobre la sincronización y la coherencia de los datos en Martínez-Villaseñor et al.21.
Para esta base de datos, todos los sujetos eran jóvenes voluntarios sanos (9 hombres y 8 mujeres) sin ningún tipo de deterioro, que van desde 18 a 24 años de edad, con una altura media de 1,66 m y un peso medio de 66,8 kg. Durante la recopilación de datos, el investigador técnico responsable supervisaba que todas las actividades eran realizadas por los sujetos correctamente. Los sujetos realizaron cinco tipos de caídas, cada una durante 10 segundos, como caída: hacia adelante usando las manos (1), hacia adelante usando las rodillas (2), hacia atrás (3), sentados en una silla vacía (4) y hacia los lados (5). También llevaron a cabo seis actividades diarias para 60 s cada una, excepto para saltar (30 s): caminar (6), pararse (7), recoger un objeto (8), sentarse (9), saltar (10) y poner (11). Aunque las caídas simuladas no pueden reproducir todo tipo de caídas de la vida real, es importante al menos incluir tipos representativos de caídas que permitan la creación de mejores modelos de detección de caídas. También es relevante utilizar AX y, en particular, actividades que normalmente se pueden confundir con caídas como recoger un objeto. Los tipos de caídas y ADU se seleccionaron después de una revisión de los sistemas de detección de caídas relacionados21. Por ejemplo, la Figura 2 muestra una secuencia de imágenes de un ensayo cuando un sujeto cae de lado.
Extrajimos 12 características temporales (media, desviación estándar, amplitud máxima, amplitud mínima, cuadrado medio de la raíz, mediana, número de cruce cero, asimetría, kurtosis, primer cuartil, tercer cuartil y autocorrelación) y 6 características frecuentes (media, mediana, entropía, energía, frecuencia principal y centroide)21 de cada canal de los sensores portátiles y ambientales que comprenden 756 características en total. También calculamos 400 características visuales21 para cada cámara sobre el movimiento relativo de píxeles entre dos imágenes adyacentes en los videos.
Análisis de datos entre enfoques unimodales y multimodales
Desde la base de datos UP-Fall Detection, analizamos los datos con fines de comparación entre enfoques unimodales y multimodales. En ese sentido, comparamos siete combinaciones diferentes de fuentes de información: sólo sensores infrarrojos (IR); sólo sensores portátiles (IMU); sensores portátiles y casco (IMU+EEG); sensores infrarrojos y portátiles y casco (IR+IMU+EEG); sólo cámaras (CAM); sensores infrarrojos y cámaras (IR+CAM); y sensores portátiles, casco y cámaras (IMU+EEG+CAM). Además, comparamos tres tamaños de ventana de tiempo diferentes con un 50% de superposición: un segundo, dos segundos y tres segundos. En cada segmento, seleccionamos las características más útiles aplicando la selección y clasificación de entidades. Usando esta estrategia, empleamos sólo 10 características por modalidad, excepto en la modalidad IR usando 40 características. Además, la comparación se realizó en cuatro clasificadores de aprendizaje automático conocidos: RF, SVM, MLP y KNN. Empleamos 10 veces la validación cruzada, con conjuntos de datos de 70% de tren y 30% de prueba, para entrenar los modelos de aprendizaje automático. La Tabla 1 muestra los resultados de este punto de referencia, reportando el mejor rendimiento obtenido para cada modalidad dependiendo del modelo de aprendizaje automático y la mejor configuración de longitud de ventana. Las métricas de evaluación informan de precisión, precisión, sensibilidad, especificidad y puntuación F1. La Figura 3 muestra estos resultados en una representación gráfica, en términos de puntuación F1.
A partir de la Tabla 1,los enfoques multimodales (sensores y cascos infrarrojos y ponibles, IR+IMU+EEG; y sensores portátiles y cascos y cámaras, IMU+EEG+CAM) obtuvieron los mejores valores de puntuación F1, en comparación con los enfoques unimodales (solo infrarrojos, IR; y solo cámaras, CAM). También notamos que los sensores portátiles solamente (IMU) obtuvieron un rendimiento similar al de un enfoque multimodal. En este caso, optamos por un enfoque multimodal porque diferentes fuentes de información pueden manejar las limitaciones de otros. Por ejemplo, la obtrusividad en las cámaras se puede manejar mediante sensores portátiles, y no usar todos los sensores portátiles se puede complementar con cámaras o sensores ambientales.
En términos del punto de referencia de los modelos basados en datos, los experimentos del Cuadro 1 mostraron que RF presenta los mejores resultados en casi todo el experimento; mientras que mlP y SVM no eran muy consistentes en el rendimiento (por ejemplo, la desviación estándar en estas técnicas muestra más variabilidad que en RF). Acerca de los tamaños de las ventanas, estos no representaban ninguna mejora significativa entre ellos. Es importante notar que estos experimentos se hicieron para la clasificación de caídas y actividades humanas.
Colocación del sensor y mejor combinación multimodal
Por otro lado, nuestro objetivo era determinar la mejor combinación de dispositivos multimodales para la detección de caídas. Para este análisis, limitamos las fuentes de información a los cinco sensores portátiles y las dos cámaras. Estos dispositivos son los más cómodos para el enfoque. Además, consideramos dos clases: caída (cualquier tipo de caída) o no caída (cualquier otra actividad). Todos los modelos de aprendizaje automático y los tamaños de ventana siguen siendo los mismos que en el análisis anterior.
Para cada sensor portátil, construimos un modelo clasificador independiente para cada longitud de ventana. Entrenamos el modelo usando validación cruzada de 10 veces con un 70% de entrenamiento y un 30% de conjuntos de datos de prueba. En la Tabla 2 se resumen los resultados de la clasificación de los sensores portátiles por clasificador de rendimiento, en función de la puntuación F1. Estos resultados se ordenaron en orden descendente. Como se ve en la Tabla 2,el mejor rendimiento se obtiene cuando se utiliza un solo sensor en la cintura, cuello o bolsillo derecho apretado (región enlazada). Además, los sensores portátiles de tobillo y muñeca izquierda tuvieron un desempeño peor. La Tabla 3 muestra la preferencia de longitud de ventana por sensor portátil para obtener el mejor rendimiento en cada clasificador. A partir de los resultados, la cintura, el cuello y los sensores de bolsillo derecho apretados con clasificador de RF y tamaño de ventana de 3 s con 50% de superposición son los sensores portátiles más adecuados para la detección de caídas.
Realizamos un análisis similar para cada cámara del sistema. Construimos un modelo clasificador independiente para cada tamaño de ventana. Para el entrenamiento, realizamos 10 veces la validación cruzada con un 70% de entrenamiento y un 30% de conjuntos de datos de prueba. La Tabla 4 muestra la clasificación del mejor punto de vista de cámara por clasificador, basado en la puntuación F1. Como se observó, la vista lateral (cámara 1) realizó la mejor detección de caídas. Además, RF superó en comparación con los otros clasificadores. Además, la Tabla 5 muestra la preferencia de longitud de ventana por punto de vista de cámara. A partir de los resultados, encontramos que la mejor ubicación de una cámara está en el punto de vista lateral usando RF en tamaño de ventana de 3 s y 50% superpuesto.
Por último, elegimos dos posibles ubicaciones de sensores ponibles (es decir, cintura y bolsillo derecho apretado) para combinar con la cámara del punto de vista lateral. Después del mismo procedimiento de formación, obtuvimos los resultados de la Tabla 6. Como se muestra, el clasificador de modelo RF obtuvo el mejor rendimiento en precisión y puntuación F1 en ambas multimodalidades. Además, la combinación entre la cintura y la cámara 1 se clasificó en la primera posición obteniendo 98,72% en precisión y 95,77% en Puntuación F1.

Figura 1: Diseño de los sensores portátiles (izquierda) y ambiente (derecha) en la base de datos UP-Fall Detection. Los sensores portátiles se colocan en la frente, la muñeca izquierda, el cuello, la cintura, el bolsillo derecho de los pantalones y el tobillo izquierdo. Los sensores ambientales son seis sensores infrarrojos emparejados para detectar la presencia de sujetos y dos cámaras. Las cámaras se encuentran en la vista lateral y en la vista frontal, tanto con respecto a la caída humana. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Ejemplo de una grabación de vídeo extraída de la base de datos UP-Fall Detection. En la parte superior, hay una secuencia de imágenes de un sujeto cayendo hacia un lado. En la parte inferior, hay una secuencia de imágenes que representan las características de visión extraídas. Estas entidades son el movimiento relativo de píxeles entre dos imágenes adyacentes. Los píxeles blancos representan un movimiento más rápido, mientras que los píxeles negros representan un movimiento más lento (o casi cero). Esta secuencia se ordena de izquierda a derecha, cronológicamente. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Resultados comparativos que informan de la mejor puntuación F1 de cada modalidad con respecto al modelo de aprendizaje automático y la mejor longitud de ventana. Las barras representan los valores medios de la puntuación F1. El texto en los puntos de datos representa la media y la desviación estándar entre paréntesis. Haga clic aquí para ver una versión más grande de esta figura.
| Modalidad | Modelo | Precisión (%) | Precisión (%) | Sensibilidad (%) | Especificidad (%) | Puntuación F1 (%) |
| IR | RF (3 seg) | 67,38 á 0,65 | 36,45 x 2,46 | 31,26 á 0,89 | 96,63 a 0,07 | 32,16 a 0,99 |
| SVM (3 seg) | 65,16 á 0,90 | 26,77 a 0,58 | 25,16 á 0,29 | 96,31 a 0,09 | 23,89 a 0,41 |
| MLP (3 seg) | 65,69 a 0,89 | 28,19 a 3,56 | 26,40 á 0,71 | 96,41 a 0,08 | 25,13 a 1,09 |
| kNN (3 seg) | 61,79 a 1,47 | 30,04 a 1,44 | 27,55 á 0,97 | 96,05 a 0,16 | 27,89 a 1,13 |
| Imu | RF (1 seg) | 95,76 á 0,18 | 70,78 a 1,53 | 66,91 a 1,28 | 99,59 á 0,02 | 68,35 a 1,25 |
| SVM (1 seg) | 93,32 a 0,23 | 66,16 a 3,33 | 58,82 a 1,53 | 99,32 a 0,02 | 60,00 a 1,34 |
| MLP (1 seg) | 95,48 á 0,25 | 73,04 a 1,89 | 69,39 á 1,47 | 99,56 á 0,02 | 70,31 a 1,48 |
| kNN (1 seg) | 94,90 á 0,18 | 69,05 a 1,63 | 64,28 á 1,57 | 99,50 á 0,02 | 66,03 a 1,52 |
| IMU+EEG | RF (1 seg) | 95,92 a 0,29 | 74,14 a 1,29 | 66,29 á 1,66 | 99,59 á 0,03 | 69,03 a 1,48 |
| SVM (1 seg) | 90,77 a 0,36 | 62,51 a 3,34 | 52,46 á 1,19 | 99,03 a 0,03 | 53,91 a 1,16 |
| MLP (1 seg) | 93,33 á 0,55 | 74,10 a 1,61 | 65,32 a 1,15 | 99,32 á 0,05 | 68,13 a 1,16 |
| kNN (1 seg) | 92,12 a 0,31 | 66,86 a 1,32 | 58,30 a 1,20 | 98,89 a 0,05 | 60,56 á 1,02 |
| IR+IMU+EEG | RF (2 seg) | 95,12 a 0,36 | 74,63 a 1,65 | 66,71 a 1,98 | 99,51 a 0,03 | 69,38 á 1,72 |
| SVM (1 seg) | 90,59 a 0,27 | 64,75 a 3,89 | 52,63 a 1,42 | 99,01 a 0,02 | 53,94 a 1,47 |
| MLP (1 seg) | 93,26 á 0,69 | 73,51 a 1,59 | 66,05 a 1,11 | 99,31 a 0,07 | 68,19 a 1,02 |
| kNN (1 seg) | 92,24 á 0,25 | 67,33 a 1,94 | 58,11 a 1,61 | 99,21 a 0,02 | 60,36 á 1,71 |
| Cam | RF (3 seg) | 32,33 a 0,90 | 14,45 á 1,07 | 14,48 á 0,82 | 92,91 a 0,09 | 14,38 á 0,89 |
| SVM (2 seg) | 34,40 á 0,67 | 13,81 a 0,22 | 14,30 á 0,31 | 92,97 a 0,06 | 13,83 a 0,27 |
| MLP (3 seg) | 27,08 a 2,03 | 8,59 x 1,69 | 10,59 a 0,38 | 92,21 á 0,09 | 7,31 a 0,82 |
| kNN (3 seg) | 34,03 a 1,11 | 15,32 a 0,73 | 15,54 á 0,57 | 93,09 a 0,11 | 15,19 a 0,52 |
| IR+CAM | RF (3 seg) | 65,00 a 0,65 | 33,93 a 2,81 | 29,02 a 0,89 | 96,34 á 0,07 | 29,81 a 1,16 |
| SVM (3 seg) | 64,07 a 0,79 | 24,10 a 0,98 | 24,18 á 0,17 | 96,17 a 0,07 | 22,38 a 0,23 |
| MLP (3 seg) | 65,05 a 0,66 | 28,25 a 3,20 | 25,40 á 0,51 | 96,29 a 0,06 | 24,39 a 0,88 |
| kNN (3 seg) | 60,75 á 1,29 | 29,91 a 3,95 | 26,25 á 0,90 | 95,95 á 0,11 | 26,54 a 1,42 |
| IMU+EEG+CAM | RF (1 seg) | 95,09 a 0,23 | 75,52 a 2,31 | 66,23 a 1,11 | 99,50 á 0,02 | 69,36 á 1,35 |
| SVM (1 seg) | 91,16 a 0,25 | 66,79 x 2,79 | 53,82 a 0,70 | 99,07 a 0,02 | 55,82 á 0,77 |
| MLP (1 seg) | 94,32 a 0,31 | 76,78 a 1,59 | 67,29 á 1,41 | 99,42 á 0,03 | 70,44 á 1,25 |
| kNN (1 seg) | 92,06 a 0,24 | 68,82 a 1,61 | 58,49 a 1,14 | 99,19 a 0,02 | 60,51 a 0,85 |
Tabla 1: Resultados comparativos que informan del mejor rendimiento de cada modalidad con respecto al modelo de aprendizaje automático y a la mejor longitud de ventana (entre paréntesis). Todos los valores de rendimiento representan la media y la desviación estándar.
| # | Tipo IMU |
| Rf | Svm | Mlp | Knn |
| 1 | (98.36) Cintura | (83.30) Bolsillo derecho | (57.67) Bolsillo derecho | (73.19) Bolsillo derecho |
| 2 | (95.77) Cuello | (83.22) Cintura | (44.93) Cuello | (68.73) Cintura |
| 3 | (95.35) Bolsillo derecho | (83.11) Cuello | (39.54) Cintura | (65.06) Cuello |
| 4 | (95.06) Tobillo | (82.96) Tobillo | (39.06) Muñeca izquierda | (58.26) Tobillo |
| 5 | (94.66) Muñeca izquierda | (82.82) Muñeca izquierda | (37.56) Tobillo | (51.63) Muñeca izquierda |
Tabla 2: Clasificación del mejor sensor portátil por clasificador, ordenado por la puntuación F1 (entre paréntesis). Las regiones en la sombra representan los tres clasificadores principales para la detección de caídas.
| Tipo IMU | Longitud de la ventana |
| Rf | Svm | Mlp | Knn |
| Tobillo izquierdo | 2 segundos | 3 segundos | 1-seg | 3 segundos |
| Cintura | 3 segundos | 1-seg | 1-seg | 2 segundos |
| Cuello | 3 segundos | 3 segundos | 2 segundos | 2 segundos |
| Bolsillo derecho | 3 segundos | 3 segundos | 2 segundos | 2 segundos |
| Muñeca izquierda | 2 segundos | 2 segundos | 2 segundos | 2 segundos |
Tabla 3: Longitud de la ventana de tiempo preferida en los sensores portátiles por clasificador.
| # | Vista de cámara |
| Rf | Svm | Mlp | Knn |
| 1 | (62.27) Vista lateral | (24.25) Vista lateral | (13.78) Vista frontal | (41.52) Vista lateral |
| 2 | (55.71) Vista frontal | (0.20) Vista frontal | (5.51) Vista lateral | (28.13) Vista frontal |
Tabla 4: Clasificación del mejor punto de vista de cámara por clasificador, ordenado por la puntuación F1 (entre paréntesis). Las regiones en la sombra representan el clasificador superior para la detección de caídas.
| Cámara | Longitud de la ventana |
| Rf | Svm | Mlp | Knn |
| Vista lateral | 3 segundos | 3 segundos | 2 segundos | 3 segundos |
| Vista frontal | 2 segundos | 2 segundos | 3 segundos | 2 segundos |
Tabla 5: Longitud de la ventana de tiempo preferida en los puntos de vista de la cámara por clasificador.
| Multimodal | Clasificador | Precisión (%) | Precisión (%) | Sensibilidad (%) | Puntuación F1 (%) |
Cintura + Vista lateral | Rf | 98,72 á 0,35 | 94,01 a 1,51 | 97,63 á 1,56 | 95,77 á 1,15 |
| Svm | 95,59 a 0,40 | 100 | 70,26 x 2,71 | 82,51 a 1,85 |
| Mlp | 77,67 a 11,04 | 33,73 a 11,69 | 37,11 a 26,74 | 29,81 a 12,81 |
| Knn | 91,71 a 0,61 | 77,90 á 3,33 | 61,64 a 3,68 | 68,73 a 2,58 |
Bolsillo derecho + Vista lateral | Rf | 98,41 a 0,49 | 93,64 a 1,46 | 95,79 x 2,65 | 94,69 a 1,67 |
| Svm | 95,79 a 0,58 | 100 | 71,58 a 3,91 | 83,38 a 2,64 |
| Mlp | 84,92 a 2,98 | 55,70 a 11,36 | 48,29 a 25,11 | 45,21 a 14,19 |
| Knn | 91,71 a 0,58 | 73,63 a 3,19 | 68,95 x 2,73 | 71,13 a 1,69 |
Tabla 6: Resultados comparativos del sensor portátil combinado y el punto de vista de la cámara utilizando una longitud de ventana de 3 segundos. Todos los valores representan la media y la desviación estándar.