$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Criação de um banco de dados
Criamos um conjunto de dados multimodal para detecção de quedas e reconhecimento de atividade humana, ou seja, UP-Fall Detection21. Os dados foram coletados durante um período de quatro semanas na Escola de Engenharia da Universidad Panamericana (Cidade do México, México). O cenário de teste foi selecionado considerando os seguintes requisitos: (a) um espaço no qual os sujeitos poderiam realizar de forma confortável e segura quedas e atividades, e (b) um ambiente interno com luz natural e artificial que seja adequado para configurações de sensores multimodais.
Há amostras de dados de 17 sujeitos que realizaram 5 tipos de quedas e 6 atividades simples diferentes, durante 3 ensaios. Todas as informações foram coletadas usando um sistema interno de aquisição de dados com 5 sensores vestíveis (acelerômetro de três eixos, giroscópio e intensidade de luz), 1 capacete eletroencefalograma, 6 sensores infravermelhos como sensores ambientais e 2 câmeras nos mirantes laterais e frontais. A Figura 1 mostra o layout da colocação do sensor no ambiente e no corpo. A taxa de amostragem de todo o conjunto de dados é de 18 Hz. O banco de dados contém dois conjuntos de dados: o conjunto de dados brutos consolidado (812 GB) e um conjunto de dados de recursos (171 GB). Todos os armazenamentos de bancos de dados armazenados na nuvem para acesso público: https://sites.google.com/up.edu.mx/har-up/. Mais detalhes sobre aquisição de dados, pré-processamento, consolidação e armazenamento deste banco de dados, bem como detalhes sobre sincronização e consistência dos dados podem ser encontrados em Martínez-Villaseñor et al.21.
Para este banco de dados, todos os indivíduos foram voluntários jovens saudáveis (9 homens e 8 mulheres) sem qualquer deficiência, variando entre 18 e 24 anos, com altura média de 1,66 m e peso médio de 66,8 kg. Durante a coleta de dados, o pesquisador responsável técnico estava supervisionando que todas as atividades eram realizadas pelos sujeitos corretamente. Os sujeitos realizaram cinco tipos de quedas, cada uma por 10 segundos, como queda: para frente usando as mãos (1), para a frente usando joelhos (2), para trás (3), sentado em uma cadeira vazia (4) e para o lado (5). Também realizaram seis atividades diárias para 60 s cada, exceto para pular (30 s): caminhar (6), ficar em pé (7), pegar um objeto (8), sentar (9), saltar (10) e colocar (11). Embora as quedas simuladas não possam reproduzir todos os tipos de quedas da vida real, é importante pelo menos incluir tipos representativos de quedas permitindo a criação de melhores modelos de detecção de quedas. Também é relevante usar ADLs e, em particular, atividades que geralmente podem ser confundidas com quedas, como pegar um objeto. Os tipos de queda e ADLs foram selecionados após uma revisão dos sistemas de detecção de quedas relacionados21. Como exemplo, a Figura 2 mostra uma seqüência de imagens de um teste quando um sujeito cai de lado.
Extraímos 12 temporais (média, desvio padrão, amplitude máxima, amplitude mínima, quadrado médio radicular, mediano, número de cruzamento zero, distorção, kurtose, primeiro quartil, terceiro quartil e autocorrelação) e 6 freqüência (média, mediana, entropia, energia, frequência principal e centroide espectral) apresenta21 de cada canal do ambiente vestível e sensores compostos por 756 características no total. Também calculamos 400 recursos visuais21 para cada câmera sobre o movimento relativo de pixels entre duas imagens adjacentes nos vídeos.
Análise de Dados entre Abordagens Unimodais e Multimodais
A partir do banco de dados UP-Fall Detection, foram analisados os dados para fins de comparação entre abordagens unimodais e multimodais. Nesse sentido, comparamos sete combinações diferentes de fontes de informação: apenas sensores infravermelhos (IR); apenas sensores vestíveis (IMU); sensores vestíveis e capacete (IMU+EEG); sensores infravermelhos e vestíveis e capacete (IR+IMU+EEG); apenas câmeras (CAM); sensores e câmeras infravermelhas (IR+CAM); e sensores vestíveis, capacete e câmeras (IMU+EEG+CAM). Além disso, comparamos três tamanhos de janela de tempo diferentes com 50% de sobreposição: um segundo, dois segundos e três segundos. Em cada segmento, selecionamos os recursos mais úteis para aplicar a seleção e classificação de recursos. Utilizando essa estratégia, empregamos apenas 10 recursos por modalidade, exceto na modalidade IR utilizando 40 recursos. Além disso, a comparação foi feita em quatro classificadores de aprendizagem de máquina bem conhecidos: RF, SVM, MLP e KNN. Empregamos 10 vezes a validação cruzada, com conjuntos de dados de 70% de trem e 30% de teste, para treinar os modelos de aprendizagem de máquina. A Tabela 1 mostra os resultados deste benchmark, relatando o melhor desempenho obtido para cada modalidade, dependendo do modelo de aprendizado de máquina e da melhor configuração de comprimento da janela. As métricas de avaliação relatam precisão, precisão, sensibilidade, especificidade e pontuação de F1. A Figura 3 mostra esses resultados em uma representação gráfica, em termos de pontuação de F1.
Da Tabela 1, abordagens multimodais (sensores infravermelhos e vestíveis e capacete, IR+IMU+EEG; e sensores vestíveis e capacete e câmeras, IMU+EEG+CAM) obtiveram os melhores valores de pontuação de F1, em comparação com abordagens unimodais (apenas infravermelho, IR; e apenas câmeras, CAM). Também notamos que apenas os sensores vestíveis (IMU) obtiveram desempenho semelhante ao de uma abordagem multimodal. Neste caso, optamos por uma abordagem multimodal, pois diferentes fontes de informação podem lidar com as limitações dos outros. Por exemplo, a obtrusividade nas câmeras pode ser manuseada por sensores vestíveis, e não usar todos os sensores vestíveis pode ser complementado com câmeras ou sensores ambientais.
Em termos de referência dos modelos baseados em dados, os experimentos na Tabela 1 mostraram que a RF apresenta os melhores resultados em quase todos os experimentos; enquanto MLP e SVM não foram muito consistentes em desempenho (por exemplo, o desvio padrão nessas técnicas mostra maior variabilidade do que na RF). Quanto aos tamanhos das janelas, estes não representaram nenhuma melhora significativa entre eles. É importante notar que esses experimentos foram feitos para classificação de outono e atividade humana.
Colocação do sensor e melhor combinação multimodal
Por outro lado, buscamos determinar a melhor combinação de dispositivos multimodais para detecção de quedas. Para esta análise, restringimos as fontes de informação aos cinco sensores vestíveis e às duas câmeras. Estes dispositivos são os mais confortáveis para a abordagem. Além disso, foram consideradas duas classes: queda (qualquer tipo de queda) ou não-queda (qualquer outra atividade). Todos os modelos de aprendizado de máquina e tamanhos de janelas permanecem os mesmos da análise anterior.
Para cada sensor vestível, construímos um modelo de classificador independente para cada comprimento da janela. Treinamos o modelo usando validação cruzada de 10 vezes com 70% de treinamento e 30% de conjuntos de dados de teste. A Tabela 2 resume os resultados para o ranking dos sensores vestíveis por classificador de desempenho, com base na pontuação da F1. Estes resultados foram classificados em ordem decrescente. Como visto na Tabela 2,o melhor desempenho é obtido ao utilizar um único sensor na cintura, pescoço ou bolso direito apertado (região sombreada). Além disso, os sensores vestíveis do tornozelo e do pulso esquerdo tiveram o pior desempenho. A Tabela 3 mostra a preferência de comprimento da janela por sensor vestível, a fim de obter o melhor desempenho em cada classificador. A partir dos resultados, sensores de cintura, pescoço e bolso direito apertado com classificador RF e tamanho de janela 3 s com 50% de sobreposição são os sensores vestíveis mais adequados para detecção de queda.
Fizemos uma análise semelhante para cada câmera no sistema. Construímos um modelo de classificação independente para cada tamanho de janela. Para o treinamento, fizemos 10 vezes a validação cruzada com 70% de treinamento e 30% de conjuntos de dados de teste. A Tabela 4 mostra o ranking do melhor mirante de câmera por classificador, com base na pontuação da F1. Como observado, a visão lateral (câmera 1) realizou a melhor detecção de queda. Além disso, o RF superou em comparação com os outros classificadores. Além disso, a Tabela 5 mostra a preferência de comprimento da janela por mirante da câmera. A partir dos resultados, descobrimos que a melhor localização de uma câmera é em ponto de vista lateral usando RF em tamanho de janela de 3 s e 50% sobreposição.
Por fim, escolhemos duas colocações possíveis de sensores vestíveis (ou seja, cintura e bolso direito apertado) para serem combinadas com a câmera do ponto de vista lateral. Após o mesmo procedimento de treinamento, obtivemos os resultados da Tabela 6. Como mostrado, o classificador modelo RF obteve o melhor desempenho em precisão e pontuação de F1 em ambas as multimodalidades. Além disso, a combinação entre cintura e câmera 1 ficou na primeira posição obtendo 98,72% de precisão e 95,77% na pontuação da F1.

Figura 1: Layout dos sensores vestível (esquerdo) e ambiente (direita) no banco de dados UP-Fall Detection. Os sensores vestíveis são colocados na testa, no pulso esquerdo, no pescoço, na cintura, no bolso direito da calça e no tornozelo esquerdo. Os sensores ambientais são seis sensores infravermelhos emparelhados para detectar a presença de sujeitos e duas câmeras. As câmeras estão localizadas na vista lateral e na vista frontal, ambas com relação à queda humana. Clique aqui para ver uma versão maior desta figura.

Figura 2: Exemplo de uma gravação de vídeo extraída do banco de dados UP-Fall Detection. No topo, há uma seqüência de imagens de um sujeito caindo de lado. Na parte inferior, há uma seqüência de imagens representando as características de visão extraídas. Essas características são o movimento relativo de pixels entre duas imagens adjacentes. Pixels brancos representam movimento mais rápido, enquanto pixels pretos representam movimento mais lento (ou quase zero). Esta seqüência é classificada da esquerda para a direita, cronologicamente. Clique aqui para ver uma versão maior desta figura.

Figura 3: Resultados comparativos relatando a melhor pontuação de F1 de cada modalidade em relação ao modelo de aprendizado de máquina e o melhor comprimento da janela. As barras representam os valores médios da pontuação da F1. Texto em pontos de dados representa média e desvio padrão entre parênteses. Clique aqui para ver uma versão maior desta figura.
| Modalidade | Modelo | Precisão (%) | Precisão (%) | Sensibilidade (%) | Especificidade (%) | Pontuação de F1 (%) |
| IR | RF (3 segundos) | 67,38 ± 0,65 | 36,45 ± 2,46 | 31,26 ± 0,89 | 96,63 ± 0,07 | 32,16 ± 0,99 |
| SVM (3 seg) | 65,16 ± 0,90 | 26,77 ± 0,58 | 25,16 ± 0,29 | 96,31 ± 0,09 | 23,89 ± 0,41 |
| MLP (3 seg) | 65,69 ± 0,89 | 28,19 ± 3,56 | 26,40 ± 0,71 | 96,41 ± 0,08 | 25,13 ± 1,09 |
| kNN (3 segundos) | 61,79 ± 1,47 | 30,04 ± 1,44 | 27,55 ± 0,97 | 96,05 ± 0,16 | 27,89 ± 1,13 |
| IMU | RF (1 seg) | 95,76 ± 0,18 | 70,78 ± 1,53 | 66,91 ± 1,28 | 99,59 ± 0,02 | 68,35 ± 1,25 |
| SVM (1 seg) | 93,32 ± 0,23 | 66,16 ± 3,33 | 58,82 ± 1,53 | 99,32 ± 0,02 | 60,00 ± 1,34 |
| MLP (1 seg) | 95,48 ± 0,25 | 73,04 ± 1,89 | 69,39 ± 1,47 | 99,56 ± 0,02 | 70,31 ± 1,48 |
| kNN (1 seg) | 94,90 ± 0,18 | 69,05 ± 1,63 | 64,28 ± 1,57 | 99,50 ± 0,02 | 66,03 ± 1,52 |
| IMU+EEG | RF (1 seg) | 95,92 ± 0,29 | 74,14 ± 1,29 | 66,29 ± 1,66 | 99,59 ± 0,03 | 69,03 ± 1,48 |
| SVM (1 seg) | 90,77 ± 0,36 | 62,51 ± 3,34 | 52,46 ± 1,19 | 99,03 ± 0,03 | 53,91 ± 1,16 |
| MLP (1 seg) | 93,33 ± 0,55 | 74,10 ± 1,61 | 65,32 ± 1,15 | 99,32 ± 0,05 | 68,13 ± 1,16 |
| kNN (1 seg) | 92,12 ± 0,31 | 66,86 ± 1,32 | 58,30 ± 1,20 | 98,89 ± 0,05 | 60,56 ± 1,02 |
| IR+IMU+EEG | RF (2 seg) | 95,12 ± 0,36 | 74,63 ± 1,65 | 66,71 ± 1,98 | 99,51 ± 0,03 | 69,38 ± 1,72 |
| SVM (1 seg) | 90,59 ± 0,27 | 64,75 ± 3,89 | 52,63 ± 1,42 | 99,01 ± 0,02 | 53,94 ± 1,47 |
| MLP (1 seg) | 93,26 ± 0,69 | 73,51 ± 1,59 | 66,05 ± 1,11 | 99,31 ± 0,07 | 68,19 ± 1,02 |
| kNN (1 seg) | 92,24 ± 0,25 | 67,33 ± 1,94 | 58,11 ± 1,61 | 99,21 ± 0,02 | 60,36 ± 1,71 |
| Cam | RF (3 segundos) | 32,33 ± 0,90 | 14,45 ± 1,07 | 14,48 ± 0,82 | 92,91 ± 0,09 | 14,38 ± 0,89 |
| SVM (2 seg) | 34,40 ± 0,67 | 13,81 ± 0,22 | 14,30 ± 0,31 | 92,97 ± 0,06 | 13,83 ± 0,27 |
| MLP (3 seg) | 27,08 ± 2,03 | 8,59 ± 1,69 | 10,59 ± 0,38 | 92,21 ± 0,09 | 7,31 ± 0,82 |
| kNN (3 segundos) | 34,03 ± 1,11 | 15,32 ± 0,73 | 15,54 ± 0,57 | 93,09 ± 0,11 | 15,19 ± 0,52 |
| IR+CAM | RF (3 segundos) | 65,00 ± 0,65 | 33,93 ± 2,81 | 29,02 ± 0,89 | 96,34 ± 0,07 | 29,81 ± 1,16 |
| SVM (3 seg) | 64,07 ± 0,79 | 24,10 ± 0,98 | 24,18 ± 0,17 | 96,17 ± 0,07 | 22,38 ± 0,23 |
| MLP (3 seg) | 65,05 ± 0,66 | 28,25 ± 3,20 | 25,40 ± 0,51 | 96,29 ± 0,06 | 24,39 ± 0,88 |
| kNN (3 segundos) | 60,75 ± 1,29 | 29,91 ± 3,95 | 26,25 ± 0,90 | 95,95 ± 0,11 | 26,54 ± 1,42 |
| IMU+EEG+CAM | RF (1 seg) | 95,09 ± 0,23 | 75,52 ± 2,31 | 66,23 ± 1,11 | 99,50 ± 0,02 | 69,36 ± 1,35 |
| SVM (1 seg) | 91,16 ± 0,25 | 66,79 ± 2,79 | 53,82 ± 0,70 | 99,07 ± 0,02 | 55,82 ± 0,77 |
| MLP (1 seg) | 94,32 ± 0,31 | 76,78 ± 1,59 | 67,29 ± 1,41 | 99,42 ± 0,03 | 70,44 ± 1,25 |
| kNN (1 seg) | 92,06 ± 0,24 | 68,82 ± 1,61 | 58,49 ± 1,14 | 99,19 ± 0,02 | 60,51 ± 0,85 |
Tabela 1: Resultados comparativos relatando o melhor desempenho de cada modalidade em relação ao modelo de aprendizagem de máquina e o melhor comprimento da janela (entre parênteses). Todos os valores em desempenho representam a média e o desvio padrão.
| # | Tipo IMU |
| Rf | Svm | Mlp | KNN |
| 1 | (98,36) Cintura | (83.30) Bolso Direito | (57.67) Bolso Direito | (73.19) Bolso Direito |
| 2 | (95,77) Pescoço | (83.22) Cintura | (44.93) Pescoço | (68,73) Cintura |
| 3 | (95.35) Bolso Direito | (83.11) Pescoço | (39.54) Cintura | (65.06) Pescoço |
| 4 | (95.06) Tornozelo | (82,96) Tornozelo | (39.06) Pulso esquerdo | (58.26) Tornozelo |
| 5 | (94.66) Pulso esquerdo | (82.82) Pulso esquerdo | (37.56) Tornozelo | (51.63) Pulso esquerdo |
Tabela 2: Ranking do melhor sensor vestível por classificador, classificado pela pontuação da F1 (entre parênteses). As regiões na sombra representam os três melhores classificadores para detecção de quedas.
| Tipo IMU | Comprimento da janela |
| Rf | Svm | Mlp | KNN |
| Tornozelo Esquerdo | 2-s | 3 seg | 1-seg | 3 seg |
| Cintura | 3 seg | 1-seg | 1-seg | 2-s |
| Pescoço | 3 seg | 3 seg | 2-s | 2-s |
| Bolso direito | 3 seg | 3 seg | 2-s | 2-s |
| Pulso Esquerdo | 2-s | 2-s | 2-s | 2-s |
Tabela 3: Comprimento da janela de tempo preferido nos sensores vestíveis por classificador.
| # | Visualização da câmera |
| Rf | Svm | Mlp | KNN |
| 1 | (62.27) Visão Lateral | (24.25) Visão Lateral | (13.78) Vista frontal | (41.52) Visão Lateral |
| 2 | (55.71) Vista frontal | (0.20) Vista Frontal | (5.51) Visão Lateral | (28.13) Vista frontal |
Tabela 4: Ranking do melhor mirante de câmera por classificador, classificado pela pontuação da F1 (entre parênteses). As regiões na sombra representam o melhor classificador para detecção de quedas.
| Câmera | Comprimento da janela |
| Rf | Svm | Mlp | KNN |
| Vista lateral | 3 seg | 3 seg | 2-s | 3 seg |
| Vista frontal | 2-s | 2-s | 3 seg | 2-s |
Tabela 5: Comprimento da janela de tempo preferido nos mirantes da câmera por classificador.
| Multimodal | Classificador | Precisão (%) | Precisão (%) | Sensibilidade (%) | Pontuação de F1 (%) |
Cintura + Vista lateral | Rf | 98,72 ± 0,35 | 94,01 ± 1,51 | 97,63 ± 1,56 | 95,77 ± 1,15 |
| Svm | 95,59 ± 0,40 | 100 | 70,26 ± 2,71 | 82,51 ± 1,85 |
| Mlp | 77,67 ± 11,04 | 33,73 ± 11,69 | 37,11 ± 26,74 | 29,81 ± 12,81 |
| KNN | 91,71 ± 0,61 | 77,90 ± 3,33 | 61,64 ± 3,68 | 68,73 ± 2,58 |
Bolso direito + Vista lateral | Rf | 98,41 ± 0,49 | 93,64 ± 1,46 | 95,79 ± 2,65 | 94,69 ± 1,67 |
| Svm | 95,79 ± 0,58 | 100 | 71,58 ± 3,91 | 83,38 ± 2,64 |
| Mlp | 84,92 ± 2,98 | 55,70 ± 11,36 | 48,29 ± 25,11 | 45,21 ± 14,19 |
| KNN | 91,71 ± 0,58 | 73,63 ± 3,19 | 68,95 ± 2,73 | 71,13 ± 1,69 |
Tabela 6: Resultados comparativos do sensor vestível combinado e do mirante da câmera usando o comprimento da janela de 3 segundos. Todos os valores representam a média e o desvio padrão.