Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

Objetivação do Diagnóstico da Língua na Medicina Tradicional, Análise de Dados e Aplicação do Estudo

Published: April 14, 2023 doi: 10.3791/65140
* These authors contributed equally

Summary

O presente estudo empregou U-Net e outros algoritmos de aprendizagem profunda para segmentar uma imagem de língua e comparou os resultados da segmentação para investigar a objetivação do diagnóstico de língua.

Abstract

O diagnóstico da língua é uma técnica essencial do diagnóstico da medicina tradicional chinesa (MTC), e a necessidade de objetivar imagens da língua por meio da tecnologia de processamento de imagens é crescente. O presente estudo fornece uma visão geral dos progressos realizados na objetivação da língua na última década e compara modelos de segmentação. Vários modelos de aprendizagem profunda são construídos para verificar e comparar algoritmos usando conjuntos de imagens reais da língua. Os pontos fortes e fracos de cada modelo são analisados. Os resultados indicam que o algoritmo U-Net supera outros modelos em relação à precisão de precisão (PA), recordação e média de interseção sobre união (MIoU). No entanto, apesar do progresso significativo na aquisição e processamento das imagens da língua, um padrão uniforme para objetivar o diagnóstico da língua ainda não foi estabelecido. Para facilitar a aplicação generalizada de imagens de língua capturadas usando dispositivos móveis na objetivação do diagnóstico da língua, novas pesquisas poderiam abordar os desafios colocados pelas imagens de língua capturadas em ambientes complexos.

Introduction

A observação da língua é uma técnica amplamente utilizada na medicina étnica tradicional chinesa (MTC). A cor e a forma da língua podem refletir a condição física e várias propriedades, severidades e prognósticos da doença. Por exemplo, na medicina tradicional hmong, a cor da língua é usada para identificar a temperatura corporal, por exemplo, uma língua vermelha ou roxa indica fatores patológicos relacionados ao calor. Na medicina tibetana, uma condição é julgada observando a língua de um paciente, prestando atenção à cor, forma e umidade do muco. Por exemplo, as línguas de pacientes com doença de Heyi tornam-se vermelhas e ásperas ou pretas e secas1; pacientes com doença de Xieri2 têm línguas amarelas e secas; enquanto isso, os pacientes com doença de Badakan3 apresentam língua branca, úmida e mole4. Essas observações revelam a estreita relação entre as características da língua e a fisiologia e patologia. Em geral, o estado da língua desempenha um papel vital no diagnóstico, identificação da doença e avaliação do efeito do tratamento.

Simultaneamente, devido às diversas condições de vida e práticas alimentares entre diferentes grupos étnicos, variações nas imagens da língua são evidentes. O modelo Lab, estabelecido com base em um padrão internacional para a determinação da cor, foi formulado pela Commission International Eclairage (CIE) em 1931. Em 1976, um padrão de cores foi modificado e nomeado. O modelo de cores Lab é composto por três elementos: L corresponde ao brilho, enquanto a e b são dois canais de cor. a inclui cores de verde escuro (baixo valor de brilho) a cinza (valor de brilho médio) a rosa brilhante (alto valor de brilho); b vai de azul brilhante (baixo valor de brilho) para cinza (valor de brilho médio) para amarelo (alto valor de brilho). Yang et al.5 , comparando os valores de L x a x b da cor da língua de cinco grupos étnicos, verificaram que as características das imagens de língua dos grupos Hmong, Hui, Zhuang, Han e Mongol eram significativamente distintas entre si. Por exemplo, os mongóis têm línguas escuras com um revestimento de língua amarela, enquanto os hmong têm línguas claras com um revestimento de língua branca, sugerindo que as características da língua podem ser usadas como um indicador diagnóstico para avaliar o estado de saúde de uma população. Além disso, imagens de língua podem funcionar como um índice de avaliação para a medicina baseada em evidências em pesquisas clínicas de medicina étnica. He et al.6 empregaram imagens da língua como base para o diagnóstico da MTC e avaliaram sistematicamente a segurança e eficácia dos pellets de Chou-Ling-Dan (grânulos de CLD usados para tratar doenças inflamatórias e febris, incluindo influenza sazonal na MTC) combinados com a medicina chinesa e ocidental. Os resultados estabeleceram a validade científica das imagens de língua como índice de avaliação para estudos clínicos. No entanto, os médicos tradicionais geralmente se valem da subjetividade para observar as características da língua e avaliar as condições fisiológicas e patológicas dos pacientes, exigindo indicadores mais precisos.

O surgimento da internet e da tecnologia de inteligência artificial abriu caminho para a digitalização e objetivação do diagnóstico da língua. Esse processo envolve o uso de modelos matemáticos para fornecer uma descrição qualitativa e objetiva das imagens de língua7, refletindo o conteúdo da imagem de língua. O processo inclui várias etapas: aquisição de imagens, compensação óptica, correção de cores e transformação geométrica. As imagens pré-processadas são então alimentadas em um modelo algorítmico para posicionamento e segmentação de imagens, extração de características, reconhecimento de padrões, etc. O resultado desse processo é um diagnóstico altamente eficiente e preciso dos dados de imagens da língua, alcançando assim o objetivo de objetivação, quantificação e informatização do diagnóstico dalíngua8. Assim, o objetivo de processamento de alta eficiência e alta precisão dos dados de diagnóstico da língua é alcançado. Com base no conhecimento do diagnóstico da língua e na tecnologia de aprendizagem profunda, este estudo separou automaticamente o corpo da língua e o revestimento da língua das imagens da língua usando um algoritmo de computador, a fim de extrair as características quantitativas das línguas para os médicos, melhorar a confiabilidade e a consistência do diagnóstico e fornecer métodos para pesquisas subsequentes de objetivação do diagnósticoda língua 9.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Este estudo foi aprovado pelo projeto da Fundação Nacional de Ciências Naturais da China, Constructing Dynamic Change rules of TCM Facial image Based on Association Analysis. O número de aprovação ética é 2021KL-027, e o comitê de ética aprovou o estudo clínico a ser realizado de acordo com os documentos aprovados, que incluem protocolo de pesquisa clínica (2021.04.12, V2.0), consentimento informado (2021.04.12, V2.0), materiais de recrutamento de sujeitos (2021.04.12, V2.0), casos de estudo e/ou relatos de caso, fichas de diário do assunto e outros questionários (2021.04.12, V2.0), uma lista de participantes no ensaio clínico, aprovação de projeto de pesquisa, etc. Consentimento informado dos pacientes participantes do estudo foi obtido. A principal abordagem experimental deste estudo é usar imagens reais da língua para validar e comparar os efeitos de segmentação do modelo. A Figura 1 apresenta os componentes da objetivação do diagnóstico da língua.

1. Aquisição de imagens

  1. Utilizar o instrumento de diagnóstico facial lingual manual auto-desenvolvido para coletar imagens da face lingual dos pacientes.
  2. Preencha o nome do paciente, sexo, idade e doença na página do computador. As imagens aqui incluídas são de pacientes que compareceram ao ambulatório e concordaram em ser fotografados após serem informados sobre o objetivo e o conteúdo do estudo. Confirmar se o paciente está sentado, colocar toda a face no instrumento de aquisição de imagens e instruir o paciente a estender a língua para fora da boca ao máximo.
  3. Segurar o aparelho de aquisição de imagens conectado a um computador e verificar, através das imagens na tela do computador, se o paciente está na posição correta e se a língua e a face estão totalmente expostas.
  4. Pressione o botão Disparar na tela do computador três vezes para tirar três fotos.
    NOTA: O instrumento de aquisição de imagens encontra-se atualmente apenas na fase de pedido de patente e não é para uso comercial, portanto não está à venda.
  5. Selecione e filtre manualmente as imagens de língua e rosto coletadas. Filtre e exclua imagens com língua e rosto incompletos, bem como imagens muito escuras devido à luz insuficiente. A Figura 2 mostra a página de aquisição de imagens do software.
  6. No desenho experimental, colete três imagens de cada paciente por vez como alternativas e selecione uma imagem relativamente padrão, totalmente exposta, bem iluminada e clara como amostra para treinamento e teste subsequente do algoritmo.
  7. Colete dados após a filmagem, exporte os dados para triagem manual e exclua as imagens não padrão visíveis a olho nu. Use os seguintes critérios de filtragem e exclusão: língua incompleta e exposição facial e imagens muito escuras como resultado de luz insuficiente. Um exemplo de uma imagem com pouca iluminação, uma imagem incompleta e uma imagem padrão é mostrado na Figura 3.
    NOTA: A luz insuficiente geralmente é causada pela falha do paciente em colocar a face inteiramente no instrumento. A exposição completa geralmente só é obtida fotografando corretamente o paciente.

2. Segmentação da língua

  1. Realize a segmentação da imagem da língua usando uma ferramenta de anotação on-line, conforme descrito abaixo.
    1. Instale o Labelme, clique no botão Abrir no canto superior esquerdo da interface do rótulo, selecione a pasta onde a imagem está localizada e abra as fotos.
    2. Clique em criar polígono para iniciar pontos de rastreamento, rastrear a língua e as formas linguais, nomeá-las de acordo com as áreas selecionadas (por exemplo, língua e superfície lingual) e salvá-las.
    3. Quando todas as marcas estiverem concluídas, clique em Salvar para salvar a imagem na pasta de dados. Consulte a Figura 4 para obter um fluxograma detalhado.
      Observação : como as imagens podem ter diferenças de pixel, as imagens não podem ser usadas diretamente para treinamento e teste de algoritmo.
  2. Unifique as imagens para o mesmo tamanho preenchendo as imagens com borda, com o lado longo da imagem como o comprimento de preenchimento de destino e realizando o preenchimento de borda branca para preencher as imagens em um quadrado, com o lado longo da imagem como o comprimento da borda. O tamanho da imagem capturada pelo dispositivo é de 1080 x 1920 pixels, e o tamanho da imagem preenchida é de 1920 x 1920 pixels. Veja a Figura 5.
  3. Aplique o aprimoramento da imagem, se necessário. Nenhum aprimoramento foi aplicado neste estudo, pois as imagens utilizadas foram feitas em uma cena fixa e foram menos afetadas pelo ambiente, iluminação e outros fatores.
  4. Como três imagens foram coletadas para cada paciente durante o processo de filmagem para levar em conta fatores incontroláveis, como piscar do objeto e bloqueio do cristalino, as imagens de cada paciente foram selecionadas manualmente para reter uma imagem por paciente.
  5. Para treinar o modelo, colete dados de 200 pessoas, ou 600 imagens. Após a triagem, retenha cerca de 200 imagens utilizáveis.
  6. De acordo com o número da imagem, divida aleatoriamente todas as imagens da língua, colocando 70% delas no conjunto de treinamento e 30% no conjunto de teste em uma planilha.

3. Classificação da língua

  1. Acesse os sites oficiais e baixe e instale o Anaconda, Python e Labelme. Ative o ambiente e conclua a instalação e ajuste do ambiente geral. Consulte a Figura 6 para obter um fluxograma que descreve a instalação e a configuração do software.
  2. Crie o modelo de algoritmo de aprendizado profundo no ambiente instalado, ajuste os parâmetros e conclua o treinamento do modelo usando o conjunto de treinamento. Execute a seleção e o ajuste do modelo conforme descrito nas etapas a seguir.
    1. Seleção do modelo: Escolha o modelo apropriado com base no objetivo da pesquisa. Após a revisão de pesquisas sobre processamento de imagens da língua nos últimos 5 anos, quatro algoritmos, U-Net, Seg-Net, DeeplabV3 e PSPNet, foram selecionados para validação neste estudo (veja Arquivo de Codificação Suplementar 1, Arquivo de Codificação Suplementar 2, Arquivo de Codificação Suplementar 3 e Arquivo de Codificação Suplementar 4 para códigos de modelo).
    2. Construção do conjunto de dados: Após completar a seleção do modelo, construa o conjunto de dados necessário em conjunto com o conteúdo da pesquisa, principalmente usando a anotação Labelme e os métodos de tamanho uniforme da imagem, conforme descrito acima.
  3. Execute o treinamento do modelo conforme descrito abaixo. A Figura 7 mostra detalhes da operação de treinamento do algoritmo.
    1. Insira os dados na rede neural para propagação direta, com cada neurônio primeiro inserindo um acúmulo ponderado de valores e, em seguida, inserindo uma função de ativação como o valor de saída desse neurônio para obter o resultado.
    2. Insira o resultado na função de erro e compare-o com o valor esperado para obter o erro e julgar o grau de reconhecimento por engano. Quanto menor for a função de perda, melhor será o modelo.
    3. Reduza o erro por retropropagação e determine o vetor de gradiente. Ajuste os pesos pelo vetor de gradiente à tendência dos resultados para que o erro tenda a zero ou diminua.
    4. Repita esse processo de treinamento até que o conjunto seja concluído ou o valor do erro não diminua mais, quando o treinamento do modelo for concluído. Consulte a Figura 8 para obter um fluxograma do modelo de algoritmo em treinamento e teste.
  4. Testar os quatro modelos usando os mesmos dados de teste para segmentação e julgar o desempenho do modelo de acordo com o efeito de segmentação. As quatro métricas de precisão, recall, precisão média de pixels (MPA) e MIoU fornecem uma avaliação de desempenho de modelo mais abrangente.
  5. Após os resultados dos quatro modelos serem gerados, comparar seus valores horizontalmente; Quanto maior o valor, maior a precisão da segmentação e melhor o desempenho do modelo. Veja a Figura 9, a Figura 10 e a Figura 11.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Para os resultados da comparação, ver Figura 12, Figura 13 e Tabela 1, onde o ambiente construído por este estudo usa as mesmas amostras para treinar e testar o modelo do algoritmo. Indicador MIoU: U-Net > Seg-Net > PSPNet > DeeplabV3; Indicador MPA: U-Net > Seg-Net > PSPNet > DeeplabV3; indicador de precisão: U-Net > Seg-Net > DeeplabV3 > PSPNet; recall: U-Net > Seg-Net > PSPNet > DeeplabV3. Quanto maior o valor do índice, maior a precisão da segmentação e melhor o desempenho do modelo. De acordo com os resultados do índice, pode-se analisar que o algoritmo U-Net é superior aos outros algoritmos em MIoU, MPA, precisão e recall, e sua precisão de segmentação também é maior do que os outros algoritmos. Portanto, o algoritmo U-Net tem o melhor desempenho entre os quatro algoritmos diferentes. PSPNet é melhor do que o DeeplabV3 em MIoU, MPA e recall, enquanto o modelo DeeplabV3 é menor do que o modelo Seg-Net em todos os índices. Portanto, pode-se concluir que o algoritmo DeeplabV3 tem o desempenho abrangente menos desejável entre os quatro algoritmos neste ambiente de pesquisa.

Indicadores de avaliação
Neste estudo, o desempenho do modelo algorítmico foi validado principalmente pela precisão, recordação, MPA e MIoU. As métricas de desempenho do modelo estão diretamente relacionadas à matriz de confusão, que consiste nos resultados da classificação do modelo, e reflete o número de amostras que o modelo classificou correta e incorretamente. A matriz representa o valor estimado, equivalente aos resultados do conjunto de testes, e o real representa a verdade fundamental. Ambas as categorias são divididas em verdadeiro e falso, representadas por T e F, respectivamente, resultando em quatro combinações: TP, FP, FN e TN.MPA é o valor médio da proporção de pixels corretamente classificados em cada categoria, e MIoU é a razão média intersecção-fusão. Esta é a métrica mais comum para segmentação semântica; calcula a razão da intersecção e mescla os valores verdadeiro e previsto10. A fórmula para estes são:

Precisão = , evocação = , MPA = (CPA = , onde N é o número total de categorias) e MIoU = Equation 1Equation 2Equation 1Equation 3 Equation 4 (IoU= ). Equation 5

Essas quatro métricas fornecem uma avaliação mais abrangente do efeito de segmentação das imagens de língua.

Este estudo selecionou quatro modelos de algoritmos de aprendizagem profunda, U-Net, Seg-Net, DeeplabV3 e PSPNet, para treinar e testar os modelos de algoritmos usando dados de imagens linguais reais. O U-Net11 tem uma arquitetura em forma de U, consistindo de um codificador à esquerda e um decodificador à direita, e tem a vantagem de treinar resultados de classificação mais precisos com menos dados e extrair recursos de imagem de forma abrangente. Baseado na rede Res-Net para resolver o problema de segmentação de alvo em várias escalas, o DeepLabV3 adota a estrutura de convolução oca, projeta o módulo para capturar o contexto multiescala, remove o campo aleatório condicional (CRF) e atualiza o módulo ASPP (atrous spatial pyramid pooling), melhorando significativamente o desempenho do modelo. A segmentação semântica visa obter o rótulo de categoria para cada pixel do objeto segmentado. Seg-Net é uma arquitetura de rede neural convolucional (CNN) com uma estrutura simétrica para segmentação semântica, incluindo um codificador e um decodificador. A vantagem disso é que o método de upsampling do decodificador para diagramas de recursos de baixa resolução elimina o tempo de aprendizado de up-sample. O modelo PSPNet é aplicado principalmente à análise de cenas, adicionando informações de contexto à segmentação semântica, o que pode evitar erros parciais, resolver o problema da falta de estratégias apropriadas para usar informações de classificação de cena global e melhorar a confiabilidade dos resultados finais previstos.

Figure 1
Figura 1: Objetivação dos componentes do diagnóstico da língua. Componentes de diagnóstico da língua, incluindo elementos de captura de imagens, segmentação da língua e classificação da língua. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2: Página de aquisição de imagens. Interface de aquisição de imagens de língua e conteúdo do questionário. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3: Critérios de filtragem e rejeição de imagens. Uma marca de escala verde representa os critérios de inclusão e uma cruz vermelha representa os critérios de exclusão. Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4: Diagrama esquemático do processo de marcação Labelme. O software Labelme é usado para anotar todo o processo da imagem, desde a abertura da pasta até o salvamento do arquivo. Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5: Diagrama de pré-processamento de imagens. O tamanho da imagem de captura é de 1080 x 1920 pixels, e o tamanho da imagem de preenchimento é de 1920 x 1920 pixels. Clique aqui para ver uma versão maior desta figura.

Figure 6
Figura 6: Fluxograma de configuração do ambiente. O algoritmo pode ser executado somente depois que o ambiente é configurado. Clique aqui para ver uma versão maior desta figura.

Figure 7
Figura 7: Diagrama de detalhes da execução do treinamento do algoritmo. Etapas detalhadas e métodos de execução na operação do algoritmo. Clique aqui para ver uma versão maior desta figura.

Figure 8
Figura 8: Fluxograma do modelo algorítmico em treinamento e testes. As etapas importantes do algoritmo, incluindo processamento de dados, treinamento de algoritmos e testes de algoritmos. Clique aqui para ver uma versão maior desta figura.

Figure 9
Figura 9: Estrutura do algoritmo Seg-Net. Estrutura lógica do algoritmo Seg-Net e processo de execução de código. Clique aqui para ver uma versão maior desta figura.

Figure 10
Figura 10: Estrutura do algoritmo U-Net. Estrutura lógica do algoritmo U-Net e processo de execução de código. Clique aqui para ver uma versão maior desta figura.

Figure 11
Figura 11: Estudo da segmentação das imagens de fluxo da língua. A área vermelha na imagem é o resultado da segmentação da língua, e a área verde é o resultado da segmentação do revestimento da língua. Clique aqui para ver uma versão maior desta figura.

Figure 12
Figura 12: Gráfico de comparação de quatro métricas de algoritmos. MIoU, MPA, precisão e recall são todos índices de avaliação do desempenho do algoritmo. Quanto maior o valor, melhor o desempenho do algoritmo e maior a precisão da segmentação. Clique aqui para ver uma versão maior desta figura.

Figure 13
Figura 13: Comparação dos resultados dos quatro algoritmos de segmentação da língua. A área vermelha na imagem é o resultado da segmentação da língua, e a área verde é o resultado da segmentação do revestimento da língua. Clique aqui para ver uma versão maior desta figura.

Figure 14
Figura 14: Diagrama da estrutura do algoritmo U-Net. As caixas azuis/brancas indicam o mapa de feição, enquanto o número acima do mapa de feição representa o número de canais. Clique aqui para ver uma versão maior desta figura.

MIoU .MPA Precisão Lembrar
U-Rede 84.00% 89.38% 91.90% 89.38%
DeeplabV3 59.68% 61.33% 84.21% 61.33%
PSPNet 67.80% 72.56% 82.71% 72.56%
SegNet 80.09% 87.14% 88.53% 87.14%

Tabela 1: Comparação de quatro métricas de resultados de segmentação de algoritmos. As métricas foram MIoU, MPA, precisão e recall.

Arquivo de codificação suplementar 1: U-Net_training. Código de treinamento do modelo U-Net. Clique aqui para baixar este arquivo.

Arquivo de codificação suplementar 2: Seg-Net_training. Código de treinamento do modelo Seg-Net. Clique aqui para baixar este arquivo.

Arquivo de codificação suplementar 3: DeeplabV3_training. Código de treinamento do modelo DeeplabV3. Clique aqui para baixar este arquivo.

Arquivo de codificação suplementar 4: PSPNet_training. Código de treinamento do modelo PSPNet. Clique aqui para baixar este arquivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Com base nos resultados de comparação apresentados acima, fica evidente que as características dos quatro algoritmos considerados são variadas, e suas vantagens e desvantagens distintas são descritas a seguir. A estrutura U-Net, baseada na modificação e expansão de uma rede de convolução completa, pode obter informações contextuais e posicionamento preciso através de um caminho de contratação e um caminho de expansão simétrico. Ao classificar cada ponto de pixel, esse algoritmo alcança uma maior precisão de segmentação e segmenta a imagem com o modelo treinado mais rapidamente. Por outro lado, o algoritmo Seg-Net, composto por uma estrutura simétrica de um codificador e um decodificador, tem a vantagem de se adaptar rapidamente a novos problemas e ter um bom desempenho em tarefas como fala, semântica, visão e jogos. No entanto, o algoritmo requer uma grande quantidade de dados, tornando-o exigente em termos de configuração de hardware e, portanto, só é aplicável para algumas tarefas. Como uma estrutura mais geral, o algoritmo DeeplabV3 tem a vantagem de melhorar os módulos ASSP para a maioria das redes e colocá-los em cascata ou em paralelo para melhorar o desempenho geral. No entanto, o mapa de feição final precisa ser obtido com up-sampling nas taxas 8 e 16, o que é relativamente áspero e poderia ser melhorado mais tarde. Além disso, o modelo PSPNet tem a característica mais significativa de agregar informações contextuais de diferentes regiões através do módulo PSP, melhorando assim o acesso à informação global e entregando bons resultados em vários conjuntos de dados. Os resultados indicam que o modelo U-Net tem a maior precisão de segmentação e o melhor efeito de segmentação neste ambiente de pesquisa.

A arquitetura U-Net demonstra sua superioridade na segmentação de imagens médicas12. Inicialmente projetado para segmentação de imagens de células 2D, o algoritmo U-Net foi desenvolvido substituindo seu módulo 2D por um módulo 3D. Essa modificação fortaleceu sua capacidade de processar imagens 3D, como imagens de ressonância magnética (RM), tomografia computadorizada (TC) e ultrassom tridimensional (3D). Ao segmentar imagens médicas em órgãos, tecidos e lesões, dados clínicos valiosos podem ser obtidos. O algoritmo U-Net aprimorado representa uma ferramenta eficaz para exames e tratamentos subsequentes. No diagnóstico médico, a classificação de imagens é uma parte crucial de muitos processos diagnósticos. A medicina tradicional baseia-se na observação de todos os sinais visíveis, incluindo a língua, a pele e a expressão. O surgimento e o avanço da tecnologia de segmentação de imagens médicas têm importância significativa no diagnóstico médico. Na MTC, a análise de imagens de face e língua requer o uso de vários algoritmos de aprendizado profundo para a classificação da extração de características. Por outro lado, algoritmos de segmentação de imagens são amplamente utilizados na medicina ocidental, fornecendo uma base para o diagnóstico clínico epatológico13.

O processo de pesquisa deste estudo compreende etapas críticas, incluindo pré-processamento de dados, treinamento e teste de algoritmos e comparação de desempenho de algoritmos. Inicialmente, os dados brutos passam por processamento, rotulagem e divisão em conjuntos de treinamento e teste para facilitar a construção subsequente do algoritmo. Os dados processados são então alimentados na rede neural e a função de perda é definida para determinar o vetor de gradiente através da retropropagação. Posteriormente, os parâmetros são ajustados até a conclusão do processo de treinamento. O desempenho do algoritmo é avaliado testando o efeito de segmentação da imagem usando vários índices, como MIoU, MPA, precisão e recall para avaliar seu desempenho de forma abrangente. Durante o processo de treinamento do algoritmo real, pode ocorrer o over-fitting, onde o modelo aprende os dados muito completamente, incluindo as características dos dados de ruído. Isso resulta em identificação de dados durante testes posteriores, classificação incorreta dos dados e baixa capacidade de generalização. Se ocorrer sobreajuste, pode-se aumentar os dados de treinamento ou limpar novamente os dados. Neste estudo, o método iterativo de descida do gradiente é adotado. O sobreajuste também pode ser evitado cortando a iteração com antecedência.

A limitação deste estudo é evidente; As imagens foram coletadas com instrumentos fixos, e os instrumentos experimentais não podem ser utilizados para fins comerciais. Consequentemente, as imagens de língua neste estudo são de uma única cena e não refletem inteiramente o contexto clínico e as condições de luz complexas e variáveis. Portanto, mais pesquisas são necessárias para estudar técnicas de processamento de imagens em ambientes complexos e condições precárias de iluminação. Estudos de objetivação do diagnóstico da língua contêm conteúdo rico, portanto, a segmentação precisa do corpo da língua é essencial. Consequentemente, comparar e verificar algoritmos com o efeito de segmentação mais adequado é significativo para estudos subsequentes. A combinação da segmentação da língua com a classificação pode, teoricamente, alcançar o julgamento automático da imagem da língua e auxiliar no diagnóstico; estudiosos têm explorado e estudado esse assunto. Na área da saúde, o uso da internet das coisas e das tecnologias de comunicação sem fio para processar imagens biomédicas, bem como a assistência diagnóstica, pode aumentar a eficiência de um sistema. Mansour et al.14 projetaram uma imagem automatizada colorida da língua (ASDL-TCI) baseada em aprendizagem profunda colaborativa e internet das coisas. Inclui aquisição de dados, pré-processamento, extração de recursos, classificação e otimização de parâmetros. A precisão, a taxa de recordação e a acurácia desse modelo são de 0,984, 0,973 e 0,983, respectivamente, superiores aos outros métodos.

Aquisição e pré-processamento de imagens
Durante o processo de aquisição das imagens, a intensidade e a variedade das fontes de luz podem afetar diretamente a qualidade da imagem, o que, por sua vez, influencia os resultados da segmentação e classificação das imagens. Portanto, é essencial ajustar a fonte de luz para imitar o efeito das fontes de luz natural o mais próximo possível. Além disso, métodos como utilizar fontes de luz padrão ou empregar várias fontes de luz e fotografar em uma cena fixa podem evitar o impacto negativo da luz, do fundo e de outros fatores, aumentando assim a precisão da segmentação algorítmica. Os parâmetros de iluminação do instrumento usados para coletar imagens da língua não são idênticos à iluminação padrão, o que afeta o efeito de renderização de cores das imagens da língua. Assim, o método de pré-processamento mais comum utilizado é a correção de cor. Cai et al.15 verificaram que, para resolver a discrepância entre os dados de cor de uma imagem de língua e a croma de cor da língua correspondente, é necessário normalizar a conversão do espaço de cores da imagem da língua e a correção de cores. O desempenho de cores do dispositivo de exibição também se desvia do corpo real da língua, exigindo testes e ajustes. Além disso, o tamanho da imagem varia devido aos diferentes instrumentos de aquisição utilizados durante o processo de coleta de imagens16. Para melhorar a eficiência do treinamento e economizar espaço de armazenamento, a rede de aprendizado profundo tem limitações no tamanho da imagem de entrada. Portanto, o tamanho da imagem deve ser padronizado durante a etapa de pré-processamento da imagem. Normalmente, isso é realizado remodelando uniformemente o tamanho da imagem de entrada para treinamento de modelo, com métodos de remodelagem comumente usados sendo interpolação, recorte, inclusão, mosaico e espelhamento.

Segmentação da imagem da língua
A segmentação da imagem da língua pode ser categorizada em dois tipos: métodos tradicionais e métodos de segmentação de aprendizagem profunda17. Os métodos tradicionais de segmentação de imagens da língua consistem em algoritmos como o algoritmo Snake e o algoritmo Otsu. Como um modelo de contorno ativo, o algoritmo Snake18 primeiro define uma curva de perfil e, em seguida, ajusta o perfil inicial para evoluir para uma curva de perfil verdadeiro. A aquisição dos contornos iniciais e a evolução dos contornos são o foco primário de pesquisa para o algoritmo Snake. Por outro lado, o algoritmo de Otsu é um algoritmo clássico de segmentação de limiar que emprega um ou mais limiares para calcular o valor de cinza na imagem original e comparar o valor de escala de cinza de cada pixel com o valor limite. Com base nos resultados da comparação, a língua e o fundo são retratados antes do advento dos métodos de aprendizagem profunda. Esses dois algoritmos são comumente usados no processamento de imagens da língua e na objetivação do diagnóstico da língua.

Desde o advento da teoria da aprendizagem profunda, numerosos estudiosos têm pesquisado a integração da objetivação do diagnóstico da língua e da aprendizagem profunda. Zheng et al.19 desenvolveram um método de detecção de língua baseado na segmentação de imagens através da fusão de vários algoritmos e exploração do método de detecção de língua em um ambiente aberto, obtendo resultados favoráveis de segmentação da língua. Yuan et al.20 propuseram um método de segmentação da língua baseado na função de perda de pixel único de associação de região, em que a função de perda melhorada foi responsável pela correlação entre os pixels da região. Empregando a aprendizagem supervisionada semântica pixel label, a eficiência do treinamento do modelo foi aprimorada, exemplificada pelo índice MIoU atingindo 96,32%. A imagem da língua exibiu características morfológicas específicas, como marcas dentárias, rachaduras e punções, intimamente ligadas ao início da doença. Assim, a observação da língua pode auxiliar no diagnóstico da evolução da doença. Wang ecols.21 propuseram uma abordagem de segmentação de fratura de língua de aprendizado profundo para pequenos conjuntos de dados amostrais que produziram melhor precisão e estabilidade. Este método envolveu a divisão do corpo da língua primeiro, seguido por fissuras na língua, e melhorou o algoritmo U-Net incorporando a perda de foco como a perda de função.

Classificação das imagens de língua
A classificação de imagens de língua envolve principalmente a identificação de características como cor da língua, espinhos, rachaduras e cor do revestimento. Wang et al.22 empregaram o algoritmo Snake para segmentar o corpo da língua e utilizaram técnicas como registro de imagens de informações mútuas, detecção de bordas logarítmicas, linha paralela e outros métodos para identificar punções. Essa abordagem efetivamente resolveu a questão da identificação e contagem automática de punções, ao mesmo tempo em que facilitou a detecção e prevenção precoces. Para abordar as limitações associadas ao treinamento do algoritmo de imagem da língua, como um grande volume de dados, longo tempo de treinamento e alta exigência de equipamentos, Yang et al.23propuseram uma rede neural totalmente conectada baseada no aprendizado de transferência. Este método utiliza o Inception_v3 bem treinado para extrair características e combiná-las com a rede neural totalmente conectada (FCN), alcançando uma taxa de precisão de mais de 90%. Essa abordagem resolveu a questão do aprendizado profundo em amostras pequenas e classificações múltiplas. Song et al.24 empregaram um classificador em cascata para localizar imagens no GoogLe-Net e no Res-Net para aprendizado de transferência, treinamento e aplicação de deep learning para classificar automaticamente três características da imagem da língua: marcas de dentes, rachaduras e espessura do revestimento da língua. A acurácia média dos resultados da classificação ultrapassou 94%. No entanto, o algoritmo de classificação de imagens de língua é altamente suscetível à interferência de outras partes não relacionadas da face, afetando diretamente a precisão daclassificação25.

Zhai et al.26 desenvolveram um algoritmo de múltiplos estágios para classificar imagens de língua usando mecanismos de atenção. Este método aumenta a precisão da identificação das regiões da língua, extraindo características de vários campos de visão perceptivos, que são fundidos durante a fase de localização da língua. Além disso, o módulo de mecanismo de atenção melhora a precisão da classificação da imagem da língua, o que suprime a interferência das impurezas da língua. Diante do problema de classificar as características da língua de diferentesdoenças27, algoritmos de aprendizagem profunda também podem fornecer novas abordagens. Além disso, Shi et al.28 investigaram um método típico de classificação para câncer de pulmão de células não pequenas baseado no algoritmo da árvore de decisão C5.0. Eles identificaram sete regras de classificação de atributos relevantes para o certificado de deficiência de Qi e classificação de certificado de deficiência de Yin. A acurácia encontrada no modelo foi de 80,37%. Além disso, Li et al.29 desenvolveram um modelo diagnóstico para diabetes usando o algoritmo da floresta estocástica. Eles ainda analisaram características de textura e cor de imagens de língua para melhorar o desempenho do modelo.

Conclusão
Em contraste com as abordagens diagnósticas contemporâneas da medicina ocidental, os métodos diagnósticos da MTC são minimamente invasivos e acarretam danos mínimos. Além disso, os quatro métodos diagnósticos de observação, escuta ou olfato, investigação e palpação têm seus fundamentos em diversos aspectos da MTC. No entanto, devido à grande dependência do diagnóstico e tratamento da MTC na experiência do profissional e nos conceitos de tratamento pessoal, pode haver uma escassez de objetividade e padronização. Como resultado, a tendência de objetivar o diagnóstico da MTC surgiu como uma direção para novas pesquisas, que poderiam promover o avanço da MTC.

A objetivação do diagnóstico da língua possui o potencial de processar imagens e grandes quantidades de dados com alta eficiência, o que poderia auxiliar significativamente os médicos. No entanto, é essencial ressaltar que o diagnóstico da língua não é apenas um método tradicional, mas também foi validado. Chen et al.30 conduziram um estudo no qual coletaram dados clínicos sobre as imagens da língua de 382 pacientes com COVID-19. Eles analisaram estatisticamente as características da imagem da língua e os parâmetros do padrão de cores do laboratório para todos os grupos de imagem. Os resultados do estudo revelaram uma correlação entre as características das imagens da língua e o tipo de medicina ocidental utilizada. Além disso, as alterações nas imagens da língua alinham-se com a patogênese geral da doença. Alguns parâmetros de imagens da língua poderiam potencialmente ajudar na previsão de mudanças patogênicas de COVID-19 no TCM31.

Ao objetivar o diagnóstico tradicional da língua médica, numerosos pesquisadores têm utilizado o método de segmentação e classificação. Deep learning e redes neurais de convolução são essenciais para classificar as características da imagem da língua. A precisão do algoritmo de segmentação da imagem da língua é crucial, pois determina se a língua pode ser separada com precisão da face, impactando assim a precisão da classificação subsequente das características. Consequentemente, melhorar a precisão do modelo de algoritmo atual é um foco de pesquisa crucial neste campo. No momento, melhorar o modelo de algoritmo e sua precisão é um ponto de pesquisa.

Este estudo empregou os mesmos dados do conjunto de testes para comparar o desempenho dos algoritmos U-Net, Seg-Net, DeeplabV3 e PSPNet4. Essa medida foi tomada para garantir a consistência na qualidade dos dados utilizados. No ambiente experimental empregado neste estudo, o algoritmo U-Net superou significativamente os outros três algoritmos em relação à precisão de segmentação. MIoU é a medida de anotação do algoritmo de segmentação semântica32, o índice mais crucial usado para avaliar o desempenho do algoritmo. O valor MIoU do algoritmo U-Net foi 3,91% maior que o do algoritmo Seg-Net, 23,32% maior que o do DeeplabV3 e 16,2% maior que o do PSPNet. Isso fornece evidências de que o algoritmo U-Net tem um desempenho melhor do que os outros algoritmos.

No entanto, existem alguns problemas na segmentação e classificação de imagens de língua usando algoritmos de aprendizagem profunda. Por exemplo, devido à privacidade do paciente, os conjuntos de dados de imagens médicas são muito pequenos em tamanho em comparação com outros conjuntos de dados segmentados semânticos, o que restringe as vantagens do aprendizado profundo em big data. A segmentação de modelos de parâmetros grandes é propensa ao problema de ajuste. Portanto, a estrutura da rede precisa ser ajustada, selecionando os modos apropriados de melhoria. Atualmente, a pesquisa de objetivação do diagnóstico da língua ainda não formou um padrão uniforme de coleta; O ambiente de aquisição e o tipo de fonte de luz carecem de padronização adequada. Os pesquisadores geralmente configuram o ambiente de coleta e constroem seu próprio banco de dados não público. Ao mesmo tempo, embora os modelos algorítmicos atuais possam alcançar boa acurácia, os dados utilizados são cuidadosamente triados e pré-processados, o que é difícil de ser alcançado no ambiente real de diagnóstico e tratamento, limitando sua aplicação clínica. Além disso, uma maior objetivação do diagnóstico da língua lidará com ambientes complexos ou imagens da língua capturadas por diferentes dispositivos33. Outra tendência é o processamento dinâmico de informações, especificamente o processamento de imagens de vídeo, que fornece informações mais detalhadas sobre a língua e reflete de forma mais abrangente as vantagens do diagnóstico da língua. Assim, é necessário desenvolver algoritmos de aprendizagem profunda para processar detalhes dinâmicos. No geral, a objetivação do diagnóstico médico da língua combinada com algoritmos de aprendizagem profunda é promissora para reduzir a subjetividade no diagnóstico da MTC.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores declaram não haver conflitos de interesse.

Acknowledgments

Este trabalho foi apoiado pela Fundação Nacional da Natureza da China (concessão n.º 82004504), pelo Programa Nacional de Pesquisa e Desenvolvimento Chave do Ministério da Ciência e Tecnologia da China (concessão n.º 2018YFC1707606), pela Administração de Medicina Chinesa da Província de Sichuan (concessão n.º 2021MS199) e pela Fundação Nacional da Natureza da China (concessão n.º 82174236).

Materials

Name Company Catalog Number Comments
CPU Intel(R) Core(TM) i7-9700K
GPU  NVIDIA GeForce RTX 3070 Ti (8192MB)
Operating systems Microsoft Windows 10 Professional Edition (64-bit)
Programming language Python
RAM 16G

DOWNLOAD MATERIALS LIST

References

  1. Jiu, G., et al. Effects of herbal therapy on intestinal microbiota and serum metabolomics in different rat models of Mongolian medicine. Evidence-Based Complementary and Alternative. 2022, 7255780 (2022).
  2. Xi, J., Xin, Y., Teregle, Study on the correlation between the animal model of Mongolian medicine 34;Xieri disease" and serum ALT and AST. Electronic Journal of Cardiovascular Diseases in Combination of Traditional Chinese. 4 (33), 134-135 (2016).
  3. Yin, L., et al. Study on the mechanism of serum differential protein changes in bronchial asthma based on proteomics. Chinese Journal of Traditional Chinese Medicine. 47 (22), 6227-6234 (2022).
  4. Wang, X. H., Bao, L. Band Seed. The origin and development of tongue diagnosis in Mongolian medicine. Chinese Ethnic Folk Medicine. (1), 64-65 (2008).
  5. Yang, S., et al. A comparative study on the feature parameters of tongue diagnosis images in five nationalities. Chinese Journal of Traditional Chinese Medicine. 36 (11), 6428-6430 (2021).
  6. He, J. Y., et al. Efficacy and safety of Chou-Ling-Dan granules in the treatment of seasonal influenza via combining Western and traditional Chinese medicine, protocol for a multicentre, randomised controlled clinical trial. BMJ Open. 9 (4), e024800 (2019).
  7. Wang, D. J., et al. Scientific knowledge mapping and visualization analysis in the field of Chinese medicine tongue feature objectification research. World Science and Technology - Modernization of Chinese Medicine. 23 (9), 3032-3040 (2021).
  8. Yuan, S. M., Qian, P., Li, F. F. Research progress of color correction methods for tongue and face diagnosis in traditional Chinese Medicine. Chinese Journal of Traditional Chinese Medicine. 34 (9), 4183-4185 (2019).
  9. Kanawong, R., et al. Tongue image analysis and its mobile app development for health diagnosis. Advances in Experimental Medicine and Biology. 1005, 99-121 (2017).
  10. Yu, Y., et al. Semantic segmentation evaluation index and evaluation method. Computer Engineering and Application. , (2023).
  11. Sehyung, L., Negishi, M., Urakubo, H., Kasai, H., Ishii, S. Mu-net: Multi-scale U-net for two-photon microscopy image denoising and restoration. Neural Networks. 125, 92-103 (2020).
  12. Huang, X. M., et al. A review on the application of U-Net and its variants in medical image segmentation. Chinese Journal of Biomedical Engineering. 41 (5), 567-576 (2022).
  13. Lu, J. H., Xu, Y. F., Wang, Y. Q., Hao, Y. M. Research overview of tongue objectification in traditional Chinese medicine based on computer image technology. World Science and Technology - Modernization of Traditional Chinese Medicine. 24 (11), 4568-4573 (2022).
  14. Mansour, R. F., Althobaiti, M. M., Ashour, A. A. Internet of things and synergic deep learning based biomedical tongue color image analysis for disease diagnosis and classification. IEEE Access. 9, 94769-94779 (2021).
  15. Cai, Y. H., Hu, S. B., Guan, J., Zhang, X. F. Analysis of the development and application of tongue diagnosis objectification techniques in Chinese medicine. World Science and Technology - Modernization of Chinese Medicine. 23 (7), 2447-2453 (2021).
  16. Ghosh, S., Das, N., Nasipuri, M. Reshaping inputs for convolutional neural network: some common and uncommon methods. Pattern Recognition. 93, 79-94 (2019).
  17. Shang, Z. M., et al. Research progress of digital acquisition and characterization of tongue diagnosis information. Chinese Journal of Traditional Chinese Medicine. 36 (10), 6010-6013 (2021).
  18. Ning, J., Zhang, D., Wu, C., Yue, F. Automatic tongue image segmentation based on gradient vector flow and region merging. Neural Computing and Applications. 21, 1819-1826 (2012).
  19. Zheng, F., Huang, X. Y., Wang, B. L., Wang, Y. H. A method for tongue detection based on image segmentation. Journal of Xiamen University. 55 (6), 895-900 (2016).
  20. Li, Y. T., Luo, Y. S., Zhu, Z. M. Deep learning-based tongue feature analysis. Computer Science. 47 (11), 148-158 (2020).
  21. Wang, Y. D., Sun, C. H., Cui, J. L., Wu, X. R., Qin, Y. X. Research on deep learning-based tongue fissure segmentation algorithm. World Science and Technology - Modernization of Chinese Medicine. 23 (9), 3065-3073 (2021).
  22. Wang, X. M., Wang, R. Y., Guo, D., Lu, S. Z., Zhou, P. Research on the identification method of tongue punctures based on auxiliary light source. Journal of Sensing Technology. 29 (10), 1553-1559 (2016).
  23. Yang, J. D., Zhang, P. A fully connected neural network based on migration learning for tongue image classification. Journal of the Second Military Medical University. 39 (8), 897-902 (2018).
  24. Song, C., Wang, B., Xu, J. T. Research on tongue feature classification method based on deep migration learning. Computer Engineering and Science. 43 (8), 1488-1496 (2021).
  25. Ding, H. J., He, J. C. Study on modern techniques and methods of tongue diagnosis. Shi Zhen Chinese Medicine. 21 (5), 1230-1232 (2010).
  26. Zhai, P. B., et al. A multi-stage tongue image classification algorithm incorporating attention mechanism. Computer Engineering and Design. 42 (6), 1606-1613 (2021).
  27. Hou, Y. S. A new clustering analysis algorithm based on deep learning. Journal of Xinxiang University. 35 (12), 4 (2018).
  28. Shi, Y. L., et al. A decision tree algorithm for classification of non-small cell lung cancer evidence based on tongue and pulse data. World Science and Technology - Modernization of Chinese Medicine. 24 (7), 2766-2775 (2022).
  29. Li, J., Hu, X. J., Zhou, C. L., Xu, J. T. Study on the feature analysis and diagnosis model of diabetic tongue based on random forest algorithm. Chinese Journal of Traditional Chinese Medicine. 37 (3), 1639-1643 (2022).
  30. Chen, C. H., et al. The characteristics of the combination of the four diagnostic methods of traditional Chinese medicine from the perspective of the differences between Chinese and Western medical diagnosis methods. Journal of Guangzhou University of Traditional Chinese Medicine. 28 (3), 332-334 (2011).
  31. Chen, R., et al. Correlation analysis of tongue image and western medicine typing in 382 patients with novel coronavirus pneumonia based on Lab colour model and imaging histology. Chinese Journal of Traditional Chinese Medicine. 36 (12), 7010-7014 (2021).
  32. Ju, J. W., Jung, H., Lee, Y. J., Mun, S. W., Lee, J. H. Semantic segmentation dataset for AI-based quantification of clean mucosa in capsule endoscopy. Medicina. 58 (3), 397 (2022).
  33. Wu, X., et al. A review of research on deep learning in tongue image classification. Computer Science and Exploration. , 1-23 (2022).

Tags

Medicina medicina étnica medicina tradicional chinesa diagnóstico da língua algoritmo aprendizagem profunda
Objetivação do Diagnóstico da Língua na Medicina Tradicional, Análise de Dados e Aplicação do Estudo
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Feng, L., Xiao, W., Wen, C., Deng,More

Feng, L., Xiao, W., Wen, C., Deng, Q., Guo, J., Song, H. Objectification of Tongue Diagnosis in Traditional Medicine, Data Analysis, and Study Application. J. Vis. Exp. (194), e65140, doi:10.3791/65140 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter