Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

Objetivación del diagnóstico de la lengua en medicina tradicional, análisis de datos y aplicación de estudios

Published: April 14, 2023 doi: 10.3791/65140
* These authors contributed equally

Summary

El presente estudio empleó U-Net y otros algoritmos de aprendizaje profundo para segmentar una imagen de lengua y comparó los resultados de segmentación para investigar la objetivación del diagnóstico de lengua.

Abstract

El diagnóstico de la lengua es una técnica esencial del diagnóstico de la medicina tradicional china (MTC), y la necesidad de objetivar las imágenes de la lengua a través de la tecnología de procesamiento de imágenes está creciendo. El presente estudio proporciona una visión general del progreso realizado en la objetivación de la lengua durante la última década y compara los modelos de segmentación. Se construyen varios modelos de aprendizaje profundo para verificar y comparar algoritmos utilizando conjuntos de imágenes de lengua reales. Se analizan las fortalezas y debilidades de cada modelo. Los hallazgos indican que el algoritmo U-Net supera a otros modelos con respecto a la precisión de precisión (PA), el recuerdo y la intersección media sobre las métricas de unión (MIoU). Sin embargo, a pesar del progreso significativo en la adquisición y procesamiento de imágenes de la lengua, aún no se ha establecido un estándar uniforme para objetivar el diagnóstico de la lengua. Para facilitar la aplicación generalizada de imágenes de lengua capturadas utilizando dispositivos móviles en la objetivación del diagnóstico de lengua, la investigación adicional podría abordar los desafíos planteados por las imágenes de lengua capturadas en entornos complejos.

Introduction

La observación de la lengua es una técnica ampliamente utilizada en la medicina étnica tradicional china (MTC). El color y la forma de la lengua pueden reflejar la condición física y diversas propiedades de la enfermedad, severidades y pronósticos. Por ejemplo, en la medicina tradicional hmong, el color de la lengua se utiliza para identificar la temperatura corporal, por ejemplo, una lengua roja o púrpura indica factores patológicos relacionados con el calor. En la medicina tibetana, una condición se juzga observando la lengua de un paciente, prestando atención al color, la forma y la humedad del moco. Por ejemplo, las lenguas de los pacientes con enfermedad de Heyi se vuelven rojas y ásperas o negras y secas1; los pacientes con enfermedad de Xieri2 tienen la lengua amarilla y seca; mientras tanto, los pacientes con enfermedad de Badakan3 tienen una lengua blanca, húmeda y suave4. Estas observaciones revelan la estrecha relación entre las características de la lengua y la fisiología y la patología. En general, el estado de la lengua juega un papel vital en el diagnóstico, la identificación de la enfermedad y la evaluación del efecto del tratamiento.

Al mismo tiempo, debido a las diversas condiciones de vida y prácticas dietéticas entre los diferentes grupos étnicos, las variaciones en las imágenes de la lengua son evidentes. El modelo Lab, establecido sobre la base de un estándar internacional para la determinación del color, fue formulado por la Commission International Eclairage (CIE) en 1931. En 1976, un patrón de color fue modificado y nombrado. El modelo de color Lab se compone de tres elementos: L corresponde al brillo, mientras que a y b son dos canales de color. a incluye colores de verde oscuro (valor de brillo bajo) a gris (valor de brillo medio) a rosa brillante (valor de brillo alto); b va de azul brillante (valor de brillo bajo) a gris (valor de brillo medio) a amarillo (valor de brillo alto). Al comparar los valores L x a x b del color de la lengua de cinco grupos étnicos, Yang et al.5 encontraron que las características de las imágenes de la lengua de los grupos Hmong, Hui, Zhuang, Han y Mongol eran significativamente distintas entre sí. Por ejemplo, los mongoles tienen lenguas oscuras con una capa de lengua amarilla, mientras que los hmong tienen lenguas claras con una capa de lengua blanca, lo que sugiere que las características de la lengua pueden usarse como un indicador de diagnóstico para evaluar el estado de salud de una población. Además, las imágenes de la lengua pueden funcionar como un índice de evaluación para la medicina basada en la evidencia en la investigación clínica de la medicina étnica. He et al.6 emplearon imágenes de la lengua como base para el diagnóstico de la MTC y evaluaron sistemáticamente la seguridad y eficacia de los gránulos de Chou-Ling-Dan (gránulos de EPC utilizados para tratar enfermedades inflamatorias y febriles, incluida la gripe estacional en la MTC) combinados con la medicina china y occidental. Los resultados establecieron la validez científica de las imágenes de la lengua como índice de evaluación para estudios clínicos. Sin embargo, los médicos tradicionales generalmente confían en la subjetividad para observar las características de la lengua y evaluar las condiciones fisiológicas y patológicas de los pacientes, lo que requiere indicadores más precisos.

La aparición de Internet y la tecnología de inteligencia artificial ha allanado el camino para digitalizar y objetivar el diagnóstico de la lengua. Este proceso implica el uso de modelos matemáticos para proporcionar una descripción cualitativa y objetiva de las imágenes de la lengua7, reflejando el contenido de la imagen de la lengua. El proceso incluye varios pasos: adquisición de imágenes, compensación óptica, corrección de color y transformación geométrica. Las imágenes preprocesadas se introducen en un modelo algorítmico para el posicionamiento y segmentación de imágenes, extracción de características, reconocimiento de patrones, etc. El resultado de este proceso es un diagnóstico altamente eficiente y preciso de los datos de imágenes de la lengua, logrando así el objetivo de objetivación, cuantificación e informatización del diagnóstico de la lengua8. Por lo tanto, se logra el propósito de una alta eficiencia y un procesamiento de alta precisión de los datos de diagnóstico de la lengua. Basado en el conocimiento del diagnóstico de la lengua y la tecnología de aprendizaje profundo, este estudio separó automáticamente el cuerpo de la lengua y el recubrimiento de la lengua de las imágenes de la lengua utilizando un algoritmo informático, con el fin de extraer las características cuantitativas de las lenguas para los médicos, mejorar la confiabilidad y consistencia del diagnóstico y proporcionar métodos para la posterior investigación de objetivación del diagnóstico de la lengua9.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Este estudio ha sido aprobado por el proyecto de la Fundación Nacional de Ciencias Naturales de China, Constructing Dynamic Change rules of TCM Facial image Based on Association Analysis. El número de aprobación ética es 2021KL-027, y el comité de ética ha aprobado que el estudio clínico se lleve a cabo de acuerdo con los documentos aprobados que incluyen el protocolo de investigación clínica (2021.04.12, V2.0), consentimiento informado (2021.04.12, V2.0), materiales de reclutamiento de sujetos (2021.04.12, V2.0), casos de estudio y / o informes de casos, tarjetas del diario de sujetos y otros cuestionarios (2021.04.12, V2.0), una lista de participantes en el ensayo clínico, aprobación de proyectos de investigación, etc. Se obtuvo el consentimiento informado de los pacientes participantes en el estudio. El principal enfoque experimental de este estudio es utilizar imágenes de lengua real para validar y comparar los efectos de segmentación del modelo. La Figura 1 presenta los componentes de la objetivación del diagnóstico de la lengua.

1. Adquisición de imágenes

  1. Utilice el instrumento de diagnóstico facial lingual de mano de desarrollo propio para recopilar imágenes faciales linguales de los pacientes.
  2. Complete el nombre, el sexo, la edad y la enfermedad del paciente en la página de la computadora. Las imágenes incluidas aquí son de pacientes que vinieron a la clínica y aceptaron ser fotografiados después de ser informados del propósito y el contenido del estudio. Confirme que el paciente está sentado erguido, coloque toda la cara en el instrumento de adquisición de imágenes e indique al paciente que extienda la lengua fuera de la boca en la mayor medida posible.
  3. Sostenga el dispositivo de adquisición de imágenes conectado a una computadora y verifique a través de las imágenes en la pantalla de la computadora que el paciente está en la posición correcta y que la lengua y la cara están completamente expuestas.
  4. Presione el botón Disparar en la pantalla de la computadora tres veces para tomar tres fotos.
    NOTA: El instrumento de adquisición de imágenes se encuentra actualmente solo en la etapa de solicitud de patente y no es para uso comercial, por lo que no está a la venta.
  5. Seleccione y filtre manualmente las imágenes de lengua y cara recogidas. Filtre y excluya imágenes que tengan una exposición incompleta de la lengua y la cara, así como imágenes que sean demasiado oscuras debido a la falta de luz. La figura 2 muestra la página de adquisición de imágenes del software.
  6. En el diseño experimental, recopile tres imágenes de cada paciente a la vez como alternativas y seleccione una imagen relativamente estándar, totalmente expuesta, bien iluminada y clara como muestra para el entrenamiento y la prueba posteriores del algoritmo.
  7. Recopile datos después del disparo, exporte los datos para la detección manual y elimine las imágenes no estándar visibles a simple vista. Utilice los siguientes criterios de filtrado y exclusión: exposición incompleta de la lengua y la cara, e imágenes demasiado oscuras como resultado de la falta de luz. En la figura 3 se muestra un ejemplo de una imagen subiluminada, una imagen incompleta y una imagen estándar.
    NOTA: La luz insuficiente generalmente es causada por el hecho de que el paciente no coloca la cara completamente en el instrumento. La exposición completa generalmente solo se obtiene fotografiando correctamente al paciente.

2. Segmentación de la lengua

  1. Realice la segmentación de imágenes de lengua utilizando una herramienta de anotación en línea, como se describe a continuación.
    1. Instale Labelme, haga clic en el botón Abrir en la esquina superior izquierda de la interfaz de etiqueta, seleccione la carpeta donde se encuentra la imagen y abra las fotos.
    2. Haga clic en crear polígono para iniciar los puntos de seguimiento, rastrear la lengua y las formas linguales, nombrarlos de acuerdo con las áreas seleccionadas (por ejemplo, lengua y superficie lingual) y guardarlos.
    3. Cuando se hayan completado todas las marcas, haga clic en Guardar para guardar la imagen en la carpeta de datos. Consulte la Figura 4 para obtener un diagrama de flujo detallado.
      NOTA: Como las imágenes pueden tener diferencias de píxeles, las imágenes no se pueden utilizar directamente para el entrenamiento y la prueba de algoritmos.
  2. Unifique las imágenes al mismo tamaño rellenando las imágenes con bordes, con el lado largo de la imagen como longitud de relleno de destino y realizando un relleno de bordes blancos para rellenar las imágenes en un cuadrado, con el lado largo de la imagen como longitud de borde. El tamaño de la imagen capturada por el dispositivo es de 1080 x 1920 píxeles y el tamaño de la imagen rellena es de 1920 x 1920 píxeles. Consulte la figura 5.
  3. Aplique mejoras de imagen si es necesario. No se aplicó ninguna mejora en este estudio, ya que las imágenes utilizadas se tomaron en una escena fija y se vieron menos afectadas por el entorno, la iluminación y otros factores.
  4. Debido a que se recopilaron tres imágenes para cada paciente durante el proceso de disparo para tener en cuenta factores incontrolables, como el parpadeo del sujeto y el bloqueo de la lente, filtre manualmente las imágenes de cada paciente para retener una imagen por paciente.
  5. Con el fin de entrenar el modelo, recopile datos de 200 personas o 600 imágenes. Después de la proyección, conserve alrededor de 200 imágenes utilizables.
  6. De acuerdo con el número de imagen, divida aleatoriamente todas las imágenes de la lengua, colocando el 70% de ellas en el conjunto de entrenamiento y el 30% en el conjunto de prueba en una hoja de cálculo.

3. Clasificación de la lengua

  1. Vaya a los sitios web oficiales y descargue e instale Anaconda, Python y Labelme. Active el entorno y complete la instalación y el ajuste del entorno general. Consulte la figura 6 para ver un diagrama de flujo que describe la instalación y configuración del software.
  2. Cree el modelo de algoritmo de aprendizaje profundo en el entorno instalado, ajuste los parámetros y complete el entrenamiento del modelo con el conjunto de entrenamiento. Realice la selección y el ajuste del modelo como se describe en los pasos siguientes.
    1. Selección del modelo: Elija el modelo apropiado según el propósito de la investigación. Después de revisar la investigación sobre el procesamiento de imágenes de lengua en los últimos 5 años, cuatro algoritmos, U-Net, Seg-Net, DeeplabV3 y PSPNet, fueron seleccionados para su validación en este estudio (ver Archivo de codificación suplementaria 1, Archivo de codificación suplementaria 2, Archivo de codificación suplementaria 3 y Archivo de codificación suplementaria 4 para códigos de modelo).
    2. Construcción del conjunto de datos: Después de completar la selección del modelo, construya el conjunto de datos requerido junto con el contenido de la investigación, principalmente utilizando la anotación Labelme y los métodos de tamaño de imagen uniforme, como se describió anteriormente.
  3. Realice el entrenamiento del modelo como se describe a continuación. La figura 7 muestra detalles de la operación de entrenamiento del algoritmo.
    1. Ingrese los datos en la red neuronal para la propagación hacia adelante, con cada neurona primero ingresando una acumulación ponderada de valores y luego ingresando una función de activación como el valor de salida de esa neurona para obtener el resultado.
    2. Ingrese el resultado en la función de error y compárelo con el valor esperado para obtener el error y juzgar el grado de reconocimiento por error. Cuanto menor sea la función de pérdida, mejor será el modelo.
    3. Reduzca el error mediante la propagación hacia atrás y determine el vector de degradado. Ajuste los pesos por el vector de degradado a la tendencia hacia los resultados para que el error tienda a cero o se contraiga.
    4. Repita este proceso de entrenamiento hasta que se complete el conjunto o el valor de error ya no disminuya, momento en el que se completa el entrenamiento del modelo. Consulte la figura 8 para obtener un diagrama de flujo del modelo de algoritmo en entrenamiento y pruebas.
  4. Pruebe los cuatro modelos utilizando los mismos datos de prueba para la segmentación y juzgue el rendimiento del modelo de acuerdo con el efecto de segmentación. Las cuatro métricas de precisión, recuperación, precisión media de píxeles (MPA) y MIoU proporcionan una evaluación más completa del rendimiento del modelo.
  5. Después de generar los resultados de los cuatro modelos, compare sus valores horizontalmente; Cuanto mayor sea el valor, mayor será la precisión de segmentación y mejor será el rendimiento del modelo. Consulte la figura 9, la figura 10 y la figura 11.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Para obtener los resultados de la comparación, consulte la Figura 12, la Figura 13 y la Tabla 1, donde el entorno construido por este estudio utiliza las mismas muestras para entrenar y probar el modelo de algoritmo. Indicador MIoU: U-Net > Seg-Net > PSPNet > DeeplabV3; Indicador MPA: U-Net > Seg-Net > PSPNet > DeeplabV3; indicador de precisión: U-Net > Seg-Net > DeeplabV3 > PSPNet; Recordemos: U-Net > Seg-Net > PSPNet > DeeplabV3. Cuanto mayor sea el valor del índice, mayor será la precisión de segmentación y mejor será el rendimiento del modelo. De acuerdo con los resultados del índice, se puede analizar que el algoritmo U-Net es superior a los otros algoritmos en MIoU, MPA, precisión y recuperación, y su precisión de segmentación también es mayor que los otros algoritmos. Por lo tanto, el algoritmo U-Net tiene el mejor rendimiento entre los cuatro algoritmos diferentes. PSPNet es mejor que DeeplabV3 en MIoU, MPA y recuperación, mientras que el modelo DeeplabV3 es más bajo que el modelo Seg-Net en todos los índices. Por lo tanto, se puede concluir que el algoritmo DeeplabV3 tiene el rendimiento integral menos deseable entre los cuatro algoritmos en este entorno de investigación.

Indicadores de evaluación
En este estudio, el rendimiento del modelo de algoritmo fue validado principalmente por precisión, recuerdo, MPA y MIoU. Las métricas de rendimiento del modelo están directamente relacionadas con la matriz de confusión, que consiste en los resultados de la clasificación del modelo y refleja el número de muestras que el modelo clasificó correcta e incorrectamente. La matriz representa el valor estimado, equivalente a los resultados del conjunto de pruebas, y la real representa la verdad del terreno. Ambas categorías se dividen en verdadero y falso, representado por T y F respectivamente, lo que resulta en cuatro combinaciones: TP, FP, FN y TN.MPA es el valor medio de la proporción de píxeles clasificados correctamente en cada categoría, y MIoU es la relación media de intersección a fusión. Esta es la métrica más común para la segmentación semántica; Calcula la relación de la intersección y combina los valores verdadero y predicho10. La fórmula para estos son:

Precisión = , recuerdo = , MPA = (CPA = , donde N es el número total de categorías), y MIoU = Equation 1Equation 2Equation 1Equation 3 Equation 4 (IoU= ). Equation 5

Estas cuatro métricas proporcionan una evaluación más completa del efecto de segmentación de las imágenes de lengua.

Este estudio seleccionó cuatro modelos de algoritmos de aprendizaje profundo, U-Net, Seg-Net, DeeplabV3 y PSPNet, para entrenar y probar los modelos de algoritmos utilizando datos de imágenes lingüísticas reales. U-Net11 tiene una arquitectura en forma de U, que consiste en un codificador a la izquierda y un decodificador a la derecha, y tiene la ventaja de entrenar resultados de clasificación más precisos con menos datos y extraer características de imagen de manera integral. Basado en la red Res-Net para resolver el problema de segmentación de objetivos multiescala, DeepLabV3 adopta la estructura de convolución hueca, diseña el módulo para capturar el contexto multiescala, elimina el campo aleatorio condicional (CRF) y actualiza el módulo de agrupación piramidal espacial atrous (ASPP), mejorando significativamente el rendimiento del modelo. La segmentación semántica tiene como objetivo obtener la etiqueta de categoría para cada píxel del objeto segmentado. Seg-Net es una arquitectura de red neuronal convolucional (CNN) con una estructura simétrica para la segmentación semántica, que incluye un codificador y un decodificador. La ventaja de esto es que el método de muestreo ascendente del decodificador para diagramas de características de menor resolución elimina el tiempo de aprendizaje de muestreo ascendente. El modelo PSPNet se aplica principalmente al análisis de escenas, agregando información de contexto a la segmentación semántica, lo que puede evitar errores parciales, resolver el problema de la falta de estrategias apropiadas para usar la información de clasificación global de escenas y mejorar la confiabilidad de los resultados finales previstos.

Figure 1
Figura 1: Componentes de la objetivación del diagnóstico de la lengua. Componentes de diagnóstico de lengua, incluidos los elementos de disparo de imágenes, la segmentación de la lengua y la clasificación de la lengua. Haga clic aquí para ver una versión más grande de esta figura.

Figure 2
Figura 2: Página de adquisición de imágenes. Interfaz de adquisición de imágenes de lengua y contenido del cuestionario. Haga clic aquí para ver una versión más grande de esta figura.

Figure 3
Figura 3: Criterios de filtrado y rechazo de imágenes. Una marca de verificación verde representa los criterios de inclusión y una cruz roja representa los criterios de exclusión. Haga clic aquí para ver una versión más grande de esta figura.

Figure 4
Figura 4: Diagrama esquemático del proceso de marcado de Labelme. El software Labelme se utiliza para anotar todo el proceso de la imagen, desde abrir la carpeta hasta guardar el archivo. Haga clic aquí para ver una versión más grande de esta figura.

Figure 5
Figura 5: Diagrama de preprocesamiento de imágenes. El tamaño de la imagen tomada es de 1080 x 1920 píxeles y el tamaño de la imagen de relleno es de 1920 x 1920 píxeles. Haga clic aquí para ver una versión más grande de esta figura.

Figure 6
Figura 6: Diagrama de flujo de la configuración del entorno. El algoritmo solo se puede ejecutar después de configurar el entorno. Haga clic aquí para ver una versión más grande de esta figura.

Figure 7
Figura 7: Diagrama detallado de ejecución de entrenamiento de algoritmos. Pasos detallados y métodos de ejecución en la operación del algoritmo. Haga clic aquí para ver una versión más grande de esta figura.

Figure 8
Figura 8: Diagrama de flujo del modelo de algoritmo en entrenamiento y pruebas. Los pasos importantes del algoritmo, incluido el procesamiento de datos, el entrenamiento de algoritmos y las pruebas de algoritmos. Haga clic aquí para ver una versión más grande de esta figura.

Figure 9
Figura 9: Estructura del algoritmo Seg-Net. Estructura lógica del algoritmo Seg-Net y proceso de ejecución de código. Haga clic aquí para ver una versión más grande de esta figura.

Figure 10
Figura 10: Estructura del algoritmo U-Net. Estructura lógica del algoritmo U-Net y proceso de ejecución de código. Haga clic aquí para ver una versión más grande de esta figura.

Figure 11
Figura 11: Estudios de segmentación de imágenes de flujo de lengua. El área roja en la imagen es el resultado de la segmentación de la lengua, y el área verde es el resultado de la segmentación del recubrimiento de la lengua. Haga clic aquí para ver una versión más grande de esta figura.

Figure 12
Figura 12: Gráfico comparativo de cuatro métricas de algoritmos. MIoU, MPA, precisión y recuperación son todos índices de evaluación del rendimiento del algoritmo. Cuanto mayor sea el valor, mejor será el rendimiento del algoritmo y mayor será la precisión de la segmentación. Haga clic aquí para ver una versión más grande de esta figura.

Figure 13
Figura 13: Comparación de los resultados de los cuatro algoritmos para la segmentación de la lengua. El área roja en la imagen es el resultado de la segmentación de la lengua, y el área verde es el resultado de la segmentación del recubrimiento de la lengua. Haga clic aquí para ver una versión más grande de esta figura.

Figure 14
Figura 14: Diagrama de estructura del algoritmo U-Net. Los cuadros azul/blanco indican el mapa de entidades, mientras que el número encima del mapa de entidades representa el número de canales. Haga clic aquí para ver una versión más grande de esta figura.

MIoU .MPA Precisión Recordar
U-Net 84.00% 89.38% 91.90% 89.38%
DeeplabV3 59.68% 61.33% 84.21% 61.33%
PSPNet 67.80% 72.56% 82.71% 72.56%
SegNet 80.09% 87.14% 88.53% 87.14%

Tabla 1: Comparación de cuatro métricas de resultados de segmentación de algoritmos. Las métricas fueron MIoU, MPA, precisión y recuerdo.

Archivo de codificación suplementario 1: U-Net_training. Código de entrenamiento modelo U-Net. Haga clic aquí para descargar este archivo.

Archivo de codificación suplementario 2: Seg-Net_training. Código de entrenamiento modelo Seg-Net. Haga clic aquí para descargar este archivo.

Archivo de codificación suplementario 3: DeeplabV3_training. Código de entrenamiento del modelo DeeplabV3. Haga clic aquí para descargar este archivo.

Archivo de codificación suplementario 4: PSPNet_training. Código de entrenamiento del modelo PSPNet. Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Sobre la base de los resultados de comparación presentados anteriormente, es evidente que las características de los cuatro algoritmos considerados son variadas, y sus distintas ventajas y desventajas se describen a continuación. La estructura U-Net, basada en la modificación y expansión de una red de convolución completa, puede obtener información contextual y posicionamiento preciso a través de una ruta de contratación y una ruta de expansión simétrica. Al clasificar cada punto de píxel, este algoritmo logra una mayor precisión de segmentación y segmenta la imagen con el modelo entrenado más rápidamente. Por otro lado, el algoritmo Seg-Net, que comprende una estructura simétrica de un codificador y un decodificador, tiene la ventaja de adaptarse rápidamente a nuevos problemas y desempeñarse bien en tareas como el habla, la semántica, la visión y los juegos. Sin embargo, el algoritmo requiere una gran cantidad de datos, lo que lo hace exigente en términos de configuración de hardware y, por lo tanto, solo es aplicable para algunas tareas. Como marco más general, el algoritmo DeeplabV3 tiene la ventaja de mejorar los módulos ASSP para la mayoría de las redes y colocarlos en cascada o en paralelo para mejorar el rendimiento general. Sin embargo, el mapa de características final debe obtenerse con un muestreo ascendente a las tasas 8 y 16, que es relativamente aproximado y podría mejorarse más adelante. Además, el modelo PSPNet tiene la característica más significativa de agregar información contextual de diferentes regiones a través del módulo PSP, mejorando así el acceso a la información global y ofreciendo buenos resultados en múltiples conjuntos de datos. Los resultados indican que el modelo U-Net tiene la mayor precisión de segmentación y el mejor efecto de segmentación en este entorno de investigación.

La arquitectura U-Net demuestra su superioridad en la segmentación de imágenes médicas12. Inicialmente diseñado para la segmentación de imágenes celulares 2D, el algoritmo U-Net se ha desarrollado aún más reemplazando su módulo 2D con un módulo 3D. Esta modificación ha fortalecido su capacidad para procesar imágenes 3D como imágenes de resonancia magnética (MRI), tomografía computarizada (CT) e imágenes de ultrasonido tridimensional (3D). Al segmentar las imágenes médicas en órganos, tejidos y lesiones, se pueden obtener datos clínicos valiosos. El algoritmo U-Net mejorado representa una herramienta eficaz para el examen y los tratamientos posteriores. En el diagnóstico médico, la clasificación de imágenes es una parte crucial de muchos procesos de diagnóstico. La medicina tradicional se basa en observar todos los signos visibles, incluyendo la lengua, la piel y la expresión. La aparición y el avance de la tecnología de segmentación de imágenes médicas tienen una importancia significativa en el diagnóstico médico. En TCM, el análisis de imágenes de cara y lengua requiere el uso de varios algoritmos de aprendizaje profundo para la clasificación de extracción de características. Por otro lado, los algoritmos de segmentación de imágenes son ampliamente utilizados en la medicina occidental, proporcionando una base para el diagnóstico clínico y la patología13.

El proceso de investigación de este estudio comprende pasos críticos, incluido el preprocesamiento de datos, el entrenamiento y las pruebas de algoritmos y la comparación del rendimiento del algoritmo. Inicialmente, los datos sin procesar se someten a procesamiento, etiquetado y división en conjuntos de entrenamiento y prueba para facilitar la posterior construcción del algoritmo. Los datos procesados se introducen en la red neuronal y la función de pérdida se establece para determinar el vector de gradiente a través de la propagación hacia atrás. Posteriormente, los parámetros se ajustan hasta la finalización del proceso de formación. El rendimiento del algoritmo se evalúa probando el efecto de segmentación de la imagen utilizando múltiples índices, como MIoU, MPA, precisión y recuperación para evaluar su rendimiento de forma exhaustiva. Durante el proceso real de entrenamiento del algoritmo, puede ocurrir un sobreajuste, donde el modelo aprende los datos demasiado a fondo, incluidas las características de los datos de ruido. Esto da como resultado la identificación de datos durante pruebas posteriores, una clasificación incorrecta de los datos y una capacidad de generalización deficiente. Si se produce un sobreajuste, se pueden aumentar los datos de entrenamiento o volver a limpiarlos. En este estudio, se adopta el método iterativo de descenso de gradiente. El sobreajuste también se puede evitar cortando la iteración por adelantado.

La limitación de este estudio es evidente; Las imágenes fueron recolectadas utilizando instrumentos fijos, y los instrumentos experimentales actualmente no pueden ser utilizados con fines comerciales. En consecuencia, las imágenes de la lengua en este estudio son de una sola escena y no reflejan completamente los antecedentes clínicos y las condiciones de luz complejas y variables. Por lo tanto, se necesita más investigación para estudiar las técnicas de procesamiento de imágenes en entornos complejos y condiciones de iluminación deficientes. Los estudios de objetivación del diagnóstico de la lengua contienen un rico contenido, por lo que la segmentación precisa del cuerpo de la lengua es esencial. En consecuencia, comparar y verificar algoritmos con el efecto de segmentación más adecuado es significativo para estudios posteriores. La combinación de la segmentación de la lengua con la clasificación teóricamente puede lograr un juicio automático de la imagen de la lengua y ayudar en el diagnóstico; Los estudiosos han explorado y estudiado este tema. En el cuidado de la salud, el uso de Internet de las cosas y las tecnologías de comunicación inalámbrica para procesar imágenes biomédicas, así como la asistencia para el diagnóstico, puede mejorar la eficiencia de un sistema. Mansour et al.14 diseñaron una imagen automatizada del color de la lengua (ASDL-TCI) basada en el aprendizaje profundo colaborativo y el Internet de las cosas. Incluye adquisición de datos, preprocesamiento, extracción de características, clasificación y optimización de parámetros. La precisión, la tasa de recuperación y la exactitud de este modelo son 0.984, 0.973 y 0.983, respectivamente, que son superiores a otros métodos.

Adquisición y preprocesamiento de imágenes
Durante el proceso de adquisición de imágenes, la intensidad y variedad de las fuentes de luz pueden afectar directamente a la calidad de la imagen, lo que a su vez influye en la segmentación de la imagen y los resultados de clasificación. Por lo tanto, es esencial configurar la fuente de luz para imitar el efecto de las fuentes de luz natural lo más cerca posible. Además, métodos como la utilización de fuentes de luz estándar o el empleo de múltiples fuentes de luz y el disparo en una escena fija pueden evitar el impacto negativo de la luz, el fondo y otros factores, mejorando así la precisión de la segmentación algorítmica. Los parámetros de iluminación del instrumento utilizados para recopilar imágenes de lengüeta no son idénticos a la iluminación estándar, lo que afecta al efecto de reproducción cromática de las imágenes de lengua. Por lo tanto, el método de preprocesamiento más común utilizado es la corrección de color. Cai et al.15 encontraron que para abordar la discrepancia entre los datos de color de una imagen de lengua y el croma de color de la lengua correspondiente, es necesario normalizar la conversión del espacio de color y la corrección de color de la imagen de lengua. El rendimiento del color del dispositivo de visualización también se desvía del cuerpo de la lengua real, lo que requiere pruebas y ajustes. Además, el tamaño de la imagen varía debido a los diferentes instrumentos de adquisición utilizados durante el proceso de recolección de imágenes16. Para mejorar la eficiencia del entrenamiento y ahorrar espacio de almacenamiento, la red de aprendizaje profundo tiene limitaciones en el tamaño de la imagen de entrada. Por lo tanto, el tamaño de la imagen debe estandarizarse durante la etapa de preprocesamiento de la imagen. Normalmente, esto se logra remodelando uniformemente el tamaño de la imagen de entrada para el entrenamiento del modelo, con métodos de remodelación comúnmente utilizados como interpolación, recorte, inclusión, mosaico y duplicación.

Segmentación de imágenes de lengua
La segmentación de imágenes de lengua se puede clasificar en dos tipos: métodos de segmentación tradicionales y de aprendizaje profundo17. Los métodos tradicionales de segmentación de imágenes de lengua consisten en algoritmos como el algoritmo Snake y el algoritmo Otsu. Como modelo de contorno activo, el algoritmo de Snake18 primero establece una curva de perfil y luego ajusta el perfil inicial para evolucionar hacia una curva de perfil verdadero. La adquisición de contornos iniciales y la evolución de los contornos son el foco principal de investigación para el algoritmo Snake. Por otro lado, el algoritmo Otsu es un algoritmo clásico de segmentación de umbral que emplea uno o más umbrales para calcular el valor de gris en la imagen original y comparar el valor de escala de grises de cada píxel con el valor de umbral. Según los resultados de la comparación, la lengua y el fondo se representan antes del advenimiento de los métodos de aprendizaje profundo. Estos dos algoritmos se utilizan comúnmente en el procesamiento de imágenes de la lengua y la objetivación del diagnóstico de la lengua.

Desde el advenimiento de la teoría del aprendizaje profundo, numerosos académicos han investigado la integración de la objetivación del diagnóstico de la lengua y el aprendizaje profundo. Zheng et al.19 idearon un método de detección de lengua basado en la segmentación de imágenes mediante la fusión de varios algoritmos y la exploración del método de detección de lengua en un entorno abierto, logrando finalmente resultados favorables de segmentación de lengua. Yuan et al.20 propusieron un método de segmentación de lengua basado en la función de pérdida de píxel único de la asociación de regiones, en el que la función de pérdida mejorada explicaba la correlación entre píxeles de región. Empleando el aprendizaje supervisado de semántica de etiquetas de píxeles, se mejoró la eficiencia del entrenamiento del modelo, ejemplificado por el índice MIoU que alcanzó el 96,32%. La imagen de la lengua exhibió características morfológicas específicas, como marcas de dientes, grietas y pinchazos, estrechamente relacionadas con el inicio de la enfermedad. Por lo tanto, la observación de la lengua puede ayudar a diagnosticar el progreso de la enfermedad. Wang et al21 propusieron un enfoque de segmentación de fractura de lengua de aprendizaje profundo para pequeños conjuntos de datos de muestras que produjeron una mayor precisión y estabilidad. Este método implicaba dividir primero el cuerpo de la lengua, seguido de grietas en la lengua, y mejoró el algoritmo U-Net incorporando la pérdida de enfoque como pérdida de función.

Clasificación de imágenes de lengua
La clasificación de imágenes de la lengua implica principalmente identificar características como el color de la lengua, las espinas, las grietas y el color del recubrimiento. Wang et al.22 emplearon el algoritmo Snake para segmentar el cuerpo de la lengua y utilizaron técnicas como el registro de imágenes de información mutua, la detección de bordes de registro, la línea paralela y otros métodos para identificar pinchazos. Este enfoque resolvió eficazmente el problema de la identificación y el recuento automáticos de punción, al tiempo que facilitó la detección temprana y la prevención. Para abordar las limitaciones asociadas con el entrenamiento del algoritmo de imagen de lengua, como un gran volumen de datos, un largo tiempo de entrenamiento y altos requisitos de equipo, Yang et al.23propusieron una red neuronal totalmente conectada basada en el aprendizaje por transferencia. Este método utiliza el Inception_v3 bien entrenado para extraer características y combinarlas con la red neuronal totalmente conectada (FCN), logrando una tasa de precisión de más del 90%. Este enfoque resolvió el problema del aprendizaje profundo en muestras pequeñas y clasificaciones múltiples. Song et al.24 emplearon un clasificador en cascada para localizar imágenes en GoogLe-Net y Res-Net para el aprendizaje de transferencia, el entrenamiento y la aplicación del aprendizaje profundo para clasificar automáticamente tres características de la imagen de la lengua: marcas de dientes, grietas y grosor del recubrimiento de la lengua. La precisión promedio de los resultados de la clasificación superó el 94%. Sin embargo, el algoritmo de clasificación de imágenes de la lengua es altamente susceptible a la interferencia de otras partes no relacionadas de la cara, lo que afecta directamente la precisión de la clasificación25.

Zhai et al.26 desarrollaron un algoritmo multietapa para clasificar las imágenes de la lengua utilizando mecanismos de atención. Este método mejora la precisión de la identificación de las regiones de la lengua mediante la extracción de características de varios campos de visión perceptivos, que se fusionan durante la fase de localización de la lengua. Además, el módulo de mecanismo de atención mejora la precisión de la clasificación de la imagen de la lengua, lo que suprime la interferencia de las impurezas de la lengua. Frente al problema de clasificar las características de la lengua de diferentes enfermedades27, los algoritmos de aprendizaje profundo también pueden proporcionar enfoques novedosos. Además, Shi et al.28 han investigado un método típico de clasificación para el cáncer de pulmón de células no pequeñas basado en el algoritmo del árbol de decisión C5.0. Identificaron siete reglas de clasificación de atributos relevantes para el certificado de deficiencia de Qi y la clasificación del certificado de deficiencia de Yin. Se encontró que la precisión del modelo era del 80,37%. Además, Li et al.29 han desarrollado un modelo diagnóstico para la diabetes utilizando el algoritmo del bosque estocástico. Además, analizaron las características de textura y color de las imágenes de la lengua para mejorar el rendimiento del modelo.

Conclusión
En contraste con los enfoques diagnósticos contemporáneos de la medicina occidental, los métodos de diagnóstico de la MTC son mínimamente invasivos e implican un daño mínimo. Además, los cuatro métodos diagnósticos de observación, escucha u olfato, indagación y palpación tienen sus fundamentos en diversos aspectos de la MTC. Sin embargo, debido a la gran dependencia del diagnóstico y tratamiento de la MTC en la experiencia del profesional y los conceptos de tratamiento personal, puede haber una escasez de objetividad y estandarización. Como resultado, la tendencia hacia la objetivación del diagnóstico de la MTC ha surgido como una dirección para futuras investigaciones, lo que podría promover el avance de la MTC.

La objetivación del diagnóstico de la lengua posee el potencial de procesar imágenes y grandes cantidades de datos con alta eficiencia, lo que podría ayudar significativamente a los médicos. Sin embargo, es esencial tener en cuenta que el diagnóstico de la lengua no es solo un método tradicional, sino que también ha sido validado. Chen et al.30 realizaron un estudio en el que recopilaron datos clínicos sobre las imágenes de la lengua de 382 pacientes con COVID-19. Analizaron estadísticamente las características de la imagen de la lengua y los parámetros de patrón de color del laboratorio para todos los grupos de imágenes. Los hallazgos del estudio revelaron una correlación entre las características de las imágenes de la lengua y el tipo de medicina occidental utilizada. Además, los cambios en las imágenes de la lengua se alinean con la patogénesis general de la enfermedad. Algunos parámetros de las imágenes de la lengua podrían ayudar a predecir los cambios patogénicos de COVID-19 en TCM31.

Al objetivar el diagnóstico médico tradicional de la lengua, numerosos investigadores han utilizado el método de segmentación y clasificación. El aprendizaje profundo y las redes neuronales de convolución son esenciales para clasificar las características de la imagen de la lengua. La precisión del algoritmo de segmentación de imágenes de la lengua es crucial, ya que determina si la lengua se puede separar con precisión de la cara, lo que afecta la precisión de la clasificación posterior de las características. En consecuencia, mejorar la precisión del modelo de algoritmo actual es un enfoque de investigación crucial en este campo. Por el momento, mejorar el modelo de algoritmo y su precisión es un punto caliente de investigación.

Este estudio empleó los mismos datos del conjunto de pruebas para comparar el rendimiento de los algoritmos U-Net, Seg-Net, DeeplabV3 y PSPNet4. Esta medida se adoptó para garantizar la coherencia en la calidad de los datos utilizados. Bajo el entorno experimental empleado en este estudio, el algoritmo U-Net superó significativamente a los otros tres algoritmos con respecto a la precisión de la segmentación. MIoU es la medida de anotación del algoritmo de segmentación semántica32, el índice más importante utilizado para evaluar el rendimiento del algoritmo. El valor MIoU del algoritmo U-Net fue un 3,91% más alto que el del algoritmo Seg-Net, un 23,32% más alto que el de DeeplabV3 y un 16,2% más alto que el de PSPNet. Esto proporciona evidencia de que el algoritmo U-Net funciona mejor que los otros algoritmos.

Sin embargo, existen algunos problemas en la segmentación y clasificación de imágenes de lengua utilizando algoritmos de aprendizaje profundo. Por ejemplo, debido a la privacidad del paciente, los conjuntos de datos de imágenes médicas son demasiado pequeños en tamaño en comparación con otros conjuntos de datos segmentados semánticos, lo que restringe las ventajas del aprendizaje profundo en big data. La segmentación del modelo de parámetros grandes es propensa al problema de ajuste. Por lo tanto, la estructura de la red debe ajustarse seleccionando los modos de mejora apropiados. En la actualidad, la investigación de objetivación del diagnóstico de la lengua aún no ha formado un estándar de recolección uniforme; El entorno de adquisición y el tipo de fuente de luz carecen de la estandarización adecuada. Los investigadores generalmente configuran el entorno de colección y construyen su propia base de datos no pública. Al mismo tiempo, aunque los modelos algorítmicos actuales pueden lograr una buena precisión, los datos utilizados se seleccionan cuidadosamente y se procesan previamente, lo que es difícil de lograr en el entorno real de diagnóstico y tratamiento, lo que limita su aplicación clínica. Además, la objetivación adicional del diagnóstico de la lengua se ocupará de entornos complejos o imágenes de la lengua capturadas por diferentes dispositivos33. Otra tendencia es el procesamiento dinámico de la información, específicamente el procesamiento de imágenes de video, que proporciona información más detallada sobre la lengua y refleja de manera más completa las ventajas del diagnóstico de la lengua. Por lo tanto, es necesario desarrollar algoritmos de aprendizaje profundo para procesar detalles dinámicos. En general, la objetivación del diagnóstico médico de la lengua combinada con algoritmos de aprendizaje profundo es prometedora para reducir la subjetividad en el diagnóstico de la MTC.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen ningún conflicto de intereses que declarar.

Acknowledgments

Este trabajo fue apoyado por la Fundación Nacional de la Naturaleza de China (subvención no.82004504), el Programa Nacional de Investigación y Desarrollo Clave del Ministerio de Ciencia y Tecnología de China (subvención no.2018YFC1707606), la Administración de Medicina China de la Provincia de Sichuan (subvención no.2021MS199) y la Fundación Nacional de la Naturaleza de China (subvención no.82174236).

Materials

Name Company Catalog Number Comments
CPU Intel(R) Core(TM) i7-9700K
GPU  NVIDIA GeForce RTX 3070 Ti (8192MB)
Operating systems Microsoft Windows 10 Professional Edition (64-bit)
Programming language Python
RAM 16G

DOWNLOAD MATERIALS LIST

References

  1. Jiu, G., et al. Effects of herbal therapy on intestinal microbiota and serum metabolomics in different rat models of Mongolian medicine. Evidence-Based Complementary and Alternative. 2022, 7255780 (2022).
  2. Xi, J., Xin, Y., Teregle, Study on the correlation between the animal model of Mongolian medicine 34;Xieri disease" and serum ALT and AST. Electronic Journal of Cardiovascular Diseases in Combination of Traditional Chinese. 4 (33), 134-135 (2016).
  3. Yin, L., et al. Study on the mechanism of serum differential protein changes in bronchial asthma based on proteomics. Chinese Journal of Traditional Chinese Medicine. 47 (22), 6227-6234 (2022).
  4. Wang, X. H., Bao, L. Band Seed. The origin and development of tongue diagnosis in Mongolian medicine. Chinese Ethnic Folk Medicine. (1), 64-65 (2008).
  5. Yang, S., et al. A comparative study on the feature parameters of tongue diagnosis images in five nationalities. Chinese Journal of Traditional Chinese Medicine. 36 (11), 6428-6430 (2021).
  6. He, J. Y., et al. Efficacy and safety of Chou-Ling-Dan granules in the treatment of seasonal influenza via combining Western and traditional Chinese medicine, protocol for a multicentre, randomised controlled clinical trial. BMJ Open. 9 (4), e024800 (2019).
  7. Wang, D. J., et al. Scientific knowledge mapping and visualization analysis in the field of Chinese medicine tongue feature objectification research. World Science and Technology - Modernization of Chinese Medicine. 23 (9), 3032-3040 (2021).
  8. Yuan, S. M., Qian, P., Li, F. F. Research progress of color correction methods for tongue and face diagnosis in traditional Chinese Medicine. Chinese Journal of Traditional Chinese Medicine. 34 (9), 4183-4185 (2019).
  9. Kanawong, R., et al. Tongue image analysis and its mobile app development for health diagnosis. Advances in Experimental Medicine and Biology. 1005, 99-121 (2017).
  10. Yu, Y., et al. Semantic segmentation evaluation index and evaluation method. Computer Engineering and Application. , (2023).
  11. Sehyung, L., Negishi, M., Urakubo, H., Kasai, H., Ishii, S. Mu-net: Multi-scale U-net for two-photon microscopy image denoising and restoration. Neural Networks. 125, 92-103 (2020).
  12. Huang, X. M., et al. A review on the application of U-Net and its variants in medical image segmentation. Chinese Journal of Biomedical Engineering. 41 (5), 567-576 (2022).
  13. Lu, J. H., Xu, Y. F., Wang, Y. Q., Hao, Y. M. Research overview of tongue objectification in traditional Chinese medicine based on computer image technology. World Science and Technology - Modernization of Traditional Chinese Medicine. 24 (11), 4568-4573 (2022).
  14. Mansour, R. F., Althobaiti, M. M., Ashour, A. A. Internet of things and synergic deep learning based biomedical tongue color image analysis for disease diagnosis and classification. IEEE Access. 9, 94769-94779 (2021).
  15. Cai, Y. H., Hu, S. B., Guan, J., Zhang, X. F. Analysis of the development and application of tongue diagnosis objectification techniques in Chinese medicine. World Science and Technology - Modernization of Chinese Medicine. 23 (7), 2447-2453 (2021).
  16. Ghosh, S., Das, N., Nasipuri, M. Reshaping inputs for convolutional neural network: some common and uncommon methods. Pattern Recognition. 93, 79-94 (2019).
  17. Shang, Z. M., et al. Research progress of digital acquisition and characterization of tongue diagnosis information. Chinese Journal of Traditional Chinese Medicine. 36 (10), 6010-6013 (2021).
  18. Ning, J., Zhang, D., Wu, C., Yue, F. Automatic tongue image segmentation based on gradient vector flow and region merging. Neural Computing and Applications. 21, 1819-1826 (2012).
  19. Zheng, F., Huang, X. Y., Wang, B. L., Wang, Y. H. A method for tongue detection based on image segmentation. Journal of Xiamen University. 55 (6), 895-900 (2016).
  20. Li, Y. T., Luo, Y. S., Zhu, Z. M. Deep learning-based tongue feature analysis. Computer Science. 47 (11), 148-158 (2020).
  21. Wang, Y. D., Sun, C. H., Cui, J. L., Wu, X. R., Qin, Y. X. Research on deep learning-based tongue fissure segmentation algorithm. World Science and Technology - Modernization of Chinese Medicine. 23 (9), 3065-3073 (2021).
  22. Wang, X. M., Wang, R. Y., Guo, D., Lu, S. Z., Zhou, P. Research on the identification method of tongue punctures based on auxiliary light source. Journal of Sensing Technology. 29 (10), 1553-1559 (2016).
  23. Yang, J. D., Zhang, P. A fully connected neural network based on migration learning for tongue image classification. Journal of the Second Military Medical University. 39 (8), 897-902 (2018).
  24. Song, C., Wang, B., Xu, J. T. Research on tongue feature classification method based on deep migration learning. Computer Engineering and Science. 43 (8), 1488-1496 (2021).
  25. Ding, H. J., He, J. C. Study on modern techniques and methods of tongue diagnosis. Shi Zhen Chinese Medicine. 21 (5), 1230-1232 (2010).
  26. Zhai, P. B., et al. A multi-stage tongue image classification algorithm incorporating attention mechanism. Computer Engineering and Design. 42 (6), 1606-1613 (2021).
  27. Hou, Y. S. A new clustering analysis algorithm based on deep learning. Journal of Xinxiang University. 35 (12), 4 (2018).
  28. Shi, Y. L., et al. A decision tree algorithm for classification of non-small cell lung cancer evidence based on tongue and pulse data. World Science and Technology - Modernization of Chinese Medicine. 24 (7), 2766-2775 (2022).
  29. Li, J., Hu, X. J., Zhou, C. L., Xu, J. T. Study on the feature analysis and diagnosis model of diabetic tongue based on random forest algorithm. Chinese Journal of Traditional Chinese Medicine. 37 (3), 1639-1643 (2022).
  30. Chen, C. H., et al. The characteristics of the combination of the four diagnostic methods of traditional Chinese medicine from the perspective of the differences between Chinese and Western medical diagnosis methods. Journal of Guangzhou University of Traditional Chinese Medicine. 28 (3), 332-334 (2011).
  31. Chen, R., et al. Correlation analysis of tongue image and western medicine typing in 382 patients with novel coronavirus pneumonia based on Lab colour model and imaging histology. Chinese Journal of Traditional Chinese Medicine. 36 (12), 7010-7014 (2021).
  32. Ju, J. W., Jung, H., Lee, Y. J., Mun, S. W., Lee, J. H. Semantic segmentation dataset for AI-based quantification of clean mucosa in capsule endoscopy. Medicina. 58 (3), 397 (2022).
  33. Wu, X., et al. A review of research on deep learning in tongue image classification. Computer Science and Exploration. , 1-23 (2022).

Tags

Medicina Número 194 medicina étnica medicina tradicional china diagnóstico de lengua algoritmo aprendizaje profundo
Objetivación del diagnóstico de la lengua en medicina tradicional, análisis de datos y aplicación de estudios
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Feng, L., Xiao, W., Wen, C., Deng,More

Feng, L., Xiao, W., Wen, C., Deng, Q., Guo, J., Song, H. Objectification of Tongue Diagnosis in Traditional Medicine, Data Analysis, and Study Application. J. Vis. Exp. (194), e65140, doi:10.3791/65140 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter