Medicine

Un modelo basado en transformador de Swin para la detección de nódulos tiroideos en imágenes de ultrasonido

Published: April 21, 2023 doi: 10.3791/64480

Ye Tian¹, Jingqiang Zhu², Lei Zhang³, Lichao Mou³, Xiaoxiang Zhu³, Yilei Shi³, Buyun Ma¹, Wanjun Zhao²

¹Department of Ultrasonography, West China Hospital of Sichuan University, ²Department of Thyroid Surgery, West China Hospital of Sichuan University, ³MedAI Technology (Wuxi) Co. Ltd.

Summary

Aquí, se propone un nuevo modelo para la detección de nódulos tiroideos en imágenes de ultrasonido, que utiliza Swin Transformer como columna vertebral para realizar modelos de contexto de largo alcance. Los experimentos demuestran que funciona bien en términos de sensibilidad y precisión.

Abstract

En los últimos años, la incidencia de cáncer de tiroides ha ido en aumento. La detección de nódulos tiroideos es fundamental tanto para la detección como para el tratamiento del cáncer de tiroides. Las redes neuronales convolucionales (CNN) han logrado buenos resultados en las tareas de análisis de imágenes de ultrasonido tiroideo. Sin embargo, debido al limitado campo receptivo válido de las capas convolucionales, las CNN no logran capturar dependencias contextuales de largo alcance, que son importantes para identificar nódulos tiroideos en imágenes de ultrasonido. Las redes de transformadores son eficaces para capturar información contextual de largo alcance. Inspirados en esto, proponemos un nuevo método de detección de nódulos tiroideos que combina la columna vertebral Swin Transformer y Faster R-CNN. Específicamente, una imagen de ultrasonido se proyecta primero en una secuencia 1D de incrustaciones, que luego se introducen en un transformador Swin jerárquico.

La columna vertebral de Swin Transformer extrae características en cinco escalas diferentes mediante la utilización de ventanas desplazadas para el cálculo de la autoatención. Posteriormente, se utiliza una red piramidal de entidades (FPN) para fusionar las entidades de diferentes escalas. Finalmente, se utiliza un cabezal de detección para predecir los cuadros delimitadores y las puntuaciones de confianza correspondientes. Los datos recopilados de 2.680 pacientes se utilizaron para realizar los experimentos, y los resultados mostraron que este método logró la mejor puntuación de mAP del 44,8%, superando las líneas de base basadas en CNN. Además, ganamos mejor sensibilidad (90,5%) que los competidores. Esto indica que el modelado de contexto en este modelo es eficaz para la detección de nódulos tiroideos.

Introduction

La incidencia de cáncer de tiroides ha aumentado rápidamente desde 1970, especialmente entre las mujeres de mediana edad¹. Los nódulos tiroideos pueden predecir la aparición de cáncer de tiroides, y la mayoría de los nódulos tiroideos son asintomáticos². La detección temprana de nódulos tiroideos es muy útil para curar el cáncer de tiroides. Por lo tanto, de acuerdo con las guías de práctica actuales, todos los pacientes con sospecha de bocio nodular en el examen físico o con hallazgos anormales de imagen deben someterse a un examen adicional ^3,4.

La ecografía tiroidea (US) es un método común utilizado para detectar y caracterizar las lesiones tiroideas ^5,6. US es una tecnología conveniente, económica y libre de radiación. Sin embargo, la aplicación de US se ve fácilmente afectada por el operador ^7,8. Características como la forma, el tamaño, la ecogenicidad y la textura de los nódulos tiroideos son fácilmente distinguibles en las imágenes estadounidenses. Aunque ciertas características de EE.UU. -calcificaciones, ecogenicidad y bordes irregulares- a menudo se consideran criterios para identificar nódulos tiroideos, la presencia de variabilidad interobservador es inevitable ^8,9. Los resultados del diagnóstico de los radiólogos con diferentes niveles de experiencia son diferentes. Los radiólogos sin experiencia son más propensos a diagnosticar erróneamente que los radiólogos experimentados. Algunas características de US, como reflejos, sombras y ecos, pueden degradar la calidad de la imagen. Esta degradación en la calidad de la imagen causada por la naturaleza de las imágenes de EE.UU. hace que sea difícil incluso para los médicos experimentados localizar los nódulos con precisión.

El diagnóstico asistido por computadora (EAC) para los nódulos tiroideos se ha desarrollado rápidamente en los últimos años y puede reducir eficazmente los errores causados por diferentes médicos y ayudar a los radiólogos a diagnosticar los nódulos de forma rápida y precisa^10,11. Se han propuesto varios sistemas CAD basados en CNN para el análisis de nódulos tiroideos de EE.UU., incluida la segmentación 12,13, la detección 14,15 y la clasificación ^16,17. CNN es un modelo de aprendizaje supervisado^{multicapa 18}, y los módulos centrales de CNN son las capas de convolución y agrupación. Las capas de convolución se utilizan para la extracción de entidades y las capas de agrupación se utilizan para el muestreo descendente. Las capas convolucionales de sombra pueden extraer características primarias como la textura, los bordes y los contornos, mientras que las capas convolucionales profundas aprenden características semánticas de alto nivel.

Las CNN han tenido un gran éxito en la visión por computadora 19,20,21. Sin embargo, las CNN no logran capturar dependencias contextuales de largo alcance debido al limitado campo receptivo válido de las capas convolucionales. En el pasado, las arquitecturas troncales para la clasificación de imágenes utilizaban principalmente CNN. Con la llegada del transformador de visión (ViT)^22,23, esta tendencia ha cambiado, y ahora muchos modelos de última generación utilizan transformadores como columna vertebral. Basado en parches de imagen no superpuestos, ViT utiliza un codificador transformador estándar²⁵ para modelar globalmente las relaciones espaciales. El Swin Transformer²⁴ introduce además ventanas de cambio para aprender características. Las ventanas de desplazamiento no solo aportan una mayor eficiencia, sino que también reducen en gran medida la longitud de la secuencia porque la autoatención se calcula en la ventana. Al mismo tiempo, la interacción entre dos ventanas adyacentes se puede hacer a través de la operación de desplazamiento (movimiento). La aplicación exitosa del transformador Swin en visión artificial ha llevado a la investigación de arquitecturas basadas en transformadores para el análisis de imágenes de ultrasonido²⁶.

Recientemente, Li et al. propusieron un enfoque de aprendizaje profundo²⁸ para la detección del cáncer papilar de tiroides inspirado en Faster R-CNN²⁷. Faster R-CNN es una arquitectura clásica de detección de objetos basada en CNN. El R Faster original tiene cuatro módulos: la red troncal CNN, la red de propuestas de región (RPN), la capa de agrupación de ROI y el cabezal de detección. La red troncal de CNN utiliza un conjunto de capas básicas conv+bn+relu+pooling para extraer mapas de entidades de la imagen de entrada. A continuación, los mapas de entidades se introducen en la RPN y la capa de agrupación de ROI. El papel de la red RPN es generar propuestas regionales. Este módulo utiliza softmax para determinar si los anclajes son positivos y genera anclajes precisos mediante la regresión de cuadro delimitador. La capa de agrupación de ROI extrae los mapas de entidades de la propuesta recopilando los mapas de entidades de entrada y las propuestas y alimenta los mapas de entidades de la propuesta en el cabezal de detección posterior. El cabezal de detección utiliza los mapas de entidades de propuesta para clasificar objetos y obtener posiciones precisas de los cuadros de detección mediante regresión de cuadro delimitador.

Este artículo presenta una nueva red de detección de nódulos tiroideos llamada Swin Faster R-CNN formada al reemplazar la columna vertebral de CNN en Faster R-CNN con el transformador Swin, lo que resulta en una mejor extracción de características para la detección de nódulos a partir de imágenes de ultrasonido. Además, la red piramidal de características (FPN)²⁹ se utiliza para mejorar el rendimiento de detección del modelo para nódulos de diferentes tamaños mediante la agregación de características de diferentes escalas.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Este estudio retrospectivo fue aprobado por la junta de revisión institucional del Hospital de China Occidental, Universidad de Sichuan, Sichuan, China, y se renunció al requisito de obtener el consentimiento informado.

1. Configuración del entorno

Software de unidad de procesamiento gráfico (GPU)
1. Para implementar aplicaciones de aprendizaje profundo, primero configure el entorno relacionado con la GPU. Descargue e instale el software y los controladores apropiados para la GPU desde el sitio web de la GPU.
  NOTA: Consulte la Tabla de materiales para los utilizados en este estudio.
Instalación de Python3.8
1. Abra un terminal en la máquina. Escriba lo siguiente:
  Línea de comandos: sudo apt-get install python3.8 python-dev python-virtualenv
Instalación de Pytorch1.7
1. Siga los pasos en el sitio web oficial para descargar e instalar Miniconda.
2. Crea un entorno conda y actívalo.
  Línea de comandos: conda create --name SwinFasterRCNN python=3.8 -y
  Línea de comandos: conda activate SwinFasterRCNN
3. Instale Pytorch.
  Línea de comandos: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
Instalación de MMDetection
1. Clone desde el repositorio oficial de Github.
  Línea de comandos: git clone https://github.com/open-mmlab/mmdetection.git
2. Instale MMDetection.
  Línea de comandos: cd mmdetection
  Línea de comandos: pip install -v -e .

2. Preparación de datos

Recogida de datos
1. Se recogieron las imágenes de ultrasonido (aquí, 3.000 casos de un hospital terciario de grado A). Asegúrese de que cada caso tenga registros de diagnóstico, planes de tratamiento, informes de EE. UU. y las imágenes correspondientes de EE. UU.
2. Coloque todas las imágenes de EE. UU. en una carpeta llamada "imágenes".
  NOTA: Los datos utilizados en este estudio incluyeron 3.853 imágenes estadounidenses de 3.000 casos.
Limpieza de datos
1. Compruebe manualmente el conjunto de datos en busca de imágenes de áreas no tiroideas, como imágenes linfáticas.
2. Compruebe manualmente el conjunto de datos en busca de imágenes que contengan flujo Doppler en color.
3. Elimine las imágenes seleccionadas en los dos pasos anteriores.
  NOTA: Después de la limpieza de datos, se dejaron 3.000 imágenes de 2.680 casos.
Anotación de datos
1. Pídale a un médico superior que localice el área del nódulo en la imagen de EE. UU. y delinee el límite del nódulo.
  NOTA: El software y el proceso de anotación se pueden encontrar en el archivo complementario 1.
2. Haga que otro médico superior revise y revise los resultados de las anotaciones.
3. Coloque los datos anotados en una carpeta separada llamada "Anotaciones".
División de datos
1. Ejecute el script de Python y establezca la ruta de la imagen en el paso 2.1.2 y las rutas de las anotaciones en el paso 2.3.3. Divida aleatoriamente todas las imágenes y los archivos etiquetados correspondientes en conjuntos de entrenamiento y validación en una proporción de 8: 2. Guarde los datos del conjunto de entrenamiento en la carpeta "Tren" y los datos del conjunto de validación en la carpeta "Val".
  NOTA: Las secuencias de comandos de Python se proporcionan en el archivo complementario 2.
Conversión al formato de conjunto de datos CoCo
NOTA: Para utilizar MMDetection, procese los datos en un formato de conjunto de datos CoCo, que incluye un archivo json que contiene la información de anotación y una carpeta de imágenes que contiene las imágenes de EE. UU.
1. Ejecute el script de Python e ingrese las rutas de la carpeta de anotaciones (paso 2.3.3) para extraer las áreas de nódulos delineadas por el médico y convertirlas en máscaras. Guarde todas las máscaras en la carpeta "Máscaras".
  NOTA: Las secuencias de comandos de Python se proporcionan en el archivo complementario 3.
2. Ejecute el script de Python y establezca la ruta de la carpeta de máscaras en el paso 2.5.1 para convertir los datos en un conjunto de datos en formato CoCo y generar un archivo json con las imágenes de EE. UU.
  NOTA: Las secuencias de comandos de Python se proporcionan en el archivo complementario 4.

3. Configuración de RCNN Swin Faster

Descargue el archivo de modelo de Swin Transformer (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py), modifíquelo y colóquelo en la carpeta "mmdetection/mmdet/models/backbones/". Abra el archivo "swin_transformer.py" en un editor de texto vim y modifíquelo como el archivo de modelo Swin Transformer proporcionado en el archivo complementario 5.
Línea de comandos: vim swin_transformer.py
Haga una copia del archivo de configuración de Faster R-CNN, cambie la red troncal a Swin Transformer y configure los parámetros FPN.
Línea de comandos: cd mmdetection/configs/faster_rcnn
Línea de comandos: cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
NOTA: El archivo de configuración de R-CNN de Swin Faster (swin_faster_rcnn_swin.py) se proporciona en el archivo complementario 6. La estructura de red R-CNN de Swin Faster se muestra en la Figura 1.
Establezca la ruta del conjunto de datos en la ruta del conjunto de datos con formato CoCo (paso 2.5.2) en el archivo de configuración. Abra el archivo "coco_detection.py" en el editor de texto vim y modifique la siguiente línea:
data_root = "ruta del conjunto de datos(paso 2.5.2)"
Línea de comandos:vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Entrenando al Swin más rápido R-CNN

Edite mmdetection/configs/_base_/schedules/schedule_1x.py y establezca los parámetros predeterminados relacionados con la formación, incluida la tasa de aprendizaje, el optimizador y la época. Abra el archivo "schedule_1x.py" en el editor de texto vim y modifique las siguientes líneas:
optimizer = dict(type="AdamW", lr=0.001, momentum=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
Línea de comandos:vim mmdetection/configs/_base_/schedules/schedule_1x.py
NOTA: En este protocolo para este documento, la tasa de aprendizaje se estableció en 0.001, se utilizó el optimizador AdamW, la época máxima de entrenamiento se estableció en 48 y el tamaño del lote se estableció en 16.
Comience el entrenamiento escribiendo los siguientes comandos. Espere a que la red comience a entrenar durante 48 épocas y a que los pesos entrenados resultantes de la red Swin Faster R-CNN se generen en la carpeta de salida. Guarde los pesos del modelo con la mayor precisión en el conjunto de validación.
Línea de comandos: cd mmdetection
Línea de comandos: python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
NOTA: El modelo fue entrenado en una GPU "NVIDIA GeForce RTX3090 24G". La unidad central de procesamiento utilizada fue el "AMD Epyc 7742 64-core processor × 128", y el sistema operativo fue Ubuntu 18.06. El tiempo total de entrenamiento fue de ~ 2 h.

5. Realizar la detección de nódulos tiroideos en nuevas imágenes

Después del entrenamiento, seleccione el modelo con el mejor rendimiento en el conjunto de validación para la detección de nódulos tiroideos en las nuevas imágenes.
1. Primero, cambie el tamaño de la imagen a 512 píxeles x 512 píxeles y normalícela. Estas operaciones se realizan automáticamente cuando se ejecuta el script de prueba.
  Línea de comandos: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
2. Espere a que el script cargue automáticamente los parámetros del modelo previamente entrenado en Swin Faster R-CNN y alimente la imagen preprocesada en Swin Faster R-CNN para su inferencia. Espere a que Swin Faster R-CNN genere el cuadro de predicción para cada imagen.
3. Finalmente, permita que el script realice automáticamente el posprocesamiento NMS en cada imagen para eliminar los cuadros de detección duplicados.
  Nota : los resultados de la detección se envían a la carpeta especificada, que contiene las imágenes con los cuadros de detección y las coordenadas del cuadro delimitador en un archivo empaquetado.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Las imágenes de tiroides de Estados Unidos se recopilaron de dos hospitales en China desde septiembre de 2008 hasta febrero de 2018. Los criterios de elegibilidad para incluir las imágenes de EE.UU. en este estudio fueron el examen convencional de EE.UU. antes de la biopsia y el tratamiento quirúrgico, el diagnóstico con biopsia o patología posquirúrgica, y la edad ≥ 18 años. Los criterios de exclusión fueron imágenes sin tejido tiroideo.

Las 3.000 imágenes de ultrasonido incluyeron 1.384 nódulos malignos y 1.616 nódulos benignos. La mayoría (90%) de los nódulos malignos eran carcinoma papilar y 66% de los nódulos benignos eran bocio nodular. Aquí, el 25% de los nódulos eran menores de 5 mm, el 38% tenían entre 5 mm y 10 mm, y el 37% eran mayores de 10 mm.

Todas las imágenes estadounidenses se recopilaron utilizando Philips IU22 y DC-80, y se utilizó su modo de examen tiroideo predeterminado. Ambos instrumentos estaban equipados con sondas lineales de 5-13 MHz. Para una buena exposición de los márgenes tiroideos inferiores, todos los pacientes fueron examinados en posición supina con la espalda extendida. Tanto los lóbulos tiroideos como el istmo se escanearon en los planos longitudinal y transversal de acuerdo con los estándares de acreditación del Colegio Americano de Radiología. Todos los exámenes fueron realizados por dos radiólogos tiroideos senior con ≥10 años de experiencia clínica. El diagnóstico de tiroides se basó en los hallazgos histopatológicos de la biopsia por aspiración con aguja fina o la cirugía tiroidea.

En la vida real, como las imágenes estadounidenses están corrompidas por el ruido, es importante realizar un preprocesamiento adecuado de las imágenes estadounidenses, como la eliminación de ruido de imágenes basada en la transformada wavelet³⁰, la detección de compresión 31 y la ecualización del histograma³². En este trabajo, utilizamos la ecualización de histograma para preprocesar las imágenes estadounidenses, mejorar la calidad de la imagen y aliviar la degradación de la calidad de imagen causada por el ruido.

En lo que sigue, verdadero positivo, falso positivo, verdadero negativo y falso negativo se conocen como TP, FP, TN y FN, respectivamente. Utilizamos mAP, sensibilidad y especificidad para evaluar el rendimiento de detección de nódulos del modelo. mAP es una métrica común en la detección de objetos. La sensibilidad y la especificidad se calcularon mediante la ecuación (1) y la ecuación (2):

Equation 1 (1)

Equation 2 (2)

En este trabajo, TP se define como el número de nódulos detectados correctamente, que tienen una intersección sobre unión (IoU) entre el cuadro de predicción y el cuadro de verdad del suelo de >0.3 y una puntuación de confianza >0.6. IoU es la intersección sobre la unión, que se calcula usando la ecuación (3):

Equation 3 (3)

Comparamos varias redes clásicas de detección de objetos, incluyendo SSD 33, YOLO-v3³⁴, Faster R-CNN²⁷ basado en la red troncal de CNN, RetinaNet 35 y DETR ³⁶. YOLO-v3 y SSD son redes de detección de una sola etapa, DETR es una red de detección de objetos basada en transformadores, y Faster R-CNN y RetinaNet son redes de detección de dos etapas. La Tabla 1 muestra que el rendimiento de Swin Faster R-CNN es superior a los otros métodos, alcanzando 0.448 mAP, que es 0.028 más alto que el Faster R-CNN de la red troncal de CNN y 0.037 más alto que YOLO-v3. Mediante el uso de Swin Faster R-CNN, el 90,5% de los nódulos tiroideos se pueden detectar automáticamente, que es ~ 3% más alto que Faster R-CNN basado en la red troncal de CNN (87,1%). Como se muestra en la Figura 2, el uso de Swin Transformer como columna vertebral hace que el posicionamiento de los límites sea más preciso.

Figura 1: Diagrama de la arquitectura de red Swin Faster R-CNN. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Resultados de la detección. Los resultados de detección de la misma imagen se encuentran en una fila determinada. Las columnas son los resultados de detección, de izquierda a derecha, para Swin Faster R-CNN, Faster R-CNN, YOLO-v3, SSD, RetinaNet y DETR, respectivamente. Las verdades básicas de las regiones están marcadas con cajas rectangulares verdes. Los resultados de detección están enmarcados por las cajas rectangulares rojas. Haga clic aquí para ver una versión más grande de esta figura.

Método	Espinazo	mapa	Sensibilidad	Especificidad
YOLO-v3	DarkNet	0.411	0.869	0.877
SSD	VGG16	0.425	0.841	0.849
RetinaNet	ResNet50	0.382	0.845	0.841
R-CNN más rápido	ResNet50	0.42	0.871	0.864
DETR	ResNet50	0.416	0.882	0.86
Swin Faster R-CNN sin FPN	Transformador Swin	0.431	0.897	0.905
Swin Faster R-CNN con FPN	Transformador Swin	0.448	0.905	0.909

Tabla 1: Comparación del rendimiento con métodos de detección de objetos de última generación.

Archivo complementario 1: Instrucciones de funcionamiento para la anotación de datos y el software utilizado. Haga clic aquí para descargar este archivo.

Archivo complementario 2: script de Python utilizado para dividir el conjunto de datos en el conjunto de entrenamiento y el conjunto de validación, como se mencionó en el paso 2.4.1. Haga clic aquí para descargar este archivo.

Archivo complementario 3: script de Python utilizado para convertir el archivo de anotaciones en máscaras, como se mencionó en el paso 2.5.1. Haga clic aquí para descargar este archivo.

Archivo complementario 4: script de Python utilizado para convertir los datos en un conjunto de datos en formato CoCo, como se mencionó en el paso 2.5.2. Haga clic aquí para descargar este archivo.

Archivo complementario 5: El archivo de modelo de Swin Transformer modificado mencionado en el paso 3.1. Haga clic aquí para descargar este archivo.

Archivo complementario 6: El archivo de configuración de R-CNN de Swin Faster mencionado en el paso 3.2. Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Este documento describe en detalle cómo realizar la configuración del entorno, la preparación de datos, la configuración del modelo y el entrenamiento de la red. En la fase de configuración del entorno, hay que prestar atención para asegurarse de que las bibliotecas dependientes sean compatibles y coinciden. El procesamiento de datos es un paso muy importante; Se debe dedicar tiempo y esfuerzo para garantizar la exactitud de las anotaciones. Al entrenar el modelo, se puede encontrar un "ModuleNotFoundError". En este caso, es necesario usar el comando "pip install" para instalar la biblioteca que falta. Si la pérdida del conjunto de validación no disminuye u oscila mucho, se debe verificar el archivo de anotación e intentar ajustar la tasa de aprendizaje y el tamaño del lote para que la pérdida converja.

La detección de nódulos tiroideos es muy importante para el tratamiento del cáncer de tiroides. El sistema CAD puede ayudar a los médicos en la detección de nódulos, evitar diferencias en los resultados del diagnóstico causadas por factores subjetivos y reducir la detección perdida de nódulos. En comparación con los sistemas CAD existentes basados en CNN, la red propuesta en este documento introduce el transformador Swin para extraer características de imágenes de ultrasonido. Al capturar dependencias de larga distancia, Swin Faster R-CNN puede extraer las características del nódulo de las imágenes de ultrasonido de manera más eficiente. Los resultados experimentales muestran que Swin Faster R-CNN mejora la sensibilidad de la detección de nódulos en ~ 3% en comparación con Faster R-CNN basado en la red troncal de CNN. La aplicación de esta tecnología puede reducir en gran medida la carga de los médicos, ya que puede detectar nódulos tiroideos en el examen de ultrasonido temprano y guiar a los médicos a un tratamiento adicional. Sin embargo, debido a la gran cantidad de parámetros del Swin Transformer, el tiempo de inferencia de Swin Faster R-CNN es ~ 100 ms por imagen (probado en GPU NVIDIA TITAN 24G y CPU AMD Epyc 7742). Puede ser difícil cumplir con los requisitos de diagnóstico en tiempo real con Swin Faster R-CNN. En el futuro, continuaremos recopilando casos para verificar la efectividad de este método y realizar más estudios sobre el análisis dinámico de imágenes de ultrasonido.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores declaran no tener conflictos de intereses.

Acknowledgments

Este estudio fue apoyado por la Fundación Nacional de Ciencias Naturales de China (Subvención No.32101188) y el Proyecto General del Departamento de Ciencia y Tecnología de la Provincia de Sichuan (Subvención No. 2021YFS0102), China.

Materials

Name	Company	Catalog Number	Comments
GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

DOWNLOAD MATERIALS LIST

References

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).

Medicine

Un modelo basado en transformador de Swin para la detección de nódulos tiroideos en imágenes de ultrasonido

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.