Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Medicine

Un modello basato su trasformatore swin per il rilevamento di noduli tiroidei nelle immagini ecografiche

Published: April 21, 2023 doi: 10.3791/64480

Summary

Qui viene proposto un nuovo modello per il rilevamento dei noduli tiroidei nelle immagini ecografiche, che utilizza Swin Transformer come spina dorsale per eseguire la modellazione del contesto a lungo raggio. Gli esperimenti dimostrano che funziona bene in termini di sensibilità e precisione.

Abstract

Negli ultimi anni, l'incidenza del cancro alla tiroide è in aumento. Il rilevamento dei noduli tiroidei è fondamentale sia per l'individuazione che per il trattamento del cancro della tiroide. Le reti neurali convoluzionali (CNN) hanno ottenuto buoni risultati nelle attività di analisi delle immagini ecografiche tiroidee. Tuttavia, a causa del limitato campo ricettivo valido degli strati convoluzionali, le CNN non riescono a catturare le dipendenze contestuali a lungo raggio, che sono importanti per identificare i noduli tiroidei nelle immagini ecografiche. Le reti di trasformatori sono efficaci nell'acquisizione di informazioni contestuali a lungo raggio. Ispirati da questo, proponiamo un nuovo metodo di rilevamento dei noduli tiroidei che combina la spina dorsale Swin Transformer e Faster R-CNN. In particolare, un'immagine ecografica viene prima proiettata in una sequenza 1D di incorporamenti, che vengono poi inseriti in un trasformatore Swin gerarchico.

La dorsale Swin Transformer estrae le caratteristiche su cinque diverse scale utilizzando finestre spostate per il calcolo dell'auto-attenzione. Successivamente, viene utilizzata una rete di piramide delle caratteristiche (FPN) per fondere le caratteristiche da scale diverse. Infine, una testina di rilevamento viene utilizzata per prevedere i riquadri di delimitazione e i punteggi di confidenza corrispondenti. I dati raccolti da 2.680 pazienti sono stati utilizzati per condurre gli esperimenti e i risultati hanno mostrato che questo metodo ha raggiunto il miglior punteggio mAP del 44,8%, superando le linee di base basate sulla CNN. Inoltre, abbiamo ottenuto una migliore sensibilità (90,5%) rispetto ai concorrenti. Ciò indica che la modellazione del contesto in questo modello è efficace per il rilevamento dei noduli tiroidei.

Introduction

L'incidenza del cancro alla tiroide è aumentata rapidamente dal 1970, soprattutto tra le donne di mezza età1. I noduli tiroidei possono predire l'emergere del cancro della tiroide e la maggior parte dei noduli tiroidei sono asintomatici2. La diagnosi precoce dei noduli tiroidei è molto utile nella cura del cancro alla tiroide. Pertanto, secondo le attuali linee guida pratiche, tutti i pazienti con sospetto gozzo nodulare all'esame obiettivo o con risultati di imaging anomali dovrebbero essere sottoposti a ulteriori esami 3,4.

L'ecografia tiroidea (US) è un metodo comune utilizzato per rilevare e caratterizzare le lesioni tiroidee 5,6. Gli Stati Uniti sono una tecnologia conveniente, economica e priva di radiazioni. Tuttavia, l'applicazione di US è facilmente influenzata dall'operatore 7,8. Caratteristiche come la forma, le dimensioni, l'ecogenicità e la consistenza dei noduli tiroidei sono facilmente distinguibili sulle immagini statunitensi. Sebbene alcune caratteristiche statunitensi - calcificazioni, ecogenicità e bordi irregolari - siano spesso considerate criteri per identificare i noduli tiroidei, la presenza di variabilità interosservatore è inevitabile 8,9. I risultati diagnostici dei radiologi con diversi livelli di esperienza sono diversi. I radiologi inesperti hanno maggiori probabilità di diagnosticare erroneamente rispetto ai radiologi esperti. Alcune caratteristiche di US come riflessi, ombre ed echi possono degradare la qualità dell'immagine. Questo degrado della qualità dell'immagine causato dalla natura dell'imaging statunitense rende difficile anche per i medici esperti individuare i noduli con precisione.

La diagnosi computerizzata (CAD) per i noduli tiroidei si è sviluppata rapidamente negli ultimi anni e può ridurre efficacemente gli errori causati da diversi medici e aiutare i radiologi a diagnosticare i noduli in modo rapido e preciso10,11. Sono stati proposti vari sistemi CAD basati su CNN per l'analisi dei noduli tiroidei statunitensi, tra cui la segmentazione 12,13, il rilevamento 14,15 e la classificazione 16,17. CNN è un modello di apprendimento supervisionato multilivello18 e i moduli principali della CNN sono i livelli di convoluzione e pooling. I layer di convoluzione vengono utilizzati per l'estrazione delle feature, mentre i layer di pooling vengono utilizzati per il downsampling. I livelli convoluzionali ombra possono estrarre feature primarie come la texture, i bordi e i contorni, mentre i livelli convoluzionali profondi apprendono feature semantiche di alto livello.

Le CNN hanno avuto un grande successo nella visione artificiale 19,20,21. Tuttavia, le CNN non riescono a catturare le dipendenze contestuali a lungo raggio a causa del limitato campo ricettivo valido degli strati convoluzionali. In passato, le architetture backbone per la classificazione delle immagini utilizzavano principalmente le CNN. Con l'avvento di Vision Transformer (ViT)22,23, questa tendenza è cambiata e ora molti modelli all'avanguardia utilizzano trasformatori come spine dorsali. Basato su patch di immagini non sovrapposte, ViT utilizza un encoder di trasformatori standard25 per modellare globalmente le relazioni spaziali. Lo Swin Transformer24 introduce inoltre le finestre di spostamento per apprendere le funzionalità. Le finestre di spostamento non solo portano una maggiore efficienza, ma riducono anche notevolmente la lunghezza della sequenza perché l'auto-attenzione viene calcolata nella finestra. Allo stesso tempo, l'interazione tra due finestre adiacenti può essere effettuata attraverso l'operazione di spostamento (movimento). L'applicazione di successo del trasformatore Swin nella visione artificiale ha portato allo studio di architetture basate su trasformatori per l'analisi delle immagini a ultrasuoni26.

Recentemente, Li et al. hanno proposto un approccio di deep learning28 per il rilevamento del cancro papillare tiroideo ispirato da Faster R-CNN27. Faster R-CNN è una classica architettura di rilevamento di oggetti basata su CNN. L'originale Faster R-CNN ha quattro moduli: la dorsale CNN, la rete di proposta regionale (RPN), il livello di pooling ROI e la testa di rilevamento. La dorsale CNN utilizza un set di layer di base conv+bn+relu+pooling per estrarre le feature map dall'immagine di input. Quindi, le mappe delle feature vengono inserite nell'RPN e nel livello di pooling ROI. Il ruolo della rete RPN è quello di generare proposte regionali. Questo modulo utilizza softmax per determinare se gli ancoraggi sono positivi e genera ancoraggi accurati mediante la regressione del riquadro di delimitazione. Il layer di pooling ROI estrae le feature map delle proposte raccogliendo le feature map e le proposte di input e alimenta le feature map della proposta nella successiva testa di rilevamento. La testina di rilevamento utilizza le feature map della proposta per classificare gli oggetti e ottenere posizioni accurate delle caselle di rilevamento mediante la regressione del riquadro di delimitazione.

Questo documento presenta una nuova rete di rilevamento dei noduli tiroidei chiamata Swin Faster R-CNN formata sostituendo la dorsale CNN in Faster R-CNN con il trasformatore Swin, che si traduce in una migliore estrazione delle caratteristiche per il rilevamento dei noduli dalle immagini ecografiche. Inoltre, la rete FPN (Feature Pyramid Network)29 viene utilizzata per migliorare le prestazioni di rilevamento del modello per noduli di diverse dimensioni aggregando feature di scale diverse.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Questo studio retrospettivo è stato approvato dal comitato di revisione istituzionale del West China Hospital, Sichuan University, Sichuan, Cina, e l'obbligo di ottenere il consenso informato è stato rinunciato.

1. Configurazione dell'ambiente

  1. Software dell'unità di elaborazione grafica (GPU)
    1. Per implementare applicazioni di deep learning, configura innanzitutto l'ambiente correlato alla GPU. Scarica e installa software e driver appropriati per la GPU dal sito Web della GPU.
      NOTA: Vedere la tabella dei materiali per quelli utilizzati in questo studio.
  2. Installazione di Python3.8
    1. Aprire un terminale sulla macchina. Digitare quanto segue:
      Riga di comando: sudo apt-get install python3.8 python-dev python-virtualenv
  3. Installazione di Pytorch1.7
    1. Seguire i passaggi sul sito Web ufficiale per scaricare e installare Miniconda.
    2. Creare un ambiente conda e attivarlo.
      Riga di comando: conda create --name SwinFasterRCNN python=3.8 -y
      Riga di comando: conda activate SwinFasterRCNN
    3. Installare Pytorch.
      Riga di comando: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
  4. Installazione MMDetection
    1. Clona dal repository ufficiale di Github.
      Riga di comando: git clone https://github.com/open-mmlab/mmdetection.git
    2. Installare MMDetection.
      Riga di comando: cd mmdetection
      Riga di comando: pip install -v -e .

2. Preparazione dei dati

  1. Raccolta dei dati
    1. Raccolte le immagini ecografiche (qui, 3.000 casi da un ospedale terziario di grado A). Assicurati che ogni caso abbia record diagnostici, piani di trattamento, rapporti statunitensi e le corrispondenti immagini statunitensi.
    2. Inserisci tutte le immagini statunitensi in una cartella denominata "immagini".
      NOTA: I dati utilizzati in questo studio includevano 3.853 immagini statunitensi da 3.000 casi.
  2. Pulizia dei dati
    1. Controllare manualmente il set di dati per le immagini di aree non tiroidee, come le immagini linfatiche.
    2. Verificare manualmente la presenza di immagini contenenti flusso Doppler a colori.
    3. Eliminare le immagini selezionate nei due passaggi precedenti.
      NOTA: dopo la pulizia dei dati, sono state lasciate 3.000 immagini da 2.680 casi.
  3. Annotazione dei dati
    1. Chiedi a un medico senior di individuare l'area del nodulo nell'immagine degli Stati Uniti e delineare il confine del nodulo.
      NOTA: il software e il processo di annotazione sono disponibili nel file supplementare 1.
    2. Chiedi a un altro medico senior di rivedere e rivedere i risultati delle annotazioni.
    3. Inserire i dati annotati in una cartella separata denominata "Annotazioni".
  4. Divisione dei dati
    1. Eseguire lo script python e impostare il percorso dell'immagine nel passaggio 2.1.2 e i percorsi delle annotazioni nel passaggio 2.3.3. Dividi casualmente tutte le immagini e i file etichettati corrispondenti in set di addestramento e convalida con un rapporto di 8:2. Salvare i dati del set di addestramento nella cartella "Train" e i dati del set di convalida nella cartella "Val".
      NOTA: gli script Python sono forniti nel file supplementare 2.
  5. Conversione nel formato del set di dati CoCo
    NOTA: per utilizzare MMDetection, elaborare i dati in un formato di set di dati CoCo, che include un file json che contiene le informazioni di annotazione e una cartella di immagini contenente le immagini statunitensi.
    1. Eseguire lo script python e inserire i percorsi della cartella delle annotazioni (passaggio 2.3.3) per estrarre le aree dei noduli delineate dal medico e convertirle in maschere. Salva tutte le maschere nella cartella "Maschere".
      NOTA: gli script Python sono forniti nel file supplementare 3.
    2. Eseguire lo script python e impostare il percorso della cartella masks nel passaggio 2.5.1 per trasformare i dati in un set di dati in formato CoCo e generare un file json con le immagini statunitensi.
      NOTA: gli script Python sono forniti nel file supplementare 4.

3. Configurazione RCNN Swin Faster

  1. Scaricare il file di modello Swin Transformer (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py), modificarlo e inserirlo nella cartella "mmdetection/mmdet/models/backbones/". Aprire il file "swin_transformer.py" in un editor di testo vim e modificarlo come file di modello Swin Transformer fornito nel file supplementare 5.
    Riga di comando: vim swin_transformer.py
  2. Creare una copia del file di configurazione Faster R-CNN, modificare la dorsale in Swin Transformer e impostare i parametri FPN.
    Riga di comando: cd mmdetection/configs/faster_rcnn
    Riga di comando: cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
    NOTA: il file di configurazione R-CNN Swin Faster (swin_faster_rcnn_swin.py) è fornito nel file supplementare 6. La struttura della rete Swin Faster R-CNN è mostrata nella Figura 1.
  3. Impostare il percorso del set di dati sul percorso del set di dati in formato CoCo (passaggio 2.5.2) nel file di configurazione. Apri il file "coco_detection.py" nell'editor di testo vim e modifica la seguente riga:
    data_root = "percorso del set di dati(passaggio 2.5.2)"
    Riga di comando:vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Allenare lo swin più velocemente R-CNN

  1. Modifica mmdetection/configs/_base_/schedules/schedule_1x.py e imposta i parametri predefiniti relativi all'allenamento, inclusi il tasso di apprendimento, l'ottimizzatore e l'epoca. Apri il file "schedule_1x.py" nell'editor di testo vim e modifica le seguenti righe:
    ottimizzatore = dict(type="AdamW", lr=0.001, momentum=0.9, weight_decay=0.0001)
    runner = dict(type='EpochBasedRunner', max_epochs=48)
    Riga di comando:vim mmdetection/configs/_base_/schedules/schedule_1x.py
    NOTA: in questo protocollo per questo documento, il tasso di apprendimento è stato impostato su 0,001, è stato utilizzato l'ottimizzatore AdamW, l'epoca massima di addestramento è stata impostata su 48 e la dimensione del batch è stata impostata su 16.
  2. Iniziare l'allenamento digitando i seguenti comandi. Attendere che la rete inizi l'addestramento per 48 epoche e che i pesi addestrati risultanti della rete Swin Faster R-CNN vengano generati nella cartella di output. Salvate i pesi del modello con la massima precisione sul set di convalida.
    Riga di comando: cd mmdetection
    Riga di comando: python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
    NOTA: il modello è stato addestrato su una GPU "NVIDIA GeForce RTX3090 24G". L'unità di elaborazione centrale utilizzata era il "processore AMD Epyc 7742 64-core × 128", e il sistema operativo era Ubuntu 18.06. Il tempo complessivo di allenamento è stato di ~ 2 ore.

5. Eseguire il rilevamento dei noduli tiroidei su nuove immagini

  1. Dopo l'addestramento, selezionare il modello con le migliori prestazioni sul set di convalida per il rilevamento dei noduli tiroidei nelle nuove immagini.
    1. Innanzitutto, ridimensiona l'immagine a 512 pixel x 512 pixel e normalizzala. Queste operazioni vengono eseguite automaticamente quando viene eseguito lo script di test.
      Riga di comando: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
    2. Attendere che lo script carichi automaticamente i parametri del modello pre-addestrati in Swin Faster R-CNN e inserire l'immagine preelaborata in Swin Faster R-CNN per l'inferenza. Attendi che Swin Faster R-CNN esegua la casella di previsione per ogni immagine.
    3. Infine, consenti allo script di eseguire automaticamente la post-elaborazione NMS su ogni immagine per rimuovere le caselle di rilevamento duplicate.
      Nota : i risultati del rilevamento vengono restituiti alla cartella specificata, che contiene le immagini con le caselle di rilevamento e le coordinate del riquadro di selezione in un file compresso.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Le immagini della tiroide US sono state raccolte da due ospedali in Cina da settembre 2008 a febbraio 2018. I criteri di ammissibilità per includere le immagini statunitensi in questo studio erano l'esame convenzionale degli Stati Uniti prima della biopsia e del trattamento chirurgico, la diagnosi con biopsia o patologia post-chirurgica e l'età ≥ 18 anni. I criteri di esclusione erano immagini senza tessuti tiroidei.

Le 3.000 immagini ecografiche includevano 1.384 noduli maligni e 1.616 benigni. La maggior parte (90%) dei noduli maligni erano carcinoma papillare e il 66% dei noduli benigni erano gozzo nodulare. Qui, il 25% dei noduli era più piccolo di 5 mm, il 38% era tra 5 mm e 10 mm e il 37% era più grande di 10 mm.

Tutte le immagini statunitensi sono state raccolte utilizzando Philips IU22 e DC-80 ed è stata utilizzata la modalità di esame della tiroide predefinita. Entrambi gli strumenti erano dotati di sonde lineari a 5-13 MHz. Per una buona esposizione dei margini tiroidei inferiori, tutti i pazienti sono stati esaminati in posizione supina con la schiena estesa. Sia i lobi tiroidei che l'istmo sono stati scansionati nei piani longitudinale e trasversale secondo gli standard di accreditamento dell'American College of Radiology. Tutti gli esami sono stati effettuati da due radiologi tiroidei senior con ≥10 anni di esperienza clinica. La diagnosi della tiroide si basava sui risultati istopatologici della biopsia di aspirazione con ago sottile o della chirurgia della tiroide.

Nella vita reale, poiché le immagini statunitensi sono corrotte dal rumore, è importante condurre una corretta pre-elaborazione delle immagini statunitensi, come il denoising delle immagini basato sulla trasformata wavelet 30, il rilevamento della compressione31 e l'equalizzazione dell'istogramma32. In questo lavoro, abbiamo utilizzato l'equalizzazione dell'istogramma per preelaborare le immagini statunitensi, migliorare la qualità dell'immagine e alleviare il degrado della qualità dell'immagine causato dal rumore.

In quanto segue, vero positivo, falso positivo, vero negativo e falso negativo sono indicati rispettivamente come TP, FP, TN e FN. Abbiamo utilizzato mAP, sensibilità e specificità per valutare le prestazioni di rilevamento dei noduli del modello. mAP è una metrica comune nel rilevamento di oggetti. La sensibilità e la specificità sono state calcolate utilizzando l'equazione (1) e l'equazione (2):

Equation 1 (1)

Equation 2 (2)

In questo articolo, TP è definito come il numero di noduli rilevati correttamente, che hanno un'intersezione sull'unione (IoU) tra la casella di previsione e la casella di verità di base di >0,3 e un punteggio di confidenza >0,6. IoU è l'intersezione sull'unione, che viene calcolata usando l'equazione (3):

Equation 3 (3)

Abbiamo confrontato diverse reti classiche di rilevamento di oggetti, tra cui SSD 33, YOLO-v334, Faster R-CNN27 basato su dorsale CNN, RetinaNet 35 e DETR 36. YOLO-v3 e SSD sono reti di rilevamento a stadio singolo, DETR è una rete di rilevamento di oggetti basata su trasformatore e Faster R-CNN e RetinaNet sono reti di rilevamento a due stadi. La Tabella 1 mostra che le prestazioni di Swin Faster R-CNN sono superiori agli altri metodi, raggiungendo 0,448 mAP, che è 0,028 superiore al Faster R-CNN della dorsale CNN e 0,037 superiore a YOLO-v3. Utilizzando Swin Faster R-CNN, il 90,5% dei noduli tiroidei può essere rilevato automaticamente, che è ~ 3% superiore rispetto alla dorsale della CNN basata su Faster R-CNN (87,1%). Come illustrato nella Figura 2, l'utilizzo di Swin Transformer come dorsale rende più accurato il posizionamento dei limiti.

Figure 1
Figura 1: Diagramma dell'architettura di rete Swin Faster R-CNN. Fare clic qui per visualizzare una versione ingrandita di questa figura.

Figure 2
Figura 2: Risultati del rilevamento. I risultati del rilevamento per la stessa immagine si trovano in una determinata riga. Le colonne sono i risultati del rilevamento, da sinistra a destra, rispettivamente per Swin Faster R-CNN, Faster R-CNN, YOLO-v3, SSD, RetinaNet e DETR. Le verità di base delle regioni sono contrassegnate da caselle rettangolari verdi. I risultati del rilevamento sono incorniciati dalle caselle rettangolari rosse. Fare clic qui per visualizzare una versione ingrandita di questa figura.

Metodo Spina dorsale mappa Sensibilità Specificità
YOLO-v3 DarkNet 0.411 0.869 0.877
SSD VGG16 0.425 0.841 0.849
RetinaNet ResNet50 0.382 0.845 0.841
R-CNN più veloce ResNet50 0.42 0.871 0.864
DETR ResNet50 0.416 0.882 0.86
Swin Faster R-CNN senza FPN Trasformatore Swin 0.431 0.897 0.905
Swin Faster R-CNN con FPN 0.448 0.905 0.909

Tabella 1: Confronto delle prestazioni con metodi di rilevamento di oggetti all'avanguardia.

File supplementare 1: Istruzioni per l'uso dell'annotazione dei dati e del software utilizzato. Clicca qui per scaricare questo file.

File supplementare 2: script Python utilizzato per dividere il set di dati nel set di addestramento e nel set di convalida, come indicato nel passaggio 2.4.1. Clicca qui per scaricare questo file.

File supplementare 3: script Python utilizzato per convertire il file di annotazioni in maschere, come menzionato nel passaggio 2.5.1. Clicca qui per scaricare questo file.

File supplementare 4: script Python utilizzato per trasformare i dati in un set di dati in formato CoCo, come indicato nel passaggio 2.5.2. Clicca qui per scaricare questo file.

File supplementare 5: Il file di modello Swin Transformer modificato menzionato nel passaggio 3.1. Clicca qui per scaricare questo file.

File supplementare 6: Il file di configurazione R-CNN di Swin Faster menzionato nel passaggio 3.2. Clicca qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

In questo documento viene descritto in dettaglio come eseguire l'impostazione dell'ambiente, la preparazione dei dati, la configurazione del modello e l'addestramento della rete. Nella fase di configurazione dell'ambiente, è necessario prestare attenzione per garantire che le librerie dipendenti siano compatibili e corrispondenti. Il trattamento dei dati è un passo molto importante; Tempo e sforzi devono essere spesi per garantire l'accuratezza delle annotazioni. Durante il training del modello, è possibile che venga rilevato un "ModuleNotFoundError". In questo caso, è necessario utilizzare il comando "pip install" per installare la libreria mancante. Se la perdita del set di convalida non diminuisce o oscilla notevolmente, si dovrebbe controllare il file di annotazione e cercare di regolare il tasso di apprendimento e la dimensione del batch per far convergere la perdita.

Il rilevamento dei noduli tiroidei è molto importante per il trattamento del cancro della tiroide. Il sistema CAD può aiutare i medici nel rilevamento dei noduli, evitare differenze nei risultati della diagnosi causate da fattori soggettivi e ridurre il mancato rilevamento dei noduli. Rispetto ai sistemi CAD basati su CNN esistenti, la rete proposta in questo documento introduce il trasformatore Swin per estrarre le caratteristiche delle immagini a ultrasuoni. Catturando le dipendenze a lunga distanza, Swin Faster R-CNN può estrarre le caratteristiche dei noduli dalle immagini ecografiche in modo più efficiente. I risultati sperimentali mostrano che Swin Faster R-CNN migliora la sensibilità del rilevamento dei noduli di ~ 3% rispetto al Faster R-CNN basato sulla dorsale della CNN. L'applicazione di questa tecnologia può ridurre notevolmente l'onere per i medici, in quanto può rilevare i noduli tiroidei nell'esame ecografico precoce e guidare i medici verso ulteriori trattamenti. Tuttavia, a causa del gran numero di parametri del trasformatore Swan, il tempo di inferenza di Swin Faster R-CNN è ~ 100 ms per immagine (testato su GPU NVIDIA TITAN 24G e CPU AMD Epyc 7742). Può essere difficile soddisfare i requisiti della diagnosi in tempo reale con Swin Faster R-CNN. In futuro, continueremo a raccogliere casi per verificare l'efficacia di questo metodo e condurre ulteriori studi sull'analisi dinamica delle immagini ecografiche.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non dichiarano conflitti di interesse.

Acknowledgments

Questo studio è stato sostenuto dalla National Natural Science Foundation of China (Grant No.32101188) e dal General Project of Science and Technology Department of Sichuan Province (Grant No. 2021YFS0102), Cina.

Materials

Name Company Catalog Number Comments
GPU RTX3090 Nvidia 1 24G GPU
mmdetection2.11.0 SenseTime 4 https://github.com/open-mmlab/mmdetection.git
python3.8 2 https://www.python.org
pytorch1.7.1 Facebook 3 https://pytorch.org

DOWNLOAD MATERIALS LIST

References

  1. Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
  2. Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
  3. Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
  4. Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
  5. Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
  6. Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
  7. Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
  8. Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
  9. Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
  10. Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
  11. Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
  12. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
  13. Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
  14. Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
  15. Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
  16. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
  17. Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
  18. Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
  19. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
  20. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
  21. Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
  22. Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
  23. Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
  24. Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
  25. Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
  26. Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
  27. Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
  28. Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
  29. Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
  30. Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
  31. Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
  32. Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
  33. Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
  34. Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
  35. Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
  36. Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).

Tags

Medicina Numero 194
Un modello basato su trasformatore swin per il rilevamento di noduli tiroidei nelle immagini ecografiche
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Tian, Y., Zhu, J., Zhang, L., Mou,More

Tian, Y., Zhu, J., Zhang, L., Mou, L., Zhu, X., Shi, Y., Ma, B., Zhao, W. A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images. J. Vis. Exp. (194), e64480, doi:10.3791/64480 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter