Medicine

Ein Swin Transformer-basiertes Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern

Published: April 21, 2023 doi: 10.3791/64480

Ye Tian¹, Jingqiang Zhu², Lei Zhang³, Lichao Mou³, Xiaoxiang Zhu³, Yilei Shi³, Buyun Ma¹, Wanjun Zhao²

¹Department of Ultrasonography, West China Hospital of Sichuan University, ²Department of Thyroid Surgery, West China Hospital of Sichuan University, ³MedAI Technology (Wuxi) Co. Ltd.

Summary

In dieser Arbeit wird ein neues Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern vorgeschlagen, das den Swin Transformer als Rückgrat für die langreichweitige Kontextmodellierung verwendet. Experimente belegen, dass es in Bezug auf Empfindlichkeit und Genauigkeit gut funktioniert.

Abstract

In den letzten Jahren hat die Inzidenz von Schilddrüsenkrebs zugenommen. Die Erkennung von Schilddrüsenknoten ist sowohl für die Erkennung als auch für die Behandlung von Schilddrüsenkrebs von entscheidender Bedeutung. Convolutional Neural Networks (CNNs) haben gute Ergebnisse bei der Analyse von Schilddrüsenultraschallbildern erzielt. Aufgrund des begrenzten gültigen rezeptiven Feldes der Faltungsschichten können CNNs jedoch keine weiträumigen kontextuellen Abhängigkeiten erfassen, die für die Identifizierung von Schilddrüsenknoten in Ultraschallbildern wichtig sind. Transformatornetzwerke sind effektiv bei der Erfassung von Kontextinformationen über große Reichweiten. Davon inspiriert, schlagen wir eine neuartige Methode zur Erkennung von Schilddrüsenknoten vor, die das Swin-Transformer-Backbone und Faster R-CNN kombiniert. Konkret wird zunächst ein Ultraschallbild in eine 1D-Sequenz von Einbettungen projiziert, die dann in einen hierarchischen Swin Transformer eingespeist werden.

Das Swin Transformer-Backbone extrahiert Merkmale in fünf verschiedenen Skalen, indem es verschobene Fenster für die Berechnung der Selbstaufmerksamkeit verwendet. Anschließend wird ein Feature-Pyramiden-Netzwerk (FPN) verwendet, um die Features aus verschiedenen Maßstäben zu fusionieren. Schließlich wird ein Erkennungskopf verwendet, um Begrenzungsrahmen und die entsprechenden Konfidenzwerte vorherzusagen. Für die Durchführung der Experimente wurden Daten von 2.680 Patienten verwendet, und die Ergebnisse zeigten, dass diese Methode den besten mAP-Score von 44,8 % erzielte und damit die CNN-basierten Baselines übertraf. Darüber hinaus haben wir eine bessere Empfindlichkeit (90,5 %) als die Wettbewerber erreicht. Dies deutet darauf hin, dass die Kontextmodellierung in diesem Modell für die Erkennung von Schilddrüsenknoten effektiv ist.

Introduction

Die Inzidenz von Schilddrüsenkrebs hat seit 1970 rapide zugenommen, insbesondere bei Frauen mittleren Alters¹. Schilddrüsenknoten können die Entstehung von Schilddrüsenkrebs vorhersagen, und die meisten Schilddrüsenknoten sind asymptomatisch². Die Früherkennung von Schilddrüsenknoten ist sehr hilfreich bei der Heilung von Schilddrüsenkrebs. Daher sollten sich nach den aktuellen Praxisleitlinien alle Patienten mit Verdacht auf knotigen Kropf bei der körperlichen Untersuchung oder mit auffälligen Bildgebungsbefunden einer weiteren Untersuchung unterziehen ^3,4.

Der Schilddrüsenultraschall (US) ist eine gängige Methode zur Erkennung und Charakterisierung von Schilddrüsenläsionen ^5,6. US ist eine bequeme, kostengünstige und strahlungsfreie Technologie. Die Anwendung von US wird jedoch leicht durch den Operator^beeinflusst ^7,8. Merkmale wie Form, Größe, Echogenität und Textur von Schilddrüsenknoten sind auf US-Bildern leicht zu unterscheiden. Obwohl bestimmte US-Merkmale - Verkalkungen, Echogenität und unregelmäßige Grenzen - oft als Kriterien für die Identifizierung von Schilddrüsenknoten angesehen werden, ist das Vorhandensein von Interobserver-Variabilität unvermeidlich ^8,9. Die Diagnoseergebnisse von Radiologen mit unterschiedlichem Erfahrungsstand sind unterschiedlich. Unerfahrene Radiologen stellen häufiger Fehldiagnosen als erfahrene Radiologen. Einige Merkmale von US wie Reflexionen, Schatten und Echos können die Bildqualität beeinträchtigen. Diese Verschlechterung der Bildqualität, die durch die Art der US-Bildgebung verursacht wird, macht es selbst erfahrenen Ärzten schwer, Knötchen genau zu lokalisieren.

Die computergestützte Diagnose (CAD) von Schilddrüsenknoten hat sich in den letzten Jahren rasant weiterentwickelt und kann Fehler, die von verschiedenen Ärzten verursacht werden, effektiv reduzieren und Radiologen helfen, Knoten schnell und genau zu diagnostizieren^10,11. Für die Analyse von US-Knoten in der Schilddrüse wurden verschiedene CNN-basierte CAD-Systeme vorgeschlagen, darunter Segmentierung 12,13, Detektion 14,15 und Klassifizierung ^16,17. CNN ist ein mehrschichtiges, überwachtes Lernmodell¹⁸, und die Kernmodule von CNN sind die Faltungs- und Pooling-Schichten. Die Faltungs-Layer werden für die Feature-Extraktion verwendet, und die Pooling-Layer werden für das Downsampling verwendet. Die Faltungsebenen für Schatten können primäre Merkmale wie Textur, Kanten und Konturen extrahieren, während tiefe Faltungsebenen semantische Merkmale auf hoher Ebene erlernen.

CNNs haben große Erfolge im Bereich Computer Vision 19,20,21 erzielt. CNNs sind jedoch nicht in der Lage, weitreichende kontextuelle Abhängigkeiten zu erfassen, da das Feld der Faltungsschichten begrenzt ist. In der Vergangenheit verwendeten Backbone-Architekturen für die Bildklassifizierung meist CNNs. Mit dem Aufkommen von Vision Transformer (ViT)^22,23 hat sich dieser Trend geändert, und jetzt verwenden viele moderne Modelle Transformatoren als Backbone. Basierend auf nicht überlappenden Bildfeldern verwendet ViT einen Standard-Transformator-Encoder²⁵, um räumliche Beziehungen global zu modellieren. Der Swin Transformer²⁴ führt außerdem Shift-Fenster ein, um Funktionen zu erlernen. Die Verschiebungsfenster bringen nicht nur eine höhere Effizienz, sondern reduzieren auch die Länge der Sequenz erheblich, da die Selbstaufmerksamkeit im Fenster berechnet wird. Gleichzeitig kann die Interaktion zwischen zwei benachbarten Fenstern durch den Vorgang des Verschiebens (Bewegens) erfolgen. Die erfolgreiche Anwendung des Swin-Transformators in der Computer Vision hat zur Untersuchung von transformatorbasierten Architekturen für die Ultraschallbildanalyse geführt²⁶.

Kürzlich schlugen Li et al. einen Deep-Learning-Ansatz²⁸ für die Erkennung von papillärem Schilddrüsenkrebs vor, der von Faster R-CNN²⁷ inspiriert ist. Faster R-CNN ist eine klassische CNN-basierte Objekterkennungsarchitektur. Das ursprüngliche Faster R-CNN besteht aus vier Modulen: dem CNN-Backbone, dem Region Proposal Network (RPN), der ROI-Pooling-Schicht und dem Detektionskopf. Der CNN-Backbone verwendet eine Reihe grundlegender conv+bn+relu+pooling-Layer, um Feature-Maps aus dem Eingabebild zu extrahieren. Anschließend werden die Feature-Karten in den RPN- und den ROI-Pooling-Layer eingespeist. Die Aufgabe des RPN-Netzwerks besteht darin, regionale Vorschläge zu erstellen. Dieses Modul verwendet softmax, um zu bestimmen, ob Anker positiv sind, und generiert genaue Anker durch Regression des Begrenzungsrahmens. Der ROI-Pooling-Layer extrahiert die Vorschlags-Feature-Maps, indem er die Eingabe-Feature-Maps und -Vorschläge sammelt und die Proposal-Feature-Maps in den nachfolgenden Erkennungskopf einspeist. Der Erkennungskopf verwendet die Vorschlags-Feature-Karten, um Objekte zu klassifizieren und genaue Positionen der Erkennungsfelder durch Begrenzungsrahmenregression zu erhalten.

In diesem Artikel wird ein neues Netzwerk zur Erkennung von Schilddrüsenknoten namens Swin Faster R-CNN vorgestellt, das durch den Ersatz des CNN-Backbones in Faster R-CNN durch den Swin-Transformator gebildet wird, was zu einer besseren Extraktion von Merkmalen für die Erkennung von Knoten aus Ultraschallbildern führt. Darüber hinaus wird das Merkmalspyramidennetzwerk (FPN)²⁹ verwendet, um die Detektionsleistung des Modells für Knoten unterschiedlicher Größe durch die Aggregation von Merkmalen unterschiedlicher Maßstäbe zu verbessern.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Diese retrospektive Studie wurde vom institutionellen Prüfungsausschuss des West China Hospital, Sichuan University, Sichuan, China, genehmigt und auf das Erfordernis der Einholung einer informierten Einwilligung verzichtet.

1. Einrichten der Umgebung

GPU-Software (Graphic Processing Unit)
1. Um Deep-Learning-Anwendungen zu implementieren, konfigurieren Sie zunächst die GPU-bezogene Umgebung. Laden Sie GPU-geeignete Software und Treiber von der GPU-Website herunter und installieren Sie sie.
  HINWEIS: In der Tabelle der Materialien finden Sie die in dieser Studie verwendeten Materialien.
Installation von Python3.8
1. Öffnen Sie ein Terminal an der Maschine. Geben Sie Folgendes ein:
  Befehlszeile: sudo apt-get install python3.8 python-dev python-virtualenv
Installation von Pytorch1.7
1. Befolgen Sie die Schritte auf der offiziellen Website, um Miniconda herunterzuladen und zu installieren.
2. Erstellen Sie eine Conda-Umgebung und aktivieren Sie sie.
  Befehlszeile: conda create --name SwinFasterRCNN python=3.8 -y
  Kommandozeile: conda activate SwinFasterRCNN
3. Installieren Sie Pytorch.
  Befehlszeile: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
MMDetection-Installation
1. Klonen Sie aus dem offiziellen Github-Repository.
  Befehlszeile: git clone https://github.com/open-mmlab/mmdetection.git
2. Installieren Sie MMDetection.
  Kommandozeile: cd mmdetection
  Befehlszeile: pip install -v -e .

2. Datenaufbereitung

Datensammlung
1. Sammelte die Ultraschallbilder (hier 3.000 Fälle aus einem Tertiärkrankenhaus der Klasse A). Stellen Sie sicher, dass jeder Fall über Diagnoseakten, Behandlungspläne, US-Berichte und die entsprechenden US-Bilder verfügt.
2. Legen Sie alle US-Bilder in einem Ordner mit dem Namen "images" ab.
  HINWEIS: Die in dieser Studie verwendeten Daten umfassten 3.853 US-Bilder aus 3.000 Fällen.
Datenbereinigung
1. Überprüfen Sie den Datensatz manuell auf Bilder von Nicht-Schilddrüsenbereichen, wie z. B. Lymphbilder.
2. Überprüfen Sie den Datensatz manuell auf Bilder, die einen Farbdopplerfluss enthalten.
3. Löschen Sie die Bilder, die Sie in den beiden vorherigen Schritten ausgewählt haben.
  HINWEIS: Nach der Datenbereinigung blieben 3.000 Bilder aus 2.680 Fällen übrig.
Annotation von Daten
1. Lassen Sie einen leitenden Arzt den Knotenbereich im US-Bild lokalisieren und die Knotengrenze skizzieren.
  HINWEIS: Die Annotationssoftware und der Annotationsprozess finden Sie in Supplemental File 1.
2. Lassen Sie die Annotationsergebnisse von einem anderen leitenden Arzt überprüfen und überarbeiten.
3. Platzieren Sie die mit Anmerkungen versehenen Daten in einem separaten Ordner mit dem Namen "Anmerkungen".
Aufteilung der Daten
1. Führen Sie das Python-Skript aus und legen Sie den Pfad des Bildes in Schritt 2.1.2 und die Pfade der Anmerkungen in Schritt 2.3.3 fest. Teilen Sie alle Bilder und die entsprechenden beschrifteten Dateien im Verhältnis 8:2 nach dem Zufallsprinzip in Trainings- und Validierungssätze auf. Speichern Sie die Trainingssatzdaten im Ordner "Train" und die Validierungssatzdaten im Ordner "Val".
  HINWEIS: Python-Skripte werden in Supplemental File 2 bereitgestellt.
Konvertieren in das CoCo-Dataset-Format
HINWEIS: Um MMDetection zu verwenden, verarbeiten Sie die Daten in einem CoCo-Dataset-Format, das eine JSON-Datei mit den Anmerkungsinformationen und einen Bildordner mit den US-Bildern enthält.
1. Führen Sie das Python-Skript aus und geben Sie die Ordnerpfade der Anmerkungen ein (Schritt 2.3.3), um die vom Arzt umrissenen Knotenbereiche zu extrahieren und in Masken umzuwandeln. Speichern Sie alle Masken im Ordner "Masken".
  HINWEIS: Die Python-Skripte werden in Supplemental File 3 bereitgestellt.
2. Führen Sie das Python-Skript aus und legen Sie in Schritt 2.5.1 den Pfad des Ordners masks fest, um die Daten in einen Datensatz im CoCo-Format umzuwandeln und eine JSON-Datei mit den US-Bildern zu generieren.
  HINWEIS: Python-Skripte werden in Supplemental File 4 bereitgestellt.

3. Schnellere RCNN-Konfiguration

Laden Sie die Swin Transformer-Modelldatei (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py herunter, ändern Sie sie und legen Sie sie im Ordner "mmdetection/mmdet/models/backbones/" ab. Öffnen Sie die Datei "swin_transformer.py" in einem vim-Texteditor, und ändern Sie sie als Swin Transformer-Modelldatei, die in Supplemental File 5 enthalten ist.
Befehlszeile: vim swin_transformer.py
Erstellen Sie eine Kopie der Faster R-CNN-Konfigurationsdatei, ändern Sie das Backbone in Swin Transformer, und richten Sie die FPN-Parameter ein.
Kommandozeile: cd mmdetection/configs/faster_rcnn
Kommandozeile: cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
HINWEIS: Die Swin Faster R-CNN-Konfigurationsdatei (swin_faster_rcnn_swin.py) wird in Supplemental File 6 bereitgestellt. Die Struktur des Swin Faster R-CNN-Netzwerks ist in Abbildung 1 dargestellt.
Legen Sie den Datensatzpfad in der Konfigurationsdatei auf den Datensatzpfad im CoCo-Format fest (Schritt 2.5.2). Öffnen Sie die Datei "coco_detection.py" im vim-Texteditor und ändern Sie die folgende Zeile:
data_root = "Datensatzpfad (Schritt 2.5.2)"
Befehlszeile:vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Schnelleres Training des Swin R-CNN

Bearbeiten Sie mmdetection/configs/_base_/schedules/schedule_1x.py und legen Sie die standardmäßigen trainingsbezogenen Parameter fest, einschließlich der Lernrate, des Optimierers und der Epoche. Öffnen Sie die Datei "schedule_1x.py" im vim-Texteditor und ändern Sie die folgenden Zeilen:
optimizer = dict(type="AdamW", lr=0.001, momentum=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
Befehlszeile:vim mmdetection/configs/_base_/schedules/schedule_1x.py
HINWEIS: In diesem Protokoll für dieses Dokument wurde die Lernrate auf 0,001 festgelegt, der AdamW-Optimierer wurde verwendet, die maximale Trainingsepoche wurde auf 48 und die Batchgröße auf 16 festgelegt.
Beginnen Sie das Training, indem Sie die folgenden Befehle eingeben. Warten Sie, bis das Netzwerk mit dem Training für 48 Epochen beginnt und die resultierenden trainierten Gewichtungen des Swin Faster R-CNN-Netzwerks im Ausgabeordner generiert werden. Speichern Sie die Modellgewichte mit der höchsten Genauigkeit im Validierungssatz.
Kommandozeile: cd mmdetection
Befehlszeile: python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
HINWEIS: Das Modell wurde auf einer "NVIDIA GeForce RTX3090 24G"-GPU trainiert. Als zentrale Recheneinheit kam der "AMD Epyc 7742 64-Core Prozessor × 128" zum Einsatz, als Betriebssystem kam Ubuntu 18.06 zum Einsatz. Die Gesamttrainingszeit betrug ~2 h.

5. Erkennung von Schilddrüsenknoten auf neuen Bildern

Wählen Sie nach dem Training das Modell mit der besten Leistung im Validierungsset für die Erkennung von Schilddrüsenknoten in den neuen Bildern aus.
1. Ändern Sie zunächst die Größe des Bildes auf 512 Pixel x 512 Pixel und normalisieren Sie es. Diese Vorgänge werden automatisch ausgeführt, wenn das Testskript ausgeführt wird.
  Befehlszeile: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
2. Warten Sie, bis das Skript die vortrainierten Modellparameter automatisch in das Swin Faster R-CNN geladen hat, und speisen Sie das vorverarbeitete Bild zur Inferenz in das Swin Faster R-CNN ein. Warten Sie, bis das Swin Faster R-CNN das Vorhersagefeld für jedes Bild ausgegeben hat.
3. Erlauben Sie dem Skript schließlich, automatisch eine NMS-Nachbearbeitung für jedes Bild durchzuführen, um Duplikaterkennungsfelder zu entfernen.
  HINWEIS: Die Erkennungsergebnisse werden in den angegebenen Ordner ausgegeben, der die Bilder mit den Erkennungsfeldern und den Koordinaten des Begrenzungsrahmens in einer gepackten Datei enthält.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die US-Bilder der Schilddrüse wurden von September 2008 bis Februar 2018 in zwei Krankenhäusern in China aufgenommen. Die Zulassungskriterien für die Aufnahme der US-Bilder in diese Studie waren die konventionelle US-Untersuchung vor der Biopsie und der chirurgischen Behandlung, die Diagnose mit Biopsie oder postoperativer Pathologie sowie das Alter ≥ 18 Jahren. Ausschlusskriterium waren Bilder ohne Schilddrüsengewebe.

Die 3.000 Ultraschallbilder umfassten 1.384 bösartige und 1.616 gutartige Knoten. Die Mehrzahl (90%) der malignen Knoten waren papilläre Karzinome, und 66% der gutartigen Knoten waren knotige Struma. Hier waren 25 % der Knötchen kleiner als 5 mm, 38 % zwischen 5 mm und 10 mm und 37 % größer als 10 mm.

Alle US-Bilder wurden mit Philips IU22 und DC-80 aufgenommen, wobei der Standard-Schilddrüsenuntersuchungsmodus verwendet wurde. Beide Instrumente waren mit 5-13 MHz Linearsonden ausgestattet. Für eine gute Exposition der unteren Schilddrüsenränder wurden alle Patienten in Rückenlage mit gestrecktem Rücken untersucht. Sowohl die Schilddrüsenlappen als auch der Isthmus wurden in der Längs- und Querebene gemäß den Akkreditierungsstandards des American College of Radiology gescannt. Alle Untersuchungen wurden von zwei leitenden Schilddrüsenradiologen mit ≥10 Jahren klinischer Erfahrung durchgeführt. Die Schilddrüsendiagnose basierte auf den histopathologischen Befunden aus der Feinnadelaspirationsbiopsie oder der Schilddrüsenoperation.

Im wirklichen Leben, da US-Bilder durch Rauschen verfälscht werden, ist es wichtig, eine ordnungsgemäße Vorverarbeitung der US-Bilder durchzuführen, wie z. B. Bildentrauschung auf der Grundlage der Wavelet-Transformation³⁰, Kompressionssensorik 31 und Histogrammentzerrung³². In dieser Arbeit haben wir die Histogrammentzerrung verwendet, um die US-Bilder vorzuverarbeiten, die Bildqualität zu verbessern und die durch Rauschen verursachte Verschlechterung der Bildqualität zu verringern.

Im Folgenden werden True Positive, False Positive, True Negative und False Negative als TP, FP, TN bzw. FN bezeichnet. Wir verwendeten mAP, Sensitivität und Spezifität, um die Knotenerkennungsleistung des Modells zu bewerten. mAP ist eine gängige Metrik in der Objekterkennung. Sensitivität und Spezifität wurden mit Gleichung (1) und Gleichung (2) berechnet:

Equation 1 (1)

Equation 2 (2)

In diesem Artikel wird TP definiert als die Anzahl der korrekt erkannten Knoten, die einen Schnittpunkt über Union (IoU) zwischen der Vorhersagebox und der Ground-Truth-Box von >0,3 und einen Konfidenzwert von >0,6 aufweisen. IoU ist der Schnittpunkt über der Vereinigung, der mit Gleichung (3) berechnet wird:

Equation 3 (3)

Wir haben mehrere klassische Objekterkennungsnetzwerke verglichen, darunter SSD 33, YOLO-v3³⁴, CNN-Backbone-basiertes Faster R-CNN²⁷, RetinaNet³⁵ und DETR³⁶. YOLO-v3 und SSD sind einstufige Detektionsnetzwerke, DETR ist ein transformatorbasiertes Objekterkennungsnetzwerk und Faster R-CNN und RetinaNet sind zweistufige Detektionsnetzwerke. Tabelle 1 zeigt, dass die Leistung von Swin Faster R-CNN den anderen Methoden überlegen ist und 0,448 mAP erreicht, was 0,028 höher ist als das schnellere R-CNN des CNN-Backbones und 0,037 höher als das von YOLO-v3. Durch die Verwendung von Swin Faster R-CNN können 90,5 % der Schilddrüsenknoten automatisch erkannt werden, was ~3 % höher ist als das CNN-Backbone-basierte Faster R-CNN (87,1 %). Wie in Abbildung 2 dargestellt, wird durch die Verwendung von Swin Transformer als Backbone die Grenzpositionierung genauer.

Abbildung 1: Diagramm der Swin Faster R-CNN-Netzwerkarchitektur. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 2: Erkennungsergebnisse. Die Erkennungsergebnisse für dasselbe Bild befinden sich in einer bestimmten Zeile. Die Spalten sind die Erkennungsergebnisse (von links nach rechts) für Swin Faster R-CNN, Faster R-CNN, YOLO-v3, SSD, RetinaNet bzw. DETR. Die Ground Truths der Regionen sind mit grünen rechteckigen Kästchen markiert. Die Detektionsergebnisse werden von den roten rechteckigen Kästchen eingerahmt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Methode	Rückgrat	Landkarte	Empfindlichkeit	Spezifität
YOLO-v3	Darknet	0.411	0.869	0.877
SSD	VGG16	0.425	0.841	0.849
RetinaNet	ResNet50	0.382	0.845	0.841
Schnelleres R-CNN	ResNet50	0.42	0.871	0.864
DETR	ResNet50	0.416	0.882	0.86
Schnelleres R-CNN ohne FPN	Swin Transformator	0.431	0.897	0.905
Schnelleres Swin R-CNN mit FPN	Swin Transformator	0.448	0.905	0.909

Tabelle 1: Leistungsvergleich mit modernen Objektdetektionsmethoden.

Supplemental File 1: Bedienungsanleitung für die Datenannotation und die verwendete Software. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 2: Python-Skript, das verwendet wird, um den Datensatz in den Trainingssatz und den Validierungssatz zu unterteilen, wie in Schritt 2.4.1 erwähnt. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 3: Python-Skript, das zum Konvertieren der Anmerkungsdatei in Masken verwendet wird, wie in Schritt 2.5.1 erwähnt. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 4: Python-Skript, das verwendet wird, um die Daten in einen Datensatz im CoCo-Format umzuwandeln, wie in Schritt 2.5.2 erwähnt. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 5: Die modifizierte Swin Transformer-Modelldatei, die in Schritt 3.1 erwähnt wird. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 6: Die in Schritt 3.2 erwähnte Swin Faster R-CNN-Konfigurationsdatei. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

In diesem Whitepaper wird ausführlich beschrieben, wie die Umgebung, die Datenvorbereitung, die Modellkonfiguration und das Netzwerktraining durchgeführt werden. In der Einrichtungsphase der Umgebung muss darauf geachtet werden, dass die abhängigen Bibliotheken kompatibel und übereinstimmend sind. Die Datenverarbeitung ist ein sehr wichtiger Schritt. Es muss Zeit und Mühe aufgewendet werden, um die Richtigkeit der Anmerkungen zu gewährleisten. Beim Trainieren des Modells kann ein "ModuleNotFoundError" auftreten. In diesem Fall ist es notwendig, den Befehl "pip install" zu verwenden, um die fehlende Bibliothek zu installieren. Wenn der Verlust des Validierungssatzes nicht abnimmt oder stark oszilliert, sollte man die Anmerkungsdatei überprüfen und versuchen, die Lernrate und die Batchgröße anzupassen, damit der Verlust konvergiert.

Die Erkennung von Schilddrüsenknoten ist für die Behandlung von Schilddrüsenkrebs sehr wichtig. Das CAD-System kann Ärzte bei der Erkennung von Knoten unterstützen, Unterschiede in den Diagnoseergebnissen vermeiden, die durch subjektive Faktoren verursacht werden, und die verpasste Erkennung von Knoten reduzieren. Im Vergleich zu bestehenden CNN-basierten CAD-Systemen führt das in diesem Artikel vorgeschlagene Netzwerk den Swin-Transformator ein, um Ultraschallbildmerkmale zu extrahieren. Durch die Erfassung von Abhängigkeiten über große Entfernungen kann Swin Faster R-CNN die Knötchenmerkmale effizienter aus Ultraschallbildern extrahieren. Die experimentellen Ergebnisse zeigen, dass Swin Faster R-CNN die Sensitivität der Knotenerkennung um ~3% im Vergleich zu CNN-Backbone-basiertem Faster R-CNN verbessert. Die Anwendung dieser Technologie kann die Belastung der Ärzte erheblich reduzieren, da sie Schilddrüsenknoten in der Ultraschallfrühuntersuchung erkennen und Ärzte zur weiteren Behandlung leiten kann. Aufgrund der großen Anzahl von Parametern des Swin Transformers beträgt die Inferenzzeit von Swin Faster R-CNN jedoch ~100 ms pro Bild (getestet auf NVIDIA TITAN 24G GPU und AMD Epyc 7742 CPU). Es kann eine Herausforderung sein, die Anforderungen der Echtzeitdiagnose mit Swin Faster R-CNN zu erfüllen. In Zukunft werden wir weiterhin Fälle sammeln, um die Wirksamkeit dieser Methode zu überprüfen und weitere Studien zur dynamischen Ultraschallbildanalyse durchzuführen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren erklären keine Interessenkonflikte.

Acknowledgments

Diese Studie wurde von der National Natural Science Foundation of China (Grant No.32101188) und dem General Project of Science and Technology Department der Provinz Sichuan (Grant No. 2021YFS0102), China, unterstützt.

Materials

Name	Company	Catalog Number	Comments
GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

DOWNLOAD MATERIALS LIST

References

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).

Medicine

Ein Swin Transformer-basiertes Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.