Medicine

Un modèle basé sur un transformateur Swin pour la détection de nodules thyroïdiens dans des images échographiques

Published: April 21, 2023 doi: 10.3791/64480

Ye Tian¹, Jingqiang Zhu², Lei Zhang³, Lichao Mou³, Xiaoxiang Zhu³, Yilei Shi³, Buyun Ma¹, Wanjun Zhao²

¹Department of Ultrasonography, West China Hospital of Sichuan University, ²Department of Thyroid Surgery, West China Hospital of Sichuan University, ³MedAI Technology (Wuxi) Co. Ltd.

Summary

Ici, un nouveau modèle pour la détection des nodules thyroïdiens dans les images échographiques est proposé, qui utilise Swin Transformer comme épine dorsale pour effectuer une modélisation contextuelle à longue distance. Les expériences prouvent qu’il fonctionne bien en termes de sensibilité et de précision.

Abstract

Ces dernières années, l’incidence du cancer de la thyroïde a augmenté. La détection des nodules thyroïdiens est essentielle à la fois pour la détection et le traitement du cancer de la thyroïde. Les réseaux de neurones convolutifs (CNN) ont obtenu de bons résultats dans les tâches d’analyse d’images échographiques thyroïdiennes. Cependant, en raison du champ réceptif valide limité des couches convolutionnelles, les CNN ne parviennent pas à capturer les dépendances contextuelles à longue portée, qui sont importantes pour identifier les nodules thyroïdiens dans les images échographiques. Les réseaux de transformateurs sont efficaces pour capturer des informations contextuelles à longue portée. Inspirés par cela, nous proposons une nouvelle méthode de détection des nodules thyroïdiens qui combine le squelette Swin Transformer et Faster R-CNN. Plus précisément, une image échographique est d’abord projetée dans une séquence 1D d’intégrations, qui sont ensuite introduites dans un transformateur Swin hiérarchique.

Le backbone Swin Transformer extrait les caractéristiques à cinq échelles différentes en utilisant des fenêtres décalées pour le calcul de l’auto-attention. Par la suite, un réseau pyramidal d’entités (FPN) est utilisé pour fusionner les caractéristiques de différentes échelles. Enfin, une tête de détection est utilisée pour prédire les cadres englobants et les scores de confiance correspondants. Les données recueillies auprès de 2 680 patients ont été utilisées pour mener les expériences, et les résultats ont montré que cette méthode a obtenu le meilleur score mAP de 44,8%, surpassant les lignes de base basées sur CNN. De plus, nous avons gagné en sensibilité (90,5%) que les concurrents. Cela indique que la modélisation contextuelle dans ce modèle est efficace pour la détection des nodules thyroïdiens.

Introduction

L’incidence du cancer de la thyroïde a augmenté rapidement depuis 1970, en particulier chez les femmes d’âge moyen¹. Les nodules thyroïdiens peuvent prédire l’émergence d’un cancer de la thyroïde, et la plupart des nodules thyroïdiens sont asymptomatiques². La détection précoce des nodules thyroïdiens est très utile pour guérir le cancer de la thyroïde. Par conséquent, selon les directives de pratique actuelles, tous les patients présentant un goitre nodulaire suspecté à l’examen physique ou présentant des résultats d’imagerie anormaux devraient subir un examen plus approfondi ^3,4.

L’échographie thyroïdienne (US) est une méthode couramment utilisée pour détecter et caractériser les lésions thyroïdiennes ^5,6. Les États-Unis sont une technologie pratique, peu coûteuse et sans rayonnement. Cependant, l’application des États-Unis est facilement affectée par l’opérateur ^7,8. Des caractéristiques telles que la forme, la taille, l’échogénicité et la texture des nodules thyroïdiens sont facilement reconnaissables sur les images américaines. Bien que certaines caractéristiques américaines - calcifications, échogénicité et bordures irrégulières - soient souvent considérées comme des critères d’identification des nodules thyroïdiens, la présence d’une variabilité inter-observateurs est inévitable ^8,9. Les résultats de diagnostic des radiologues ayant différents niveaux d’expérience sont différents. Les radiologistes inexpérimentés sont plus susceptibles de mal diagnostiquer que les radiologistes expérimentés. Certaines caractéristiques de l’US telles que les reflets, les ombres et les échos peuvent dégrader la qualité de l’image. Cette dégradation de la qualité d’image causée par la nature de l’imagerie américaine rend difficile même pour les médecins expérimentés de localiser les nodules avec précision.

Le diagnostic assisté par ordinateur (CAD) des nodules thyroïdiens s’est développé rapidement ces dernières années et peut réduire efficacement les erreurs causées par différents médecins et aider les radiologues à diagnostiquer les nodules rapidement et avec précision^10,11. Divers systèmes de CAO basés sur CNN ont été proposés pour l’analyse des nodules thyroïdiens américains, y compris la segmentation 12,13, la détection 14,15 et la classification ^16,17. CNN est un modèle d’apprentissage supervisé^{multicouche 18}, et les modules de base de CNN sont les couches de convolution et de pooling. Les couches de convolution sont utilisées pour l’extraction d’entités et les couches de regroupement sont utilisées pour le sous-échantillonnage. Les calques convolutifs d’ombre peuvent extraire des entités primaires telles que la texture, les bords et les contours, tandis que les calques convolutifs profonds apprennent des entités sémantiques de haut niveau.

Les CNN ont eu beaucoup de succès dans la vision par ordinateur 19,20,21. Cependant, les CNN ne parviennent pas à capturer les dépendances contextuelles à longue portée en raison du champ récepteur valide limité des couches convolutionnelles. Dans le passé, les architectures de base pour la classification d’images utilisaient principalement des CNN. Avec l’avènement de Vision Transformer (ViT)^22,23, cette tendance a changé^, et maintenant de nombreux modèles de pointe utilisent des transformateurs comme épine dorsale. Basé sur des patchs d’image qui ne se chevauchent pas, ViT utilise un codeur de transformateur standard²⁵ pour modéliser globalement les relations spatiales. Le Swin Transformer²⁴ introduit en outre des fenêtres de changement de vitesse pour apprendre les fonctionnalités. Les fenêtres de changement de vitesse apportent non seulement une plus grande efficacité, mais réduisent également considérablement la longueur de la séquence car l’attention personnelle est calculée dans la fenêtre. Dans le même temps, l’interaction entre deux fenêtres adjacentes peut se faire par l’opération de déplacement (mouvement). L’application réussie du transformateur Swin en vision par ordinateur a conduit à l’étude d’architectures basées sur des transformateurs pour l’analyse d’images par ultrasons²⁶.

Récemment, Li et al. ont proposé une approche d’apprentissage profond²⁸ pour la détection du cancer papillaire thyroïdien inspirée de Faster R-CNN²⁷. Faster R-CNN est une architecture classique de détection d’objets basée sur CNN. Le Faster R-CNN original comporte quatre modules: le backbone CNN, le réseau de proposition de région (RPN), la couche de mise en commun du retour sur investissement et la tête de détection. Le backbone CNN utilise un ensemble de couches conv+bn+relu+pooling de base pour extraire les cartes d’entités de l’image d’entrée. Ensuite, les cartes d’entités sont introduites dans le RPN et la couche de regroupement de retour sur investissement. Le rôle du réseau RPN est de générer des propositions régionales. Ce module utilise softmax pour déterminer si les ancres sont positives et génère des ancres précises par régression du cadre englobant. La couche de regroupement de ROI extrait les cartes d’entités de proposition en collectant les cartes d’entités et les propositions d’entrée et alimente les cartes d’entités de proposition dans la tête de détection suivante. La tête de détection utilise les cartes d’entités de proposition pour classer les objets et obtenir des positions précises des boîtes de détection par régression du cadre englobant.

Cet article présente un nouveau réseau de détection de nodules thyroïdiens appelé Swin Faster R-CNN formé en remplaçant le réseau fédérateur CNN dans Faster R-CNN par le transformateur Swin, ce qui permet une meilleure extraction des caractéristiques de détection des nodules à partir d’images échographiques. En outre, le réseau pyramidal de caractéristiques (FPN)²⁹ est utilisé pour améliorer les performances de détection du modèle pour les nodules de différentes tailles en agrégeant des caractéristiques de différentes échelles.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Cette étude rétrospective a été approuvée par le comité d’examen institutionnel de l’hôpital de Chine occidentale, Université du Sichuan, Sichuan, Chine, et l’exigence d’obtenir un consentement éclairé a été levée.

1. Configuration de l’environnement

Logiciel d’unité de traitement graphique (GPU)
1. Pour implémenter des applications de deep learning, configurez d’abord l’environnement lié au GPU. Téléchargez et installez les logiciels et pilotes appropriés au GPU à partir du site Web du GPU.
  REMARQUE : Voir le tableau des matériaux pour ceux utilisés dans cette étude.
Installation de Python3.8
1. Ouvrez un terminal sur la machine. Tapez ce qui suit :
  Ligne de commande: sudo apt-get install python3.8 python-dev python-virtualenv
Installation de Pytorch1.7
1. Suivez les étapes sur le site officiel pour télécharger et installer Miniconda.
2. Créez un environnement conda et activez-le.
  Ligne de commande: conda create --name SwinFasterRCNN python=3.8 -y
  Ligne de commande: conda activate SwinFasterRCNN
3. Installez Pytorch.
  Ligne de commande: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
Installation de MMDetection
1. Cloner à partir du dépôt officiel Github.
  Ligne de commande : git clone https://github.com/open-mmlab/mmdetection.git
2. Installez MMDetection.
  Ligne de commande : cd mmdetection
  Ligne de commande : pip install -v -e .

2. Préparation des données

Collecte de données
1. Recueilli les images échographiques (ici, 3 000 cas d’un hôpital tertiaire de grade A). Assurez-vous que chaque cas a des dossiers de diagnostic, des plans de traitement, des rapports américains et les images américaines correspondantes.
2. Placez toutes les images américaines dans un dossier nommé « images ».
  REMARQUE: Les données utilisées dans cette étude comprenaient 3 853 images américaines provenant de 3 000 cas.
Nettoyage des données
1. Vérifiez manuellement l’ensemble de données pour obtenir des images de zones non thyroïdiennes, telles que des images lymphatiques.
2. Vérifiez manuellement le jeu de données pour les images contenant un flux Doppler couleur.
3. Supprimez les images sélectionnées lors des deux étapes précédentes.
  REMARQUE: Après le nettoyage des données, 3 000 images ont été laissées sur 2 680 cas.
Annotation de données
1. Demandez à un médecin principal de localiser la zone nodulaire dans l’image américaine et de définir la limite du nodule.
  REMARQUE : Le logiciel et le processus d’annotation se trouvent dans le fichier supplémentaire 1.
2. Demandez à un autre médecin principal d’examiner et de réviser les résultats de l’annotation.
3. Placez les données annotées dans un dossier séparé appelé « Annotations ».
Répartition des données
1. Exécutez le script python et définissez le chemin de l’image à l’étape 2.1.2 et les chemins des annotations à l’étape 2.3.3. Divisez au hasard toutes les images et les fichiers étiquetés correspondants en ensembles d’apprentissage et de validation à un ratio de 8:2. Enregistrez les données du jeu d’entraînement dans le dossier « Train » et les données du jeu de validation dans le dossier « Val ».
  Remarque : les scripts Python sont fournis dans le fichier supplémentaire 2.
Conversion au format de jeu de données CoCo
REMARQUE : Pour utiliser MMDetection, traitez les données dans un format de jeu de données CoCo, qui inclut un fichier json contenant les informations d’annotation et un dossier d’images contenant les images américaines.
1. Exécutez le script python et entrez les chemins du dossier d’annotations (étape 2.3.3) pour extraire les zones de nodules définies par le médecin et les convertir en masques. Enregistrez tous les masques dans le dossier « Masques ».
  Remarque : Les scripts Python sont fournis dans le fichier supplémentaire 3.
2. Exécutez le script python et définissez le chemin du dossier masks à l’étape 2.5.1 pour transformer les données en un jeu de données au format CoCo et générer un fichier json avec les images américaines.
  Remarque : Les scripts Python sont fournis dans le fichier supplémentaire 4.

3. Configuration RCNN Swin Faster

Téléchargez le fichier de modèle Swin Transformer (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py), modifiez-le et placez-le dans le dossier « mmdetection/mmdet/models/backbones/ ». Ouvrez le fichier « swin_transformer.py » dans un éditeur de texte vim et modifiez-le en tant que fichier modèle Swin Transformer fourni dans le fichier supplémentaire 5.
Ligne de commande : vim swin_transformer.py
Faites une copie du fichier de configuration Faster R-CNN, remplacez le backbone par Swin Transformer et configurez les paramètres FPN.
Ligne de commande : cd mmdetection/configs/faster_rcnn
Ligne de commande : cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
Remarque : Le fichier de configuration R-CNN Swin Faster (swin_faster_rcnn_swin.py) est fourni dans le fichier supplémentaire 6. La structure du réseau Swin Faster R-CNN est illustrée à la figure 1.
Définissez le chemin d’accès du jeu de données au format CoCo (étape 2.5.2) dans le fichier de configuration. Ouvrez le fichier « coco_detection.py » dans l’éditeur de texte vim et modifiez la ligne suivante :
data_root = « chemin du jeu de données (étape 2.5.2) »
Ligne de commande : vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Entraînement du Swin Faster R-CNN

Modifiez mmdetection/configs/_base_/schedules/schedule_1x.py et définissez les paramètres par défaut liés à l’entraînement, notamment le taux d’apprentissage, l’optimiseur et l’époque. Ouvrez le fichier « schedule_1x.py » dans l’éditeur de texte vim et modifiez les lignes suivantes:
optimizer = dict(type="AdamW », lr=0.001, momentum=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
Ligne de commande : vim mmdetection/configs/_base_/schedules/schedule_1x.py
REMARQUE: Dans ce protocole pour cet article, le taux d’apprentissage a été défini sur 0,001, l’optimiseur AdamW a été utilisé, l’époque d’entraînement maximale a été définie sur 48 et la taille du lot a été définie sur 16.
Commencez la formation en tapant les commandes suivantes. Attendez que le réseau commence à s’entraîner pendant 48 époques et que les poids entraînés du réseau Swin Faster R-CNN soient générés dans le dossier de sortie. Enregistrez les poids du modèle avec la plus grande précision sur le jeu de validation.
Ligne de commande : cd mmdetection
Ligne de commande : python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
REMARQUE: Le modèle a été formé sur un GPU « NVIDIA GeForce RTX3090 24G ». L’unité centrale utilisée était le « processeur AMD Epyc 7742 64-core × 128 », et le système d’exploitation était Ubuntu 18.06. La durée totale de l’entraînement était de ~2 h.

5. Détection de nodules thyroïdiens sur de nouvelles images

Après l’entraînement, sélectionnez le modèle présentant les meilleures performances sur le kit de validation pour la détection des nodules thyroïdiens dans les nouvelles images.
1. Tout d’abord, redimensionnez l’image à 512 pixels x 512 pixels et normalisez-la. Ces opérations sont effectuées automatiquement lors de l’exécution du script de test.
  Ligne de commande: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
2. Attendez que le script charge automatiquement les paramètres du modèle préentraînés dans le Swin Faster R-CNN et introduisez l’image prétraitée dans le Swin Faster R-CNN pour inférence. Attendez que le Swin Faster R-CNN affiche la boîte de prédiction pour chaque image.
3. Enfin, autorisez le script à effectuer automatiquement le post-traitement NMS sur chaque image pour supprimer les zones de détection en double.
  Remarque : les résultats de détection sont sortis dans le dossier spécifié, qui contient les images avec les zones de détection et les coordonnées du cadre de sélection dans un fichier compressé.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Les images de la thyroïde américaine ont été recueillies dans deux hôpitaux en Chine de septembre 2008 à février 2018. Les critères d’éligibilité pour inclure les images américaines dans cette étude étaient l’examen américain conventionnel avant la biopsie et le traitement chirurgical, le diagnostic par biopsie ou pathologie postopératoire et l’âge ≥ 18 ans. Les critères d’exclusion étaient les images sans tissus thyroïdiens.

Les 3 000 images échographiques comprenaient 1 384 nodules malins et 1 616 nodules bénins. La majorité (90%) des nodules malins étaient des carcinomes papillaires et 66% des nodules bénins étaient des goitres nodulaires. Ici, 25 % des nodules étaient inférieurs à 5 mm, 38 % mesuraient entre 5 mm et 10 mm et 37 % plus de 10 mm.

Toutes les images américaines ont été collectées à l’aide de Philips IU22 et DC-80, et leur mode d’examen de la thyroïde par défaut a été utilisé. Les deux instruments étaient équipés de sondes linéaires de 5 à 13 MHz. Pour une bonne exposition des marges thyroïdiennes inférieures, tous les patients ont été examinés en décubitus dorsal, le dos tendu. Les lobes thyroïdiens et l’isthme ont été scannés dans les plans longitudinal et transversal conformément aux normes d’accréditation de l’American College of Radiology. Tous les examens ont été effectués par deux radiologues thyroïdiens chevronnés ayant ≥10 ans d’expérience clinique. Le diagnostic thyroïdien était basé sur les résultats histopathologiques de la biopsie par aspiration à l’aiguille fine ou de la chirurgie de la thyroïde.

Dans la vie réelle, comme les images américaines sont corrompues par le bruit, il est important d’effectuer un prétraitement approprié des images américaines, tel que le débruitage d’image basé sur la transformation en ondelettes³⁰, la détection compressive 31 et l’égalisation histogramme³². Dans ce travail, nous avons utilisé l’égalisation histogramme pour prétraiter les images américaines, améliorer la qualité de l’image et atténuer la dégradation de la qualité de l’image causée par le bruit.

Dans ce qui suit, les vrais positifs, les faux positifs, les vrais négatifs et les faux négatifs sont appelés respectivement TP, FP, TN et FN. Nous avons utilisé mAP, sensibilité et spécificité pour évaluer les performances de détection des nodules du modèle. mAP est une métrique courante dans la détection d’objets. La sensibilité et la spécificité ont été calculées à l’aide des équations (1) et (2) :

Equation 1 (1)

Equation 2 (2)

Dans cet article, TP est défini comme le nombre de nodules correctement détectés, qui ont une intersection sur l’union (IoU) entre la boîte de prédiction et la boîte de vérité au sol de >0,3 et un score de confiance >0,6. IoU est l’intersection sur l’union, qui est calculée à l’aide de l’équation (3):

Equation 3 (3)

Nous avons comparé plusieurs réseaux de détection d’objets classiques, notamment SSD 33, YOLO-v3³⁴, Faster R-CNN²⁷ basé sur CNN, RetinaNet 35 et DETR ³⁶. YOLO-v3 et SSD sont des réseaux de détection à une seule étape, DETR est un réseau de détection d’objets basé sur un transformateur, et Faster R-CNN et RetinaNet sont des réseaux de détection à deux étages. Le tableau 1 montre que les performances de Swin Faster R-CNN sont supérieures à celles des autres méthodes, atteignant 0,448 mAP, soit 0,028 de plus que le Faster R-CNN de CNN et 0,037 de plus que YOLO-v3. En utilisant Swin Faster R-CNN, 90,5% des nodules thyroïdiens peuvent être détectés automatiquement, ce qui est ~3% plus élevé que Faster R-CNN basé sur CNN (87,1%). Comme le montre la figure 2, l’utilisation de Swin Transformer comme épine dorsale rend le positionnement des limites plus précis.

Figure 1 : Schéma de l’architecture du réseau R-CNN de Swin Faster. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Résultats de la détection. Les résultats de détection pour la même image se trouvent dans une ligne donnée. Les colonnes sont les résultats de détection, de gauche à droite, pour Swin Faster R-CNN, Faster R-CNN, YOLO-v3, SSD, RetinaNet et DETR, respectivement. Les vérités de terrain des régions sont marquées par des cases rectangulaires vertes. Les résultats de détection sont encadrés par les cases rectangulaires rouges. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Méthode	Colonne vertébrale	carte	Sensibilité	Spécificité
YOLO-v3	DarkNet (en anglais)	0.411	0.869	0.877
SSD	VGG16	0.425	0.841	0.849
RetinaNet	ResNet50	0.382	0.845	0.841
R-CNN plus rapide	ResNet50	0.42	0.871	0.864
DETR	ResNet50	0.416	0.882	0.86
Swin Faster R-CNN sans FPN	Transformateur Swin	0.431	0.897	0.905
Swin Faster R-CNN avec FPN	Transformateur Swin	0.448	0.905	0.909

Tableau 1 : Comparaison des performances avec les méthodes de détection d’objets les plus récentes.

Fichier supplémentaire 1 : Mode d’emploi pour l’annotation des données et le logiciel utilisé. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 2 : script Python utilisé pour diviser le jeu de données en jeu d’apprentissage et jeu de validation, comme mentionné à l’étape 2.4.1. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 3 : script Python utilisé pour convertir le fichier d’annotations en masques, comme mentionné à l’étape 2.5.1. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 4 : script Python utilisé pour transformer les données en jeu de données au format CoCo, comme mentionné à l’étape 2.5.2. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 5 : Le fichier de modèle Swin Transformer modifié mentionné à l’étape 3.1. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 6 : Le fichier de configuration R-CNN de Swin Faster mentionné à l’étape 3.2. Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ce document décrit en détail comment effectuer la configuration de l’environnement, la préparation des données, la configuration du modèle et la formation réseau. Dans la phase de configuration de l’environnement, il faut faire attention à ce que les bibliothèques dépendantes soient compatibles et assorties. Le traitement des données est une étape très importante; Il faut consacrer du temps et des efforts pour assurer l’exactitude des annotations. Lors de l’apprentissage du modèle, un « ModuleNotFoundError » peut être rencontré. Dans ce cas, il est nécessaire d’utiliser la commande « pip install » pour installer la bibliothèque manquante. Si la perte du jeu de validation ne diminue pas ou oscille beaucoup, il faut vérifier le fichier d’annotation et essayer d’ajuster le taux d’apprentissage et la taille du lot pour faire converger la perte.

La détection des nodules thyroïdiens est très importante pour le traitement du cancer de la thyroïde. Le système de CAO peut aider les médecins à détecter les nodules, éviter les différences dans les résultats de diagnostic causées par des facteurs subjectifs et réduire la détection manquée des nodules. Par rapport aux systèmes de CAO existants basés sur CNN, le réseau proposé dans cet article introduit le transformateur Swin pour extraire les caractéristiques d’image par ultrasons. En capturant les dépendances longue distance, Swin Faster R-CNN peut extraire plus efficacement les caractéristiques des nodules des images échographiques. Les résultats expérimentaux montrent que Swin Faster R-CNN améliore la sensibilité de la détection des nodules de ~3% par rapport au Faster R-CNN basé sur CNN. L’application de cette technologie peut réduire considérablement le fardeau des médecins, car elle peut détecter les nodules thyroïdiens lors de l’examen échographique précoce et guider les médecins vers un traitement ultérieur. Cependant, en raison du grand nombre de paramètres du Swin Transformer, le temps d’inférence de Swin Faster R-CNN est de ~100 ms par image (testé sur le GPU NVIDIA TITAN 24G et le processeur AMD Epyc 7742). Il peut être difficile de répondre aux exigences du diagnostic en temps réel avec Swin Faster R-CNN. À l’avenir, nous continuerons à recueillir des cas pour vérifier l’efficacité de cette méthode et mener d’autres études sur l’analyse d’images échographiques dynamiques.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs ne déclarent aucun conflit d’intérêts.

Acknowledgments

Cette étude a été soutenue par la Fondation nationale des sciences naturelles de Chine (subvention n ° 32101188) et le projet général du Département de la science et de la technologie de la province du Sichuan (subvention n ° 2021YFS0102), Chine.

Materials

Name	Company	Catalog Number	Comments
GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

DOWNLOAD MATERIALS LIST

References

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).

Medicine

Un modèle basé sur un transformateur Swin pour la détection de nodules thyroïdiens dans des images échographiques

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.