$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Acquisition de données
Pour valider notre boîte à outils, nous avons analysé deux réseaux tubulaires distincts dans le tissu hépatique de souris adulte : les canalicules biliaires (BC) et les réseaux sinusoïdaux. Pour chaque structure, une image de microscopie 3D d’un seul animal a été utilisée pour l’entraînement, tandis que deux images indépendantes d’animaux différents ont été utilisées exclusivement pour les tests. Toutes les images du foie ont été acquises avec une résolution isotrope de 0,3 μm/voxel, assurant un échantillonnage cohérent dans les trois dimensions spatiales. L’ensemble de données, publié à l’origine dans Morales-Navarrete et al.9, a été organisé à l’aide de Labkit25, fournissant des masques binaires de haute qualité des structures tubulaires utilisées comme vérité de terrain pour l’apprentissage supervisé. Pour le réseau sinusoïdal, nous avons généré deux types de masques binaires : l’un délimitant les bords du tube (représentation creuse) et l’autre capturant le volume tubulaire rempli, permettant différentes stratégies d’entraînement en fonction de l’application.
De plus, nous avons évalué notre boîte à outils sur un ensemble de données externes de vaisseaux sanguins du cerveau entier de Mus musculus adulte, fourni dans le cadre du défi SELMA3D 2024. Cet ensemble de données se compose d’images de microscopie 3D à feuillet de lumière acquises dans des conditions de boîtier standard (cycle de 12 h de lumière/12 h d’obscurité pendant 3 mois) et est disponible via des images BioStudies (S-BIAD1197)26. Cinq images cérébrales ont été utilisées pour l’entraînement et dix-neuf pour les tests. Les empilements anisotropes originaux ont été rééchantillonnés aux dimensions isotropes des voxels à l’aide de l’interpolation linéaire aux Fidji pour assurer la compatibilité avec notre pipeline d’analyse.
Prétraitement
Pour répondre au nombre limité d’images 3D originales, nous avons appliqué des techniques d’augmentation des données qui ont introduit des artefacts d’imagerie réalistes et simulé des rapports signal/bruit variables allant de 15 à 1. Cette approche était essentielle pour améliorer la généralisabilité et la robustesse des modèles.
L’image de test a été subdivisée en patchs non chevauchants de 64 x 64 x 64 voxels afin d’évaluer les performances du modèle au niveau régional et d’évaluer la robustesse dans différents contextes spatiaux au sein d’un même volume 3D.
Architecture du modèle
Nous avons implémenté et comparé deux architectures de réseaux de neurones convolutifs adaptées à la segmentation 3D :
Un U-Net17 3D standard, composé de blocs d’encodeur-décodeur symétriques avec regroupement de 2×2×2 max, de couches convolutives avec activations ReLU et d’une convolution finale de 1 x 1 x 1 suivie d’une fonction sigmoïde pour la classification binaire.
Un Attention U-Net27, qui intègre un mécanisme d’attention qui met en évidence dynamiquement les caractéristiques saillantes et supprime les arrière-plans non pertinents, améliorant ainsi la segmentation de structures complexes et variables telles que les réseaux tubulaires hépatiques.
Protocole de formation
Les deux architectures ont été entraînées à l’aide des bibliothèques TensorFlow et Keras sur un cluster de calcul haute performance équipé de 32 cœurs de processeur, de 128 Go de RAM et de deux GPU NVIDIA A100 SXM4 de 40 Go. L’Attention U-Net nécessitait plus de temps d’entraînement en raison de sa complexité architecturale, en particulier lors de l’utilisation des ensembles de données augmentés (voir tableau 1).
Métriques d’évaluation
Les performances du modèle ont été évaluées quantitativement sur les images de test retenues à l’aide de mesures de segmentation standard : coefficient de dés, intersection sur l’union (IoU), score F1, similarité de volume, sensibilité et spécificité.
Les résultats pour la BC, les structures sinusoïdales et les vaisseaux sont résumés à la figure 2, à la figure 3, à la figure 4 et à la figure 5. De plus, le tableau 2 présente une comparaison des performances avec les méthodes classiques établies pour la segmentation tubulaire, y compris l’Otsu et le seuillage adaptatif. Nos modèles, en particulier l’Attention U-Net entraîné sur des données augmentées, ont constamment surpassé ces méthodes traditionnelles sur tous les indicateurs.
Analyse statistique et robustesse
L’analyse d’images entières ainsi que des patchs de voxels de 64 x 64 x 64 (tableau 3) dans l’ensemble de test nous a également permis de quantifier la variabilité spatiale dans les prédictions du modèle entre les régions. Tous les modèles ont fait preuve d’une grande précision, l’Attention U-Net affichant des performances constamment plus élevées, en particulier en ce qui concerne le score F1 et le coefficient de dés. Les résultats qualitatifs, présentés dans les figures 2A, B, 3A, B, 4A, B, 5A, B, ainsi que dans les vidéos 1, 2, 3 et 4, confirment ces résultats, illustrant la délimitation précise des structures tubulaires dans la plupart des régions des données d’essai.
Explication des anomalies dans les indicateurs de performance
Les valeurs inférieures des boîtes à moustaches pour l’analyse des correctifs (figure supplémentaire S1, figure supplémentaire S2, figure supplémentaire S3, figure supplémentaire S4 et figure supplémentaire S5) indiquent la présence de valeurs aberrantes de performance dans un sous-ensemble de correctifs de test. De même, la segmentation sous-optimale dans les images finales des vidéos peut être attribuée à deux facteurs clés :
Effets de limites : les performances de segmentation se dégradent souvent aux limites de l’image, où les structures partielles sont sous-représentées ou capturées de manière incomplète, ce qui entraîne une plus grande incertitude et une classification potentiellement erronée.
Dégradation de la qualité de l’image dans les plans z plus profonds : Malgré la taille isotrope du voxel, des facteurs biologiques et techniques tels que l’atténuation du signal, la diffusion de la lumière et la réduction du contraste dans la direction z entraînent une réduction de la qualité de l’image vers le bas du volume. Cette dégradation complique la délimitation précise des limites et contribue aux incohérences de segmentation.
Ces facteurs sont des défis inhérents à l’imagerie biologique 3D et ont un impact particulier dans les régions éloignées du plan d’imagerie ou contenant des limites de structure ambiguës.
En résumé, nos résultats démontrent que les modèles de segmentation basés sur l’apprentissage profond, en particulier l’Attention U-Net entraîné avec des données augmentées, offrent une délimitation robuste et précise de structures tubulaires complexes dans des images de microscopie hépatique 3D. En exploitant des ensembles de données organisés, des stratégies d’augmentation réalistes et des mécanismes d’attention, les modèles ont atteint des performances supérieures à celles des méthodes classiques telles que le seuillage. L’évaluation régionale à l’aide de patchs de voxels 64³ a confirmé la cohérence et la généralisabilité de l’approche à travers différentes régions d’image et complexités structurelles. Bien que certaines limitations persistent, principalement en raison des effets de frontière et de la dégradation de l’image dans le plan z, notre étude met en évidence l’efficacité des architectures basées sur l’attention et fournit une solution open source validée pour la segmentation tubulaire 3D de haute précision en imagerie biomédicale.

Figure 1 : Flux de travail pour la segmentation 3D de structures tubulaires dans des images de microscopie à fluorescence à l’aide des modèles U-Net et Attention U-Net. (A) Préparation des données : Coupes schématiques en 2D d’images de microscopie à fluorescence 3D de tissus hépatiques de souris, montrant les images originales et les masques binaires correspondants. (B) Augmentation des données : Augmentation des données préparées par simulation, générant des images avec des rapports signal/bruit variables (par exemple, SNR = 15 et SNR = 1). (C) Entraînement de modèles : Entraînement basé sur des patchs des modèles U-Net et Attention U-Net en utilisant des données originales et augmentées. Des patchs d’image et de masque de taille 64 x 64 x 64 sont générés pour l’entraînement. (D) Évaluation du modèle : des mesures de performance quantitatives, y compris le rappel et le score F1, sont calculées pour chaque modèle afin d’évaluer la précision de la segmentation sur des ensembles de données de test. (E) Inférence de modèle : Application du modèle entraîné sur des images invisibles pour générer des masques de segmentation prédits. Abréviation : SNR = rapport signal/bruit. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Évaluation des modèles U-Net et Attention U-Net pour la segmentation du réseau de canalicules biliaires à partir d’images de microscopie à fluorescence 3D de tissus hépatiques de souris. (A) Coupes 2D représentatives (section centrale) d’images de microscopie à fluorescence 3D, affichant l’image originale et le masque de vérité terrain correspondant pour la BC dans le tissu hépatique de la souris. Les images en haut à droite offrent une vue agrandie des encarts mis en évidence dans chaque section. (B) Masques de segmentation prédits générés par U-Net, Attention U-Net et leurs versions augmentées. La ligne supérieure met en évidence les vrais positifs (structures correctement segmentées), la rangée inférieure affiche les faux positifs (structures mal identifiées) et les faux négatifs (structures manquées) pour chaque modèle. (C) Des mesures d’évaluation quantitative pour chaque modèle, y compris l’exactitude, le score F1, la précision, le rappel, la similarité de volume et le coefficient de dés. L’évaluation a été effectuée dans les patchs extrudés à partir de l’image 3D. Les barres d’erreur indiquent les écarts-types entre les images de test. Barre d’échelle : 60 μm ; Barre d’échelle encastrée : 30 μm. Abréviation : BC = biliaire canaliculaire. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Évaluation des modèles U-Net et Attention U-Net pour la segmentation du réseau sinusoïdal à partir d’images de microscopie à fluorescence 3D de tissus hépatiques de souris. (A) Coupes 2D représentatives (section centrale) d’images de microscopie à fluorescence 3D, affichant l’image originale et le masque de vérité terrain correspondant pour les sinusoïdes dans le tissu hépatique de souris. Les images en haut à droite offrent une vue agrandie des encarts mis en évidence dans chaque section. (B) Masques de segmentation prédits générés par U-Net, Attention U-Net et leurs versions augmentées. La ligne supérieure met en évidence les vrais positifs (structures correctement segmentées), la rangée inférieure affiche les faux positifs (structures mal identifiées) et les faux négatifs (structures manquées) pour chaque modèle. (C) Des mesures d’évaluation quantitative pour chaque modèle, y compris l’exactitude, le score F1, la précision, le rappel, la similarité de volume et le coefficient de dés. L’évaluation a été effectuée dans les patchs extrudés à partir de l’image 3D. Les barres d’erreur indiquent les écarts-types entre les images de test. Barre d’échelle : 60 μm ; Barre d’échelle encastrée : 30 μm. Veuillez cliquer ici pour voir une version plus grande de cette figure.

Figure 4 : Évaluation des modèles U-Net et Attention U-Net pour la segmentation du réseau sinusoïdal à partir d’images de microscopie à fluorescence 3D de tissus hépatiques de souris, en considérant le masque comme des tubes remplis. (A) Sections centrales 2D représentatives d’images de microscopie à fluorescence 3D, affichant l’image originale et le masque de vérité terrain correspondant pour les sinusoïdes dans le tissu hépatique de souris. Les images en haut à droite offrent une vue agrandie des encarts mis en évidence dans chaque section. (B) Masques de segmentation prédits générés par U-Net, Attention U-Net et leurs versions augmentées. Alors que la ligne supérieure met en évidence les vrais positifs (structures correctement segmentées), la ligne inférieure montre les faux positifs (structures mal identifiées) et les faux négatifs (structures manquées) pour chaque modèle. (C) Des mesures d’évaluation quantitative pour chaque modèle, y compris l’exactitude, le score F1, la précision, le rappel, la similarité de volume et le coefficient de dés. L’évaluation a été effectuée dans les patchs extrudés à partir de l’image 3D. Les barres d’erreur indiquent les écarts-types entre les images de test. Barre d’échelle : 60 μm ; Barre d’échelle encastrée : 30 μm. Veuillez cliquer ici pour voir une version plus grande de cette figure.

Figure 5 : Évaluation des modèles U-Net et Attention U-Net pour la segmentation du réseau vasculaire dans le cerveau de souris à partir d’images de microscopie 3D à feuillet de lumière à l’aide de masques à tubes remplis. (A) Des coupes centrales 2D représentatives extraites d’images de microscopie 3D du cerveau de souris, montrant l’image originale et le masque de vérité terrain correspondant pour les vaisseaux sanguins. Les vues agrandies des encarts sélectionnés sont affichées dans le coin supérieur droit de chaque panneau. Masques de segmentation prédits générés par U-Net, Attention U-Net et leurs versions augmentées. La rangée du haut met en évidence les vrais positifs (structures de cuve correctement segmentées), tandis que la rangée du bas illustre les faux positifs (régions mal segmentées) et les faux négatifs (structures de cuve manquées) pour chaque modèle. (C) Évaluation quantitative des performances du modèle à l’aide de mesures telles que l’exactitude, le score F1, la précision, le rappel, la similarité de volume et le coefficient de dés. Les évaluations ont été effectuées sur des patchs 3D extraits des volumes de test. Les barres d’erreur représentent les écarts-types sur les 19 images de test. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Vidéo 1 : Animation Z-Stack des masques prédits pour le réseau BC. La vidéo montre une séquence animée à travers la pile z de masques de segmentation prédits pour les canalicules biliaires dans le tissu hépatique de souris, générés par U-Net, Attention U-Net et leurs versions augmentées. Chaque section 2D met en évidence les vrais positifs (blanc), les faux positifs (vert) et les faux négatifs (magenta) pour chaque modèle, en se déplaçant dans l’ensemble de la pile. Abréviation : BC = biliaire canaliculaire. Veuillez cliquer ici pour télécharger cette vidéo.
Vidéo 2 : Animation Z-Stack des masques prédits pour le réseau sinusoïdal. La vidéo montre une séquence animée à travers la pile z de masques de segmentation prédits pour les sinusoïdes dans le tissu hépatique de la souris, générée par U-Net, Attention U-Net et leurs versions augmentées. Chaque section 2D met en évidence les vrais positifs (blanc), les faux positifs (vert) et les faux négatifs (magenta) pour chaque modèle, en se déplaçant dans l’ensemble de la pile. Veuillez cliquer ici pour télécharger cette vidéo.
Vidéo 3 : Animation Z-Stack de masques prédits pour le réseau sinusoïdal sous forme de tubes remplis. La vidéo montre une séquence animée à travers la pile z de masques de segmentation prédits pour le réseau sinusoïdal sous forme de tubes remplis dans le tissu hépatique de souris, générés par U-Net, Attention U-Net et leurs versions augmentées. Chaque section 2D met en évidence les vrais positifs (blanc), les faux positifs (vert) et les faux négatifs (magenta) pour chaque modèle, en se déplaçant dans l’ensemble de la pile. Veuillez cliquer ici pour télécharger cette vidéo.
Vidéo 4 : Animation Z-Stack des masques prédits pour les vaisseaux cérébraux. La vidéo montre une séquence animée à travers la pile z de masques de segmentation prédits pour les navires, générés par U-Net, Attention U-Net et leurs versions augmentées. Chaque section 2D met en évidence les vrais positifs (blanc), les faux positifs (vert) et les faux négatifs (magenta) pour chaque modèle, en se déplaçant dans l’ensemble de la pile. Veuillez cliquer ici pour télécharger cette vidéo.
Tableau 1 : Temps d’entraînement pour U-Net 3D et Attention U-Net 3D Models sur des ensembles de données de bile, de canalicules et de sinusoïdes avec et sans augmentation des données. Temps d’entraînement pour les modèles U-Net 3D et Attention U-Net 3D sur des ensembles de données biliaires, canalicules et sinusoïdes avec et sans augmentation des données. Le tableau répertorie le nombre de correctifs pour chaque ensemble de données et le temps d’entraînement correspondant en minutes. L’augmentation des données augmente le nombre de correctifs de 1353 à 10824, ce qui entraîne une augmentation significative du temps d’entraînement. Le modèle Attention U-Net nécessite systématiquement plus de temps d’entraînement que le modèle U-Net, en particulier avec des ensembles de données augmentés, en raison de sa complexité supplémentaire pour se concentrer sur les caractéristiques pertinentes des données. Abréviation : BC = biliaire canaliculaire. Veuillez cliquer ici pour télécharger ce tableau.
Tableau 2 : Évaluation quantitative des modèles U-Net 3D et Attention U-Net 3D sur quatre ensembles de données à l’aide de la segmentation d’images entières. Ce tableau présente les performances de chaque modèle ainsi que des méthodes classiques telles que l’Otsu et le seuillage adaptatif, sur quatre ensembles de données différents : les canalicules biliaires, les réseaux sinusoïdaux (représentations creuses et remplies) et le système vasculaire du cerveau entier, en utilisant des images 3D entières pour l’évaluation. Pour chaque combinaison de modèle et d’ensemble de données, le nombre d’images de test est répertorié, ainsi que les métriques de performance : Exactitude, Précision, Rappel (sensibilité), Spécificité, Score F1, Coefficient de dés, IoU et Similarité de volume. Ces métriques fournissent une évaluation complète de la qualité de la segmentation en termes d’exactitude des voxels et d’accord volumétrique entre les prédictions et la vérité terrain. Abréviations : BC = canalicules biliaires ; IoU = Intersection au-dessus de l’Union. Veuillez cliquer ici pour télécharger ce tableau.
Tableau 3 : Évaluation quantitative des modèles U-Net 3D et Attention U-Net 3D sur quatre ensembles de données à l’aide de patchs de 64 x 64 x 64. Ce tableau résume les performances des modèles U-Net 3D et Attention U-Net 3D sur quatre ensembles de données - canalicules biliaires, réseaux sinusoïdaux (masques creux et remplis) et système vasculaire cérébral entier - sur la base de l’évaluation en patchs d’images 3D de tailles 64×64×64 voxels. Pour chaque combinaison modèle-ensemble de données, le nombre de correctifs de test est répertorié à côté des indicateurs de performance clés : Exactitude, Précision, Rappel (sensibilité), Spécificité, Score F1, Coefficient de dés, Intersection sur l’union et Similarité de volume. Ces métriques au niveau des correctifs offrent des informations localisées sur les performances du modèle et sont particulièrement utiles pour identifier la précision de la segmentation spatialement hétérogène entre les volumes. Abréviations : BC = canalicules biliaires ; IoU = Intersection au-dessus de l’Union. Veuillez cliquer ici pour télécharger ce tableau.
Figure supplémentaire S1 : Performance de segmentation au niveau du patch des modèles 3D U-Net et Attention U-Net pour la segmentation des canalicules biliaires. Les graphiques illustrent les performances quantitatives des modèles 3D U-Net et Attention U-Net sur des ensembles de données de canalicules biliaires, évalués à l’aide de patchs d’images 3D de taille 64 x 64 x 64 x 64 voxels. Les mesures affichées incluent l’exactitude, la précision, le rappel (sensibilité), la spécificité, le score F1, le coefficient de dés, l’intersection sur l’union et la similarité de volume. Les résultats reflètent la variabilité entre les parcelles, offrant un aperçu localisé des performances du modèle et mettant en évidence l’hétérogénéité spatiale au sein des volumes de tissu hépatique 3D. Abréviations : BC = canalicules biliaires ; IoU = Intersection au-dessus de l’Union. Veuillez cliquer ici pour télécharger ce fichier.
Figure supplémentaire S2 : Performances de segmentation au niveau du patch des modèles 3D U-Net et Attention U-Net pour la segmentation sinusoïdale. Les graphiques illustrent les performances quantitatives des modèles 3D U-Net et Attention U-Net sur des ensembles de données sinusoïdes, évalués à l’aide de patchs d’images 3D de tailles 64 x 64 x 64 voxels. Les mesures affichées incluent l’exactitude, la précision, le rappel (sensibilité), la spécificité, le score F1, le coefficient de dés, l’intersection sur l’union et la similarité de volume. Les résultats reflètent la variabilité entre les parcelles, offrant un aperçu localisé des performances du modèle et mettant en évidence l’hétérogénéité spatiale au sein des volumes de tissu hépatique 3D. Abréviation : IoU = Intersection sur Union. Veuillez cliquer ici pour télécharger ce fichier.
Figure supplémentaire S3 : Performance de segmentation au niveau du patch des modèles 3D U-Net et Attention U-Net pour la segmentation des sinusoïdes en tant que tubes remplis. Les graphiques illustrent les performances quantitatives des modèles 3D U-Net et Attention U-Net sur des sinusoïdes en tant que tubes remplis, évalués à l’aide de patchs d’images 3D de tailles 64 x 64 x 64 x 64 voxels. Les mesures affichées incluent l’exactitude, la précision, le rappel (sensibilité), la spécificité, le score F1, le coefficient de dés, l’intersection sur l’union et la similarité de volume. Les résultats reflètent la variabilité entre les parcelles, offrant un aperçu localisé des performances du modèle et mettant en évidence l’hétérogénéité spatiale au sein des volumes de tissu hépatique 3D. Abréviation : IoU = Intersection sur Union. Veuillez cliquer ici pour télécharger ce fichier.
Figure supplémentaire S4 : Performance de segmentation au niveau du patch des modèles 3D U-Net et Attention U-Net pour la vascularisation cérébrale à partir d’images de microscopie à feuillet de lumière. Les graphiques illustrent la performance quantitative des modèles 3D U-Net et Attention U-Net sur des ensembles de données vasculaires du cerveau entier, évaluées à l’aide de patchs d’images 3D de tailles 64 x 64 x 64 x 64 voxels. Les mesures affichées incluent l’exactitude, la précision, le rappel (sensibilité), la spécificité, le score F1, le coefficient de dés, l’intersection sur l’union et la similarité de volume. Les résultats reflètent la variabilité entre les parcelles, offrant un aperçu localisé des performances du modèle et mettant en évidence l’hétérogénéité spatiale au sein des volumes de tissu hépatique 3D. Abréviation : IoU = Intersection sur Union. Veuillez cliquer ici pour télécharger ce fichier.
Figure supplémentaire S5 : Superposition des résultats de segmentation sur des images originales de microscopie à fluorescence 3D de canalicules biliaires. Des coupes d’images représentatives d’ensembles de données de microscopie à fluorescence 3D de canalicules biliaires dans le foie de souris sont montrées avec des masques de segmentation superposés en rouge. Les masques prédits des modèles 3D U-Net et Attention U-Net sont superposés aux images de microscopie en niveaux de gris d’origine pour évaluer visuellement la précision de la segmentation. Dix exemples d’images sont présentés pour illustrer la capacité des modèles à capturer diverses caractéristiques morphologiques et à gérer la variabilité du signal dans différentes régions tissulaires. Veuillez cliquer ici pour télécharger ce fichier.