Environment

Traitement automatique d’images pour déterminer la structure granulométrique des macroinvertébrés riverains

Published: January 13, 2023 doi: 10.3791/64320

Rosa Gurí^1,4, Ignasi Arranz^2,4, Marc Ordeix^1,4, Carmen García-Comas^3,4

¹Center for the Study of Mediterranean Rivers (CERM), Universitat de Vic - Universitat Central de Catalunya, ²Laboratoire Evolution et Diversité Biologique (EDB), UMR5174, Université Toulouse 3 Paul Sabatier, Centre national de la recherche scientifique (CNRS), Institut de Recherche pour le Développement (IRD), ³Department of Marine Biology and Oceanography, Institut de Ciències del Mar, Consejo Superior de Investigaciones Científicas (CSIC), ⁴Aquatic Ecology Group, Universitat de Vic - Universitat Central de Catalunya

Summary

L’article est basé sur la création d’un protocole adapté pour scanner, détecter, trier et identifier des objets numérisés correspondant à des macroinvertébrés benthiques de rivière à l’aide d’une procédure d’imagerie semi-automatique. Cette procédure permet l’acquisition des distributions de taille individuelles et des métriques de taille d’une communauté de macroinvertébrés en environ 1 h.

Abstract

La taille corporelle est un trait fonctionnel important qui peut être utilisé comme bioindicateur pour évaluer les impacts des perturbations dans les communautés naturelles. La structure de taille des communautés réagit aux gradients biotiques et abiotiques, y compris les perturbations anthropiques entre les taxons et les écosystèmes. Cependant, la mesure manuelle d’organismes de petite taille tels que les macroinvertébrés benthiques (par exemple, >500 μm à quelques centimètres de long) prend beaucoup de temps. Pour accélérer l’estimation de la structure de la taille des communautés, nous avons développé ici un protocole pour mesurer semi-automatiquement la taille corporelle individuelle des macroinvertébrés de rivière préservés, qui sont l’un des bioindicateurs les plus couramment utilisés pour évaluer l’état écologique des écosystèmes d’eau douce. Ce protocole est adapté d’une méthodologie existante développée pour scanner le mésozooplancton marin avec un système de balayage conçu pour les échantillons d’eau. Le protocole comprend trois étapes principales : (1) balayage de sous-échantillons (fractions fines et grossières) de macroinvertébrés de rivière et traitement des images numérisées pour individualiser chaque objet détecté dans chaque image; (2) créer, évaluer et valider un ensemble d’apprentissage grâce à l’intelligence artificielle pour séparer semi-automatiquement les images individuelles de macroinvertébrés des détritus et des artefacts dans les échantillons numérisés; et (3) la représentation de la structure granulométrique des communautés de macroinvertébrés. En plus du protocole, ce travail comprend les résultats de l’étalonnage et énumère plusieurs défis et recommandations pour adapter la procédure aux échantillons de macroinvertébrés et envisager d’autres améliorations. Dans l’ensemble, les résultats appuient l’utilisation du système de balayage présenté pour la mesure automatique de la taille corporelle des macroinvertébrés de rivière et suggèrent que la représentation de leur spectre de taille est un outil précieux pour la bioévaluation rapide des écosystèmes d’eau douce.

Introduction

Les macroinvertébrés benthiques sont largement utilisés comme bioindicateurs pour déterminer l’état écologique des masses d’eau¹. La plupart des indices décrivant les communautés de macroinvertébrés se concentrent sur des mesures taxonomiques. Cependant, de nouveaux outils de bioévaluation qui intègrent la taille corporelle sont encouragés à fournir une perspective alternative ou complémentaire aux approches taxonomiques ^2,3.

La taille corporelle est considérée comme un métatrait lié à d’autres traits vitaux tels que le métabolisme, la croissance, la respiration et le mouvement⁴. De plus, la taille du corps peut déterminer la position trophique et les interactions⁵. La relation entre la taille corporelle individuelle et la biomasse normalisée (ou l’abondance) par classe de taille dans une communauté est définie comme le spectre de taille⁶ et suit le schéma général d’une diminution linéaire de la biomasse normalisée à mesure que la taille individuelle augmente sur une échelle logarithmique⁷. La pente de cette relation linéaire a été largement étudiée théoriquement, et des études empiriques sur les écosystèmes l’ont utilisée comme indicateur écologique de la structure de taille de la communauté⁴. Un autre indicateur synthétique de la structure de taille des communautés qui a été utilisé avec succès dans les études sur la biodiversité et le fonctionnement des écosystèmes est la diversité de la taille des communautés, qui est représentée par l’indice de Shannon des classes de taille du spectre de taille ou son analogique, qui est calculé sur la base des distributions de taille^{individuelles 8}.

Dans les écosystèmes d’eau douce, la structure granulométrique des différents groupes fauniques est utilisée comme indicateur ataxique pour évaluer la réponse des communautés biotiques aux gradients environnementaux 9,10,11 et aux perturbations anthropiques 12,13,14,15,16. Les macroinvertébrés ne font pas exception, et leur structure granulométrique répond également aux changements environnementaux^17,18 et aux perturbations anthropiques, telles que l’exploitation minière ¹⁹, l’utilisation des terres 20 ou l’enrichissement en azote (N) et en phosphore (P) ^20,21,22. Cependant, mesurer des centaines d’individus pour décrire la structure de taille de la communauté est une tâche fastidieuse et chronophage qui est souvent évitée en tant que mesure de routine dans les laboratoires en raison d’un manque de temps. Ainsi, plusieurs méthodes d’imagerie semi-automatiques ou automatiques pour classer et mesurer les échantillons ont été développées^23,24,25,26. Cependant, la plupart de ces méthodes sont davantage axées sur la classification taxonomique que sur la taille individuelle des organismes et ne sont pas prêtes à être utilisées pour tous les types de macroinvertébrés. En écologie du plancton marin, un système d’analyse d’images à balayage a été largement utilisé pour déterminer la taille et la composition taxonomique des communautés de zooplancton 27,28,29,30,31. Cet instrument peut être trouvé dans plusieurs instituts marins à travers le monde, et il est utilisé pour scanner des échantillons de zooplancton préservés afin d’obtenir des images numériques haute résolution de l’échantillon entier. Le protocole actuel adapte l’utilisation de cet instrument pour estimer le spectre de taille des communautés de macroinvertébrés dans les rivières de manière automatique rapide sans investir dans la création d’un nouveau dispositif.

Le protocole consiste à scanner un échantillon et à traiter l’image entière pour obtenir automatiquement des images uniques (c.-à-d. des vignettes) des objets de l’échantillon. Plusieurs mesures de forme, de taille et de niveaux de gris caractérisent chaque objet et permettent la classification automatique des objets en catégories, qui sont ensuite validées par un expert. La taille individuelle de chaque organisme est calculée à l’aide du biovolume ellipsoïdal (mm³), qui est dérivé de la surface de l’organisme mesurée en pixels. Cela permet d’obtenir rapidement le spectre de taille de l’échantillon. À notre connaissance, ce système d’imagerie par balayage n’a été utilisé que pour traiter des échantillons de mésozooplancton, mais le dispositif pourrait potentiellement permettre de travailler avec des macroinvertébrés benthiques d’eau douce.

L’objectif global de cette étude est donc d’introduire une méthode permettant d’obtenir rapidement la taille individuelle des macroinvertébrés de rivière préservés en adaptant un protocole existant précédemment utilisé avec le mésozooplancton^marin 27,32,33. La procédure consiste à utiliser une approche semi-automatique qui fonctionne avec un dispositif de balayage pour numériser des échantillons d’eau et trois logiciels ouverts pour traiter les images numérisées. Un protocole adapté pour scanner, détecter et identifier les macroinvertébrés de rivière numérisés afin d’acquérir automatiquement la structure de taille de la communauté et les mesures de taille connexes est présenté ici. L’évaluation de la procédure et des lignes directrices visant à améliorer l’efficacité est également présentée sur la base de 42 images scannées d’échantillons de macroinvertébrés fluviaux prélevés dans trois bassins du nord-est (NE) de la péninsule ibérique (Ter, Segre-Ebre et Besòs).

Les échantillons ont été prélevés sur des tronçons de rivière de 100 m conformément au protocole d’échantillonnage sur le terrain et d’analyse en laboratoire des macroinvertébrés benthiques dans les rivières guéables du gouvernement espagnol³⁴. Les échantillons ont été prélevés avec un échantillonneur surber, châssis : 0,3 m x 0,3 m, maille : 250 μm) à la suite d’un relevé multi-habitats. En laboratoire, les échantillons ont été nettoyés et tamisés à travers un maillage de 5 mm et un maillage de 500 μm pour obtenir deux sous-échantillons: un sous-échantillon grossier (maille de 5 mm) et un sous-échantillon fin (maille de 500 μm), qui ont été stockés dans des flacons séparés et conservés dans de l’éthanol à 70%. La séparation de l’échantillon en deux fractions granulométriques permet une meilleure estimation de la structure de taille de la communauté, car les grands organismes sont plus rares et moins nombreux que les petits organismes. Sinon, l’échantillon scanné a une représentation biaisée de la fraction de grande taille.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

REMARQUE : Le protocole décrit ici est basé sur le système développé par Gorsky et ^al.27 pour le mésozooplancton marin. Une description spécifique des étapes du scanner (ZooSCAN), du logiciel de numérisation (VueScan 9x64 [9.5.09]), du logiciel de traitement d’images (Zooprocess, ImageJ) et du logiciel d’identification automatique (Plankton Identifier) se trouve dans les références précédentes^32,33. Pour ajuster au mieux les tailles des macroinvertébrés benthiques par rapport au mésozooplancton, une fois le projet créé selon le protocole original^32,33, changer le paramètre de taille minimale (minsizeesd_mm) à ^0,3 mm et le paramètre de taille maximale (maxsizeesd_mm) à 100 mm dans le fichier de configuration. Pour aider à suivre le protocole, cela est résumé dans un tableau de travail (Figure 1). Le projet créé est stocké dans le dossier C de l’ordinateur et est organisé dans les dossiers suivants : PID_process, Zooscan_back, Zooscan_check, Zooscan_config, Zooscan_meta, Zooscan_results et Zooscan_scan. Chaque dossier est composé de plusieurs sous-dossiers que les différentes applications logicielles utilisent dans les étapes suivantes du protocole.

1. Acquisition d’images numériques pour des échantillons de macroinvertébrés

Numérisation et traitement de l’espace vierge
REMARQUE: Créez deux images vierges par jour avant la numérisation pour extraire les numérisations d’arrière-plan tout en traitant les images numérisées le même jour.
1. Allumez le scanner et allumez la lumière en double position pour projeter la lumière blanche du haut et du bas.
  REMARQUE: Lors de la numérisation des échantillons de mésozooplancton, la direction de la lumière vers le haut est utilisée, mais comme les macroinvertébrés sont plus opaques, il est recommandé de basculer la lumière dans une position double.
2. Nettoyez et rincez le plateau de numérisation avec de l’eau du robinet.
3. Versez 110 ml d’eau du robinet stockée à température ambiante (RT) dans le bac de numérisation jusqu’à ce que le verre soit recouvert. Placez le grand cadre (24,5 cm x 15,8 cm) sur le plateau de numérisation dans la bonne position (avec le coin dans la partie supérieure gauche du bac de numérisation) et remplissez-le d’eau du robinet jusqu’à ce que la marche du cadre soit couverte pour éviter un effet ménisque, qui modifierait l’image numérisée. Fermez le couvercle du scanner.
  REMARQUE: Utilisez de l’eau à RT pour éviter la condensation et la formation de bulles. Nettoyez le cadre sans marques ni gouttelettes pour éviter la réflexion de la lumière.
4. Accédez au logiciel de traitement d’image, sélectionnez le projet de travail et cliquez sur Numériser (convertir) l’image d’arrière-plan.
5. Accédez au logiciel de numérisation et cliquez sur Aperçu. Assurez-vous de prévisualiser l’image numérisée, vérifiez qu’il n’y a pas de lignes ou de taches et attendez au moins 30 secondes avant de commencer une autre numérisation. Cliquez sur Scan et appuyez sur OK dans la fenêtre d’instructions avant la deuxième numérisation pour envoyer les données du logiciel de numérisation au logiciel de traitement d’image.
  REMARQUE: Numérisez deux fois pour obtenir les deux analyses d’arrière-plan qui comprendront l’espace vierge. Cette étape est effectuée une fois par jour avant de commencer le traitement de l’échantillon, et les images sont stockées dans le dossier Zooscan_back.
6. Fermez le logiciel de numérisation une fois l’analyse terminée.
Préparation et numérisation des échantillons
ATTENTION : L’éthanol est un liquide inflammable qui peut causer de graves lésions ou irritations oculaires.
1. Renseignez l’exemple de métadonnées. Accédez au logiciel de traitement d’image et sélectionnez Remplir l’exemple de métadonnées. Entrez l’identité de l’exemple, cliquez sur OK et remplissez les métadonnées.
  REMARQUE: Le métafichier est spécifiquement créé pour les échantillons de mésozooplancton, il ne correspond donc pas à la méthodologie d’échantillonnage des macroinvertébrés benthiques, mais tous les champs du fichier doivent être remplis avant l’analyse, sinon un indicateur d’erreur apparaîtra.
2. Versez 110 mL d’éthanol à 70 % dans le bac de numérisation jusqu’à ce que le verre soit recouvert et placez le grand cadre (24,5 cm x 15,8 cm) avec le coin situé dans la partie supérieure gauche du bac à scanner.
  NOTE: Travaillez avec de l’éthanol au lieu de l’eau, car les macro-invertébrés sont conservés dans l’éthanol. Dans l’eau, ils flottent et dérivent dans le plateau de balayage, empêchant une image nette et, par conséquent, des mesures de taille fiables. L’éthanol doit être conservé à TA pour éviter la condensation et la formation de bulles.
3. Versez l’échantillon de macroinvertébrés dans le plateau de balayage bordé par le cadre et couvrez l’étape du cadre avec plus d’éthanol si nécessaire.
  REMARQUE: Abstenez-vous d’ajouter trop d’éthanol pour éviter que les organismes ne flottent et ne dérivent.
4. Homogénéisez l’échantillon dans toute la zone du cadre, en plaçant les plus gros individus au centre du plateau pour un traitement approprié de l’image, et coulez les organismes flottants à l’aide d’une aiguille en bois.
  REMARQUE : Si un sous-échantillon contient numériquement plus de 1 000 individus, divisez-le en deux fractions ou plus pour minimiser le contact avec les organismes dans l’image numérisée et numérisez les fractions séparément.
5. Séparez les organismes qui touchent et les organismes qui touchent les bords du cadre à l’aide de l’aiguille en bois.
  REMARQUE: Cette étape nécessite 5-20 min. Le toucher des organismes est considéré comme un objet unique par le logiciel; Ainsi, dans ces cas, les tailles individuelles calculées ne correspondent pas à des organismes individuels réels et peuvent biaiser l’estimation de la structure granulométrique de la Communauté. Il y a la possibilité d’éditer l’image avec le logiciel de traitement d’image pour les séparer, mais cette étape supplémentaire implique au moins 1,5 h de retraitement; Ainsi, la séparation manuelle est fortement recommandée.
6. Pour numériser l’échantillon, fermez le couvercle du scanner, accédez au logiciel de traitement d’image, sélectionnez le projet de travail et cliquez sur SCAN Sample with Zooscan (For Archive, No Process).
7. Sélectionnez l’échantillon et suivez les instructions.
8. Accédez au logiciel de numérisation et cliquez sur Aperçu. Assurez-vous de prévisualiser l’image numérisée, vérifiez qu’il n’y a pas de lignes ou de taches et attendez au moins 30 secondes avant de commencer une autre numérisation.
9. Après au moins 30 s, cliquez sur le bouton Numériser dans le logiciel de numérisation.
  REMARQUE: Appuyez sur OK dans le logiciel de traitement d’image après avoir appuyé sur Numériser dans le logiciel de numérisation. N’appuyez sur aucune touche du clavier de l’ordinateur et évitez les vibrations de la numérisation pendant la numérisation. Trois fichiers sont générés dans le dossier Zooscan_scan > _raw : (i) un format de fichier image balisé (.tif) (16 bits) ; ii) un document texte normalisé appelé LOG (.txt) qui enregistre des informations sur les paramètres de numérisation; et iii) un document texte normalisé intitulé META (.txt) contenant des informations sur les méthodes d’échantillonnage.
10. Vérifiez que l’analyse brute est correcte.
  REMARQUE: Si l’analyse présente des bandes claires ou d’autres problèmes visibles, envisagez de répéter l’analyse pour éviter les problèmes dans les étapes suivantes.
Récupération d’échantillons
1. Retirez le cadre et rincez-le au-dessus du plateau de balayage à l’aide d’un flacon rempli d’éthanol à 70 % pour récupérer les macroinvertébrés attachés.
2. Soulevez la partie supérieure du scanner pour récupérer tous les organismes et l’éthanol du plateau à travers l’entonnoir de récupération du scanner dans un bécher. Avec la partie supérieure du scanner encore soulevée, rincez le plateau avec le flacon de pressage pour balayer les organismes restants.
3. Passer les échantillons et l’éthanol du bécher à travers un treillis de 500 μm pour retenir les invertébrés dans le maillage et les conserver dans un flacon contenant 70% d’éthanol.
4. Une fois que tous les échantillons sont récupérés dans le flacon, nettoyez le plateau avec de l’eau du robinet.
  REMARQUE: Lavez le plateau avec de l’eau du robinet entre les échantillons pour minimiser la précipitation de l’éthanol, ce qui modifie le traitement de l’image. Rincez le cadre à l’eau du robinet pour éviter les dommages potentiels liés à l’utilisation d’éthanol. À la fin de la journée, nettoyez le plateau à l’eau du robinet et séchez-le doucement avec du papier pour éviter les rayures.
Traitement d'images
1. Accédez au logiciel de traitement d’image et sélectionnez CONVERTIR et TRAITER les images et les organismes en mode batch, puis Convertir et traiter l’image ET les particules (image dans le dossier RAW). Conservez les paramètres par défaut et cliquez sur OK. NORMAL END apparaîtra à la fin du processus.
  REMARQUE : Un fichier PID et les vignettes correspondant à tous les objets détectés dans l’image numérisée (dans un fichier Joint Photographic Group [.jpg]) seront créés dans le dossier Zooscan_scan > _work. Un fichier PID est un fichier unique qui stocke toutes les métadonnées (métafichier), les données techniques associées au fichier journal et un tableau avec 36 variables mesurées de tous les objets détectés dans l’image. Les variables mesurées correspondent à différentes estimations du niveau de gris, de la dimension fractale, de la forme et de la taille. Les variables qui peuvent être utilisées pour l’estimation de la taille sont l’aire et les axes majeur et mineur d’une ellipse avec une aire égale à l’objet (voir section 3 du protocole). Le temps de traitement dépend de la densité de l’image et des caractéristiques de l’ordinateur, et peut être lancé entre les échantillons lors de la récupération et de la préparation de l’échantillon suivant. Sinon, il est recommandé de lancer le traitement des échantillons numérisés chaque jour en mode batch pendant la nuit et de vérifier le bon traitement de l’image le lendemain matin.
2. Vérifiez si l’arrière-plan de l’image traitée est correctement soustrait de l’exemple d’image à l’aide du logiciel de traitement d’image ou en vérifiant les images de masque (terminées par msk1.gif) situées dans Zooscan_scan > _work. Si l’arrière-plan contient des zones saturées ou de nombreux points, envisagez de répéter l’analyse pour garantir des images de haute qualité.
  REMARQUE: Pour éviter les zones saturées en arrière-plan, le plateau de numérisation doit être rincé à l’eau du robinet après chaque balayage avec de l’éthanol. Il est également important (1) de réduire le nombre d’individus scannés (en fractionnant l’échantillon et en scannant dans différents plis); (2) s’assurer que les gros organismes sont placés au centre du bac de balayage; 3° utiliser de l’éthanol propre et filtré; 4° réduire la saleté des échantillons; 5° s’assurer que le volume d’éthanol pour le balayage est adéquat; et (6) s’assurer que le délai entre la prévisualisation de l’échantillon et l’analyse est d’au moins 30 s.
Séparation des organismes touchants
REMARQUE : Lorsqu’il y a plusieurs vignettes avec des organismes touchants, il est nécessaire de séparer les images des organismes touchants des autres organismes et/ou des fibres/débris pour assurer une estimation correcte de la structure de la taille de la communauté.
1. Accédez au logiciel de traitement d’image pour détecter les vignettes avec plusieurs objets. Sélectionnez SEPARATION Using Vignettes et appuyez sur OK. Dans la fenêtre de sélection de la configuration, conservez les paramètres par défaut et cliquez sur OK.
2. Dans la fenêtre SÉPARATION des VIGNETTES , conservez les paramètres par défaut, sélectionnez également Ajouter des contours sur les vignettes, puis sélectionnez l’exemple à modifier.
3. Séparez les organismes touchants dans chaque vignette qui apparaît en traçant une ligne avec la souris (appuyez sur le bouton de roulement pour dessiner). Une fois la séparation dans une vignette terminée, cliquez sur le bouton X dans le coin supérieur droit de la fenêtre et appuyez sur OUI pour traiter la suivante. Appuyez sur NON pour terminer et enregistrer les modifications. À la fin du processus, NORMAL END apparaîtra si tout est correct.
4. Après la séparation, retraitez l’image pour obtenir les données d’objet mises à jour. Accédez au logiciel de traitement d’image, cliquez sur TRAITER (Convertie) Image (Process One) et sélectionnez Traiter à nouveau les particules des images traitées dans les sous-dossiers WORK. Sélectionnez l’exemple et, dans la fenêtre Single Image Process , conservez les paramètres par défaut, cochez Travailler avec le masque de séparation (CREATE-MODIFY-INCLUDE), puis cliquez sur OK. À la fin du processus, NORMAL END apparaîtra si tout est correct.
5. Dans la fenêtre Contrôle de séparation , appuyez sur OK pour enregistrer l’image avec les contours avant le traitement ; Si une image précédente existe, elle sera remplacée.
6. Dans la fenêtre Masque de contrôle de séparation , si nécessaire, sélectionnez MODIFIER pour ajouter des lignes de séparation au masque à l’aide de la souris afin de séparer les organismes en contact qui n’étaient pas apparus auparavant à l’étape de séparation à l’aide de vignettes. Lorsque vous avez terminé, terminez le processus et, dans la fenêtre Contrôle du masque de séparation , sélectionnez OUI pour accepter le masque. À la fin du processus, NORMAL END apparaîtra si tout est correct.
  REMARQUE: Le retraitement d’un échantillon avec un masque de séparation prend beaucoup de temps (cela peut prendre plus de 1,5 heure par échantillon). Il est préférable de consacrer le temps requis à l’étape 1.2.5 pour éviter cette étape supplémentaire.

2. Reconnaissance automatique des objets

REMARQUE : Créez un jeu d’apprentissage pour prédire automatiquement l’identité des objets détectés, séparant ainsi les organismes des débris de l’échantillon.

Création de jeux d’apprentissage
1. Copiez les images et les fichiers .pid associés aux images qui seront utilisés pour créer les catégories de l’ensemble d’apprentissage de Zooscan_scan > _work à PID_process > Unsorted_vignettes_pid.
  REMARQUE : Sélectionner un sous-ensemble d’échantillons présentant une grande diversité de taxons et différents sites d’échantillonnage et/ou saisons d’échantillonnage afin d’assurer une représentativité maximale des organismes dans les échantillons.
2. Dans le dossier PID_process > Jeu d’apprentissage, créez un sous-dossier avec le nom du nouvel ensemble d’apprentissage (c’est-à-dire yyyymmdd_raw_LS) et, à l’intérieur, créez les sous-dossiers qui correspondront à chaque catégorie de l’ensemble d’apprentissage (macroinvertébrés, débris, autres invertébrés).
  REMARQUE : Pour obtenir efficacement la structure de taille des communautés d’échantillons de macroinvertébrés de rivière, il est recommandé d’utiliser un ensemble d’apprentissage basé sur seulement trois catégories : macroinvertébrés, autres invertébrés et débris. Cet ensemble d’apprentissage sépare essentiellement les vignettes d’objets correspondant à des organismes de celles correspondant à des débris (par exemple, fibres, particules ou algues filamenteuses).
3. Accédez au logiciel de traitement d’image (mode avancé uniquement) et choisissez EXTRAIRE les vignettes pour PLANKTON IDENTIFIER (vignettes non triées pour la formation). Conservez les options par défaut et cochez la case Ajouter des contours .
4. Accédez au logiciel d’identification automatique, cliquez sur Apprentissage, sélectionnez parmi PID_process > Learning_set le sous-dossier créé pour le nouvel ensemble d’apprentissage (étape 2.1.2) et appuyez sur OK.
5. Dans la section de gauche (Pouces non triés) de la fenêtre ouverte, sélectionnez le dossier Non trié vignettes_pid. Sélectionnez les vignettes et faites-les glisser avec la souris des pouces non triés vers le dossier de leur catégorie correspondante dans la section de droite, Pouce trié, pour classer chaque objet dans les catégories définies. Les vignettes déplacées seront marquées d’un X rouge.
  REMARQUE: Définissez les catégories manuellement en créant des sous-dossiers dans le dossier des pouces triés ou créez-les en cliquant sur l’icône des dossiers dans le logiciel. Ne déplacez pas plus de 50 vignettes en même temps.
6. Une fois toutes les catégories complétées avec les objets sélectionnés (environ 300 objets par catégorie), cliquez sur Créer un fichier d’apprentissage et enregistrez-le avec le nom souhaité.
  Remarque : l’ensemble d’apprentissage sera enregistré en tant que fichier .pid dans le dossier PID_process > Jeu d’apprentissage du projet. Il est recommandé de créer et de tester plusieurs ensembles d’apprentissage avec différents niveaux de catégories (des formes grossières aux formes fines) et avec un équilibre différent du nombre d’objets dans chaque catégorie. Commencez avec un ensemble d’apprentissage grossier avec un faible nombre de catégories et au moins 50 objets par catégorie, puis augmentez le nombre d’objets dans chaque catégorie et/ou créez des ensembles d’apprentissage plus fins. Une catégorie doit être représentative de sa variabilité dans l’ensemble des échantillons.
Évaluation de l’ensemble d’apprentissage
REMARQUE : Effectuez une validation croisée avec deux volets et cinq essais à l’aide de la méthode de la forêt aléatoire avec le logiciel d’identification automatique pour obtenir une matrice de confusion de la classification résultante des objets.
1. Accédez au logiciel de classification automatique et cliquez sur Analyse des données.
2. Dans Sélectionner un fichier d’apprentissage, sélectionnez le fichier d’ensemble d’apprentissage créé dans PID_process > jeu d’apprentissage.
3. Dans Sélectionner une méthode, choisissez la méthode de forêt aléatoire de validation croisée. Dans Variables d’origine, décochez les variables de position (X, Y, XM, YM, BX, BY et Height). Dans Variables personnalisées, cochez uniquement ESD.
  REMARQUE: Cette méthode utilise une partie aléatoire de l’ensemble d’apprentissage pour reconnaître l’autre partie (deux plis), et cela est répété cinq fois pour s’assurer qu’il est statistiquement robuste.
4. Cliquez sur Démarrer l’analyse et enregistrez les résultats au format Analysis_name.txt dans le dossier PID_process > Prédiction. Une fois l’analyse terminée avec succès, quittez l’analyse des données.
5. Accédez au dossier PID_process > Prédiction et cliquez sur le fichier de validation croisée. Une fenêtre apparaîtra avec la matrice de confusion de la classification réelle (lignes) par rapport à la classification automatique (colonnes).
  REMARQUE : Le rappel est le pourcentage d’organismes appartenant à un groupe qui a été automatiquement bien reconnu, tandis que la précision 1 est le pourcentage d’organismes classés par l’algorithme comme un groupe qui n’est pas reconnu (contamination dans un groupe). Le rappel doit être supérieur à 70 % et la contamination (précision 1) doit être inférieure à 20 %.
6. Répétez les étapes 2.1-2.5 si plusieurs ensembles d’apprentissage ont été créés et le rappel et la précision 1 de chacun doivent être obtenus.
  REMARQUE : Si plusieurs ensembles d’apprentissage ont été créés, choisissez celui qui présente le plus grand rappel (bonne reconnaissance) et la plus grande précision (faible contamination) du groupe d’intérêt (c.-à-d. les macroinvertébrés) pour tester la prédiction automatique d’un ensemble d’échantillons à l’étape suivante.
Prédiction de l’identification des macroinvertébrés
Remarque : Utilisez le jeu d’apprentissage sélectionné pour prédire l’identité de tous les objets dans un sous-ensemble d’échantillons à l’aide du logiciel d’identification automatique avec un algorithme de forêt aléatoire.
1. Accédez au logiciel d’identification automatique et cliquez sur Analyse des données.
2. Dans Sélectionner un fichier d’apprentissage, sélectionnez le fichier d’ensemble d’apprentissage dans PID_process > jeu d’apprentissage qui doit être utilisé pour la prédiction.
3. Dans Sélectionner le(s) fichier(s) d’exemple, sélectionnez dans le dossier PID_results les exemples (fichiers PID) qui vont être prédits.
  Remarque : Traitez un maximum de 20 fichiers .pid en même temps pour éviter les erreurs liées aux problèmes de mémoire. Si trop de fichiers .pid sont traités en même temps, le processus affichera une fin correcte mais peut ne pas être bien traité, et une erreur peut se produire dans les étapes suivantes lors du traitement avec le logiciel de traitement d’image.
4. Dans Sélectionner une méthode, choisissez la méthode Forêt aléatoire . Cochez Enregistrer les résultats détaillés pour chaque échantillon. Dans Variables d’origine, décochez les variables de position (X, Y, XM, YM, BX, BY et Height). Dans Variables personnalisées, cochez uniquement ESD.
5. Cliquez sur Démarrer l’analyse et enregistrez les résultats au format Analysis_name.txt dans le dossier PID_process > Prédiction.
Validation manuelle
REMARQUE : Un expert valide manuellement la prédiction de l’étape précédente pour reclasser les objets mal classés dans la catégorie appropriée.
1. Copiez les fichiers Analysis_sample_dat1.txt à valider du dossier PID_process > Prediction vers le dossier PID_process > Pid_results.
2. Accédez au logiciel de traitement d’image et sélectionnez EXTRAIRE les vignettes dans les dossiers selon PREDICTION ou VALIDATION. Ensuite, sélectionnez Utiliser les fichiers PREDICTION du dossier « pid_results ». Conservez les paramètres par défaut et appuyez sur OK.
3. Le logiciel crée un dossier appelé sample_yyyymmdd_hhmm_to_validate avec les objets prédits dans le dossier PID_process > Vignettes triées.
4. Accédez au dossier PID_process > Vignettes triées et copiez le dossier sample_yyyymmdd_ hhmm_to_validate. Remplacez le nom du dossier _to validez par _validated.
5. Pour valider manuellement la classification automatique, ouvrez la sample_yyyymmdd_ hhmm_validated du dossier et passez en revue toutes les vignettes de chaque sous-dossier (catégorie) afin d’identifier s’il y a des objets mal classés. Lorsqu’un objet est mal classé, faites glisser la vignette à l’aide de la souris vers le dossier approprié (catégorie).
6. Accédez au logiciel de traitement d’image et sélectionnez LOAD Identifications à partir des vignettes triées. Conservez les paramètres par défaut et sélectionnez yyyymmdd_hhmm_name_validated à traiter.
7. Accédez à PID_process > Pid_results > Dat1_validated, où un fichier nommé Id_from_sorted_vignettes_yyyymmdd_hhmm.txt et un fichier .txt pour chacun des échantillons validés (sample_tot_1_dat1.txt) ont été créés.
  Remarque : Ces fichiers .txt contiennent une nouvelle colonne qui présente la prédiction, appelée pred_valid_Id_yyyymmdd_hhmm, qui spécifie la classification experte de chaque objet (c’est-à-dire la classification validée). De nouvelles catégories (par exemple, des catégories taxonomiques plus fines) pourraient être créées à ce stade, pendant la validation. Cependant, conservez le nom de la catégorie d’origine dans le nouveau nom (par exemple, macroinvertebrate_chironomidae). Cela permet de retracer la catégorie d’origine lors du calcul du rappel et de la précision et de regrouper facilement tous les macroinvertébrés pour calculer les paramètres de structure de taille de la communauté (c.-à-d. le spectre de taille et la diversité de taille). Le fichier texte fournit les données associées à chaque objet, y compris les axes mineurs et majeurs utilisés pour obtenir le volume ellipsoïdal de chaque organisme comme mesure de la taille corporelle individuelle. De plus, les deux dernières colonnes du tableau contiennent les catégories prédites et validées de chaque objet (ligne), ce qui permet de calculer, par catégorie, le rappel et la précision de l’ensemble d’apprentissage sur le sous-ensemble d’échantillons.

Figure 1 : Diagramme de travail représentant les sections 1 et 2 du protocole. Les horaires sont illustratifs et peuvent changer en fonction de l’ordinateur, de l’abondance de vignettes à traiter et du nombre de catégories de l’ensemble d’apprentissage. Ce cas correspond à la validation d’un ensemble d’apprentissage de trois catégories sur un ensemble de 42 sous-échantillons (au total, 47 473 vignettes). Veuillez cliquer ici pour voir une version agrandie de cette figure.

3. Calcul de la distribution de taille individuelle, des spectres de taille et des mesures de taille

REMARQUE: Les calculs mentionnés dans cette section ont été effectués à l’aide de Matlab (voir le script en tant que fichier supplémentaire 1).

Répartition individuelle par taille
1. La dernière colonne du fichier Id_from_sorted_vignettes_YYYYMMDD_HHHH.txt contient la classification validée des objets. Sélectionnez uniquement les objets classés comme macroinvertébrés pour représenter leur distribution de taille individuelle dans l’échantillon.
  NOTE: La taille du corps individuel correspond au volume ellipsoïdal des organismes macroinvertébrés. Le système fournit des mesures en pixels.
2. Concaténer les vecteurs avec les mesures de taille des deux balayages, car chaque fraction a un exposant de sous-échantillonnage différent. Avant la concaténation, corriger le fractionnement en répliquant les vecteurs de taille autant de fois que le sous-échantillon correspondant a été fractionné.
  REMARQUE : Cette étape est nécessaire si un balayage correspond à une fraction d’un échantillon (c.-à-d. grossier ou fin).
3. Calculer le volume ellipsoïdal à partir des axes majeur (M) et mineur (m) des ellipsoïdes prolates ayant les mêmes zones de pixels que les organismes. Avant de calculer le volume ellipsoïdal, convertissez les axes majeur (M) et mineur (m) des pixels en millimètres (mm) avec le facteur de conversion suivant (cf):
  1 pixel = 2 400 ppp
  1 pouce = 25,4 mm
  cf = 25,4/2400
  Le volume ellipsoïdal (ellipVol avec unités en mm³) correspond à :
4. Représenter la fonction de densité de probabilité de la distribution de taille individuelle sur l’échelle_{logarithmique 2} .
Diversité des tailles
1. Calculer la diversité de taille (Sd) d’après Quintana et al. (2008)⁸, comme dans García-Comas et al. (2016)³⁵ :
  
  où p x(x) est la fonction de densité de probabilité de taille x, et _x représente log₂(ellipVol). Cette mesure est donc l’indice de diversité de Shannon adapté à une mesure continue, comme la répartition de la taille individuelle dans une communauté.
Spectre granulométrique normalisé du biovolume (NBSS)
1. Définir les classes de taille du NBSS, en établissant la limite inférieure du spectre comme le quantile 0,01 de la distribution de taille des macroinvertébrés dans les échantillons et en créant des classes de taille à une échelle géométrique de base 2 jusqu’à ce que le plus grand organisme des échantillons soit englobé.
  Remarque : La largeur de la classe de taille augmente avec la taille pour tenir compte de la plus grande variabilité associée à des tailles plus grandes. Le NBSS des communautés de macroinvertébrés analysées ici comportait 14 classes de taille (tableau 1).
2. Obtenez le biovolume normalisé en divisant le biovolume total dans chaque classe de taille par la largeur de la classe de taille.
Pente du spectre de taille
1. Calculer la pente linéaire du NBSS.
  NOTA : La pente (μ) est calculée en fonction de la relation entre le log 2 (point médian de la classe de taille) etle log₂ (biomasse normalisée) dans les classes de taille supérieures au mode, sans tenir compte des classes vides (dans la présente étude, les classes de taille de 3 à 14).

Limites de classe de taille (mm³)	Point médian de la classe de taille (mm³)
0,1236	0,1855
0,2473	0,3709
0,4946	0,7418
0,9891	1,4837
1,9783	1,4837
3,9560	5,9348
7,9131	11,8696
15,8261	23,7392
31,6522	47,4783
63,3044	94,9567
126,6089	189,9133
253,2178	379,8267
506,4300	7597,7000
1012,9000	15193,0000
2025,7000

Tableau 1 : Classes de taille du spectre granulométrique normalisé de la biomasse (NBSS). Le tableau montre également les limites des 15 classes de taille et les points médians de la classe de taille des organismes.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Acquisition d’images numériques d’échantillons de macroinvertébrés
Nuances de balayage : dépôt d’éthanol dans le bac de numérisation
Lors de l’essai du système pour les macroinvertébrés, plusieurs scans étaient de mauvaise qualité. Une zone saturée sombre en arrière-plan empêchait le traitement normal de l’image et la mesure de la taille individuelle des macroinvertébrés (Figure 2). Plusieurs raisons ont été données pour l’apparition de zones saturées en arrière-plan ou d’images fortement pixélisées: (1) la présence d’un trop grand nombre d’organismes sur le plateau de numérisation; 2° la présence de saleté dans les échantillons; (3) un délai insuffisant entre la prévisualisation de l’échantillon et son balayage; ou (4) l’utilisation dans le traitement d’image d’une image de fond de mauvaise qualité en raison de la condensation, de la saleté ou de la mauvaise qualité de l’eau³³. Dans les échantillons de communautés de macroinvertébrés, l’utilisation d’éthanol au lieu d’eau provoque des précipitations sur le plateau, qui forme une ombre sombre s’il n’est pas correctement rincé à l’eau entre les scans. Ceci est essentiel pour obtenir des images nettes et minimiser toute corrosion connexe du verre du plateau de numérisation.

Nuances de balayage : concentration de débris
D’après l’analyse d’un sous-ensemble de 47 473 vignettes, un pourcentage élevé (86,1 %) correspondait à des débris, y compris des détritus, des fibres ou des parties du corps (comme les pattes ou les branchies), ou des artefacts de balayage (figure 3A-E). Les organismes invertébrés correspondaient aux 13,9 % restants des objets détectés (figure 3F-L). Ainsi, malgré la séparation méticuleuse des organismes de la matière organique en laboratoire, il restait encore beaucoup de petits débris dans le flacon.

Nuances de numérisation : toucher des objets
La présence importante de débris améliore le contact entre les organismes et, par conséquent, la création de vignettes avec des agrégats qui comprennent de multiples organismes touchants et des organismes attachés à des particules ou des fibres (Figure 4A-C). Ces vignettes sont une source de biais dans la détermination de la forme de la structure de taille individuelle. Dans un ensemble de cinq échantillons (11 sous-échantillons), sur toutes les vignettes avec des macroinvertébrés, 10% correspondaient à des groupes avec des organismes en contact ou des organismes touchant des particules ou des fibres. Ces vignettes ont été éditées avec le programme de traitement d’image afin de séparer les organismes en contact et les organismes avec des particules attachées. Le retraitement des échantillons avec le masque de séparation a impliqué la création de nouvelles vignettes avec les objets nouvellement séparés, qui ont été validées pour assurer leur classification correcte.

Reconnaissance automatique des objets
Résultats de l’ensemble d’apprentissage
Un ensemble d’apprentissage est un ensemble de vignettes d’objets classés en différentes catégories par un expert et utilisés dans un modèle d’apprentissage supervisé, et cela peut également être appelé un ensemble d’apprentissage²⁷. Il est possible de travailler avec un ensemble d’apprentissage existant, de mettre à jour l’ensemble d’apprentissage existant avec de nouvelles vignettes et/ou catégories, ou de créer un nouvel ensemble d’apprentissage pour un projet spécifique.

Pour déterminer le meilleur ensemble d’apprentissage pour obtenir rapidement la structure de taille des macroinvertébrés, plusieurs ensembles d’apprentissage ont été créés et testés par validation croisée avec l’algorithme de forêt aléatoire. La matrice de confusion qui en résulte montre la classification réelle (lignes) par rapport à la classification automatique (colonnes). Le rappel est le pourcentage d’organismes appartenant à une catégorie qui a été automatiquement bien classée, tandis que la précision 1 est le pourcentage d’organismes mal classés par l’algorithme comme appartenant à une catégorie (contamination dans une catégorie)³³. En règle générale, le rappel devrait être supérieur à 70 % et la contamination (précision 1) devrait être inférieure à 20 % pour conserver une catégorie dans l’ensemble d’apprentissage. L’ensemble d’apprentissage avec le plus grand rappel et la plus grande précision pour les macroinvertébrés est ensuite validé avec un sous-ensemble d’échantillons pour déterminer sa précision réelle dans l’identification des macroinvertébrés.

Trois types d’ensembles d’apprentissage ataxique (brut, intermédiaire et fin) avec des catégories basées sur les caractéristiques morphologiques des objets ont été testés. L’ensemble d’apprentissage brut comprenait trois catégories: macroinvertébrés, autres invertébrés (microcrustacés) et débris (fibres, particules et artefacts comme les taches de verre). L’ensemble d’apprentissage intermédiaire comprenait 16 catégories : 5 pour les macroinvertébrés, 3 pour les autres invertébrés et 8 pour les débris. L’ensemble d’apprentissage fin comprenait 4 autres catégories de macroinvertébrés, avec un total de 20 catégories (tableau 2).

En plus de définir les catégories, l’effet du nombre de vignettes par catégorie a également été testé. Chaque ensemble d’apprentissage a été testé séparément en utilisant 50 vignettes, 100 vignettes et 300 vignettes dans chaque catégorie (et 500 vignettes pour l’ensemble d’apprentissage brut avec trois catégories). Toutes les catégories étaient équilibrées en nombre, à l’exception des « Ostracoda », des « macroinvertébrés à longue ronde » et des « macroinvertébrés à coquille ronde », qui comprenaient moins d’individus dans les ensembles d’apprentissage de 100 vignettes et 300 vignettes parce qu’il n’y avait pas assez d’organismes de ces catégories détectés dans les images numérisées.

Le rappel et la précision pour les macroinvertébrés (toutes les catégories de macroinvertébrés réunies) et les organismes (les macroinvertébrés et les autres catégories d’invertébrés ensemble) ont été pris en compte pour sélectionner le meilleur ensemble d’apprentissage par validation croisée (voir les tableaux du dossier supplémentaire 2). Le meilleur ensemble d’apprentissage était l’ensemble d’apprentissage brut avec trois catégories (macroinvertébrés, autres invertébrés et débris), avec 300 objets dans chaque catégorie (tableau 2). L’ensemble d’apprentissage brut a ensuite été utilisé pour valider la classification automatique des objets dans le sous-ensemble d’échantillons numérisés.

Ensemble d’apprentissage	Nombre de catégories	Images par catégorie	Organismes de rappel	Rappeler les macro-invertébrés	Organismes de précision 1	1-Macroinvertébrés de précision
Cru	3	50	0.97	0.84	0.12	0.24
		100	0.96	0.87	0.06	0.17
		300	0.95	0.91	0.09	0.15
		500	0.93	0.88	0.13	0.2
Douleur moyenne	16	50	0.83	0.77	0.17	0.24
		100	0.84	0.79	0.15	0.21
		300	0.87	0.84	0.14	0.18
Bien	20	50	0.89	0.86	0.14	0.18
		100	0.9	0.87	0.11	0.14
		300	0.9	0.86	0.13	0.14

Tableau 2 : Ensembles d’apprentissage créés et testés (bruts, intermédiaires et fins) avec les catégories de chacun et le nombre d’objets par catégorie. Rappel et 1-précision des ensembles d’apprentissage créés. Catégories de l’ensemble d’apprentissage Raw : Macroinvertébrés (1), Autres invertébrés (2), Débris (3). Catégories de l’ensemble d’apprentissage moyen: macroinvertébrés longs (1), macroinvertébrés longs et lisses (2), macroinvertébrés longs et hérissés (3), macroinvertébrés ronds (4), macroinvertébrés à coquille ronde (5), cladocères (6), copépodes (7), ostracoda (8), agrégats (9), fibres (10), têtes (11), pattes (12), taches (13), taches foncées (14), taches gris clair (15), taches rondes (16). catégories de l’ensemble d’apprentissage fin: macroinvertébrés longs (1), macroinvertébrés longs lisses (2), macroinvertébrés foncés longs et lisses (3), macroinvertébrés longs et ronds (4), macroinvertébrés longs hérissés (5), macroinvertébrés ronds (6), macroinvertébrés à coquille ronde (7), macroinvertébrés ronds foncés (8), macroinvertébrés à coquille ronde (9), cladocères (10), copépodes (11), ostracoda (12), agrégats (13), fibres (14), têtes (15), pattes (16), taches (17), Taches foncées (18), taches gris clair (19), taches rondes (20).

Validation de la reconnaissance automatique avec le meilleur ensemble d’apprentissage
Les objets d’un sous-ensemble de 42 sous-échantillons fins et grossiers ont été automatiquement classés par l’ensemble d’apprentissage sélectionné avec l’algorithme Random Forest. Après validation manuelle, le rappel pour toutes les catégories était élevé (en moyenne, 0,94 pour les macroinvertébrés, 0,95 pour les autres invertébrés et 0,92 pour les débris), tandis que la contamination (précision 1) était plutôt faible, sauf pour les autres invertébrés (0,25 pour les macroinvertébrés, 0,84 pour les autres macroinvertébrés et 0,01 pour les débris) (figure 5 ). D’autres invertébrés (microcrustacés) étaient rares dans les échantillons (présents dans 17 des 42 sous-échantillons); La comparaison n’était donc pas robuste. De plus, cette catégorie a été fortement touchée par la contamination en raison de la similitude de forme et des niveaux de gris avec d’autres objets.

La comparaison de l’abondance automatique et validée des macroinvertébrés a montré que ceux-ci étaient fortement corrélés (r de Pearson = 0,92, valeur de p < 0,0001, n = 24 pour les sous-échantillons grossiers; r de Pearson = 0,98, valeur de p < 0,0001, n = 18 pour les sous-échantillons fins), avec une légère surestimation par la performance automatique due à la contamination par des débris (pentes < 1) (figure 6). En ce qui concerne la comparaison du volume ellipsoïdal moyen, la corrélation était également élevée (r de Pearson = 0,96, valeur de p < 0,0001, n = 24 pour les échantillons grossiers; R de Pearson = 0,99, valeur de p < 0,0001, n = 18 pour les échantillons fins) et la pente du spectre de taille était proche de −1 (figure 6). La différence de pente entre les fractions fines et grossières reflète l’effet plus important de la classification erronée dans les fractions de grande taille, qui est liée à leur faible nombre d’organismes.

Les fonctions de densité de probabilité des distributions de taille individuelles de la prédiction automatique concordaient fortement avec les prédictions validées pour les sous-échantillons fins, ainsi que pour les sous-échantillons grossiers. Cependant, il y avait quelques exceptions pour les sous-échantillons grossiers liés au nombre d’organismes et, par conséquent, à un effet plus important de la classification erronée dans ces cas, comme nous l’avons souligné précédemment (figure 7).

Effet du toucher avec les organismes sur les distributions de taille individuelles, les spectres de taille et les mesures de taille
Une comparaison des distributions de taille obtenues avant et après la séparation des organismes touchants et avant la validation dans un sous-ensemble de cinq échantillons sélectionnés a été effectuée pour évaluer l’effet du contact avec des objets. Pour comparer les distributions de taille, les sous-échantillons grossiers et fins ont été combinés, en fonction de leur fractionnement, pour reconstituer un échantillon représentant la communauté des macroinvertébrés. Dans trois échantillons, l’abondance après validation a augmenté (> 500 individus) (figure 8A). Malgré cette augmentation, le volume ellipsoïdal moyen correspondait très étroitement à celui calculé dans les échantillons validés (figure 8B).

Les distributions granulométriques des échantillons corrigés (après séparation des organismes touchants) différaient légèrement des distributions validées. Ainsi, la présence de plusieurs objets a eu une faible influence sur la distribution granulométrique de ces échantillons (figure 9A-E). Par conséquent, la diversité de taille calculée à partir des échantillons corrigés était fortement corrélée avec la diversité de taille des échantillons validés (r de Pearson = 0,94, valeur p = 0,017, n = 5) (figure 9F).

Théoriquement, le spectre de taille du biovolume normalisé (NBSS) d’une communauté avec plusieurs niveaux trophiques a une pente du spectre de taille dans l’échelle log₂ approchant -1 dans des conditions d’équilibre⁴. Le NBSS dans les communautés naturelles a souvent une bosse plutôt qu’une distribution linéaire, ce qui est principalement attribué au biais d’échantillonnage des plus petites classes de taille³⁶. Dans la présente étude, la troisième classe de taille était la plus courante dans le NBSS.

Les NBSS étaient assez similaires entre les étapes du protocole (Figure 10A-C), à l’exception de quelques classes de taille dans quelques spectres (Figure 10D-E). Par conséquent, la pente du spectre de taille calculée à partir des échantillons corrigés était fortement corrélée avec la pente basée sur les pentes validées (r de Pearson = 0,99, valeur p ≤ 0,0001, n = 5) (figure 10F).

Figure 2 : Exemples d’images numérisées avec des qualités différentes avant et après le traitement. (A,B) Image brute (à gauche) et image traitée (à droite) d’un sous-échantillon fin avec une bonne qualité de numérisation; (C, D) Image brute (à gauche) et image traitée (à droite) d’un sous-échantillon fin avec une mauvaise qualité de numérisation (arrière-plan sombre et image coupée sur le bord gauche); (E,F) image brute (à gauche) et image traitée (à droite) d’un sous-échantillon fin avec une mauvaise qualité de numérisation (fond sombre très pixélisé). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Vignettes de contour représentant différents objets présents dans les échantillons. (A-E) Débris (fibres, taches rondes, patte macroinvertébrée, taches et débris organiques); (F-I) macroinvertébrés (coléoptères, diptères, plécopères et trichoptera) et (J-L) autres invertébrés (cladocères, copépodes et ostracoda). Les barres d’échelle indiquent 1 mm gma = 1,1. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Exemples de vignettes contenant plusieurs objets. (A) Un macroinvertébré (Hydracarina) attaché à une fibre; (B) organismes multiples (Caenidae) agrégés par une fibre; et (C) deux macro-invertébrés touchant (Chironomidae et Caenidae). Les barres d’échelle indiquent 1 mm gma = 1,1. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Boîtes de rappel et de contamination (précision 1). Les diagrammes en boîte pour les trois catégories de macroinvertébrés, d’autres invertébrés et de débris (300 vignettes par catégorie) de l’ensemble d’apprentissage sélectionné validés sur un sous-ensemble d’échantillons (n = 42). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6 : Comparaison entre les estimations de l’abondance et du volume ellipsoïdal moyen dans la classification automatique par rapport à la classification validée. (A) Estimations de l’abondance dans les sous-échantillons (n = 42) et (B) estimations du volume ellipsoïdal moyen dans les sous-échantillons (n = 42). Les points sombres correspondent aux sous-échantillons grossiers (maille de >0,5 cm); Les points gris correspondent aux sous-échantillons fins (maillage de >500 μm). La ligne pointillée représente la relation 1:1. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 7 : Fonctions de densité de probabilité représentant la contribution relative (axe des y) de la taille individuelle dans l’échelle logarithmique (axe des x) pour la comparaison entre les estimations automatiques et entre les estimations validées. (A,B) Estimations automatiques et validées pour les sous-échantillons grossiers (n = 18), (C,D) Estimations automatiques et validées pour les sous-échantillons fins (n = 24). (A,C) Comparaison entre estimations automatiques et comparaison (B,D) entre estimations validées. Les couleurs représentent chaque sous-échantillon pour aider à discerner les spectres. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 8 : Comparaison entre les estimations de l’abondance et du volume ellipsoïdal moyen dans les sous-échantillons validés par rapport aux sous-échantillons validés après la séparation des objets en contact des échantillons naturels sélectionnés (sous-échantillons fins et grossiers ensemble). (A) Estimations de l’abondance par base de sondage (n = 5) et (B) estimations du volume ellipsoïdal moyen (n = 5). La ligne pointillée représente la relation 1:1. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 9 : Fonctions de densité de probabilité représentant la contribution relative (axe des y) de la taille individuelle sur l’échelle log₂ (axe des x) pour la prédiction automatique, la prédiction validée et la prédiction validée avec leurs valeurs respectives de diversité de taille (Sd). (A-E) Fonctions de densité de probabilité pour des échantillons naturels sélectionnés (sous-échantillons fins et grossiers ensemble) (n = 5); La ligne rouge correspond à la prédiction automatique, la ligne bleue correspond à la prédiction validée, et la ligne verte correspond aux échantillons corrigés (validés après la séparation des objets touchants). F) Comparaison des estimations validées et corrigées de la diversité des tailles; La ligne pointillée correspond à la relation 1:1. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 10 : Spectres de taille de biovolume normalisés (NBSS) et comparaison des pentes NBSS (μ) entre les traitements. (A-E) NBSS représentant la relation entre la valeur médiane de chaque classe de taille dans l’échelle logarithmique (axe x) et le biovolume normalisé par bande de balayage (axe y) des cinq échantillons sélectionnés pour les prédictions automatiques (croix rouges), validées (triangles bleus) et corrigées (cercles verts) avec leur spectre de taille respectif pentes (μ) calculées dans les classes de calibre à partir de la classe de taille modale et vers le haut (la troisième classe de taille est indiquée par la ligne pointillée verticale). (F) Comparaison des pentes calculées sur les échantillons validés par rapport aux pentes corrigées (après séparation des objets touchants). La ligne pointillée correspond à la relation 1:1, r². Veuillez cliquer ici pour voir une version agrandie de cette figure.

Fichier supplémentaire 1 : script Matlab pour effectuer les calculs. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 2 : Validation croisée, rappel et précision 1 des ensembles d’apprentissage créés. (A) Ensemble d’apprentissage brut avec 3 catégories et 50 vignettes par catégorie; (B) ensemble d’apprentissage brut avec 3 catégories et 100 vignettes par catégorie; (C) ensemble d’apprentissage brut avec 3 catégories et 300 vignettes par catégorie; (D) ensemble d’apprentissage brut avec 3 catégories et 500 vignettes par catégorie; (E) ensemble d’apprentissage brut avec 5 catégories et 50 vignettes par catégorie; (F) ensemble d’apprentissage brut avec 5 catégories et 100 vignettes par catégorie; (G) ensemble d’apprentissage brut avec 5 catégories et 300 vignettes par catégorie; H) l’enseignement intermédiaire comprend 16 catégories et 50 vignettes par catégorie; i) l’enseignement intermédiaire comprend 16 catégories et 100 vignettes par catégorie; J) l’ensemble d’apprentissage intermédiaire comprenant 16 catégories et 300 vignettes par catégorie; K) ensemble d’apprentissage des fins avec 20 catégories et 50 vignettes par catégorie; (L) ensemble d’apprentissage de l’affinité avec 20 catégories et 100 vignettes par catégorie; et (M) un ensemble d’apprentissage fin avec 20 catégories et 300 vignettes par catégorie. Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

L’adaptation de la méthodologie décrite par Gorsky et al., 2010 pour les macroinvertébrés riverains permet une grande précision de classification dans l’estimation de la structure de la taille des communautés de macroinvertébrés d’eau douce. Les résultats suggèrent que le protocole peut réduire le temps d’estimation de la structure de taille individuelle dans un échantillon à environ 1 heure. Ainsi, le protocole proposé vise à promouvoir l’utilisation systématique des spectres de taille des macroinvertébrés en tant que bioindicateur rapide et intégratif pour évaluer l’impact des perturbations dans les écosystèmes d’eau douce. Le spectre de taille des macroinvertébrés a déjà été utilisé comme indice de réussite pour évaluer l’état écologique des lagunes côtières²². Avec le développement du protocole, des études intensives sur les invertébrés peuvent être effectuées pour permettre des campagnes de surveillance sur le terrain qui couvrent de grandes échelles spatiales et temporelles.

Comme le but de ce protocole est d’obtenir rapidement la distribution individuelle de la taille de la communauté échantillonnée, sans tenir compte de la taxonomie, il est recommandé de créer un ensemble d’apprentissage simple comme celui proposé ici. Les tests d’ensembles d’apprentissage plus fins, avec un plus grand nombre de catégories, donnent moins de rappel et de précision pour les macroinvertébrés dans leur ensemble (tableau 2), et l’étape de validation prend plus de temps.

La prédiction automatique concordait fortement avec la prédiction validée de 42 sous-échantillons naturels provenant de différents sites d’échantillonnage, ce qui suggère que la méthode en mode automatique convient au comptage et à la mesure des macroinvertébrés dans les échantillons naturels (figure 6). De plus, la similitude des NBSS entre les prédictions automatiques et validées et l’ajustement élevé au modèle théorique linéaire suggèrent que le mode automatique est une méthode prometteuse pour poursuivre des études écologiques théoriques (Figure 10).

Au cours de l’adaptation de ce protocole, plusieurs problèmes ont été rencontrés, et ils ont été résolus ou minimisés de différentes manières. Un problème à prendre en considération lors de la numérisation d’échantillons de macroinvertébrés est l’apparition de zones saturées sombres. Ainsi, il est important de vérifier les images traitées et numérisées dès que possible pour détecter ce problème et répéter l’analyse si nécessaire. Ce problème a également été constaté lors du balayage du plancton³³, mais il est aggravé par l’utilisation d’éthanol au lieu de l’eau du robinet. Il n’est pas recommandé d’utiliser de l’eau du robinet, car les organismes conservés dans de l’éthanol à 70% dériveront à la surface. Même si le dispositif est conçu pour résister à l’éthanol dilué (5%), les échantillons d’invertébrés sont conservés avec 70% d’éthanol. L’utilisation de concentrations plus faibles d’éthanol n’est pas recommandée non plus, car les organismes pourraient être endommagés par des processus de réhydratation et de déshydratation³⁷. La solution proposée, qui est fortement recommandée, consiste à rincer le plateau de balayage à l’eau douce plusieurs fois après chaque balayage effectué avec de l’éthanol. Cela évite l’accumulation de précipités qui peuvent altérer l’arrière-plan de l’image et protège le verre du plateau de numérisation de la corrosion.

Un autre problème détecté est la présence de vignettes avec plusieurs organismes, ce qui peut modifier le spectre de taille en raison de la sous-estimation des individus de certaines tailles. Lorsque le nombre de vignettes comportant plusieurs objets est faible (<10 %), comme dans cette étude, la présence de plusieurs objets a une faible influence sur les distributions de taille et les NBSS dans ces échantillons (figure 9 et figure 10). Cela indique que, pour obtenir une structure granulométrique représentative de la communauté macroinvertébrée, il n’est pas nécessaire d’investir du temps dans l’étape 1.5 du protocole (la séparation des organismes touchants), pour laquelle le retraitement de l’image dure environ 1,5 h. Au lieu de cela, il est fortement recommandé de prendre du temps à l’étape 2.5 du protocole (séparer les organismes ou agrégats en contact à l’aide d’une aiguille en bois), ce qui prend beaucoup moins de temps (maximum 30 min) et assure une estimation correcte des distributions de taille en mode automatique³⁰. Une option pour réduire le nombre d’organismes touchants consiste à travailler avec moins d’organismes par balayage, mais le temps investi dans le balayage d’un échantillon dans un nombre élevé de fractions et la possibilité d’agrégation d’organismes doivent être pris en considération. Une autre solution serait de ne conserver qu’un sous-échantillon qui permettrait de calculer un spectre de taille représentatif lors du tri des organismes en laboratoire au lieu de préserver tous les organismes échantillonnés, comme cela a été fait dans ce travail. La réduction du nombre d’organismes par échantillon réduirait la probabilité de toucher les organismes. De plus, lorsque moins d’individus sont stockés, l’échantillon contient moins de débris, ce qui facilite la séparation, surtout si les fibres peuvent être évitées.

La limitation observée de la méthode de classification automatique est liée à la faible présence de microcrustacés (catégorie : autres macroinvertébrés) dans les échantillons utilisés. L’absence de représentation des microcrustacés peut affecter leur classification correcte et limiter la précision de la prédiction automatique pour cette catégorie. Néanmoins, les autres catégories, débris et macroinvertébrés, qui sont l’objectif principal de ce travail, présentent un rappel et une précision élevés. Les alternatives à l’utilisation de ce dispositif de scanner seraient d’adapter un scanner commun pour contenir des cadres d’eau, de promouvoir des codes open source pour le traitement des échantillons et l’apprentissage automatique comme celui fourni ici, et d’écrire des codes pour mesurer les organismes au microscope avec une caméra ou par flux avec un ensemble de caméras. Cela a été fait à plusieurs reprises 23,24,25,26,38,39,40, mais la méthode que nous proposons régule le paramétrage de balayage afin d’obtenir des estimations de taille comparables^, ce qui est difficile à contrôler avec les autres systèmes. De plus, le protocole et le dispositif de balayage proposés sont prêts à l’emploi, open source et déjà établis dans la communauté du mésozooplancton marin. Dans l’ensemble, l’adaptation de ce protocole démontre une avenue prometteuse pour utiliser cette méthode d’imagerie automatique afin d’obtenir efficacement la structure granulométrique des macroinvertébrés d’eau douce et de tester le potentiel des paramètres de taille pour la bioévaluation de l’eau douce.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs ne déclarent aucun conflit d’intérêts potentiels.

Acknowledgments

Ce travail a été soutenu par le ministère espagnol de la Science, de l’Innovation et des Universités (numéro de subvention RTI2018-095363-B-I00). Nous remercions les membres du CERM-UVic-UCC Èlia Bretxa, Anna Costarrosa, Laia Jiménez, María Isabel González, Marta Jutglar, Francesc Llach et Núria Sellarès pour leur travail dans l’échantillonnage sur le terrain des macroinvertébrés et le tri en laboratoire, ainsi que David Albesa pour sa collaboration à la numérisation des échantillons. Nous remercions enfin Josep Maria Gili et l’Institut de Ciències del Mar (ICM-CSIC) pour l’utilisation des installations de laboratoire et de l’appareil scanner.

Materials

Name	Company	Catalog Number	Comments
Beaker	Labbox		Other containers could be used
Dionized water	Icopresa	8420239600123	To dilute the ethanol
Funnel	Vitlab	41094
Glass vials 8 ml	Labbox	SVSN-C10-195	1 vial/subsample
ImageJ Software	Free access		Version 4.41o/ Image processing software
Large frame	Hydroptic	Provided by ZooScan	24.5 cm x 15.8 cm
Monalcol 96 (Ethanol 96)	Montplet	1050JE001
Plankton Identifier Software	Free access		Version 1.2.6/ Automatic identification software
Sieve	Cisa	26852.2	Nominal aperture 500µ and nominal aperture 0,5 cm
Tweezers	Bondline	B5SA	Stainless, anti-magnetic, anti-acid
VueScan 9 x 64 (9.5.09) Software	Hydroptic		Version 9.0.51/ Sacn software
Wooden needle			Any plastic or wood needle can be used
Zooprocess Software	Free access		Version 7.14/Image processing software
ZooScan	Hydroptic	54	Version III/ Scanner