Biochemistry

Études d’association multi-omiques à grande échelle à l’échelle du génome (Mo-GWAS): Lignes directrices pour la préparation et la normalisation des échantillons

Published: July 27, 2021 doi: 10.3791/62732

Mustafa Bulut¹, Alisdair R. Fernie^1,2, Saleh Alseekh^1,2

¹Max-Planck-Institute of Molecular Plant Physiology, ²Center of Plant Systems Biology and Biotechnology

Summary

Dans ce protocole, nous présentons un flux de travail optimisé, qui combine une préparation efficace et rapide des échantillons de nombreux échantillons. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques pour l’évaluation à haut débit des études GWAS métaboliques.

Abstract

La chromatographie en phase gazeuse-spectrométrie de masse (GC-MS) et la chromatographie liquide-spectrométrie de masse (LC-MS) sont des approches métabolomiques largement utilisées pour détecter et quantifier des centaines de milliers de caractéristiques métabolites. Cependant, l’application de ces techniques à un grand nombre d’échantillons est sujette à des interactions plus complexes, en particulier pour les études d’association à l’échelle du génome (GWAS). Ce protocole décrit un flux de travail métabolique optimisé, qui combine une préparation efficace et rapide des échantillons avec l’analyse d’un grand nombre d’échantillons pour les espèces de cultures de légumineuses. Cette méthode d’extraction légèrement modifiée a été initialement développée pour l’analyse des tissus végétaux et animaux et est basée sur l’extraction dans l’éther méthyl-tert-butylique : solvant méthanol pour permettre la capture des métabolites polaires et lipidiques. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques, qui sont essentielles pour l’évaluation à haut débit de la variance métabolique dans GWAS.

Introduction

Les approches « omiques » à grande échelle ont permis l’analyse de systèmes biologiques complexes ^1,2,3 et une meilleure compréhension du lien entre les génotypes et les phénotypes qui en résultent⁴. La métabolomique utilisant la chromatographie liquide ultra-haute performance-spectrométrie de masse (UHPLC-MS) et la GC-MS a permis la détection d’une pléthore de caractéristiques métabolites, dont seules certaines sont annotées dans une certaine mesure, ce qui entraîne une forte proportion de métabolites inconnus. Les interactions complexes peuvent être explorées en combinant la métabolomique à grande échelle avec la variation génotypique sous-jacente d’une population diversifiée⁵. Cependant, la manipulation de grands ensembles d’échantillons est intrinsèquement associée à des variations analytiques, ce qui fausse l’évaluation de la variance métabolique pour d’autres processus en aval. Plus précisément, les problèmes majeurs conduisant à des variations analytiques sont basés sur les performances de la machine et la dérive instrumentale au fil du temps⁶. L’intégration de la variation d’un lot à l’autre est difficile et particulièrement problématique lors de l’analyse de populations végétales structurées à grande échelle. De multiples procédures de normalisation ont été suggérées pour corriger les variations non biologiques, p. ex., l’utilisation de normes internes, externes et isotopiques pour corriger les erreurs analytiques, dont chacune est intrinsèquement associée à des problèmes et des pièges connus 7,8,9,10.

En plus de la variation analytique, le choix des protocoles d’extraction varie généralement en fonction de la méthode d’analyse. En fin de compte, il est souhaité de réduire les coûts de matériaux et de main-d’œuvre ainsi que la nécessité d’utiliser plusieurs aliquotes du même échantillon pour divers processus analytiques en effectuant des méthodes d’extraction basées sur la séparation de phase. Ces méthodes ont d’abord été introduites en utilisant du chloroforme : des solvants méthanol/eau pour fractionner les composés polaires et hydrophobes¹¹.

Ce protocole décrit un pipeline rapide à haut débit pour une plate-forme multi-omique permettant de profiler à la fois les métabolites polaires et les lipides chez les espèces de légumineuses. En outre, il montre comment ces ensembles de données peuvent être corrigés de manière appropriée pour la variation analytique et normalisés avant d’intégrer des informations génotypiques pour détecter les loci de caractères quantitatifs des métabolites (QTL) en effectuant GWAS.

Protocol

1. Conception expérimentale et culture de plantes

REMARQUE: Mettre en place l’expérience en fonction de l’hypothèse expérimentale, par exemple, l’utilisation d’une population GWAS à grande échelle diminue la nécessité de plusieurs réplications, car des tests statistiques seront effectués en fonction des haplotypes de tous les SNP individuels au lieu de l’accession. En revanche, les répétitions multiples sont indispensables dans d’autres approches expérimentales. Les points suivants doivent être pris en compte lors de la préparation de l’expérience.

Inclure suffisamment de répliques biologiques, selon l’hypothèse expérimentale.
Randomiser les répliques biologiques par bloc pour réduire les biais environnementaux locaux pendant la culture, par exemple en serre, en champ.
Assurer le bon entretien de la plante pendant la croissance. Traiter les plantes de manière homogène pour réduire les biais.

2. Préparation du matériel végétal biologique

Préparation de la récolte
1. Tubes de récolte d’étiquettes (20 mL) contenant deux billes métalliques de 5 mm et deux perles métalliques de 8 mm de diamètre pour l’homogénéisation. Remplissez un dewar avec de l’azote liquide.
  REMARQUE: Les plantes doivent être au stade végétatif pour la récolte de feuilles fraîches et de tissus racinaires.
Récolter des échantillons biologiques par congélation éclair dans de l’azote liquide. Récoltez le plus rapidement possible pour exclure l’influence de l’oscillation circadienne sur le métabolisme pendant les durées de récolte prolongées^12,13. Conservez les feuilles fraîches récoltées et les tissus racinaires pour un traitement ultérieur à -80 °C.
REMARQUE: La coupe des feuilles à la congélation éclair ne devrait pas prendre plus de quelques secondes, car après le clivage des feuilles, les processus biologiques actifs modifieraient les profils métaboliques en raison de blessures. Pour les racines, prénettoyez les racines en les lavant à l’eau avant de les congeler brusquement dans de l’azote liquide. L’excès d’eau à la surface des racines doit être absorbé avec du papier en papier. Les graines séchées peuvent être conservées à température ambiante; aucune congélation dans l’azote liquide n’est requise.
Broyer le tissu à l’aide d’un broyeur mélangeur de tissus.
1. Prérefroidissez les porte-tubes dans de l’azote liquide pendant quelques minutes pour maintenir une température basse tout en broyant le tissu.
2. Transporter les échantillons biologiques dans un dewar contenant de l’azote après les avoir sortis du congélateur à -80 °C.
3. Broyer les tissus pour obtenir une poudre homogène; utiliser 25 Hz pendant 1 min et répéter après congélation dans de l’azote liquide si le tissu n’est pas broyé de manière homogène.
Pour moudre les graines séchées, placez les graines dans un pot de broyage avec une perle métallique de 15 mm de diamètre. Utilisez la même fréquence et le même temps que ceux mentionnés au point 2.3.3.
REMARQUE: Des mortiers et des pilons propres et prérefroidis peuvent être utilisés si un broyeur mélangeur de tissus n’est pas disponible.
Tubes de microcentrifugation de 2 mL étiquetés prérefroidissement. Peser 50 mg avec une erreur de ±5 mg de matière végétale fraîche à l’aide d’une balance analytique. Prérefroidir les outils utilisés pour transférer le matériel végétal dans l’azote liquide. Assurez-vous que le matériel végétal reste congelé pendant le processus de pesée.
REMARQUE: N’exposez pas trop longtemps le matériel végétal frais à la température ambiante, car les processus biologiques sont activés par l’augmentation de la température, modifiant les profils métaboliques¹⁴.
Générez des échantillons supplémentaires de contrôle de la qualité (CQ) en regroupant une proportion de chaque échantillon et en pesant 50 mg avec une erreur de ±5 mg de matériel végétal frais regroupé dans des tubes de microcentrifugation à verrouillage de sécurité de 2 mL prérefroidis.
REMARQUE : Au moins trois échantillons de CQ sont recommandés pour 60 échantillons. Les échantillons de CQ sont essentiels pour la correction, la normalisation et les analyses en aval.

3. Réactifs d’extraction

Tissus frais, p. ex. feuilles et racines
REMARQUE : L’extraction d’échantillons est basée sur un protocole¹⁵ décrit précédemment. Ce protocole a été modifié en fonction des besoins actuels, par exemple plusieurs tissus, différentes normes internes et des expériences à grande échelle. De plus, tous les volumes et réglages d’instruments mentionnés ci-dessous sont ajustés aux unités d’analyse internes. Les utilisateurs du protocole doivent les ajuster en fonction de leur unité d’analyse et des échantillons biologiques, en fonction des échantillons d’essai.
1. Mélange d’extraction 1 (EM1) : méthyl tert-butyléther (MTBE)/méthanol (MeOH) (3:1 v/v)
  1. Préparez un mélange de MTBE/MeOH dans un rapport de 3:1. Pour 100 mL de solvant d’extraction, mélanger 75 mL de MTBE avec 25 mL de MeOH dans une bouteille en verre propre.
    REMARQUE: Les solvants doivent être manipulés avec précaution dans la hotte avec un équipement de sécurité approprié.
  2. Ajouter 45 μL de 1,2-diheptadécanoyl-sn-glycero-3-phosphocholine (1 mg/mL dans le chloroforme) comme étalon interne pour l’analyse lipidique à base d’UHPLC-MS, 400 μL de ribitol (1 mg/mL dans l’eau) comme étalon interne pour l’analyse à base de GC-MS, et 125 μL d’isovitexine (1 mg/mL dans MeOH/eau (1:1 v/v)) pour l’analyse des métabolites à base de UHPLC-MS.
    REMARQUE: L’ajout de normes internes est nécessaire pour la normalisation post-analyse en fonction des besoins analytiques. Comme 1 mL d’EM1 est nécessaire pour chaque échantillon, préparez une solution mère en fonction de la taille de l’échantillon expérimental, qui doit être utilisée pour l’ensemble de l’expérience. EM1 doit être conservé à -20 °C. Vérifiez l’absence de l’étalon interne utilisé et le chevauchement avec d’autres composés de l’espèce étudiée. Plusieurs normes peuvent être utilisées; la sélection des normes internes dans ce protocole était basée sur des tests antérieurs utilisant des extraits de haricots communs¹⁶.
2. Mélange d’extraction 2 (EM2) eau/méthanol (MeOH) (3:1 v/v)
  1. Pour 100 mL EM2, ajouter 75 mL d’eau double distillée et 25 mL de MeOH dans une bouteille en verre propre.
  2. Ajouter 500 μL d’EM2 par échantillon et préparer une solution mère en fonction de la taille de l’échantillon expérimental, qui doit être utilisée pour toute l’expérience. Conserver EM2 à 4 °C.
Graines séchées
1. Mélange d’extraction 3 (EM3) méthanol (MeOH)/eau (7:3 v/v)
  1. Pour 100 mL d’EM3, ajouter 70 mL de MeOH et 30 mL d’eau double distillée dans une bouteille en verre propre. Préparer 1 mL d’EM3 pour chaque échantillon.
  2. Ajouter 400 μL de ribitol (1 mg/mL dans l’eau) comme étalons internes pour l’analyse basée sur gc-MS et 125 μL d’isovitexine (1 mg/mL dans MeOH/eau (1:1 v/v)) pour l’analyse des métabolites UHPLC-MS.
    REMARQUE: Préparez une solution mère en fonction de la taille de l’échantillon expérimental et utilisez-la pour l’ensemble de l’expérience. Conserver EM3 à 4 °C.

4. Extraction d’échantillons

Tissus frais, p. ex. feuilles et racines
1. Préparer trois tubes de microcentrifugation à verrouillage sûr de 1,5 mL pour chaque échantillon. Conservez EM1 dans un système de refroidissement liquide à -20 °C. Transférer les échantillons frais du congélateur à -80 °C dans de la glace carbonique ou de l’azote liquide pour le transport. Ajouter brièvement 1 mL d’EM1 prérefroidi à chaque aliquote de 50 mg et vortex avant de rester sur la glace.
2. Incuber les échantillons sur un agitateur orbital à 800 × g pendant 10 min à 4 °C.
3. Sonicer les échantillons dans un bain de sonication refroidi par glace pendant 10 min.
4. Ajouter 500 μL d’EM2 à l’aide d’une pipette multicanal pour éviter toute variation des volumes ajoutés.
5. Vortex les échantillons brièvement pour mélanger les mélanges d’extraction avant de les centrifuger à 11 200 × g pendant 5 min à 4 °C.
6. Après la séparation de phase, transférer 500 μL de la phase contenant des lipides supérieurs dans un tube de microcentrifugation prémarqué de 1,5 mL à verrouillage sûr. Retirez le reste de la phase supérieure.
  REMARQUE: Faites attention lors du transfert car cette phase supérieure a une pression de vapeur élevée et a tendance à s’échapper de la pipette.
7. Transférer 150 μL et 300 μL des phases contenant des métabolites polaires et semi-polaires inférieurs dans deux tubes de microcentrifuge à verrouillage sûr de 1,5 mL utilisés pour l’analyse GC-MS et UHPLC-MS, respectivement.
8. Concentrer toutes les fractions extraites en laissant les solvants s’évaporer sans chauffer à l’aide d’un concentrateur à vide et les stocker à -80 °C.
Graines séchées
1. Préparer deux tubes de microcentrifugation à verrouillage sûr de 1,5 mL pour chaque échantillon. Gardez EM3 sur la glace. Placez une perle métallique de 5 mm de diamètre dans les aliquotes de l’échantillon.
2. Ajouter 1 mL d’EM3 dans chaque aliquote de 50 mg et homogénéiser les échantillons à 25 Hz pendant 2-3 min avant de les mettre sur glace.
3. Sonicer les échantillons dans un bain de sonication refroidi par glace pendant 10 min.
4. Vortex les échantillons brièvement avant la centrifugation à 11 200 × g pendant 5 min à 4 °C.
5. Transférer 150 μL et 300 μL du surnageant dans deux tubes de microcentrifugation à verrouillage sûr de 1,5 mL utilisés respectivement pour l’analyse GC-MS et UHPLC-MS.
6. Concentrez toutes les fractions extraites en laissant les solvants s’évaporer sans chauffage à l’aide d’un concentrateur à vide et stockez-les à -80 °C.
  REMARQUE: Sur la base de l’expérience, il est conseillé aux utilisateurs d’effectuer l’étape 4.2 pour l’analyse des métabolites semi-polaires et des métabolites dérivés dans les graines séchées. Effectuer l’étape d’extraction 4.1 pour l’analyse des lipides des graines séchées.

5. Analyse des lipides à l’aide de UHPLC-MS

Suspendre à nouveau les fractions lipidiques séchées dans 250 μL d’acétonitrile:2-propanol (7:3, vol/vol).
Sonicate la phase lipidique pendant 5 min, centrifuger à 11 200 × g pendant 1 min.
Transférer 90 μL du surnageant dans un flacon en verre pour LC-MS.
Injecter 2 μL des extraits dans le LC-MS.
Effectuer un fractionnement lipidique sur une colonne_C8 en phase inversée maintenue à 60 °C avec un débit de 400 μL/min avec des changements progressifs de l’éluant A et B comme indiqué dans le tableau 1. Acquérir les spectres de masse en mode d’ionisation positive avec une plage de masse de 150-1 500 m/z.
Inclure plusieurs échantillons de CQ dans tous les lots quotidiens et un blanc pour assurer la correction de la variation analytique. Randomisez les échantillons par bloc dans l’ordre séquentiel.

6. Analyse des métabolites polaires et semi-polaires à l’aide de l’UHPLC-MS

Remettez en suspension la phase polaire séchée dans 180 μL de méthanol de qualité UHPLC : eau (1:1 v/v).
Soniquer la phase polaire pendant 2 min, centrifuger à 11 200 × g pendant 1 min.
Transférer 90 μL du surnageant dans un flacon en verre pour LC-MS.
Injecter 3 μL des extraits dans le LC-MS.
Effectuer le fractionnement des métabolites sur une colonne en phase inverse_C18 maintenue à 40 °C avec un débit de 400 μL/min avec des changements progressifs de l’éluant A et B comme indiqué dans le tableau 1. Acquérir les spectres de masse dans une gamme de masse de 100 à 1 500 m/z dans un balayage MS complet et toute la fragmentation ionique (AIF) induite par la dissociation collisionnelle à haute énergie (HCD) de 40 keV.
REMARQUE: Utilisez les deux modes d’ionisation. Cependant, en raison de la capacité limitée lors de l’exécution d’un grand nombre d’échantillons, exécutez des échantillons de test dans les deux modes d’ionisation pour déterminer le mode d’ionisation préféré.
Inclure plusieurs échantillons de CQ dans tous les lots quotidiens et un blanc pour assurer la correction de la variation analytique. Randomisez les échantillons par bloc dans l’ordre séquentiel.
Exécutez un QC groupé dans MS² dépendant des données en mode d’ionisation négative et positive. Utilisez les spectres de masse obtenus dans une étape ultérieure (8.5) pour l’annotation.

7. Analyse des métabolites dérivés à l’aide de GC-MS ^17,18

REMARQUE: L’analyse des métabolites dérivés est basée sur un protocole¹⁷ décrit précédemment. Manipulez tous les réactifs de dérivatisation dans la hotte. S’assurer que le N-méthyl-N-(triméthylsilyl)trifluoracétamide (MSTFA) n’entre pas en contact avec l’eau et l’humidité.

Réactif de dérivatisation 1 (DR1)
1. Dissoudre le chlorhydrate de méthoxyamine dans la pyridine pour obtenir une concentration de 30 mg/mL de DR1. Utilisez 40 μL de DR1 pour chaque échantillon. Préparer une solution mère en fonction de la taille de l’échantillon et conserver à température ambiante.
Réactif de dérivatisation 2 (DR2)
1. Dissoudre le MSTFA avec 20 μL d’esters méthyliques d’acides gras (AGF) par 1 mL de MSTFA. Utilisez 70 μL de DR2 pour chaque échantillon. Préparez une solution mère en fonction de la taille de l’échantillon. Conserver le MSTFA à 4 °C et les FAME à -20 °C.
  REMARQUE : Les FAME comprennent le méthylcaprylate, le pélargonate de méthyle, le méthylcaprate, le méthyllaurate, le méthylmyristate, le méthylpalmitate, le méthylstéarate, le méthyléicosanoate, le méthyldocosanoate, l’ester méthylique de l’acide lignocérique, le méthylhexacosanoate, le méthyloctacosanoate et le méthylester d’acide triacontanoïque, qui sont dissous dans CHCl₃à une concentration de 0,8 μL/mL ou 0,4 mg/mL pour les étalons liquides ou solides, respectivement.
Sécher à nouveau la pastille de la phase polaire (stockée à -80 °C) à l’aide d’un concentrateur sous vide pendant 30 min pour éviter toute interférence de H₂O provenant pendant le stockage avec les solvants utilisés pour la dérivation en aval.
Ajouter 40 μL de DR1.
Agiter les échantillons à 950 × g pendant 2 h à 37 °C à l’aide d’un agitateur orbital, suivi d’une courte rotation du liquide.
Ajouter 70 μL de DR2.
Agiter à nouveau à 950 × g pendant 30 min à 37 °C à l’aide d’un agitateur orbital.
Centrifugez brièvement à température ambiante avant de transférer 90 μL dans des flacons en verre pour l’analyse GC-MS.
Injecter 1 μL en mode gc-MS splitless, en fonction des concentrations de métabolites, avec un débit constant de gaz porteur d’hélium de 2 mL/min. La température d’injection est réglée à 230 °C à l’aide d’une colonne capillaire MDN-35 de 30 m.
REMARQUE : Des renseignements supplémentaires, p. ex. le gradient de température, se trouvent dans le tableau 1. La plage de masse est réglée sur 70-600 m/z avec 20 scans/min. Inclure des modes fractionnés pour permettre la quantification des composés de surcharge putative, ce qui permet d’économiser des coûts et du temps pour la reprivatisation des extraits dans de tels cas.
Inclure plusieurs échantillons de CQ dans tous les lots quotidiens et un blanc pour assurer la correction de la variation analytique. Randomisez correctement les échantillons par bloc dans l’ordre séquentiel.

8. Traitement du chromatogramme et annotation des composés

Filtrer le bruit chimique en définissant des seuils d’intensité. Inclure tous les échantillons qc lors du traitement des chromatogrammes.
REMARQUE: Pour les données à grande échelle, le filtrage du bruit est crucial pour réduire le temps de calcul et la puissance de traitement.
Alignez les chromatogrammes en définissant une fenêtre de décalage temporel de rétention. Vérifiez les chromatogrammes de chaque lot pour évaluer la variation intra- et inter-lot.
Effectuez la détection des pics en fonction de la forme du pic, par exemple la hauteur et la largeur pour les calculs de pleine largeur à demi-maximum (FWHM).
Regrouper les isotopes pour réduire les signaux redondants et filtrer les singletons.
REMARQUE: Voir le tableau des matériaux pour plus de détails sur les logiciels utilisés pour le traitement des chromatogrammes. Des protocoles détaillés sur la façon de traiter les chromatogrammes à l’aide de divers outils logiciels disponibles gratuitement, par exemple MS-DIAL, MetAlign, MzMine et Xcalibur 19,20,21, sont fournis.
Utilisez les données ddMS² d’un exemple de contrôle qualité groupé pour l’annotation composée. Évaluer la structure moléculaire en déterminant la masse monoisotopique et en observant les pertes neutres courantes, les aglycones chargés connus et différents types de clivages, par exemple homolytiques ou hétérolytiques^16,22.
Pour communiquer les données sur les métabolites, suivez la recommandation décrite dans Fernie et coll., 2011²³.
REMARQUE: Différentes approches métabolomiques computationnelles peuvent être utilisées pour analyser les données métabolomiques 24,25,26.

9. Normalisation de l’ensemble de données métabolomiques à grande échelle

Vérifiez la distribution de la ou des normes internes et normalisez-les en corrigeant la réponse d’une ou de plusieurs normes internes.
Corriger les intensités de crête obtenues à partir du chromatogramme sur le poids exact de l’échantillon en divisant les intensités de crête par le poids d’échantillon homogénéisé aliquote de l’étape 2.5.
Correction de la dérive d’intensité sur plusieurs séries de lots. Effectuez des méthodes de correction basées sur le CQ, telles que le lissage du nuage de points estimé localement (LOESS)²⁷ à l’aide de R.
REMARQUE: Plusieurs outils et packages sont disponibles pour faire face à la dérive des performances MS lors de l’acquisition de l’ensemble des lots^28,29.
Assurer la distribution normale des traits par transformation des données, par exemple, la transformation box-Cox³⁰ en utilisant la fonction boxcox () du package R MASS pour effectuer GWAS.
Effectuer la mise à l’échelle des données, par exemple la mise à l’échelle de Pareto, pour l’analyse multivariée afin d’assurer une pesée correcte des composés à faible abondance³¹.
REMARQUE: Si possible, effectuez un test de récupération pour éviter les effets de matrice, par exemple, la suppression des ions¹⁴.

10. Études d’association à l’échelle du génome (GWAS)³²

Appelez le polymorphisme mononucléotidique (SNP) ou les variantes structurelles (SV) à partir des données de séquençage^33,34.
Filtrer les données génotypiques pour la fréquence des allèles mineurs (MAF) < 5% et le taux manquant de >10% pour éviter le biais de basse fréquence à l’aide de Tassel³⁵.
Calculer les meilleures prédictions linéaires non biaisées (BLUP) pour chaque caractéristique normalisée au cours des répétitions expérimentales afin d’éliminer les biais provenant de facteurs environnementaux (effets aléatoires) à l’aide du package R Ime4³⁶.
Utilisez les BLUPs de chaque fonctionnalité individuellement pour effectuer GWAS à l’aide du package rMVP dans R³⁷.
REMARQUE: Chaque caractéristique métabolomique est considérée ici comme un phénotype autonome individuel.
Lors de l’exécution de GWAS, corrigez la structure de la population à l’aide de l’analyse en composantes principales (PCA) et de l’identité par état (IBS) ou vanRaden pour minimiser les effets de confusion. En outre, envisagez d’utiliser un modèle linéaire mixte (MLM) ou un modèle mixte multi-locus (MLMM), car les modèles mixtes contiennent des effets fixes et aléatoires.

11. Détection QTL

Vérifiez les SNP montrant une association significative, en tenant compte des diagrammes de Manhattan, pour les calculs de déséquilibre de liaison (LD) afin de déterminer la région génétique sous-jacente. Effectuez des calculs LD à l’aide du package R LD Heatmap ou Tassel 5.
Vérifiez les SNP associés pour l’ampleur de l’effet sur le trait en examinant les niveaux de caractères pour les changements statistiques entre les haplotypes afin de trouver des SNP causaux potentiels, par exemple, les SNP conduisant à un changement d’acide aminé dans la séquence codant pour les protéines, ce qui pourrait expliquer la variation phénotypique.
REMARQUE: Comme les associations de caractères NP Sne donnent pas nécessairement une association causale, il est crucial de déterminer la région génomique. L’identité composée par annotation de caractéristique peut aider énormément à trouver les bons gènes candidats dans une région génomique spécifique. Nous suggérons de combiner tous les QTL détectés associés à certains composés dans une carte pléiotropique pour souligner les régions génétiques³⁸, comme le montre la figure 4. Pour la validation des gènes candidats, plusieurs approches peuvent être réalisées (voir la discussion).

Representative Results

Les expériences GWAS métabolomiques réussies devraient commencer par un plan expérimental approprié, suivi de la collecte, de l’extraction, de l’acquisition et du traitement des échantillons, comme illustré à la figure 1. Dans ce protocole, la méthode MTBE¹⁵ a été utilisée pour extraire et analyser des centaines de métabolites appartenant à plusieurs classes de composés. La chromatographie dépend fortement des propriétés de la colonne utilisée ainsi que des mélanges tampons d’élution. La figure 2 montre les chromatogrammes des échantillons de CQ, indiquant le profil d’élution de certaines classes de lipides majeures dans ce système analytique. Les gradients appliqués pour chaque plate-forme sont donnés dans le tableau 1. L’accent a été mis sur la gestion des erreurs systémiques dans les expériences à grande échelle. La réalisation de métabolomiques à grande échelle est intrinsèquement associée à des erreurs systémiques. À des fins de démonstration, nous avons analysé les données lipidomiques de plusieurs espèces de haricots communs. Le tableau supplémentaire 1 fournit les données lipidomiques brutes extraites obtenues après le traitement du chromatogramme à l’aide du logiciel indiqué dans le tableau des matériaux. Le respect de ce protocole nous a permis de contourner les problèmes majeurs liés au traitement des données omiques, en particulier lors de la manipulation de grands ensembles d’échantillons. La procédure de normalisation permet de corriger avec précision les erreurs analytiques par lots, comme le montre la figure 3. Bien que l’augmentation du nombre d’échantillons de CQ augmenterait la puissance de la normalisation, cela n’est pas toujours réalisable en raison des contraintes de coût et de temps. Pour les GWAS métabolomiques à haut débit avec des caractéristiques métaboliques non ciblées, il est essentiel d’illustrer de manière appropriée un nombre plus élevé d’associations trait-marqueur. Une carte pléiotropique³⁸ combinant plusieurs résultats GWAS pourrait être utilisée pour mettre en évidence les régions génomiques auxquelles plusieurs traits sont liés (Figure 4).

Figure 1 : Organigramme du GWAS à base de métabolomique chez les plantes. Plusieurs étapes allant de la conception expérimentale jusqu’à la détection de QTL sont affichées dans le panneau de gauche. Dans le panneau de droite, plusieurs figures sont affichées pour prendre en charge plusieurs étapes mentionnées dans le panneau de gauche. En partant du haut à droite, (1) une séquence suggérée d’échantillons est montrée pour LC-MS, (2) des diagrammes de score pré- et post-normalisés de PCA, y compris une distribution représentative des caractéristiques avant et après le traitement, avec le rouge indiquant les intensités de l’échantillon QC, et (3) un diagramme de Manhattan avec des associations significatives auxquelles des distributions LD et haplotypes ont été générées. Abréviations : GWAS = études d’association à l’échelle du génome; QTL = loci de caractères quantitatifs; APC = analyse en composantes principales; QC = contrôle de la qualité; LD = déséquilibre de liaison; MS = spectrométrie de masse; LC-MS = chromatographie liquide-spectrométrie de masse; GC-MS = chromatographie en phase gazeuse-spectrométrie de masse; LOESS = lissage du nuage de points estimé localement; MLM/MLMM = modèle linéaire mixte/modèle mixte multi-locus. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Traitement du chromatogramme. Deux chromatogrammes QC (pic de base; données lipidiques) de différents lots démontrent la variation par lot pour certaines classes de lipides dans les échantillons QC regroupés. Quatre grandes classes de lipides sont indiquées avec leurs fenêtres d’élution respectives dans le système LC-MS interne. Les chromatogrammes ont été exportés à partir de MzMine²¹. Abréviations : QC = contrôle de la qualité; LC-MS = chromatographie liquide-spectrométrie de masse. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Correction d’une erreur systématique. Analyse en composantes principales des données lipidomiques acquises, pré- (gauche, données brutes) et post-correction pour les erreurs systémiques (droite, lœss de lot). Les panneaux inférieurs illustrent la distribution des caractéristiques (Cluster_00005) sur les échantillons (n = 650) et les lots (n = 10) avant (à gauche) et après (à droite) pour la variation analytique. Abréviations : APC = analyse en composantes principales; QC = contrôle de la qualité; LOESS = lissage du nuage de points estimé localement. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Carte pléiotropique illustrant les résultats combinés du GWAS. La carte pléiotropique met en évidence des régions de l’ensemble du génome associées à plusieurs traits. Les chiffres sur les anneaux extérieurs indiquent les chromosomes correspondants. Chaque cercle représente un trait individuel avec ses SNP significativement associés. Les couleurs représentent différentes classes de composés (gris = classe de composé 1; vert = classe de composé 2; violet = classe de composé 3; jaune = classe de composé 4). Dans le cas d’associations de classes inter-composés avec la même région génomique, les gènes sont mis en évidence. Le cercle gris intérieur montre la somme de tous les SNP significatifs associés à une position génomique spécifique. Les associations présentées dans cette figure ne sont générées artificiellement qu’à titre d’illustration. Abréviations : GWAS = études d’association à l’échelle du génome; SNP = polymorphismes mononucléotidiques. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Paramètres UHPLC-MS pour les lipides
Temps [min]	Éluant A à B [%]*	Information
0 - 1.00	45 % A	Éluant A : 1 % 1 M NH 4-acétate, 0,1 % d’acide acétique dans l’eau (grade UHPLC)
1.00 - 4.00	lg 45% - 25% A	Éluant B : 1 % 1 M NH 4-acétate, 0,1 % d’acide acétique dans l’acétonitrile/2-propanol 7:3 (grade UHPLC)
4.00 - 12.00	lg 25% - 11% A	Débit : 400 μL/min
12.00 - 15.00	lg 11% - 0% A	Volume d’injection : 2 μL
15.00 - 19.50	cw 0% A
19.50-19.51	0 % - 45 % A
19.51-24.00	eq 45%
Paramètres UHPLC-MS/MS pour les métabolites polaires et semi-polaires
Temps [min]	Éluant a et b [%]*	Information
0 - 1.00	99 % A	Éluant A : 0,1 % d’acide formique dans l’eau (grade UHPLC)
1.00 - 11.00	lg 99% -60% A	Éluant B : 0,1 % d’acide formique dans l’acétonitrile (grade UHPLC)
11.00 - 13.00	lg 60% - 30% A	Débit : 400 μL/min
13.00 - 15.00	lg 30% - 1% A	Volume d’injection: 3 μL
15.00 - 16.00	cw 1% A
16.00 - 17.00	lg 1% - 99% A
17.00 - 20.00	eq 99% A
Paramètres GC-MS pour les métabolites dérivés
Temps [min]	Température [°C]	Information
0 - 2.00	85	Gaz porteur : Hélium
2.00 - 18.66	lg 80 - 330	Débit : 2 mL/min
18.66 - 24.66	cw 330	Gradient de température : 15 °C/min
24.66	refroidissement rapide	Volume d’injection : 1 μL

Tableau 1 : Paramètres de gradient pour chacune des plates-formes analytiques⁷. Abréviations : lg = gradient linéaire ; cw = lavage de colonne; eq = équilibre; UHPLC-MS = chromatographie liquide ultra-haute performance-spectrométrie de masse; UHPLC-MS/MS = chromatographie liquide ultra-haute performance-spectrométrie de masse en tandem; GC-MS = chromatographie en phase gazeuse-spectrométrie de masse. * = la valeur en pourcentage correspond à l’éluant A; la valeur restante en pourcentage correspond à l’éluant B.

Tableau supplémentaire 1 : Données lipidomiques brutes. Indique les intensités maximales de chacun des clusters détectés sur chaque échantillon. Veuillez cliquer ici pour télécharger ce tableau.

Discussion

GC-MS et LC-MS sont des outils largement utilisés pour profiler des mélanges complexes de diverses classes de métabolites. La manipulation de grands ensembles de données à l’aide de ces outils est intrinsèquement associée à une variation non biologique, p. ex. une variation analytique, qui interfère et biaise l’interprétation des résultats. Ce protocole présente un pipeline d’extraction robuste et à haut débit pour un profilage métabolique complet afin d’éliminer la variation d’origine non biologique et de mener des études « omiques » à grande échelle. Les volumes et les concentrations utilisés dans ce protocole ont été ajustés pour tenir compte des espèces de légumineuses dans différents tissus. Cependant, ces paramètres peuvent être légèrement modifiés et utilisés pour des échantillons métaboliques à grande échelle provenant d’autres espèces végétales.

Les¹⁵ extractions à base de MTBE décrites précédemment peuvent être utilisées pour analyser les métabolites dérivés, les métabolites semi-polaires et les lipides. Cela peut être étendu pour les extractions de protéines et d’hormones végétales³⁹, qui étaient hors du champ d’application de ce protocole. D’autres protocoles d’extraction reposent sur des mélanges dichlorométhane:éthanol^40,41. Parmi ces protocoles d’extraction, le protocole d’extraction MTBE:méthanol offre une alternative favorable et moins dangereuse aux protocoles d’extraction existants à base de chloroforme⁴² et n’aboutit pas à une pastille de protéine comme interphase entre les phases polaire et lipidique. En outre, les méthodes MTBE ont déjà été utilisées dans plusieurs études pour divers échantillons biologiques 43,44,45.

Ce protocole traite de plusieurs étapes cruciales qui pourraient entraîner des variations potentielles lors de la manipulation d’un grand nombre d’échantillons, par exemple lors de la récolte^12,13, de l’extraction¹⁴, ainsi que de la randomisation⁴⁶. De plus, il y a d’autres questions qui n’ont pas été abordées dans ce protocole et qui doivent être prises en compte pour assurer des données métabolomiques de haute qualité, par exemple l’effet de matrice et la suppression des ions¹⁴.

La puissance des méthodes de normalisation basées sur le CQ dépend intrinsèquement du nombre d’échantillons de CQ dans chaque lot. Comme mentionné précédemment, bien que l’augmentation du nombre augmenterait la puissance, la variation intra-lot des QC est relativement marginale par rapport à la variation inter-lots dans ces systèmes analytiques, comme illustré à la figure 3. Dans l’ensemble, il existe d’autres méthodes de normalisation basées sur le CQ, telles que l’élimination des erreurs systémiques à l’aide de la forêt aléatoire (SERRF), qui se sont avérées surpassant la plupart des autres méthodes de normalisation telles que le ratio par lots, la normalisation à l’aide d’une sélection optimale de plusieurs étalons internes (NOMIS) et la normalisation probabiliste du quotient (PQN)⁴⁷ . Cependant, SERRF s’appuie sur plusieurs échantillons de CQ dans chaque lot, par exemple, un échantillon sur dix, ce qui n’est pas réalisable lors de la manipulation d’un grand nombre d’échantillons. Le principal avantage de la normalisation basée sur le CQ par rapport à d’autres méthodes basées sur des données ou des normes internes est qu’elle conserve la variation biologique essentielle tout en tenant compte de la variation technique indésirable²⁸. Les lecteurs peuvent se référer à cette revue sur le traitement de la variation²⁸.

L’un des principaux problèmes dans GWAS est le taux de faux positifs, qui provient principalement du lien entre les sites causaux et non causaux^48,49. Deuxièmement, les approches de correction statistique conservatrices, par exemple Bonferroni et FDR, corrigent le nombre de tests indépendants, qui n’est pas égal au nombre de SNP analysés dans GWAS en raison du lien entre les SNP proches^50,51 Par conséquent, le nombre réel de tests indépendants est souvent plus faible. Une autre façon de réduire le seuil statistique conservateur serait de réduire le nombre de SNP testés utilisés pour les GWAS en fonction de la désintégration des liens sur des régions génomiques définies⁵². La plate-forme métabolomique à haut débit intégrée à GWAS décrite dans ce protocole a un large éventail d’applications. En particulier, il facilitera l’amélioration de la sélection des cultures en modifiant la composition métabolite/lipidique pour les niveaux souhaités industriellement et nutritionnellement. Dans l’ensemble, la métabolomique a fourni un aperçu approfondi de l’architecture génétique d’une pléthore de métabolites et de la diversification métabolique qui s’est produite lors de la domestication des cultures au cours des dernières décennies, indiquant le vaste potentiel de la sélection associée à la métabolomique⁵³. Les approches de biologie moléculaire pour la validation QTL en aval comprennent la génération de lignées mutantes CRISPR/Cas9⁵⁴, de lignées d’insertion d’ADN-T⁵⁵, de lignes de surexpression stables et/ou transitoires⁵⁶, de VIGS, d’approches métabolomiques ex vivo ⁵⁷ à côté de l’approche conventionnelle pour générer des populations croisées F2 ainsi que la validation croisée dans différentes populations.

En effectuant la correction nécessaire pour les variations analytiques décrites ci-dessus, plusieurs approches intégrées peuvent être effectuées en plus des GWAS, telles que l’analyse de corrélation métabolite-métabolite, métabolite-lipide, l’analyse de corrélation aux données phénomiques pour faire la lumière sur des traits plus complexes et / ou l’analyse de co-expression pour démêler davantage la base des systèmes biologiques⁵⁸.

Disclosures

Les auteurs n’ont aucun conflit d’intérêts à déclarer.

Acknowledgments

M.B. est soutenu par l’IMPRS-PMPG 'Primary Metabolism and Plant Growth'. A.R.F. et S.A. reconnaissent le soutien financier du programme de recherche et d’innovation Horizon 2020 de l’UE, du projet PlantaSYST (SGA-CSA n° 739582 sous FPA n° 664620) et du projet INCREASE (GA 862862).

Materials

Name	Company	Catalog Number	Comments
Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC)	Avanti Polar Lipids	850360P	Internal standard for lipids
Chloroform	Supleco	67-66-3	FAME solvent
Isovitexin	Sigma Aldrich	38953-85-4	Internal standard for metabolites
Lignoceric Acid Methylester	Sigma Aldrich	2442-49-1	FAME
Methanol (MeOH)	Biosolve Chemicals	13684102	ULC-MS grade
Methoxyamin -hydrochlorid	Sigma Aldrich	593-56-6	Metabolite deriviatization
Methyl laurate	Sigma Aldrich	111-82-0	FAME
Methyl myristate	Sigma Aldrich	124-10-7	FAME
Methyl palmitate	Sigma Aldrich	112-39-0	FAME
Methyl stearate	Sigma Aldrich	112-61-8	FAME
Methyl tert-butyl ether (MTBE)	Biosolve Chemicals	13890602	HPLC grade
Methyl-caprat	Sigma Aldrich	110-42-9	FAME
Methylcaprylat	Sigma Aldrich	111-11-5	FAME
Methyldocosanoat	Sigma Aldrich	929-77-1	FAME
Methyleicosanoat	Sigma Aldrich	1120-28-1	FAME
Methyl-hexacosanoat	Sigma Aldrich	5802-82-4	FAME
Methyl-octacosanoat	Sigma Aldrich	55682-92-3	FAME
Methyl-pelargonate	Sigma Aldrich	1731-84-6	FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA)	Macherey-Nagel	24589-78-4	Metabolite deriviatization
Pyridine	Supleco	110-86-1	Metabolite deriviatization
Ribitol	Supleco	22566-17-2	Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester	TCI Chemicals	629-83-4	FAME
Water	Biosolve Chemicals	23214102	ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes	Eppendorf	3120086
2 mL Safe-lock microcentrifuge tubes	Eppendorf	3120094
Balance	Sartorius Corporation	14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm	Aglient	123-3832	Analysis of derivatized metabolites
GC-MS system	Leco Pegasus HT TOF-MS (LECO Corporation)		Analysis of derivatized metabolites
Grinding Balls, Stainless Steel	OPS DIAGNOSTICS	GBSS 196-2500-10
MS system	Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific)		Analysis of lipids
MS system	Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™ Massenspektrometer, Thermo Fisher Scientific)		Analysis of metabolites
Refrigerated microcentrifuge	Eppendorf, model 5427R	22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column (100 mm × 2.1 mm containing 1.7 μm diameter particles)	Waters	186002878	Analysis of lipids
RP High Strength Silica (HSS) T3 column (100 mm × 2.1 mm containing 1.8 μm diameter particles)	Waters	186003539	Analysis of metabolites
Shaker	Eppendorf Thermomixer 5436	2050-100-05
Sonicator	USC 300 TH	142-0084
Tissue grinding mixer mill	Retsch, Mixer Mill MM 300	20.746.0001
UPLC system	Waters Acquity UPLC system (Waters)
Vacuum concentrator	Scan Speed Maxi Vac Alpha Evaporators	7.008.500.002
Vortex mixer	Vortex-Genie 2, Model G560	SI-0236
Software
MetAlign			Chromatogram processing
MzMine			Chromatogram processing
R package "data.table"
R package "fujiplot"			pleiotrpoic map
R package "genetics"
R package "Ime4"			BLUPs calculation
R package "LDheatmap"			LD plots
R package "MASS"			transformation
R package "rMVP"			GWAS
R version 4.0.4
RefinerMS			Chromatogram processing
RefinerMS Genedata	Expressionist		Chromatogram processing
Tassel 5			Genotype filtering
Xcalibur	Thermo Fisher Scientific	OPTON-30965	Chromatogram processing