Biochemistry

Studi di associazione multiomica su larga scala (Mo-GWAS): linee guida per la preparazione e la normalizzazione dei campioni

Published: July 27, 2021 doi: 10.3791/62732

Mustafa Bulut¹, Alisdair R. Fernie^1,2, Saleh Alseekh^1,2

¹Max-Planck-Institute of Molecular Plant Physiology, ²Center of Plant Systems Biology and Biotechnology

Summary

In questo protocollo, presentiamo un flusso di lavoro ottimizzato, che combina una preparazione efficiente e veloce del campione di molti campioni. Inoltre, forniamo una guida passo-passo per ridurre le variazioni analitiche per la valutazione ad alto rendimento degli studi GWAS metabolici.

Abstract

Sia la gascromatografia-spettrometria di massa (GC-MS) che la cromatografia liquida-spettrometria di massa (LC-MS) sono approcci metabolomici ampiamente utilizzati per rilevare e quantificare centinaia di migliaia di caratteristiche metaboliche. Tuttavia, l'applicazione di queste tecniche a un gran numero di campioni è soggetta a interazioni più complesse, in particolare per gli studi di associazione genome-wide (GWAS). Questo protocollo descrive un flusso di lavoro metabolico ottimizzato, che combina una preparazione efficiente e veloce del campione con l'analisi di un gran numero di campioni per le specie di leguminose. Questo metodo di estrazione leggermente modificato è stato inizialmente sviluppato per l'analisi di tessuti vegetali e animali e si basa sull'estrazione in etere metil-terz-butilico: solvente metanolo per consentire la cattura di metaboliti polari e lipidici. Inoltre, forniamo una guida passo-passo per ridurre le variazioni analitiche, che sono essenziali per la valutazione ad alto rendimento della varianza metabolica nei GWAS.

Introduction

Approcci "omici" su larga scala hanno permesso l'analisi di sistemi biologici complessi ^1,2,3 e un'ulteriore comprensione del legame tra genotipi e fenotipi risultanti⁴. La metabolomica che utilizza la cromatografia liquida ad altissime prestazioni-spettrometria di massa (UHPLC-MS) e GC-MS ha permesso il rilevamento di una pletora di caratteristiche metaboliche, di cui solo alcune sono annotate in una certa misura, risultando in un'alta percentuale di metaboliti sconosciuti. Le interazioni complesse possono essere esplorate combinando la metabolomica su larga scala con la variazione genotipica sottostante di una popolazione diversificata⁵. Tuttavia, la gestione di grandi set di campioni è intrinsecamente associata a variazioni analitiche, distorcendo la valutazione della varianza metabolica per ulteriori processi a valle. In particolare, i principali problemi che portano a variazioni analitiche si basano sulle prestazioni della macchina e sulla deriva strumentale nel tempo⁶. L'integrazione della variazione da lotto a lotto è impegnativa e particolarmente problematica quando si analizzano popolazioni di piante strutturate su larga scala. Sono state suggerite molteplici procedure di normalizzazione per correggere variazioni non biologiche, ad esempio l'uso di standard interni, esterni e isotopici per correggere errori analitici, di cui ciascuno è intrinsecamente associato a problemi e insidie noti 7,8,9,10.

Oltre alla variazione analitica, la scelta dei protocolli di estrazione varia generalmente a seconda del metodo analitico. In definitiva, si desidera ridurre i costi di materiale e manodopera, nonché la necessità di utilizzare più aliquote dello stesso campione per vari processi analitici eseguendo metodi di estrazione basati sulla separazione di fase. Questi metodi sono stati introdotti per la prima volta utilizzando cloroformio: metanolo / solventi acquosi per frazionare composti polari e idrofobici¹¹.

Questo protocollo descrive una pipeline veloce ad alto rendimento per una piattaforma multi-omica per profilare sia i metaboliti polari che i lipidi nelle specie di legumi. Inoltre, mostra come tali set di dati possono essere opportunamente corretti per la variazione analitica e normalizzati prima di integrare informazioni genotipiche per rilevare i loci dei tratti quantitativi del metabolita (QTL) eseguendo GWAS.

Protocol

1. Progettazione sperimentale e coltivazione delle piante

NOTA: Impostare l'esperimento in base all'ipotesi sperimentale, ad esempio, l'utilizzo di una popolazione GWAS su larga scala riduce la necessità di repliche multiple, poiché verranno eseguiti test statistici basati sugli aplotipi di tutti i singoli SNP anziché sull'adesione. Al contrario, le repliche multiple sono indispensabili in altri approcci sperimentali. I seguenti punti devono essere considerati durante la preparazione dell'esperimento.

Includere abbastanza repliche biologiche, a seconda dell'ipotesi sperimentale.
Randomizzare le repliche biologiche a blocchi per ridurre i pregiudizi ambientali locali durante la coltivazione, ad esempio serra, campo.
Garantire una corretta manutenzione della pianta durante la crescita. Trattare le piante in modo omogeneo per ridurre i pregiudizi.

2. Preparazione di materiale vegetale biologico

Preparazione del raccolto
1. Tubi per la raccolta di etichette (20 mL) contenenti due perle metalliche da 5 mm e due da 8 mm di diametro per l'omogeneizzazione. Riempi un dewar con azoto liquido.
  NOTA: le piante dovrebbero essere nella fase vegetativa per la raccolta di foglie fresche e tessuti radicali.
Raccogliere campioni biologici mediante congelamento lampo in azoto liquido. Raccogli il più rapidamente possibile per escludere l'influenza dell'oscillazione circadiana sul metabolismo durante la durata prolungata della raccolta^12,13. Conservare i tessuti freschi di foglie e radici raccolti per un'ulteriore lavorazione a -80 °C.
NOTA: il taglio delle foglie al congelamento flash non dovrebbe richiedere più di pochi secondi poiché dopo la scissione delle foglie, i processi biologici attivi altererebbero i profili metabolici a causa della ferita. Per le radici, pulire le radici lavandole con acqua prima del congelamento in azoto liquido. L'acqua in eccesso sulla superficie della radice deve essere assorbita con carta velina. I semi essiccati possono essere conservati a temperatura ambiente; non è richiesto il congelamento in azoto liquido.
Macinare il tessuto usando un mulino miscelatore di tessuti.
1. Preraffreddare i portatubi in azoto liquido per un paio di minuti per mantenere una bassa temperatura durante la macinazione del tessuto.
2. Trasportare i campioni biologici in un dewar contenente azoto dopo averli estratti dal congelatore a -80 °C.
3. Macinare i tessuti per ottenere polvere omogenea; utilizzare 25 Hz per 1 minuto e ripetere dopo il congelamento in azoto liquido se il tessuto non è macinato in modo omogeneo.
Per macinare i semi secchi, posizionare i semi in un barattolo di macinazione con una perla metallica di 15 mm di diametro. Utilizzare la stessa frequenza e la stessa ora di cui al punto 2.3.3.
NOTA: mortai e pestelli puliti e preraffreddati possono essere utilizzati se non è disponibile un mulino miscelatore di tessuti.
Precool etichettato 2 mL di tubi microcentrifuga sicuri. Pesare 50 mg con un errore di ±5 mg di materiale vegetale fresco utilizzando una bilancia analitica. Preraffreddare gli strumenti utilizzati per il trasferimento di materiale vegetale in azoto liquido. Assicurarsi che il materiale vegetale rimanga congelato durante il processo di pesatura.
NOTA: Non esporre troppo a lungo materiale vegetale fresco a temperatura ambiente poiché i processi biologici vengono attivati aumentando la temperatura, alterando i profili metabolici¹⁴.
Generare ulteriori campioni di controllo di qualità (QC) raggruppando una parte di ciascun campione e pesando 50 mg con un errore di ±5 mg di materiale vegetale fresco in pool in tubi microcentrifuga preraffreddati da 2 mL con blocco sicuro.
NOTA: si consigliano almeno tre campioni QC ogni 60 campioni. I campioni QC sono essenziali per la correzione, la normalizzazione e le analisi a valle.

3. Reagenti di estrazione

Tessuto fresco, ad esempio foglie e radici
NOTA: l'estrazione del campione si basa su un protocollo¹⁵ descritto in precedenza. Questo protocollo è stato modificato in base alle esigenze attuali, ad esempio più tessuti, diversi standard interni ed esperimenti su larga scala. Inoltre, tutti i volumi e le impostazioni dello strumento menzionati di seguito sono adattati alle unità analitiche interne. Gli utenti del protocollo dovrebbero regolarli in base alla loro unità analitica e ai campioni biologici, sulla base di campioni di prova.
1. Miscela di estrazione 1 (EM1): metil terz-butil etere (MTBE)/metanolo (MeOH) (3:1 v/v)
  1. Preparare una miscela di MTBE/MeOH in un rapporto 3:1. Per 100 mL di solvente da estrazione, mescolare 75 mL di MTBE con 25 mL di MeOH in una bottiglia di vetro pulita.
    NOTA: i solventi devono essere maneggiati con cura nella cappa aspirante con adeguati dispositivi di sicurezza.
  2. Aggiungere 45 μL di 1,2-dieptacanoil-sn-glicero-3-fosfocolina (1 mg/mL nel cloroformio) come standard interno per l'analisi lipidica basata su UHPLC-MS, 400 μL di ribitolo (1 mg/mL in acqua) come standard interno per l'analisi basata su GC-MS e 125 μL di isovitexina (1 mg/mL in MeOH/acqua (1:1 v/v)) per l'analisi dei metaboliti basata su UHPLC-MS.
    NOTA: L'aggiunta di standard interni è necessaria per la normalizzazione post-analisi in base alle esigenze analitiche. Poiché è necessario 1 mL di EM1 per ciascun campione, preparare una soluzione madre in base alla dimensione del campione sperimentale, che dovrebbe essere utilizzata per l'intero esperimento. EM1 deve essere conservato a -20 °C. Verificare l'assenza dello standard interno utilizzato e la sovrapposizione con altri composti nelle specie studiate. È possibile utilizzare diversi standard; la selezione degli standard interni in questo protocollo si è basata su test precedenti utilizzando estratti di fagioli comuni¹⁶.
2. Miscela di estrazione 2 (EM2) acqua/metanolo (MeOH) (3:1 v/v)
  1. Per 100 mL EM2, aggiungere 75 mL di acqua a doppia distillazione e 25 mL di MeOH in una bottiglia di vetro pulita.
  2. Aggiungere 500 μL di EM2 per campione e preparare una soluzione madre in base alla dimensione del campione sperimentale, che deve essere utilizzata per l'intero esperimento. Conservare EM2 a 4 °C.
Semi secchi
1. Miscela di estrazione 3 (EM3) metanolo (MeOH)/ acqua (7:3 v/v)
  1. Per 100 mL di EM3, aggiungere 70 mL di MeOH e 30 mL di acqua a doppia distillazione in una bottiglia di vetro pulita. Preparare 1 mL di EM3 per ogni campione.
  2. Aggiungere 400 μL di ribitolo (1 mg/mL in acqua) come standard interni per l'analisi basata su GC-MS e 125 μL di isovitexina (1 mg/mL in MeOH/acqua (1:1 v/v)) per l'analisi dei metaboliti basata su UHPLC-MS.
    NOTA: Preparare una soluzione madre in base alle dimensioni sperimentali del campione e utilizzarla per l'intero esperimento. Conservare EM3 a 4 °C.

4. Estrazione del campione

Tessuto fresco, ad esempio foglie e radici
1. Preparare tre provette microcentrifuga da 1,5 mL per ogni campione. Conservare EM1 in un sistema di raffreddamento a liquido a -20 °C. Trasferire i campioni freschi dal congelatore a -80 °C al ghiaccio secco o all'azoto liquido per il trasporto. Aggiungere 1 mL di EM1 preraffreddato a ciascuna aliquota da 50 mg e vortice brevemente prima di mantenere il ghiaccio.
2. Incubare i campioni su uno shaker orbitale a 800 × g per 10 minuti a 4 °C.
3. Sonicare i campioni in un bagno di sonicazione raffreddato a ghiaccio per 10 minuti.
4. Aggiungere 500 μL di EM2 utilizzando una pipetta multicanale per evitare variazioni nei volumi aggiunti.
5. Ruotare brevemente i campioni per miscelare le miscele di estrazione prima della centrifugazione a 11.200 × g per 5 minuti a 4 °C.
6. Dopo la separazione di fase, trasferire 500 μL della fase superiore contenente lipidi in un tubo microcentrifuga preetichettato da 1,5 mL con blocco sicuro. Rimuovere il resto della fase superiore.
  NOTA: Fare attenzione durante il trasferimento poiché questa fase superiore ha un'alta pressione di vapore e tende a fuoriuscire dalla pipetta.
7. Trasferire 150 μL e 300 μL delle fasi contenenti metaboliti polari e semipolari inferiori in due tubi microcentrifuga safe-lock da 1,5 mL utilizzati rispettivamente per l'analisi GC-MS e UHPLC-MS.
8. Concentrare tutte le frazioni estratte lasciando evaporare i solventi senza riscaldamento utilizzando un concentratore sottovuoto e conservare a -80 °C.
Semi secchi
1. Preparare due provette microcentrifuga da 1,5 mL per ogni campione. Mantieni EM3 sul ghiaccio. Inserire una perla metallica di 5 mm di diametro nelle aliquote del campione.
2. Aggiungere 1 mL di EM3 in ogni aliquota da 50 mg e omogeneizzare i campioni a 25 Hz per 2-3 minuti prima di metterli sul ghiaccio.
3. Sonicare i campioni in un bagno di sonicazione raffreddato a ghiaccio per 10 minuti.
4. Ruotare brevemente i campioni prima di centrifugare a 11.200 × g per 5 minuti a 4 °C.
5. Trasferire 150 μL e 300 μL del surnatante in due tubi microcentrifuga safe-lock da 1,5 mL utilizzati rispettivamente per l'analisi GC-MS e UHPLC-MS.
6. Concentrare tutte le frazioni estratte lasciando evaporare i solventi senza riscaldamento utilizzando un concentratore sottovuoto e conservare a -80 °C.
  NOTA: Sulla base dell'esperienza, si consiglia agli utenti di eseguire la fase 4.2 per i metaboliti semipolari e l'analisi dei metaboliti derivatizzati nei semi essiccati. Eseguire la fase di estrazione 4.1 per l'analisi lipidica dei semi essiccati.

5. Analisi dei lipidi mediante UHPLC-MS

Sospendere nuovamente le frazioni lipidiche essiccate in 250 μL di acetonitrile:2-propanolo (7:3, vol/vol).
Sonicare la fase lipidica per 5 min, centrifugare a 11.200 × g per 1 min.
Trasferire 90 μL del surnatante in un flaconcino di vetro per LC-MS.
Iniettare 2 μL degli estratti nel LC-MS.
Eseguire il frazionamento lipidico su una colonna C₈ di fase inversa mantenuta a 60 °C con un flusso di 400 μL/min con variazioni graduali dell'eluente A e B come mostrato nella Tabella 1. Acquisire gli spettri di massa in modalità di ionizzazione positiva con un intervallo di massa di 150-1.500 m/z.
Includere diversi campioni QC in tutti i lotti giornalieri e uno spazio vuoto per garantire la correzione per la variazione analitica. Randomizzare i campioni in blocco in ordine sequenziale.

6. Analisi di metaboliti polari e semipolari mediante UHPLC-MS

Sospendere nuovamente la fase polare essiccata in 180 μL di metanolo di grado UHPLC: acqua (1:1 v/v).
Sonicare la fase polare per 2 min, centrifugare a 11.200 × g per 1 min.
Trasferire 90 μL del surnatante in un flaconcino di vetro per LC-MS.
Iniettare 3 μL degli estratti nel LC-MS.
Eseguire il frazionamento del metabolita su una colonna di fase inversa C₁₈ mantenuta a 40 °C con un flusso di 400 μL/min con variazioni graduali dell'eluente A e B come mostrato nella Tabella 1. Acquisire gli spettri di massa in un intervallo di massa di 100-1.500 m/z in una scansione MS completa e tutta la frammentazione ionica (AIF) indotta dalla dissociazione collisionale ad alta energia (HCD) di 40 keV.
NOTA: utilizzare entrambe le modalità di ionizzazione. Tuttavia, a causa della capacità limitata durante l'esecuzione di un gran numero di campioni, eseguire campioni di test in entrambe le modalità di ionizzazione per determinare la modalità di ionizzazione preferita.
Includere diversi campioni QC in tutti i lotti giornalieri e uno spazio vuoto per garantire la correzione per la variazione analitica. Randomizzare i campioni in blocco in ordine sequenziale.
Eseguire un QC aggregato in MS² dipendente dai dati in modalità di ionizzazione sia negativa che positiva. Utilizzare gli spettri di massa ottenuti in un passaggio successivo (8.5) per l'annotazione.

7. Analisi di metaboliti derivatizzati mediante GC-MS ^17,18

NOTA: L'analisi dei metaboliti derivatizzati si basa su un protocollo¹⁷ precedentemente descritto. Maneggiare tutti i reagenti di derivatizzazione nella cappa aspirante. Assicurarsi che N-metil-N-(trimetilsilil)trifluoracetammide (MSTFA) non entri in contatto con acqua e umidità.

Reagente di derivatizzazione 1 (DR1)
1. Sciogliere la metossiamina cloridrato in piridina per ottenere una concentrazione di 30 mg/mL di DR1. Utilizzare 40 μL di DR1 per ogni campione. Preparare una soluzione madre in base alle dimensioni del campione e conservare a temperatura ambiente.
Reagente di derivatizzazione 2 (DR2)
1. Sciogliere MSTFA con 20 μL di esteri metilici degli acidi grassi (FAME) per 1 mL di MSTFA. Utilizzare 70 μL di DR2 per ogni campione. Preparare una soluzione madre in base alle dimensioni del campione. Conservare MSTFA a 4 °C e i FAMES a -20 °C.
  NOTA: I FAME includono metilcaprilato, metil pelargonato, metilcaprato, metillavellato, metilmiristato, metilpalmitato, metilstearato, metilecicosanoato, metildocosanoato, estere metilico dell'acido lignocerico, metilesacosanoato, metilottacosanoato e metilestere dell'acido triacontanoico, che vengono disciolti in CHCl₃ad una concentrazione di 0,8 μL/mL o 0,4 mg/mL per standard liquidi o solidi, rispettivamente.
Asciugare nuovamente il pellet dalla fase polare (stoccato a -80 °C) utilizzando un concentratore sottovuoto per 30 min per evitare qualsiasi interferenza di H₂O originata durante lo stoccaggio con i solventi utilizzati per la derivatizzazione a valle.
Aggiungere 40 μL di DR1.
Agitare i campioni a 950 × g per 2 ore a 37 °C utilizzando uno shaker orbitale, seguito da un breve spin-down del liquido.
Aggiungere 70 μL di DR2.
Agitare nuovamente a 950 × g per 30 minuti a 37 °C usando uno shaker orbitale.
Centrifugare brevemente a temperatura ambiente prima di trasferire 90 μL in flaconcini di vetro per l'analisi GC-MS.
Iniettare 1 μL in modalità splitless GC-MS, a seconda delle concentrazioni del metabolita, con un flusso costante di gas vettore elio di 2 mL/min. La temperatura di iniezione è impostata su 230 °C utilizzando una colonna capillare MDN-35 di 30 m.
NOTA: ulteriori informazioni, ad esempio il gradiente di temperatura, sono disponibili nella Tabella 1. L'intervallo di massa è impostato su 70-600 m/z con 20 scansioni/min. Includere modalità di divisione per consentire la quantificazione di composti di sovraccarico putativo, risparmiando costi e tempo per la ricatirificazione dell'estratto in questi casi.
Includere diversi campioni QC in tutti i lotti giornalieri e uno spazio vuoto per garantire la correzione per la variazione analitica. Randomizzare correttamente i campioni in blocco in ordine sequenziale.

8. Elaborazione del cromatogramma e annotazione del composto

Filtrare il rumore chimico definendo soglie di intensità. Includere tutti i campioni QC durante l'elaborazione dei cromatogrammi.
NOTA: per i dati su larga scala, il filtraggio del rumore è fondamentale per ridurre il tempo di elaborazione e la potenza di elaborazione.
Allineare i cromatogrammi definendo una finestra di spostamento del tempo di ritenzione. Controllare i cromatogrammi di ciascun lotto per valutare la variazione intra e inter-batch.
Eseguire il rilevamento dei picchi in base alla forma del picco, ad esempio altezza e larghezza per calcoli a larghezza intera a mezzo massimo (FWHM).
Cluster isotopi per ridurre i segnali ridondanti e filtrare i singleton.
NOTA: vedere la Tabella dei materiali per i dettagli sul software utilizzato per l'elaborazione del cromatogramma. Vengono forniti protocolli approfonditi su come elaborare i cromatogrammi utilizzando vari strumenti software disponibili gratuitamente, ad esempio MS-DIAL, MetAlign, MzMine e Xcalibur ^19,20,21.
Utilizzare i dati ddMS² di un campione QC aggregato per l'annotazione composta. Valutare la struttura molecolare determinando la massa monoisotopica e osservando le perdite neutre comuni, gli agliconi carichi noti e diversi tipi di scissioni, ad esempio^16,22 omolitici o eterolitici.
Per riportare i dati sui metaboliti, seguire la raccomandazione descritta in Fernie et al. 2011²³.
NOTA: diversi approcci di metabolomica computazionale possono essere utilizzati per analizzare i dati metabolomici 24,25,26.

9. Normalizzazione del set di dati di metabolomica su larga scala

Controllare la distribuzione degli standard interni e normalizzare correggendo la risposta di standard interni singoli o multipli.
Correggere le intensità di picco ottenute dal cromatogramma sul peso esatto del campione dividendo le intensità di picco per il peso del campione omogeneizzato aliquotato dal punto 2.5.
Correggere la deriva di intensità tra serie multi-batch. Eseguire metodi di correzione basati su QC, come lo scatterplot smoothing (LOESS^{) stimato} localmente, utilizzando R.
NOTA: Sono disponibili diversi strumenti e pacchetti per affrontare la deriva delle prestazioni MS durante l'acquisizione dell'intero lotto ^28,29.
Garantire la normale distribuzione dei tratti mediante trasformazione dei dati, ad esempio la trasformazione Box-Cox³⁰ utilizzando la funzione boxcox () del pacchetto R MASS per l'esecuzione di GWAS.
Eseguire il ridimensionamento dei dati, ad esempio il ridimensionamento di Pareto, per l'analisi multivariata per garantire una corretta pesatura di composti a bassa abbondanza³¹.
NOTA: Se possibile, eseguire un test di recupero per evitare effetti della matrice, ad esempio la soppressione degli ioni¹⁴.

10. Studi di associazione genome-wide (GWAS)³²

Chiamare polimorfismo a singolo nucleotide (SNP) o varianti strutturali (SV) dai dati di sequenziamento^33,34.
Filtrare i dati genotipici per la frequenza allelica minore (MAF) < 5% e il tasso mancante di >10% per evitare la distorsione a bassa frequenza utilizzando La nappa³⁵.
Calcola le migliori previsioni lineari imparziali (BLUP) per ogni caratteristica normalizzata sulle ripetizioni sperimentali per eliminare i pregiudizi originati da fattori ambientali (effetti casuali) utilizzando il pacchetto R Ime4³⁶.
Utilizzare i BLUP di ciascuna funzionalità singolarmente per eseguire GWAS utilizzando il pacchetto rMVP in R³⁷.
NOTA: Ogni caratteristica della metabolomica è vista qui come un fenotipo individuale autonomo.
Durante l'esecuzione di GWAS, correggere la struttura della popolazione utilizzando l'analisi dei componenti principali (PCA) e l'identità per stato (IBS) o vanRaden per ridurre al minimo gli effetti confondenti. Inoltre, considera l'utilizzo di un modello lineare misto (MLM) o di un modello misto multi-locus (MLMM), poiché i modelli misti contengono effetti fissi e casuali.

11. Rilevamento QTL

Controllare gli SNP che mostrano un'associazione significativa, prendendo in considerazione le trame di Manhattan, per i calcoli di squilibrio di collegamento (LD) per determinare la regione genetica sottostante. Eseguire calcoli LD utilizzando la mappa di calore LD del pacchetto R o La nappa 5.
Controllare gli SNP associati per la dimensione dell'effetto sul tratto esaminando i livelli dei tratti per i cambiamenti statistici tra gli aplotipi per trovare potenziali SNP causali, ad esempio SNP che portano a un cambiamento di aminoacidi nella sequenza di codifica proteica, che potrebbe spiegare la variazione fenotipica.
NOTA: Poiché le associazioni SNP-tratto non producono necessariamente un'associazione causale, è fondamentale determinare la regione genomica. L'identità composta per annotazione di caratteristiche può aiutare immensamente a trovare i giusti geni candidati in una specifica regione genomica. Suggeriamo di combinare tutti i QTL rilevati associati a determinati composti in una mappa pleiotropica per sottolineare le regioni genetiche³⁸, come mostrato nella Figura 4. Per la validazione dei geni candidati, è possibile eseguire diversi approcci (vedere la discussione).

Representative Results

Gli esperimenti GWAS di metabolomica di successo dovrebbero iniziare con un corretto disegno sperimentale, seguito da raccolta, estrazione, acquisizione ed elaborazione dei campioni, come illustrato nella Figura 1. In questo protocollo, il metodo MTBE¹⁵ è stato utilizzato per estrarre e analizzare centinaia di metaboliti appartenenti a diverse classi di composti. La cromatografia dipende molto dalle proprietà della colonna utilizzata e dalle miscele tampone di eluizione. La Figura 2 mostra cromatogrammi di campioni QC, indicando il modello di eluizione di alcune delle principali classi lipidiche in questo sistema analitico. Le pendenze applicate per ciascuna piattaforma sono indicate nella Tabella 1. Una forte enfasi è stata posta sulla gestione degli errori sistemici negli esperimenti su larga scala. L'esecuzione di metabolomica su larga scala è intrinsecamente associata a errori sistemici. Per dimostrazione, abbiamo analizzato i dati lipidomici in diverse specie di fagioli comuni. La Tabella 1 supplementare fornisce i dati lipidomici grezzi estratti ottenuti dopo l'elaborazione del cromatogramma utilizzando il software indicato nella Tabella dei materiali. Seguire questo protocollo ci ha permesso di aggirare i principali problemi nella gestione dei dati omici, in particolare durante la gestione di grandi set di campioni. La procedura di normalizzazione produce una correzione accurata degli errori analitici per lotto, come dimostrato nella Figura 3. Sebbene l'aumento del numero di campioni QC aumenterebbe la potenza della normalizzazione, ciò non è sempre fattibile a causa di vincoli di costo e di tempo. Per la metabolomica ad alto rendimento GWAS con caratteristiche metaboliche non mirate, è essenziale illustrare in modo appropriato un numero maggiore di associazioni tratto-marcatore. Una mappa pleiotropica³⁸ che combina più risultati GWAS potrebbe essere utilizzata per evidenziare le regioni genomiche a cui sono collegati diversi tratti (Figura 4).

Figura 1: Diagramma di flusso del GWAS basato sulla metabolomica nelle piante. Diversi passaggi a partire dalla progettazione sperimentale fino al rilevamento di QTL sono mostrati nel pannello di sinistra. Nel pannello di destra, vengono mostrate più figure per supportare diversi passaggi menzionati nel pannello di sinistra. Partendo dall'alto a destra, (1) viene mostrata una sequenza suggerita di campioni per LC-MS, (2) grafici di punteggi pre e post normalizzati di PCA, inclusa una distribuzione rappresentativa delle caratteristiche pre e post-elaborazione, con il rosso che indica le intensità del campione QC, e (3) un grafico di Manhattan con associazioni significative a cui sono state generate distribuzioni LD e aplotipiche. Abbreviazioni: GWAS = studi di associazione genome-wide; QTL = loci dei tratti quantitativi; PCA = analisi dei componenti principali; QC = controllo di qualità; LD = squilibrio di collegamento; MS = spettrometria di massa; LC-MS = cromatografia liquida-spettrometria di massa; GC-MS = gascromatografia-spettrometria di massa; LOESS = levigatura del grafico a dispersione stimato localmente; MLM/MLMM = modello lineare misto/modello misto multi-locus. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Elaborazione del cromatogramma. Due cromatogrammi QC (picco di base; dati lipidici) di diversi lotti dimostrano la variazione batch-wise per alcune classi lipidiche nei campioni QC raggruppati. Quattro principali classi lipidiche sono indicate con le rispettive finestre di eluizione nel sistema LC-MS interno. I cromatogrammi sono stati esportati da MzMine²¹. Abbreviazioni: QC = controllo qualità; LC-MS = cromatografia liquida-spettrometria di massa. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3: Correzione dell'errore sistematico. Analisi dei componenti principali dei dati lipidomici acquisiti, pre- (a sinistra, dati grezzi) e post-correzione per errori sistemici (destra, batch loess). I pannelli inferiori illustrano la distribuzione delle caratteristiche (Cluster_00005) sui campioni (n = 650) e i lotti (n = 10) pre- (sinistra) e post (destra) -correzione per la variazione analitica. Abbreviazioni: PCA = analisi dei componenti principali; QC = controllo di qualità; LOESS = levigatura del grafico a dispersione stimata localmente. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 4: Mappa pleiotropica che illustra i risultati combinati GWAS. La mappa pleiotropica evidenzia le regioni dell'intero genoma che sono associate a diversi tratti. I numeri sugli anelli esterni indicano i cromosomi corrispondenti. Ogni circlet rappresenta un tratto individuale con i suoi SNP significativamente associati. I colori rappresentano diverse classi composte (grigio = classe composta 1; verde = classe composta 2; viola = classe composta 3; giallo = classe composta 4). Nel caso di associazioni di classi inter-composte con la stessa regione genomica, i geni sono evidenziati. Il cerchio grigio interno mostra la somma di tutti gli SNP significativi associati a una specifica posizione genomica. Le associazioni mostrate in questa figura sono generate artificialmente solo a scopo illustrativo. Abbreviazioni: GWAS = studi di associazione genome-wide; SNP = polimorfismi a singolo nucleotide. Fare clic qui per visualizzare una versione più grande di questa figura.

Impostazioni UHPLC-MS per i lipidi
Tempo [min]	Eluente da A a B [%]*	Informazione
0 - 1.00	45% A	Eluente A: 1% 1M NH_4-Acetato, 0,1% acido acetico in acqua (grado UHPLC)
1.00 - 4.00	lg 45% - 25% A	Eluente B: 1% 1M NH_4-Acetato, 0,1% acido acetico in acetonitrile/2-propanolo 7:3 (grado UHPLC)
4.00 - 12.00	lg 25% - 11% A	Portata: 400 μL/min
12.00 - 15.00	lg 11% - 0% A	Volume di iniezione: 2 μL
15.00 - 19.50	cw 0% A
19.50-19.51	0% - 45% A
19.51-24.00	eq 45%
Impostazioni UHPLC-MS/MS per metaboliti polari e semipolari
Tempo [min]	Eluenti A e B [%]*	Informazione
0 - 1.00	99% A	Eluente A: 0,1% di acido formico in acqua (grado UHPLC)
1.00 - 11.00	LG 99% -60% A	Eluente B: acido formico allo 0,1% in acetonitrile (grado UHPLC)
11.00 - 13.00	lg 60% - 30% A	Portata: 400 μL/min
13.00 - 15.00	lg 30% - 1% A	Volume di iniezione: 3 μL
15.00 - 16.00	cw 1% A
16.00 - 17.00	lg 1% - 99% A
17.00 - 20.00	eq 99% A
Impostazioni GC-MS per metaboliti derivatizzati
Tempo [min]	Temperatura [°C]	Informazione
0 - 2.00	85	Gas di trasporto: Elio
2.00 - 18.66	LG 80 - 330	Portata: 2 mL/min
18.66 - 24.66	cw 330	Gradiente di temperatura: 15 °C/min
24.66	raffreddamento rapido	Volume di iniezione: 1 μL

Tabella 1: Impostazioni del gradiente per ciascuna delle piattaforme analitiche⁷. Abbreviazioni: lg = gradiente lineare; cw = lavaggio delle colonne; eq = equilibrato; UHPLC-MS = cromatografia liquida ad altissime prestazioni-spettrometria di massa; UHPLC-MS/MS = cromatografia liquida ad altissime prestazioni-spettrometria di massa tandem; GC-MS = gascromatografia-spettrometria di massa. * = valore percentuale corrispondente all'eluente A; il valore percentuale rimanente corrisponde all'eluente B.

Tabella supplementare 1: Dati lipidomici grezzi. Indica le intensità di picco per ciascuno dei cluster rilevati su ciascun campione. Fare clic qui per scaricare questa tabella.

Discussion

Sia GC-MS che LC-MS sono strumenti ampiamente utilizzati per profilare miscele complesse di varie classi di metaboliti. La gestione di set di dati di grandi dimensioni con questi strumenti è intrinsecamente associata a una variazione non biologica, ad esempio la variazione analitica, che interferisce e distorce l'interpretazione dei risultati. Questo protocollo presenta una pipeline di estrazione robusta e ad alto rendimento per una profilazione metabolica completa per eliminare la variazione di origine non biologica e condurre studi "omici" su larga scala. I volumi e le concentrazioni utilizzati in questo protocollo sono stati aggiustati per le specie di leguminose in diversi tessuti. Tuttavia, questi parametri possono essere leggermente modificati e utilizzati anche per campioni metabolici su larga scala di altre specie vegetali.

Le¹⁵ estrazioni basate su MTBE precedentemente descritte possono essere utilizzate per analizzare metaboliti derivati, metaboliti semipolari e lipidi. Questo può essere ampliato per le estrazioni di proteine e^{ormoni vegetali 39}, che erano fuori dall'ambito di questo protocollo. Altri protocolli di estrazione si basano su miscele di diclorometano:etanolo^40,41. Di questi protocolli di estrazione, il protocollo di estrazione MTBE:metanolo fornisce un'alternativa favorevole e meno pericolosa ai protocolli di estrazione esistenti a base di cloroformio⁴² e non si traduce in un pellet proteico come interfase tra la fase polare e lipidica. Inoltre, i metodi MTBE sono già stati utilizzati in diversi studi per vari campioni biologici 43,44,45.

Questo protocollo discute diversi passaggi cruciali che potrebbero portare a potenziali variazioni durante la gestione di un gran numero di campioni, ad esempio durante la raccolta^12,13, l'estrazione¹⁴ e la randomizzazione⁴⁶. Inoltre, ci sono ulteriori questioni che non sono state discusse in questo protocollo che devono essere considerate per garantire dati metabolomici di alta qualità, ad esempio l'effetto matrice e la soppressione degli ioni¹⁴.

La potenza dei metodi di normalizzazione basati su QC dipende intrinsecamente dal numero di campioni QC in ciascun lotto. Come accennato in precedenza, sebbene l'aumento del numero aumenterebbe la potenza, la variazione intra-batch dei QC è relativamente marginale rispetto alla variazione tra lotti in questi sistemi analitici, come illustrato nella Figura 3. Nel complesso, ci sono altri metodi di normalizzazione basati su QC, come la rimozione degli errori sistemici utilizzando la foresta casuale (SERRF), che hanno dimostrato di superare la maggior parte degli altri metodi di normalizzazione come il rapporto batch-wise, la normalizzazione utilizzando una selezione ottimale di più standard interni (NOMIS) e la normalizzazione probabilistica del quoziente (PQN)⁴⁷ . Tuttavia, SERRF si basa su più campioni QC in ogni lotto, ad esempio ogni decimo campione, il che non è fattibile durante la gestione di un gran numero di campioni. Il vantaggio principale della normalizzazione basata sul controllo di qualità rispetto ad altri metodi basati su dati o interni basati su standard è che mantiene la variazione biologica essenziale mentre accoglie la variazione tecnica indesiderata²⁸. I lettori possono fare riferimento a questa recensione sulla gestione della variazione²⁸.

Un problema principale in GWAS è il tasso di falsi positivi, che hanno origine principalmente a causa del collegamento di siti causali e non causali ^48,49. In secondo luogo, gli approcci conservativi di correzione statistica, ad esempio Bonferroni e FDR, sono corretti per il numero di test indipendenti, che non è uguale al numero di SNP analizzati in GWAS a causa del collegamento tra SNP prossimi^50,51 Pertanto, il numero effettivo di test indipendenti è spesso inferiore. Un altro modo per ridurre la soglia statistica conservativa sarebbe quello di ridurre il numero di SNP testati utilizzati per GWAS in base al decadimento del linkage su regioni genomiche definite⁵². La piattaforma metabolomica ad alto throughput integrata GWAS descritta in questo protocollo ha una vasta gamma di applicazioni. In particolare, faciliterà i miglioramenti nell'allevamento delle colture modificando la composizione metabolita/lipidica per i livelli desiderati industrialmente e nutrizionalmente. Nel complesso, la metabolomica ha fornito una visione approfondita dell'architettura genetica di una pletora di metaboliti e della diversificazione metabolica che si è verificata durante l'addomesticamento delle colture negli ultimi decenni, indicando il vasto potenziale dell'allevamento associato alla metabolomica⁵³. Gli approcci biologici molecolari per la validazione QTL a valle includono la generazione di linee mutanti CRISPR/Cas9⁵⁴, linee di inserzione T-DNA⁵⁵, linee di sovraespressione stabili e/o transitorie⁵⁶, VIGS, approcci metabolomici ex vivo ⁵⁷ accanto all'approccio convenzionale nella generazione di popolazioni F2 incrociate e convalida incrociata in diverse popolazioni.

Eseguendo la correzione necessaria per le variazioni analitiche come descritto sopra, oltre al GWAS possono essere eseguiti diversi approcci integrati, come metabolita-metabolita, analisi di correlazione metabolita-lipide, analisi di correlazione con dati fenomici per far luce su tratti più complessi e / o analisi di co-espressione per svelare ulteriormente le basi dei sistemi biologici⁵⁸.

Disclosures

Gli autori non hanno conflitti di interesse da dichiarare.

Acknowledgments

M.B. è supportato dall'IMPRS-PMPG "Metabolismo primario e crescita delle piante". A.R.F. e S.A. riconoscono il sostegno finanziario del programma di ricerca e innovazione Horizon 2020 dell'UE, del progetto PlantaSYST (SGA-CSA n. 739582 nell'ambito dell'FPA n. 664620) e del progetto INCREASE (GA 862862).

Materials

Name	Company	Catalog Number	Comments
Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC)	Avanti Polar Lipids	850360P	Internal standard for lipids
Chloroform	Supleco	67-66-3	FAME solvent
Isovitexin	Sigma Aldrich	38953-85-4	Internal standard for metabolites
Lignoceric Acid Methylester	Sigma Aldrich	2442-49-1	FAME
Methanol (MeOH)	Biosolve Chemicals	13684102	ULC-MS grade
Methoxyamin -hydrochlorid	Sigma Aldrich	593-56-6	Metabolite deriviatization
Methyl laurate	Sigma Aldrich	111-82-0	FAME
Methyl myristate	Sigma Aldrich	124-10-7	FAME
Methyl palmitate	Sigma Aldrich	112-39-0	FAME
Methyl stearate	Sigma Aldrich	112-61-8	FAME
Methyl tert-butyl ether (MTBE)	Biosolve Chemicals	13890602	HPLC grade
Methyl-caprat	Sigma Aldrich	110-42-9	FAME
Methylcaprylat	Sigma Aldrich	111-11-5	FAME
Methyldocosanoat	Sigma Aldrich	929-77-1	FAME
Methyleicosanoat	Sigma Aldrich	1120-28-1	FAME
Methyl-hexacosanoat	Sigma Aldrich	5802-82-4	FAME
Methyl-octacosanoat	Sigma Aldrich	55682-92-3	FAME
Methyl-pelargonate	Sigma Aldrich	1731-84-6	FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA)	Macherey-Nagel	24589-78-4	Metabolite deriviatization
Pyridine	Supleco	110-86-1	Metabolite deriviatization
Ribitol	Supleco	22566-17-2	Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester	TCI Chemicals	629-83-4	FAME
Water	Biosolve Chemicals	23214102	ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes	Eppendorf	3120086
2 mL Safe-lock microcentrifuge tubes	Eppendorf	3120094
Balance	Sartorius Corporation	14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm	Aglient	123-3832	Analysis of derivatized metabolites
GC-MS system	Leco Pegasus HT TOF-MS (LECO Corporation)		Analysis of derivatized metabolites
Grinding Balls, Stainless Steel	OPS DIAGNOSTICS	GBSS 196-2500-10
MS system	Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific)		Analysis of lipids
MS system	Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™ Massenspektrometer, Thermo Fisher Scientific)		Analysis of metabolites
Refrigerated microcentrifuge	Eppendorf, model 5427R	22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column (100 mm × 2.1 mm containing 1.7 μm diameter particles)	Waters	186002878	Analysis of lipids
RP High Strength Silica (HSS) T3 column (100 mm × 2.1 mm containing 1.8 μm diameter particles)	Waters	186003539	Analysis of metabolites
Shaker	Eppendorf Thermomixer 5436	2050-100-05
Sonicator	USC 300 TH	142-0084
Tissue grinding mixer mill	Retsch, Mixer Mill MM 300	20.746.0001
UPLC system	Waters Acquity UPLC system (Waters)
Vacuum concentrator	Scan Speed Maxi Vac Alpha Evaporators	7.008.500.002
Vortex mixer	Vortex-Genie 2, Model G560	SI-0236
Software
MetAlign			Chromatogram processing
MzMine			Chromatogram processing
R package "data.table"
R package "fujiplot"			pleiotrpoic map
R package "genetics"
R package "Ime4"			BLUPs calculation
R package "LDheatmap"			LD plots
R package "MASS"			transformation
R package "rMVP"			GWAS
R version 4.0.4
RefinerMS			Chromatogram processing
RefinerMS Genedata	Expressionist		Chromatogram processing
Tassel 5			Genotype filtering
Xcalibur	Thermo Fisher Scientific	OPTON-30965	Chromatogram processing