Biochemistry

Estudos de associação multi-omics em larga escala (Mo-GWAS): Diretrizes para preparação e normalização de amostras

Published: July 27, 2021 doi: 10.3791/62732

Mustafa Bulut¹, Alisdair R. Fernie^1,2, Saleh Alseekh^1,2

¹Max-Planck-Institute of Molecular Plant Physiology, ²Center of Plant Systems Biology and Biotechnology

Summary

Neste protocolo, apresentamos um fluxo de trabalho otimizado, que combina uma preparação eficiente e rápida de amostras de muitas amostras. Além disso, fornecemos um guia passo-a-passo para reduzir as variações analíticas para avaliação de alto rendimento de estudos metabólicos de GWAS.

Abstract

Tanto a espectrometria de massa da cromatografia gasosa -masstrometria (GC-MS) quanto a espectrometria de massa cromatografia líquida (LC-MS) são abordagens metabolômicas amplamente utilizadas para detectar e quantificar centenas de milhares de características metabólicas. No entanto, a aplicação dessas técnicas a um grande número de amostras está sujeita a interações mais complexas, particularmente para estudos de associação genoma (GWAS). Este protocolo descreve um fluxo de trabalho metabólico otimizado, que combina uma preparação eficiente e rápida da amostra com a análise de um grande número de amostras para espécies de culturas de leguminosas. Este método de extração ligeiramente modificado foi inicialmente desenvolvido para a análise de tecidos vegetais e animais e é baseado na extração em éter de tert-butil metil: solvente de metanol para permitir a captura de metabólitos polares e lipídicos. Além disso, fornecemos um guia passo-a-passo para a redução das variações analíticas, essenciais para a avaliação de alto rendimento da variância metabólica no GWAS.

Introduction

Abordagens "omics" em larga escala permitiram a análise de sistemas biológicos complexos ^1,2,3 e maior compreensão da ligação entre genótipos e os fenótipos⁴ resultantes. Metabolômica usando espectrometria de massa líquida de alto desempenho (UHPLC-MS) e GC-MS permitiu a detecção de uma infinidade de características metabólicas, das quais apenas algumas estão anotadas em um certo grau, resultando em uma alta proporção de metabólitos desconhecidos. Interações complexas podem ser exploradas combinando metabolômicas em larga escala com a variação genotipica subjacente de uma população diversificada⁵. No entanto, o manuseio de grandes conjuntos amostrais está inerentemente associado a variações analíticas, distorcendo a avaliação da variância metabólica para outros processos a jusante. Especificamente, as principais questões que levam a variações analíticas são baseadas no desempenho da máquina e na deriva instrumental ao longo do tempo⁶. A integração da variação em lote a lote é desafiadora e especialmente problemática ao analisar populações estruturadas de plantas em larga escala. Foram sugeridos múltiplos procedimentos de normalização para corrigir para variações não biológicas, por exemplo, o uso de normas internas, externas e isótopos rotuladas para corrigir erros analíticos, dos quais cada um está inerentemente associado a problemas e armadilhas conhecidos 7,8,9,10.

Além da variação analítica, a escolha dos protocolos de extração geralmente varia dependendo do método analítico. Em última análise, deseja-se reduzir os custos materiais e trabalhistas, bem como a necessidade de utilizar várias alíquotas da mesma amostra para vários processos analíticos, realizando métodos de extração baseados em separação de fases. Estes métodos foram introduzidos pela primeira vez usando clorofórmio: solventes de metanol/água para fracionar compostos polares e hidrofóbicos¹¹.

Este protocolo descreve um rápido pipeline de alto rendimento para uma plataforma multi-omics para traçar o perfil tanto metabólitos polares quanto lipídios em espécies de leguminosas. Além disso, mostra como esses conjuntos de dados podem ser adequadamente corrigidos para variação analítica e normalizados antes de integrar informações genotípicas para detectar loci de traço quantitativo metabólico (QTL) realizando GWAS.

Protocol

1. Design experimental e cultivo de plantas

NOTA: Configurar o experimento dependendo da hipótese experimental, por exemplo, o uso de uma população gwas em larga escala diminui a necessidade de múltiplas réplicas, uma vez que os testes estatísticos serão realizados com base nos hapltipos de todos os SNPs individuais em vez da adesão. Em contraste, múltiplas réplicas são indispensáveis em outras abordagens experimentais. Os seguintes pontos devem ser considerados durante a preparação do experimento.

Inclua réplicas biológicas suficientes, dependendo da hipótese experimental.
Randomizar as réplicas biológicas em termos de blocos para reduzir o viés ambiental local durante o cultivo, por exemplo, estufa, campo.
Garanta a manutenção adequada da planta durante o crescimento. Trate as plantas de forma homogênea para reduzir o viés.

2. Preparação de material vegetal biológico

Preparação da colheita
1. Tubos de colheita de rótulos (20 mL) contendo duas contas metálicas de 5 mm e 2 mm de diâmetro para homogeneização. Encha uma de guerra com nitrogênio líquido.
  NOTA: As plantas devem estar em fase vegetativa para colheita de folhas frescas e tecidos radiculares.
Colher amostras biológicas por congelamento de flash em nitrogênio líquido. Colheita o mais rápido possível para excluir a influência da oscilação circadiana no metabolismo durante as durações de colheita prolongadas^12,13. Armazene a folha fresca colhida e os tecidos radiculares para posterior processamento a -80 °C.
NOTA: O corte de folhas para o congelamento de flashs não deve demorar mais do que alguns segundos, pois após o decote da folha, os processos biológicos ativos alterariam os perfis metabólicos devido à ferida. Para as raízes, pré-limpar as raízes lavando com água antes de congelar em nitrogênio líquido. O excesso de água na superfície raiz deve ser absorvido com tecido de papel. As sementes secas podem ser armazenadas à temperatura ambiente; não é necessário congelamento de nitrogênio líquido.
Triture o tecido usando um moinho de mistura de tecidos.
1. Pré-consulte os suportes de tubos em nitrogênio líquido por alguns minutos para manter uma baixa temperatura enquanto moe o tecido.
2. Transporte as amostras biológicas em uma de guerra contendo nitrogênio depois de tirá-las do congelador -80 °C.
3. Moer os tecidos para obter pó homogêneo; use 25 Hz por 1 min e repita após o congelamento em nitrogênio líquido se o tecido não for homogêneo.
Para moer as sementes secas, coloque as sementes em um pote de moagem com uma conta metálica de 15 mm de diâmetro. Use a mesma frequência e tempo mencionados em 2.3.3.
NOTA: Argamassas e pilões limpos e pré-cozidos podem ser usados se um moinho de mistura de tecidos não estiver disponível.
Pré-lo rotulados tubos de microcentrifuge de bloqueio seguro de 2 mL. Pesar 50 mgs com um erro de ±5 mg de material vegetal fresco usando uma escala analítica. Pré-preparar as ferramentas utilizadas para a transferência de material vegetal em nitrogênio líquido. Certifique-se de que o material vegetal permaneça congelado durante o processo de pesagem.
NOTA: Não exponha material fresco da planta muito tempo à temperatura ambiente, pois os processos biológicos são ativados pelo aumento da temperatura, alterando os perfis metabólicos¹⁴.
Gerar amostras adicionais de controle de qualidade (QC) agrupando uma proporção de cada amostra e pesando 50 mgs com um erro de ±5 mg de material vegetal fresco agrupado em tubos de microcentrifus de bloqueio seguro pré-cozidos de 2 mL.
NOTA: Pelo menos três amostras de QC são aconselhadas para cada 60 amostras. As amostras de QC são essenciais para a correção a jusante, normalização e análises.

3. Reagentes de extração

Tecido fresco, por exemplo, folhas e raízes
NOTA: A extração da amostra é baseada em um protocolo descrito anteriormente¹⁵. Este protocolo foi modificado com base nas necessidades atuais, por exemplo, múltiplos tecidos, diferentes padrões internos e experimentos em larga escala. Além disso, todos os volumes e configurações de instrumentos mencionados abaixo são ajustados para unidades analíticas internas. Os usuários do protocolo devem ajustá-los de acordo com sua unidade analítica e amostras biológicas, com base em amostras de teste.
1. Mistura de extração 1 (EM1): éter de tert-butil de metila (MTBE)/metanol (MeOH) (3:1 v/v)
  1. Prepare uma mistura de MTBE/MeOH em uma proporção de 3:1. Para 100 mL de solvente de extração, misture 75 mL de MTBE com 25 mL de MeOH em uma garrafa de vidro limpa.
    NOTA: Os solventes devem ser manuseados cuidadosamente no capô da fumaça com equipamentos de segurança adequados.
  2. Adicione 45 μL de 1,2-diheptadecanoyl-sn-glycero-3-fosfocholina (1 mg/mL em clorofórmio) como padrão interno para a análise lipídica baseada em UHPLC-MS, 400 μL de ribitol (1 mg/mL na água) como padrão interno para a análise baseada em GC-MS, e 125 μL de isovitexina (1 mg/mL em MeOH/água (1:1 v/v)) para análise metabólica baseada em UHPLC-MS.
    NOTA: A adição de normas internas é necessária para a normalização pós-análise de acordo com as necessidades analíticas. Como 1 mL de EM1 é necessário para cada amostra, prepare uma solução de estoque de acordo com o tamanho experimental da amostra, que deve ser usada para todo o experimento. O EM1 deve ser armazenado a -20 °C. Verifique a ausência do padrão interno utilizado e sobreposição com outros compostos das espécies investigadas. Vários padrões podem ser usados; a seleção das normas internas neste protocolo foi baseada em testes anteriores utilizando extratos comuns de feijão¹⁶.
2. Mistura de extração 2 (EM2) água/metanol (MeOH) (3:1 v/v)
  1. Para 100 mL EM2, adicione 75 mL de água dupla destilada e 25 mL de MeOH em uma garrafa de vidro limpa.
  2. Adicione 500 μL de EM2 por amostra e prepare uma solução de estoque de acordo com o tamanho experimental da amostra, que deve ser usada para todo o experimento. Armazene o EM2 a 4 °C.
Sementes secas
1. Mistura de extração 3 (EM3) metanol (MeOH)/ água (7:3 v/v)
  1. Para 100 mL de EM3, adicione 70 mL de MeOH e 30 mL de água duplamente destilada em uma garrafa de vidro limpa. Prepare 1 mL de EM3 para cada amostra.
  2. Adicione 400 μL de ribitol (1 mg/mL na água) como padrões internos para a análise baseada em GC-MS e 125 μL de Isovitexin (1 mg/mL em MeOH/água (1:1 v/v)) para análise metabólica baseada em UHPLC-MS.
    NOTA: Prepare uma solução de estoque de acordo com o tamanho da amostra experimental e use-a para todo o experimento. Armazene o EM3 a 4 °C.

4. Extração da amostra

Tecido fresco, por exemplo, folhas e raízes
1. Prepare três tubos de microcentrifus de bloqueio seguro de 1,5 mL para cada amostra. Mantenha o EM1 em um sistema de resfriamento líquido de -20 °C. Transfira as amostras frescas do congelador -80 °C para gelo seco ou nitrogênio líquido para transporte. Adicione 1 mL de EM1 pré-cozido a cada alíquota de 50 mg e vórtice brevemente antes de manter no gelo.
2. Incubar as amostras em um agitador orbital a 800 × g por 10 min a 4 °C.
3. Sonicate as amostras em um banho de sônica resfriado no gelo por 10 minutos.
4. Adicione 500 μL de EM2 usando uma pipeta multicanal para evitar variação nos volumes adicionados.
5. Vórtice as amostras brevemente para misturar as misturas de extração antes de centrifugar a 11.200 × g por 5 min a 4 °C.
6. Após a separação de fase, transfira 500 μL da fase superior contendo lipídios para um tubo de microcentrifuge de bloqueio seguro de 1,5 mL pré-rotulado. Remova o resto da fase superior.
  NOTA: Tome cuidado durante a transferência, pois esta fase superior tem uma alta pressão de vapor e tende a vazar da pipeta.
7. Transfira 150 μL e 300 μL das fases inferiores de metabólica polar e semipolar em dois tubos de microcentrifuuge de bloqueio seguro de 1,5 mL utilizados para análise de GC-MS e UHPLC-MS, respectivamente.
8. Concentre todas as frações extraídas deixando os solventes evaporarem sem aquecimento usando um concentrador de vácuo e armazenar a -80 °C.
Sementes secas
1. Prepare dois tubos de microcentrifus de bloqueio seguro de 1,5 mL para cada amostra. Mantenha o EM3 no gelo. Coloque uma conta metálica de 5 mm de diâmetro nas alíquotas da amostra.
2. Adicione 1 mL de EM3 em cada alíquota de 50 mg e homogeneize as amostras a 25 Hz por 2-3 minutos antes de colocá-las no gelo.
3. Sonicate as amostras em um banho de sônica resfriado no gelo por 10 minutos.
4. Vórtice as amostras brevemente antes de centrifugar a 11.200 × g por 5 min a 4 °C.
5. Transfira 150 μL e 300 μL do supernante em dois tubos de microcentrifuge de bloqueio seguro de 1,5 mL utilizados para análise de GC-MS e UHPLC-MS, respectivamente.
6. Concentre todas as frações extraídas deixando os solventes evaporarem sem aquecimento usando um concentrador de vácuo e armazenar a -80 °C.
  NOTA: Com base na experiência, os usuários são aconselhados a executar a etapa 4.2 para metabólitos semipolares e análise metabólito derivatizada em sementes secas. Realizar a etapa de extração 4.1 para análise lipídica de sementes secas.

5. Análise de lipídios utilizando UHPLC-MS

Suspenda novamente as frações lipídicas secas em 250 μL de acetonitrilo:2-propanol (7:3, vol/vol).
Sonicar a fase lipídica por 5 min, centrífuga a 11.200 × g por 1 min.
Transfira 90 μL do supernante para um frasco de vidro para LC-MS.
Injete 2 μL dos extratos no LC-MS.
Realize o fracionamento lipídeto em uma coluna C₈ de fase invertida realizada a 60 °C com um fluxo de 400 μL/min com alterações graduais de eluent A e B, como mostrado na Tabela 1. Adquira o espectro de massa no modo de ionização positiva com uma faixa de massa de 150-1.500 m/z.
Inclua várias amostras de QC em todos os lotes diários e um branco para garantir a correção para variação analítica. Randomize amostras em termos de bloco em ordem sequencial.

6. Análise de metabólitos polares e semipolares utilizando UHPLC-MS

Suspenda a fase polar seca em 180 μL de metanol de grau UHPLC: água (1:1 v/v).
Sonicar a fase polar por 2 min, centrífuga a 11.200 × g por 1 min.
Transfira 90 μL do supernante para um frasco de vidro para LC-MS.
Injete 3 μL dos extratos no LC-MS.
Realize o fracionamento metabólico em uma coluna de fase C₁₈ invertida realizada a 40 °C com um fluxo de 400 μL/min com alterações graduais de eluent A e B, como mostrado na Tabela 1. Adquira o espectro de massa em uma faixa de massa de 100-1.500 m/z em uma varredura completa de MS e toda a fragmentação de íons (AIF) induzida por dissociação collisional de alta energia (HCD) de 40 keV.
NOTA: Use ambos os modos de ionização. No entanto, devido à capacidade limitada durante a execução de um grande número de amostras, execute amostras de teste em ambos os modos de ionização para determinar o modo de ionização preferido.
Inclua várias amostras de QC em todos os lotes diários e um branco para garantir a correção para variação analítica. Randomize amostras em termos de bloco em ordem sequencial.
Execute um QC agrupado em MS² dependente de dados nos modos de ionização negativa e positiva. Use o espectro de massa obtido em um passo posterior (8.5) para anotação.

7. Análise de Metabólitos derivatizados utilizando GC-MS^17,18

NOTA: A análise dos metabólitos derivatizados baseia-se em um protocolo descrito anteriormente¹⁷. Manuseie todos os reagentes de derivatização no capô da fumaça. Certifique-se de que n-metil-N-(trimethylsilyl)trifluoracetamida (MSTFA) não entre em contato com água e umidade.

Reagente de derivatização 1 (DR1)
1. Dissolver o cloridrato de metoximina na piridina para obter uma concentração de 30 mg/mL de DR1. Use 40 μL de DR1 para cada amostra. Prepare uma solução de estoque de acordo com o tamanho da amostra e armazene à temperatura ambiente.
Reagente de derivação 2 (DR2)
1. Dissolver mSTFA com 20 μL de ésteres de metila de ácido graxo (FAMEs) por 1 mL de MSTFA. Use 70 μL de DR2 para cada amostra. Prepare uma solução de estoque de acordo com o tamanho da amostra. Armazene MSTFA a 4 °C e os FAMEs a -20 °C.
  NOTA: Os FAMEs incluem metilcaprylato, metil pelargonato, metilcapato, metillaurate, metilmíricoto, metilpalmitato, metilsteato, metileicosanoato, metildocosanoato, ester de metila de ácido lignocerico, metilhexacosanoato, metiloctacosanoato e metilester ácido triatênico, que são dissolvidos no CHCl₃a uma concentração de 0,8 μL/mL ou 0,4 mg/mL para padrões líquidos ou sólidos, respectivamente.
Resseque a pelota da fase polar (armazenada a -80 °C) usando um concentrador de vácuo por 30 minutos para evitar qualquer interferência de H₂O originária durante o armazenamento com os solventes utilizados para a derivatização a jusante.
Adicione 40 μL de DR1.
Agite as amostras a 950 × g por 2 h a 37 °C usando um agitador orbital, seguido por um curto spin-down do líquido.
Adicione 70 μL de DR2.
Agite novamente a 950 × g por 30 min a 37 °C usando um agitador orbital.
Centrifugar brevemente à temperatura ambiente antes de transferir 90 μL em frascos de vidro para análise GC-MS.
Injete 1 μL no modo splitless GC-MS, dependendo das concentrações metabólitos, com um fluxo constante de gás portador de hélio de 2 mL/min. A temperatura da injeção é definida para 230 °C usando uma coluna capilar MDN-35 de 30 m.
NOTA: Informações adicionais, por exemplo, gradiente de temperatura, podem ser encontradas na Tabela 1. A faixa de massa está definida para 70-600 m/z com 20 scans/min. Inclua modos divididos para permitir a quantificação de compostos de sobrecarga putativa, economia de custos e tempo para extração de revasação nesses casos.
Inclua várias amostras de QC em todos os lotes diários e um branco para garantir a correção para variação analítica. Randomize amostras adequadamente bloqueadas em ordem sequencial.

8. Processamento de cromatograma e anotação composta

Filtrar o ruído químico definindo limiares de intensidade. Inclua todas as amostras de QC durante o processamento dos cromatógrafos.
NOTA: Para dados em larga escala, a filtragem de ruído é crucial para diminuir o tempo de computação e o poder de processamento.
Alinhe os cromatógrafos definindo uma janela de mudança de tempo de retenção. Verifique os cromatogramas de cada lote para avaliar a variação intra e entre lotes.
Realize a detecção de pico dependendo da forma de pico, por exemplo, altura e largura para a largura total a cálculos meia-máximo (FWHM).
Isótopos de cluster para reduzir sinais redundantes e filtrar singletons.
NOTA: Consulte a Tabela de Materiais para obter detalhes sobre o software utilizado para o processamento de cromatogramas. Protocolos aprofundados sobre como processar cromatógramas usando várias ferramentas de software disponíveis livremente, por exemplo, MS-DIAL, MetAlign, MzMine e Xcalibur 19,20,21, são fornecidos.
Use os dados ddMS² de uma amostra de QC agrupada para anotação composta. Avalie a estrutura molecular determinando a massa monoisotópica e observando perdas neutras comuns, aglycones carregados conhecidos e diferentes tipos de decotes, por exemplo, homolíticos ou heterolíticos^16,22.
Para relatar dados metabólitos, siga a recomendação descrita em Fernie et al. 2011²³.
NOTA: Diferentes abordagens metabolômicas computacionais podem ser usadas para analisar dados metabolômicos 24,25,26.

9. Normalização do conjunto de dados metabolômicos em larga escala

Verifique a distribuição das normas internas e normalize corrigindo a resposta de padrões internos únicos ou múltiplos.
Corrija as intensidades máximas obtidas do cromatograma sobre o peso amostral exato dividindo as intensidades máximas pelo peso amostral homoter homogeneizado aliquoted a partir do passo 2.5.
Corrija para a deriva de intensidade em séries multi-lote. Execute métodos de correção baseados em QC, como a suavização de dispersão localmente estimada (LOESS)²⁷ usando R.
NOTA: Várias ferramentas e pacotes estão disponíveis para atender ao desvio do desempenho do MS durante a aquisição dos lotes inteiros ^28,29.
Garanta a distribuição normal dos traços por transformação de dados, por exemplo, transformação Box-Cox³⁰ usando a função boxcox () do pacote R MASS para a realização do GWAS.
Realize o dimensionamento de dados, por exemplo, o dimensionamento de Pareto, para análise multivariada para garantir a pesagem adequada dos compostos de baixa abundância³¹.
NOTA: Se possível, realize um ensaio de recuperação para evitar efeitos matriciais, por exemplo, supressão de^{íons 14}.

10. Estudos de associação genoma (GWAS)³²

Chame polimorfismo de nucleotídeo único (SNP) ou variantes estruturais (SV) dos dados de sequenciamento^33,34.
Filtrar dados genotípicos para menor frequência de alelo (MAF) < 5% e taxa de falta de >10% para evitar viés de baixa frequência usando Tassel³⁵.
Calcule as melhores previsões lineares imparcial (BLUPs) para cada característica normalizada sobre as repetições experimentais para eliminar viés originário de fatores ambientais (efeitos aleatórios) usando o pacote R Ime4³⁶.
Use BLUPs de cada recurso individualmente para executar GWAS usando o pacote rMVP em R³⁷.
NOTA: Cada recurso metabolômico é visto aqui como um fenótipo autônomo individual.
Ao realizar o GWAS, corrija para a estrutura populacional usando a análise de componentes principais (PCA) e identidade por estado (IBS) ou vanRaden para minimizar os efeitos de confusão. Além disso, considere usar um modelo linear misto (MLM) ou um modelo misto multi-lócus (MLMM), pois os modelos mistos contêm efeitos fixos e aleatórios.

11. Detecção de QTL

Verifique os SNPs mostrando associação significativa, levando em consideração as parcelas de Manhattan, para cálculos de desequilíbrio (LD) para determinar a região genética subjacente. Realize os cálculos de LD usando o mapa de calor LD do pacote R ou Tassel 5.
Verifique os SNPs associados para saber o tamanho do efeito sobre o traço examinando os níveis de características para alterações estatísticas entre haplotipos para encontrar SNPs causais potenciais, por exemplo, SNPs levando a uma mudança de aminoácido na sequência de codificação de proteínas, o que poderia explicar a variação fenotípica.
NOTA: Como as associações de traços de SNP não necessariamente produzem associação causal, é crucial determinar a região genômica. A identidade composta por anotação de características pode ajudar imensamente a encontrar os genes candidatos certos em uma região genômica específica. Sugerimos combinar todas as QTL detectadas associadas a certos compostos em um mapa pleiotrópico para sublinhar as regiões genéticas³⁸, como mostrado na Figura 4. Para validação de genes candidatos, várias abordagens podem ser realizadas (veja a discussão).

Representative Results

Os experimentos de metabolomia bem-sucedidas do GWAS devem começar com um design experimental adequado, seguido pela coleta de amostras, extração, aquisição de dados e processamento, conforme ilustrado na Figura 1. Neste protocolo, o método MTBE¹⁵ foi utilizado para extrair e analisar centenas de metabólitos pertencentes a diversas classes compostas. A cromatografia depende muito das propriedades da coluna utilizada, bem como das misturas de tampão de eluição. A Figura 2 mostra cromatógramas de amostras de QC, indicando o padrão de eluição de algumas classes lipídicas importantes neste sistema analítico. Os gradientes aplicados para cada plataforma são dados na Tabela 1. Foi dada forte ênfase no tratamento de erros sistêmicos em experimentos em larga escala. A realização de metabolômicas em larga escala está inerentemente associada a erros sistêmicos. Para demonstração, analisamos dados lipidómicos em várias espécies comuns de feijão. A Tabela Suplementar 1 fornece os dados lipidômicos brutos extraídos obtidos após o processamento do croromatograma utilizando o software indicado na Tabela de Materiais. Seguir este protocolo nos permitiu contornar grandes questões no tratamento de dados omics, especialmente durante o manuseio de grandes conjuntos de amostras. O procedimento de normalização rende na correção precisa dos erros analíticos em lote, conforme demonstrado na Figura 3. Embora o aumento do número de amostras de QC aumente o poder da normalização, isso nem sempre é viável devido às restrições de custo e tempo. Para a metabolômica de alta produtividade GWAS com características metabólicas não direcionadas, é essencial ilustrar um número maior de associação de marcadores de características adequadamente. Um mapa pleiotrópico³⁸ combinando múltiplos resultados de GWAS poderia ser usado para destacar as regiões genômicas às quais vários traços estão ligados (Figura 4).

Figura 1: Fluxograma do GWAS baseado em metabolômica em plantas. Várias etapas que partem do projeto experimental até a detecção de QTL são mostradas no painel esquerdo. No painel direito, várias figuras são mostradas para suportar várias etapas mencionadas no painel esquerdo. A partir do topo direito, (1) uma sequência sugerida de amostras é mostrada para LC-MS, (2) parcelas de pontuação pré e pós-normalizadas de PCA, incluindo uma distribuição de recursos representativos pré e pós-processamento, com intensidades de amostra QC indicando vermelho e (3) um lote de Manhattan com associações significativas às quais foram geradas distribuições de LD e haplotipos. Abreviaturas: GWAS = estudos de associação genoma;; QTL = traço quantitativo loci; PCA = análise de componentes principais; QC = controle de qualidade; LD = desequilíbrio de ligação; MS = espectrometria de massa; LC-MS = espectrometria de massa cromatografia líquida; GC-MS = espectrometria de massa cromatografia gasosa; LOESS = alisamento de dispersão localizado localmente; MLM/MLMM = modelo linear misto/modelo misto multi-lócus. Clique aqui para ver uma versão maior desta figura.

Figura 2: Processamento de cromatograma. Dois cromatógramas QC (pico base; dados lipídes) de diferentes lotes demonstram a variação em lote para certas classes lipídicas nas amostras de QC agrupadas. Quatro classes lipídicas principais são indicadas com suas respectivas janelas de elução no sistema interno LC-MS. Os cromatogramas foram exportados de MzMine²¹. Abreviaturas: QC = controle de qualidade; LC-MS = espectrometria de massa cromatografia líquida. Clique aqui para ver uma versão maior desta figura.

Figura 3: Correção de erro sistemático. Análise componente principal dos dados lipidómicos adquiridos, pré-(dados brutos esquerdos) e pós-correção para erros sistêmicos (à direita, loess em lote). Os painéis inferiores ilustram a distribuição do recurso (Cluster_00005) sobre as amostras (n=650) e os lotes (n=10) pré-(esquerda) e pós (direita)-correção para variação analítica. Abreviaturas: PCA = análise de componentes principais; QC = controle de qualidade; LOESS = esteleia de dispersão estimada localmente. Clique aqui para ver uma versão maior desta figura.

Figura 4: Mapa pleiotrópico ilustrando os resultados combinados do GWAS. O mapa pleiotrópico destaca regiões de todo o genoma que estão associadas a vários traços. Os números nos anéis externos indicam os cromossomos correspondentes. Cada círculo representa um traço individual com seus SNPs significativamente associados. As cores representam diferentes classes compostas (cinza = composto classe 1; verde = composto classe 2; roxo = classe composta 3; amarelo = composto classe 4). No caso de associações intera compostas de classe com a mesma região genômica, destacam-se os genes. O círculo cinzento interno mostra a soma de todos os SNPs significativos associados a uma posição genômica específica. As associações mostradas nesta figura são geradas artificialmente apenas para ilustração. Abreviaturas: GWAS = estudos de associação genoma;; SNPs = polimorfismos de nucleotídeos únicos. Clique aqui para ver uma versão maior desta figura.

Configurações UHPLC-MS para lipídios
Tempo [min]	Eluente A a B [%]*	Informação
0 - 1.00	45% A	Eluent A: 1% 1M NH 4-Acetato, 0,1% ácido acético na água (grau UHPLC)
1.00 - 4.00	lg 45% - 25% A	Eluente B: 1% 1M NH 4-Acetato, 0,1% ácido acético em acetonitrilo/2-propanol 7:3 (grau UHPLC)
4.00 - 12.00	lg 25% - 11% A	Taxa de fluxo: 400 μL/min
12.00 - 15.00	lg 11% - 0% A	Volume de injeção: 2 μL
15.00 - 19.50	cw 0% A
19.50-19.51	0% - 45% A
19.51-24.00	eq 45%
Configurações UHPLC-MS/MS para metabólitos polares e semipolares
Tempo [min]	Eluente A e B [%]*	Informação
0 - 1.00	99% A	Eluente A: 0,1% de ácido fórmico na água (grau UHPLC)
1.00 - 11.00	lg 99% -60% A	Eluente B: 0,1% de ácido fórmico em acetonitrilo (grau UHPLC)
11.00 - 13.00	lg 60% - 30% A	Taxa de fluxo: 400 μL/min
13.00 - 15.00	lg 30% - 1% A	Volume de injeção: 3 μL
15.00 - 16.00	cw 1% A
16.00 - 17.00	lg 1% - 99% A
17.00 - 20.00	eq 99% A
Configurações GC-MS para metabólitos derivatizados
Tempo [min]	Temperatura [°C]	Informação
0 - 2.00	85	Gás transportador: Hélio
2.00 - 18.66	LG 80 - 330	Taxa de fluxo: 2 mL/min
18.66 - 24.66	cw 330	Gradiente de temperatura: 15 °C/min
24.66	resfriamento rápido	Volume de injeção: 1 μL

Tabela 1: Configurações de gradiente para cada uma das plataformas analíticas⁷. Abreviaturas: lg = gradiente linear; cw = lavagem de coluna; eq = equilíbrio; UHPLC-MS = espectrometria de massa líquida de alto desempenho; UHPLC-MS/MS = espectrometria de massa de cromatografia líquida de alto desempenho; GC-MS = espectrometria de massa cromatografia gasosa. * = valor percentual corresponde ao eluente A; o valor percentual restante corresponde ao eluente B.

Tabela Suplementar 1: Dados lipidómicos crus. Indica as intensidades máximas para cada um dos aglomerados detectados sobre cada amostra. Clique aqui para baixar esta Tabela.

Discussion

Tanto o GC-MS quanto o LC-MS são ferramentas amplamente utilizadas para traçar misturas complexas de várias classes metabólicas. O manuseio de grandes conjuntos de dados com essas ferramentas está inerentemente associado a uma variação não biológica, por exemplo, variação analítica, que interfere e viese a interpretação dos resultados. Este protocolo apresenta um robusto e de alto rendimento de extração de gasodutos de extração para perfis metabólicos abrangentes para eliminar a variação de origem não biológica e realizar estudos de "omics" em larga escala. Os volumes e concentrações utilizados neste protocolo foram ajustados para espécies de leguminosas em diferentes tecidos. No entanto, esses parâmetros podem ser ligeiramente modificados e usados para amostras metabólicas em larga escala de outras espécies vegetais também.

As¹⁵ extrações descritas anteriormente baseadas em MTBE podem ser usadas para analisar metabólitos derivatizados, metabólitos semipolares e lipídios. Isso pode ser expandido para extrações de proteínas e hormônios vegetais³⁹, que estavam fora do escopo deste protocolo. Outros protocolos de extração dependem de diclorometano: misturas de etanol^40,41. Desses protocolos de extração, o protocolo de extração de metanol MTBE:fornece uma alternativa favorável e menos perigosa aos protocolos de extração baseados em clorofórmio^{existentes 42} e não resulta em uma pelota de proteína como uma interfase entre as fases polar e lipídica. Além disso, os métodos MTBE já foram utilizados em diversos estudos para diversas amostras biológicas 43,44,45.

Este protocolo discute várias etapas cruciais que podem levar a uma potencial variação ao manusear um grande número de amostras, por exemplo, durante a colheita^{de 12,13}, extração¹⁴, bem como randomização⁴⁶. Além disso, há questões adicionais que não foram discutidas neste protocolo que devem ser consideradas para garantir dados metabolômicos de alta qualidade, por exemplo, efeito matricial e supressão de^{íons 14}.

O poder dos métodos de normalização baseados em QC depende inerentemente do número de amostras de QC em cada lote. Como mencionado anteriormente, embora o aumento do número aumente a potência, a variação intra-lote dos QCs é relativamente marginal em comparação com a variação entre lotes nesses sistemas analíticos, como ilustrado na Figura 3. No geral, existem outros métodos de normalização baseados em QC, como a remoção de erros sistêmicos usando a floresta aleatória (SERRF), que têm sido mostrados para superar a maioria dos outros métodos de normalização, como a relação em lote-wise, a normalização usando uma seleção ideal de vários padrões internos (NOMIS) e a normalização probabilística (PQN)⁴⁷ . No entanto, a SERRF conta com várias amostras de QC em cada lote, por exemplo, cada décima amostra, o que não é viável durante o manuseio de um grande número de amostras. A principal vantagem da normalização baseada em QC em relação a outros métodos baseados em padrões baseados em dados ou internos é que ela retém a variação biológica essencial, ao mesmo tempo em que acomoda a variação técnica indesejada²⁸. Os leitores podem consultar esta revisão sobre o manuseio da variação²⁸.

Uma questão principal no GWAS é a taxa de falsos positivos, que se originam principalmente devido à ligação de sítios causais e não causais ^48,49. Em segundo lugar, as abordagens conservadoras de correção estatística, por exemplo, Bonferroni e FDR, corrijam para o número de testes independentes, o que não é igual ao número de SNPs testados no GWAS devido à ligação entre os SNPs^próximos ^50,51 Portanto, o número real de testes independentes é muitas vezes menor. Outra forma de reduzir o limiar estatístico conservador seria reduzir o número de SNPs testados usados para GWAS com base na decadência de ligação sobre as regiões genômicas^{definidas 52}. A plataforma de metabolômica de alto rendimento integrada pela GWAS descrita neste protocolo tem uma ampla gama de aplicações. Em particular, facilitará melhorias na criação de culturas, alterando a composição metabólito/lipída para níveis industrial e nutricionalmente desejados. No geral, a metabolômica forneceu uma visão aprofundada da arquitetura genética de uma infinidade de metabólitos e diversificação metabólica que ocorreu durante a domesticação das culturas nas últimas décadas, indicando o vasto potencial de reprodução associada à metabolômica⁵³. As abordagens biológicas moleculares para validação de QTL a jusante incluem a geração de linhas mutantes CRISPR/Cas9⁵⁴, linhas de inserção T-DNA⁵⁵, linhas de superexpressão estável e/ou transitória⁵⁶, VIGS, ex vivo metabolômica se aproxima⁵⁷ ao lado da abordagem convencional na geração de populações transversais F2, bem como validação cruzada em diferentes populações.

Ao realizar a correção necessária para as variações analíticas descritas acima, várias abordagens integradas podem ser realizadas além do GWAS, como metabólito-metabólito, análise de correlação metabólica-lipídica, análise de correlação com dados fenomicos para esclarecer traços mais complexos e/ou análise de co-expressão para desvendar ainda mais a base dos sistemas biológicos⁵⁸.

Disclosures

Os autores não têm conflitos de interesse para declarar.

Acknowledgments

O M.B. é apoiado pelo IMPRS-PMPG 'Metabolismo Primário e Crescimento Vegetal'. A A.R.F. e a S.A. reconhecem o apoio financeiro do Programa de Pesquisa e Inovação da EU Horizon 2020, do projeto PlantaSYST (SGA-CSA No. 739582 sob o FPA nº 664620) e do projeto INCREASE (GA 862862).

Materials

Name	Company	Catalog Number	Comments
Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC)	Avanti Polar Lipids	850360P	Internal standard for lipids
Chloroform	Supleco	67-66-3	FAME solvent
Isovitexin	Sigma Aldrich	38953-85-4	Internal standard for metabolites
Lignoceric Acid Methylester	Sigma Aldrich	2442-49-1	FAME
Methanol (MeOH)	Biosolve Chemicals	13684102	ULC-MS grade
Methoxyamin -hydrochlorid	Sigma Aldrich	593-56-6	Metabolite deriviatization
Methyl laurate	Sigma Aldrich	111-82-0	FAME
Methyl myristate	Sigma Aldrich	124-10-7	FAME
Methyl palmitate	Sigma Aldrich	112-39-0	FAME
Methyl stearate	Sigma Aldrich	112-61-8	FAME
Methyl tert-butyl ether (MTBE)	Biosolve Chemicals	13890602	HPLC grade
Methyl-caprat	Sigma Aldrich	110-42-9	FAME
Methylcaprylat	Sigma Aldrich	111-11-5	FAME
Methyldocosanoat	Sigma Aldrich	929-77-1	FAME
Methyleicosanoat	Sigma Aldrich	1120-28-1	FAME
Methyl-hexacosanoat	Sigma Aldrich	5802-82-4	FAME
Methyl-octacosanoat	Sigma Aldrich	55682-92-3	FAME
Methyl-pelargonate	Sigma Aldrich	1731-84-6	FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA)	Macherey-Nagel	24589-78-4	Metabolite deriviatization
Pyridine	Supleco	110-86-1	Metabolite deriviatization
Ribitol	Supleco	22566-17-2	Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester	TCI Chemicals	629-83-4	FAME
Water	Biosolve Chemicals	23214102	ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes	Eppendorf	3120086
2 mL Safe-lock microcentrifuge tubes	Eppendorf	3120094
Balance	Sartorius Corporation	14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm	Aglient	123-3832	Analysis of derivatized metabolites
GC-MS system	Leco Pegasus HT TOF-MS (LECO Corporation)		Analysis of derivatized metabolites
Grinding Balls, Stainless Steel	OPS DIAGNOSTICS	GBSS 196-2500-10
MS system	Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific)		Analysis of lipids
MS system	Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™ Massenspektrometer, Thermo Fisher Scientific)		Analysis of metabolites
Refrigerated microcentrifuge	Eppendorf, model 5427R	22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column (100 mm × 2.1 mm containing 1.7 μm diameter particles)	Waters	186002878	Analysis of lipids
RP High Strength Silica (HSS) T3 column (100 mm × 2.1 mm containing 1.8 μm diameter particles)	Waters	186003539	Analysis of metabolites
Shaker	Eppendorf Thermomixer 5436	2050-100-05
Sonicator	USC 300 TH	142-0084
Tissue grinding mixer mill	Retsch, Mixer Mill MM 300	20.746.0001
UPLC system	Waters Acquity UPLC system (Waters)
Vacuum concentrator	Scan Speed Maxi Vac Alpha Evaporators	7.008.500.002
Vortex mixer	Vortex-Genie 2, Model G560	SI-0236
Software
MetAlign			Chromatogram processing
MzMine			Chromatogram processing
R package "data.table"
R package "fujiplot"			pleiotrpoic map
R package "genetics"
R package "Ime4"			BLUPs calculation
R package "LDheatmap"			LD plots
R package "MASS"			transformation
R package "rMVP"			GWAS
R version 4.0.4
RefinerMS			Chromatogram processing
RefinerMS Genedata	Expressionist		Chromatogram processing
Tassel 5			Genotype filtering
Xcalibur	Thermo Fisher Scientific	OPTON-30965	Chromatogram processing