Biochemistry

Estudios de asociación multiómica a gran escala de todo el genoma (Mo-GWAS): Directrices para la preparación y normalización de muestras

Published: July 27, 2021 doi: 10.3791/62732

Mustafa Bulut¹, Alisdair R. Fernie^1,2, Saleh Alseekh^1,2

¹Max-Planck-Institute of Molecular Plant Physiology, ²Center of Plant Systems Biology and Biotechnology

Summary

En este protocolo, presentamos un flujo de trabajo optimizado, que combina una preparación de muestras eficiente y rápida de muchas muestras. Además, proporcionamos una guía paso a paso para reducir las variaciones analíticas para la evaluación de alto rendimiento de los estudios metabólicos GWAS.

Abstract

Tanto la cromatografía de gases-espectrometría de masas (GC-MS) como la cromatografía líquida-espectrometría de masas (LC-MS) son enfoques metabolómicos ampliamente utilizados para detectar y cuantificar cientos de miles de características de metabolitos. Sin embargo, la aplicación de estas técnicas a un gran número de muestras está sujeta a interacciones más complejas, particularmente para estudios de asociación de todo el genoma (GWAS). Este protocolo describe un flujo de trabajo metabólico optimizado, que combina una preparación de muestras eficiente y rápida con el análisis de un gran número de muestras para especies de cultivos de leguminosas. Este método de extracción ligeramente modificado se desarrolló inicialmente para el análisis de tejidos vegetales y animales y se basa en la extracción en metil terc-butil éter: disolvente de metanol para permitir la captura de metabolitos polares y lipídicos. Además, proporcionamos una guía paso a paso para reducir las variaciones analíticas, que son esenciales para la evaluación de alto rendimiento de la varianza metabólica en GWAS.

Introduction

Los enfoques "ómicos" a gran escala han permitido el análisis de sistemas biológicos complejos ^1,2,3 y una mayor comprensión del vínculo entre los genotipos y los fenotipos resultantes⁴. La metabolómica utilizando cromatografía líquida de ultra alto rendimiento-espectrometría de masas (UHPLC-MS) y GC-MS permitió la detección de una gran cantidad de características de metabolitos, de las cuales solo algunas están anotadas hasta cierto punto, lo que resulta en una alta proporción de metabolitos desconocidos. Las interacciones complejas se pueden explorar combinando la metabolómica a gran escala con la variación genotípica subyacente de una población diversa⁵. Sin embargo, el manejo de grandes conjuntos de muestras está inherentemente asociado con variaciones analíticas, distorsionando la evaluación de la varianza metabólica para procesos posteriores. Específicamente, los principales problemas que conducen a variaciones analíticas se basan en el rendimiento de la máquina y la deriva instrumental a lo largo del tiempo⁶. La integración de la variación de lote a lote es desafiante y especialmente problemática cuando se analizan poblaciones de plantas estructuradas a gran escala. Se sugirieron múltiples procedimientos de normalización para corregir las variaciones no biológicas, por ejemplo, el uso de estándares internos, externos e internos marcados con isótopos para corregir errores analíticos, de los cuales cada uno está inherentemente asociado con problemas y trampas conocidos 7,8,9,10.

Además de la variación analítica, la elección de los protocolos de extracción generalmente varía según el método analítico. En última instancia, se desea reducir los costos de material y mano de obra, así como la necesidad de utilizar varias alícuotas de la misma muestra para diversos procesos analíticos mediante la realización de métodos de extracción basados en la separación de fases. Estos métodos se introdujeron por primera vez utilizando cloroformo: disolventes de metanol/agua para fraccionar compuestos polares e hidrófobos¹¹.

Este protocolo describe una tubería rápida de alto rendimiento para una plataforma multiómica para perfilar tanto metabolitos polares como lípidos en especies de leguminosas. Además, muestra cómo esos conjuntos de datos pueden corregirse adecuadamente para la variación analítica y normalizarse antes de integrar información genotípica para detectar loci de rasgos cuantitativos de metabolitos (QTL) mediante la realización de GWAS.

Protocol

1. Diseño experimental y cultivo de plantas

NOTA: Configurar el experimento dependiendo de la hipótesis experimental, por ejemplo, el uso de una población GWAS a gran escala disminuye la necesidad de múltiples réplicas, ya que las pruebas estadísticas se realizarán en función de los haplotipos de todos los SNP individuales en lugar de la adhesión. En contraste, las réplicas múltiples son indispensables en otros enfoques experimentales. Los siguientes puntos deben considerarse al preparar el experimento.

Incluir suficientes réplicas biológicas, dependiendo de la hipótesis experimental.
Aleatorice las réplicas biológicas en bloque para reducir el sesgo ambiental local durante el cultivo, por ejemplo, invernadero, campo.
Asegurar el mantenimiento adecuado de la planta durante el crecimiento. Trate las plantas de manera homogénea para reducir el sesgo.

2. Preparación de material vegetal biológico

Preparación de la cosecha
1. Tubos de recolección de etiquetas (20 ml) que contienen dos perlas metálicas de 5 mm y dos de 8 mm de diámetro para homogeneizar. Llena un dewar con nitrógeno líquido.
  NOTA: Las plantas deben estar en la etapa vegetativa para la recolección de hojas frescas y tejido radicular.
Cosechar muestras biológicas por congelación instantánea en nitrógeno líquido. Cosechar lo más rápido posible para excluir la influencia de la oscilación circadiana en el metabolismo durante las duraciones prolongadas de la cosecha^12,13. Almacene los tejidos frescos de hoja y raíz cosechados para su posterior procesamiento a -80 °C.
NOTA: El corte de hojas a la congelación instantánea no debe tomar más de unos pocos segundos, ya que después de la escisión de la hoja, los procesos biológicos activos alterarían los perfiles metabólicos debido a las heridas. Para las raíces, prelimpie las raíces lavando con agua antes de congelarlas en nitrógeno líquido. El exceso de agua en la superficie de la raíz debe absorberse con papel de papel. Las semillas secas se pueden almacenar a temperatura ambiente; no se requiere congelación en nitrógeno líquido.
Moler el tejido con un molino mezclador de tejidos.
1. Preenfríe los soportes del tubo en nitrógeno líquido durante un par de minutos para mantener una temperatura baja mientras se muele el tejido.
2. Transportar las muestras biológicas en un dewar que contenga nitrógeno después de sacarlas del congelador de -80 °C.
3. Moler los tejidos para obtener polvo homogéneo; utilizar 25 Hz durante 1 min y repetir después de la congelación en nitrógeno líquido si el tejido no está molido homogéneamente.
Para moler semillas secas, coloque las semillas en un frasco de molienda con una cuenta de metal de 15 mm de diámetro. Utilice la misma frecuencia y tiempo que se menciona en el punto 2.3.3.
NOTA: Se pueden usar morteros y morteros limpios y preenfriados si no se dispone de un molino mezclador de tejidos.
Tubos de microcentrífuga de bloqueo seguro Precool etiquetados con 2 ml. Pesar 50 mg con un error de ±5 mg de material vegetal fresco mediante el uso de una báscula analítica. Preenfriar las herramientas utilizadas para transferir material vegetal en nitrógeno líquido. Asegúrese de que el material vegetal permanezca congelado durante el proceso de pesaje.
NOTA: No exponer el material vegetal fresco demasiado tiempo a temperatura ambiente, ya que los procesos biológicos se activan al aumentar la temperatura, alterando los perfiles metabólicos¹⁴.
Genere muestras adicionales de control de calidad (QC) agrupando una proporción de cada muestra y pesando 50 mg con un error de ±5 mg de material vegetal fresco agrupado en tubos de microcentrífuga de bloqueo seguro de 2 ml preenfriados.
NOTA: Se recomiendan al menos tres muestras de control de calidad por cada 60 muestras. Las muestras de control de calidad son esenciales para la corrección, normalización y análisis posteriores.

3. Reactivos de extracción

Tejido fresco, por ejemplo, hojas y raíces
NOTA: La extracción de muestras se basa en un protocolo¹⁵ descrito anteriormente. Este protocolo se ha modificado en función de las necesidades actuales, por ejemplo, múltiples tejidos, diferentes estándares internos y experimentos a gran escala. Además, todos los volúmenes y ajustes de instrumentos mencionados a continuación se ajustan a las unidades analíticas internas. Los usuarios del protocolo deben ajustarlos de acuerdo con su unidad analítica y muestras biológicas, basadas en muestras de prueba.
1. Mezcla de extracción 1 (EM1): metil terc-butil éter (MTBE)/metanol (MeOH) (3:1 v/v)
  1. Prepare una mezcla de MTBE/MeOH en una proporción de 3:1. Para 100 ml de disolvente de extracción, mezcle 75 ml de MTBE con 25 ml de MeOH en una botella de vidrio limpia.
    NOTA: Los disolventes deben manipularse con cuidado en la campana de humos con el equipo de seguridad adecuado.
  2. Agregue 45 μL de 1,2-diheptadecanoyl-sn-glycero-3-phosphocholine (1 mg/mL en cloroformo) como estándar interno para el análisis lipídico basado en UHPLC-MS, 400 μL de ribitol (1 mg/mL en agua) como estándar interno para el análisis basado en GC-MS, y 125 μL de isovitexina (1 mg/mL en MeOH/agua (1:1 v/v)) para el análisis de metabolitos basado en UHPLC-MS.
    NOTA: La adición de estándares internos es necesaria para la normalización posterior al análisis de acuerdo con las necesidades analíticas. Como se necesita 1 ml de EM1 para cada muestra, prepare una solución madre de acuerdo con el tamaño de la muestra experimental, que debe usarse para todo el experimento. EM1 debe almacenarse a -20 °C. Comprobar la ausencia de la norma interna utilizada y la superposición con otros compuestos en las especies investigadas. Se pueden utilizar varias normas; la selección de las normas internas en este protocolo se basó en pruebas previas utilizando extractos de frijol común¹⁶.
2. Mezcla de extracción 2 (EM2) agua/metanol (MeOH) (3:1 v/v)
  1. Para 100 ml de EM2, agregue 75 ml de agua de doble destilación y 25 ml de MeOH en una botella de vidrio limpia.
  2. Agregue 500 μL de EM2 por muestra y prepare una solución madre de acuerdo con el tamaño de la muestra experimental, que debe usarse para todo el experimento. Conservar EM2 a 4 °C.
Semillas secas
1. Mezcla de extracción 3 (EM3) metanol (MeOH)/agua (7:3 v/v)
  1. Para 100 ml de EM3, agregue 70 ml de MeOH y 30 ml de agua de doble destilación en una botella de vidrio limpia. Preparar 1 ml de EM3 para cada muestra.
  2. Añadir 400 μL de ribitol (1 mg/mL en agua) como estándares internos para el análisis basado en GC-MS y 125 μL de isovitexina (1 mg/mL en MeOH/agua (1:1 v/v)) para el análisis de metabolitos basado en UHPLC-MS.
    NOTA: Prepare una solución madre de acuerdo con el tamaño de la muestra experimental y utilícela para todo el experimento. Conservar EM3 a 4 °C.

4. Extracción de muestras

Tejido fresco, por ejemplo, hojas y raíces
1. Prepare tres tubos de microcentrífuga de bloqueo seguro de 1,5 ml para cada muestra. Mantenga EM1 en un sistema de refrigeración líquida de -20 °C. Transfiera las muestras frescas del congelador de -80 °C al hielo seco o al nitrógeno líquido para su transporte. Agregue 1 ml de EM1 preenfriado a cada alícuota de 50 mg y vórtice brevemente antes de mantenerlo en hielo.
2. Incubar las muestras en un agitador orbital a 800 × g durante 10 min a 4 °C.
3. Sonicar las muestras en un baño de sonicación refrigerado por hielo durante 10 min.
4. Agregue 500 μL de EM2 usando una pipeta multicanal para evitar la variación en los volúmenes agregados.
5. Vórtice las muestras brevemente para mezclar las mezclas de extracción antes de centrifugar a 11.200 × g durante 5 min a 4 °C.
6. Después de que se produzca la separación de fases, transfiera 500 μL de la fase superior que contiene lípidos a un tubo de microcentrífuga de bloqueo seguro de 1,5 ml premarcado. Retire el resto de la fase superior.
  NOTA: Tenga cuidado al transferir, ya que esta fase superior tiene una alta presión de vapor y tiende a filtrarse de la pipeta.
7. Transfiera 150 μL y 300 μL de las fases polar inferior y semipolar que contienen metabolitos en dos tubos de microcentrífuga de bloqueo seguro de 1,5 ml utilizados para el análisis GC-MS y UHPLC-MS, respectivamente.
8. Concentre todas las fracciones extraídas dejando que los disolventes se evaporen sin calentar utilizando un concentrador de vacío y almacene a -80 °C.
Semillas secas
1. Prepare dos tubos de microcentrífuga de bloqueo seguro de 1,5 ml para cada muestra. Mantenga EM3 en hielo. Coloque una cuenta metálica de 5 mm de diámetro en las alícuotas de muestra.
2. Añadir 1 ml de EM3 en cada alícuota de 50 mg y homogeneizar las muestras a 25 Hz durante 2-3 min antes de ponerlas en hielo.
3. Sonicar las muestras en un baño de sonicación refrigerado por hielo durante 10 min.
4. Vórtice las muestras brevemente antes de centrifugar a 11.200 × g durante 5 min a 4 °C.
5. Transfiera 150 μL y 300 μL del sobrenadante en dos tubos de microcentrífuga de bloqueo seguro de 1,5 ml utilizados para el análisis GC-MS y UHPLC-MS, respectivamente.
6. Concentre todas las fracciones extraídas dejando que los disolventes se evaporen sin calentar utilizando un concentrador de vacío y almacene a -80 °C.
  NOTA: Sobre la base de la experiencia, se recomienda a los usuarios que realicen el paso 4.2 para los metabolitos semipolares y el análisis de metabolitos derivatizados en semillas secas. Realice la etapa de extracción 4.1 para el análisis de lípidos de semillas secas.

5. Análisis de lípidos utilizando UHPLC-MS

Vuelva a suspender las fracciones lipídicas secas en 250 μL de acetonitrilo:2-propanol (7:3, vol/vol).
Sonicar la fase lipídica durante 5 min, centrifugar a 11.200 × g durante 1 min.
Transfiera 90 μL del sobrenadante a un vial de vidrio para LC-MS.
Inyectar 2 μL de los extractos en el LC-MS.
Realizar fraccionamiento lipídico en una columna C₈ de fase invertida mantenida a 60 °C corriendo con un flujo de 400 μL/min con cambios graduales de eluyente A y B como se muestra en la Tabla 1. Adquirir los espectros de masas en modo de ionización positiva con un rango de masas de 150-1.500 m/z.
Incluya varias muestras de control de calidad en todos los lotes diarios y un espacio en blanco para garantizar la corrección de la variación analítica. Aleatorice muestras en bloque en orden secuencial.

6. Análisis de metabolitos polares y semipolares utilizando UHPLC-MS

Vuelva a suspender la fase polar seca en 180 μL de metanol de grado UHPLC: agua (1:1 v/v).
Sonicar la fase polar durante 2 min, centrifugar a 11.200 × g durante 1 min.
Transfiera 90 μL del sobrenadante a un vial de vidrio para LC-MS.
Inyectar 3 μL de los extractos en el LC-MS.
Realizar fraccionamiento de metabolitos en una columna de fase inversa C₁₈ mantenida a 40 °C corriendo con un caudal de 400 μL/min con cambios graduales de eluyente A y B como se muestra en la Tabla 1. Adquirir los espectros de masas en un rango de masas de 100-1.500 m/z en un escaneo MS completo y toda la fragmentación iónica (AIF) inducida por disociación colisión (HCD) de alta energía de 40 keV.
NOTA: Utilice ambos modos de ionización. Sin embargo, debido a la capacidad limitada mientras se ejecuta un gran número de muestras, ejecute muestras de prueba en ambos modos de ionización para determinar el modo de ionización preferido.
Incluya varias muestras de control de calidad en todos los lotes diarios y un espacio en blanco para garantizar la corrección de la variación analítica. Aleatorice muestras en bloque en orden secuencial.
Ejecute un control de calidad agrupado en MS² dependiente de datos en los modos de ionización negativa y positiva. Utilice los espectros de masas obtenidos en un paso posterior (8.5) para la anotación.

7. Análisis de metabolitos derivatizados utilizando GC-MS^17,18

NOTA: El análisis de metabolitos derivatizados se basa en un protocolo previamente descrito¹⁷. Maneje todos los reactivos de derivatización en la campana de humos. Asegúrese de que la N-metil-N-(trimetilsilil)trifluoracetamida (MSTFA) no entre en contacto con el agua y la humedad.

Reactivo de derivatización 1 (DR1)
1. Disolver el clorhidrato de metoxiamina en piridina para obtener una concentración de 30 mg/ml de DR1. Utilice 40 μL de DR1 para cada muestra. Prepare una solución madre de acuerdo con el tamaño de la muestra y guárdela a temperatura ambiente.
Reactivo de derivatización 2 (DR2)
1. Disolver MSTFA con 20 μL de ésteres metílicos de ácidos grasos (FAMEE) por 1 mL de MSTFA. Utilice 70 μL de DR2 para cada muestra. Prepare una solución madre de acuerdo con el tamaño de la muestra. Conservar MSTFA a 4 °C y las FAMEEs a -20 °C.
  NOTA: Los FAME incluyen metilcaprilato, metil pelargonato, metilcapato, metillato, metilmirrato, metilpalmitato, metilestearato, metileicosanoato, metildocosanoato, éster metílico de ácido lignocérico, metilhexacosanoato, metiloctacosanoato y metiléster de ácido triacontanoico, que se disuelven en CHCl₃a una concentración de 0.8 μL / ml o 0.4 mg / ml para estándares líquidos o sólidos, respectivamente.
Vuelva a secar el pellet de la fase polar (almacenado a -80 °C) utilizando un concentrador de vacío durante 30 min para evitar cualquier interferencia de H₂O originada durante el almacenamiento con los disolventes utilizados para la derivatización aguas abajo.
Añadir 40 μL de DR1.
Agite las muestras a 950 × g durante 2 h a 37 °C con un agitador orbital, seguido de un giro corto del líquido.
Añadir 70 μL de DR2.
Agitar de nuevo a 950 × g durante 30 min a 37 °C con un agitador orbital.
Centrífuga brevemente a temperatura ambiente antes de transferir 90 μL a viales de vidrio para el análisis GC-MS.
Inyecte 1 μL al modo sin división GC-MS, dependiendo de las concentraciones de metabolitos, con un flujo constante de gas portador de helio de 2 ml / min. La temperatura de inyección se ajusta a 230 °C utilizando una columna capilar MDN-35 de 30 m.
NOTA: Información adicional, por ejemplo, gradiente de temperatura, se puede encontrar en la Tabla 1. El rango de masa se establece en 70-600 m/z con 20 escaneos/min. Incluir modos de división para permitir la cuantificación de compuestos de sobrecarga putativa, ahorrando costos y tiempo para la re-derivatización del extracto en tales casos.
Incluya varias muestras de control de calidad en todos los lotes diarios y un espacio en blanco para garantizar la corrección de la variación analítica. Aleatorice las muestras correctamente en bloque en orden secuencial.

8. Procesamiento de cromatogramas y anotación de compuestos

Filtre el ruido químico definiendo umbrales de intensidad. Incluya todas las muestras de control de calidad mientras procesa los cromatogramas.
NOTA: Para los datos a gran escala, el filtrado de ruido es crucial para disminuir el tiempo de cómputo y la potencia de procesamiento.
Alinee los cromatogramas definiendo una ventana de cambio de tiempo de retención. Compruebe los cromatogramas de cada lote para evaluar la variación intra e interconjunto.
Realice la detección de picos dependiendo de la forma del pico, por ejemplo, altura y anchura para cálculos de ancho completo a medio máximo (FWHM).
Isótopos de clúster para reducir las señales redundantes y filtrar los singletons.
NOTA: Consulte la Tabla de materiales para obtener detalles sobre el software utilizado para el procesamiento de cromatogramas. Se proporcionan protocolos detallados sobre cómo procesar cromatogramas utilizando varias herramientas de software disponibles gratuitamente, por ejemplo, MS-DIAL, MetAlign, MzMine y Xcalibur ^19,20,21.
Utilice los datos ddMS² de una muestra de control de calidad agrupada para la anotación de compuestos. Evaluar la estructura molecular determinando la masa monoisotópica y observando pérdidas neutras comunes, agliconas cargadas conocidas y diferentes tipos de escisiones, por ejemplo, homolíticas o heterolíticas^16,22.
Para reportar datos de metabolitos, siga la recomendación descrita en Fernie et al. 2011²³.
NOTA: Se pueden utilizar diferentes enfoques de metabolómica computacional para analizar datos de metabolómica 24,25,26.

9. Normalización del conjunto de datos de metabolómica a gran escala

Verifique la distribución de los estándares internos y normalice corrigiendo la respuesta de estándares internos únicos o múltiples.
Corrija las intensidades máximas obtenidas del cromatograma sobre el peso exacto de la muestra dividiendo las intensidades máximas por el peso de la muestra homogeneizada aludido del paso 2.5.
Correcto para la deriva de intensidad a través de series de varios lotes. Realice métodos de corrección basados en el control de calidad, como el suavizado de diagramas de dispersión estimado localmente (LOESS)²⁷ utilizando R.
NOTA: Hay varias herramientas y paquetes disponibles para abordar la deriva del rendimiento de MS durante la adquisición de todos los lotes^28,29.
Asegurar la distribución normal de rasgos por transformación de datos, por ejemplo, transformación^{Box-Cox 30} utilizando la función boxcox () del paquete R MASS para llevar a cabo GWAS.
Realizar escalado de datos, por ejemplo, escalado de Pareto, para análisis multivariante para garantizar un pesaje adecuado de compuestos de baja abundancia³¹.
NOTA: Si es posible, realice un ensayo de recuperación para evitar efectos de matriz, por ejemplo, supresión de iones¹⁴.

10. Estudios de asociación de todo el genoma (GWAS)³²

Llame polimorfismo de un solo nucleótido (SNP) o variantes estructurales (SV) a partir de los datos de secuenciación^33,34.
Filtrar datos genotípicos para frecuencia de alelos menores (MAF) < 5% y tasa faltante de >10% para evitar sesgos de baja frecuencia utilizando Tassel³⁵.
Calcule las mejores predicciones lineales imparciales (BLUP) para cada característica normalizada sobre las repeticiones experimentales para eliminar el sesgo originado por factores ambientales (efectos aleatorios) utilizando el paquete R Ime4³⁶.
Utilice BLUP de cada característica individualmente para realizar GWAS utilizando el paquete rMVP en R³⁷.
NOTA: Cada característica de metabolómica se ve aquí como un fenotipo independiente individual.
Al realizar GWAS, corrija la estructura de la población utilizando el análisis de componentes principales (PCA) y la identidad por estado (IBS) o vanRaden para minimizar los efectos de confusión. Además, considere el uso de un modelo lineal mixto (MLM) o un modelo mixto multilocus (MLMM), ya que los modelos mixtos contienen efectos fijos y aleatorios.

11. Detección de QTL

Verifique los SNP que muestran una asociación significativa, teniendo en cuenta las gráficas de Manhattan, para los cálculos de desequilibrio de vinculación (LD) para determinar la región genética subyacente. Realice cálculos de LD utilizando el mapa de calor LD del paquete R o Tassel 5.
Verifique los SNP asociados para el tamaño del efecto sobre el rasgo examinando los niveles de rasgo en busca de cambios estadísticos entre haplotipos para encontrar posibles SNP causales, por ejemplo, SNP que conducen a un cambio de aminoácidos en la secuencia codificante de proteínas, lo que podría explicar la variación fenotípica.
NOTA: Como lasasociaciones de rasgos S NP no necesariamente producen una asociación causal, es crucial determinar la región genómica. La identidad compuesta por anotación de características puede ayudar enormemente a encontrar los genes candidatos correctos en una región genómica específica. Sugerimos combinar todos los QTL detectados asociados con ciertos compuestos en un mapa pleiotrópico para subrayar las regiones genéticas³⁸, como se muestra en la Figura 4. Para la validación de los genes candidatos, se pueden realizar varios enfoques (ver la discusión).

Representative Results

Los experimentos exitosos de GWAS de metabolómica deben comenzar con un diseño experimental adecuado, seguido de la recolección, extracción, adquisición de datos y procesamiento de muestras, como se ilustra en la Figura 1. En este protocolo, se utilizó el método MTBE¹⁵ para extraer y analizar cientos de metabolitos pertenecientes a varias clases de compuestos. La cromatografía depende en gran medida de las propiedades de la columna utilizada, así como de las mezclas tampón de elución. La Figura 2 muestra cromatogramas de muestras de control de calidad, lo que indica el patrón de elución de algunas de las principales clases de lípidos en este sistema analítico. Los gradientes aplicados para cada plataforma se dan en la Tabla 1. Se hizo especial hincapié en el manejo de los errores sistémicos en experimentos a gran escala. La realización de metabolómica a gran escala está inherentemente asociada con errores sistémicos. Para la demostración, analizamos los datos lipidómicos de varias especies de frijoles comunes. La Tabla Suplementaria 1 proporciona los datos lipidómicos en bruto extraídos obtenidos después del procesamiento del cromatograma utilizando el software indicado en la Tabla de Materiales. Seguir este protocolo nos permitió eludir los principales problemas en el tratamiento de datos ómicos, especialmente al manejar grandes conjuntos de muestras. El procedimiento de normalización produce una corrección precisa de los errores analíticos por lotes, como se demuestra en la Figura 3. Aunque aumentar el número de muestras de control de calidad aumentaría la potencia de la normalización, esto no siempre es factible debido a las limitaciones de costo y tiempo. Para los GWAS metabolómicos de alto rendimiento con características metabólicas no dirigidas, es esencial ilustrar adecuadamente un mayor número de asociaciones rasgo-marcador. Un mapa pleiotrópico³⁸ que combine múltiples resultados de GWAS podría usarse para resaltar las regiones genómicas a las que están vinculados varios rasgos (Figura 4).

Figura 1: Diagrama de flujo del GWAS basado en metabolómica en plantas. Varios pasos desde el diseño experimental hasta la detección de QTL se muestran en el panel izquierdo. En el panel derecho, se muestran varias figuras para admitir varios pasos mencionados en el panel izquierdo. Comenzando desde la parte superior derecha, (1) se muestra una secuencia sugerida de muestras para LC-MS, (2) gráficos de puntuación pre y post-normalizados de PCA, incluyendo una distribución representativa de características pre y post-procesamiento, con intensidades de muestra de QC que indican rojo, y (3) un gráfico de Manhattan con asociaciones significativas a las que se generaron distribuciones de LD y haplotipos. Abreviaturas: GWAS = estudios de asociación de todo el genoma; QTL = loci de rasgos cuantitativos; PCA = análisis de componentes principales; QC = control de calidad; LD = desequilibrio de enlace; MS = espectrometría de masas; LC-MS = cromatografía líquida-espectrometría de masas; GC-MS = cromatografía de gases-espectrometría de masas; LOESS = suavizado de diagramas de dispersión estimado localmente; MLM/MLMM = modelo lineal mixto/modelo mixto multilocus. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Procesamiento de cromatogramas. Dos cromatogramas de control de calidad (pico base; datos de lípidos) de diferentes lotes demuestran la variación por lotes para ciertas clases de lípidos en las muestras de control de calidad agrupadas. Cuatro clases principales de lípidos están indicadas con sus respectivas ventanas de elución en el sistema LC-MS interno. Los cromatogramas se exportaron desde MzMine²¹. Abreviaturas: QC = control de calidad; LC-MS = cromatografía líquida-espectrometría de masas. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Corrección del error sistemático. Análisis de componentes principales de los datos lipidómicos adquiridos, pre- (izquierda, datos en bruto) y post-corrección de errores sistémicos (derecha, batch loess). Los paneles inferiores ilustran la distribución de características (Cluster_00005) sobre las muestras (n = 650) y lotes (n = 10) pre - (izquierda) y post (derecha) - corrección para la variación analítica. Abreviaturas: PCA = análisis de componentes principales; QC = control de calidad; LOESS = suavizado de diagramas de dispersión estimado localmente. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Mapa pleiotrópico que ilustra los resultados combinados de GWAS. El mapa pleiotrópico destaca regiones en todo el genoma que están asociadas con varios rasgos. Los números en los anillos externos indican los cromosomas correspondientes. Cada círculo representa un rasgo individual con sus SNP significativamente asociados. Los colores representan diferentes clases de compuestos (gris = clase compuesta 1; verde = clase compuesta 2; púrpura = clase compuesta 3; amarillo = clase compuesta 4). En el caso de asociaciones de clases intercompuestos con la misma región genómica, se destacan los genes. El círculo gris interno muestra la suma de todos los SNP significativos asociados con una posición genómica específica. Las asociaciones que se muestran en esta figura se generan artificialmente solo para ilustración. Abreviaturas: GWAS = estudios de asociación de todo el genoma; SNP = polimorfismos de un solo nucleótido. Haga clic aquí para ver una versión más grande de esta figura.

Configuración uhplc-MS para lípidos
Tiempo [min]	Eluyente A a B [%]*	Información
0 - 1.00	45% A	Eluyente A: 1% 1M NH_4-Acetato, 0.1% ácido acético en agua (grado UHPLC)
1.00 - 4.00	lg 45% - 25% A	Eluyente B: 1% 1M NH_4-Acetato, 0.1% ácido acético en acetonitrilo/2-propanol 7:3 (grado UHPLC)
4.00 - 12.00	lg 25% - 11% A	Caudal: 400 μL/min
12.00 - 15.00	lg 11% - 0% A	Volumen de inyección: 2 μL
15.00 - 19.50	cw 0% A
19.50-19.51	0% - 45% A
19.51-24.00	eq 45%
Ajustes UHPLC-MS/MS para metabolitos polares y semipolares
Tiempo [min]	Eluyente A y B [%]*	Información
0 - 1.00	99% A	Eluyente A: 0,1% de ácido fórmico en agua (grado UHPLC)
1.00 - 11.00	lg 99% -60% A	Eluyente B: ácido fórmico al 0,1% en acetonitrilo (grado UHPLC)
11.00 - 13.00	lg 60% - 30% A	Caudal: 400 μL/min
13.00 - 15.00	lg 30% - 1% A	Volumen de inyección: 3 μL
15.00 - 16.00	cw 1% A
16.00 - 17.00	lg 1% - 99% A
17.00 - 20.00	eq 99% A
Configuración de GC-MS para metabolitos derivatizados
Tiempo [min]	Temperatura [°C]	Información
0 - 2.00	85	Gas portador: Helio
2.00 - 18.66	lg 80 - 330	Caudal: 2 mL/min
18.66 - 24.66	cw 330	Gradiente de temperatura: 15 °C/min
24.66	enfriamiento rápido	Volumen de inyección: 1 μL

Tabla 1: Ajustes de gradiente para cada una de las plataformas analíticas⁷. Abreviaturas: lg = gradiente lineal; cw = lavado de columnas; eq = equilibrar; UHPLC-MS = cromatografía líquida de ultra alto rendimiento-espectrometría de masas; UHPLC-MS/MS = cromatografía líquida de ultra alto rendimiento-espectrometría de masas en tándem; GC-MS = cromatografía de gases-espectrometría de masas. * = valor porcentual corresponde al eluyente A; el valor porcentual restante corresponde al eluyente B.

Tabla suplementaria 1: Datos de lipidómica cruda. Indica las intensidades máximas para cada uno de los clústeres detectados en cada muestra. Haga clic aquí para descargar esta tabla.

Discussion

Tanto GC-MS como LC-MS son herramientas ampliamente utilizadas para perfilar mezclas complejas de varias clases de metabolitos. El manejo de grandes conjuntos de datos con estas herramientas está inherentemente asociado con una variación no biológica, por ejemplo, la variación analítica, que interfiere y sesga la interpretación de los resultados. Este protocolo presenta una tubería de extracción robusta y de alto rendimiento para perfiles metabólicos integrales para eliminar la variación del origen no biológico y realizar estudios "ómicos" a gran escala. Los volúmenes y concentraciones utilizados en este protocolo se ajustaron para las especies de leguminosas en diferentes tejidos. Sin embargo, estos parámetros también pueden modificarse ligeramente y utilizarse para muestras metabólicas a gran escala de otras especies de plantas.

Las¹⁵ extracciones basadas en MTBE descritas anteriormente se pueden usar para analizar metabolitos derivados, metabolitos semipolares y lípidos. Esto se puede ampliar para las extracciones de proteínas y hormonas vegetales³⁹, que estaban fuera del alcance de este protocolo. Otros protocolos de extracción se basan en mezclas diclorometano:etanol^40,41. De estos protocolos de extracción, el protocolo de extracción MTBE:metanol proporciona una alternativa favorable y menos peligrosa a los protocolos de extracción existentes a base de cloroformo⁴² y no da como resultado un pellet de proteína como interfase entre las fases polar y lipídica. Además, los métodos MTBE ya se han utilizado en varios estudios para diversas muestras biológicas 43,44,45.

Este protocolo discute varios pasos cruciales que podrían conducir a una variación potencial mientras se maneja una gran cantidad de muestras, por ejemplo, durante la cosecha^12,13, la extracción¹⁴, así como la aleatorización⁴⁶. Además, hay cuestiones adicionales que no se han discutido en este protocolo que deben considerarse para garantizar datos metabolómicos de alta calidad, por ejemplo, el efecto de matriz y la supresión de iones¹⁴.

El poder de los métodos de normalización basados en el control de calidad depende inherentemente del número de muestras de control de calidad en cada lote. Como se mencionó anteriormente, aunque aumentar el número aumentaría la potencia, la variación intra-lote de los QC es relativamente marginal en comparación con la variación entre lotes en estos sistemas analíticos, como se ilustra en la Figura 3. En general, existen otros métodos de normalización basados en el control de calidad, como la eliminación de errores sistémicos mediante bosque aleatorio (SERRF), que han demostrado superar a la mayoría de los otros métodos de normalización, como la relación por lotes, la normalización mediante una selección óptima de múltiples estándares internos (NOMIS) y la normalización probabilística del cociente (PQN)⁴⁷ . Sin embargo, SERRF se basa en múltiples muestras de control de calidad en cada lote, por ejemplo, cada décima muestra, lo que no es factible mientras se maneja un gran número de muestras. La principal ventaja de la normalización basada en el control de calidad sobre otros métodos basados en datos o basados en estándares internos es que conserva la variación biológica esencial al tiempo que acomoda la variación técnica no deseada²⁸. Los lectores pueden consultar esta revisión sobre el manejo de la variación²⁸.

Un problema principal en GWAS es la tasa de falsos positivos, que se originan principalmente debido a la vinculación de sitios causales y no causales^48,49. En segundo lugar, los enfoques conservadores de corrección estadística, por ejemplo, Bonferroni y FDR, corrigen el número de pruebas independientes, que no es igual al número de SNP ensayados en GWAS debido a la vinculación entre SNP próximos^50,51 Por lo tanto, el número real de pruebas independientes es a menudo menor. Otra forma de reducir el umbral estadístico conservador sería reducir el número de SNP probados utilizados para GWAS basados en la desintegración de enlaces en regiones genómicas definidas⁵². La plataforma de metabolómica de alto rendimiento integrada en GWAS descrita en este protocolo tiene una amplia gama de aplicaciones. En particular, facilitará las mejoras en el mejoramiento de cultivos al cambiar la composición de metabolitos / lípidos para los niveles deseados industrial y nutricionalmente. En general, la metabolómica ha proporcionado una visión profunda de la arquitectura genética de una gran cantidad de metabolitos y diversificación metabólica que ocurrieron durante la domesticación de cultivos en las últimas décadas, lo que indica el vasto potencial de la reproducción asociada a la metabolómica⁵³. Los enfoques biológicos moleculares para la validación QTL aguas abajo incluyen la generación de líneas mutantes CRISPR/Cas9⁵⁴, líneas de inserción de ADN-T⁵⁵, líneas de sobreexpresión estables y/o transitorias⁵⁶, VIGS, enfoques metabolómicos ex vivo ⁵⁷ junto al enfoque convencional en la generación de poblaciones F2 cruzadas, así como validación cruzada en diferentes poblaciones.

Al realizar la corrección necesaria para las variaciones analíticas descritas anteriormente, se pueden realizar varios enfoques integrados además de GWAS, como el análisis de correlación metabolito-metabolito, metabolito-lípido, el análisis de correlación con datos fenómicos para arrojar luz sobre rasgos más complejos y / o el análisis de coexpresión para desentrañar aún más la base de los sistemas biológicos⁵⁸.

Disclosures

Los autores no tienen conflictos de intereses que declarar.

Acknowledgments

M.B. cuenta con el apoyo del IMPRS-PMPG 'Metabolismo Primario y Crecimiento de las Plantas'. A.R.F. y S.A. reconocen el apoyo financiero del Programa de Investigación e Innovación Horizonte 2020 de la UE, el proyecto PlantaSYST (SGA-CSA No. 739582 bajo FPA No. 664620) y el proyecto INCREASE (GA 862862).

Materials

Name	Company	Catalog Number	Comments
Reagents and standards
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC)	Avanti Polar Lipids	850360P	Internal standard for lipids
Chloroform	Supleco	67-66-3	FAME solvent
Isovitexin	Sigma Aldrich	38953-85-4	Internal standard for metabolites
Lignoceric Acid Methylester	Sigma Aldrich	2442-49-1	FAME
Methanol (MeOH)	Biosolve Chemicals	13684102	ULC-MS grade
Methoxyamin -hydrochlorid	Sigma Aldrich	593-56-6	Metabolite deriviatization
Methyl laurate	Sigma Aldrich	111-82-0	FAME
Methyl myristate	Sigma Aldrich	124-10-7	FAME
Methyl palmitate	Sigma Aldrich	112-39-0	FAME
Methyl stearate	Sigma Aldrich	112-61-8	FAME
Methyl tert-butyl ether (MTBE)	Biosolve Chemicals	13890602	HPLC grade
Methyl-caprat	Sigma Aldrich	110-42-9	FAME
Methylcaprylat	Sigma Aldrich	111-11-5	FAME
Methyldocosanoat	Sigma Aldrich	929-77-1	FAME
Methyleicosanoat	Sigma Aldrich	1120-28-1	FAME
Methyl-hexacosanoat	Sigma Aldrich	5802-82-4	FAME
Methyl-octacosanoat	Sigma Aldrich	55682-92-3	FAME
Methyl-pelargonate	Sigma Aldrich	1731-84-6	FAME
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA)	Macherey-Nagel	24589-78-4	Metabolite deriviatization
Pyridine	Supleco	110-86-1	Metabolite deriviatization
Ribitol	Supleco	22566-17-2	Internal standard for derivatized metabolites
Triacontanoic Acid Methyl Ester	TCI Chemicals	629-83-4	FAME
Water	Biosolve Chemicals	23214102	ULC-MS grade
Equipment
1.5 mL Safe-lock microcentrifuge tubes	Eppendorf	3120086
2 mL Safe-lock microcentrifuge tubes	Eppendorf	3120094
Balance	Sartorius Corporation	14 557 572
DB-35ms, 30 m, 0,25 mm, 0,25 µm	Aglient	123-3832	Analysis of derivatized metabolites
GC-MS system	Leco Pegasus HT TOF-MS (LECO Corporation)		Analysis of derivatized metabolites
Grinding Balls, Stainless Steel	OPS DIAGNOSTICS	GBSS 196-2500-10
MS system	Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific)		Analysis of lipids
MS system	Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™ Massenspektrometer, Thermo Fisher Scientific)		Analysis of metabolites
Refrigerated microcentrifuge	Eppendorf, model 5427R	22620701
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column (100 mm × 2.1 mm containing 1.7 μm diameter particles)	Waters	186002878	Analysis of lipids
RP High Strength Silica (HSS) T3 column (100 mm × 2.1 mm containing 1.8 μm diameter particles)	Waters	186003539	Analysis of metabolites
Shaker	Eppendorf Thermomixer 5436	2050-100-05
Sonicator	USC 300 TH	142-0084
Tissue grinding mixer mill	Retsch, Mixer Mill MM 300	20.746.0001
UPLC system	Waters Acquity UPLC system (Waters)
Vacuum concentrator	Scan Speed Maxi Vac Alpha Evaporators	7.008.500.002
Vortex mixer	Vortex-Genie 2, Model G560	SI-0236
Software
MetAlign			Chromatogram processing
MzMine			Chromatogram processing
R package "data.table"
R package "fujiplot"			pleiotrpoic map
R package "genetics"
R package "Ime4"			BLUPs calculation
R package "LDheatmap"			LD plots
R package "MASS"			transformation
R package "rMVP"			GWAS
R version 4.0.4
RefinerMS			Chromatogram processing
RefinerMS Genedata	Expressionist		Chromatogram processing
Tassel 5			Genotype filtering
Xcalibur	Thermo Fisher Scientific	OPTON-30965	Chromatogram processing