Genetics

Ett pathway association-studieverktyg för GWAS-analyser av information om metaboliska vägar

Published: July 1, 2020 doi: 10.3791/61268

¹Institute for Genomics, Biocomputing & Biotechnology, Mississippi State University, ²Corn Host Plant Resistance Research Unit, USDA-ARS

ERRATUM NOTICE

Important: There has been an erratum issued for this article. Read more …

Summary

Genom att köra Pathway Association Study Tool (PAST), antingen genom Shiny-applikationen eller genom R-konsolen, kan forskare få en djupare förståelse för den biologiska betydelsen av deras genomomfattande associationsstudie (GWAS) resultat genom att undersöka de metaboliska vägarna.

Abstract

Nyligen har en ny implementering av en tidigare beskriven metod för tolkning av genomomfattande associationsstudiedata (GWAS) med hjälp av metabolisk väganalys utvecklats och släppts. Pathway Association Study Tool (PAST) utvecklades för att ta itu med problem med användarvänlighet och långsamma analyser. Detta nya användarvänliga verktyg har släppts på Bioconductor och Github. I tester körde PAST analyser på mindre än en timme som tidigare krävde tjugofyra eller fler timmar. I den här artikeln presenterar vi protokollet för att använda antingen Shiny-programmet eller R-konsolen för att köra PAST.

Introduction

Genomomfattande associationsstudier (GWAS) är en populär metod för att studera komplexa egenskaper och de genomiska regionerna associerade med dem¹^,²^,³. I denna typ av studie testas hundratusentals single nucleotide polymorphism (SNP) markörer för deras associering med egenskapen, och betydelsen av föreningarna bedöms. Markördragsassociationer som uppfyller tröskelvärdet för falsk identifieringshastighet (FDR) (eller någon annan typ av signifikanströskel) behålls för studien, men sanna associationer kan filtreras bort. För komplexa, polygena egenskaper kan effekten av varje gen vara liten (och därmed filtrerad ut), och vissa alleler uttrycks endast under specifika förhållanden som kanske inte finns i studien³. Således, medan många SNPs kan behållas som associerade med egenskapen, kan var och en ha en mycket liten effekt. Alltför många SNP-samtal kommer att saknas, och en tolkning av egenskapens biologiska betydelse och genetiska arkitektur kan vara ofullständig och förvirrande. Metabolisk väganalys kan hjälpa till att ta itu med några av dessa problem genom att fokusera på de kombinerade effekterna av gener grupperade enligt deras biologiska funktion⁴^,⁵^,⁶.

Flera studier slutfördes med hjälp av en tidigare implementering av den metod som beskrivs i denna artikel. Aflatoxin^{ackumulering 7,}majs öronmask^{motstånd 8}, och olja biosyntes⁹ studerades alla med föregående genomförande. Även om dessa analyser var framgångsrika var analysprocessen komplicerad, tidskrävande och besvärlig, eftersom analysverktygen skrevs i en kombination av R, Perl och Bash, och pipelinen inte automatiserades. På grund av den specialiserade kunskap som krävs för att modifiera denna metod för varje analys har en ny metod nu utvecklats som kan delas med andra forskare.

Pathway Association Study Tool (PAST)^{10 utformades} för att åtgärda bristerna i den tidigare metoden genom att kräva mindre kunskaper i programmeringsspråk och genom att köra analyser på kortare tid. Metoden testades med majs, men PAST gör inga artspecifika antaganden. PAST kan köras via R-konsolen, som en Shiny-app, och en onlineversion förväntas snart vara tillgänglig på MaizeGDB.

Protocol

1. Inställningar

Installera R om det inte redan är installerat.
OBS: TIDIGARE är skrivet i R och kräver därför att användarna har R installerat. Vid skrivandet kräver installation av PAST direkt från Bioconductor R4.0. Äldre versioner av PAST kan installeras från Bioconductor för R3.6, och PAST kan installeras från Github för användare med R3.5. R installationsinstruktioner kan laddas ner från följande länk: https://www.r-project.org/.
Installera den senaste versionen av RStudio Desktop eller uppdatera RStudio (valfritt).
RStudio är en användbar miljö för att arbeta med R-språket. Dess installation rekommenderas, särskilt för dem som väljer att köra PAST på kommandoraden snarare än genom Shiny GUI-programmet. RStudio och dess installationsinstruktioner finns på följande länk: https://rstudio.com/products/rstudio/.
Installera PAST från Bioconductor¹¹ genom att följa anvisningarna på Bioconductor.
OBS: Installation via Bioconductor bör hantera installationen av PAST:s beroenden. Dessutom kan PAST installeras från Github¹², men att installera från Github kommer inte att installera beroenden automatiskt.
Installera PAST Shiny (tillval). Ladda ner filen "app. R" från sidan Utgåvor i Github-databasen: https://github.com/IGBB/PAST/releases/ och kom ihåg var den nedladdade filen finns.
OBS: TIDIGARE kan användas genom att anropa sina metoder direkt med R, men användare som är mindre bekanta med R kan köra PAST Shiny-programmet, som ger ett guidat användargränssnitt. PAST Shiny är ett R-skript som är tillgängligt shiny_app grenen av PAST Github-lagringsplatsen. PAST Shiny kommer att försöka installera sina beroenden under den första körningen.
Börja analysen genom att starta programmet på ett av de tre sätten som beskrivs nedan.
1. PAST Shiny med RStudio
  1. Med RStudio skapar du ett nytt projekt i mappen där appen. R är lokaliserad. Klicka på | Nytt projekt och välj den mappen.
  2. När ett nytt projekt har skapats öppnar du appen. R-filen har hämtats tidigare. RStudio känner igen den appen. R är en Glänsande app och skapar knappen Kör app i fältet ovanför den visade källkoden. Klicka på Kör app. RStudio startar sedan ett fönster som visar PAST Shiny-applikationen.
2. PAST Glänsande med R-konsol
  1. Starta R och kör följande kod för att starta PAST Shiny-programmet: glänsande::runApp('path/to/folder/with/shiny/app. R'. Ersätt texten i citattecken med mappen som appen. R laddades ner och håll citaten.
3. TIDIGARE utan R Shiny
  1. Kör biblioteket (PAST) i en R-konsol för att läsa in TIDIGARE.

2. Anpassa glänsande analys (valfritt)

Ändra analystiteln från "Ny analys" till något som bättre återspeglar vilken typ av analys som körs som hjälper till att hålla reda på flera analyser (se figur 1).

Bild 1. Klicka här för att se en större version av den här figuren.

Ändra antalet kärnor och läget. Ange antalet kärnor till valfritt tal mellan 1 och det totala antalet på datorn, men var medveten om att om du ägnar mer resurser åt PAST kan andra åtgärder på datorn bromsas. Ställ in läget baserat på beskrivningen i avsnitt 6.

3. Ladda GWAS-data

Kontrollera att GWAS-data är tab-avgränsade. Kontrollera att associationsfilen innehåller följande kolumner: egenskap, markörnamn, locus eller kromosom, placering på värdet kromosom, p-värde och R² för markören. Kontrollera att effektfilen innehåller följande kolumner: egenskap, markörnamn, locus eller kromosom, placering på kromosomen och effekt. Ordningen på dessa kolumner är inte viktig, eftersom användaren kan ange namnen på kolumnerna när data läses in. Ytterligare kolumner ignoreras. TOFS¹³ kan användas för att producera dessa filer.

Ladda GWAS-data med PAST Shiny.
1. Markera en associationsfil och en effektfil med hjälp av urvalsrutorna Associationsfil och Effekter-fil. Ändra kolumnnamnen i kolumnnamn och effektkolumner Namnrutorna under filmarkeringsrutorna så att de återspeglar kolumnnamnen i data.

Bild 2. Klicka här för att se en större version av den här figuren.

Läs in GWAS-data med TIDIGARE i R-konsolen.
1. Ändra och kör följande kod:
  gwas_data = load_GWAS_data("sökväg/till/association_file.tsv", "sökväg/till/effects_file.tsv", association_columns = c("Egenskap", "Markör", "Locus", "Plats", "p", "marker_R2"), effects_columns = c("Egenskap", "Markör", "Locus", "Plats", "Effekt")
Ändra sökvägarna till den faktiska platsen för GWAS-filerna. De värden som anges association_columns effects_columns är standardvärdena. Om namnen inte matchar standardvärdena anger du kolumnnamnen. Annars kan dessa utelämnas.

4. Belastningslänkning disequilibrium (LD) data

OBS: Kontrollera att LD-data (Linkage Disequilibrium) är tabbavgränsade och innehåller följande typer av data: Locus, Position1, Site1, Position2, Site2, Avstånd i baspar mellan position1 och position2 och R^2-värde.

Ladda LD-data med PAST Shiny.
1. Markera filen som innehåller LD-data. Ändra kolumnnamnen i inmatningsrutorna för LD-kolumnnamn under rutan för filmarkering för att matcha kolumnnamnen i LD-data om det behövs.

Bild 3. Klicka här för att se en större version av den här figuren.

Läs in LD-data med TIDIGARE i R-konsolen.
1. Ändra och kör följande kod för att läsa in LD-data:
  LD = load_LD("path/to/LD.tsv", LD_columns = c("Locus1", "Position1", "Site1", "Position2", "Site2", "Dist_bp", "R.2")
  Ändra sökvägen till den faktiska platsen för LD-filen. De värden som anges LD_columns är standardvärdena. Om namnen inte matchar dessa standardvärden anger du rätt namn på kolumnerna. Annars kan dessa utelämnas.

5. Tilldela SNPs till gener

Obs: Ladda ner eller på annat sätt hitta anteckningar i GFF-format. Dessa anteckningar finns ofta i onlinedatabaser för specifika organismer. Var försiktig med kommentarer av låg kvalitet, eftersom kvaliteten på anteckningsdata kommer att påverka kvaliteten på väganalysen. Bekräfta att den första kolumnen i dessa anteckningar (kromosomen) matchar locus/kromosomens format i associerings-, effekt- och LD-data. Anteckningarna bör till exempel inte kalla den första kromosomen "chr1" om GWAS- och LD-datafilerna anropar den första kromosomen "1".

Tilldela SNPs till gener med PAST Shiny.
OBS: Mer information om att bestämma en lämplig R^2-cutoff finns i Tang et al.⁶, i avsnittet som kallas "SNP till genalgoritm för väganalysen".
1. Markera filen som innehåller GFF-anteckningar. Tänk på vilken fönsterstorlek och R^2-cutoff som är mest lämplig för de arter som övervägs och ändra om standardvärdena inte passar de uppladdade data.
  Obs: Standardvärden i TIDIGARE återspeglar i första hand värden som är lämpliga för majs. Antalet kärnor som anges i början av PAST Shiny-analysen (steg 2.2) används i det här steget.

Bild 4. Klicka här för att se en större version av den här figuren.

Tilldela SNPs till gener med TIDIGARE i R-konsolen.
1. Ändra och kör följande kod för att tilldela SNPs till gener:
  gener = assign_SNPs_to_genes(gwas_data, LD, "path/to/annotations.gff", c("gene"), 1000, 0.8, 2)
  OBS: I den här exempel koden ges flera standard förslag: 1000 är storleken på fönstret runt SNP för att söka efter gener; 0,8 är brytvärdet för R^2; 2 är antalet kärnor som används för parallell bearbetning. Sökvägen till anteckningarna bör också ändras till den faktiska platsen för anteckningsfilen.

6. Upptäck betydande vägar

OBS: Kontrollera att vägfilen innehåller följande data i tabbavgränsat format, med en rad för varje gen i varje väg: väg-ID - en identifierare som "PWY-6475-1"; vägbeskrivning - en längre beskrivning av vad vägarna gör, såsom "trans-lykopenbiosyntes"; gen - en gen i vägen, som ska matcha namnen som anges i anteckningarna. Information om vägar finns sannolikt i onlinedatabaser för specifika organismer, såsom MajsGDB. Det andra användarspecificerade alternativet är läget. "Öka" avser fenotyper som reflekterar när ett ökande värde på det uppmätta attributet är önskvärt, såsom utbyte, medan "minska" hänvisar till ett drag där en minskning av de uppmätta värdena är fördelaktig, såsom insektsskador. Betydelsen av vägar testas med hjälp av tidigare beskrivna metoder⁴^,⁶^,¹⁴.

Upptäck betydande vägar med PAST Shiny.
1. Markera filen som innehåller vägdata och se till att läget är markerat i analysalternativen. Vid behov, ändra antalet gener som måste vara i en väg för att behålla den för analysen och antalet permutationer som används för att skapa nollfördelningen för att testa effektens betydelse.

Figur 5. Klicka här om du vill visa en större version av den här figuren.

OBS: Antalet kärnor och det läge som ställts in i början av PAST Shiny-analysen (steg 2.2) används i det här steget. Standardvärdet av gener är för närvarande satt till 5 gener, så vägar med färre kända gener kommer att tas bort. Användaren kan sänka detta värde till 4 eller 3, för att inkludera kortare vägar, men att göra det kommer att riskera falska positiva resultat. Att öka detta värde kan öka analysens kraft men tar bort fler vägar från analysen. Om du ändrar antalet permutationer som används ökar och minskar testets effekt.

Upptäck viktiga vägar med TIDIGARE i R-konsolen.
1. Ändra och kör följande kod för att identifiera viktiga vägar:
  rugplots_data <- find_pathway_significance(gener, "path/to/pathways.tsv", 5, "increasing", 1000, 2)
  I den här exempel koden anges flera föreslagna standardvärden. 5 är det minsta antalet gener som måste finnas i en väg för att hålla vägen i analysen, ökande avser en ökande mängd av det uppmätta drag (det rekommenderas att användaren kör både ökande och minskande, oavsett drag; datatolkning kommer dock att skilja sig åt för de två), 1000 är antalet gånger för att prova effekterna för att bestämma nollfördelningen, och 2 är antalet kärnor som används för parallell bearbetning. Ändra sökvägen till den faktiska platsen för sökvägsfilen.

7. Visa Rugplots

Visa Rugplots med PAST Shiny.
1. När alla indata har laddats upp och ställts in klickar du på Börja analysera. En förloppsindikator visas och anger vilket steg i analysen som senast slutfördes. När analysen är klar växlar PAST Shiny till fliken Resultat. En resultattabell visas i den vänstra kolumnen (märkta "vägar") och Rugplots visas i den högra kolumnen (märkta "tomter").
2. Använd skjutreglaget för att styra filtreringsparametrarna. När filtreringsnivån är tillfredsställande klickar du på knappen Hämta resultat längst ned till vänster för att hämta alla bilder och tabeller individuellt till en ZIP-fil som namnges med analystiteln. Den här ZIP-filen innehåller den filtrerade tabellen, den ofiltrerade tabellen och en bild per väg i den filtrerade tabellen.

Bild 6. Klicka här för att se en större version av den här figuren.

Bild 7.

Visa Rugplots med TIDIGARE i R-konsolen
1. Ändra och kör följande kod för att spara resultaten:
  plot_pathways(rugplots_data, "pvalue", 0,02, "ökande", "output_folder")
  I den här exempel koden anges flera föreslagna standardvärden. pvalue tillhandahåller de data som kan användas för filtrering av obetydliga vägar efter det att användaren valt ett tröskelvärde för betydelse. 0.02 är standardvärdet som används vid filtrering, och att öka avser en ökande mängd av det uppmätta egenskapen (det rekommenderas att användaren kör både ökande och minskande, oavsett drag; datatolkning kommer dock att skilja sig åt för de två). output_folder är mappen där bilderna och tabellerna kommer att skrivas (den här mappen måste finnas innan funktionen körs). En tabell med filtrerade resultat, ofiltrerade resultat och enskilda bilder för varje sökväg i de filtrerade resultaten skrivs till den här mappen.

Representative Results

Om resultaten inte produceras efter en körning av verktyget PAST-programvara kontrollerar du att alla indatafiler är korrekt formaterade. En lyckad körning med exempeldata i PAST-paketet, som baseras på en majs GWAS med kornfärg, visas i figur 8. Den här tabellen och den resulterande bilden kan hämtas med knappen Hämta resultat. Ett exempel på den nedladdade bilden visas i figur 2¹⁰. Felaktiga inställningar kan leda till resultat som inte är biologiskt meningsfulla, men att fastställa felaktighet måste vara upp till forskaren, som bör dubbelkolla giltigheten hos de valda inställningarna och överväga alla kända bevis om intressedrag.

Figur 9¹⁰ visar den rugplot som framställts av väganalysen av GWAS-resultat som skapats med en majspanel med 288 inavlade linjer som hade fenotypats för kornfärg. Detta förenklade exempel, där fenotyperna var antingen "vita" eller "gula", användes eftersom den väg som ansvarar för att skapa de ljusgula karotenoidpigmenten är känd och bör vara ansvarig för det mesta av fenotypen. Således förväntade vi oss att se trans-lykopen biosyntesvägen (som producerar karotenoider) vara betydligt förknippad med kornfärg, vilket det är. Väg-ID och namn visas högst upp i diagrammet. Grafens horisontella axel rangordnar alla gener som ingick i analysen, ordnade från vänster till höger i ordning efter största effekt på egenskapen till minsta. Men endast generna i trans-lykopen biosyntesvägen är markerade (högst upp i diagrammet, som kläckmärken, som förekommer i genen rangordnar av deras verkställer som jämförs till alla andra gener i analysen). Det finns 7 gener på den här vägen. Den löpande anrikningspoängen (ES) ritas längs den lodräta axeln. ES för varje gen läggs till i den löpande totalsumman i effektordning och summan justeras till antalet analyserade gener. Således ändras poängen när man rör sig längs den horisontella axeln och tenderar att öka när de större effektgenerna ingår, men vid någon tidpunkt är ökningen av effekten mindre än justeringen för att ha lagt till en annan gen, och hela poängen börjar minska. Toppen av den löpande ES-linjen är markerad med en prickad lodrät linje. Detta är ES för hela vägen och används av programmet för att avgöra om vägen väljs och presenteras som en rugplot.

Bild 8:Slutförd körning av PAST Shiny. Klicka här för att se en större version av den här figuren.

Bild 9:Utbildningsplatsbild från slutförd körning av TIDIGARE (eller nedladdad från Shiny). Denna siffra har citerats från Thrash et al.¹⁰. Klicka här om du vill visa en större version av den här figuren.

Discussion

Ett primärt mål med PAST är att föra metaboliska väganalyser av GWAS-data till en bredare publik, särskilt för icke-mänskliga och icke-animaliska organismer. Alternativa metoder till TIDIGARE är ofta kommandoradsprogram som fokuserar på människor eller djur. Användarvänlighet var ett primärt mål i utvecklingen av PAST, både i att välja att utveckla en Shiny-applikation och att välja att använda R och Bioconductor för att släppa applikationen. Användare behöver inte lära sig att kompilera program för att använda PAST.

Som med de flesta typer av analysprogramvara är resultaten av PAST bara lika bra som indata; Om indata har fel eller är felaktigt formaterade kommer PAST inte att kunna köra eller ge oinformativa resultat. Att se till att GWAS-data, LD-data, anteckningar och vägfiler är korrekt formaterade är avgörande för att ta emot korrekt utdata från TIDIGARE. PAST analyserar bara bi-allelic markörer och kan bara köra ett drag för varje uppsättning indata. Dessutom är GWAS-data som produceras av dålig genotypning eller felaktig eller oprecis fenotypning sannolikt inte heller att ge tydliga eller repeterbara resultat. TIDIGARE kan bidra till den biologiska tolkningen av GWAS-resultat, men det är osannolikt att det kommer att klargöra kaotiska datamängder om miljövariationer, experimentella fel eller befolkningsstruktur inte redovisats korrekt.

Användare kan välja att ändra vissa parametrar för analysen, både i Shiny-programmet och genom att skicka dessa parametrar till PAST:s funktioner i R-konsolen. Dessa parametrar kan ändra resultaten som rapporteras av PAST, och användare bör vara försiktiga när de ändrar dessa från standardvärdena. Eftersom LD mäts av användarna, vanligtvis med samma markördatauppsättning som också användes i GWAS, är LD-mätningarna specifika för populationen. För alla studier, särskilt för andra arter än majs (särskilt självbestämande, polyploida eller hög heterogena arter), kan det vara motiverat att ändra standardvärdena.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Ingen.

Materials

Name	Company	Catalog Number	Comments
Computer	NA	NA	Any computer with 8GB RAM should be sufficient
R	R Project	NA	R 4.0 or greater is required to install from Bioconductor 3.11

DOWNLOAD MATERIALS LIST

References

Rafalski, J. Association genetics in crop improvement. Current Opinion in Plant Biology. 13 (2), 174-180 (2010).
Yan, J., Warburton, M., Crouch, J. Association Mapping for Enhancing Maize (Zea mays L.) Genetic Improvement. Crop Science. 51 (2), 433-449 (2011).
Xiao, Y., Liu, H., Wu, L., Warburton, M., Yan, J. Genome-wide Association Studies in Maize: Praise and Stargaze. Molecular Plant. 10 (3), 359-374 (2017).
Wang, K., Li, M., Bucan, M. Pathway-Based Approaches for Analysis of Genomewide Association Studies. The American Journal of Human Genetics. 81 (6), 1278-1283 (2007).
Weng, L., et al. SNP-based pathway enrichment analysis for genome-wide association studies. BMC Bioinformatics. 12 (1), 99 (2011).
Tang, J., Perkins, A., Williams, W., Warburton, M. Using genome-wide associations to identify metabolic pathways involved in maize aflatoxin accumulation resistance. BMC Genomics. 16 (1), 673 (2015).
Warburton, M., et al. Genome-Wide Association Mapping of Aspergillus flavus and Aflatoxin Accumulation Resistance in Maize. Crop Science. 55 (5), 1857-1867 (2015).
Warburton, M., et al. Genome-Wide Association and Metabolic Pathway Analysis of Corn Earworm Resistance in Maize. The Plant Genome. 11 (1), 170069 (2018).
Li, H., Thrash, A., Tang, J., He, L., Yan, J., Warburton, M. Leveraging GWAS data to identify metabolic pathways and networks involved in maize lipid biosynthesis. The Plant Journal. 98 (5), 853-863 (2019).
Thrash, A., Tang, J., DeOrnellis, M., Peterson, D., Warburton, M. PAST: The Pathway Association Studies Tool to Infer Biological Meaning from GWAS Datasets. Plants. 9 (1), 58 (2020).
Adam, T., Mason, D. PAST: Pathway Association Study Tool (PAST). Bioconductor version: Release (3.10). , (2020).
Thrash, A., DeOrnellis, M. IGBB/PAST. , at https://github.com/IGBB/PAST (2019).
Bradbury, P., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
Subramanian, A., et al. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences U.S.A. 102, 15545-15550 (2005).

Erratum

Formal Correction: Erratum: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information
Posted by JoVE Editors on 10/08/2021. Citeable Link.

An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.

The second affiliation was updated from:

USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University

to:

Corn Host Plant Resistance Research Unit, USDA-ARS

Genetics

Ett pathway association-studieverktyg för GWAS-analyser av information om metaboliska vägar

ERRATUM NOTICE

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Erratum

Cite this Article

ERRATUM NOTICE

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Erratum

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.