Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease

Allison A. Dilliott; Sali M.K. Farhan; Mahdi Ghani; Christine Sato; Eric Liang; Ming Zhang; Adam D. McIntyre; Henian Cao; Lemuel Racacho; John F. Robinson; Michael J. Strong; Mario Masellis; Dennis E. Bulman; Ekaterina Rogaeva; Anthony Lang; Carmela Tartaglia; Elizabeth Finger; Lorne Zinman; John Turnbull; Morris Freedman; Rick Swartz; Sandra E. Black; Robert A. Hegele

doi:10.3791/57266

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

Riktade nästa generations sekvensering och bioinformatik Pipeline för att utvärdera genetiska determinanter av konstitutionella sjukdom

Published: April 04, 2018

doi:

10.3791/57266

Allison A. Dilliott², Sali M.K. Farhan, Mahdi Ghani, Christine Sato, Eric Liang, Ming Zhang, Adam D. McIntyre, Henian Cao, Lemuel Racacho⁷, John F. Robinson, Michael J. Strong⁸, Mario Masellis¹⁰, Dennis E. Bulman⁷, Ekaterina Rogaeva, Anthony Lang¹¹, Carmela Tartaglia¹⁰, Elizabeth Finger¹³, Lorne Zinman, John Turnbull, Morris Freedman¹⁵, Rick Swartz, Sandra E. Black¹⁶, Robert A. Hegele²

¹Robarts Research Institute, Schulich School of Medicine and Dentistry,Western University, ²Department of Biochemistry, Schulich School of Medicine and Dentistry,Western University, ³Analytic and Translational Genetics Unit, Center for Genomic Medicine,Harvard Medical School, Massachusetts General Hospital, Stanley Centre for Psychiatric Research, Broad Institute of MIT and Harvard, ⁴Tanz Centre for Research in Neurodegenerative Diseases,University of Toronto, ⁵School of Medicine, Faculty of Health Sciences,Queen’s University, ⁶Faculty of Medicine, Department of Biochemistry, Microbiology and Immunology,University of Ottawa, ⁷CHEO Research Institute, Faculty of Medicine,University of Ottawa, ⁸Department of Clinical Neurological Sciences,Western University, ⁹Division of Neurology, Department of Medicine, Sunnybrook Health Sciences Centre,University of Toronto, ¹⁰Division of Neurology, Department of Medicine,University of Toronto, ¹¹Morton and Gloria Shulman Movement Disorders Centre,Toronto Western Hospital, ¹²Department of Clinical Neurological Sciences, Schulich School of Medicine and Dentistry,Western University, ¹³Parkwood Institute,St. Joseph’s Health Care, ¹⁴Department of Medicine, Division of Neurology,McMaster University, ¹⁵Division of Neurology, Department of Medicine,Baycrest Health Sciences, ¹⁶Canadian Partnership for Stroke Recovery Sunnybrook Site, Sunnybrook Health Science Centre,University of Toronto

Summary

Riktade nästa generations sekvensering är en tids – och kostnadseffektiva tillvägagångssätt som blir alltmer populärt i både Sjukdomforskning och klinisk diagnostik. Protokollet beskrivs här presenterar komplex arbetsflödet behövs för sekvenseringen och bioinformatik processen används för att identifiera genetiska varianter som bidrar till sjukdom.

Abstract

Nästa generations sekvensering (NGS) revolutionerar snabbt hur forskning om de genetiska determinanter av konstitutionella sjukdom utförs. Tekniken är mycket effektiv med miljontals sekvensering läsningar som produceras i en kort tidsperiod och till relativt låg kostnad. Specifikt kan riktade NGS fokus utredningar till genomisk regioner av särskilt intresse utifrån sjukdomen av studien. Inte bara gör detta ytterligare minska kostnaderna och öka hastigheten på processen, men det minskar den computational börda som ofta åtföljer NGS. Även om riktade NGS är begränsad till vissa regioner i genomet, kan förhindra identifiering av potentiella roman loci av intresse, det vara en utmärkt teknik när inför en fenotypiskt och genetiskt heterogen sjukdom, för vilka det finns tidigare kända genetiska intresseorganisationer. På grund av den komplicerade karaktären av den sekvensering tekniken är det viktigt att noga följa protokoll och metoder för att uppnå sekvensering läsningar av hög täckning och kvalitet. Ytterligare, när sekvensering läsningar erhålls, en sofistikerad bioinformatik arbetsflöde används för att korrekt karta läser en referens genomet, att kalla varianter, och att säkerställa varianter passera kvalitet mätvärden. Varianter måste också vara kommenterad och curerad baserat på deras kliniska betydelse, som kan standardiseras genom att tillämpa amerikanska College för medicinsk genetik och genomik patogenicitet riktlinjer. De metoder som presenteras häri visas de olika stegen i att generera och analysera NGS data från en riktad sekvensering panel, med panelen ONDRISeq neurodegenerativa sjukdomen som modell, för att identifiera varianter som kan vara av klinisk betydelse.

Introduction

Som att definiera de genetiska faktorerna för olika förhållanden tar på en högre prioritet i forskning och i kliniken, nästa generations sekvensering (NGS) har visat sig vara en hög genomströmning och kostnadseffektiva verktyg för att uppnå dessa mål¹^,² ^,³. För nästan 40 år, Sanger sekvensering hade varit den gyllene standarden för att identifiera genetiska varianter⁴; dock för sjukdomar med genetisk heterogenitet eller okänd genetisk etiologi, måste många möjlig kandidatgener utvärderas, ofta samtidigt. I detta sammanhang Sanger sekvensering blir dyrt och tidskrävande. Dock innebär NGS massiva parallella sekvensering av miljontals DNA-fragment, vilket möjliggör en kostnads- och effektiv teknik för att samtidigt upptäcka ett brett utbud av genetisk variation över olika regioner i genomet.

Det finns tre typer av NGS för sekvensering DNA: 1) helgenom-sekvensering (WGS), 2) hela-exome sekvensering (WES) och 3) riktade sekvensering⁵. WGS utvärderar hela genomisk innehållet hos en individ, medan WES innebär sekvensering endast protein-kodande regioner i genomet⁶. Riktade sekvensering, däremot fokuserar på specifika regioner i genomet baserat på relativt få specifika gener kopplade genom gemensamma patologiska mekanismer eller känd klinisk fenotyp. Antingen exonerna eller introner, eller någon intergenic regioner av en gen eller en särskild grupp av gener kan anges med hjälp av denna metod. Därför kan riktade sekvensering vara ett utmärkt synsätt när det finns redan en grund av kandidatgener som förknippas med sjukdomen av intresse. Inriktning på specifika regioner i genomet möjliggör eliminering av överflödiga och irrelevanta genetisk variation som kan moln eller distrahera från klinisk tolkning. Medan både WGS och WES producera en stor mängd högkvalitativa data, kan mängden data som vara överväldigande. Inte bara kräver denna stora mängd data beräkningsintensiva bioinformatik analys, men datalagring kan ofta presentera problem⁷. Denna utmaning för datalagring lägger även merkostnader till både WGS och WES, som anses ofta inte initialt vid beräkning av kostnaden för sekvensering. Ytterligare, även om det minskar kostnaden för WGS och WES fortfarande relativt hög. Riktade sekvensering kan vara ett mer kostnadseffektivt alternativ, särskilt när sekvensering av ett stort antal individer krävs.

Den Ontario neurodegenerativa sjukdomen Research Initiative (ONDRI) är en multi-plattform, provincial-wide, observationell kohortstudie som kännetecknar fem neurodegenerativa sjukdomar, inklusive: 1) Alzheimers sjukdom och kognitiv svikt, 2). amyotrofisk lateralskleros, 3) frontotemporal demens, 4) Parkinsons sjukdom, och 5) vaskulär kognitiv svikt⁸. ONDRI genomik undergruppen syftar till att belysa som en del av baslinjen karakterisering av denna kohort ofta rabatterade, men extremt viktiga genetiska landskapet i dessa fenotypiskt och genetiskt heterogen sjukdomar. Neurodegenerativa sjukdomar är därmed lämpliga kandidater för NGS metoder och riktade sekvensering i synnerhet.

Vi har specialdesignade en riktade NGS panel, ONDRISeq, att sekvensera 528 deltagarna i ONDRI för protein-kodande regioner 80 gener som tidigare associerats med fem sjukdomar av intresse. Med denna metod är vi kunna utnyttja högkvalitativa NGS data i ett fokuserat och effektivt sätt. Design och validering av panelen ONDRISeq med flera concordance studier har tidigare beskrivits, som panelen ONDRISeq kunde identifiera roman, sällsynta varianter av möjlig klinisk betydelse i 72,2% av 216 fall används för panelen validering ⁹. även om NGS tekniken har utvecklats snabbt och anmärkningsvärt under de senaste åren, många forskare inför en utmaning när bearbetning raw-data till en lista över användbara, kommenterad varianter¹⁰. Vidare kan tolkning av varianterna vara komplicerat, särskilt när möter med många som är sällsynta eller romanen¹¹.

Här beskriver vi steg för steg, av riktade NGS metodiken och associerade bioinformatik arbetsflödet krävs för återställande, variant ringer, och variant anteckning med ONDRISeq studien som ett exempel. Efter generationen av NGS data, måste rå sekvensering filer anpassas till mänskliga referens genomet för att exakt ringa varianter. Varianter måste då förses för att utföra efterföljande variant Samlingsvård. Vi kommer också att förklara vårt genomförande av American College of Medical Genetics’ standarder och riktlinjer för att noggrant klassificera variant patogenicitet.

Protocol

För tillämpningen av ONDRI erhölls etik protokoll och informerat samtycke baserat på forskning etik styrelser vid Baycrest centrum för geriatrisk vård (Toronto, Ontario, Kanada); Centrum för missbruk och Mental hälsa (Toronto, Ontario, Kanada); Elizabeth Bruyère Hospital (Ottawa, Ontario, Kanada); Hamilton General Hospital (Hamilton, Ontario, Kanada); London Health Sciences Centre (London, Ontario, Kanada); McMaster (Hamilton, Ontario, Kanada); Ottawa sjukhuset (Ottawa, Ontario, Kanada); Parkwood sjukhus (London, Ontario, Kanada); St Michael’s Hospital (Toronto, Ontario, Kanada); Sunnybrook Health Sciences Centre (Toronto, Ontario, Kanada); och hälsa nätverk-Toronto Western sjukhuset (Toronto, Ontario, Kanada). 1. DNA isolering från humant blodprover Samla in prover från sekvensering deltagare i enlighet med lämpliga etik protokoll och informerat samtycke. För att få DNA av hög kvalitet, rita blodprov för utvinning.Obs: DNA kan också extraheras från saliv eller buckala celler, se till att en lämplig DNA extraktion kit används. Om utvinna från blod, att få en hög avkastning av DNA, samlar in provet i tre 4 mL EDTA K2 rör, som tillhandahåller ett urval av totala volymen ~ 12 ml. Centrifugera blodprov för 20 min vid 750 x g fraktion en övre fasen av plasma, tunn, mitten av leukocyter, och en nedre fas av erytrocyter. Ta bort plasma från blodprovet genom pipettering det från toppen av provet med en disponibel överföring pipett. På lämpligt sätt kassera plasma eller fördela i flera 500 µL portioner för lagring vid-80 ° C för framtida biokemiska analyser. Se till att en ny och steril pipett används för varje prov. Extrahera DNA från blodprovet med blod utvinning kit12 (Tabell för material) enligt tillverkarens anvisningar.Obs: Om ett prov av den volym som beskrivs ovan erhålls, ~ 3 mL av leukocyter kommer att erhållas om du vill använda i den DNA-extraktionen. Mäta första DNA-koncentration i ng/µL med en full-spektrum spektrofotometer13 (Tabell för material), enligt tillverkarens instruktioner. Vidare direkt till steg 2. Du kan också lagra DNA vid 4 ° C. 2. sekvensering bibliotek förberedelse Utföra seriespädningar av DNA-prov under loppet av tre dagar att få en slutlig koncentration på 5,0 ± 1,0 ng/µL. Späd 1 M Tris buffert pH 8,5-10 µM med avjoniserat vatten.Obs: Volymen utspädd beror på antalet DNA-prover som kommer att behöva spädas i efterföljande steg. Om utför DNA utspädning direkt efter steg 1.4, gå till följande steg. Om inte på samma dag, mäta den DNA-koncentrationen som var gjort i steg 1.4. Baserat på den koncentration som uppmätts, späd 40 µL av DNA till ~ 10 ng/µL med 10 µM Tris buffert pH 8.5 och låt det sitta över natten vid 4 ° C. Mäta DNA-koncentration med en fluorometer14 lämpliga för kvantifiering av DNA (Tabell för material), enligt tillverkarens instruktioner.Obs: Koncentrationen av provet bör vara > 10 ng/µL på grund av den spektrofotometer som används tidigare lägre känslighet. Baserat på den koncentration som uppmätts, späd 20 µL av DNA på 10 ng/µL med 10 µM Tris buffert pH 8.5 och låt det sitta över natten vid 4 ° C. Mäta DNA-koncentration med fluorometer14, enligt tillverkarens instruktioner. Baserat på koncentrationen mätt, späd 10 µL av DNA till 5 ng/µL med 10 µM Tris-HCl pH 8.5 och låt det sitta över natten vid 4 ° C. Förbereda sekvensering bibliotek enligt tillverkarens anvisningar med riktade NGS panelens lämplig mål anrikning kit15 (tabell av material). Säkerställa att anrikning kit är lämpliga för NGS plattformen som används. Följ tillverkarens instruktioner16 angående tet och sammanslagning av bibliotek.Obs: För ONDRISeq, bibliotek består av 12 DNA-prover, poolade i set om två, och kör på NGS stationära instrument (Tabell för material). Antalet prover som kan köras i en enda reaktion beror på sekvensering kit och plattform som används. För att uppnå högre kvalitet sekvensering data, utför du valfritt steg för att validera DNA bibliotek kvaliteten efter tagmentation, beskrivs i tillverkarens instruktion av målet anrikning kit15. Analysera varje bibliotek i tre exemplar att säkerställa kvaliteten på biblioteket avkastningen. Om poolning bibliotek, mäta DNA-koncentration med fluorometer14, enligt tillverkarens instruktioner. Använd denna koncentration för att bestämma volymen av varje DNA bibliotek till poolen för att få de equimolar nyckeltal som rekommenderas av målet anrikning kit som används. 3. nästa generations sekvensering Sekvens i biblioteket enligt NGS stationära instrumentets reagens kit tillverkarens instruktioner17,18 (tabell av material). Förbereda ett prov ark enligt tillverkarens instruktioner18 med lämplig NGS teknik programvara (Tabell för material), som kommer att importeras till NGS stationära instrumentets arbetsflöde.Obs: För att ONDRISeq, alternativet valt är ‘andra’, med endast de FASTQ filer begärs (figur 1). Efterföljande steg kommer att bearbeta filerna FASTQ, som möjliggör fullständig anpassning av justering och kvalitetsparametrar. Om riktade sekvensering är valt, är dock vissa NGS instrument kunna bearbeta sekvensering data till VCF-filer själva. Tillverkarens anvisningar18 kan konsulteras för ett urval av alternativ. Om du använder en molnbaserad databehandling miljö19 (Tabell för material), logga in när du konfigurerar sekvensering kör. Gör detta när du klickat på ”sekvensering” på hemsidan NGS stationära instrument. Efter biblioteket denaturering18 enligt tillverkarens instruktioner, mäta DNA bibliotek koncentration med fluorometer14. Validera DNA bibliotek kvaliteten med hjälp av en lämplig automatiserade electrophoresis system och DNA kvalitet analys kit20 (Tabell för material), enligt tillverkarens instruktioner. För att konvertera DNA koncentrationen från ng/µL till nM, använda följande formel16Obs: Genomsnittliga bibliotek storlek kommer att vara specifika för målet anrikning kit som används, och kan erhållas från elektrofores tracen observerats i steg 3.1.4. Späd sekvensering biblioteket till en slutlig koncentration av 6 – 20 pM, i förekommande fall och volym på 600 μL, enligt tillverkarens instruktioner21.Observera: Den exakta koncentrationen som behövs är beroende av sekvensering kit används. Kontakta anrikning kit tillverkare för att avgöra korrekt lastning koncentrationen. Späd, denaturera och inkluderar en positiv kontroll sekvensering bibliotek21, enligt tillverkarens instruktioner. Föra en logg över varje sekvensering som kör, som inkluderar DNA bibliotek koncentrationen laddad (pM), andelen positiva kontrollen lagt till, reagens patron streckkod, ansökan som valdes i steg 3.1.1, antal index läsningar, berikning kit används, läsa length(s), och prov bladnamn.Obs: Bearbetningstiden av NGS stationära instrument beror på instrumentet, berikning kit, och Läs längder valt (4 – 56 h för sequencer används i detta experiment22). Efter avslutad sekvensering kör, åt ”mappen Run”, som omfattar alla utgångar, genom att navigera till startsidan NGS stationära instrument och klicka ”hantera filer”. Flytta filer till en lokal enhet för senare åtkomst. Ett separat alternativ på en dator, hitta filerna inom molnbaserad databehandling miljö19 genom att välja ”kör” på navigeringspanelen. Välj lämplig sekvensering kör för att navigera till sidan Run Sammanfattning. Välj ”Ladda ner” för att hämta data från molnet. Dialogrutan som visas, Välj FASTQ filer som filtyp att ladda ner och klicka på ”Hämta”. Run Sammanfattning sidan av molnbaserade datortjänster miljö19,23, navigera till ”diagram” att analysera kvaliteten på sekvensering kör med de olika uppgifterna produceras av datormiljön. Se tillverkarens instruktioner23 för detaljer om varje siffra som produceras. Kör diagram på sidan hitta siffran märkt ”Data för cykel”. Under diagrammet, Välj ”intensitet” och under kanal väljer du ”alla kanaler”. Säkerställa att denna signal intensiteten tomt produceras är liknande den som produceras av sekvensering körs utförs tidigare med samma anrikning kit och NGS stationära instrument.Obs: Detta återspeglar andelen intensitet visas av varje bas över alla 150 cykler. Siffran kan variera kraftigt beroende på berikning kit används, varför det måste vara jämfört med tidigare sekvensering körningar av samma panel. Välj fliken ”indexering QC” inom kör navigeringspanelen att hitta indexering kvalitetskontroll (QC) histogrammet, som ligger på höger sida av sidan. Se till att en relativt jämn fördelning av % läser identifieras (PF) följs över alla prover.Obs: Om alla prover har en mycket lägre % läser identifieras (PF) än resten av proverna, Observera att kvaliteten på uppgifter som sekvensering kan påverkas. Den Run Sammanfattning sidan av den molnbaserade datormiljön, navigera till kvalitet mätvärden genom att klicka på ”statistik” inom kör navigeringspanelen.Obs: Mätvärden cut-off beror på sekvensering plattform och anrikning kit som används. Det finns många mått som kan utnyttjas utifrån tillverkarens anvisningar23, med följande steg belyser tre som rekommenderas för kvalitetskontroll. Enligt ”täthet (K/MM2)” säkerställa kluster tätheten är inom det intervall som rekommenderas av anrikning kit som används (i detta fall 1200 – 1400 K/mm2). Se till att värdet är ≥85%, avspeglar kvaliteten av sekvensering lyder under total ”% ≥Q30”.Obs: Observera att kvaliteten på sekvenseringen kan äventyras om lägre än detta tröskelvärde på 85%. Se till att värdet är liknande till % positiva kontrollen som ingick i den sekvensering som kör under ”justerad (%)”.Obs: Detta fungerar som en åtgärd för positiv kontroll, så att endast denna procentandel av totalt läser konstaterades för att anpassa till den positiva kontroll arvsmassan. Om 1% positiv kontroll användes det förväntas att justerad (%) skulle vara ~ 1 – 5%. Figur 1: skärmdump av NGS teknik programvarans (tabell av material) prova ark skapare programalternativ. För tillämpningen av ONDRISeq används FASTQ enda programmet. Om användaren vill ha andra filer som produceras, som VCF-filer, rekommenderas det dock att en ansökan inom kategorin riktade resequencing används. Klicka här för att se en större version av denna siffra. 4. återställande och Variant ringer För data förbehandling, väljer du lämplig programvara att justera FASTQ råfiler till mänsklig referens genomet och kalla varianter (Tabell för material). Importera FASTQ sekvensering läsningar till programvaran data förbehandling.Obs: För att ONDRISeq, de 48 FASTQ filer som produceras från en enda sekvensering körning av 24 prover importeras och bearbetas genom programvaran. Antalet prover bearbetas på en gång kan variera beroende på behoven hos forskaren och storlek på panelen NGS. Inom ”Navigation”, högerklicka och välj ”ny mapp”. Namn som mappen sådan att det finns klarhet sekvensering kör som utfördes. I verktygsfältet högst upp, Välj ”Importera”. Från dropdown valde lista över sekvensering plattformar visas plattform som sekvensering utfördes.Obs: För att ONDRISeq, ”Illumina” är valt. Dock om du använder en annan sekvensering plattform konsultera tillverkarens instruktioner för återstoden av den FASTQ importerande steg24. I dialogrutan navigera till och välj FASTQ filer från sekvensering kör som bearbetas. Se till att filerna importeras lagras i och importerats från den lokala enheten, om du använder en dator med flera servrar. Från ”allmänna alternativ” i dialogrutan, klicka på rutan bredvid ”Paired läser” om sekvensering används Parade slutet kemiska sammansättningar.Obs: I det här fallet bör även två FASTQ prover importeras för varje prov – en framåt och en bakåt. Från den parkopplade Läs information i dialogrutan, Välj ”Paired-slutet (framåt-bakåt)” om framåt Läs FASTQ fil visas före omvänd Läs i fillistan. Om filerna visas i omvänd ordning, väljer du ”kompis-par (bakåt-framåt)”. Ange parkopplad Läs minimiavstånd till 1 och maximalt avstånd till 1000, att möjliggöra upptäckt av småskalig strukturella omflyttningar inom prov sekvenser. ”Illumina alternativ” i dialogrutan, välj ”Ta bort misslyckades läsningar”, ta bort den läser som misslyckats sekvensering. Om NGS stationära instrumentet de multiplexed data innan du exporterar FASTQ filerna inte markera rutan ”MiSeq de multiplexing”. ”Kvalitet Poäng” listrutan, Välj NGS rörledningen som utnyttjades för sekvensering. Välj ”nästa” längst ned i dialogrutan.Obs: Rörledningen används kommer att påverka formatet för de FASTQ fil kvalitetsresultat. Mer information om vilken pipeline till Välj, konsultera tillverkarens instruktioner24. Från den nya dialogrutan, Välj ”Spara” och ”skapa undermappar per bad enhet att sätta varje prov FASTQ filer i sin egen enskild mapp. Välj ”nästa” längst ned i dialogrutan. Den nya dialogrutan Välj mappen som skapades i steg 4.2.1. Detta är där FASTQ filer kommer att importeras. Välj ”Slutför” längst ned i dialogrutan och vänta tills de FASTQ filerna importeras. Klicka på fliken ”processer” för att se status för filimport. Designa ett arbetsflöde inom programmet att utföra återställande och variant ringer, enligt tillverkarens instruktioner.Obs: Detta arbetsflöde kan variera beroende på behoven hos forskaren, men följande steg omfattar vad som ingår vid tillämpningen av ONDRISeq (figur 2). Stegen i arbetsflödet kan tillämpas på andra NGS återställande och variant anropande program som är lämpligt. Alla bioinformatik bearbetning för att ONDRI utförs med hänvisning till mänskliga referens genomet GRCH37/hg19, för konsekvens av databehandling och analys. Mappa den sekvensering läser till referens genomet. När du konfigurerar, välja referens genomet i förekommande fall, säkerställa att det är samma referens genomet som används för alla bioinformatik steg. Från maskering läge listrutan Välj ”ingen maskering” så att inga regioner av referens sekvensen maskas. Använd standard mappning alternativ som har tilldelats av programvaran. Granska tillverkarens instruktioner24 för att verifiera att detta är acceptabelt utifrån forskningsändamål. Inkludera i den arbetsflöde lokala omgruppering till mänsklig referens genomet att lösa eventuella Läs kartläggning fel, särskilt kring införande-strykningen varianter. Använd lokala uträtning standardalternativen tilldelas av programvaran. Granska tillverkarens instruktioner24 för att verifiera att detta är acceptabelt utifrån forskningsändamål. Ta bort duplicerade mappade läsningar som produceras av PCR inom NGS protokollet att minska effekten av PCR-amplifiering bias, vilket kan ge falska positiva25. Ange ”maximal framställningen av minoritet sekvens (%)”, utifrån behov av forskning.Obs: En överseende inställning, som används vid tillämpningen av ONDRISeq, är 5%. programvarans Standardinställningen är dock strängare 20%. När två läsningar är mycket lika, bestämmer den här inställningen om sekvensen med färre Läs räknas bör övervägas en sekvensering fel från PCR-amplifiering bias. Inställning 5% Läs därför minoriteten måste vara ≤ 5% av flesta läsningar rättas till för att vara identisk med de flesta läsa. Exportera statistik för Regionkommittén mål i form av en fil med täckning i sammanfattande text från de Läs spår som genereras i steg 4.3.3. Ignorera icke-specifika matcher och trasiga par i inställningarna. Välj en destination på den lokala enheten för dessa filer. Exportera en binär sekvens justering map (BAM) fil för varje prov från de Läs spår som genereras i steg 4.3.3. Detta innehåller justering sekvensdata, vid behov i framtida analyser. Välj en destination på den lokala enheten för dessa filer. Välj en metod för variant upptäckt att kalla varianter i sekvensen.Obs: När antaganden kan göras om skall ploiditeten prover, det rekommenderas att en fast ploiditeten variant upptäckt algoritm används, som används för att ONDRISeq. Om detta antagande inte kan göras, se tillverkarens instruktioner24 att bestämma bästa algoritmen för forskningen. När du konfigurerar, från den fasta ploiditeten ange variant parametrar alternativ skall ploiditeten för provet organismen. Ange ”krävs variant sannolikheten” eller sannolikheten att en variant har anropats korrekt för att den ska behållas, 90,0%. Använd följande rekommenderade inställningar för allmänna filter: ”minimal täckning” 10 x, ”Minimum antal” 2, ”minst läsa frekvens” på 20%, ”ignorera bruten par”, ignorera ospecifik matcher baserat på ”läser” och ”minst läsa längd” 20.Obs: Dessa parametrar baseras på tillämpning av ONDRISeq. Se tillverkarens instruktioner24 så att de är lämpliga för den forskning som görs. Använd följande rekommenderade inställningar för buller filter: ”Base filter kvalitet” med en ”stadsdelen radie” mapping kvalitetsresultat på 5, ”Minimum central kvalitet” mapping poäng av 20, och ”minst stadsdelen” mappning kvalitetsresultat 15; en ”Läs riktning filter” på 5,0%. och ”släkting läsa riktning filter” 1,0% betydelse.Obs: Dessa parametrar baseras på tillämpning av ONDRISeq. Se tillverkarens instruktioner24 så att de är lämpliga för den forskning som görs. Filtrera de varianter som har kallats baserat på deras överlappning med panelens riktade målregionerna som anges av webbläsarens Extensible Data (säng) filen, så att endast varianter som inträffar inom de genomiska regioner som valts för riktade NGS panelen vara kvar.Obs: Filen säng blir unik till riktade NGS panelen som är utnyttjades, baserat på regionerna i genomet som panelen är kunna täcka. Exportera en variant rapport i en fil med variant ringer i format (VCF) från variant låten i steg 4.3.7. Välj en destination på den lokala enheten för dessa filer. Spara och installera arbetsflödet enligt tillverkarens instruktioner24, för att göra den tillgänglig i programvarans ”verktygslåda”. Se till att arbetsflödet heter så att det är tydligt i framtiden vilken NGS panel det är lämpligt. Ange alla alternativ till ”Bundle” i dialogrutan med ”exportera referensdata” alternativ under installationen. Klicka på ”installera arbetsflödet på din lokala dator” i dialogrutan med alternativen ”installera läge” under installationen. Kör importerade FASTQ sekvensering Läs filer genom den anpassade bioinformatik-arbetsflöde som utformats i steg 4,3, enligt tillverkarens instruktioner24. Identifiera det arbetsflöde som utformats i steg 4,3 i programvarans ”verktygslåda” och dubbelklicka på den. Leta upp mapparna på FASTQ filer som har importerats i steg 4.2 inom området ”navigering” i dialogrutan som visas. Markera alla mappar genom att välja dem inom området ”navigering” och klicka sedan på rutan bredvid ”Batch”. Använda högerpilen för att flytta filerna till ”valda element”. Klicka på ”nästa” längst ned i dialogrutan. Inom dialogrutan granska översikten ”Batch” att säkerställa rätt FASTQ filer har valts och klicka sedan på ”Nästa”. Recension de följande stegen i arbetsflödet i dialogrutan för att säkerställa rätt filer och exportera platser valdes när utforma arbetsflödet i steg 4.3: ”karta läser till referens”; Ta bort duplicerade mappade läsningar ”; ”Skapa statistik för målregionerna”; ”Exportera BAM”; ”Export tabbavgränsad text”; ”Filter baserat på överlappning”; och ”exportera VCF” Inom det sista steget i dialogrutan Spara-”resultera hantering” – Välj alternativet ”i ingång mapp”. Klicka på ”Slutför” längst ned i dialogrutan.Obs: Detta innebär att filerna produceras för varje prov kommer att placeras i samma mapp som lagrar filen FASTQ inom data förbehandling programvara. Figur 2: arbetsflöde för återställande och variant ringer av FASTQ filer inom data förbehandling programvara (tabell av material) anpassade för tillämpningen av ONDRISeq. Stegen i arbetsflödet kan tillämpas på andra NGS återställande och variant anropande programvara baserat på behoven hos forskaren. Klicka här för att se en större version av denna siffra. 5. variant Annotation Hämta och anpassa kommentera Variation (ANNOVAR)26 skript för att utföra variant anteckning vid VCF filen av varje prov. Hämta följande databaser från ANNOVAR skall ingå som anteckningar: 1) RefSeq27 (uppdatering, augusti 2015); (2) dbSNP13828 (September 2014-uppdateringen); (3) de Exome Aggregation konsortiet29 (ExAC, version 0.3 November 2015 uppdatering); (4) de nationella hjärta, lungor och blod Institute Exome sekvensering projektet Europeiska kohort30 (ESP, uppdatering mars 2015); (5) 1000 genomen projektet Europeiska kohort31 (1KGP, uppdatering, augusti 2015); (6) ClinVar32 (mars 2016 uppdatering); och 7) kombinerade Annotation beroende utarmning33 (CADD), sortering intoleranta från Tolerant34 (SIFT), och PolyPhen-235.Obs: Genomet samordnar och alla databaser som refereras av ANNOVAR avses humangenomet bygga GRCh37/hg19. Dessutom är de databasversioner som anges de som används för att ONDRISeq, när dataöverföring databaserna använder de mest uppdaterade versionerna tillgängliga. Om du vill anpassa ANNOVAR för att mata ut den kompletta listan över kommenterad varianter, liksom en minskad sammanställning av kommenterad varianter med–filter drift26.Obs: Minskad listan kan anpassas utifrån behoven hos forskaren. För tillämpningen av ONDRISeq, minskad listan kommenterad varianter inkluderar inte varianter som uppstå längre än 15 baser från den närmaste exon eller eventuella varianter med en mindre allel frekvens (MAF) > 3% i någon av de tre databaserna: 1) ExAC; (2) ESP; och 3) 1KGP. Detta steg rekommenderas. Om du vill anpassa ANNOVAR peka ut specifika allel samtal baserat på behoven hos de forskare26.Obs: För att ONDRISeq, ANNOVAR bedömer sekvensering samtal för den APOE risk alleler rs429358 (C > T):p.C130R och rs7412 (C > T):p.R176C för att utgång den övergripande APOE genotyp, varav det finns sex möjliga kombinationer, inklusive: 1) E2/E2; (2) E3/E2; (3) E4/E2; (4) E3/E3; (5) E4/E3; (6) E4/E4. Av dessa sex möjliga genotyper APOE är E4/E4 den mest allmänt accepterade genetiska riskfaktorn för att utveckla sent debuterande Alzheimers sjukdom36. Fråga sjukdom mutationen databaser (tabell av material) att avgöra om varianter har tidigare associerats med sjukdomen, med rimlig bevisning. Överväga eventuella varianter som inte tidigare har rapporterats som en roman variant. Bedöma ANNOVAR anteckningar från ClinVar, så att varianter av sjukdomsassocierade inkluderar någon klassificeras som sannolikt patogena eller patogena. Processen skarvning varianter genom i silico prognos verktyg splitsa-baserad analys av varianter37 (SPANR) och mänskliga skarvning Finder38 (HSF, version 3.0). Om bearbetning av ett stort antal prover, jämföra de variant samtal inom varje prov att avgöra vilka varianter delas av olika prover. Göra detta manuellt eller med ett skräddarsydda skript, vilket möjliggör upptäckt av möjliga sekvensering artefakter och kontaminering händelser.Obs: För tillämpningen av ONDRI, ett anpassat skript används att kommentera ANNOVAR utdatafilerna genom att jämföra dem med varandra. Skriptet innehåller en anteckning, per variant, med ämnet ID för alla andra prover som härbärgerat samma variant, annars kallas den varianten historia i studien kohorten. Klassificera varianter som baseras på American College of Medical Genetics (ACMG) patogenicitet riktlinjer39, tilldela varje variant en klassificering som något av följande: 1) patogena; (2) sannolikt patogena; (3) variant av osäker betydelse. (4) sannolikt godartad; eller 5) godartad.Obs: För tillämpningen av ONDRI, en egen designade Python-skript för att utföra ACMG klassificering på grundval av halvautomatisk. Även om inte används för denna studie, är InterVar40 ett Likaså utformade verktyg som kan utnyttjas på ett liknande sätt. Sanger sekvens eventuella varianter med en sekvensering täckning av 10% av studien kohorten att validera att de inte sekvenserar artefakter41.

Representative Results

De metoder som beskrivs häri tillämpades på 528 deltagare DNA-prover från personer som har varit inskrivna i ONDRI. Prov kördes på panelen ONDRISeq i 22 körningar av 24 prov per körning. Sammantaget sekvensering data var fast beslutna att vara av hög kvalitet med en genomsnittlig prov täckning av 78 ± 13 x och alla individuella körningar uttryckt en genomsnittlig prov täckning > 30 x. Ytterligare, i genomsnitt 94% av alla målregionerna täcktes minst 20 x (tabell 1). En genomsnittlig 95,6% av läser karterades sekvensen referens och alla ONDRISeq körs hade > 90% av läser mappas (tabell 1). De mappade läser, 92,0% hade en Phred Poäng ≥Q30, med bara en kör med < 80% av mappade läser möte denna kvalitet metriska. Men här kör fortfarande visas en genomsnittlig täckning av 79 x och 93% av målet regioner var täckt minst 20 x. Parametern Medelvärdet (±sd) Bästa prestanda Fattigaste prestanda Klustret densitet (x 103/mm2) 1424 (±269) 1347 1835 Totalt läser (106) 43,1 (±6.0) 48,7 47,4 Mappade läsningar (106) 40,1 (±6.0) 47,1 25,7 Mappade läsningar (%) 95,6 (±1.3) 96,8 92,6 Phred kvalitet Poäng ≥Q30 (%) 92,0 (±6.0) 92 68,3 Prov täckning (x) 78 (±13) 99 51 Tabell 1: Sekvensering kvalitet mätvärden för 22 körs på ONDRISeq. Fallstudie: Identifiering av sällsynta varianter i en PD-patienten. För att påvisa nyttan av våra riktade NGS-arbetsflöde, presenterar vi exempel på en 68 årig, manlig, Parkinsons patient. DNA-provet kördes på NGS stationära instrument (Tabell för material) med hjälp av ONDRISeq panelen tillsammans med 23 andra ONDRI prover. Kör visas en kluster densitet 1 555 x 103trombocyter/mm2. Patientens särskilda prov visas en genomsnittlig täckning av 76 x, med 93,9% av målet regioner omfattas minst 20 x. Patienten hittades efter utför variant ringer och anteckning med anpassade bioinformatik arbetsflödet, till hamnen 1351 varianter inom exonerna och omgivande 250 bp av 80 generna ingår på panelen ONDRISeq. Rörledningen ANNOVAR var dock kunna minska antalet varianter genom att beakta variant sekvens ontologi och MAF, som beskrivs ovan. Detta producerade en lista av sju varianter som genomgick manuell curation (figur 3). Från dessa sju varianter identifierades två ha möjlig klinisk betydelse. Denna process är specifika behov av ONDRI och gjordes genom att identifiera de som är relativt sällsynta i den allmänna befolkningen och är nonsynonymous i ontologi därmed orsakar en förändring i proteinet. Om varianten hade tidigare associerats med sjukdomen, utnyttjades också i silico förutsägelser deleteriousness till proteinet och ACMG patogenicitet klassificering av varianter i denna process. Den första som identifierats i reducerade listan var en heterozygot variant, nämligen LRRK2: c.T3939A, vilket resulterar i det nonsens variant p.C1313*. LRRK2 kodar protein leucin-rika upprepa Kinase 2, som äger både GTPase och Kinas aktivitet42. Ytterligare är mutationer i denna gen kända för att vara bland de ledande orsakerna till familjär Parkinsons sjukdom43. Denna variant introducerar en tidig stop kodon inom LRRK2, därmed förlora aminosyror rester 1 314 – 2 527. Detta förhindrar översättning av proteinets Ras av komplexa proteiner (Roc), C-terminalen Roc (ReK) och protein kinase domäner, som är involverade i fungerar som en atypisk Rho GTPase, GTP bindande protein och protein kinase, respektive, och förutspåddes att vara skadligt i silico analysen genereras av CADD (CADD Phred = 36). Denna variant är också sällsynt med en MAF 0,004% och 0,01% i ExAC och ESP, respektive, och är frånvarande från databasen 1000G. Dessutom är detta den enda patient av alla 528 sekvenserade som bär denna variant, som är Roman eftersom det inte har beskrivits tidigare i sjukdom mutationen databaser (Tabell för material). Förtroende för anropet variant bekräftades av dess djupa täckning av 109 x. Slutligen, varianten bedömdes med AMCG standarder och riktlinjer för patogenicitet och klassificerades som patogena egenskaper. Patienten bar också en andra heterozygot variant, NR4A2: c.C755A, vilket resulterar i en missense förändring p.P252Q. Det protein som kodas av NR4A2, nukleär Receptor underfamilj 4 grupp A medlem 2, är en transkriptionsfaktor som är inblandade i generationen av dopaminerga nervceller44 och mutationer i denna gen har tidigare associerats med Parkinson sjukdom45. Substitution av den icke-polära prolin att den polära glutamin förutspåddes att vara skadligt i silico förutsägelse analysen genereras av CADD (CADD Phred = 21,1), men inte av den analys som genereras av SIFT- eller PolyPhen-2. Varianten är sällsynt, med en MAF 0,004% i ExAC och frånvaro från både ESP och 1000G. Varianten identifierades också i en ONDRI deltagare diagnosen vaskulär kognitiv svikt, men har inte tidigare beskrivits i sjukdom mutationen databaser. Denna variant hade täckning av endast 18 x, dock Sanger sekvensering kommer att utföras för att säkerställa dess giltighet i sekvensen. Slutligen fastställdes varianten vara osäker betydelse när bedömas med de ACMG standarderna och riktlinjerna för patogenicitet. ONDRISeq panel och bioinformatik rörledningen är också kunna avgöra vilken APOE genotyp av varje prov. Denna patient var fast besluten att ha APOE genotyp E3/E3. Figur 3: exempel på en minskad produktion från ANNOVAR som visar manuellt handplockade, kommenterade varianter. Reducerad ANNOVAR utdata från fallstudien av en 68-årig, manlig, patient med Parkinsons sjukdom. Kommenterad varianter är kurator för att identifiera de som är mest sannolikt att vara av klinisk betydelse, som betecknas med röda rutor. Klicka här för att se en större version av denna siffra.

Discussion

Vägen från DNA prov utvinning till identifiera varianter som kan vara av intresse när man beaktar patientens diagnos, sjukdomsprogression och möjliga behandlingsalternativ, är det viktigt att erkänna den mångskiftande naturen av den metod som krävs för både sekvensering och korrekt behandling. Protokollet beskrivs häri är ett exempel på utnyttjande av riktade NGS och efterföljande bioinformatiska analyser viktiga att identifiera sällsynta varianter av potentiella kliniska betydelse. Specifikt, presenterar vi den metod som ONDRI genomik undergruppen när du använder panelen ONDRISeq specialdesignade NGS.

Det erkänns att dessa metoder har utvecklats på en viss NGS-plattform och att det finns andra sekvensering plattformar och målet anrikning kit som kan användas. Dock valdes NGS plattform och skrivbordet instrumentet (Tabell för material) baserat på dess tidiga amerikanska Food and Drug Administration (FDA) godkännande⁴⁶. Detta tillstånd återspeglar den högkvalitativa sekvensering som kan utföras med NGS protokoll av val och tillförlitlighet som kan placeras på den sekvensering läser.

Även om det är mycket viktigt att få korrekt sekvensering läsningar med djupet av täckning, bioinformatik bearbetning krävs för slutliga sällsynta variant analys är viktigt och kan vara processorkrävande. På grund av de många källorna till fel som kan uppstå inom sekvenseringsprocessen, måste en robust bioinformatik rörledning korrigera för de olika felaktigheter som kan införas. De kan uppstå avvikelser i mappningsprocessen, förstärkning bias infördes genom PCR-amplifiering i biblioteket beredning, och den teknik som producerar sekvensering artefakter⁴⁷. Oavsett den programvara som används för att utföra Läs kartläggning och variant ringer, finns det vanliga sätt att minska felen inklusive lokala uträtning, borttagning av dubbletter mappade läser, och ställa in rätt parametrar för kvalitetskontroll när du ringer varianter. Dessutom kan de parametrar som valts under variant ringer variera beroende på vad som är lämpligast för studien vid hand¹¹. Den minsta täckning och kvalitet av en variant och de omgivande nukleotider som tillämpades häri var valt att skapa en balans mellan lämpliga specificitet och känslighet. Dessa parametrar har validerats för panelen ONDRISeq baserat på variant anropande concordance med tre separata genetiska tekniker, som tidigare beskrivits, inklusive: 1) chip-baserad genotypning; (2) alleliska diskriminering analys; och 3) Sanger sekvensering⁹.

Efter noggrann variant ringer, för att fastställa de av potentiella kliniska betydelsen, är annotering och curation avgörande. Tack vare sin öppna plattform är ANNOVAR ett utmärkt verktyg för både annotering och preliminär variant screening eller eliminering. Utöver att vara lättillgängligt, ANNOVAR kan tillämpas på någon VCF-fil, oavsett vilken sekvensering plattform som används, och är anpassningsbar utifrån behov av forskning²⁶.

Efter annotering tolkas varianter för att avgöra om de ska anses vara av klinisk betydelse. Inte bara denna process blir komplex, men det är ofta benägna att subjektivitet och mänskliga fel. Därför har ACMG fastställda riktlinjer för att bedöma bevisningen för patogenicitet av någon variant. Vi tillämpar en icke-synonymt, sällsynta variant-baserade manuell curation strategi som konstrueras utifrån dessa riktlinjer och skyddas genom att individuellt bedöma varje variant som är kunna passera genom rörledningen med en specialdesignad Python skript som klassificerar de varianter som baseras på riktlinjer. På detta sätt varje variant tilldelas en rangordning av patogena, sannolikt patogena, osäker betydelse, sannolikt godartade, eller benigna, och vi kan lägga till standardisering och öppenhet i processen variant Samlingsvård. Det är viktigt att inse att detaljerna i variant curation, bortom bioinformatik rörledningen, kommer anpassas individuellt utifrån behov av forskning, och var därför utöver de metoder som presenteras.

Även om de metoder som presenteras här är specifika för ONDRI, kan stegen som beskrivs översättas när man överväger ett stort antal konstitutionella sjukdomar av intresse. När antalet gen föreningar ökar för många fenotyper, möjliggör riktade NGS en hypotes som driven strategi som kan kapitalisera på den tidigare forskning som har gjorts i fältet. Ändå, finns det begränsningar för riktade NGS och den metod som presenteras. Genom att endast fokusera på specifika regioner i genomet, är områdena av upptäckten begränsade till nya alleler av intresse. Därför nya gener eller andra genomisk loci utöver de som omfattas av sekvensering målen, som kunde avslöjas med WGS eller WES metoder, inte kommer att identifieras. Här finns också regioner i genomet som kan vara svårt att exakt sekvens med NGS metoder, inklusive dem med en hög grad av upprepade sekvenser⁴⁸ eller de som är rika på GC innehåll⁴⁹. Lyckligtvis när utnyttja riktade NGS, finns det en priori en hög grad av förtrogenhet med genomiska regionerna är sekvenserade, och om dessa kan innebära tekniska utmaningar. Slutligen, upptäckt av kopia antalet varianter från NGS data i dagsläget är inte standardiserade⁵⁰. Bioinformatik lösningar på dessa frågor kan dock vara på horisonten; nya datorverktyg kan hjälpa till att analysera dessa ytterligare former av variation hos ONDRI patienter.

Trots dess begränsningar är riktade NGS kunna få högkvalitativa data, inom en hypotes-driven strategi, samtidigt som den är billigare än sina WGS och WES motsvarigheter. Inte bara är denna metod lämplig för effektiv och riktad forskning, kliniska genomförandet av riktade NGS växer exponentiellt. Denna teknik används för att svara på många olika frågor rörande de molekylära vägarna av olika sjukdomar. Det är också att utvecklas till en korrekt diagnos redskap till relativt låg kostnad när motsätter sig WES och WGS. Även jämfört med den guld-standard Sanger sekvensering, riktad NGS kan konkurrera ut i sin tid – och kostnadseffektivitet. Av dessa skäl är det viktigt för en vetenskapsman eller kliniker som tar emot och använder NGS data, till exempel levereras som text i ett laboratorium eller klinisk rapport, för att förstå komplexet ”black box” som ligger bakom resultaten. De metoder som presenteras häri bör hjälpa användarna att förstå processen bakom generering och tolkning av NGS data.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Vi vill tacka alla ONDRI deltagare för deras samtycke och samarbete med vår studie. Tack till ONDRI utredarna (www. ONDRI.ca/people), inklusive våra bly utredare (MJS) och den ONDRI som styr kommittéer: den verkställande kommittén styrkommittén, publikation kommittén, rekrytera kommittén, bedömning plattformar och projektledningen. Vi tackar också London Regional genomik centrum för sin tekniska expertis. AAD stöds av Alzheimers Society of London och Middlesex Masters examen forskning Scholarship. SMKF stöds av den ALS Kanada Tim E. Noël postdoktorsstipendium.

Materials

4 ml EDTA K2 tubes	Fisher Scientific	02-689-4
1 M Tris Buffer	Bio Basic Canada Inc.	SD8141
Gentra Puregene Blood Kit	Qiagen	158389	1000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer	Thermo Fisher Scientific	ND-2000	Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer	Invitrogen	Q32866	This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit	Illumina, Inc.	FC-140-1009	Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer	Agilent Technologies	G2939BA	This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit	Agilent Technologies	5067-4626	110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4.
MiSeq Reagent Kit v3	Illumina, Inc.	MS-102-3003	600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer	Illumina, Inc.	SY-410-1003	This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager	Illumina, Inc.		This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace	Illumina, Inc.	SW-410-1000	This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1	Qiagen	832000	Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2.
Annotate Variation			http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/refseq/
dbSNP138	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium	Broad Institute		http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort	University of Washington and the Broad Institute		http://evs.gs.washington.edu/EVS/
ClinVar	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/clinvar/
Combined Annotation Dependent Depletion	University of Washington and Hudson-Alpha Institute for Biotechnology		http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant	J. Craig Venter Instutite		http://sift.jcvi.org/
PolyPhen-2	Brigham and Women's Hospital, Harvard Medical School		http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database	Qiagen	834050	This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants	Frey lab, University of Toronto		http://tools.genes.toronto.edu/
Human Splicing Finder	Aix Marseille Université		http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

References

Metzker, M. L. Sequencing technologies – the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
Qiagen. . Gentra Puregene Handbook. , (2014).
NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User’s Manual. , (2007).
Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
Illumina, Inc. . MiSeq System Guide. , (2015).
. BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
. BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson’s disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson’s disease. Mov Disord. 21 (7), 906-909 (2006).
Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Dilliott, A. A., Farhan, S. M., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

Riktade nästa generations sekvensering och bioinformatik Pipeline för att utvärdera genetiska determinanter av konstitutionella sjukdom

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Riktade nästa generations sekvensering och bioinformatik Pipeline för att utvärdera genetiska determinanter av konstitutionella sjukdom

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below