Riktade nästa generations sekvensering är en tids – och kostnadseffektiva tillvägagångssätt som blir alltmer populärt i både Sjukdomforskning och klinisk diagnostik. Protokollet beskrivs här presenterar komplex arbetsflödet behövs för sekvenseringen och bioinformatik processen används för att identifiera genetiska varianter som bidrar till sjukdom.
Nästa generations sekvensering (NGS) revolutionerar snabbt hur forskning om de genetiska determinanter av konstitutionella sjukdom utförs. Tekniken är mycket effektiv med miljontals sekvensering läsningar som produceras i en kort tidsperiod och till relativt låg kostnad. Specifikt kan riktade NGS fokus utredningar till genomisk regioner av särskilt intresse utifrån sjukdomen av studien. Inte bara gör detta ytterligare minska kostnaderna och öka hastigheten på processen, men det minskar den computational börda som ofta åtföljer NGS. Även om riktade NGS är begränsad till vissa regioner i genomet, kan förhindra identifiering av potentiella roman loci av intresse, det vara en utmärkt teknik när inför en fenotypiskt och genetiskt heterogen sjukdom, för vilka det finns tidigare kända genetiska intresseorganisationer. På grund av den komplicerade karaktären av den sekvensering tekniken är det viktigt att noga följa protokoll och metoder för att uppnå sekvensering läsningar av hög täckning och kvalitet. Ytterligare, när sekvensering läsningar erhålls, en sofistikerad bioinformatik arbetsflöde används för att korrekt karta läser en referens genomet, att kalla varianter, och att säkerställa varianter passera kvalitet mätvärden. Varianter måste också vara kommenterad och curerad baserat på deras kliniska betydelse, som kan standardiseras genom att tillämpa amerikanska College för medicinsk genetik och genomik patogenicitet riktlinjer. De metoder som presenteras häri visas de olika stegen i att generera och analysera NGS data från en riktad sekvensering panel, med panelen ONDRISeq neurodegenerativa sjukdomen som modell, för att identifiera varianter som kan vara av klinisk betydelse.
Som att definiera de genetiska faktorerna för olika förhållanden tar på en högre prioritet i forskning och i kliniken, nästa generations sekvensering (NGS) har visat sig vara en hög genomströmning och kostnadseffektiva verktyg för att uppnå dessa mål1,2 ,3. För nästan 40 år, Sanger sekvensering hade varit den gyllene standarden för att identifiera genetiska varianter4; dock för sjukdomar med genetisk heterogenitet eller okänd genetisk etiologi, måste många möjlig kandidatgener utvärderas, ofta samtidigt. I detta sammanhang Sanger sekvensering blir dyrt och tidskrävande. Dock innebär NGS massiva parallella sekvensering av miljontals DNA-fragment, vilket möjliggör en kostnads- och effektiv teknik för att samtidigt upptäcka ett brett utbud av genetisk variation över olika regioner i genomet.
Det finns tre typer av NGS för sekvensering DNA: 1) helgenom-sekvensering (WGS), 2) hela-exome sekvensering (WES) och 3) riktade sekvensering5. WGS utvärderar hela genomisk innehållet hos en individ, medan WES innebär sekvensering endast protein-kodande regioner i genomet6. Riktade sekvensering, däremot fokuserar på specifika regioner i genomet baserat på relativt få specifika gener kopplade genom gemensamma patologiska mekanismer eller känd klinisk fenotyp. Antingen exonerna eller introner, eller någon intergenic regioner av en gen eller en särskild grupp av gener kan anges med hjälp av denna metod. Därför kan riktade sekvensering vara ett utmärkt synsätt när det finns redan en grund av kandidatgener som förknippas med sjukdomen av intresse. Inriktning på specifika regioner i genomet möjliggör eliminering av överflödiga och irrelevanta genetisk variation som kan moln eller distrahera från klinisk tolkning. Medan både WGS och WES producera en stor mängd högkvalitativa data, kan mängden data som vara överväldigande. Inte bara kräver denna stora mängd data beräkningsintensiva bioinformatik analys, men datalagring kan ofta presentera problem7. Denna utmaning för datalagring lägger även merkostnader till både WGS och WES, som anses ofta inte initialt vid beräkning av kostnaden för sekvensering. Ytterligare, även om det minskar kostnaden för WGS och WES fortfarande relativt hög. Riktade sekvensering kan vara ett mer kostnadseffektivt alternativ, särskilt när sekvensering av ett stort antal individer krävs.
Den Ontario neurodegenerativa sjukdomen Research Initiative (ONDRI) är en multi-plattform, provincial-wide, observationell kohortstudie som kännetecknar fem neurodegenerativa sjukdomar, inklusive: 1) Alzheimers sjukdom och kognitiv svikt, 2). amyotrofisk lateralskleros, 3) frontotemporal demens, 4) Parkinsons sjukdom, och 5) vaskulär kognitiv svikt8. ONDRI genomik undergruppen syftar till att belysa som en del av baslinjen karakterisering av denna kohort ofta rabatterade, men extremt viktiga genetiska landskapet i dessa fenotypiskt och genetiskt heterogen sjukdomar. Neurodegenerativa sjukdomar är därmed lämpliga kandidater för NGS metoder och riktade sekvensering i synnerhet.
Vi har specialdesignade en riktade NGS panel, ONDRISeq, att sekvensera 528 deltagarna i ONDRI för protein-kodande regioner 80 gener som tidigare associerats med fem sjukdomar av intresse. Med denna metod är vi kunna utnyttja högkvalitativa NGS data i ett fokuserat och effektivt sätt. Design och validering av panelen ONDRISeq med flera concordance studier har tidigare beskrivits, som panelen ONDRISeq kunde identifiera roman, sällsynta varianter av möjlig klinisk betydelse i 72,2% av 216 fall används för panelen validering 9. även om NGS tekniken har utvecklats snabbt och anmärkningsvärt under de senaste åren, många forskare inför en utmaning när bearbetning raw-data till en lista över användbara, kommenterad varianter10. Vidare kan tolkning av varianterna vara komplicerat, särskilt när möter med många som är sällsynta eller romanen11.
Här beskriver vi steg för steg, av riktade NGS metodiken och associerade bioinformatik arbetsflödet krävs för återställande, variant ringer, och variant anteckning med ONDRISeq studien som ett exempel. Efter generationen av NGS data, måste rå sekvensering filer anpassas till mänskliga referens genomet för att exakt ringa varianter. Varianter måste då förses för att utföra efterföljande variant Samlingsvård. Vi kommer också att förklara vårt genomförande av American College of Medical Genetics’ standarder och riktlinjer för att noggrant klassificera variant patogenicitet.
Vägen från DNA prov utvinning till identifiera varianter som kan vara av intresse när man beaktar patientens diagnos, sjukdomsprogression och möjliga behandlingsalternativ, är det viktigt att erkänna den mångskiftande naturen av den metod som krävs för både sekvensering och korrekt behandling. Protokollet beskrivs häri är ett exempel på utnyttjande av riktade NGS och efterföljande bioinformatiska analyser viktiga att identifiera sällsynta varianter av potentiella kliniska betydelse. Specifikt, presenterar vi den metod som ONDRI genomik undergruppen när du använder panelen ONDRISeq specialdesignade NGS.
Det erkänns att dessa metoder har utvecklats på en viss NGS-plattform och att det finns andra sekvensering plattformar och målet anrikning kit som kan användas. Dock valdes NGS plattform och skrivbordet instrumentet (Tabell för material) baserat på dess tidiga amerikanska Food and Drug Administration (FDA) godkännande46. Detta tillstånd återspeglar den högkvalitativa sekvensering som kan utföras med NGS protokoll av val och tillförlitlighet som kan placeras på den sekvensering läser.
Även om det är mycket viktigt att få korrekt sekvensering läsningar med djupet av täckning, bioinformatik bearbetning krävs för slutliga sällsynta variant analys är viktigt och kan vara processorkrävande. På grund av de många källorna till fel som kan uppstå inom sekvenseringsprocessen, måste en robust bioinformatik rörledning korrigera för de olika felaktigheter som kan införas. De kan uppstå avvikelser i mappningsprocessen, förstärkning bias infördes genom PCR-amplifiering i biblioteket beredning, och den teknik som producerar sekvensering artefakter47. Oavsett den programvara som används för att utföra Läs kartläggning och variant ringer, finns det vanliga sätt att minska felen inklusive lokala uträtning, borttagning av dubbletter mappade läser, och ställa in rätt parametrar för kvalitetskontroll när du ringer varianter. Dessutom kan de parametrar som valts under variant ringer variera beroende på vad som är lämpligast för studien vid hand11. Den minsta täckning och kvalitet av en variant och de omgivande nukleotider som tillämpades häri var valt att skapa en balans mellan lämpliga specificitet och känslighet. Dessa parametrar har validerats för panelen ONDRISeq baserat på variant anropande concordance med tre separata genetiska tekniker, som tidigare beskrivits, inklusive: 1) chip-baserad genotypning; (2) alleliska diskriminering analys; och 3) Sanger sekvensering9.
Efter noggrann variant ringer, för att fastställa de av potentiella kliniska betydelsen, är annotering och curation avgörande. Tack vare sin öppna plattform är ANNOVAR ett utmärkt verktyg för både annotering och preliminär variant screening eller eliminering. Utöver att vara lättillgängligt, ANNOVAR kan tillämpas på någon VCF-fil, oavsett vilken sekvensering plattform som används, och är anpassningsbar utifrån behov av forskning26.
Efter annotering tolkas varianter för att avgöra om de ska anses vara av klinisk betydelse. Inte bara denna process blir komplex, men det är ofta benägna att subjektivitet och mänskliga fel. Därför har ACMG fastställda riktlinjer för att bedöma bevisningen för patogenicitet av någon variant. Vi tillämpar en icke-synonymt, sällsynta variant-baserade manuell curation strategi som konstrueras utifrån dessa riktlinjer och skyddas genom att individuellt bedöma varje variant som är kunna passera genom rörledningen med en specialdesignad Python skript som klassificerar de varianter som baseras på riktlinjer. På detta sätt varje variant tilldelas en rangordning av patogena, sannolikt patogena, osäker betydelse, sannolikt godartade, eller benigna, och vi kan lägga till standardisering och öppenhet i processen variant Samlingsvård. Det är viktigt att inse att detaljerna i variant curation, bortom bioinformatik rörledningen, kommer anpassas individuellt utifrån behov av forskning, och var därför utöver de metoder som presenteras.
Även om de metoder som presenteras här är specifika för ONDRI, kan stegen som beskrivs översättas när man överväger ett stort antal konstitutionella sjukdomar av intresse. När antalet gen föreningar ökar för många fenotyper, möjliggör riktade NGS en hypotes som driven strategi som kan kapitalisera på den tidigare forskning som har gjorts i fältet. Ändå, finns det begränsningar för riktade NGS och den metod som presenteras. Genom att endast fokusera på specifika regioner i genomet, är områdena av upptäckten begränsade till nya alleler av intresse. Därför nya gener eller andra genomisk loci utöver de som omfattas av sekvensering målen, som kunde avslöjas med WGS eller WES metoder, inte kommer att identifieras. Här finns också regioner i genomet som kan vara svårt att exakt sekvens med NGS metoder, inklusive dem med en hög grad av upprepade sekvenser48 eller de som är rika på GC innehåll49. Lyckligtvis när utnyttja riktade NGS, finns det en priori en hög grad av förtrogenhet med genomiska regionerna är sekvenserade, och om dessa kan innebära tekniska utmaningar. Slutligen, upptäckt av kopia antalet varianter från NGS data i dagsläget är inte standardiserade50. Bioinformatik lösningar på dessa frågor kan dock vara på horisonten; nya datorverktyg kan hjälpa till att analysera dessa ytterligare former av variation hos ONDRI patienter.
Trots dess begränsningar är riktade NGS kunna få högkvalitativa data, inom en hypotes-driven strategi, samtidigt som den är billigare än sina WGS och WES motsvarigheter. Inte bara är denna metod lämplig för effektiv och riktad forskning, kliniska genomförandet av riktade NGS växer exponentiellt. Denna teknik används för att svara på många olika frågor rörande de molekylära vägarna av olika sjukdomar. Det är också att utvecklas till en korrekt diagnos redskap till relativt låg kostnad när motsätter sig WES och WGS. Även jämfört med den guld-standard Sanger sekvensering, riktad NGS kan konkurrera ut i sin tid – och kostnadseffektivitet. Av dessa skäl är det viktigt för en vetenskapsman eller kliniker som tar emot och använder NGS data, till exempel levereras som text i ett laboratorium eller klinisk rapport, för att förstå komplexet ”black box” som ligger bakom resultaten. De metoder som presenteras häri bör hjälpa användarna att förstå processen bakom generering och tolkning av NGS data.
The authors have nothing to disclose.
Vi vill tacka alla ONDRI deltagare för deras samtycke och samarbete med vår studie. Tack till ONDRI utredarna (www. ONDRI.ca/people), inklusive våra bly utredare (MJS) och den ONDRI som styr kommittéer: den verkställande kommittén styrkommittén, publikation kommittén, rekrytera kommittén, bedömning plattformar och projektledningen. Vi tackar också London Regional genomik centrum för sin tekniska expertis. AAD stöds av Alzheimers Society of London och Middlesex Masters examen forskning Scholarship. SMKF stöds av den ALS Kanada Tim E. Noël postdoktorsstipendium.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |