Gerichte volgende-generatie rangschikken is een tijd – en kostenbesparende aanpak die wordt steeds populairder in zowel ziekteonderzoek en klinische diagnostiek. Het protocol beschreven hier presenteert de complexe workflow vereist voor het rangschikken en het proces van de bioinformatica gebruikt ter identificatie van de genetische varianten die aan de ziekte bijdragen.
Volgende-generatie sequencing (NGS) is snel revolutionizing hoe onderzoek naar genetische determinanten van constitutionele ziekte wordt uitgevoerd. De techniek is zeer efficiënt met miljoenen sequencing leest wordt geproduceerd in een korte tijdsspanne en tegen relatief lage kosten. In het bijzonder vermag gerichte NGS focus onderzoeken aan de genomic regio’s van bijzonder belang op basis van de ziekte van studie. Niet alleen doet dit verder verminderen kosten en verhoog de snelheid van het proces, maar het vermindert de computationele last die vaak NGS begeleidt. Hoewel gerichte NGS beperkt tot bepaalde regio’s van het genoom is, kan voorkomen van identificatie van potentiële nieuwe loci van belang, het een uitstekende techniek wanneer zij worden geconfronteerd met een fenotypische en genetisch heterogene ziekte, waarvoor er zijn voorheen genetische verenigingen. Vanwege de complexe aard van de sequencing-techniek is het belangrijk te houden nauw aan protocollen en methodologieën met het oog op volgorde leest van hoge dekking en kwaliteit. Verder, zodra sequencing leest worden verkregen, een verfijnde bioinformatics workflow wordt gebruikt nauwkeurig leest om toe te wijzen een verwijzing genoom, Bel varianten, en om dat de varianten pass kwaliteit statistieken. Varianten moeten ook geannoteerde en samengesteld op basis van hun klinische betekenis, die kan worden herleid door de Amerikaanse College van medische genetica en genomica pathogeniteit richtsnoeren toe te passen. De hier vermelde methoden verschijnt de stappen betrokken bij het genereren en analyseren van NGS gegevens vanuit een gerichte sequencing paneel, met behulp van het deelvenster ONDRISeq neurodegeneratieve ziekte als een model, varianten die mogelijk van klinische significantie te identificeren.
Als het definiëren van de genetische determinanten van verschillende omstandigheden neemt op een hogere prioriteit in onderzoek en in de kliniek, next-generation sequencing (NGS) blijkt een hoge-doorvoer en rendabele hulpmiddel om het bereiken van deze doelstellingen1,2 ,3. Bijna 40 jaar, Sanger sequencing hadden de gouden standaard voor het identificeren van genetische varianten4; echter voor ziekten met genetische heterogeniteit of onbekende genetische etiologie, moeten vele mogelijke kandidaat-genen worden geëvalueerd, vaak gelijktijdig. In dit verband, Sanger sequencing wordt duur en tijdrovend. Echter omvat NGS massale parallelle sequentiebepaling van miljoenen fragmenten van DNA, waardoor voor een kosten en tijd efficiënt techniek om tegelijkertijd het detecteren van een breed scala van genetische variatie in verschillende regio’s van het genoom.
Er zijn drie soorten NGS voor DNA sequencing: 1) geheel-genoom sequencing (WGS), 2) geheel-exome sequencing (WES) en 3) gerichte sequencing5. WGS evalueert de gehele genomic inhoud van een individu, terwijl WES omvat alleen de eiwit-codeert gebieden van het genoom6sequencing. Gerichte sequencing, daarentegen, richt zich op specifieke gebieden van het genoom gebaseerd op relatief weinig specifieke genen verbonden door gemeenschappelijke pathologische mechanismen bekend of klinische fenotype. De exons of introns of intergenic regio’s van een gen of een specifieke groep van genen kunnen worden opgegeven met behulp van deze aanpak. Gerichte sequencing kan dus een uitstekende aanpak van terwijl er al een stichting van kandidaat-genen bekend te worden geassocieerd met de ziekte van belang. Gericht op specifieke regio’s van het genoom voorziet in afschaffing van overbodig en niet relevant genetische variatie die kan cloud of afleiden van klinische interpretatie. Terwijl WGS en WES beide een grote hoeveelheid gegevens van hoge kwaliteit produceren, kan de hoeveelheid gegevens worden overweldigend. Niet alleen is deze grote hoeveelheid gegevens vereist computationeel intensief bioinformatics analyse, maar gegevensopslag kan vaak problemen7aanwezig. Deze uitdaging van gegevensopslag voegt ook extra kosten aan zowel WGS en WES, die bij de berekening van de kosten van sequencing aanvankelijk vaak niet wordt beschouwd. Verder, hoewel het afneemt, de kosten voor WGS en WES relatief hoog blijven. Gerichte sequencing kunnen een meer kosten-efficiënte optie, vooral wanneer het rangschikken van een groot aantal personen is vereist.
De Ontario neurodegeneratieve ziekte onderzoek initiatief (ONDRI) is een multi-platform, provinciale bestrijkende, observationele cohortstudie karakteriseren van vijf neurodegeneratieve ziekten, met inbegrip van: 1) de ziekte van Alzheimer en milde cognitieve stoornissen, 2). Amyotrofische laterale sclerose, 3) Frontotemporale dementie, 4) de ziekte van Parkinson en 5) vasculaire cognitieve stoornissen8. De ONDRI genomics deelgroep is gericht op verheldering als onderdeel van de karakterisering van de basislijn van dit cohort het vaak scherp geprijsde, maar uiterst belangrijke genetische landschap van deze fenotypische en genetisch heterogene ziekten. Neurodegeneratieve ziekten zijn dus passende kandidaten voor NGS methodologieën en gerichte rangschikking in het bijzonder.
Wij hebben speciaal ontworpen een gerichte NGS paneel, ONDRISeq, naar de volgnummer 528 deelnemers die betrokken zijn bij ONDRI voor de eiwit-codeert gebieden van 80 genen die eerder geassocieerd met de vijf ziekten van belang zijn. Met deze methodiek zijn we in staat om uit te rusten van de kwalitatief hoogwaardige NGS-gegevens op een gerichte en efficiënte wijze. Het ontwerp en de validatie van het paneel van de ONDRISeq met meerdere concordantie studies is eerder beschreven, waarvoor het ONDRISeq panel was kunnen identificeren van de roman, zeldzame varianten van mogelijke klinische betekenis in 72,2% van 216 gevallen gebruikt voor deelvenster validatie 9. Hoewel NGS-technologie zich snel heeft ontwikkeld en opvallend in de afgelopen jaren veel onderzoekers een uitdaging bij de verwerking van de ruwe gegevens in een lijst van bruikbare, geannoteerde varianten10. Verder, interpretatie van de varianten kunnen complex zijn, vooral wanneer zij worden geconfronteerd met vele die zeldzaam of Roman11 zijn.
Hier beschrijven we in een stapsgewijze manier, de methodologie van gerichte NGS en de bijbehorende bioinformatics workflow vereist voor manipulatie, variant roepen en variant aantekening met behulp van de ONDRISeq bestuderen als voorbeeld. Na de generatie van NGS gegevens, moeten ruwe sequencing bestanden worden uitgelijnd aan het genoom van de mens referentie om nauwkeurig varianten. Varianten moeten vervolgens worden geannoteerd om uit te voeren van de latere variant curatie. Ook zullen we onze implementatie van het American College of Medical Genetics normen en richtsnoeren nauwkeurig classificeren variant pathogeniteit uitleggen.
In het pad van DNA-monster-extractie naar varianten die van belang zijn kunnen bij de behandeling van een patiënt diagnose, progressie van de ziekte, en mogelijke behandelingsopties identificeren, is het belangrijk om te erkennen van de heterogene aard van de vereiste methodologie voor zowel sequencing en juiste gegevensverwerking. Het protocol hierin beschreven is een voorbeeld van het gebruik van gerichte NGS en latere bioinformatic analyse essentiële zeldzame varianten van potentiële klinische significantie te identificeren. Specifiek, presenteren we de aanpak door de deelgroep van de genomica ONDRI bij het gebruik van het deelvenster ONDRISeq douane-ontworpen NGS.
Erkend wordt dat deze methoden zijn ontwikkeld op basis van een specifieke NGS-platform en zijn er andere sequencing platforms en doel verrijking kits die kunnen worden gebruikt. Echter werd het NGS platform en desktop instrument (Tabel of Materials) gekozen op basis van de vroege Amerikaanse Food and Drug Administration (FDA) goedkeuring46. Deze vergunning geeft de sequencing van hoge kwaliteit die kan worden uitgevoerd met de NGS protocollen van keuze en de betrouwbaarheid die kan worden geplaatst bij de sequencing-leesbewerkingen.
Hoewel het verkrijgen van nauwkeurige sequencing leest met de diepte van de dekking zeer belangrijk is, kan de bio-informatica verwerking vereist voor zeldzame variant uiteindelijk is van vitaal belang en computationeel intensief. Als gevolg van de vele bronnen van fouten die binnen het rangschikken proces optreden kunnen, moet een robuuste bioinformatics pijpleiding corrigeren voor de verschillende onnauwkeurigheden die kunnen worden ingevoerd. Zij kunnen voortvloeien uit onjuiste wisselkoersenverhoudingen in het toewijzingsproces, versterking bias geïntroduceerd door PCR versterking bij de voorbereiding van de bibliotheek, en de technologie produceren sequencing artefacten47. Ongeacht de software gebruikt voor het uitvoeren lees mapping en variant roeping, zijn er gemeenschappelijke manieren om deze fouten met inbegrip van lokale herschikking, verwijdering van dubbele toegewezen luidt, en instellen van de juiste parameters voor kwaliteitscontrole bij het aanroepen van varianten. Bovendien, kunnen de parameters die gekozen tijdens variant roeping variëren afhankelijk van wat meest geschikt voor de studie op hand11 is. De minimale dekking en de kwaliteitsscore van een variant en de omliggende nucleotiden die hierin zijn toegepast werden gekozen om een evenwicht te vinden tussen de gevoeligheid en specificiteit van de juiste. Deze parameters zijn gevalideerd voor het ONDRISeq panel gebaseerd op variant aanroepende concordantie met drie aparte genetische technieken, zoals hiervoor is beschreven, met inbegrip van: 1) chip gebaseerde genotypering; 2) allèlique-discriminatie bepaling; en 3) Sanger sequencing9.
Na nauwkeurige variant roepen, om te bepalen die van potentiële klinische significantie, zijn annotatie en curatie essentieel. Als gevolg van haar open access-platform is ANNOVAR een uitstekend hulpmiddel om zowel aantekening en variant oriënterende of te elimineren. Dan wordt gemakkelijk toegankelijk, ANNOVAR kan worden toegepast op een VCF-bestand, ongeacht welk sequencing-platform wordt gebruikt, en is aangepast op basis van de behoeften van de onderzoek-26.
Na aantekening, moeten varianten worden geïnterpreteerd om te bepalen als zij moeten worden beschouwd als van klinische betekenis. Niet alleen heeft dit proces complexer geworden, maar het is vaak gevoelig voor subjectiviteit en menselijke fouten. Om deze reden heeft de ACMG richtsnoeren voor de beoordeling van het bewijs van de pathogeniteit van elke variant vastgesteld. Wij hanteren een niet-synoniem, zeldzame variant gebaseerde handmatige curatie benadering, die is gebouwd op basis van deze richtsnoeren en gewaarborgd door het individueel beoordelen van elke variant welk vermag passeren de pijpleiding met een douane-ontworpen Python script dat classificeert de varianten op basis van de richtsnoeren. Op deze manier elke variant is toegewezen een ranking van pathogene, waarschijnlijk pathogene, onzeker van belang zijn en waarschijnlijk goedaardige of benigne, en we kunnen toevoegen van standaardisatie en transparantie aan de variant curatie proces. Het is belangrijk om te erkennen dat de specifieke kenmerken van variant curatie, buiten de bioinformatica pijpleiding, gebaseerd op de behoeften van het onderzoek zal worden geïndividualiseerd, en was dus buiten het bereik van de methoden gepresenteerd.
Hoewel de hier gepresenteerde methoden specifiek voor ONDRI zijn, kunnen de stappen die worden beschreven bij het overwegen van een groot aantal constitutionele ziekten van belang worden vertaald. Als het aantal gene verenigingen te voor vele fenotypen vergroten, is gerichte NGS voorziet van een hypothese die gedreven benadering die kan profiteren van het vorige onderzoek dat is verricht in het veld. Er zijn echter beperkingen aan gerichte NGS en de voorgestelde methodologie. Door alleen te focussen op specifieke regio’s van het genoom, zijn de gebieden van de ontdekking beperkt tot nieuwe allelen van belang. Daarom nieuwe genen of andere genomic loci dan die gedekt is door de sequencing doelstellingen, die zou kunnen worden geopenbaard met WGS of WES benaderingen, zal niet worden geïdentificeerd. Er zijn ook gebieden binnen het genoom dat kan moeilijk zijn om nauwkeurig de volgorde met NGS benaderingen, met inbegrip van degenen met een hoge mate van herhaalde reeksen48 of diegenen die rijk aan GC inhoud49 zijn. Gelukkig, wanneer gebruik makend van gerichte NGS, er een priori een hoge mate van bekendheid met de genomische regio’s wordt sequenced, en of deze technische problemen kunnen opleveren. Tot slot, detectie van kopie nummer varianten van NGS gegevens op dit moment is niet gestandaardiseerde50. Echter, bioinformatics oplossingen voor deze problemen kunnen worden aan de horizon; nieuwe computerhulpmiddelen kunnen bijdragen tot het analyseren van deze aanvullende vormen van variatie in ONDRI patiënten.
Ondanks de beperkingen is gerichte NGS in staat kwalitatief hoogwaardige om gegevens te verkrijgen, binnen een hypothese gestimuleerde benadering, terwijl de resterende minder duur dan de WGS en WES tegenhangers. Niet alleen is deze methode geschikt voor efficiënt en gericht onderzoek, klinische deimplementatie van gerichte NGS exponentieel groeit. Deze technologie wordt ingezet om te beantwoorden van veel verschillende vragen over de moleculaire trajecten van verschillende ziekten. Het wordt ook ontwikkeld tot een nauwkeurige diagnose instrument tegen relatief lage kosten wanneer tegen WES en WGS. Zelfs wanneer vergeleken bij de gouden standaard Sanger sequencing, gericht kan NGS outcompete in zijn tijd – en kostenefficiëntie. Om deze redenen is het belangrijk dat een wetenschapper of behandelaar die ontvangt en NGS gegevens, bijvoorbeeld, geleverd als tekst in een laboratorium of klinische verslag, worden gebruikt om te begrijpen van het complex “zwarte doos” die ten grondslag ligt aan de resultaten. De hier vermelde methoden moeten helpen gebruikers begrijpen het proces ten grondslag liggen aan de generatie en interpretatie van gegevens van het NGS.
The authors have nothing to disclose.
Wij zouden graag alle ONDRI deelnemers bedanken voor hun toestemming en de samenwerking met onze studie. Dank u aan de onderzoekers van de ONDRI (www. ONDRI.ca/people), met inbegrip van onze lood onderzoeker (MJS), en de ONDRI van comités: het Uitvoerend Comité, stuurgroep, publicatie Comité, werven Comité, beoordeling platformen, en project managementteam. Wij danken ook de London Regional Genomics Centre voor hun technische expertise. AAD wordt ondersteund door de Alzheimer Society of London en Middlesex Masters Graduate onderzoek beurs. SMKF wordt ondersteund door de ALS Canada Tim E. Noël Postdoctoral Fellowship.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |