Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease

Allison A. Dilliott; Sali M.K. Farhan; Mahdi Ghani; Christine Sato; Eric Liang; Ming Zhang; Adam D. McIntyre; Henian Cao; Lemuel Racacho; John F. Robinson; Michael J. Strong; Mario Masellis; Dennis E. Bulman; Ekaterina Rogaeva; Anthony Lang; Carmela Tartaglia; Elizabeth Finger; Lorne Zinman; John Turnbull; Morris Freedman; Rick Swartz; Sandra E. Black; Robert A. Hegele

doi:10.3791/57266

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

Next-generation Sequencing en Bioinformatics pijpleiding om te evalueren van genetische determinanten van constitutionele ziekte gericht

Published: April 04, 2018

doi:

10.3791/57266

Allison A. Dilliott², Sali M.K. Farhan, Mahdi Ghani, Christine Sato, Eric Liang, Ming Zhang, Adam D. McIntyre, Henian Cao, Lemuel Racacho⁷, John F. Robinson, Michael J. Strong⁸, Mario Masellis¹⁰, Dennis E. Bulman⁷, Ekaterina Rogaeva, Anthony Lang¹¹, Carmela Tartaglia¹⁰, Elizabeth Finger¹³, Lorne Zinman, John Turnbull, Morris Freedman¹⁵, Rick Swartz, Sandra E. Black¹⁶, Robert A. Hegele²

¹Robarts Research Institute, Schulich School of Medicine and Dentistry,Western University, ²Department of Biochemistry, Schulich School of Medicine and Dentistry,Western University, ³Analytic and Translational Genetics Unit, Center for Genomic Medicine,Harvard Medical School, Massachusetts General Hospital, Stanley Centre for Psychiatric Research, Broad Institute of MIT and Harvard, ⁴Tanz Centre for Research in Neurodegenerative Diseases,University of Toronto, ⁵School of Medicine, Faculty of Health Sciences,Queen’s University, ⁶Faculty of Medicine, Department of Biochemistry, Microbiology and Immunology,University of Ottawa, ⁷CHEO Research Institute, Faculty of Medicine,University of Ottawa, ⁸Department of Clinical Neurological Sciences,Western University, ⁹Division of Neurology, Department of Medicine, Sunnybrook Health Sciences Centre,University of Toronto, ¹⁰Division of Neurology, Department of Medicine,University of Toronto, ¹¹Morton and Gloria Shulman Movement Disorders Centre,Toronto Western Hospital, ¹²Department of Clinical Neurological Sciences, Schulich School of Medicine and Dentistry,Western University, ¹³Parkwood Institute,St. Joseph’s Health Care, ¹⁴Department of Medicine, Division of Neurology,McMaster University, ¹⁵Division of Neurology, Department of Medicine,Baycrest Health Sciences, ¹⁶Canadian Partnership for Stroke Recovery Sunnybrook Site, Sunnybrook Health Science Centre,University of Toronto

Summary

Gerichte volgende-generatie rangschikken is een tijd – en kostenbesparende aanpak die wordt steeds populairder in zowel ziekteonderzoek en klinische diagnostiek. Het protocol beschreven hier presenteert de complexe workflow vereist voor het rangschikken en het proces van de bioinformatica gebruikt ter identificatie van de genetische varianten die aan de ziekte bijdragen.

Abstract

Volgende-generatie sequencing (NGS) is snel revolutionizing hoe onderzoek naar genetische determinanten van constitutionele ziekte wordt uitgevoerd. De techniek is zeer efficiënt met miljoenen sequencing leest wordt geproduceerd in een korte tijdsspanne en tegen relatief lage kosten. In het bijzonder vermag gerichte NGS focus onderzoeken aan de genomic regio’s van bijzonder belang op basis van de ziekte van studie. Niet alleen doet dit verder verminderen kosten en verhoog de snelheid van het proces, maar het vermindert de computationele last die vaak NGS begeleidt. Hoewel gerichte NGS beperkt tot bepaalde regio’s van het genoom is, kan voorkomen van identificatie van potentiële nieuwe loci van belang, het een uitstekende techniek wanneer zij worden geconfronteerd met een fenotypische en genetisch heterogene ziekte, waarvoor er zijn voorheen genetische verenigingen. Vanwege de complexe aard van de sequencing-techniek is het belangrijk te houden nauw aan protocollen en methodologieën met het oog op volgorde leest van hoge dekking en kwaliteit. Verder, zodra sequencing leest worden verkregen, een verfijnde bioinformatics workflow wordt gebruikt nauwkeurig leest om toe te wijzen een verwijzing genoom, Bel varianten, en om dat de varianten pass kwaliteit statistieken. Varianten moeten ook geannoteerde en samengesteld op basis van hun klinische betekenis, die kan worden herleid door de Amerikaanse College van medische genetica en genomica pathogeniteit richtsnoeren toe te passen. De hier vermelde methoden verschijnt de stappen betrokken bij het genereren en analyseren van NGS gegevens vanuit een gerichte sequencing paneel, met behulp van het deelvenster ONDRISeq neurodegeneratieve ziekte als een model, varianten die mogelijk van klinische significantie te identificeren.

Introduction

Als het definiëren van de genetische determinanten van verschillende omstandigheden neemt op een hogere prioriteit in onderzoek en in de kliniek, next-generation sequencing (NGS) blijkt een hoge-doorvoer en rendabele hulpmiddel om het bereiken van deze doelstellingen¹^,² ^,³. Bijna 40 jaar, Sanger sequencing hadden de gouden standaard voor het identificeren van genetische varianten⁴; echter voor ziekten met genetische heterogeniteit of onbekende genetische etiologie, moeten vele mogelijke kandidaat-genen worden geëvalueerd, vaak gelijktijdig. In dit verband, Sanger sequencing wordt duur en tijdrovend. Echter omvat NGS massale parallelle sequentiebepaling van miljoenen fragmenten van DNA, waardoor voor een kosten en tijd efficiënt techniek om tegelijkertijd het detecteren van een breed scala van genetische variatie in verschillende regio’s van het genoom.

Er zijn drie soorten NGS voor DNA sequencing: 1) geheel-genoom sequencing (WGS), 2) geheel-exome sequencing (WES) en 3) gerichte sequencing⁵. WGS evalueert de gehele genomic inhoud van een individu, terwijl WES omvat alleen de eiwit-codeert gebieden van het genoom⁶sequencing. Gerichte sequencing, daarentegen, richt zich op specifieke gebieden van het genoom gebaseerd op relatief weinig specifieke genen verbonden door gemeenschappelijke pathologische mechanismen bekend of klinische fenotype. De exons of introns of intergenic regio’s van een gen of een specifieke groep van genen kunnen worden opgegeven met behulp van deze aanpak. Gerichte sequencing kan dus een uitstekende aanpak van terwijl er al een stichting van kandidaat-genen bekend te worden geassocieerd met de ziekte van belang. Gericht op specifieke regio’s van het genoom voorziet in afschaffing van overbodig en niet relevant genetische variatie die kan cloud of afleiden van klinische interpretatie. Terwijl WGS en WES beide een grote hoeveelheid gegevens van hoge kwaliteit produceren, kan de hoeveelheid gegevens worden overweldigend. Niet alleen is deze grote hoeveelheid gegevens vereist computationeel intensief bioinformatics analyse, maar gegevensopslag kan vaak problemen⁷aanwezig. Deze uitdaging van gegevensopslag voegt ook extra kosten aan zowel WGS en WES, die bij de berekening van de kosten van sequencing aanvankelijk vaak niet wordt beschouwd. Verder, hoewel het afneemt, de kosten voor WGS en WES relatief hoog blijven. Gerichte sequencing kunnen een meer kosten-efficiënte optie, vooral wanneer het rangschikken van een groot aantal personen is vereist.

De Ontario neurodegeneratieve ziekte onderzoek initiatief (ONDRI) is een multi-platform, provinciale bestrijkende, observationele cohortstudie karakteriseren van vijf neurodegeneratieve ziekten, met inbegrip van: 1) de ziekte van Alzheimer en milde cognitieve stoornissen, 2). Amyotrofische laterale sclerose, 3) Frontotemporale dementie, 4) de ziekte van Parkinson en 5) vasculaire cognitieve stoornissen⁸. De ONDRI genomics deelgroep is gericht op verheldering als onderdeel van de karakterisering van de basislijn van dit cohort het vaak scherp geprijsde, maar uiterst belangrijke genetische landschap van deze fenotypische en genetisch heterogene ziekten. Neurodegeneratieve ziekten zijn dus passende kandidaten voor NGS methodologieën en gerichte rangschikking in het bijzonder.

Wij hebben speciaal ontworpen een gerichte NGS paneel, ONDRISeq, naar de volgnummer 528 deelnemers die betrokken zijn bij ONDRI voor de eiwit-codeert gebieden van 80 genen die eerder geassocieerd met de vijf ziekten van belang zijn. Met deze methodiek zijn we in staat om uit te rusten van de kwalitatief hoogwaardige NGS-gegevens op een gerichte en efficiënte wijze. Het ontwerp en de validatie van het paneel van de ONDRISeq met meerdere concordantie studies is eerder beschreven, waarvoor het ONDRISeq panel was kunnen identificeren van de roman, zeldzame varianten van mogelijke klinische betekenis in 72,2% van 216 gevallen gebruikt voor deelvenster validatie ⁹. Hoewel NGS-technologie zich snel heeft ontwikkeld en opvallend in de afgelopen jaren veel onderzoekers een uitdaging bij de verwerking van de ruwe gegevens in een lijst van bruikbare, geannoteerde varianten¹⁰. Verder, interpretatie van de varianten kunnen complex zijn, vooral wanneer zij worden geconfronteerd met vele die zeldzaam of Roman^{11 zijn}.

Hier beschrijven we in een stapsgewijze manier, de methodologie van gerichte NGS en de bijbehorende bioinformatics workflow vereist voor manipulatie, variant roepen en variant aantekening met behulp van de ONDRISeq bestuderen als voorbeeld. Na de generatie van NGS gegevens, moeten ruwe sequencing bestanden worden uitgelijnd aan het genoom van de mens referentie om nauwkeurig varianten. Varianten moeten vervolgens worden geannoteerd om uit te voeren van de latere variant curatie. Ook zullen we onze implementatie van het American College of Medical Genetics normen en richtsnoeren nauwkeurig classificeren variant pathogeniteit uitleggen.

Protocol

Voor de toepassing van ONDRI, zijn ethiek protocollen en geïnformeerde toestemming verkregen op basis van het onderzoek ethiek planken op Baycrest centrum voor geriatrische zorg (Toronto, Ontario, Canada); Centrum voor verslaving en geestelijke gezondheid (Toronto, Ontario, Canada); Elizabeth Bruyère ziekenhuis (Ottawa, Ontario, Canada); Hamilton General Hospital (Hamilton, Ontario, Canada); Londen Health Sciences Centre (Londen, Ontario, Canada); McMaster (Hamilton, Ontario, Canada); De Ottawa ziekenhuis (Ottawa, Ontario, Canada); Parkwood Hospital (Londen, Ontario, Canada); St. Michael’s Hospital (Toronto, Ontario, Canada); Sunnybrook Health Sciences Centre (Toronto, Ontario, Canada); en gezondheid netwerk-Toronto West universiteitsziekenhuis (Toronto, Ontario, Canada). 1. DNA isolatie van menselijke bloedmonsters Het verzamelen van monsters van sequencing deelnemers overeenkomstig passende ethiek protocollen en geïnformeerde toestemming. Voor het verkrijgen van DNA van hoge kwaliteit, bloedmonsters te trekken ten behoeve van extractie.Opmerking: DNA kan ook worden geëxtraheerd uit speeksel of buccale cellen, ervoor te zorgen dat een geschikte DNA-extractie kit wordt gebruikt. Als het monster in drie 4 mL EDTA K2 buizen extraheren uit bloed, het verkrijgen van een hoog rendement van DNA, verzamelen, verstrekken van een steekproef van totale volume ~ 12 ml. Centrifugeer bloedmonsters voor 20 min op 750 x g op breuk in een bovenste fase van plasma, dun, middelste fase van leukocyten en een onderste fase van erytrocyten. Het plasma uit het bloedmonster waarbij het uit de bovenkant van het monster met een pipet wegwerp overdracht verwijderen. Op de juiste wijze verwijderen van het plasma of afzien in meerdere 500 µL aliquots voor opslag bij-80 ° C voor toekomstige biochemische analysen. Ervoor zorgen dat een nieuwe, steriele pipet voor elk monster wordt gebruikt. Het uittreksel van DNA van het bloedmonster met een bloed extractie kit12 (Tabel of Materials) volgens de instructies van de fabrikant.Opmerking: Als een monster van het volume die hierboven beschreven wordt verkregen, ~ 3 mL leukocyten zal worden verkregen als u wilt gebruiken in de DNA-extractie. Meten DNA beginconcentratie in ng/µL met behulp van een full-spectrum spectrofotometer13 (Tabel of Materials), volgens de instructies van de fabrikant. Ga direct naar stap 2. U kunt ook het opslaan van DNA bij 4 ° C. 2. sequencing bibliotheek voorbereiding Seriële verdunningen op de DNA-monsters in de loop van drie dagen om een eindconcentratie van 5,0 ± 1.0 ng/µL uitvoeren. Verdunnen 1 M Tris buffer pH 8,5 tot 10 µM met gedeïoniseerd water.Opmerking: Het volume verdund zal afhangen van het aantal DNA-monsters die zullen moeten worden verdund in de opeenvolgende stappen. Als de verdunning van de DNA direct na stap 1.4 wilt uitvoeren, gaat u verder met de volgende stap. Als dit niet op dezelfde dag, meet de DNA-concentratie zoals werd gedaan in stap 1.4. Op basis van de gemeten concentratie, Verdun 40 µL van het DNA te ~ 10 ng/µL met behulp van 10 µM Tris-buffer pH 8,5 en het monster aan zitten ‘s nachts bij 4 ° C. Meten DNA-concentratie met een Fluorimeter14 geschikt is voor de kwantificering van DNA (Tabel of Materials), volgens de instructies van de fabrikant.Opmerking: De concentratie van het monster moet > 10 ng/µL vanwege de lagere gevoeligheid van de spectrofotometer valt eerder gebruikt. Op basis van de gemeten concentratie, Verdun 20 µL van het DNA te 10 ng/µL met behulp van 10 µM Tris-buffer pH 8,5 en het monster aan zitten ‘s nachts bij 4 ° C. Meten DNA-concentratie met de Fluorimeter14, volgens de instructies van de fabrikant. Op basis van de gemeten concentratie, Verdun 10 µL van het DNA te 5 ng/µL met behulp van 10 µM Tris-HCl pH 8,5 en het monster aan zitten ‘s nachts bij 4 ° C. Sequencing bibliotheek volgens de instructies van de fabrikant met gerichte NGS van het panel passende doelstelling verrijking kit15 (tabel of Materials) voor te bereiden. Zorg ervoor dat de verrijking kit is geschikt voor de NGS-platform wordt gebruikt. Volg fabrikant instructies16 met betrekking tot de plexity en bundeling van bibliotheken.Opmerking: Voor ONDRISeq, Bibliotheken zijn samengesteld uit 12 DNA-monsters, gebundeld in sets van twee, en draaien op de NGS bureaublad instrument (Tabel van materialen). Het aantal monsters dat kan worden uitgevoerd in een enkele reactie zal afhangen van de sequencing kit en platform gebruikt. Om te bereiken hoger gegevens van de volgorde van de kwaliteit, de optionele stap voor het valideren van de DNA bibliotheek kwaliteit na tagmentation, beschreven in de instructie van de fabrikant van de target verrijking kit15uit te voeren. Analyseren elke bibliotheek in drievoud om de kwaliteit van de opbrengst van de bibliotheek. Als bundeling van Bibliotheken, meten DNA-concentratie met de Fluorimeter14, volgens de instructies van de fabrikant. Gebruik deze concentratie om het volume van elk DNA-bibliotheek te pool te verkrijgen van het mengsel ratio’s aanbevolen door de doelgroep verrijking kit wordt gebruikt. 3. next-generation Sequencing Het volgnummer van de bibliotheek volgens NGS bureaublad van het instrument reagens kit fabrikant instructies17,18 (tabel of Materials). Bereiden een monster blad volgens fabrikant instructies18 met behulp van de juiste NGS technologie software (Tabel of Materials), die zal worden ingevoerd in het NGS bureaublad instrument van workflow.Opmerking: Voor de toepassing van ONDRISeq, de optie van de toepassing gekozen is ‘ander’, met alleen de FASTQ bestanden gevraagd (Figuur 1). Opeenvolgende stappen zal deze FASTQ-bestanden, te voorzien in volledige aanpassing van uitlijning en kwaliteitsparameters verwerken. Echter als gerichte volgorde is gekozen, kunnen sommige NGS-instrumenten voor het verwerken van de gegevens rangschikken in VCF-bestanden zelf. 18 instructies van de fabrikant kan worden geraadpleegd voor een volledige selectie van opties. Met behulp van een cloud-gebaseerde computing omgeving19 (Tabel of Materials), log in als bij het instellen van de volgorde uitvoeren. Doe dit na het klikken van “Sequencing” op de startpagina van het NGS-bureaublad instrument. Meet na bibliotheek denaturatie18 volgens de instructies van de fabrikant, DNA-concentratie van de bibliotheek met de Fluorimeter14. Valideer de DNA bibliotheek kwaliteit met behulp van een passende Elektroforese van het geautomatiseerde systeem en DNA kwaliteit analyse kit20 (Tabel of Materials), volgens de instructies van de fabrikant. Als u wilt omzetten in de DNA-concentratie ng/µL nM, gebruik de volgende formule16Opmerking: Gemiddelde bibliotheek grootte zullen specifieke doel verrijking Kit wordt gebruikt, en kan worden verkregen bij de elektroforese trace waargenomen in stap 3.1.4. Verdun de sequencing-bibliotheek om een eindconcentratie van 6 – 20 uur, in voorkomend geval, en het volume van 600 μL, volgens de fabrikant instructies21.Opmerking: De exacte concentratie nodig is afhankelijk van de volgorde kit gebruikt. Raadpleeg de fabrikant van de kit verrijking om te bepalen van de juiste laden concentratie. Verdun, denatureren en omvatten een positieve controle sequencing bibliotheek21, volgens de instructies van de fabrikant. Houd een logboek van iedere volgorde uitvoeren, waaronder de DNA bibliotheek concentratie geladen (pM), het percentage van positieve controle toegevoegd, reagens cartridge barcode toepassing gekozen in stap 3.1.1, aantal index leest, verrijking kit gebruikt, lees length(s), en de monster bladnaam.Opmerking: De bewerkingstijd van het NGS bureaublad instrument zal afhangen van het instrument, verrijking kit, en gelezen lengtes (4 – 56 h voor de sequencer gebruikt in dit experiment22) gekozen. Na voltooiing van de sequencing-run, toegang krijgen tot de “map Run”, waarin alle uitgangen, navigeren naar de introductiepagina van het NGS-bureaublad instrument en klikt u op “Bestanden beheren”. Verplaats de bestanden naar een lokaal station voor later gebruik. Voor een afzonderlijke optie op een computer, de bestanden binnen de cloud-gebaseerde computing omgeving19 te vinden door het selecteren van “Draait” op het navigatiepaneel. Selecteer de juiste volgorde uitvoeren om te navigeren naar de pagina overzicht van het uitvoeren. Kies “Download” om gegevens te verkrijgen uit de wolk. In het dialoogvenster dat verschijnt, selecteer het FASTQ bestanden als het bestand dat u wilt downloaden en klik op “Download”. Van de Run overzichtspagina van de cloud-gebaseerde computing omgeving19,23, navigeer naar “Charts” voor het analyseren van de kwaliteit van de volgorde uitvoeren met de verschillende cijfers geproduceerd door de computeromgeving. Verwijzen naar de fabrikant instructies23 voor meer informatie met betrekking tot elk getal geproduceerd. Van de pagina uitvoeren grafieken vinden de figuur met het label “Gegevens door Cycle”. Onder grafiek, selecteer “Intensiteit” en selecteer “Alle kanalen” onder kanaal. Ervoor zorgen dat dit signaal intensiteit perceel geproduceerd vergelijkbaar met dat geproduceerd is door sequencing runs uitgevoerd in het verleden met de dezelfde verrijking kit en NGS bureaublad instrument.Opmerking: Dit weerspiegelt het percentage van de intensiteit van elke basis over alle 150 cycli weergegeven. De figuur kan sterk variëren naargelang de verrijking kit gebruikt, dat is waarom het moet worden vergeleken met afgelopen sequencing loopt van hetzelfde panel. Selecteer het tabblad “Indexing QC” binnen het uitvoeren navigatiepaneel te vinden het indexeren histogram van de kwaliteitscontrole (QC), die aan de rechterkant van de pagina is. Ervoor zorgen dat een relatief gelijkmatige verdeling van % leest geïdentificeerd (PF) over alle monsters wordt nageleefd.Opmerking: Als monsters een veel lagere % leest geïdentificeerd (PF) dan de rest van de monsters hebben, rekening mee houden dat de kwaliteit van de gegevens rangschikken kan worden beïnvloed. Van de Run overzichtspagina van de cloud-gebaseerde computeromgeving, navigeer naar de statistieken van de kwaliteit door te klikken op “Statistieken” binnen het uitvoeren navigatiepaneel.Opmerking: Metrics cut-offs zal afhangen van de sequencing platform en verrijking kit wordt gebruikt. Er zijn vele statistieken die kan worden gebruikt op basis van fabrikant instructies23, met de volgende stappen markeren drie die sterk voor kwaliteitscontrole aangeraden worden. Zorg ervoor de cluster dichtheid valt binnen het bereik die aanbevolen door de verrijking kit ingezet onder “Dichtheid (K/MM2)” (in dit geval 1200-1400 K/mm2). Zorg ervoor dat de waarde ≥85% is, als gevolg van de kwaliteit van de sequencing luidt onder de totale “% ≥Q30”.Opmerking: Indien deze lager is dan deze drempel van 85%, er rekening mee dat de kwaliteit van de sequencing kan worden aangetast. Zorg ervoor dat de waarde is vergelijkbaar met de % van positieve controle dat werd opgenomen in de volgorde uitgevoerd onder “UITGELIJND (%)”.Opmerking: Dit fungeert als een zekere mate van positieve controle, zodat alleen dit percentage van totale luidt bleken te zijn afgestemd op het genoom van de positieve controle. Als 1% positieve controle werd gebruikt men zou verwachten dat de uitgelijnd (%) ~ 1 – 5% zou zijn. Figuur 1: Screenshot van NGS technologie van de software (tabel of Materials) monster Maker toepassing Werkbladopties. Voor de toepassing van ONDRISeq, wordt de FASTQ enige toepassing gebruikt. Als de gebruiker wil andere bestanden geproduceerd, zoals VCF-bestanden, is het echter raadzaam dat een toepassing binnen de gerichte resequencing categorie wordt gebruikt. Klik hier voor een grotere versie van dit cijfer. 4. manipulatie en Variant roepen Selecteer voor pre gegevensverwerking, juiste software de raw bestanden van de FASTQ aan het menselijke referentie genoom worden uitgelijnd en bel varianten (Tabel van materialen). FASTQ volgorde leest in de gegevens voorbewerkend software importeren.Opmerking: Voor de toepassing van ONDRISeq, de 48 FASTQ bestanden geproduceerd uit een run van de interne volgorde van 24 monsters zijn geïmporteerd en verwerkt via de software. Het aantal monsters verwerkt in een keer kan variëren afhankelijk van de behoeften van de onderzoeker en de omvang van het NGS-paneel. Binnen het “gebied van de navigatie”, klik met de rechtermuisknop en kies “Nieuwe map”. Naam van de map zodanig dat er onduidelijkheid over de volgorde uitvoeren die werd uitgevoerd. Selecteer in de werkbalk aan de bovenkant, “Importeren”. Uit de dropdown koos lijst van sequencing platforms getoond het platform waarmee de sequencing werd uitgevoerd.Opmerking: Voor de toepassing van ONDRISeq, “Illumina” is gekozen. Echter, als met behulp van een verschillende sequencing platform consult de instructies van de fabrikant voor de rest van de FASTQ-importerende stappen24. In het dialoogvenster Ga naar en selecteer het FASTQ uit de volgorde bestanden uitvoeren die wordt verwerkt. Ervoor zorgen dat de geïmporteerde bestanden worden opgeslagen in en geïmporteerd vanaf de lokale schijf, als met behulp van een computer met meerdere servers. Van de “algemene opties” van het dialoogvenster, klikt u op het vak naast “Gepaarde luidt” als sequencing gepaarde einde doorgaan gebruikt.Opmerking: In dit geval, er moet ook worden twee FASTQ monsters geïmporteerd voor elk monster – een vooruit en één achteruit. De gepaarde Lees informatie voor het dialoogvenster, selecteer “Gepaarde-end (forward-reverse)” als de vooruit lezen FASTQ bestand vóór de omgekeerde lezen in de lijst met bestanden wordt weergegeven. Als de bestanden worden weergegeven in de omgekeerde volgorde, selecteer “Partner-pair (achteruit-vooruit)”. Stel de gepaarde Lees minimumafstand tot 1 en de maximale afstand tot 1000, te voorzien in de opsporing van kleine schaal structurele herschikkingen binnen de monster-sequenties. De “Illumina opties” van het dialoogvenster, selecteer “Verwijderen mislukt leest”, om het luidt dat sequencing mislukt. Als het bureaublad instrument van NGS-multiplexed de gegevens voordat u exporteert de FASTQ bestanden doen niet het selectievakje “MiSeq-multiplexing”. Selecteer in de vervolgkeuzelijst “Kwaliteit score” de NGS-pijpleiding die werd gebruikt voor het rangschikken. Selecteer “Next” aan de onderkant van het dialoogvenster.Opmerking: De pijpleiding gebruikt zal van invloed zijn op de indeling van de kwaliteitsscore van het FASTQ-bestand. Raadpleeg voor meer informatie over welke pijpleiding te selecteren,24instructies van de fabrikant. Uit het nieuwe dialoogvenster, selecteer “Save” en “submappen per Bad eenheid om van elk monster FASTQ bestanden in hun eigen persoonlijke map wilt maken. Selecteer “Next” aan de onderkant van het dialoogvenster. Het dialoogvenster Nieuw, kies de map die is gemaakt in stap 4.2.1. Dit is waar de FASTQ-bestanden worden geïmporteerd. Selecteer “Finish” bij de bodem van het dialoogvenster en wacht totdat de FASTQ-bestanden zijn geïmporteerd. Klik op het tabblad “Processen” om te zien de status van het bestand importeren. Het ontwerp van een workflow binnen de software uit te voeren van manipulatie en variant roepen, volgens de instructies van de fabrikant.Opmerking: Deze werkstroom kan variëren op basis van de behoeften van de onderzoeker, maar de volgende stappen omvatten wat is opgenomen ten behoeve van ONDRISeq (Figuur 2). De stappen in deze werkstroom kunnen worden toegepast op andere NGS manipulatie en variant aanroepende software zo nodig. Alle bio-informatica verwerking ten behoeve van ONDRI wordt uitgevoerd met betrekking tot de verwijzing van de menselijke genoom, GRCH37/hg19, voor consistentie van gegevensverwerking en -analyse. Kaart de volgorde leest aan het genoom van de referentie. Bij het configureren, kies het genoom van de referentie in voorkomend geval, ervoor te zorgen dat het de dezelfde referentie-genoom dat wordt gebruikt voor alle stappen van de bio-informatica. Drop-down lijst Selecteer de maskeren-modus “Geen maskeren” zodat geen regio’s van de referentie-sequentie worden gemaskeerd. Gebruik de standaardwaarde toewijzen van opties die zijn toegewezen door de software. Bekijk de fabrikant instructies24 om te verifiëren dat dit aanvaardbaar is gebaseerd op de toepassing van het onderzoek. Opnemen in de lokale herschikking van de werkstroom aan het genoom van de mens referentie voor het oplossen van eventuele lezen mapping fouten, met name rond varianten van de invoegpositie verwijderen. De standaardopties voor lokale herschikking die worden toegewezen door de software te gebruiken. Bekijk de fabrikant instructies24 om te verifiëren dat dit aanvaardbaar is gebaseerd op de toepassing van het onderzoek. Verwijder dubbele toegewezen leest geproduceerd door PCR binnen het NGS-protocol om het effect van de PCR versterking bias, die valse positieven25 produceren kan. Stel de “Maximum vertegenwoordiging van minderheden sequentie (%)”, gebaseerd op de behoeften van het onderzoek.Opmerking: Een mildere instelling, zoals gebruikt voor de doeleinden van de ONDRISeq, is 5%; de standaardinstelling van de software is echter strengere 20%. Wanneer twee leest zeer vergelijkbaar zijn, wordt met deze instelling bepaalt als de volgorde met minder Lees telt moet worden beschouwd als een fout van de sequencing van het PCR versterking vooroordeel. Daarom, met instellen van 5%, de minderheid Lees graaf moet ≤ 5% van de meerderheid lezen graaf worden gecorrigeerd om identiek zijn aan de meeste lezen. Statistieken voor de doelregio’s in de vorm van een samenvatting dekking-tekstbestand exporteren vanuit de lees nummers gegenereerd in stap 4.3.3. Aspecifieke wedstrijden en gebroken paren in de instellingen negeren. Kies een bestemming op het lokale station voor deze bestanden. Een binaire rij uitlijning kaart (BAM) bestand voor elk monster uit de lees nummers gegenereerd in stap 4.3.3 exporteren. Dit bevat uitlijning sequencedata, indien nodig in de toekomst analyses. Kies een bestemming op het lokale station voor deze bestanden. Kies een methode voor variant detection Bel varianten binnen de volgorde.Opmerking: Wanneer aannames kunnen worden gemaakt over de ploïdie van de monsters, is het aanbevolen dat een vaste ploïdie variant detectie algoritme worden gebruikt, zoals wordt gebruikt voor de doeleinden van de ONDRISeq. Al deze veronderstelling kan worden vervaardigd, verwijzen naar de fabrikant instructies24 tot het bepalen van de beste algoritme ten behoeve van het onderzoek. Bij het configureren van, uit de vaste ploïdie variant parameters opties ingesteld de ploïdie als geschikt is voor het monster organisme. Stel de “vereist variant kans”, of de waarschijnlijkheid dat een variant correct heeft geroepen om deze te bewaren, op 90.0%. Gebruik de volgende aanbevolen instellingen voor de algemene filters: “Minimum dekking” van 10 x, “Minimum aantal” 2, “Minimum Lees frequentie” van 20%, “Negeren paren gebroken”, het negeren van niet-specifieke overeenkomsten op basis van “Lezen”, en “Minimum Lees lengte” van 20.Opmerking: Deze parameters zijn gebaseerd op de toepassing van ONDRISeq. Verwijzen naar de fabrikant instructies24 te garanderen dat ze geschikt zijn voor het onderzoek wordt gedaan. Gebruik de volgende aanbevolen instellingen voor de ruisfilters: “Kwaliteit filters Base” met een “buurt radius” mapping kwaliteitsscore van 5, “Minimum centrale kwaliteit” mapping score van 20, en de “Minimum buurt” toewijzing kwaliteitsscore van 15; een “Read richting filter” van 5,0%; en “Relatieve Lees richting filter” van 1,0% belang.Opmerking: Deze parameters zijn gebaseerd op de toepassing van ONDRISeq. Verwijzen naar de fabrikant instructies24 te garanderen dat ze geschikt zijn voor het onderzoek wordt gedaan. Filteren van de varianten die zijn uitgeschreven op basis van hun overlap met de gerichte hettoezichtpanel van doelregio’s zoals aangegeven door het bestand Browser Extensible gegevens (BED), zodat alleen varianten die zich voordoen binnen de genomic regio’s geselecteerd voor de gerichte NGS-panel te worden behouden.Opmerking: Het BED vijl zal zitten unieke aan het gerichte NGS-deelvenster dat wordt gebruikt, op basis van de regio’s van het genoom die het paneel is in staat om te dekken. Een variant-rapport in een variant aanroepende (VCF)-bestandsindeling exporteren uit de variant track geproduceerd in stap 4.3.7. Kies een bestemming op het lokale station voor deze bestanden. Opslaan en installeren van de werkstroom volgens fabrikant instructies24, zodat het beschikbaar is in de software “gereedschapskist”. Zorgen dat de werkstroom is vernoemd zodanig dat het duidelijk in de toekomst wat NGS-paneel is het geschikt voor. In het dialoogvenster met de opties “Gegevens exporteren referentie” tijdens de installatie, alle opties instellen om te “Bundel”. In het dialoogvenster met de opties “Install locatie” tijdens de installatie, klikt u op “Het installeren van de workflow op uw lokale computer”. Geïmporteerde FASTQ sequencing Lees bestanden uitvoeren via de bio-informatica aangepaste werkstroom ontworpen in stap 4.3, volgens de fabrikant instructies24. Identificeren van de werkstroom ontworpen in stap 4.3 van de software “gereedschapskist” en dubbelklik erop. Zoek in het dialoogvenster dat verschijnt, de mappen FASTQ-bestanden die zijn geïmporteerd in stap 4.2 binnen het gebied”navigatie”. Markeer alle mappen door ze te selecteren in het “gebied van de navigatie” en klik op het vak naast “Batch”. De naar rechts wijzende pijl gebruiken om de bestanden naar “Geselecteerde elementen”. Klik op “Volgende” onderaan in het dialoogvenster. In het dialoogvenster, Bekijk de “Batch-overzicht” om te zorgen voor de juiste FASTQ-bestanden zijn geselecteerd en klik op “Volgende”. Herziening de volgende stappen van de werkstroom in het dialoogvenster Exporteren locaties te waarborgen van de juiste bestanden waren geselecteerd tijdens het ontwerpen van de werkstroom in stap 4.3: “Kaart leest aan referentie”; Verwijder dubbele toegewezen leest”; “Het maken van statistieken voor de doelregio’s”; “Export BAM”; “Uitvoer door tabs gescheiden tekst”; “Filter gebaseerd op overlapping”; en “Export VCF” Binnen de laatste stap in het dialoogvenster Save-“resultaat behandeling” – Selecteer de optie”in input map”. Klik op “Finish” bij de bodem van het dialoogvenster.Opmerking: Dit betekent dat de bestanden geproduceerd voor elk monster zal worden geplaatst in dezelfde map waarin het bestand FASTQ in de voorbehandeling software gegevens worden opgeslagen. Figuur 2: Workflow voor de manipulatie en de roeping van de variant van de FASTQ bestanden binnen de vooraf gegevensverwerking software (tabel of Materials) aangepast ten behoeve van ONDRISeq. De stappen in de workflow kunnen worden toegepast op andere NGS manipulatie en variant aanroepende software gebaseerd op de behoeften van de onderzoeker. Klik hier voor een grotere versie van dit cijfer. 5. variant aantekening Downloaden en aanpassen van de variatie van de aantekeningen (ANNOVAR)26 script standaardinteracties variant aantekening op het VCF-bestand van elk monster. Downloaden van de volgende databases van ANNOVAR te worden opgenomen als aantekeningen: 1) RefSeq27 (update augustus 2015); 2) dbSNP13828 (update September 2014); 3) de Exome aggregatie Consortium29 (ExAC, versie 0.3 November 2015 update); 4) de nationale hart-, Long- en bloed Instituut Exome Sequencing Project Europese Cohort30 (ESP, maart 2015 update); 5) de 1000 genoom Project Europese Cohort31 (1KGP, augustus 2015 update); 6) ClinVar32 (maart 2016 update); en 7) gecombineerd aantekening afhankelijke uitputting33 (CADD), Intolerant van Tolerant34 sorteren (zift), en PolyPhen-2-35.Opmerking: Genoom coördineert en alle databases waarnaar wordt verwezen door ANNOVAR bedoelde menselijk genoom build GRCh37/hg19. Daarnaast zijn de versies van de database die vermeld die worden gebruikt voor de doeleinden van de ONDRISeq, wanneer het downloaden van de databases gebruikt de meest up-to-date versies beschikbaar. Indien gewenst, aanpassen ANNOVAR uitvoeren van de volledige lijst van geannoteerde varianten, alsmede een verminderde compilatie van geannoteerde varianten met de–filter operatie26.Opmerking: De beperkte lijst kan worden aangepast op basis van de behoeften van de onderzoeker. Voor de toepassing van ONDRISeq, de beperkte lijst van geannoteerde varianten omvat geen varianten die verder dan 15 grondslagen van de dichtstbijzijnde exon optreden of varianten met een kleine allel frequentie (MAF) > 3% in een van de drie databases: 1) ExAC; 2) ESP; en 3) 1KGP. Deze stap wordt sterk aanbevolen. Indien gewenst, aanpassen ANNOVAR om specifieke allel gesprekken op basis van de behoeften van de onderzoeker26.Opmerking: Voor de toepassing van ONDRISeq, ANNOVAR beoordeelt de sequencing oproepen voor het APOE risico allelen rs429358 (C > T):p.C130R en rs7412 (C > T):p.R176C om de uitgang van het algemene Beleidsverklaring genotype, waarvan er zijn zes mogelijk combinaties, met inbegrip van: 1) E2/E2; 2) E3/E2; 3) E4/E2; 4) E3/E3; 5) E4/E3; 6) E4/E4. Van deze zes mogelijke APOE genotypen is E4/E4 de meest algemeen aanvaarde genetische risicofactor voor de ontwikkeling van late-onset Alzheimer’s disease36. Ziekte mutatie databases (tabel of Materials) om te bepalen als varianten eerder geassocieerd met de ziekte, met redelijk bewijsmateriaal zijn opvragen. Overweeg alle varianten die zijn niet eerder gemeld als een nieuwe variant. Beoordelen van de ANNOVAR aantekeningen uit ClinVar, zodanig dat de ziekte-geassocieerde varianten bevatten een ingedeeld als waarschijnlijk pathogene of pathogene. Proces splicing varianten via de voorspelling in silico hulpmiddelen Splicing gebaseerde analyse van varianten37 (SPANR) en menselijke Splicing Finder38 (HSF, versie 3.0). Als de verwerking van een groot aantal monsters, vergelijk de variant oproepen binnen elk monster om te bepalen welke varianten worden gedeeld door verschillende monsters. Dit handmatig doen of met een speciaal ontworpen script, zodat voor het opsporen van mogelijke sequencing artefacten en besmetting evenementen.Opmerking: Voor de toepassing van ONDRI, een aangepast script gebruikt aantekeningen van de ANNOVAR output bestanden door ze te vergelijken met elkaar. Het script bevat een aantekening, per variant, met de onderwerp-ID van elke andere monsters herbergen de dezelfde variant, anders genoemd de variant van geschiedenis in de cohort studie. Classificeren op basis van de American College of pathogeniteit richtsnoeren voor medische genetica (ACMG)39, toewijzen van elke variant een indeling als een van de volgende varianten: 1) pathogene; 2) waarschijnlijk pathogene; 3) variant van de betekenis van het onzekere; 4) waarschijnlijk benigne; of 5) goedaardig.Opmerking: Voor de toepassing van ONDRI, een in-house ontworpen Python script wordt gebruikt voor het uitvoeren van ACMG classificatie op basis van semi-automatische. Hoewel niet gebruikt voor deze studie, is InterVar40 een evenzo ontworpen tool die kan worden gebruikt op een soortgelijke manier. Sanger volgnummer varianten met een dekking van de sequencing van 10% van de cohort studie om te valideren dat zij niet zijn sequencing artefacten41.

Representative Results

De hierin beschreven methoden werden toegepast op 528 deelnemer DNA-monsters van personen die zijn ingeschreven in ONDRI. Monsters werden uitgevoerd op het paneel van de ONDRISeq in 22 loopt van 24 monsters per run. Globaal, het rangschikken gegevens waren vastbesloten te zijn van hoge kwaliteit met een gemiddelde monster dekking van 78 ± 13 x en alle afzonderlijke punten uitgedrukt een gemiddelde monster dekking > 30 x. Verder, gemiddeld 94% van alle doelregio’s werden behandeld ten minste 20 x (tabel 1). Een gemiddelde 95.6% van luidt als volgt werden toegewezen aan de volgorde van de verwijzing en alle ONDRISeq loopt had > 90% van luidt toegewezen (tabel 1). Van de toegewezen luidt, 92.0% had een Phred scoort ≥Q30, met slechts één uitgevoerd met < 80% van toegewezen luidt voldoen aan deze kwaliteit statistiek. Echter deze run nog steeds wordt weergegeven op een gemiddelde dekking van 79 x en 93% voor target regio's werden gedekt ten minste 20 x. Met de parameter Mean (±sd) Beste prestaties Armste prestaties Cluster dichtheid (x 103/mm-2) 1424 (±269) 1347 1835 Total leest (106) 43,1 (±6.0) 48,7 47.4 Toegewezen leest (106) 40.1 (±6.0) 47.1 25,7 Toegewezen leest (%) 95.6 (±1.3) 96,8 92,6 Phred kwaliteit Score ≥Q30 (%) 92.0 (±6.0) 92 68,3 Monster dekking (x) 78 (±13) 99 51 Tabel 1: Sequencing kwaliteit statistieken voor 22 draait op ONDRISeq. Case studie: Identificatie van zeldzame varianten in een PD-patiënt. Om aan te tonen het nut van onze gerichte NGS-workflow, presenteren we het voorbeeld van een 68-jarige, mannelijke, ziekte van Parkinson patiënt. Het DNA-monster werd gereden op het NGS bureaublad instrument (Tabel of Materials) met behulp van het deelvenster ONDRISeq naast 23 monsters van andere ONDRI. De run weergegeven de dichtheid van een cluster van 1,555 x 103/mm2. Van de patiënt bepaald monster weergegeven een gemiddelde dekking van 76 x, met 93,9% voor de doelstelling bestreken regio’s ten minste 20 x. Na het uitvoeren van variant roeping en aantekening met de werkstroom aangepaste bioinformatics, bleek de patiënt haven 1351 varianten binnen de exons en omliggende 250 bp van de 80 genen opgenomen op het ONDRISeq paneel. De pijpleiding van de ANNOVAR was echter kunnen verminderen van het aantal varianten door te overwegen variant reeks ontologie en MAF, zoals hierboven beschreven. Dit produceerde een lijst van zeven varianten die onderging handmatige curatie (Figuur 3). Uit deze zeven varianten, werden twee geïdentificeerd als zijnde mogelijke klinische betekenis. Dit proces is specifiek voor de behoeften van ONDRI en werd gedaan door het identificeren van diegenen die relatief zeldzaam zijn in de algemene bevolking en zijn nonsynonymous in ontologie waardoor een verandering in de eiwit. Of de variant had eerder in verband met ziekte gebracht, werden de voorspellingen in silico van deleteriousness aan het eiwit en de indeling van de pathogeniteit ACMG van de varianten ook gebruikt in dit proces. De eerste geïdentificeerd in de beperkte lijst was een heterozygoot variant, namelijk LRRK2: c.T3939A, resulterend in de onzin variant p.C1313*. LRRK2 codeert het eiwit Leucine-Rich Herhaal Kinase 2, beshikken GTPase zowel kinase activiteit42. Verder, mutaties binnen dit gen zijn bekend onder de belangrijkste oorzaken van familiale Parkinson’s disease43. Deze variant introduceert een voortijdige stop codon binnen LRRK2, waarbij u verliest aminozuur residuen 1,314 – 2: 527. Hiermee voorkomt u dat de vertaling van het eiwit van Ras van complexe eiwitten (Roc), C-terminal van Roc (COR) en proteïne kinase domeinen, die betrokken zijn bij het functioneren als een atypische Rho GTPase, GTP bindend-proteïne en proteïne kinase, respectievelijk, en werd voorspeld in silico analyse gegenereerd door CADD schadelijk (CADD Phred = 36). Deze variant is ook zeldzaam met een MAF van 0.004 tot 0,01% in ExAC en ESP, respectievelijk, en afwezig is uit de database van 1000G. Dit is bovendien de enige patiënt uit alle 528 sequenced die deze variant, die roman is draagt, aangezien het niet eerder in ziekte mutatie databases (Tabel van materialen beschreven is). Het vertrouwen van de variant oproep werd bevestigd door zijn diepe dekking van 109 x. Ten slotte, de variant werd beoordeeld met de AMCG standaarden en richtsnoeren voor pathogeniteit en werd geclassificeerd als zijnde pathogene. De patiënt droeg ook een tweede heterozygoot variant, NR4A2: c.C755A, resulterend in de missense verandering p.P252Q. Het eiwit dat gecodeerd wordt door NR4A2, nucleaire Receptor onderfamilie 4 groep A lid 2, is een transcriptiefactor die betrokken zijn bij de generatie van de Dopaminerge neuronen44 en mutaties binnen dit gen zijn eerder geassocieerd met Parkinson ziekte45. De vervanging van de niet-polaire proline naar de polar glutamine werd voorspeld door het in silico voorspellen analyse gegenereerd door CADD schadelijk (CADD Phred = 21,1), maar niet door de analyse gegenereerd door SIFT of PolyPhen-2. De variant is zeldzaam, met een MAF van 0.004% in ExAC en afwezigheid van ESP zowel 1000G. De variant werd ook geïdentificeerd in een deelnemer van de ONDRI gediagnosticeerd met vasculaire cognitieve stoornissen, maar heeft niet eerder zijn beschreven in ziekte mutatie databases. Deze variant had dekking van slechts 18 x, echter Sanger sequencing zal worden uitgevoerd met het oog op de geldigheid ervan binnen de reeks. Tot slot, de variant werd vastgesteld van onzekere belang bij de beoordeling van de ACMG normen en richtsnoeren voor pathogeniteit. De ONDRISeq-paneel en bio-informatica-pijpleiding kan ook om te bepalen voor het APOE -genotype van elk monster. Deze patiënt was vastbesloten om te hebben voor het APOE -genotype E3/E3. Figuur 3: voorbeeld van een verminderde output van ANNOVAR weergeven handmatig curator, geannoteerde varianten. De verminderde ANNOVAR output van de case-study van de 68-jarige, mannelijke, patiënt met de ziekte van Parkinson. Geannoteerde varianten zijn samengesteld om te identificeren die waarschijnlijk van klinische betekenis, zijn zoals aangegeven door de rode vakken. Klik hier voor een grotere versie van dit cijfer.

Discussion

In het pad van DNA-monster-extractie naar varianten die van belang zijn kunnen bij de behandeling van een patiënt diagnose, progressie van de ziekte, en mogelijke behandelingsopties identificeren, is het belangrijk om te erkennen van de heterogene aard van de vereiste methodologie voor zowel sequencing en juiste gegevensverwerking. Het protocol hierin beschreven is een voorbeeld van het gebruik van gerichte NGS en latere bioinformatic analyse essentiële zeldzame varianten van potentiële klinische significantie te identificeren. Specifiek, presenteren we de aanpak door de deelgroep van de genomica ONDRI bij het gebruik van het deelvenster ONDRISeq douane-ontworpen NGS.

Erkend wordt dat deze methoden zijn ontwikkeld op basis van een specifieke NGS-platform en zijn er andere sequencing platforms en doel verrijking kits die kunnen worden gebruikt. Echter werd het NGS platform en desktop instrument (Tabel of Materials) gekozen op basis van de vroege Amerikaanse Food and Drug Administration (FDA) goedkeuring⁴⁶. Deze vergunning geeft de sequencing van hoge kwaliteit die kan worden uitgevoerd met de NGS protocollen van keuze en de betrouwbaarheid die kan worden geplaatst bij de sequencing-leesbewerkingen.

Hoewel het verkrijgen van nauwkeurige sequencing leest met de diepte van de dekking zeer belangrijk is, kan de bio-informatica verwerking vereist voor zeldzame variant uiteindelijk is van vitaal belang en computationeel intensief. Als gevolg van de vele bronnen van fouten die binnen het rangschikken proces optreden kunnen, moet een robuuste bioinformatics pijpleiding corrigeren voor de verschillende onnauwkeurigheden die kunnen worden ingevoerd. Zij kunnen voortvloeien uit onjuiste wisselkoersenverhoudingen in het toewijzingsproces, versterking bias geïntroduceerd door PCR versterking bij de voorbereiding van de bibliotheek, en de technologie produceren sequencing artefacten⁴⁷. Ongeacht de software gebruikt voor het uitvoeren lees mapping en variant roeping, zijn er gemeenschappelijke manieren om deze fouten met inbegrip van lokale herschikking, verwijdering van dubbele toegewezen luidt, en instellen van de juiste parameters voor kwaliteitscontrole bij het aanroepen van varianten. Bovendien, kunnen de parameters die gekozen tijdens variant roeping variëren afhankelijk van wat meest geschikt voor de studie op hand^{11 is}. De minimale dekking en de kwaliteitsscore van een variant en de omliggende nucleotiden die hierin zijn toegepast werden gekozen om een evenwicht te vinden tussen de gevoeligheid en specificiteit van de juiste. Deze parameters zijn gevalideerd voor het ONDRISeq panel gebaseerd op variant aanroepende concordantie met drie aparte genetische technieken, zoals hiervoor is beschreven, met inbegrip van: 1) chip gebaseerde genotypering; 2) allèlique-discriminatie bepaling; en 3) Sanger sequencing⁹.

Na nauwkeurige variant roepen, om te bepalen die van potentiële klinische significantie, zijn annotatie en curatie essentieel. Als gevolg van haar open access-platform is ANNOVAR een uitstekend hulpmiddel om zowel aantekening en variant oriënterende of te elimineren. Dan wordt gemakkelijk toegankelijk, ANNOVAR kan worden toegepast op een VCF-bestand, ongeacht welk sequencing-platform wordt gebruikt, en is aangepast op basis van de behoeften van de onderzoek-²⁶.

Na aantekening, moeten varianten worden geïnterpreteerd om te bepalen als zij moeten worden beschouwd als van klinische betekenis. Niet alleen heeft dit proces complexer geworden, maar het is vaak gevoelig voor subjectiviteit en menselijke fouten. Om deze reden heeft de ACMG richtsnoeren voor de beoordeling van het bewijs van de pathogeniteit van elke variant vastgesteld. Wij hanteren een niet-synoniem, zeldzame variant gebaseerde handmatige curatie benadering, die is gebouwd op basis van deze richtsnoeren en gewaarborgd door het individueel beoordelen van elke variant welk vermag passeren de pijpleiding met een douane-ontworpen Python script dat classificeert de varianten op basis van de richtsnoeren. Op deze manier elke variant is toegewezen een ranking van pathogene, waarschijnlijk pathogene, onzeker van belang zijn en waarschijnlijk goedaardige of benigne, en we kunnen toevoegen van standaardisatie en transparantie aan de variant curatie proces. Het is belangrijk om te erkennen dat de specifieke kenmerken van variant curatie, buiten de bioinformatica pijpleiding, gebaseerd op de behoeften van het onderzoek zal worden geïndividualiseerd, en was dus buiten het bereik van de methoden gepresenteerd.

Hoewel de hier gepresenteerde methoden specifiek voor ONDRI zijn, kunnen de stappen die worden beschreven bij het overwegen van een groot aantal constitutionele ziekten van belang worden vertaald. Als het aantal gene verenigingen te voor vele fenotypen vergroten, is gerichte NGS voorziet van een hypothese die gedreven benadering die kan profiteren van het vorige onderzoek dat is verricht in het veld. Er zijn echter beperkingen aan gerichte NGS en de voorgestelde methodologie. Door alleen te focussen op specifieke regio’s van het genoom, zijn de gebieden van de ontdekking beperkt tot nieuwe allelen van belang. Daarom nieuwe genen of andere genomic loci dan die gedekt is door de sequencing doelstellingen, die zou kunnen worden geopenbaard met WGS of WES benaderingen, zal niet worden geïdentificeerd. Er zijn ook gebieden binnen het genoom dat kan moeilijk zijn om nauwkeurig de volgorde met NGS benaderingen, met inbegrip van degenen met een hoge mate van herhaalde reeksen⁴⁸ of diegenen die rijk aan GC inhoud^{49 zijn}. Gelukkig, wanneer gebruik makend van gerichte NGS, er een priori een hoge mate van bekendheid met de genomische regio’s wordt sequenced, en of deze technische problemen kunnen opleveren. Tot slot, detectie van kopie nummer varianten van NGS gegevens op dit moment is niet gestandaardiseerde⁵⁰. Echter, bioinformatics oplossingen voor deze problemen kunnen worden aan de horizon; nieuwe computerhulpmiddelen kunnen bijdragen tot het analyseren van deze aanvullende vormen van variatie in ONDRI patiënten.

Ondanks de beperkingen is gerichte NGS in staat kwalitatief hoogwaardige om gegevens te verkrijgen, binnen een hypothese gestimuleerde benadering, terwijl de resterende minder duur dan de WGS en WES tegenhangers. Niet alleen is deze methode geschikt voor efficiënt en gericht onderzoek, klinische deimplementatie van gerichte NGS exponentieel groeit. Deze technologie wordt ingezet om te beantwoorden van veel verschillende vragen over de moleculaire trajecten van verschillende ziekten. Het wordt ook ontwikkeld tot een nauwkeurige diagnose instrument tegen relatief lage kosten wanneer tegen WES en WGS. Zelfs wanneer vergeleken bij de gouden standaard Sanger sequencing, gericht kan NGS outcompete in zijn tijd – en kostenefficiëntie. Om deze redenen is het belangrijk dat een wetenschapper of behandelaar die ontvangt en NGS gegevens, bijvoorbeeld, geleverd als tekst in een laboratorium of klinische verslag, worden gebruikt om te begrijpen van het complex “zwarte doos” die ten grondslag ligt aan de resultaten. De hier vermelde methoden moeten helpen gebruikers begrijpen het proces ten grondslag liggen aan de generatie en interpretatie van gegevens van het NGS.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Wij zouden graag alle ONDRI deelnemers bedanken voor hun toestemming en de samenwerking met onze studie. Dank u aan de onderzoekers van de ONDRI (www. ONDRI.ca/people), met inbegrip van onze lood onderzoeker (MJS), en de ONDRI van comités: het Uitvoerend Comité, stuurgroep, publicatie Comité, werven Comité, beoordeling platformen, en project managementteam. Wij danken ook de London Regional Genomics Centre voor hun technische expertise. AAD wordt ondersteund door de Alzheimer Society of London en Middlesex Masters Graduate onderzoek beurs. SMKF wordt ondersteund door de ALS Canada Tim E. Noël Postdoctoral Fellowship.

Materials

4 ml EDTA K2 tubes	Fisher Scientific	02-689-4
1 M Tris Buffer	Bio Basic Canada Inc.	SD8141
Gentra Puregene Blood Kit	Qiagen	158389	1000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer	Thermo Fisher Scientific	ND-2000	Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer	Invitrogen	Q32866	This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit	Illumina, Inc.	FC-140-1009	Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer	Agilent Technologies	G2939BA	This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit	Agilent Technologies	5067-4626	110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4.
MiSeq Reagent Kit v3	Illumina, Inc.	MS-102-3003	600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer	Illumina, Inc.	SY-410-1003	This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager	Illumina, Inc.		This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace	Illumina, Inc.	SW-410-1000	This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1	Qiagen	832000	Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2.
Annotate Variation			http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/refseq/
dbSNP138	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium	Broad Institute		http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort	University of Washington and the Broad Institute		http://evs.gs.washington.edu/EVS/
ClinVar	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/clinvar/
Combined Annotation Dependent Depletion	University of Washington and Hudson-Alpha Institute for Biotechnology		http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant	J. Craig Venter Instutite		http://sift.jcvi.org/
PolyPhen-2	Brigham and Women's Hospital, Harvard Medical School		http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database	Qiagen	834050	This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants	Frey lab, University of Toronto		http://tools.genes.toronto.edu/
Human Splicing Finder	Aix Marseille Université		http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

References

Metzker, M. L. Sequencing technologies – the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
Qiagen. . Gentra Puregene Handbook. , (2014).
NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User’s Manual. , (2007).
Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
Illumina, Inc. . MiSeq System Guide. , (2015).
. BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
. BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson’s disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson’s disease. Mov Disord. 21 (7), 906-909 (2006).
Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Dilliott, A. A., Farhan, S. M., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

Next-generation Sequencing en Bioinformatics pijpleiding om te evalueren van genetische determinanten van constitutionele ziekte gericht

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Next-generation Sequencing en Bioinformatics pijpleiding om te evalueren van genetische determinanten van constitutionele ziekte gericht

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below