Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Målrettet næste generation Sequencing og bioinformatik rørledningen for at evaluere genetiske determinanter for forfatningsmæssige sygdom

Published: April 4, 2018 doi: 10.3791/57266

Summary

Målrettet næste generation sequencing er en tid - og omkostningseffektiv tilgang, der bliver stadig mere populære i både forskning og klinisk diagnosticering. Protokollen beskrevet her præsenterer komplekse arbejdsprocessen kræves til sekvensering og bioinformatik processen bruges til at identificere genetiske varianter, der bidrager til sygdom.

Abstract

Next generation sequencing (NGS) er hurtigt revolutionerer hvordan forskning i de genetiske determinanter for forfatningsmæssige sygdom er udført. Teknikken er yderst effektiv med millioner af sekventering læser bliver produceret i et kort tidsrum og til en relativt lav pris. Specifikt er målrettet NGS at fokus undersøgelser genomisk regioner af særlig interesse baseret på sygdom i undersøgelsen. Ikke alene betyder dette yderligere reducere omkostninger og øge hastigheden på processen, men det mindsker den beregningsmæssige byrde, som ofte ledsager NGS. Selvom målrettede NGS er begrænset til visse regioner i genomet, kan forhindrer identifikation af potentielle roman loci af interesse, det være en fremragende teknik når de står med en fænotype og genetisk heterogene sygdomme, for hvilke der er tidligere kendte genetiske sammenslutninger. På grund af den komplekse karakter af sekventering teknik er det vigtigt at nøje overholde protokoller og metoder for at opnå sekventering læsninger af høj dækning og kvalitet. Yderligere, når sekventering læser er opnåede, en sofistikeret Bioinformatik arbejdsproces er udnyttet til at nøjagtigt kort læser til en reference genom, at kalde varianter og sikre varianterne passere quality metrics. Varianter skal også kommenteret og kurateret baseret på deres kliniske betydning, som kan standardiseres ved anvendelse af American College for medicinsk genetik og genomforskning patogenicitet retningslinjer. De metoder, der præsenteres heri vil vise de forskellige trin i generere og analysere NGS data fra en målrettet sekventering panel, ved hjælp af panelet ONDRISeq neurodegenerativ sygdom som en model til at identificere varianter, som kan være af klinisk betydning.

Introduction

Som definerer de genetiske determinanter for forskellige betingelser tager på en højere prioritet i forskning og i klinikken, næste generation sequencing (NGS) har vist sig for at være en høj overførselshastighed og omkostningseffektive redskab til at opnå disse mål1,2 ,3. I næsten 40 år, Sanger sekventering havde været guldstandarden til at identificere genetiske varianter4; dog, for sygdomme med genetiske heterogenitet eller ukendte genetiske ætiologi, mange mulig kandidat gener skal evalueres, ofte samtidigt. I forbindelse Sanger sekventering bliver dyrt og tidskrævende. NGS indebærer imidlertid massiv parallelle sekventering af millioner af DNA fragmenter, giver mulighed for en omkostnings- og effektive teknik til samtidigt afsløre en bred vifte af genetisk variation på tværs af forskellige regioner i genomet.

Der er tre typer af NGS for sekventering DNA: 1) hele-genome sequencing (WGS), 2) hele-exome sekventering (WES) og 3) målrettet sekventering5. WGS evaluerer hele genomisk indholdet af en individuel, mens WES indebærer sekventering kun de protein-kodende regioner i genomet6. Målrettet sekventering, fokuserer derimod på bestemte områder af genomet baseret på relativt få specifikke gener forbundet af fælles patologiske mekanismer eller kendt klinisk fænotype. Enten exons eller introns, eller enhver intergenic regioner af et gen eller en bestemt gruppe af gener kan angives ved hjælp af denne fremgangsmåde. Derfor kan målrettet sekvensering være en glimrende tilgang, når der er allerede et fundament af kandidat gener kendt for at være forbundet med sygdom af interesse. Rettet mod bestemte regioner i genomet giver mulighed for fjernelse af overflødige og irrelevant genetisk variation, der kan Sky eller distrahere fra kliniske fortolkning. Mens både WGS og WES producerer en stor mængde af data af høj kvalitet, kan mængden af data være overvældende. Ikke kun kræver denne store datamængder beregningskrævende Bioinformatik analyse, men dataopbevaring kan ofte præsentere problemer7. Denne udfordring af datalagring også tilføjer yderligere omkostninger til både WGS og WES, der anses ofte ikke i første omgang ved beregning af bekostning af sekventering. Yderligere, selv om det faldende, udgifter til WGS og WES forbliver relativt høje. Målrettet sekventering kan være en mere omkostningseffektiv løsning, især når sekventering af et stort antal individer er påkrævet.

The Ontario Neurodegenerative Disease Research Initiative (ONDRI) er en multi-platform, provincial-wide, observationelle kohorteundersøgelse kendetegner fem neurodegenerative sygdomme, herunder: 1) Alzheimers sygdom og mild kognitiv svækkelse, 2). Amyotrofisk lateral sklerose, 3) frontotemporal demens, 4) Parkinsons sygdom, og 5) vaskulære kognitiv svækkelse8. ONDRI genomforskning undergruppe sigter mod at belyse som en del af den oprindelige karakterisering af denne kohorte i disse fænotype og genetisk heterogene sygdomme ofte diskonteret, men yderst vigtige genetiske landskab. Neurodegenerative sygdomme er således egnede kandidater for NGS metoder og målrettede sequencing i særdeleshed.

Vi har custom-designet en målrettet NGS panel, ONDRISeq, at sekvens 528 deltagere involverede i ONDRI for de protein-kodende regioner af 80 gener, der har været tidligere forbundet med de fem sygdomme af interesse. Med denne metode er vi i stand til at udnytte den NGS data af høj kvalitet på en målrettet og effektiv måde. Design og validering af panelet ONDRISeq med flere konkordans undersøgelser har været tidligere beskrevet, som panelet ONDRISeq var i stand til at identificere roman, sjældne varianter af eventuelle kliniske betydning i 72,2% af 216 tilfælde anvendes til panelet validering 9. selv om NGS teknologien har udviklet sig hurtigt og bemærkelsesværdigt i de seneste år, mange forskere står over for en udfordring ved behandling af raw-data i en liste over anvendelig, kommenteret varianter10. Yderligere, fortolkning af varianterne kan være komplekse, især når de står med mange, som er sjældne eller roman11.

Her, beskriver vi i trinvist, metode af målrettede NGS og tilknyttede Bioinformatik arbejdsprocessen kræves til resequencing, variant gerning, og variant anmærkning med ONDRISeq undersøgelse som et eksempel. Efter generation af NGS data skal rå sekventering filer justeres menneskelige reference genom for at præcist kalde varianter. Varianter skal derefter være kommenteret for at udføre efterfølgende variant datasikring. Vi vil også forklare vores gennemførelse af American College of Medical Genetics standarder og retningslinjer til præcist klassificere variant sygdomsfremkaldende evne.

Protocol

Med henblik på ONDRI, blev etiske protokoller og informeret samtykke opnået, baseret på forskning etik Boards på Baycrest Center for geriatriske Care (Toronto, Ontario, Canada); Center for afhængighed og Mental sundhed (Toronto, Ontario, Canada); Elizabeth Bruyère Hospital (Ottawa, Ontario, Canada); Hamilton General Hospital (Hamilton, Ontario, Canada); London Health Sciences Centre (London, Ontario, Canada); McMaster (Hamilton, Ontario, Canada); Ottawa Hospital (Ottawa, Ontario, Canada); Parkwood Hospital (London, Ontario, Canada); St Michael's Hospital (Toronto, Ontario, Canada); Sunnybrook Health Sciences Centre (Toronto, Ontario, Canada); og University Health Network-Toronto Western Hospital (Toronto, Ontario, Canada).

1. DNA isoleret fra humant blodprøver

  1. Indsamle prøver fra sekventering deltagere i overensstemmelse med relevante etiske protokoller og informeret samtykke.
    1. For at få DNA af høj kvalitet, draw blodprøver med henblik på ekstraktion.
      Bemærk: DNA kan også være udvundet fra spyt eller buccale celler, sikrer, at en passende DNA udvinding kit bruges.
    2. Hvis udvinding fra blod, at opnå et højt udbytte af DNA, indsamle prøven i tre 4 mL EDTA K2 rør, giver en prøve af det samlede volumen ~ 12 ml.
    3. Der centrifugeres blodprøver i 20 min. ved 750 x g til brøk i en øvre fase af plasma, tynd, midten af leukocytter, og en bunden fase af erytrocytter.
  2. Fjerne plasmaet fra blodprøven af pipettering det off toppen af prøven med en engangs overførsel pipette. Passende kassere plasma eller dispensere i flere 500 µL delprøver til opbevaring på-80 ° C for fremtidige biokemiske analyser. Sikre, at en ny, sterile pipette bruges til hver prøve.
  3. Uddrag DNA fra blodprøven med en blod udvinding kit12 (Table of Materials) ifølge producentens anvisninger.
    Bemærk: Hvis en prøve af den mængde, der er beskrevet ovenfor er opnået, ~ 3 mL af leukocytter vil opnås hvis du vil bruge i DNA-ekstraktion.
  4. Måle DNA begyndelseskoncentration i ng/µL ved hjælp af en fuld-genfærd Spektrofotometer13 (Table of Materials), ifølge producentens anvisninger.
  5. Gå direkte til trin 2. Du kan også gemme DNA ved 4 ° C.

2. sekventering bibliotek forberedelse

  1. Udføre serielle fortyndinger på DNA-prøver i løbet af tre dage at opnå en endelig koncentration på 5,0 ± 1,0 ng/µL.
    1. Fortyndes 1 M Tris buffer pH 8,5 til 10 µM med deioniseret vand.
      Bemærk: Lydstyrken fortyndet vil afhænge af antallet af DNA-prøver, der skal fortyndes i de efterfølgende trin.
    2. Hvis udfører DNA fortynding direkte efter trin 1.4, fortsætte med følgende trin. Hvis ikke den samme dag, måle DNA koncentration som det var tilfældet i trin 1.4.
    3. Baseret på koncentrationen målt, fortyndes 40 µL DNA til ~ 10 ng/µL bruger 10 µM Tris buffer pH 8,5 og tillade prøve at sidde natten over ved 4 ° C.
    4. Måle DNA koncentration med en fluorometer14 passende til kvantificering af DNA (Table of Materials), ifølge producentens anvisninger.
      Bemærk: Koncentrationen af prøven skal være > 10 ng/µL på grund af den lavere følsomhed spektrofotometrets brugt tidligere.
    5. Baseret på koncentrationen målt, fortyndes 20 µL DNA til 10 ng/µL bruger 10 µM Tris buffer pH 8,5 og tillade prøve at sidde natten over ved 4 ° C.
    6. Måle DNA koncentration med fluorometer14, ifølge producentens anvisninger.
    7. Baseret på koncentrationen målt, fortyndet 10 µL DNA til 5 ng/µL bruger 10 µM Tris-HCl pH 8,5 og tillade prøve at sidde natten over ved 4 ° C.
  2. Forberede sekventering bibliotek ifølge producentens anvisninger med målrettede NGS panelets passende mål berigelse kit15 (tabel af materialer). Sikre at den berigelse kit er passende for den NGS platform bliver brugt.
    1. Følg producentens instruktioner16 med hensyn til plexity og pooling af biblioteker.
      Bemærk: For ONDRISeq, bibliotekerne består af 12 DNA-prøver, samles i sæt af to, og køre på NGS desktop instrument (Table of Materials). Antallet af prøver, der kan køres i en enkelt reaktion vil afhænge af sekventering kit og anvendte platform.
    2. For at opnå højere kvalitet sequencing data, udføre den valgfri skridt for at validere DNA bibliotek kvalitet efter tagmentation, beskrives i producentens undervisning mål berigelse kit15.
      1. Analysere hver bibliotek i tre eksemplarer til at sikre kvaliteten af bibliotek udbytte.
    3. Hvis pooling biblioteker, måling af DNA koncentration med fluorometer14, ifølge producentens anvisninger. Brug denne koncentration til at bestemme mængden af hver DNA bibliotek til poolen for at opnå de equimolar nøgletal anbefalet af target berigelse kit bliver brugt.

3. next generation Sequencing

  1. Sekvens bibliotek ifølge NGS desktop instrument reagens kit producentens instruktioner17,18 (tabel af materialer).
    1. Forberede en prøve ark ifølge producentens instruktioner18 ved hjælp af passende NGS teknologi software (Table of Materials), som vil blive importeret til NGS desktop instrument arbejdsgang.
      Bemærk: Med henblik på ONDRISeq program indstillingen valgt er 'andre', med kun de FASTQ filer anmodet om (figur 1). Efterfølgende trin vil behandle disse FASTQ filer, at give mulighed for komplet tilpasning af justering og kvalitetsparametre. Men hvis målrettede sekventering er valgt, nogle NGS instrumenter er stand til at behandle sequencing data til VCF filer, sig selv. Producentens instruktioner18 kan høres for en fuld udvælgelse af muligheder.
    2. Hvis bruger en cloud-baseret computing miljø19 (Table of Materials), log ind, når du konfigurerer sekvensnummerering køre. Gøre dette efter at have klikket "Sekventering" på hjemmesiden NGS desktop instrument.
    3. Efter bibliotek denaturering18 ifølge fabrikantens anvisninger, måle DNA bibliotek koncentration med fluorometer14.
    4. Validere DNA bibliotek kvalitet ved hjælp af en passende automatiseret elektroforese system og DNA kvalitet analyse kit20 (Table of Materials), ifølge producentens anvisninger.
    5. For at konvertere DNA koncentration fra ng/µL til nM, bruge den følgende formel16
      Equation
      NOTE: Gennemsnitlige bibliotek størrelse vil være specifikke for mål berigelse kit bliver brugt, og kan fås fra elektroforese trace observeret i trin 3.1.4.
    6. Fortyndes sekventering bibliotek til en endelig koncentration på 6-20 pM, som passende, og mængden af 600 μl, ifølge producentens instruktioner21.
      Bemærk: Den nøjagtige koncentration behov er afhængige af sekventering kit bruges. Konsultere berigelse kit producent for at bestemme korrekt indlæsning koncentrationen.
    7. Fortyndes, denaturere og omfatter en positiv kontrol sekventering bibliotek21, ifølge producentens anvisninger.
    8. Hold en log over hver sekventering, køre, som omfatter den DNA bibliotek koncentration indlæst (pM), procentdel af positiv kontrol tilføjet, reagens patron stregkode, valgte i trin 3.1.1, antallet af indeks læser, berigelse kit bruges, læse length(s), og den prøven arkets navn.
      Bemærk: Operationstiden for NGS desktop instrument vil afhænge af instrumentet, berigelse kit, og læse længder valgt (4 – 56 h for sequencer anvendes i dette eksperiment22).
  2. Efter afslutningen af sekventering run, adgang til "køre mappen", som omfatter alle udgange, ved navigering til NGS desktop instrument startsiden og klikke på "Administrer filer". Flyt filerne til et lokalt drev til senere adgang. For en separat mulighed, på en computer, skal du finde filer i den cloud-baserede computing miljø19 ved at vælge "Kører" på navigationspanelet. Vælg den passende sekventering køre til at navigere til siden Run Resumé. Vælg "Download" for at hente data fra skyen. Fra den viste dialogboks skal du vælge FASTQ-filer som filtype download, og klik på "Download".
  3. Fra siden Run Resumé af den skybaserede computing miljø19,23, navigere til "Diagrammer" til at analysere kvaliteten af sekventering køre med de forskellige tal fremstillet ved den computermiljø. Henvise til producentens instruktioner23 for oplysninger om hver figur produceret.
    1. Find figur mærket "Data af cyklus" siden køre diagrammer. Vælg "Intensitet" under diagrammet, og vælg "Alle kanaler" under kanal. Sikre, at dette signal intensitet plot produceret er lig den, produceret af sekventering kører udført i fortiden med samme berigelse kit og NGS desktop instrument.
      Bemærk: Dette afspejler procentdelen af intensitet vist af hvert base på tværs af alle 150 cyklusser. Tallet kan variere meget afhængigt af den berigelse kit bruges, hvorfor det skal være i forhold til tidligere sekventering kørsler af samme panel.
    2. Vælg fanen "Indeksering QC" i den opstille navigationspanel at finde indeksering kvalitetskontrol (QC) histogrammet, som er på højre side af siden. Sikre, at en forholdsvis ensartet fordeling af % læser identificeret (PF) er observeret på tværs af alle prøver.
      Bemærk: Hvis nogen prøver har en langt lavere % læser identificeret (PF) end resten af prøverne, Bemærk at kvaliteten af sequencing data kan blive påvirket.
  4. Fra siden Run Resumé af den skybaserede computermiljø navigere til måleværktøjer, kvalitet ved at klikke på "Målinger" i det opstille navigationspanelet.
    Bemærk: Metrics cut-offs afhænger sekventering platform og berigelse kit bliver brugt. Der er mange målinger, der kan udnyttes baseret på producentens instruktioner23, med følgende fremhæve tre, der er stærkt anbefales til kvalitetskontrol.
    1. Under "Tæthed (K/MM2)" sikre klynge tæthed er inden for de anbefalede af tilsætning kit bruges (i dette tilfælde 1.200-1.400 K/mm2).
    2. Under samlet "% ≥Q30" sikre, at værdien er ≥85%, hvilket afspejler kvaliteten af sekventering læser.
      Bemærk: Hvis den er lavere end denne tærskel på 85%, Bemærk at kvaliteten af sekvenseringen kan være kompromitteret.
    3. Under "Justeret (%)" sikre, at værdien er lig positiv kontrol, der blev inkluderet i sekventering køre %.
      Bemærk: Dette fungerer som en foranstaltning af positiv kontrol, således at kun denne procentdel af samlede læser fandtes for at tilpasse til positiv kontrol genom. Hvis 1% positiv kontrol blev brugt det forventes, at justeret (%) ville være ~ 1-5%.

Figure 1
Figur 1: Screenshot af NGS teknologi software's (Table of Materials) prøve creator ansøgning Arkindstillinger. For så vidt angår ONDRISeq bruges er FASTQ kun anvendelsen. Men hvis brugeren gerne andre filer produceret, såsom VCF filer, anbefales det at et program inden for kategorien målrettede resequencing bruges. Venligst klik her for at se en større version af dette tal.

4. resequencing og Variant ringer

  1. For data forbehandling, vælge passende software til at justere de rå FASTQ filer til det menneskelige reference genom og at kalde varianter (Tabel af materialer).
  2. Importere FASTQ sekventering læser til data forbehandling software.
    Bemærk: Med henblik på ONDRISeq, de 48 FASTQ filer er fremstillet af en enkelt sekventering køre 24 prøver indføres og behandles gennem softwaren. Antallet af prøver behandles på én gang kan variere afhængigt af behovene hos forskeren og størrelsen af panelet NGS.
    1. Inden for "navigationsområde", højreklik og vælg "Ny mappe". Navnet mappen således, at der er klarhed over Sekventeringen køre der blev udført.
    2. Fra værktøjslinjen øverst, skal du vælge "Import". Fra dropdown valgte listen over sekventering platforme vist platform som Sekventeringen blev udført.
      Bemærk: Med henblik på ONDRISeq, "Illumina" er valgt. Men hvis bruger en anden sekventering platform consult producentens anvisninger for den resterende del af FASTQ import trin24.
    3. I dialogboksen, Naviger til og vælg FASTQ filer fra Sekventeringen Kør der behandles. Sikre, at filerne importeres er lagret i og importeret fra det lokale drev, hvis du bruger en computer med flere servere.
    4. Klik på feltet ud for "Forbundne læser" fra "generelle indstillinger" i dialogboksen, hvis sekventering anvendes parrede ende kemi.
      Bemærk: I dette tilfælde, der bør også være to FASTQ prøver importeres for hver prøve - én frem og én tilbage.
    5. Forbundne læse oplysninger i dialogboksen, Vælg "Forbundne-udgangen (frem-tilbage)" Hvis Videresend læse FASTQ fil vises før den omvendte Læs i fillisten. Hvis filerne vises i den modsatte rækkefølge, skal du vælge "Makker-par (reverse-forward)". Sæt parrede Læs minimumsafstand til 1 og maksimal afstand til 1000, at muliggøre påvisning af små strukturelle rearrangementer inden prøven sekvenser.
    6. "Illumina options" dialogboksen, Vælg "Fjern mislykkedes læsninger", til at fjerne de læser, der mislykkedes sekvensering. Hvis NGS desktop instrument de multipleksede markerer data før du eksporterer FASTQ filer ikke boksen "MiSeq de multiplexing".
    7. "Kvalitetsresultat" dropdown listen, Vælg NGS rørledningen, der blev udnyttet til sekvensering. Vælg "Næste" nederst i dialogboksen.
      Bemærk: Rørledningen bruges vil påvirke format FASTQ fil kvalitetsresultater. Du kan finde flere oplysninger om hvilke rørledning til Vælg konsultere producentens instruktioner24.
    8. Fra den nye dialogboks, Vælg "Gem" og "Opret undermapper pr. bad enhed at sætte hver prøve FASTQ filer til deres egen individuelle mappe. Vælg "Næste" nederst i dialogboksen.
    9. Vælg den mappe, der blev oprettet i trin 4.2.1 fra dialogboksen Ny. Dette er, hvor FASTQ filerne vil blive importeret. Vælg "Afslut" i bunden af dialogboksen og vente, indtil FASTQ-filer importeres. Klik på fanen "Processer" for at se status for filimport.
  3. Designe en arbejdsgang inden for software til at udføre resequencing og variant kræver, ifølge producentens anvisninger.
    Bemærk: Denne arbejdsproces kan variere afhængigt af behovene, som forskeren, men denne fremgangsmåde omfatte hvad er inkluderet med henblik på ONDRISeq (figur 2). Trinene i denne arbejdsproces kan anvendes til andre NGS resequencing og variant kaldende software som passende. Alle Bioinformatik forarbejdning med henblik på ONDRI er udført i forhold til menneskets reference genom GRCH37/hg19, for konsekvens af databehandling og analyse.
    1. Tilknyttes reference genome sequencing læser.
      1. Når du konfigurerer, skal du vælge reference genom som passende, at sikre, at det er samme reference genomet, der bruges til alle Bioinformatik trin.
      2. Rullelisten Vælg maskering tilstand "Ingen maskering" så at ingen regioner af reference sekvens er maskeret.
      3. Brug standard kortlægning optioner tildelt af softwaren. Gennemgå producentens instruktioner24 for at kontrollere at dette er acceptabelt udgangspunkt med henblik på forskning.
    2. Omfatte i arbejdsprocessen lokale kursjustering at menneskelige reference genom til at løse enhver læse kortlægning fejl, især omkring indsættelse-sletning varianter.
      1. Bruge standard lokale kursjustering optioner tildelt af softwaren. Gennemgå producentens instruktioner24 for at kontrollere at dette er acceptabelt udgangspunkt med henblik på forskning.
    3. Fjerne duplikerede tilknyttede læser produceret af PCR inden for NGS-protokollen til at reducere effekten af PCR forstærkning bias, som kan producere falske positiver25.
      1. Indstil "maksimal repræsentation af mindretal sekvens (%)", baseret på behovene i forskningen.
        Bemærk: En eftergivende indstilling, som bruges i forbindelse med ONDRISeq, er 5%; Men, den software standardindstillingen er strengere 20%. Når to læser er meget ens, bestemmer denne indstilling, hvis sekvensen med færre Læs tæller bør overvejes fejlen sekventering af PCR forstærkning bias. Derfor, Læs mindretal ved indstilling af 5%, count skal være ≤ 5% af fleste læse count skal korrigeres for at være identiske med de fleste læse.
    4. Eksportstatistikker for destinationsområderne i form af en dækning sammenfattende tekstfil fra Læs spor genereret i trin 4.3.3. Ignorere ikke-specifikke kampe og brudt par i indstillingerne. Vælger du en destination på det lokale drev for disse filer.
    5. Eksportere en binær sekvens justering kort (BAM) fil for hver prøve fra Læs spor genereret i trin 4.3.3. Dette indeholder sequence alignment data, om nødvendigt i fremtidige analyser. Vælger du en destination på det lokale drev for disse filer.
    6. Vælg en metode fra variant påvisning at kalde varianter i sekvensen.
      Bemærk: Når antagelser kan gøres om Ploidi af prøverne, anbefales det, at en fast Ploidi variant opdagelse algoritme bruges, som bruges i forbindelse med ONDRISeq. Hvis denne antagelse ikke kan gøres, henvises til fabrikantens instruktioner24 til at bestemme den bedste algoritme med henblik på forskning.
      1. Når du konfigurerer, fra det faste Ploidi variant parametre indstillinger angivet Ploidi som passer til den prøve organisme. Sæt "kræves variant sandsynligheden" eller sandsynligheden for at en variant har været korrekt kaldes i at blive bevaret på 90.0%.
      2. Brug følgende anbefalede indstillinger for generelle filtre: "minimumsdækning" af 10 x, "Minimum optælling" af 2, "Minimum læse frekvens" på 20%, "Ignorer brudt par", ignorere uspecifik kampe baseret på "Læser" og "Minimum læse længde" af 20.
        Bemærk: Disse parametre er baseret på anvendelsen af ONDRISeq. Henvise til producentens instruktioner24 at sikre de er passende for den forskning, der udføres.
      3. Brug følgende anbefalede indstillinger for støjfiltre: "Base kvalitet filtre" med et "naboskab radius" kortlægning kvalitet score på 5, "Minimum centrale kvalitet" mapping score på 20, og "Minimum kvarter kvalitet" mapping score på 15; et "Læs retning filter" på 5,0%; og "Relativ læse retning filter" 1,0% betydning.
        Bemærk: Disse parametre er baseret på anvendelsen af ONDRISeq. Henvise til producentens instruktioner24 at sikre de er passende for den forskning, der udføres.
    7. Filtrere de varianter, der er blevet kaldt baseret på deres overlapning med målrettede panelet målområder som anført af filen Browser Extensible Data (BED) tillader kun varianter forekommer inden for regionerne genomisk valgt til panelet målrettede NGS at være bevaret.
      Bemærk: Filen seng vil være unikke for målrettede NGS panelet, der er ved at blive udnyttet, baseret på områder af genomet, at panelet er i stand til at dække.
    8. Eksportere en variant rapport i en variant kaldende format (VCF) fil fra variant sporet produceret taktfast 4.3.7. Vælger du en destination på det lokale drev for disse filer.
    9. Gemme og installere arbejdsprocessen ifølge producentens instruktioner24, for at gøre det tilgængeligt i software's "værktøjskasse". Sikre arbejdsprocessen er navngivet sådan, at det er klart i fremtiden, hvad NGS panel det er hensigtsmæssigt.
      1. I dialogboksen med "Eksporterende referencedata" valgmuligheder under installationen, indstille alle indstillinger til "Bundt".
      2. I dialogboksen med indstillingerne "Installationsplacering" under installationen, skal du klikke på "Installere arbejdsprocessen på din lokale computer".
  4. Køre importerede FASTQ sekventering Læs filer gennem tilpassede Bioinformatik arbejdsgangen designet i trin 4.3, ifølge producentens instruktioner24.
    1. Identificere arbejdsgangen designet i trin 4.3 i softwarens "værktøjskasse" og dobbeltklik på den.
    2. Find mapper FASTQ filer, der blev importeret i trin 4.2 inden for området"Navigation" i den viste dialogboks. Fremhæve alle mapper ved at vælge dem inden for området"Navigation" og klik derefter på boksen ved siden af "Batch". Brug vender mod højre pil til at flytte filerne til "Markerede elementer". Klik på "Næste" nederst i dialogboksen.
    3. I dialogboksen, gennemgå oversigten"Batch" til at sikre de korrekte FASTQ filer blev valgt, og klik derefter på "Næste".
    4. Gennemgå følgende trin i arbejdsprocessen i dialogboksen for at sikre, at de korrekte filer og eksportere steder blev valgt ved udformningen af arbejdsprocessen i trin 4.3: "Kort læser til Reference"; Fjern dubletter tilknyttede læser"; "Opret statistik for destinationsområderne"; "Eksporter BAM"; "Eksport tabulatorsepareret tekst"; "Filter baseret på overlapning"; og "Eksporter VCF"
    5. Inden for det sidste trin i dialogboksen Gem-"resultere håndtering" - Vælg indstillingen"i input mappe". Klik på "Udfør" nederst i dialogboksen.
      Bemærk: Dette betyder, at filerne produceret for hver prøve vil blive placeret i den samme mappe, der indeholder filen FASTQ i de data, før forarbejdning software.

Figure 2
Figur 2: arbejdsgang for resequencing og variant udskrivelse af FASTQ filer i de data, før forarbejdning software (Table of Materials) tilpasset med henblik på ONDRISeq. Trin i arbejdsprocessen kan anvendes til andre NGS resequencing og variant kaldende software baseret på forskerens behov. Venligst klik her for at se en større version af dette tal.

5. variant anmærkning

  1. Hent og tilpas anmærke Variation (ANNOVAR)26 script til at udføre variant anmærkning på filen VCF af hver prøve.
    1. Download følgende databaser fra ANNOVAR til at indgå som anmærkninger: 1) RefSeq27 (August 2015 opdatering); 2) dbSNP13828 (September 2014 opdatering); 3) i Exome Aggregation konsortium29 (ExAC, version 0,3 November 2015 opdatere); 4) den nationale hjerte-, lunge- og Blood Institute Exome sekventering projekt Europa kohorte30 (ESP, marts 2015 opdatering); 5) til 1000 genomer projekt Europa kohorte31 (1KGP, August 2015 update); 6) ClinVar32 (marts 2016 opdatering); og 7) kombineret anmærkning afhængige udtynding33 (CADD), sortering intolerante fra Tolerant34 (STØVTÆTTE), og PolyPhen-235.
      Bemærk: Genom koordinerer og alle databaser, som der refereres til af ANNOVAR henvises til menneskelige genom build GRCh37/hg19. Derudover er database versioner anførte dem, der anvendes i forbindelse med ONDRISeq, når downloadet databaserne bruger de mest up to date versioner tilgængelige.
    2. Hvis det ønskes, tilpasse ANNOVAR at sende den fuldstændige liste over kommenteret varianter, samt en mindre samling af kommenteret varianter ved hjælp af--filter drift26.
      Bemærk: Listen reduceret kan være tilpassede baseret på behovene hos forskeren. Med henblik på ONDRISeq, reduceret listen annoteret varianter omfatter ikke varianter, forekomme længere end 15 baser fra den nærmeste exon eller varianter med en mindre allel frekvens (MAF) > 3% i nogen af de tre databaser: 1) ExAC; 2) ESP; og 3) 1KGP. Dette trin er stærkt anbefales.
    3. Hvis det ønskes, tilpasse ANNOVAR til at fremhæve bestemte allel opkald baseret på behovene hos forskeren26.
      Bemærk: Med henblik på ONDRISeq, ANNOVAR vurderer sekventering opfordringer til APOE risiko alleler rs429358 (C > T):p.C130R og rs7412 (C > T):p.R176C for at output samlede APOE genotype, hvoraf der er seks mulige kombinationer, herunder: 1) E2/E2; 2) E3/E2; 3) E4/E2; 4) E3/E3; 5) E4/E3; 6) E4/E4. Af disse seks mulige APOE genotyper er E4/E4 den mest almindeligt accepterede genetiske risikofaktor for at udvikle sent indsættende Alzheimers sygdom36.
  2. Forespørge sygdommen mutation databaser (tabel af materialer) til at bestemme, hvis varianter har været tidligere forbundet med sygdom, med rimelig dokumentation. Overveje eventuelle varianter, der ikke er tidligere blevet rapporteret som en roman variant.
    1. Vurdere ANNOVAR anmærkninger fra ClinVar, sådan at de sygdom-associerede varianter inkluderer nogen klassificeret som sandsynligvis patogene eller sygdomsfremkaldende.
  3. Processen splejsning varianter gennem i siliciummangan forudsigelse værktøjer Splicing-baseret analyse af varianter37 (SPANR) og menneskelige splejsning Finder38 (HSF, version 3.0).
  4. Hvis behandling af et stort antal prøver, sammenligne de variant opkald inden for hver enkelt prøve til at afgøre, hvilke varianter der deles af forskellige prøver. Gøre dette manuelt eller med en specialdesignet script, giver mulighed for påvisning af mulige sekventering artefakter og forurening begivenheder.
    Bemærk: Med henblik på ONDRI, er et brugerdefineret script bruges til at anmærke ANNOVAR outputfiler ved at sammenligne dem med hinanden. Scriptet inkorporerer en annotering, pr. variant, med nogen andre prøver husly den samme variant, ellers kaldes den variant historie i studie kohorten emne-ID'ET.
  5. Klassificere varianter baseret på American College of Medical Genetics (ACMG) patogenicitet retningslinjer39, tildele hver variant en klassificering som et af følgende: 1) patogene; 2) sandsynligvis patogene; 3) variant af usikker betydning; 4) sandsynligvis godartede; eller 5) godartede.
    Bemærk: Med henblik på ONDRI, en in-house designet Python script bruges til at udføre ACMG klassificering på grundlag af semi-automatiserede. Selv om ikke bruges til denne undersøgelse, er InterVar40 en tilsvarende designet værktøj, der kan udnyttes på en tilsvarende måde.
  6. Sanger sekvens varianter med en sekventering dækning af < 30 x og/eller varianter, der er blevet identificeret i > 10% af studie kohorten hen til efterprøve at de ikke sekventering artefakter41.

Representative Results

De metoder, der er beskrevet heri blev anvendt til 528 deltager DNA-prøver fra enkeltpersoner, der har været indskrevet i ONDRI. Prøver blev kørt på panelet ONDRISeq i 22 kører af 24 prøver pr. løb. Samlet set sequencing data var fast besluttet på at være af høj kvalitet med en gennemsnitlig prøve dækning af 78 ± 13 x og alle individuelle kører udtrykt en gennemsnitlig prøve dækning > 30 x. Yderligere, i gennemsnit, 94% af alle målområder var dækket mindst 20 x (tabel 1).

En gennemsnitlig 95,6% af læser var knyttet til reference sekvens og alle ONDRISeq kører havde > 90% af læser kortlagt (tabel 1). Af den tilknyttede læser 92.0% havde en Jytte score ≥Q30, med kun én køre under < 80% af tilknyttede læser møde denne metrikværdi for kvalitet. Dog denne flugt stadig vises en gennemsnitlig dækning af 79 x og 93% af mål for regioner var dækket mindst 20 x.

Parameter Middelværdi (±sd) Bedste ydeevne Fattigste ydeevne
Klynge tæthed (x 103/mm2) 1424 (±269) 1347 1835
I alt læser (106) 43.1 (±6.0) 48,7 47.4
Kortlagt læser (106) 40,1 (±6.0) 47.1 25,7
Tilknyttede læser (%) 95,6 (±1.3) 96,8 92,6
Jytte kvalitet Score ≥Q30 (%) 92.0 (±6.0) 92 68.3
Prøven dækning (x) 78 (±13) 99 51

Tabel 1: Sequencing kvalitet målinger for 22 kører på ONDRISeq.

Case Study: Identifikation af sjældne varianter i en PD patient.

For at påvise nytten af vores målrettede NGS workflow, præsenterer vi eksemplet med en 68-årig, mandlige, Parkinsons sygdom patienten. DNA-prøven blev kørt på NGS desktop-instrumentet (Table of Materials) ved hjælp af panelet ONDRISeq sammen med 23 andre ONDRI prøver. Kør vises en klynge tæthed af 1,555 x 103/mm2. Patientens bestemt prøve vises en gennemsnitlig dækning af 76 x, med 93,9% af målet regioner omfattet mindst 20 x.

Efter at have optrådt variant kald og annotation med brugerdefinerede Bioinformatik arbejdsproces, patienten blev fundet til havnen 1351 varianter inden for exons og omkringliggende 250 bp af de 80 gener inkluderet på panelet ONDRISeq. Men ANNOVAR rørledningen var i stand til at reducere antallet af varianter af overvejer variant sekvens ontologi og MAF, som beskrevet ovenfor. Dette udarbejdet en liste over syv varianter, der undergik manuel datasikring (figur 3). Fra disse syv varianter, blev to identificeret som havende mulige klinisk betydning. Denne proces er specifikke behov, ONDRI og blev gjort ved at identificere dem, der er relativt sjælden i den almindelige befolkning og er nonsynonymous i ontologi derved forårsager en ændring i proteinet. Om varianten havde været tidligere forbundet med sygdom, var i siliciummangan forudsigelser af deleteriousness til protein og ACMG patogenicitet klassificering af varianterne også udnyttes i denne proces.

Den første identificeret fra den reducerede liste var en heterozygous variant, nemlig LRRK2: c.T3939A, hvilket resulterer i nonsens variant p.C1313*. LRRK2 koder protein leucin-rig gentage Kinase 2, som besidder både GTPase og kinase aktivitet42. Desuden er mutationer i dette gen kendt for at være blandt de førende årsager til familiær Parkinsons sygdom43. Denne variant introducerer en tidlig stop codon inden for LRRK2, derved mister amino-syre rester 1,314 – 2, 527. Dette forhindrer oversættelse af det protein Ras af komplekse proteiner (Roc), C-terminal på Roc (COR) og protein kinase domæner, der er involveret i fungerer som en atypisk Rho GTPase, GTP bindende protein og protein kinase, henholdsvis, og blev forudsagt at være skadeligt i siliciummangan analyse genereres af CADD (CADD Jytte = 36). Denne variant er også sjældent med en MAF 0,004% og 0,01% i ExAC og ESP, henholdsvis, og er fraværende fra 1000G database. Desuden, er dette den eneste patient ud af alle 528 sekventeret, der bærer denne variant, som romanen da det ikke har været tidligere beskrevet i sygdommen mutation databaser (Table of Materials). Tillid til variant opkaldet blev bekræftet af dens dybe dækning af 109 x. Endelig, varianten blev vurderet med de AMCG standarder og retningslinjer for sygdomsfremkaldende evne og blev klassificeret som værende patogene.

Patienten også foretaget en anden heterozygous variant, NR4A2: c.C755A, hvilket resulterer i missense ændring p.P252Q. Proteinet kodet af NR4A2, nukleare Receptor underfamilie 4 gruppe A medlem 2, er en transkriptionsfaktor, der er involveret i generation af dopaminerge neuroner44 og mutationer i dette gen har været tidligere forbundet med Parkinsons sygdom45. Substitution af det upolære prolin til polar glutamin blev forudsagt til at være skadelige ved den i siliciummangan forudsigelse analyse genereres af CADD (CADD Jytte = 21.1), men ikke af den analyse, der er genereret af SIFT eller PolyPhen-2. Varianten er sjælden, med en MAF 0,004% i ExAC og fravær fra både ESP og 1000G. Varianten blev også fundet i en ONDRI deltager diagnosen vaskulær kognitiv svækkelse, men har ikke tidligere været beskrevet i sygdommen mutation databaser. Denne variant havde dækning af kun 18 x, men Sanger sekventering vil blive udført for at sikre dens gyldighed inden for sekvensen. Endelig, varianten var besluttet på at være usikker betydning når vurderes med de ACMG standarder og retningslinjer for sygdomsfremkaldende evne.

ONDRISeq panel og bioinformatik rørledningen er også i stand til at bestemme APOE genotypen af hver prøve. Denne patient var fast besluttet på at have APOE genotype E3/E3.

Figure 3
Figur 3: eksempel på et nedsat output fra ANNOVAR fremvisningen manuelt kurateret, kommenteret varianter. Den reducerede ANNOVAR output fra casestudie af en 68-årig, mandlige, patient med Parkinsons sygdom. Kommenteret varianter er kurateret for at identificere dem, der er mest sandsynligt at være af klinisk betydning, som angivet af de røde kasser. Venligst klik her for at se en større version af dette tal.

Discussion

På vej fra DNA prøve udvinding til at identificere varianter, der kan være af interesse, når man overvejer en patients diagnose, sygdomsprogression og mulige behandlingsmuligheder, er det vigtigt at anerkende den mangfoldige natur af den metode, der kræves for både sekvensering og ordentlig behandling. Protokollen beskrevet heri er et eksempel på udnyttelsen af målrettede NGS og efterfølgende bioinformatic analyse væsentligt at identificere sjældne varianter af potentiel klinisk betydning. Specifikt, præsenterer vi ONDRI genomforskning undergruppe fremgangsmåde, når du bruger panelet ONDRISeq specialdesignede NGS.

Det erkendes, at disse metoder blev udviklet baseret på en specifik NGS platform og at der er andre sekventering platforme og target berigelse kits, der kan bruges. Dog blev NGS platform og desktop instrument (Table of Materials) valgt på grundlag af sin tidlige US Food and Drug Administration (FDA) godkendelse46. Denne tilladelse afspejler høj kvalitet sekventering, der kan udføres med protokollerne NGS valg og pålidelighed, der kan placeres på sekventering læser.

Selv om at opnå nøjagtig sekventering læser med dybden af dækningen er meget vigtigt, Bioinformatik behandling kræves for endelige sjælden variant analyse er afgørende og kan være beregningskrævende. På grund af de mange kilder til fejl, der kan forekomme inden for sekventering proces, skal en robust Bioinformatik rørledning korrigere for de forskellige unøjagtigheder, der kan indføres. De kan opstå som følge af forskydninger i tilknytningsprocessen, forstærkning bias indført ved PCR-amplifikation i biblioteket forberedelse og technology producerer sekventering artefakter47. Uanset den software, der bruges til at udføre Læs kortlægning og variant kald, er der fælles måder at reducere disse fejl, herunder lokale kursjustering, fjernelse af dubletter tilknyttede læser, og indstille ordentlig parametre for kvalitetskontrol, når du ringer varianter. Derudover kan de parametre, der er valgt under variant kald variere baseret på hvad der er mest hensigtsmæssigt for at studere på side11. Minimumsdækningen og kvalitetsresultat en variant og de omkringliggende nukleotider, der blev anvendt heri var valgt at skabe en balance mellem passende specificitet og sensitivitet. Disse parametre er blevet valideret for panelet ONDRISeq baseret på variant kaldende konkordans med tre separate genetiske teknikker, som tidligere beskrevet, herunder: 1) chip-baserede genotypebestemmelse; 2) allel forskelsbehandling assay; og 3) Sanger sekventering9.

Efter nøjagtig variant kræver, for at bestemme de af potentiel klinisk betydning, er Kommentering og datasikring afgørende. På grund af sin åbne platform er ANNOVAR et fremragende værktøj til både annotation og foreløbige variant screening eller eliminering. Ud over at være lettilgængelige, ANNOVAR kan anvendes til enhver VCF fil, uanset hvilken sekventering platform er brugt, og er tilpasselig baseret på behovet for forskning26.

Efter anmærkning fortolkes varianter for at bestemme, hvis de skal betragtes som værende af klinisk betydning. Ikke alene gør denne proces bliver kompliceret, men det er ofte udsat for subjektivitet og menneskelige fejl. Derfor har ACMG sæt retningslinjer til at vurdere beviserne for sygdomsfremkaldende evne af enhver variant. Vi anvender en ikke-synonym, sjælden variant-baserede manuel datasikring tilgang, der er bygget baseret på disse retningslinjer og tilgodeset ved individuelt at vurdere hver variant, der er i stand til at passere gennem rørledning med et specialdesignet Python script som klassificerer varianter baseret på retningslinjerne. På denne måde, hver variant er tildelt en rangordning af patogene, sandsynligvis patogene, usikker betydning, sandsynligvis godartede, eller godartet, og vi er i stand til at tilføje standardisering og gennemsigtighed til variant datasikring proces. Det er vigtigt at anerkende, at detaljerne i variant datasikring, ud over Bioinformatik-rørledningen, vil individualiseres baseret på behovene i forskningen, og var derfor uden for rammerne af de metoder, der er præsenteret.

Selv om de metoder, der præsenteres her er specifikke for ONDRI, kan trinene beskrevet oversat, når man overvejer et stort antal konstitutionelle sygdomme af interesse. Efterhånden som antallet af genet foreninger øges for mange fænotyper, målrettede NGS giver mulighed for en hypotese drevet tilgang, der kan udnytte den tidligere forskning, der er blevet gjort i feltet. Der er dog begrænsninger til målrettede NGS og metodik præsenteres. Ved kun at fokusere på bestemte områder af genomet, er områder af discovery begrænset til romanen alleler af interesse. Derfor roman gener eller andre genomisk loci ud over dem, der er omfattet af sekventering mål, som kunne blive afsløret med WGS eller WES tilgange, ikke vil blive identificeret. Der er også regioner i genomet, der kan være svært at nøjagtigt sekvens med NGS tilgange, herunder dem med en høj grad af gentagne sekvenser48 eller dem, der er rige på GC indhold49. Heldigvis, når udnytte målrettet NGS, der er en priori en høj grad af fortrolighed med de genomiske regioner er sekventeret, og om disse kan indebære tekniske udfordringer. Endelig, påvisning af kopi nummer varianter fra NGS data på nuværende tidspunkt er ikke standardiseret50. Bioinformatik løsninger på disse betænkeligheder kan imidlertid være i horisonten; nye beregningsmæssige værktøjer kan hjælpe til at analysere disse yderligere former for variation i ONDRI patienter.

Trods sine begrænsninger er målrettede NGS stand til at få data af høj kvalitet, inden for en hypotese-drevet strategi, mens de resterende billigere end dens WGS og WES modparter. Ikke alene er denne metode passende for effektiv og styret forskning, kliniske gennemførelse af målrettede NGS vokser eksponentielt. Denne teknologi bruges til at besvare mange forskellige spørgsmål om den molekylære veje af forskellige sygdomme. Det er også udvikles til en nøjagtig diagnostisk redskab til en relativt lav pris når imod WES og WGS. Selv sammenlignet med guld-standard Sanger sekventering, målrettet kan NGS outcompete i sin tid - og omkostninger-nyttevirkning. Af disse grunde er det vigtigt for en videnskabsmand eller kliniker, der modtager og bruger NGS data, for eksempel, leveres som tekst i et laboratorium eller kliniske rapport, for at forstå komplekse "black box", der ligger til grund for resultaterne. De metoder, der præsenteres heri bør hjælpe brugerne at forstå processen underliggende generation og fortolkning af NGS data.

Disclosures

Forfatterne har ikke noget at oplyse.

Acknowledgments

Vi vil gerne takke alle ONDRI deltagere for deres samtykke og samarbejde med vores undersøgelse. Tak til ONDRI efterforskere (www. ONDRI.ca/people), herunder vores ledende efterforsker (MJS), og ONDRI for udvalg: forretningsudvalg, styregruppe, publikation udvalget, rekruttere udvalget, vurdering platforme og project management team. Vi takker også London Regionalcentret genomforskning for deres tekniske ekspertise. AAD understøttes af Alzheimers Society of London og Middlesex mestre Graduate Research Scholarship. SMKF understøttes af ALS Canada Tim E. Noël postdoc stipendium.

Materials

Name Company Catalog Number Comments
4 mL EDTA K2 tubes Fisher Scientific 02-689-4
1 M Tris Buffer Bio Basic Canada Inc. SD8141
Gentra Puregene Blood Kit Qiagen 158389 1,000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer Thermo Fisher Scientific ND-2000 Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer Invitrogen Q32866 This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit Illumina, Inc. FC-140-1009 Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer Agilent Technologies G2939BA This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit Agilent Technologies 5067-4626 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. 
MiSeq Reagent Kit v3 Illumina, Inc. MS-102-3003 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer Illumina, Inc. SY-410-1003 This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager Illumina, Inc. This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace Illumina, Inc. SW-410-1000 This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1 Qiagen 832000 Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2
Annotate Variation http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq National Center for Biotechnology Information https://www.ncbi.nlm.nih.gov/refseq/
dbSNP138 National Center for Biotechnology Information https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium Broad Institute http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort University of Washington and the Broad Institute http://evs.gs.washington.edu/EVS/
ClinVar National Center for Biotechnology Information https://www.ncbi.nlm.nih.gov/clinvar/
Combined Annotation Dependent Depletion University of Washington and Hudson-Alpha Institute for Biotechnology http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant J. Craig Venter Instutite http://sift.jcvi.org/
PolyPhen-2 Brigham and Women's Hospital, Harvard Medical School http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database Qiagen 834050 This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants Frey lab, University of Toronto http://tools.genes.toronto.edu/
Human Splicing Finder Aix Marseille Université http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

DOWNLOAD MATERIALS LIST

References

  1. Metzker, M. L. Sequencing technologies - the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
  3. Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
  4. Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
  5. Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
  6. Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
  7. Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
  8. Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
  9. Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
  10. El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
  11. Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
  12. Qiagen. Gentra Puregene Handbook. , 4th edn, (2014).
  13. NanoDrop Technologies, Inc. Spectrophotometer V3.5 User's Manual. , (2007).
  14. Invitrogen by Life Technologies. Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
  15. Illumina, Inc. Nextera Rapid Capture Enrichment Guide. , Vol. 15037436 v01 (2016).
  16. Illumina, Inc. Nextera Rapid Capture Enrichment Reference Guide. , Vol. 15037436 v01 (2016).
  17. Rev. B. Illumina, Inc. MiSeq Reagent Kit v3 Reagent Preparation Guide. , Vol. 15044932 Rev. B (2013).
  18. Illumina, Inc. MiSeq System Guide. , Vol. 15027617 v01 (2015).
  19. BaseSpace Sequence Hub. , https://basespace.illumina.com/dashboard (2017).
  20. Rev. B. Agilent Technologies. Agilent High Sensitivity DNA Kit Guide. , Vol. G2938-90321 (2013).
  21. Illumina, Inc. MiSeq System Denature and Dilute Libraries Guide. , Vol. 15039740 v01 (2016).
  22. Illumina, Inc. System Specification Sheet: MiSeq System. , (2016).
  23. BaseSpace Sequence Hub Help Center. , Available from: https://help.basespace.illumina.com/ (2017).
  24. Qiagen. Genomics Workbench 10.1.1 User Manual. , (2017).
  25. Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, Suppl 7. 239 (2016).
  26. Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
  27. Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
  28. Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. The Database of Short Genetic Variation (dbSNP). , National Center for Biotechnology Information. Bethesda, MD. (2013).
  29. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  30. Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP). , http://evs.gs.washington.edu/EVS/ (2017).
  31. Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
  32. Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
  33. Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
  34. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
  35. Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
  36. Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
  37. Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
  38. Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
  39. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
  40. Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
  41. Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
  42. Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
  43. Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson's disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
  44. Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
  45. Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson's disease. Mov Disord. 21 (7), 906-909 (2006).
  46. Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
  47. Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
  48. Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
  49. Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
  50. Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Tags

Genetik spørgsmål 134 næste generation sequencing målrettet sekventering resequencing variant ringer variant anmærkning konstitutionel sygdom
Målrettet næste generation Sequencing og bioinformatik rørledningen for at evaluere genetiske determinanter for forfatningsmæssige sygdom
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Dilliott, A. A., Farhan, S. M. K.,More

Dilliott, A. A., Farhan, S. M. K., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter