Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Neste generasjons sekvensering og bioinformatikk rørledning for å evaluere genetisk determinanter av konstitusjonelle sykdom

Published: April 4, 2018 doi: 10.3791/57266

Summary

Målrettet neste generasjons sekvensering er en tid - og kostnadseffektiv tilnærming som blir stadig mer populær i både sykdom forskning og klinisk diagnostikk. Protokollen beskrevet her presenterer komplekse arbeidsflyten kreves for sekvensering og bioinformatikk prosessen brukes til å identifisere genetiske varianter som bidrar til sykdom.

Abstract

Neste generasjons sekvensering (NGS) revolusjonerer raskt hvordan forskning de genetiske determinantene av konstitusjonelle sykdom er utført. Teknikken er svært effektivt med millioner av sekvensering blir produsert i et kort tidsrom og relativt billig. Spesielt er målrettet NGS kjøpedyktig fokus undersøkelser genomisk områder av spesiell interesse basert på sykdommen av studien. Ikke bare gjør dette ytterligere redusere kostnadene og øke hastigheten i prosessen, men det reduserer beregningsorientert byrden som ofte følger med NGS. Selv om målrettet NGS er begrenset til visse regioner i genomet, kan forebygge identifikasjon av potensielle romanen loci av interesse, det være en god teknikk Når møtt med en svært og genetisk heterogene sykdom, som det er tidligere kjent genetisk foreninger. På grunn av den komplekse naturen sekvensering teknikken er det viktig å følge tett til protokoller og metoder for å oppnå sekvensering leser av høy dekning og kvalitet. Videre, når sekvensering leser er oppnådd, benyttes en sofistikert bioinformatikk arbeidsflyt for å tilordne lyder til en referanse genom, ringe varianter, og å sikre variantene passere kvalitet beregninger. Varianter må også være merket og kuratert basert på deres klinisk betydning, som kan standardiseres ved å bruke American College of Medical Genetics og Genomics virusets retningslinjer. Metodene presenteres her vises trinnene involvert i generere og analysere NGS data fra en målrettet sekvensering panel, med ONDRISeq neurodegenerative sykdom panelet som modell, identifisere varianter som kan være av klinisk betydning.

Introduction

Til å definere de genetiske determinantene av ulike forhold tar på en høyere prioritet i forskning og i klinikken, neste generasjons sekvensering (NGS) viser seg for å være en høy gjennomstrømming og kostnadseffektive verktøy for å oppnå disse målene1,2 ,3. I nesten 40 år, Sanger sekvensering hadde vært gullstandarden for å identifisere genetiske varianter4; men for sykdommer med genetisk heterogenitet eller ukjent genetisk etiologi, må mange mulig kandidat gener vurderes, ofte samtidig. I denne sammenheng, Sanger sekvensering blir dyrt og tidkrevende. Imidlertid innebærer NGS massivt parallelle sekvenser av millioner av DNA, slik at en kostnads- og effektiv teknikk samtidig oppdage en rekke genetisk variasjon i ulike regioner i genomet.

Det finnes tre typer NGS for sekvensering DNA: 1) hele-genomet sekvensering (WGS), 2) hele-exome sekvenser (WES) og 3) målrettet sekvensering5. WGS evaluerer hele genomisk innholdet av en person, mens WES innebærer sekvensering bare protein-koding regionene genomet6. Målrettet sekvensering, derimot, fokuserer på bestemte områder i genomet basert på relativt få bestemte gener forbundet med felles patologisk mekanismer eller kjent klinisk fenotypen. Enten på exons eller introns, eller ingen intergenisk områder av en genet eller bestemte gener kan angis ved hjelp av denne tilnærmingen. Derfor kan målrettet sekvensering være en god tilnærming når det finnes allerede et fundament av kandidat gener kjent for å være knyttet til sykdommen av interesse. Rettet mot bestemte regioner i genomet tillater fjerning av overflødig og irrelevante genetisk variasjon som kan sky eller distrahere fra klinisk tolkning. Mens både WGS og WES produserer en stor mengde høykvalitets data, kan mengden data være overveldende. Ikke bare krever denne store datamengder beregningsmessig intensiv bioinformatikk analyse, men datalagring kan ofte presentere problemer7. Denne utfordringen til datalagring legger også ekstra kostnader til både WGS og WES, som ofte ikke opprinnelig regnes ved bekostning av sekvenser. Videre, selv om det er avtagende, WGS og WES fortsatt relativt høy. Målrettet sekvensering kan være et mer kostnadseffektivt alternativ, spesielt når sekvensering av et stort antall individer er nødvendig.

The Ontario nevrodegenerative sykdommer forskning initiativ (ONDRI) er en multi-plattform, provinsielle hele, observasjonsstudier kohort studie karakteriserer fem nevrodegenerative sykdommer, inkludert: 1) Alzheimers sykdom og mild kognitiv svekkelse, 2). amyotrofisk lateral sklerose, 3) frontotemporal demens, 4) Parkinsons sykdom og 5) vaskulær kognitiv svekkelse8. ONDRI genomics undergruppen sikter å belyse som en del av den opprinnelige karakterisering av denne kohorten ofte nedsatte priser, men svært viktig genetisk landskapet i disse svært og genetisk heterogene sykdommer. Nevrodegenerative sykdommer er dermed aktuelle kandidater for NGS metoder og målrettet sekvensering spesielt.

Vi har spesialdesignet en målrettet NGS panel, ONDRISeq, til sekvens 528 deltakerne er involvert i ONDRI for protein-koding regionene i 80 gener som har vært tidligere assosiert med fem sykdommer av interesse. Med denne metodikken er vi i stand til å utnytte høy kvalitet NGS dataene på en fokusert og effektiv måte. Design og validering av ONDRISeq panelet med flere konkordans studier har vært beskrevet tidligere, som ONDRISeq panelet kunne identifisere roman, sjeldne varianter av mulig klinisk betydning i 72.2% av 216 tilfeller brukes for panelet validering 9. tross NGS teknologien har avansert raskt og bemerkelsesverdig de siste årene, mange forskere møte en utfordring ved behandling av rådata til en liste over anvendelig, kommenterte varianter10. Videre kan tolkning av variantene være komplisert, spesielt når møtt med mange som er sjeldne eller romanen11.

Her beskriver vi i trinn for trinn, metodikk målrettet NGS og tilknyttede bioinformatikk arbeidsflyten kreves for resequencing, variant ringer, og varianten merknad med ONDRISeq studere som et eksempel. Etter generasjonen av NGS data, må rå sekvensering filer være justert til menneskelig referanse genomet for å nøyaktig kaller varianter. Varianter må da være merket for å utføre påfølgende variant konservering. Vi vil også forklare implementeringen av American College of Medical Genetics standarder og retningslinjer for å kunne klassifisere variant virusets.

Protocol

I forbindelse med ONDRI, ble etikk protokoller og samtykke innhentet basert på forskning Ethic styrene ved Baycrest Centre for geriatrisk vare (Toronto, Ontario, Canada); Senter for avhengighet og Mental helse (Toronto, Ontario, Canada); Elizabeth Bruyère Hospital (Ottawa, Ontario, Canada); Hamilton General Hospital (Hamilton, Ontario, Canada); London Health Sciences Centre (London, Ontario, Canada); McMaster (Hamilton, Ontario, Canada); Ottawa sykehus (Ottawa, Ontario, Canada); Parkwood Hospital (London, Ontario, Canada); St Michael's Hospital (Toronto, Ontario, Canada); Sunnybrook Health Sciences Centre (Toronto, Ontario, Canada); og helse nettverk-Toronto Western universitetssykehuset (Toronto, Ontario, Canada).

1. DNA isolasjon fra menneskelig blodprøver

  1. Samle inn eksempler fra sekvensering deltakere i samsvar med aktuelle etikk protokoller og informert samtykke.
    1. For å få DNA av høy kvalitet, tegne blodprøver i forbindelse med utvinning.
      Merk: DNA kan også være Hentet fra spytt eller bukkal celler, sikrer at en passende DNA utvinning kit brukes.
    2. Hvis utdrager fra blod, å få en høy avkastning av DNA, samler eksemplet i tre 4 mL EDTA K2 rør, gir et utvalg av totalvolumet ~ 12 ml.
    3. Sentrifuge blodprøver for 20 min 750 x g til brøk til en øvre fase av plasma, tynn, midt fase av leukocytter, og en nederst fase av erytrocytter.
  2. Fjern plasma fra blodprøve av pipettering det på toppen av prøven med en engangs overføring pipette. Riktig forkaste plasma eller dispensere til 500 µL Quidel for lagring på-80 ° C for fremtidige biokjemiske analyser. Sikre at en ny, sterile pipette brukes for hvert utvalg.
  3. Pakk ut DNA fra blod prøven med en blod utvinning kit12 (Tabell for materiale) i henhold til produsentens instruksjoner.
    Merk: Hvis et utvalg av volumet beskrevet ovenfor er oppnådd, ~ 3 mL av leukocytter oppnås hvis du vil bruke i DNA utvinning.
  4. Måle første DNA konsentrasjon i ng/µL bruker en bred spektrofotometer13 (Tabell for materiale), i henhold til produsentens instruksjoner.
  5. Gå direkte til trinn 2. Du kan også lagre DNA på 4 ° C.

2. sekvensering biblioteket forberedelse

  1. Utføre føljetong fortynninger på DNA-prøvene i løpet av tre dager å få en endelig konsentrasjon av 5.0 ± 1.0 ng/µL.
    1. Fortynne 1 M Tris buffer pH 8.5 10 µM med deionisert vann.
      Merk: Volumet utvannet avhenger av antall DNA-prøver må fortynnes i de etterfølgende trinnene.
    2. Hvis utfører DNA fortynning rett etter trinn 1.4, går du til følgende trinn. Hvis ikke på samme dag, måle DNA konsentrasjonen som ble gjort i trinn 1.4.
    3. Basert på konsentrasjonen målt, fortynne 40 µL av DNA til ~ 10 ng/µL bruker 10 µM Tris buffer pH 8.5 og la prøve å sitte over natten i 4 ° C.
    4. Måle DNA konsentrasjonen med en fluorometer-14 passer for kvantifisering av DNA (Tabell for materiale), i henhold til produsentens instruksjoner.
      Merk: Konsentrasjonen av prøven bør være > 10 ng/µL på grunn av lavere følsomheten til spektrofotometer brukt tidligere.
    5. Basert på konsentrasjonen målt, fortynne 20 µL av DNA til 10 ng/µL bruker 10 µM Tris buffer pH 8.5 og la prøve å sitte over natten i 4 ° C.
    6. Måle DNA konsentrasjonen med fluorometer14, i henhold til produsentens instruksjoner.
    7. Basert på konsentrasjonen målt, fortynne 10 µL av DNA til 5 ng/µL bruker 10 µM Tris-HCl pH 8.5 og la prøve å sitte over natten i 4 ° C.
  2. Forberede sekvensering biblioteket i henhold til produsentens instruksjoner med målrettet NGS panelets riktig mål berikelse kit15 (tabell av materialer). Kontroller at berikelse kit er egnet for NGS plattformen brukes.
    1. Følg produsentens instruksjoner16 om plexity og av biblioteker.
      Merk: For ONDRISeq, biblioteker består av 12 DNA-prøver, gruppert i sett, og kjøre på NGS stasjonære maskinen (Tabell for materiale). Antall eksempler som kan kjøres i en enkelt reaksjon vil avhenge sekvensering kit og plattform brukes.
    2. For å oppnå høyere kvalitet sekvensering data, utføre det frivillig steget å validere DNA biblioteket kvaliteten etter tagmentation, beskrevet i produsentens instruksjoner av målet berikelse kit15.
      1. Analysere hvert bibliotek i tre eksemplarer å sikre kvaliteten på biblioteket avkastningen.
    3. Hvis pooling biblioteker, måle DNA konsentrasjonen med fluorometer14, i henhold til produsentens instruksjoner. Bruk denne konsentrasjonen for å bestemme volumet av hver DNET bibliotek bassenget å få ekvimolare forholdstallene anbefalt av målet berikelse utstyret brukes.

3. neste generasjons sekvensering

  1. Sekvens biblioteket etter NGS desktop instrumentets reagens kit produsentens instruksjoner17,18 (tabell av materialer).
    1. Forberede en sample ark i henhold til produsentens instruksjoner18 bruker riktig NGS teknologi programvare (Tabell for materiale), som vil bli importert til NGS desktop instrumentets arbeidsflyt.
      Merk: I forbindelse med ONDRISeq, programmet alternativet valgt er "andre", med bare FASTQ filene forespurt (figur 1). Etterfølgende trinnene vil behandle filene FASTQ, å tillate for full tilpassing av justering og kvalitet parameterene. Men hvis målrettet sekvensering er valgt, kan noen NGS instrumenter behandle sekvensering dataene til VCF-filer selv. Produsentens instruksjoner18 kan konsulteres for et fullstendig utvalg av alternativer.
    2. Hvis bruker en sky-basert databehandling miljø19 (Tabell for materiale), logge inn når den sekvensering kjøre. Gjøre dette etter å klikke "Sekvensering" på startsiden NGS desktop instrument.
    3. Etter biblioteket rødsprit18 i henhold til produsentens instruksjoner, kan du måle DNA biblioteket konsentrasjonen med fluorometer14.
    4. Validere DNA biblioteket kvaliteten ved hjelp av en passende automatiserte geleelektroforese system og DNA kvalitet analyse kit20 (Tabell for materiale), henhold til produsentens instruksjoner.
    5. Bruk følgende formel16 for å konvertere DNA konsentrasjonen fra ng/µL til nM
      Equation
      Merk: Gjennomsnittlig biblioteket størrelse gjelder målet berikelse kit som brukes, og kan fås fra geleelektroforese spor i trinn 3.1.4.
    6. Fortynne sekvensering biblioteket til en siste konsentrasjon av 6-20 pM, som hensiktsmessig, og 600 μL, i henhold til produsentens instruksjoner21.
      Merk: Nøyaktig konsentrasjonen trengs er avhengig av sekvensering utstyret brukes. Se berikelse kit produsenten for å bestemme riktig lasting konsentrasjonen.
    7. Fortynne, denature, og inkluderer en positiv kontroll sekvensering biblioteket21, i henhold til produsentens instruksjoner.
    8. Loggføre alle sekvensering kjører, som inkluderer DNA biblioteket konsentrasjonen lastet (pM), prosentandel av positive kontroll lagt, reagens patron strekkode, programmet valgt i trinn 3.1.1, antall indeksen leser, berikelse kit brukes, Les length(s), og eksempel arknavn.
      Merk: Operasjonstiden i NGS desktop instrumentet vil avhenge av instrumentet, berikelse kit, og lese lengder valgt (4-56 h for sequenceren brukes i dette eksperimentet22).
  2. Ved ferdigstillelse av sekvensering kjøre, tilgang til "Kjøre mappe", som inkluderer alle utganger, ved navigering til startsiden NGS desktop instrument og klikke "Administrer filer". Flytte filene til en lokal stasjon for senere bruk. For en separat, på en datamaskin, finner du filene i sky-basert databehandling miljø19 ved å velge "Går" på navigeringspanelet. Velg aktuell sekvensering kjøre for å navigere til siden Run Sammendrag. Velg "Last ned" for å hente data fra skyen. Fra dialogboksen som vises, velger du FASTQ filer som filtype laste ned og klikk "Last ned".
  3. Run Sammendrag siden sky-basert databehandling miljø19,23, gå til "Diagrammer" analysere kvaliteten på sekvensering med de ulike tallene produsert av datamiljøet. Se produsentens instruksjoner23 for detaljer om hver figur produsert.
    1. Kjøre diagrammer på siden kan du finne figuren merket "Data av Cycle". Under diagrammet, velg "Intensitet" og velg "Alle kanaler" under kanal. Kontroller at denne signal intensitet tomten produsert er lik som produseres av sekvensering kjører i fortiden med samme berikelse kit og NGS desktop instrument.
      Merk: Dette viser prosentandelen av intensitet vises ved hver base over alle 150 sykluser. Tallet kan variere mye avhengig av berikelse settet brukes, som er hvorfor det må være i forhold til siste sekvensering kjøringer av det samme panelet.
    2. Velg kategorien "Indeksering" QC"i kjøre navigeringspanelet å finne indeksering kvalitetskontroll (QC) histogrammet, som er på høyre side av siden. Kontroller at en relativt jevn fordeling av % leser identifisert (PF) er observert over alle prøvene.
      Merk: Hvis noen eksempler har en mye lavere % leser identifisert (PF) enn resten av prøvene, Merk at kvaliteten på sekvensering dataene påvirkes.
  4. Run Sammendrag siden skybaserte datamiljøet, Naviger til kvalitet beregninger ved å klikke "Beregninger" innenfor kjøre navigeringspanelet.
    Merk: Beregninger avskjær vil avhenge sekvensering plattform og berikelse utstyret brukes. Det er mange beregninger som kan brukes basert på produsentens instruksjoner23, med følgende utheving tre som anbefales for kvalitetskontroll.
    1. Under "TETTHET (K/MM2)" sikre klynge tetthet er innenfor de anbefalt av berikelse settet brukes (i dette tilfellet 1200-1400 K/mm2).
    2. Kontroller at verdien er ≥85%, reflekterer kvaliteten i sekvensering lyder under totalen "% ≥Q30".
      Merk: Hvis det er lavere enn denne terskelen til 85%, Merk at kvaliteten på sekvensering kan være kompromittert.
    3. Kontroller at verdien er lik % positiv kontroll som var inkludert i den sekvensering kjøre under "JUSTERT (%)".
      Merk: Dette fungerer som et mål på positive kontroll, slik at bare denne prosentandelen av totalt ble funnet til for positiv kontroll genomet. Hvis 1% positiv kontroll ble brukt det forventes at justert (%) ville være ~ 1-5%.

Figure 1
Figur 1: skjermbilde av NGS teknologi programvaren (tabell av materialer) prøve ark skaperen Programalternativer. I forbindelse med ONDRISeq brukes er FASTQ bare programmet. Men hvis brukeren ønsker andre filer produsert, VCF-filer, er det anbefalt at et program i kategorien for målrettet resequencing brukes. Klikk her for å se en større versjon av dette tallet.

4. resequencing og Variant ringer

  1. Velg riktig programvare til å justere raw FASTQ-filene til menneskelig referanse genomet og ringe varianter (Tabell for materiale) før databehandling.
  2. Importere FASTQ sekvensering leser til den pre-prosessering programvaren.
    Merk: I forbindelse med ONDRISeq, er 48 FASTQ filene produsert fra en enkelt sekvensering kjøre av 24 prøver importert og behandlet gjennom programvaren. Antall utdrag behandles samtidig kan variere avhengig av behovene til forskeren og størrelsen på NGS panelet.
    1. Høyreklikk og velg "Ny mappe" i "Navigasjon-området". Navnet mappen slik at det er klarhet om sekvensering kjøre som ble utført.
    2. Velg "Import" på verktøylinjen øverst. Fra dropdown valgte liste over sekvensering plattformer vises plattformen som sekvensering ble utført.
      Merk: I forbindelse med ONDRISeq, "Illumina" er valgt. Men hvis bruker en annen sekvensering plattform konsultere produsentens instruksjoner for resten av FASTQ import trinn24.
    3. I dialogboksen gå til, og velg FASTQ filer fra sekvensering kjøre som behandles. Kontroller at filene som importeres er lagret i og importert fra den lokale stasjonen, hvis bruker en datamaskin med flere servere.
    4. "Generelle alternativer" dialogboksen, klikk boksen ved siden av "Parvise leser" Hvis sekvensering brukt parvis slutten kjemikalier.
      Merk: I dette tilfellet det bør også være to FASTQ prøver importeres for hvert utvalg - en forover og ett bakover.
    5. Den parvise lese informasjonen i dialogboksen, velg "Parvise-end (forover-bakover)" Hvis Videresend leser FASTQ filen vises før omvendt lese i listen. Hvis filene vises i motsatt rekkefølge, velg "Make-par (omvendt-frem)". Angi sammenkoblet Les minsteavstand 1 og maksimal avstand til 1000, å tillate for påvisning av småskala strukturelle rearrangements innen eksempel sekvenser.
    6. "Illumina options" dialogboksen, velg "Fjern mislykkes leser", fjerne lest som mislyktes sekvensering. Hvis NGS stasjonære maskinen de multiplekset velger dataene før du eksporterer FASTQ filene ikke boksen "MiSeq de-multipleksing".
    7. Fra rullegardinlisten "Kvalitetspoeng", Velg NGS rørledningen som ble benyttet for sekvenser. Velg "Neste" nederst i dialogboksen.
      Merk: Rørledningen brukes påvirker formatet på FASTQ filen kvalitetspoengene. For mer informasjon om hvilke rørledningen velge, se produsentens instruksjoner24.
    8. Fra dialogboksen Ny, velg "lagre" og "opprette undermapper per bad enhet som FASTQ hver eksempelfiler inn sin egen personlige mappe. Velg "Neste" nederst i dialogboksen.
    9. Den nye dialogboksen, Velg mappen som ble opprettet i trinn 4.2.1. Dette er hvor FASTQ filene vil bli importert. Velg "Finish" nederst i dialogboksen, og vent til FASTQ filene er importert. Velg kategorien "Prosesser" for å se statusen for filen import.
  3. Utforme en arbeidsflyt i programvaren til å utføre resequencing og variant ringer, i henhold til produsentens instruksjoner.
    Merk: Denne arbeidsflyten kan variere basert på behovene til forskeren, men fremgangsmåten omfatter hva som er inkludert i forbindelse med ONDRISeq (figur 2). Trinnene i denne arbeidsflyten kan brukes til andre NGS resequencing og variant kalle programvare etter behov. Alle bioinformatikk behandling i forbindelse med ONDRI utføres i referanse til menneskelig referanse genomet GRCH37/hg19, konsekvent for databehandling og analyse.
    1. Tilordne den sekvensering lest til referanse genomet.
      1. Når du konfigurerer, Velg referanse genomet som hensiktsmessig, slik at det er samme referanse genomet som brukes for alle bioinformatikk skritt.
      2. I maskering modus-listen Velg "Ingen maskering" slik at ingen regioner av referanse sekvensen blir maskert.
      3. Bruk standard tilordning alternativer tildelt av programvaren. Se produsentens instruksjoner24 for å bekrefte at dette er akseptabelt basert på formål forskningen.
    2. Inkludere i arbeidsflyten lokale omstillingen til menneskelig referanse genomet løse alle lese kartlegger feil, spesielt rundt innsetting sletting varianter.
      1. Bruk standardalternativer for lokale omstillingen av programvaren. Se produsentens instruksjoner24 for å bekrefte at dette er akseptabelt basert på formål forskningen.
    3. Fjerne duplisert tilordnede lyder produsert av PCR innen NGS protokollen for å redusere effekten av PCR forsterkning bias, som kan produsere falske positiver25.
      1. Angi "maksimal representasjon av minoritet (%)", basert på behovene til forskning.
        Merk: En mild innstilling, som brukes i forbindelse med ONDRISeq, er 5%. men er programvaren standardinnstillingen strengere 20%. Når to leser er svært like, bestemmer denne innstillingen om sekvensen med færre Les teller bør vurderes en sekvensering feil fra PCR forsterkning bias. Derfor Les sette 5%, mindretall antall må være ≤ 5% av antall rettes for å være identisk med de fleste lese leste.
    4. Eksportere statistikk for regionene mål i form av en dekning sammendragstekst fil fra Les sporene generert i trinn 4.3.3. Ignorere uspesifisert kamper og brutt par i innstillingene. Velg et mål på den lokale stasjonen for disse filene.
    5. Eksportere en binær sekvens justering kart (BAM) fil for hvert utvalg fra Les sporene generert i trinn 4.3.3. Dette inneholder sekvens justering data, hvis nødvendig i fremtiden analyser. Velg et mål på den lokale stasjonen for disse filene.
    6. Velg en metode av variant ringe varianter i sekvensen.
      Merk: Når forutsetningene kan gjøres om ploidy av prøvene, anbefales det at brukes en fast ploidy variant algoritme, som brukes i forbindelse med ONDRISeq. Hvis denne antakelsen ikke kan gjøres, se produsentens instruksjoner24 å bestemme den beste algoritmen for å forskning.
      1. Når du konfigurerer, fra den faste ploidy variant-parametere alternativene satt ploidy som passer for eksempel organismen. Angi "nødvendig variant sannsynligheten" eller sannsynligheten for at en variant er riktig kalt for at den skal beholdes, på 90.0%.
      2. Bruk følgende anbefalte innstillinger til generelle filtre: "minimumsdekning" 10 x, "Minimum antall" 2, "Minimum lese frekvens" på 20%, "Ignorer brutt par" ignorere uspesifikke treff basert på "Reads", og "Minimum lese lengde" av 20.
        Merk: Disse parametrene er basert på i forbindelse med ONDRISeq. Se produsentens instruksjoner24 til sikre at de passer for forskningen blir gjort.
      3. Bruk følgende anbefalte innstillinger for støy-filtrene: "Base kvalitet filtre" med en "nabolaget radius" kartlegging kvalitetspoengene til 5, "Minimum sentrale kvalitet" kartlegging score på 20, og "Minimum nabolaget kvalitet" kartlegging score på 15; en "Les retning filter" 5.0%; og "Slektning lese retning filter" 1,0% betydning.
        Merk: Disse parametrene er basert på i forbindelse med ONDRISeq. Se produsentens instruksjoner24 til sikre at de passer for forskningen blir gjort.
    7. Filtrere variantene som har blitt kalt basert på deres overlapper med målrettet panelets Målrett mot regioner som angitt av filen leseren Extensible Data (SENG), slik at bare varianter innenfor regionene genomisk valgt for målrettet NGS panelet skal beholdt.
      Merk: Filen SENG vil være unik for målrettet NGS panel som er utnyttet, basert på regionene i genomet som panelet kan dekke.
    8. Eksportere en variant rapport i en variant kalle formatfil (VCF) fra variant spor produsert i trinn 4.3.7. Velg et mål på den lokale stasjonen for disse filene.
    9. Lagre og installere arbeidsflyten i henhold til produsentens instruksjoner24, for å gjøre den tilgjengelig i programvaren "verktøykasse". Sikre arbeidsflyten kalles slik at det er klart i fremtiden hva NGS panel det er passende for.
      1. I dialogboksen med alternativene "Eksportere referansedata" under installasjonen, kan du angi alle valg for "Bunt".
      2. I dialogboksen med alternativene "Installer plassering" under installasjonen, klikker du "Installer arbeidsflyten på den lokale datamaskinen".
  4. Kjøres importerte FASTQ sekvensering Les filer tilpasset bioinformatikk arbeidsflyten i trinn 4.3, i produsentens instruksjoner24.
    1. Identifisere arbeidsflyten i trinn 4.3 programvaren "verktøykasse", og dobbeltklikk den.
    2. I dialogboksen som vises, finner du mappene FASTQ filer importerte i trinn 4.2 i "Navigasjon-området". Merk alle mapper ved å velge dem i "Navigasjon-området" og deretter klikker du boksen ved siden av "Batch". Bruk pilen peker mot høyre til å flytte filer til "Merkede elementer". Klikk "Neste" nederst i dialogboksen.
    3. I dialogboksen se "Batch oversikt" å sikre korrekt FASTQ filene ble valgt og klikk "Neste".
    4. Gjennomgang følgende trinn i arbeidsflyten i dialogboksen for å sikre at de riktige filene og eksportere steder ble valgt når du utformer arbeidsflyten i trinn 4.3: "Kart leser til referanse"; Fjern like tilordnet leser"; "Opprett statistikk for Målrett mot regioner"; "Eksporter BAM"; "Eksporter-kategorien skilletegn"; "Filter basert på overlapping"; og "Eksporter VCF"
    5. I det siste trinnet i dialogboksen Lagre-"resultat håndtering" - Velg alternativet «i input-mappen». Klikk "Finish" nederst i dialogboksen.
      Merk: Dette betyr at filene produsert for hvert utvalg vil bli plassert i samme mappe der filen FASTQ i dataene som er pre-prosessering programvare.

Figure 2
Figur 2: arbeidsflyt for resequencing og variant kall av FASTQ filer i dataene som er pre-prosessering programvare (tabell av materialer) tilpasset i forbindelse med ONDRISeq. Trinnene i arbeidsflyten kan brukes på andre NGS resequencing og variant kalle programvare basert på behovene til forskeren. Klikk her for å se en større versjon av dette tallet.

5. variant merknad

  1. Last ned og tilpasse kommentere variant (ANNOVAR)26 manuskriptet å utføre variant merknad på filen VCF av hvert utvalg.
    1. Last ned følgende databaser fra ANNOVAR inkluderes som merknader: 1) RefSeq27 (August 2015 oppdatering); 2) dbSNP13828 (September 2014 oppdatering); 3) de Exome aggregering Consortium29 (ExAC, versjon 0.3 November 2015 oppdatere); 4) det nasjonale hjerte, lunge og blod Institute Exome sekvensering prosjektet europeiske kohort30 (ESP, mars 2015 oppdatering); 5) 1000 genomer prosjektet europeiske kohort31 (1KGP, August 2015 oppdatering); 6) ClinVar32 (mars 2016 oppdatering); og 7) kombinert merknad avhengige uttømming33 (CADD), sortering intolerante fra Tolerant34 (sile), og PolyPhen-235.
      Merk: Genomet koordinater og alle databasene refererer til ANNOVAR referert til menneskelige genom bygge GRCh37/hg19. I tillegg er database-versjonene som er oppført de som brukes i forbindelse med ONDRISeq, når dataoverfører databaser bruker de mest oppdaterte versjonene tilgjengelig.
    2. Eventuelt tilpasse ANNOVAR sende en fullstendig liste over kommenterte varianter, samt en redusert samling av kommenterte varianter med--filteret operasjonen26.
      Merk: Listen redusert kan tilpasses basert på behovene til forskeren. I forbindelse med ONDRISeq, redusert listen kommenterte varianter inkluderer ikke varianter som oppstår lenger enn 15 baser fra den nærmeste ekson eller alle varianter med mindre allelet frekvens (MAF) > 3% i alle tre databaser: 1) ExAC; 2) ESP; og 3) 1KGP. Dette trinnet anbefales.
    3. Eventuelt kan du tilpasse ANNOVAR til single ut bestemt allelet samtaler basert på behovene til de forsker26.
      Merk: I forbindelse med ONDRISeq, ANNOVAR vurderer sekvensering samtaler for APOE risiko alleler rs429358 (C > T):p.C130R og rs7412 (C > T):p.R176C for å sende generelle APOE genotype, som det er seks mulig kombinasjoner, inkludert: 1) E2/E2; 2) E3/E2; 3) E4/E2; 4) E3/E3; 5) E4/E3; 6) E4/E4. Disse seks mulige APOE genotyper er E4/E4 den mest aksepterte genetisk risikofaktoren for å utvikle sen-utbruddet Alzheimers36.
  2. Spørre sykdom mutasjon databaser (tabell av materialer) å avgjøre hvis varianter har vært tilknyttet tidligere av sykdommen, med rimelig bevis. Vurdere alle varianter som ikke er tidligere rapportert som en roman variant.
    1. Vurdere ANNOVAR merknader fra ClinVar, slik at de sykdomsassosierte variantene inkluderer noen klassifisert som trolig patogene eller patogene.
  3. Prosessen skjøting varianter gjennom i sili prediksjon verktøy Splicing-basert analyse av varianter37 (SPANR) og menneskelige skjøting Finder38 (HSF, versjon 3.0).
  4. Hvis behandlingen mange eksempler, kan du sammenligne variant samtaler innen hver prøve å finne ut hvilke varianter deles av forskjellige prøver. Gjøre dette manuelt eller med et spesiallaget skript, slik at påvisning av mulig sekvensering gjenstander og forurensning hendelser.
    Merk: I forbindelse med ONDRI, er et egendefinert skript brukes til å kommentere ANNOVAR utdatafiler ved å sammenligne dem med hverandre. Skriptet inneholder en merknad, per variant, med emnet IDen til noen andre eksempler skjuler den samme varianten, ellers kalt variantens historie i studien kohort.
  5. Klassifisere varianter basert på American College of medisinsk genetikk (ACMG) virusets retningslinjer39, tilordne hver en klassifisering som ett av følgende: 1) patogene; 2) sannsynligvis patogene; 3) variant av usikker betydning; 4) sannsynligvis godartet; eller 5) godartet.
    Merk: I forbindelse med ONDRI, en internt utviklet Python-skript brukes til å utføre ACMG klassifisering på semi-automatisert basis. Selv om ikke brukes for denne studien, er InterVar40 en lignende utformet verktøy som kan brukes på en tilsvarende måte.
  6. Sanger sekvens alle varianter med en sekvensering dekning av < 30 x og/eller varianter som er identifisert i > 10% av studien kohorten å validere at de ikke er sekvensering gjenstander41.

Representative Results

Metodikkene som beskrevet her ble brukt til 528 deltaker DNA-prøver fra enkeltpersoner som er registrert i ONDRI. Prøvene ble drevet i ONDRISeq-panelet i 22 serier 24 samplinger kjøre. Samlet sekvensering data var bestemt på å være av høy kvalitet med en gjennomsnittlig eksempel dekning av 78 ± 13 x og alle personlige kjører uttrykt en mener eksempel dekning > 30 x. Videre, i gjennomsnitt 94% av alle målrettingsregioner ble dekket minst 20 x (tabell 1).

En gjennomsnittlig 95,6% av ble tilordnet referanse sekvensen og alle ONDRISeq kjøres hadde > 90% av tilordnet (tabell 1). I tilordnet lyder, 92.0% hadde en Phred score ≥Q30, med bare én kjøre har < 80% av tilordnede møte denne kvalitet beregningen. Men denne kjøre fortsatt vises en mener dekning av 79 x og 93% av målet områder var dekket minst 20 x.

Parameteren Mener (±sd) Best ytelse Fattigste ytelse
Klynge tetthet (x 103/mm2) 1424 (±269) 1347 1835
Totalt leser (106) 43,1 (±6.0) 48,7 47,4
Tilordnet leser (106) 40,1 (±6.0) 47.1 25,7
Tilordnet leser (%) 95,6 (±1.3) 96.8 92.6
Phred kvalitet Score ≥Q30 (%) 92.0 (±6.0) 92 68,3
Eksempel dekning (x) 78 (±13) 99 51

Tabell 1: Sekvensering kvalitet beregninger for 22 kjører på ONDRISeq.

TilfelleStudium: Identifikasjon av sjeldne varianter i en PD pasient.

For å demonstrere nytten av våre NGS arbeidsflyten, presenterer vi eksempelet på en 68 år gammel, mannlig, Parkinsons pasient. DNA-prøve ble kjørt på NGS desktop apparatet (Tabell for materiale) i ONDRISeq-panelet sammen med 23 andre ONDRI prøver. Kjør vises en klynge tetthet av 1,555 x 103/mm2. Pasientens spesiell prøve vises en mener dekning av 76 x, 93,9% av målet områder dekket minst 20 x.

Etter utfører variant ringer og merknader med egendefinerte bioinformatikk arbeidsflyten, pasienten ble funnet til havn 1351 varianter av exons og rundt 250 bp av 80 genene inkludert i ONDRISeq-panelet. Imidlertid klarte rørledningen ANNOVAR å redusere antall varianter av vurderer variant sekvens ontologi og MAF, som beskrevet ovenfor. Dette produsert en liste over syv varianter som gjennomgikk manuell konservering (Figur 3). Fra disse syv varianter, ble to identifisert som mulige klinisk betydning. Denne prosessen er bestemt på behovene til ONDRI og ble gjort ved å identifisere de som er relativt sjeldne i befolkningen generelt og er nonsynonymous i ontologi og dermed forårsaker en endring i protein. Om variant var tidligere forbundet med sykdom, ble i sili spådommer om deleteriousness til protein og ACMG virusets klassifiseringen av variantene også brukt i denne prosessen.

Først identifisert fra listen redusert var en heterozygote variant, nemlig LRRK2: c.T3939A, som resulterer i tull variant p.C1313*. LRRK2 koder protein Leucine-rik gjenta Kinase 2, som har både GTPase og kinase aktivitet42. Videre er mutasjoner i dette genet kjent for å være blant de viktigste årsakene til familiær Parkinsons sykdom43. Denne varianten introduserer en tidlig stopp codon innen LRRK2, og dermed miste aminosyre rester 1,314-2, 527. Dette forhindrer at oversettelsen av protein's Ras av (Roc), C-terminalen Roc (COR) og protein kinase domener, som er involvert i fungerer som en atypisk Rho GTPase, GTP bindende protein og protein kinase, henholdsvis, og ble spådd å være skadelig ved i sili analysen generert av CADD (CADD Phred = 36). Denne varianten er også sjelden med en MAF på 0.004% og 0,01% i ExAC og ESP, henholdsvis, og er fraværende fra 1000G database. Dessuten er bare pasienten av alle 528 sekvensert som bærer denne varianten, som er roman siden det ikke har vært beskrevet tidligere i sykdom mutasjon databaser (Tabell for materiale). Tillit variant samtalen ble bekreftet av sin dype dekning av 109 x. Endelig varianten ble vurdert AMCG standarder og retningslinjer for virusets og ble klassifisert som patogene.

Pasienten også gjennomført en andre heterozygote variant, NR4A2: c.C755A, som resulterer i eks. missense endre p.P252Q. Protein kodet av NR4A2, kjernefysiske reseptor gruppe 4 gruppe A medlem 2, er en transkripsjon faktoren for generering av dopaminergic neurons44 og mutasjoner i dette genet har vært tidligere knyttet Parkinsons sykdom45. Substitusjon av den ikke-polar proline til polar glutamin var spådd for å skade av i sili prediksjon analysen generert av CADD (CADD Phred = 21,1), men ikke av analysen generert av SIFT eller PolyPhen-2. Varianten er sjeldne, med en MAF 0.004% i ExAC og fravær fra både ESP og 1000G. Varianten ble også identifisert i en ONDRI deltaker diagnosen vaskulær kognitiv svekkelse, men har ikke blitt tidligere beskrevet i sykdom mutasjon databaser. Denne varianten hadde dekning av kun 18 x men Sanger sekvensering utføres for å sikre sin gyldighet i sekvensen. Endelig ble varianten identifisert som usikre betydning når vurdert med ACMG standarder og retningslinjer for virusets.

ONDRISeq panel og bioinformatikk rørledningen er også finne APOE genotype av hvert utvalg. Denne pasienten var fast bestemt på å ha APOE genotype E3/E3.

Figure 3
Figur 3: eksempel på en redusert produksjon fra ANNOVAR viser manuelt kuratert, kommenterte varianter. Redusert ANNOVAR utdataene fra casestudien av en 68 år gammel, mannlig, pasient med Parkinsons sykdom. Kommenterte varianter er kuratert for å identifisere de som er mest sannsynlig å være av klinisk betydning, som angitt av de røde boksene. Klikk her for å se en større versjon av dette tallet.

Discussion

I banen fra DNA eksempel utvinning å identifisere varianter som kan være av interesse når de vurderer en pasients diagnose sykdomsprogresjon og mulige behandlingstilbud, er det viktig å erkjenne mangfoldige natur metodikken kreves både sekvensering og riktig behandling. Protokollen beskrevet her er et eksempel på bruken av målrettet NGS og påfølgende bioinformatic analyse viktig å identifisere sjeldne varianter av potensielle klinisk betydning. Spesielt presenterer vi tilnærmingen tatt av ONDRI genomics undergruppen ved ONDRISeq spesialdesignede NGS panelet.

Det er anerkjent at disse metodene ble utviklet basert på en bestemt NGS plattform og at det er andre sekvensering plattformer og målet berikelse kits som kan brukes. Imidlertid ble NGS plattform og desktop apparatet (Tabell for materiale) valgt basert på sin tidlig US Food and Drug Administration (FDA) godkjenning46. Denne fullmakten gjenspeiler den høykvalitets sekvensering som kan utføres med NGS protokoller av valg og pålitelighet som kan plasseres på den sekvensering lest.

Selv om det er svært viktig å få nøyaktig sekvensering leser med dybden av dekning, bioinformatikk behandling kreves for siste sjelden variant analyse er viktig og kan være beregningsmessig intensiv. På grunn av de mange kildene av feil som kan oppstå i sekvensering prosessen, må en robust bioinformatikk rørledning korrigere for ulike unøyaktigheter som kan innføres. De kan oppstå fra avvik i tilordningen, forsterkning bias introdusert av PCR forsterkning i biblioteket utarbeidelse og teknologien produserer sekvensering gjenstander47. Uansett programvaren brukes til å utføre Les kartlegging og variant ringer, er det vanlige måter å redusere feilene inkludert lokale omstilling, fjerning av duplikate tilordnede lyder, og angir riktige parametere for kvalitetskontroll kalling varianter. I tillegg kan parameterne valgt under variant ringer variere basert på hva som er mest hensiktsmessig for studien på hånden11. Minimum dekningen og kvaliteten score på en variant og de omkringliggende nukleotider som ble brukt, var valgt å skape en balanse mellom passende spesifisitet og følsomhet. Disse parameterne er blitt godkjent for ONDRISeq panel basert på variant kalle overensstemmelse med tre separate genetisk teknikker, som tidligere beskrevet, inkludert: 1) chip-baserte genotyperingteknologi; 2) allel diskriminering analysen; og 3) Sanger sekvensering9.

Etter nøyaktig variant ringer, for å fastslå de potensielle klinisk betydning, er merknader og konservering avgjørende. På grunn av sin åpen tilgang plattform er ANNOVAR et utmerket verktøy for både merknaden og foreløpige variant screening eller eliminering. Utover å være lett tilgjengelig, ANNOVAR kan brukes på alle VCF-filer, uansett hvilken sekvensering plattform brukes, og er tilpasses basert på behovene til forskning26.

Etter merknad, må varianter tolkes for å fastslå om de bør vurderes å være av klinisk betydning. Ikke bare denne prosessen blir komplisert, men det er ofte utsatt for subjektivitet og menneskelige feil. Grunn har av ACMG satt retningslinjene å vurdere bevis for virusets noen variant. Vi bruker en ikke-synonymt, sjelden variant-baserte manuell konservering tilnærming, som er bygget basert på disse retningslinjene og ivaretatt av enkeltvis vurderer hver variant som kunne passere gjennom rørledningen med en spesialdesignet Python-skript som klassifiserer varianter basert på retningslinjene. På denne måten hver tilordnes en rangering av patogene, sannsynlig patogene, usikker betydning, sannsynlig godartet eller godartet, og vi kunne legge til standardisering og åpenhet til variant konservering prosessen. Det er viktig å erkjenne at detaljene i variant konservering, utover bioinformatikk rørledningen, vil være individualisert basert på behovene til forskning, og ble derfor utenfor omfanget av metodikkene som presenteres.

Selv om metodene presenteres her er spesifikke for ONDRI, kan av fremgangsmåten oversettes når de vurderer en rekke konstitusjonelle sykdommer av interesse. Som antall genet foreninger øker for mange fenotyper, gir målrettet NGS en hypotese drevet tilnærming som kan kapitalisere på tidligere forskning som er gjort i feltet. Likevel finnes det begrensninger for målrettet NGS og metodikken presentert. Ved å kun fokusere på bestemte områder i genomet, er områdene oppdagelsen begrenset til romanen alleler rundt. Derfor romanen gener eller andre genomisk loci utover de dekket av sekvensering målene, som kan vises med WGS eller WES tilnærminger, vil ikke bli identifisert. Det er også regioner i genomet som kan være vanskelig å nøyaktig sekvens med NGS tilnærminger, inkludert de med en høy grad av gjentatte sekvenser48 eller de som er rike på GC innhold49. Heldigvis, når utnytte målrettet NGS, det er en priori en høy grad av fortrolighet med genomisk regionene er sekvensert, og om disse kan utgjøre tekniske utfordringer. Til slutt, oppdagelsen av kopien antall varianter fra NGS data i dag er ikke standardiserte50. Men kan bioinformatikk løsninger på problemene være på horisonten; nye beregningsorientert verktøy kan bidra til å analysere disse tilleggsskjemaene variasjon i ONDRI pasienter.

Til tross for dens begrensninger er målrettet NGS kjøpedyktig få høykvalitets data, en hypotese-drevet tilnærming, mens resterende billigere enn sine WGS og WES kolleger. Ikke bare er denne metoden passer for effektiv og rettet forskning, klinisk gjennomføring av målrettede NGS vokser eksponentielt. Denne teknologien brukes å svare mange forskjellige spørsmål om molekylære veier av ulike sykdommer. Det skal også bygges inn i en nøyaktig diagnoseverktøyet til relativt lav kostnad når motsetning til WES og WGS. Selv i forhold til gull-standard Sanger sekvensering, målrettet kan NGS utkonkurrere i sin tid - og kostnadseffektivitet. For disse grunner er det viktig for en vitenskapsmann eller kliniker som mottar og bruker NGS data, for eksempel som tekst i et laboratorium eller klinisk rapport, for å forstå komplekset "black box" som ligger under resultatene. Metodene presenteres her burde hjelpe brukere med å forstå prosessen underliggende generasjon og tolkning av NGS data.

Disclosures

Forfatterne ikke avsløre.

Acknowledgments

Vi ønsker å takke alle ONDRI deltakerne for deres samtykke og samarbeid med vår studie. Takk til ONDRI etterforskerne (www. ONDRI.ca/people), inkludert vår ledende etterforsker (MJS) og ONDRI styrer komiteer: konsernledelsen, styringskomité, publikasjonen komiteen, rekruttere komiteen, vurdering plattformer og prosjektledelsen. Vi takker også London Genomics regionsenter for deres tekniske kompetanse. AAD støttes av Alzheimers Society i London og Middlesex Masters Graduate forskning stipend. SMKF støttes av ALS Canada Tim E. Noël Postdoctoral Fellowship.

Materials

Name Company Catalog Number Comments
4 mL EDTA K2 tubes Fisher Scientific 02-689-4
1 M Tris Buffer Bio Basic Canada Inc. SD8141
Gentra Puregene Blood Kit Qiagen 158389 1,000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer Thermo Fisher Scientific ND-2000 Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer Invitrogen Q32866 This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit Illumina, Inc. FC-140-1009 Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer Agilent Technologies G2939BA This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit Agilent Technologies 5067-4626 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. 
MiSeq Reagent Kit v3 Illumina, Inc. MS-102-3003 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer Illumina, Inc. SY-410-1003 This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager Illumina, Inc. This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace Illumina, Inc. SW-410-1000 This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1 Qiagen 832000 Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2
Annotate Variation http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq National Center for Biotechnology Information https://www.ncbi.nlm.nih.gov/refseq/
dbSNP138 National Center for Biotechnology Information https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium Broad Institute http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort University of Washington and the Broad Institute http://evs.gs.washington.edu/EVS/
ClinVar National Center for Biotechnology Information https://www.ncbi.nlm.nih.gov/clinvar/
Combined Annotation Dependent Depletion University of Washington and Hudson-Alpha Institute for Biotechnology http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant J. Craig Venter Instutite http://sift.jcvi.org/
PolyPhen-2 Brigham and Women's Hospital, Harvard Medical School http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database Qiagen 834050 This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants Frey lab, University of Toronto http://tools.genes.toronto.edu/
Human Splicing Finder Aix Marseille Université http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

DOWNLOAD MATERIALS LIST

References

  1. Metzker, M. L. Sequencing technologies - the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
  3. Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
  4. Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
  5. Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
  6. Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
  7. Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
  8. Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
  9. Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
  10. El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
  11. Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
  12. Qiagen. Gentra Puregene Handbook. , 4th edn, (2014).
  13. NanoDrop Technologies, Inc. Spectrophotometer V3.5 User's Manual. , (2007).
  14. Invitrogen by Life Technologies. Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
  15. Illumina, Inc. Nextera Rapid Capture Enrichment Guide. , Vol. 15037436 v01 (2016).
  16. Illumina, Inc. Nextera Rapid Capture Enrichment Reference Guide. , Vol. 15037436 v01 (2016).
  17. Rev. B. Illumina, Inc. MiSeq Reagent Kit v3 Reagent Preparation Guide. , Vol. 15044932 Rev. B (2013).
  18. Illumina, Inc. MiSeq System Guide. , Vol. 15027617 v01 (2015).
  19. BaseSpace Sequence Hub. , https://basespace.illumina.com/dashboard (2017).
  20. Rev. B. Agilent Technologies. Agilent High Sensitivity DNA Kit Guide. , Vol. G2938-90321 (2013).
  21. Illumina, Inc. MiSeq System Denature and Dilute Libraries Guide. , Vol. 15039740 v01 (2016).
  22. Illumina, Inc. System Specification Sheet: MiSeq System. , (2016).
  23. BaseSpace Sequence Hub Help Center. , Available from: https://help.basespace.illumina.com/ (2017).
  24. Qiagen. Genomics Workbench 10.1.1 User Manual. , (2017).
  25. Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, Suppl 7. 239 (2016).
  26. Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
  27. Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
  28. Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. The Database of Short Genetic Variation (dbSNP). , National Center for Biotechnology Information. Bethesda, MD. (2013).
  29. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  30. Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP). , http://evs.gs.washington.edu/EVS/ (2017).
  31. Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
  32. Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
  33. Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
  34. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
  35. Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
  36. Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
  37. Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
  38. Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
  39. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
  40. Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
  41. Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
  42. Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
  43. Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson's disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
  44. Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
  45. Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson's disease. Mov Disord. 21 (7), 906-909 (2006).
  46. Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
  47. Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
  48. Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
  49. Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
  50. Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Tags

Genetikk problemet 134 neste generasjons sekvensering målrettet sekvensering resequencing variant ringer variant merknaden konstitusjonelle sykdom
Neste generasjons sekvensering og bioinformatikk rørledning for å evaluere genetisk determinanter av konstitusjonelle sykdom
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Dilliott, A. A., Farhan, S. M. K.,More

Dilliott, A. A., Farhan, S. M. K., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter