Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Bestemme sannsynligheten for Variant virusets aminosyre nivå Signal-til-støy analyse av genetisk variasjon

Published: January 16, 2019 doi: 10.3791/58907

Summary

Aminosyren nivå signal-til-støy analyse bestemmer utbredelsen av genetisk variasjon på en gitt aminosyre posisjon normalisert til bakgrunnen genetisk variasjon av en gitt befolkning. Dette gir identifikasjon av variant "hotspots" i en sekvens med protein (signal) som stiger over frekvensen av sjeldne varianter i en befolkning (støy).

Abstract

Fremskritt av kostnader og hastigheten på neste generasjon genetisk sekvensering har generert en eksplosjon av klinisk hele exome og hele genomet testing. Mens dette har ført til økt identifikasjon av sannsynlig patogene mutasjoner assosiert med genetisk syndromer, har det også dramatisk økt antall forresten funnet genetisk varianter av ukjent betydning (VUS). Avgjøre klinisk signifikans i disse variantene er en stor utfordring for både forskere og klinikere. En tilnærming til å bistå i å bestemme sannsynligheten for virusets er signal-til-støy analyse på protein sekvens nivå. Denne protokollen beskriver en metode for aminosyre nivå signal-til-støy analyse som utnytter variant frekvens på hver aminosyre posisjon av protein med kjente protein topologi å identifisere områder av primære sekvensen med forhøyet sannsynligheten for patologisk variant (i forhold til befolkningen "bakgrunn" variant). Denne metoden kan identifisere aminosyre rester plasseringen "hotspots" av høy patologisk signal, som kan brukes til å forbedre den diagnostiske vekten av VUSs som de identifiseres av neste generasjon genetisk testing.

Introduction

Rask bedring av genetisk sekvensering plattformer har revolusjonert tilgjengelighet og rollen til genetikk i medisin. Når begrenset til et enkelt gen, eller en håndfull gener, reduksjonen i kostnadene og økning i hastigheten på neste generasjon genetisk sekvensering har ført rutinemessig sekvensering av helheten av genomet er koding sekvens (hele exome sekvensering, WES) og hele genomet ( hele genomet sekvensering, WGS) i klinisk setting. WES og WGS har blitt brukt ofte i kritisk syke nyfødte og barn med bekymring for genetisk syndrom der det er en anerkjent diagnostisk verktøy som kan endre klinisk behandling1,2. Mens dette har ført til økt identifikasjon av sannsynlig patogene mutasjoner assosiert med genetisk syndromer, økt det også dramatisk antall forresten funnet genetisk varianter, eller uventet positive resultater, ukjent diagnostikk betydning (VUS). Mens noen av disse variantene er bort og ikke rapportert, varianter lokalisere til rapporteres ofte gener forbundet med potensielt dødelig eller svært sykelig sykdommer. Gjeldende retningslinjene anbefaler rapportering av tilfeldige varianter i bestemte gener som kan være av medisinsk nytte for pasienten, inkludert gener knyttet til utviklingen av plutselige hjertestans død-disponerer sykdommer som cardiomyopathies og channelopathies3. Selv om denne anbefalingen ble utformet for å fange personer utsatt for en SCD-disponerer sykdom, overstiger følsomheten av variant langt spesifisitet. Dette gjenspeiles i et økende antall VUSs og øvrig identifisert varianter med uklart diagnoseverktøy som langt overstiger frekvensen av de respektive sykdommene i en gitt befolkning4. En slik sykdom, lang QT-tid syndrom (LQTS), er en kanoniske cardiac channelopathy forårsaket av mutasjoner lokalisere til gener som kodes cardiac ionekanaler, eller kanal samspill proteiner, noe som resulterer i forsinket cardiac repolarisasjon5. Dette forsinket repolarisasjon, sett av en langvarig QT-intervall på hvile elektrokardiogram, resulterer i en elektrisk predisposisjon for potensielt dødelig ventrikulær arytmi som torsades de pointes. Mens en rekke gener har vært knyttet til utvikling av denne sykdommen, mutasjoner i KCNQ1-kodet jegKs kalium (KCNQ1, Kv7.1) er årsaken til LQTS type 1 og benyttes som et eksempel under6. Illustrere kompleksiteten i variant tolkning, har tilstedeværelse av sjeldne varianter i LQTS-assosiert gener, såkalte "bakgrunn genetisk variasjon" vært beskrevet tidligere7,8.

I tillegg til store samling-stil databaser av kjente sykdomsfremkallende varianter finnes flere strategier for å forutsi effekten forskjellige variantene vil produsere. Noen er basert på algoritmer, som SIFT og Polyphen 2, som kan filtrere stort antall romanen ikke-synonymt varianter å forutsi deleteriousness9,10. Til tross for bred bruk av disse verktøyene begrenser lav spesifisitet deres anvendelse når det gjelder "kaller" klinisk VUSs11. "Signal-til-støy" analyse er et verktøy som identifiserer sannsynligheten for en variant knyttes sykdom basert på frekvensen av kjente patologisk variasjon på loci aktuelle normalisert mot sjelden genetisk variasjon fra en populasjon. Varianter lokalisere til genetisk loci hvor det er en høy utbredelse av sykdomsassosierte mutasjoner sammenlignet med befolkningen-baserte varianten, en høy signal-til-støy, er mer sannsynlig å være sykdomsassosierte seg selv. Videre, sjeldne varianter finnes forresten lokalisere til et gen ofte sjeldne befolkningen varianter sammenlignet sykdomsassosierte frekvens, en lav signal-til-støy, kan være mindre sannsynlig å bli sykdomsassosierte. Diagnoseverktøy for signal-til-støy analyse er illustrert i siste retningslinjene for genetisk testing for cardiomyopathies og channelopathies; men har det bare vært ansatt på hele genet nivå eller domene-spesifikke nivå12. Nylig gitt økt tilgjengelighet av både patologisk varianter (sykdom databaser, Kohortstudier i litteraturen) og befolkningen kontrollen varianter (Exome aggregering Consortium, ExAC og genom aggregering databasen, GnomAD13) Dette er utlignet til individuelle aminosyre posisjonene i den primære sekvensen av et protein. Aminosyren nivå signal-til-støy analyse har vist seg nyttig i kategorisere forresten identifiserte varianter i gener forbundet med LQTS som sannsynligvis "bakgrunn" genetisk variasjon snarere enn sykdomsassosierte. Blant de tre store genene knyttet til LQTS, inkludert KCNQ1, manglet disse forresten identifiserte varianter en betydelig signal-til-støy-forhold, antyder at frekvensen av disse variantene på individuelle aminosyre posisjoner gjenspeiler sjeldne befolkningen variasjon i stedet for sykdomsassosierte mutasjoner. Videre, når protein-spesifikke domenetopologi var kledde mot områder med høy signal-til-støy, patologisk mutasjon "hotspots" lokalisert til viktige funksjonelle domener proteiner14. Denne metodikken holder løftet i bestemme 1) sannsynligheten en variant eller befolkningen-sykdomsassosierte og 2) identifiserer romanen kritisk funksjonell domener av et protein forbundet med menneskelig sykdom.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Identifiser Gene og bestemt Splice isoformen av interesse

Merk: Her, vi viser bruk av Ensembl15 å identifisere konsensus rekkefølgen for genet av interesse som er forbundet med patogenesen av sykdommen av interesse (dvs. KCNQ1 mutasjoner er forbundet med LQTS). Alternativer for Ensembl inkluderer RefSeq via National Center for bioteknologi informasjon (NCBI)16 og University of California, Santa Cruz (UCSC) Human Genome nettleser17 (se Tabell for materiale).

  1. I Ensembl hjemmeside, Velg arter (dvs human) på rullegardinmenyen, og angi genet av interesse akronym i feltet (dvs. KCNQ1). Klikk "Go"
  2. Velg koblingen tilsvarer genet av interesse (dvs. "KCNQ1 (menneskelige gen)"
  3. Velg koblingen tilsvarer transkripsjon av interesse ID av interesse fra "transkripsjon tabellen" (dvs. TranscriptID ENST00000155840.10, NM_000218 [RNA transkripsjon], NP_000209 [protein produkt av RNA transkripsjon]).
    Merk: Gjennomgang av relevant litteratur for å sikre riktig transkripsjon konsensus sekvensen er valgt.
  4. Merk de transkripsjon-spesifikke NM og NP identifikasjonsnummer for fremtidig referanse i kolonnen "RefSeq" "Avskrift Table".
  5. Velg koblingen knyttet NP ID-nummeret til å åpne en ny webside fra NCBI Protein databasen.
  6. Bla ned til delen "Origin" å få protein (Primær) rekkefølgen for transkripsjon genet av interesse.
  7. Bla til delen "Egenskaper" for å hente en liste over funksjonene protein (funksjonell domener, bindende domener, post-translasjonell modifikasjon nettsteder).
    Merk: Denne informasjonen kan også skaffes via NCBI Protein databasen eller fra primærkilder i litteraturen. Dette vil diskuteres videre i trinn 5.

2. opprette eksperimentelle genetisk Variant databasen ("Signal")

Merk: Her viser vi hvordan du oppretter en database sykdomsassosierte varianter i genet av interesse med frekvensen av sykdomsassosierte variantene blant personer med sykdommen av interesse. Denne databasen kan ta mange former, og representerer det "signalet" (fenotypen-positive genetisk variasjon) som blir normalisert mot kontroll variant databasen. Dette kan omfatte 1) sykdomsassosierte varianter for sammenligning mot VUSs til å identifisere romanen funksjonelle domener av protein eller 2) VUSs, inkludert forresten identifisert VUSs, sammenlignes mot sykdomsassosierte varianter å fastslå sannsynligheten for virusets. Sykdomsassosierte varianter i KCNQ1 vil bli presentert for illustrasjon; men er metoden den samme for analyse av forresten-identifisert VUSs eller noen andre eksperimentelle varianter.

  1. Identifisere cohort(s) av urelaterte indeks tilfeller/probands med sykdommen av interesse som genet av interesse ble omfattende genotyped for alle probands (dvs. en studie angir 24 urelaterte probands hosting varianter i KCNQ1 av 200 personer med LQTS som ble utsatt for KCNQ1 genetisk avhør).
    Merk: Disse kohorter kan identifiseres fra litteraturen, fra experimental genetisk analyse, eller en kombinasjon av begge.
    1. Utelate studier som ikke kohort-basert (dvs. en case rapport som beskriver en enkeltperson mutasjon-positive) gir ikke det totale antallet personer genotyped for genet av interesse, eller ikke omfattende genetisk analysere genet ( dvs en "målrettet" genetisk screening av KCNQ1 exons 2-4 bare) dette hinder for beregning av en variant.
    2. Inkluder personer som er relatert probands og ekskludere relaterte personer som dette kan overvurdere variant frekvenser (dvs. en studie identifiserer 4 urelaterte individer med KCNQ1 mutasjoner i en kohort av 20 pasienter med LQTS. En av disse probands er del av en familie med 5 andre mutasjon-positive slekt. Utelukke alle familiemedlemmer og inkludere bare de 4 urelaterte probands).
  2. Kompiler alle eksperimentelle genetisk varianter i identifisert cohort(s)
    1. Tilordne nomenklatur som inneholder vill-type aminosyre, aminosyre plasseringen og variant aminosyre (i.e. alanin aminosyre nummer 212 endret til Valin, Ala212Val eller A212V). Slike typer nomenklaturen er demonstrert i figur 1.
    2. Bekreft at variant nomenklatur for alle eksperimentelle genetisk varianter er basert på samme referanse genet transkripsjon som nevnt i trinn 1.4. Hvis eksperimentelle genetisk varianter ikke er kommenterte på samme referanse genet transkripsjon, deretter reannotate variant posisjon til en referanse transkripsjon bruke transkripsjon justering (se trinn 1.2)
  3. Ekskludere varianter som ikke er knyttet til spørsmålet blir undersøkt.
    1. Ekskluder varianter lokalisere til ikke-koding områder av Genova eller varianter som ikke endrer protein sekvens som synonymt, intronic varianter, 5' eller 3 uoversatt regionen [UTR] og intergenisk regionen varianter (dvs. en rapportert patologisk variant i KCNQ1 som regionaliserer til 5' UTR koding regionens ekskluderes som det ikke er spådd for å endre protein sekvensen).
    2. Ekskludere varianter som ikke oppfyller inklusjonskriterier for studier. For sykdomsassosierte varianter inkluderer dette varianter som ikke anses patologisk.
      1. Bekreft at hver dag anses patogene, sannsynligvis patogene eller i det minste ikke godartet, ved kryssreferanser varianter med ClinVar databasen (se Tabell for materiale).
      2. Angi genet og variant av interesse i ClinVar søkefeltet (dvs. KCNQ1-Y111C), velg "Søk"
      3. Angi varianten av interesse i kolonnen "Variant/sted".
      4. Merk konsensus tolkningen av virusets kolonnen "Klinisk betydning" (dvs. KCNQ1-Y111C er tolket som "patogene").
      5. Inkluderer varianter som er "sannsynlig patogene" eller "patogene."
      6. Inkluderer varianter med betegnelser av "motstridende tolkninger av virusets," "usikker betydning," eller når ingen registrering er tilgjengelig ("ikke levert") hvis garantert av studien.
      7. Utelate varianter som "sannsynlig godartet" (dvs. KCNQ1-A62T).
  4. Beregne mindre allelet frekvensen (MAF) til hver eksperimentelle variant posisjon.
    1. Beregne hvor noen alleler var positive for hver respektive varianten (dvs. hvis en KCNQ1-Y111C heterozygote mutasjon finnes i 2 urelaterte individer, antall variant-positive alleler 2).
    2. Beregne antall alleler sekvensert i kohorten
      1. Merk antall individer sekvensert i hver kohort studie (trinn 2.1)
      2. Multiplisere antall personer med 2 til å bestemme antall alleler.
        Merk: Forutsetter dette diploide genomer der hver individuelle verter 2 av hver allelet.
    3. Beregne antall variant-positive individer aminosyre kor (alleler i trinn 2.4.1/alleles i trinn 2.4.2). For eksempel hvis 2 urelaterte personer hver vert heterozygote KCNQ1-Y111C mutasjoner i kohorter av 100 og 200 LQTS-rammet enkeltpersoner, henholdsvis, er frekvensen av eksperimentelle varianter på aminosyre posisjon 111 2 varianter/((100+200 individuals ) * 2 alleler/individuelle) (dvs. kombinert MAF 0.0033).
    4. Beregne verdien for hver som den respektive MAF hver eksperimentelle variant. For ytterligere informasjon kan du se trinn 4.2.

3. opprette kontrollen genetiske Variant databasen ("støy")

Merk: Her viser vi hvordan du oppretter en database kontroll varianter i genet av interesse med en tilknyttet frekvens kontroll innbyggere. Denne databasen representerer "støy" (fenotypen-negativ, populasjon basert genetisk variasjon) som er bakgrunnen som eksperimentelle variant databasen blir normalisert. Dette omtales som "kontroll" variasjon.

  1. Identifisere en cohort(s) av sunn, urelaterte probands eller utnytte store befolkningen-baserte studier for å identifisere sjeldne varianter blant en gitt befolkning.
    Merk: Kilder for denne databasen er mangfoldige og omfatter: 1) friske individer og/eller ellers fenotypen-negativ personer utsatt for Sanger sekvensering eller offentlig holdt databaser av befolkningen-baserte individer som sykdommen i spørsmålet er sjelden i frekvens som 2) 1000 Genome Project (N = 1,094 fag)18, 3) nasjonale hjerte, lunge og blod Institute gå Exome sekvensering prosjektet (ESP, N = 5,379 fag)19, 4) Exome aggregering Consortium (ExAC, N = 60,706 fag)13 , og/eller 5) genomet aggregering Database (GnomAD, N = 138,632 individer)13 (se Tabell for materiale). GnomAD databasen vil bli benyttet som et illustrerende eksempel.
    1. Angi genet av interesse i søkeboksen på GnomAD hjemmeside (dvs. KCNQ1).
    2. Bekreft at nettleseren valgt riktig genet og transkripsjon av interesse (trinn 1.4).
    3. Bekreft at det er riktig dekning av sekvensering av locus ser "betyr dekning" og "dekning plott."
    4. Velg for koding sekvens genetisk variasjon ved å velge "Eks. Missense + LoF."
    5. Velg "Eksporter tabell til CSV," som vil generere en TextEdit-fil kalt "Ukjent."
    6. Relabel filen og inkluderer en ny utvidelse "CSV" (dvs. "KCNQ1 kontroll Variation.csv").
    7. Åpne filen ved hjelp av et passende program for analyse av CSV-filer (se Tabell for materiale).
  2. Identifisere protein endre genetisk variasjon i kolonnen "Protein resultat."
  3. Bruke samme utelukkelse vilkårene til disse kontrollen genetiske varianter som eksperimentelle genetisk variantene (trinn 2.3.1).
  4. Identifisere MAF hver kontroll variant.
    1. Finn kolonnen "Allelet Count", som angir antall alleler funnet til havn varianten.
    2. Finn kolonnen "Allelet nummer", som angir det totale antallet alleler sekvensert på dette gitt amino acid posisjon.
      Merk: Antall alleler sekvensert varierer avhengig dekning på denne plasseringen. Områder av høy dekning nærmer 2 * antall personer i GnomAD (dvs. for 138,632 personer, komplett dekning omfatter 277,264 totale alleler genotyped).  Derimot vil områder av lavere dekning ha noen reduserte totale allelet
    3. Finn varianten MAF som beregnes før i kolonnen "Allelet frekvens" og representerer "Allelet Count" delt "Allelet tall."
      Merk: Human genomer har to av hver allelet (dvs. 1 emnet funnet å ha en heterozygote variant i 10 personer har en MAF på 1/20)
    4. Merk MAF for hver som den respektive MAF hver kontroll variant.
      Merk: Variant bestemt MAF for hver rase/etnisk gruppe bestående av GnomAD kan sees i kolonnene til høyre for "Allelet frekvens."
  5. Bruke en MAF terskel for sjeldne varianter som kontroll varianter er utelukket som "vanlige".
    1. Angi MAF terskelen maksimal verdi der alle virkelig sykdomsassosierte varianter (se trinn 2) også observert i kontroll databasen finnes under terskelen (dvs.blant alle sykdomsassosierte KCNQ1 varianter også funnet i GnomAD den høyeste vanlige varianten MAF er 0,009, så alle GnomAD varianter over en terskel for 0.01 bør utelukkes).
  6. Kontroller at eksperimentelle variant nomenklaturen er identisk med kontroll (se trinn 2.2).
  7. Lagre filen. I noen tilfeller kan dette innebære endringer/filtypen.

4. aminosyre nivå Signal-til-støy beregning og kartlegging

  1. Beregne en MAF aminosyre kor med en kontroll variant (se figur 1 inneholder eksempel KCNQ1 GnomAD varianter).
    1. I et grafisk-kompatible regneark, kan du opprette en kolonne med plasseringen av alle eksperimentelle varianter.
    2. Fjerne variant tekst å forlate bare variant plasseringen.
      Merk: Ulike funksjoner/formler kan benyttes for å automatisk slette disse tekstelementer i celler (figur 1, kolonne C, se Tabellen for materiale).
    3. Sortere variantene i stigende verdi å identifisere hvilke stillinger har mer enn 1 variant knyttet til den (figur 1, kolonne E; dvs aminosyre posisjon 10 vises to ganger i kolonne E som angir 2 unike varianter der).
    4. Kombinere MAF for hver variant tilknyttet en gitt posisjon ved å ta summen av alle MAFs for en gitt posisjon (figur 1, kolonne G og H).
  2. Beregne en MAF aminosyre kor med en eksperimentell variant (se figur 2 inneholder uekte KCNQ1 patologisk varianter).
    1. På en lignende måte til 4.1.1, opprette en kolonne av aminosyre stillinger som har eksperimentell varianter (figur 2, kolonne B).
    2. For hver variant posisjon, beregne MAF alle varianter tilknyttet den posisjonen fra trinn 2.4 (figur 2, kolonne C-G).
  3. Opprette en rullende gjennomsnitt MAF både eksperimentelle og kontroll varianter.
    1. Utvide kolonnene opprettet i 4.1 og 4.2 med celler for aminosyre stillinger som har ingen variant som en MAF = 0. (Figur 3).
      1. Opprette en kolonne som inneholder alle aminosyre stillinger i genet av interesse (dvs. 1 til 676 for KCNQ1, Figur 3, kolonne C og jeg).
      2. Legge til en MAF 0 for alle stillinger som ikke har varianter for både kontrollen og eksperimentelle datasett.
        Merk: Dette kan gjøres automatisk ved å bruke funksjonen "Finn" i et vanligvis benyttet program (Figur 3, kolonne og se Tabellen for materiale).
    2. Opprette en rullende gjennomsnittlig for hver eksperimentelle og kontroll utbredelse.
      Merk: Dette gir inferens i tilstøtende posisjon virusets og kan endres, eller selv ekskludert, behov av studien.
      1. Opprette en kolonne som representerer en rullende gjennomsnittlig MAF både den for både kontrollen og eksperimentelle datasett (Figur 3kolonne E og K).
      2. Plass gjennomsnittet av respektive MAF til 5 variant stillingene N-terminalen og 5 variant stillinger C-terminalen til den angitte plasseringen i rullende gjennomsnittlig kolonnen.
        Merk: Dette skaper en rullende gjennomsnitt +/-5. For stillinger med mindre enn 5 aminosyre rester foregående, eller etter en rullende gjennomsnittlig plassering (i.e. N - eller C-terminus), rullende gjennomsnittet tar bare hensyn til disse rester stede (dvs. den rullende gjennomsnittlig på aminosyren posisjon 3 vil være gjennomsnittlig MAF aminosyre posisjoner 1 om 8, beregnes som summen av disse MAFs delt 8).
  4. Beregne minste kontroll frekvensen ved laveste rullende MAF med 2.
    1. Endre en celle med en kontroll MAF 0 til minimum frekvensen å unngå å dele med 0 når du beregner en signal-til-støy-forhold.
  5. Beregne aminosyre nivå signal-til-støy forholdet (Figur 4).
    1. Dele hver aminosyre posisjon eksperimentelle rullende gjennomsnittlig av respektive kontrollen for rullende gjennomsnittlig.
    2. Graf dette forholdet (y-aksen) vs aminosyre posisjon (x-aksen).

5. protein domene topologi overlegg

  1. Identifisere konsensus aminosyre plasseringen av funksjonelle domener/funksjoner eller områder av post-translasjonell modifikasjon, av protein av interesse (trinn 1.7).
    Merk: Et antall ressurser kan brukes til å identifisere disse domenene. Disse ressursene, samt ressurser for å identifisere mulige domener i romanen proteiner, har blitt godt vurdert i litteratur20. Denne protokollen vil beskrive protein databasen tilgjengelig via NCBI, som er mye brukt og robust (se Tabell for materiale).
  2. Identifisere aminosyre stillinger knyttet protein domener/funksjoner.
    1. Åpne NCBI websiden.
    2. Angi NP av protein av interesse i søkefeltet.
    3. Identifisere kjente protein domener og funksjoner er kataloger under "Vise egenskaper"
    4. Identifisere og merke domene navn/type og aminosyre stillingene.
    5. Velg koblingen tilsvarer funksjonen å visualisere regionen på protein av interesse primære sekvens.
  3. Opprette en kolonne som inneholder grensene for domener/funksjoner.
    1. Opprette en kolonne ved siden av kolonnen signal: støy slik at kolonnen aminosyre posisjon kan være referert (figur 5A, kolonne C).
    2. Identifisere cellene svarer på N-terminal eller C-terminalen aspekt av hver domene/funksjon og plassere en 1 i hver celle (dvs. hvis N-terminal domenet S1 transmembrane domenet KCNQ1 aminosyre posisjon 122 og C-terminalen domenet er posisjon 142 og 1 er plassert i raden for aminosyre posisjon 122 og 142).
    3. Overlappende domener/funksjoner, vise flere domener ved å endre 1 til andre verdier (dvs. 1.5, 2, 2,5); Dette kan hjelpe med å skille domener.
  4. Opprette et diagram med disse grensene som en y-aksen og aminosyre posisjon på x-aksen (figur 5B).
  5. Overlegg denne grafen med signal-til-støy-graf som ble opprettet i trinn 4.4.
  6. Identifisere sammenhenger mellom kjent protein domener/funksjoner og signal-til-støy analyse.

6. variant posisjon overlegg

  1. Tilordne individuelle variant stillinger for overlegg grafer produsert i trinn 4.4 og 5.4.
    1. Opprette en kolonne ved siden av kolonnen domene/funksjon slik at rader i kolonnen vil tilsvare aminosyre posisjoner (figur 5A, kolonne D).
    2. Sett 1 i hver celle i raden som legges til tilsvarende posisjon som inneholder en respektive variant.
    3. Opprette et diagram med denne kolonnen som en y-aksen og aminosyre posisjon på x-aksen (figur 5C).
  2. Overlappe denne grafen med signal-til-støy-graf som ble opprettet i trinn 4.4 og domene graf som ble opprettet i trinn 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

En representant resultat for aminosyre nivå signal til Støyanalyse for KCNQ1 er avbildet i figur 6. I dette eksemplet sjeldne varianter i GnomAD kohort (kontroll kohort), som forresten-identifisert WES varianter (eksperimentell kohort #1) og LQTS tilfelle-assosiert varianter sannsynlig sykdomsassosierte (eksperimentell kohort #2) vises. Videre normalisert signal-til-støy analysen sammenligne WES og LQTS kohort variant frekvensen mot GnomAD variant frekvens er avbildet. LQTS-assosiert varianter viste høy signal-til-støy-forhold i domenene korresponderer med kanal pore, selektivitet filter og KCNE1-bindende domenet. Sammenligning vise forresten identifiserte varianter i WES kohort ikke tydelig bestemte regioner høy høyde, signal-til-støy, noe som tyder på at disse variantene gjenspeiler bakgrunnen genetisk variasjon. Dette eksemplet ikke bruke variant MAFs som nevnt ovenfor. imidlertid viser alle de samme prinsippene som beskrevet.

Figure 1
Figur 1 : Eksempel på kontroll variant database med MAF beregning. Kolonne A, direkte importert GnomAD kontroll sjeldne varianter. Kolonne B, sletting av venstre-sidig, ikke-stilling-relaterte tekst fra variant nomenklaturen bruker en eksempel formel for karakter av (dvs.: for B2 "= høyre (A2, LEN (A2)-5", se Tabellen for materiale). Kolonne C, sletting av høyre-sidig, ikke-stilling-relaterte tekst fra variant nomenklaturen bruke en relaterte formel (dvs.: for C2 "= LEFT(B2,LEN(B2)-3"). Kolonne D, resulterende usorterte aminosyre posisjoner. Kolonne E, aminosyre posisjoner sortert i en stigende mote å tillate identifikasjon av dupliserte posisjoner. Kolonne F, tilknyttede MAF hver som importeres fra GnomAD. Kolonne G og H, kombinert MAF for en gitt aminosyre stilling (summen av hver variant MAF på et bestemt sted). Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2 : Eksempel på eksperimentell variant databasen med MAF beregning. Kolonne en liste over håne LQTS-assosiert mutasjoner i KCNQ1 som representerer en sykdomsassosierte mutasjon eksperimentelle database. Kolonne B, mutasjon posisjon tilsvarende for hver. Kolonne C, antall mutasjon-positive personer i uekte studie 1. Hver er antatt å være heterozygote mutasjon bærere. Antall personer genotyped i studien ligger på bunnen av arket. Kolonne D, antall mutasjon-positiv person i uekte studie 2. Kolonne E, antall mutasjon-positiv person i uekte studie 3. Kolonne F, totalt mutasjon-positive individer hosting observert mutasjon på tvers av alle studier. Merk at forskjellige mutasjoner forbundet med samme aminosyre posisjon bør kombineres. Kolonne G, MAF av hver mutasjon og aminosyre posisjon ved hjelp av et eksempel formel (dvs.: Hvis G2 "=2/(176*2)", kan du se Tabellen for materiale). Merk at siden alle individer antas å være heterozygote og enkelte antas å bære 2 alleler av KCNQ1 locus, totalt personer skal multipliseres med 2 for allelet hyppigheten. Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3 : Eksempel på rullende gjennomsnittsberegning for kontroll og eksperimentelle varianter. Kolonne A og B, GnomAD kontroll variant posisjoner og respektive MAFs. Kolonne C alle aminosyre posisjoner av KCNQ1 fra aminosyre plasser til finalen. Kolonne D, GnomAD variant MAF for alle stillinger med en MAF 0 i stedet for posisjoner uten en variant. Dette kan beregnes automatisk ved hjelp av en VLOOKUP-funksjonen (dvs. for D2, "= IFERROR(VLOOKUP(C2,A:B,2,),0), se Tabellen for materiale). Kolonne E, rullende gjennomsnittlig plasser MAF bruker en eksempel formel (dvs. for E2, "= SUM(D2:D7)/6" og E7, "= SUM(D2:D12)/11"). Kolonnen G og H LQTS eksperimentelle variant stillinger med respektive MAFs. Kolonne I, alle aminosyre plasseringen av KCNQ1. Kolonne J, LQTS variant MAF for alle stillinger. Kolonnen K, bølgende LQTS MAF. Grått fyll celler er eksempler på hvor MAF verdiene fra kolonne B og H utvides til kolonnen og henholdsvis, hvilke relatere til respektive posisjoner i kolonne C/I. Merk at det er viktig at alle cellene er formatert som "Numbers" riktig formel fungerer. Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4 : Eksempel på signal-til-støy analyse og grafisk. Venstre, eksempel database og beregninger. Kolonne alle aminosyre plasseringen av KCNQ1. Kolonne B, LQTS eksperimentelle MAF rullende gjennomsnittet for hver posisjon. Kolonne C, GnomAD styre MAF rullende gjennomsnittet for hver posisjon. D: signal-til-støy-forhold (dvs. for D2, "= B2/C2"). Rett, eksempel på grafen av signal-til-støy-forhold (y-aksen) versus aminosyre posisjon (x-aksen). Klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5 : Eksempel på protein og variant posisjon kartlegging. A, eksempel database og beregninger. Kolonne alle aminosyre plasseringen av KCNQ1. Kolonne B KCNQ1 stillinger som har en sjelden kontroll variant i GnomAD. Kolonne C domene kartlegging kolonnen der celler med verdier tilsvarer N eller C-terminalen aspekt av identifisert KCNQ1 protein domener eller funksjoner. Som de fleste N-terminal domenet S1 domenet har N-terminal grensen på aminosyre 122, er ingen verdier kjent her. Kolonne D, variant kartlegging kolonnen der cellene som inneholder 1 tilsvarer KCNQ1 posisjoner som lokalisere sjeldne varianter. Grått fyll celler er to eksempler på hvor variant posisjoner i kolonne B utvides til kolonne D som samsvarer med respektive posisjoner i kolonne A. Klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6 : Eksempel på aminosyre nivå signal-til-støy analyse av KCNQ1-kodet KCNQ1 (Kv7.1). Toppen, variant posisjoner er demonstrert med loddrette linjer, inkludert sjeldne GnomAD kohort varianter (svart), forresten-identifisert varianter i WES henvisninger (blå) og varianter i LQTS cases(green). Funksjonell domener er kjent. Relative hyppigheten av LQTS sak varianter normalisert til GnomAD varianter (grønn linje) er avbildet sammenlignet med WES (blå linjen). S1-S6, transmembrane domener; SF, ion selektivitet filter; KCNE1 og AKAP9, respektive protein bindende domener. Modifisert og opptrykk med tillatelse fra tidligere arbeidet14. Klikk her for å se en større versjon av dette tallet.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Høy gjennomstrømming genetisk testing har avansert dramatisk i programmet og tilgjengelighet det siste tiåret. Men i mange sykdommer med veletablerte genetisk grunnlaget, som cardiomyopathies, kunne utvidet testing forbedre diagnostiske avkastning21. Videre, det er betydelig usikkerhet om det diagnostiske verktøyet av mange identifiserte varianter. Dette skyldes delvis et økende antall forresten identifiserte sjeldne varianter oppdaget på WES og WGS, som kan føre til feildiagnostisering22. Aminosyren nivå signal-til-støy analyse basert på veletablerte strategier for å forutsi variant virusets og gir fordelen av å utnytte store befolkningen-baserte genomet studier for å avgrense variant tolkning.

Det følger at en av de mest avgjørende skritt til denne protokollen er kontroll og eksperimentelle kohorter. Mange av de offentlig tilgjengelige store genomet studiene er tilgjengelig gjennom samlede databaser, for eksempel GnomAD, som kan tillate representant kontroll kohorter i denne protokollen å være så stor som 138,632 individer på dagens dato. Selv om ikke alle fag i disse samlet kohorter er tilsynelatende sunn, stor utvalgsstørrelsen i innstillingen for sjelden sykdom gjør denne ressursen uvurderlig og tillater en strenge MAF utelukkelse terskel. Utelukkelse av vanlige varianter er nødvendig som å være en årsak til høyt penetrant Mendelian sykdom. Basert på tidligere arbeid, en MAF terskelen til 0,01 til channelopathy-assosiert gener og 0,0001 for kardiomyopati gener kan være riktig og har blitt godkjent av uavhengige grupper23,24. Viktigere, bør gitt viktigheten av MAF terskelen, dette opprettes og godkjent for hver studie uavhengig. En MAF terskel må ikke brukes på en eksperimentell kohort, gitt veletablerte tilstedeværelsen av grunnleggeren mutasjoner i channelopathies og cardiomyopathies. Størrelsen av eksperimentelle kohorten må være tilstrekkelig til å identifisere områder der varianter kan klynge; Det er imidlertid ingen strenge størrelse. I tillegg bør eksperimentelle kohort ikke inkludere varianter som er kjent for å være godartede innen litteratur, som dette ville avta sannferdighet av patogene signalet.

Velge riktig utelukkelse kriterier er også avgjørende for tolkning og anvendelse av resultatet. Men denne protokollen anbefaler ekskludere visse mutasjon klasser som synonymt varianter, kan disse feasibly inngå for sykdom prosesser som skadelige synonymt varianter har vært identifisert25,26. I tillegg når ulike utelukkelse kriterier brukes både eksperimentelle og kontroll grupper, kan det gi lagdeling av signal-til-støy kartlegging av mutasjon underklasse (i.e. sammenligne eks. missense å avkorte varianter).

Innstillingen en rullende gjennomsnittet for MAFs tillate slutning av engasjement til nærliggende aminosyrer. For eksempel hvis aminosyre posisjon 35 inneholder en patologisk variant og befinner seg i en kritisk protein domenet, så posisjon 36 har en grad av virusets når muterte. Likeledes bør en strekning av primære har mye sjeldne kontroll varianter, og deretter aminosyrer i denne regionen som ikke vert sjeldne varianter kan ennå har en høyere sannsynlighet for inneholder sjeldne varianter i en populasjon. Mens rullende gjennomsnittet i denne protokollen er + / 5, dette området kan være variere basert på brukeren er ønsket nivå av oppløsningen av signal-til-støy-forhold og bestemt protein blir studert. I eksempelet på LQTS, den arrestert KCNQ1-kodede KCNQ1 kanal har flere transmembrane domener som spenner over ~ 10 aminosyrer, spørre forfatterne justere deres oppløsningen å reflektere betydelig funn på denne skalaen14. For proteiner med lenger primære sekvens og protein lengde må at rullende gjennomsnittet økes på grunn av større spenn av protein uten kontroll variasjon.

Det er flere begrensninger til denne metoden. Som tidligere nevnt, må tilstrekkelig fenotypen-positive innbyggere hosting mulige patologisk varianter identifiseres for å kjøre et klart patologisk signal. I tillegg disse patologisk varianter kan ha variabel penetrance, dermed virkelig patologisk mutasjoner kan ikke manifestere en sykdom fenotype eller annet fullt penetrant og sykdom skyldes ikke. Mens mange offentlig holdt databaser, for eksempel GnomAD, er ofte betraktet som "sunn kohorter", utbredelsen av genetiske sykdommer er sannsynligvis like i denne databasen som befolkningsstudier. Som beskrevet fokuserer denne protokollen spesielt på aminosyre endringer som følge av exonic genet varianter som koder for aminosyrer, som utelukker rollen som sykdomsfremkallende intronic skjøting varianter kan spille i monogenic sykdom. Gitt deres nylig demonstrert rolle i cardiomyopathies, utvidelse av oppløsningen dette tilnærming kan være berettiget til å identifisere intergenisk "hotspots" også. Videre kan anvendelsen av en MAF terskel savner visse "risiko alleler", selv om eksisterende i befolkningen med en MAF høyere enn at sykdom prevalens, kan bidra til sykdom patogenesen27,28. Til tross for disse begrensningene, denne analysen kan tilpasses og kan spille en nøkkelrolle i å gi klinikere relative sannsynlighet for sykdom virusets når riktig brukt.

Til slutt, gitt forkjærlighet av denne analysen identifisere kritiske områdene i et protein, aminosyre nivå signal-til-støy beregninger utnytte patologisk mutasjoner tilbyr muligheten til å identifisere romanen funksjonelle domener av proteiner som studerte. Gitt observasjon av høy virusets signal-til-støy på sentrale steder av ionekanaler, for eksempel pore domenet, selektivitet filter, S2 transmembrane domene og KCNE1-bindende domenet KCNQ1, identifikasjon av en "topp av virusets" innen et område av proteinet uten en kjent funksjon kan foreslå et romanen kritiske domene. For eksempel en merket peak av virusets av LQTS-assosiert mutasjoner er identifisert lokalisere til aminosyre rester 912-930 av KCNH2-kodet KCNH2 (Kv11.1). Denne regionen av proteinet har ingen identifiserbar funksjonelle domene, men viser en markert tilbøyelighet for LQTS-assosiert mutasjoner14. Ettersom kunnskap om protein topologi utvides, mer sofistikert Proteomikk kan feasibly forbedre oppløsningen for denne metoden i fremtiden fra analysere signal-til-støy forholdet langs et protein primære struktur med sin sekundær, tertiær, eller kvartær struktur. Tillegg av avanserte beregningsorientert vitenskap til denne analysen, som maskinlæring og kunstig intelligens, gir oss mulighet til å identifisere romanen mønstre blant patologisk versus befolkningen-baserte genetisk variasjon, hvis robuste databaser av disse varianter kan være generert29,30. Igjen denne metoden kan hjelpe bedre karakterisere og forutsi genotype-fenotypen forholdet mellom spesifikke sykdommer og brukes sammen med et individs pre-test sannsynligheten for sykdom til å forbedre den diagnostiske avkastningen av genetisk testing. Videre kan denne analysen oppdage roman protein biologi og identifisere romanen loci innenfor det menneskelige genomet som manifestere med sykdom når endres.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne ikke avsløre.

Acknowledgments

APL støttes av den nasjonale institutter for helse K08-HL136839.

Materials

Name Company Catalog Number Comments
1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles' heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. Lawless, C. , Springer. New York, NY. (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , Chapter 7 (Unit 7.20) (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, Database issue 447-453 (2005).
  16. O'Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Tags

Genetikk problemet 143 genetisk analyse genetisk testing mutasjon topologi variant av uviss betydning hele exome sekvenser
Bestemme sannsynligheten for Variant virusets aminosyre nivå Signal-til-støy analyse av genetisk variasjon
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Jones, E. G., Landstrom, A. P.More

Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter