Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Fastställandet av risken för Variant patogenicitet med aminosyra-nivå Signal-brus-analys av genetisk Variation

Published: January 16, 2019 doi: 10.3791/58907

Summary

Aminosyra-nivå signal-brus-analys avgör förekomsten av genetisk variation vid en viss aminosyra position normaliserade till bakgrunden genetisk variation i en viss population. Detta möjliggör identifiering av variant ”hotspots” inom en proteinsekvens (signal) som stiger över frekvensen av sällsynta varianter hittade i en population (buller).

Abstract

Framsteg i kostnad och hastigheten på nästa generation genetisk sekvensering har genererat en explosion av kliniska hela exome och hela genomet testning. Detta har lett till ökad identifiering av sannolikt patogena mutationer som förknippas med genetiska syndrom, har det också dramatiskt ökat antalet förresten hittat genetiska varianter av okänd betydelse (FE). Avgöra den kliniska betydelsen av dessa varianter är en stor utmaning för både forskare och kliniker. En metod att hjälpa att avgöra sannolikheten för patogenicitet är signal-brus-analys på protein sequence nivå. Det här protokollet beskriver en metod för aminosyra-nivå signal-brus-analys som utnyttjar variant frekvens på varje aminosyra position av proteinet med kända protein topologi att identifiera områden av primära sekvensen med förhöjd sannolikhet för patologisk variation (i förhållande till befolkningen ”bakgrund” variation). Denna metod kan identifiera aminosyra rester läge ”hotspots” av hög patologisk signal, som kan användas för att förfina den diagnostiska vikten av VUSs såsom de identifieras av nästa generation genetisk testning.

Introduction

Den snabba förbättringen av genetisk sekvensering plattformar har revolutionerat tillgängligheten och rollen av genetik i medicin. När begränsad till en enda gen, eller en handfull gener, minskade kostnaderna och ökning i hastighet av nästa generations genetisk sekvensering lett rutinmässiga sekvensering av hela genomet kodande sekvens (hela exome sekvensering, WES) och hela genomet ( hela Genomsekvensering, WGS) kliniskt. WES och WGS har använts ofta i fastställandet av kritiskt sjuka nyfödda och barn med oro för genetiska syndrom där det är ett beprövat diagnostiskt verktyg som kan förändra klinisk hantering1,2. Medan detta har lett till ökad identifiering av sannolikt patogena mutationer som förknippas med genetiska syndrom, ökat det också dramatiskt antalet förresten hittat genetiska varianter, eller oväntade positiva resultat, av okänd diagnostiska betydelse (FE). Medan vissa av dessa varianter är inte beaktas och inte rapporterats, varianter lokalisera till redovisas ofta gener associerade med potentiellt livshotande eller mycket sjuklig sjukdomar. Nuvarande riktlinjer rekommenderar rapportering av tillfälliga varianter finns i specifika gener som kan vara till medicinsk nytta för patienten, inklusive gener associerade med utveckling av plötslig kardiell död-predisponerande sjukdomar såsom kardiomyopatier och channelopathies3. Även om denna rekommendation var utformat för att fånga individer i riskzonen för en SCD-predisponerande sjukdom, överstiger variant upptäckt känslighet vida specificitet. Detta återspeglas i ett växande antal VUSs och för övrigt identifierade varianter med oklara diagnostiska verktyg som vida överstiger frekvensen av de respektiva sjukdomarna i en viss befolkning4. En sådan sjukdom, långt QT-syndrom (LQTS), är en kanoniska hjärt channelopathy orsakas av mutationer lokalisera gener som kodar hjärtats jonkanaler, eller kanal interagera proteiner, vilket resulterar i försenad kardiell repolarisering5. Detta försenade repolarisering, sett genom ett förlängt QT-intervall på vilar elektrokardiogram, resulterar i en elektrisk anlag till livshotande ventrikulära arytmier såsom torsades de pointes. Medan ett antal gener har kopplats till utvecklingen av denna sjukdom, mutationer i KCNQ1-kodade jagKs kalium kanal (KCNQ1, Kv7.1) är orsaken till LQTS typ 1 och utnyttjas som ett exempel nedan6. Illustrera komplexiteten i variant tolkning, har förekomsten av sällsynta varianter i LQTS-associerade gener, så kallade ”bakgrund genetisk variation” funnits tidigare beskrivna7,8.

Förutom stora kompendium-stil databaser av kända patogena varianter finns flera strategier för att förutsäga effekten olika varianter kommer att producera. Några är baserade på algoritmer, såsom SIFT och Polyphen 2, som kan filtrera ett stort antal nya icke-synonymt varianter att förutsäga deleteriousness9,10. Trots omfattande användning av dessa verktyg begränsar låg specificitet deras tillämplighet när det kommer till ”calling” kliniska VUSs11. ”Signal-brus” analys är ett verktyg som identifierar sannolikheten för en variant som är förknippade med sjukdom baserat på frekvensen av kända patologisk variation på de ifrågavarande loci normaliserade mot sällsynt genetisk variation från en population. Varianter lokalisera till genetiska loci där det finns en hög förekomst av sjukdomsassocierade mutationer jämfört med populationsbaserade variation, en hög signal-brus, är mer benägna att vara sjukdomsassocierade sig själva. Ytterligare, sällsynta varianter hittade för övrigt lokalisera till en gen med en hög frekvens av sällsynta befolkningen varianter jämfört sjukdomsassocierade frekvens, en låg signal-brus, kan vara mindre benägna att vara sjukdomsassocierade. Den diagnostiska nyttan av signal-brus-analys har illustrerats i de senaste riktlinjerna för genetisk testning för kardiomyopatier och channelopathies; dock har det bara varit anställd på hela gennivå eller domän-specifika nivå12. Nyligen har gett ökad tillgänglighet av både patologiska varianter (sjukdom databaser, kohortstudier i litteraturen) och populationsbaserad kontroll varianter (Exome Aggregation Consortium, ExAC och databasen Aggregation genomet, GnomAD13), Detta har tillämpats till enskilda aminosyrapositioner inom primära sekvensen av ett protein. Aminosyra-nivå signal-brus-analys har visat sig användbart kategorisera för övrigt identifierade varianter i gener associerade med LQTS som sannolikt ”bakgrund” genetisk variation snarare än sjukdomsassocierade. Bland de tre stora gener associerade med LQTS, inklusive KCNQ1, saknade dessa för övrigt identifierade varianter en betydande signal-brus-förhållanden, vilket tyder på att frekvensen av dessa varianter på enskilda aminosyrapositioner återspeglar sällsynta befolkningen variation i stället för sjukdomsassocierade mutationer. Dessutom när protein-specifika domäntopologi var övertäckt mot områden av hög signal-brus, patologisk mutation ”hotspots” lokaliserad till viktiga funktionella domäner av proteiner14. Denna metod håller löfte att bestämma 1) sannolikheten att en variant är sjukdom - eller befolkningen-associerade och (2) identifiera roman kritisk funktionella domäner av ett protein som är associerad med mänskliga sjukdomar.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identifiera genen och specifika Splice isoformen av intresse

Obs: Här, vi demonstrera användningen av häckning15 att identifiera sekvensen konsensus för gen av intresse som är knutet till patogenesen av sjukdomen av intresse (dvs. KCNQ1 mutationer är associerade med LQTS). Alternativ till häckning inkluderar RefSeq via National Center for Biotechnology Information (NCBI)16 och University of California, Santa Cruz (UCSC) mänskliga genomet webbläsare17 (se Tabell för material).

  1. I häckning hemsidan, Välj arterna (dvs mänskliga) i rullgardinsmenyn och ange gen av intresse akronym i fältet (dvs KCNQ1). Klicka på ”Go”
  2. Välj länken motsvarar gen av intresse (dvs ”KCNQ1 (mänskliga genen)”
  3. Välj länken motsvarar utskriften av intresse ID av intresse från tabellen ”Transcript” (dvs. TranscriptID ENST00000155840.10, NM_000218 [RNA avskrift], NP_000209 [proteinprodukter av RNA avskrift]).
    Obs: Översyn av relevant litteratur behövs för att säkerställa rätt avskrift samförstånd sekvensen är markerad.
  4. Observera att avskrift-specifika NM och NP identifieringsnummer för framtida referens i den ”RefSeq” kolumnen i tabellen ”Transcript”.
  5. Välj den länk som är associerad med NP ID-numret att öppna en ny webbsida från NCBI Protein databasen.
  6. Rulla ned till avsnittet ”ursprung” att få protein (primära) sekvensen för genen avskriften av intresse.
  7. Rulla upp avsnittet ”funktioner” för att få en lista över funktionerna protein (funktionella domäner, bindande domäner, posttranslationella modifieringen platser).
    Obs: Denna information kan även erhållas via databasen NCBI Protein eller från primära källor i litteraturen. Detta kommer att diskuteras ytterligare i steg 5.

2. skapa experimentella genetisk Variant databasen (”Signal”)

Obs: Här visar vi hur du skapar en databas av sjukdomsassocierade varianter i genen av intresse med frekvensen av sjukdomsassocierade varianter bland individer med sjukdomen av intresse. Databasen kan ta många former och representerar ”signalen” (fenotyp-positiv genetisk variation) vilken kommer att normaliseras mot databasen kontroll variant. Detta kan inkludera 1) sjukdomsassocierade varianter för jämförelse mot VUSs att identifiera nya funktionella domäner av protein eller (2) VUSs, inklusive för övrigt identifierade VUSs, att jämföra mot sjukdomsassocierade varianter att avgöra sannolikheten för patogenicitet. Sjukdomsassocierade varianter i KCNQ1 kommer att presenteras för illustration; metoden är dock samma för analys av för övrigt identifierade VUSs eller någon annan uppsättning experimentella varianter.

  1. Identifiera cohort(s) för orelaterade index fall/probands med sjukdomen av intresse som genen av intresse var omfattande genotypbestämts för alla probands (dvs. en studie identifierar 24 orelaterade probands hosting varianter i KCNQ1 av 200 individer med LQTS som utsattes för KCNQ1 genetiska förhör).
    Obs: Dessa kohorter kan identifieras från litteraturen, från experimentell genetisk analys, eller en kombination av båda.
    1. Utesluta studier som inte är kohort-baserade (dvs. en fallrapport beskriver en enda-mutationspositiva individ), ger inte det totala antalet individer genotypbestämts för genen av intresse, eller inte utförligt genetiskt analysera den gen ( dvs en ”riktade” genetisk screening av endast KCNQ1 exoner 2-4) dessa hinder för beräkning av frekvensen av en variant.
    2. Inkludera individer som är orelaterade probands och utesluta relaterade individer som detta kan överskatta variant frekvenser (dvs. en studie identifierar 4 obesläktade individer med KCNQ1 mutationer i en kohort av 20 patienter med LQTS. En av dessa probands är en del av en familj med 5 andra-mutationspositiva släkt. Utesluta alla familjemedlemmar och inkluderar bara de 4 orelaterade probands).
  2. Sammanställa alla experimentella genetiska varianter i identifierade cohort(s)
    1. Tilldela nomenklaturen som innehåller vildtyp aminosyra, aminosyra position och variant aminosyra (dvs alanin på aminosyran nummer 212 ändras till valin, Ala212Val eller A212V). En sådan typ av nomenklaturen demonstreras i figur 1.
    2. Bekräfta att variant nomenklaturen av alla experimentella genetiska varianter bygger på samma referens gen avskriften som noterats i steg 1.4. Om experimentell genetiska varianter inte är kommenterad på samma referens gen avskriften, sedan reannotate variant position till en referens avskrift med avskrift justering (se steg 1.2)
  3. Utesluta varianter som inte är tillämpliga beroende på frågan utforskas.
    1. Exkludera varianter lokalisera till icke-kodande regioner i genomet eller varianter som inte ändrar proteinet sekvens som synonymt, intronic varianter, 5' eller 3' oöversatta regionen [UTR] och intergenic region varianter (dvs. en rapporterade patologisk variant i KCNQ1 som lokaliserar till de 5' UTR kodande regionen skulle uteslutas eftersom det inte spås ändra sekvensen protein).
    2. Utesluta varianter som inte uppfyller inklusionskriterier för studier. För sjukdomsassocierade varianter inkluderar detta varianter som inte längre anses patologisk.
      1. Bekräfta att varje variant för närvarande betraktas som patogena, sannolikt patogena, eller åtminstone inte godartade, av korsreferenser varianter med ClinVar databasen (se Tabell för material).
      2. Ange genen och variant av intresse i ClinVar sökfältet (dvs KCNQ1-Y111C), Välj ”Sök”
      3. Identifiera varianten av intresse under kolumnen ”variant/läge”.
      4. Observera samförstånd tolkningen av patogenicitet under ”klinisk signifikans” kolumn (dvs KCNQ1-Y111C tolkas som ”patogena”).
      5. Inkludera varianter som ”sannolikt patogena” eller ”patogena”.
      6. Inkludera varianter med ursprungsbeteckningar ”motstridiga tolkningar av patogenicitet”, ”osäker betydelse”, eller när ingen post är tillgänglig (”inte tillhandahålls”) om det är motiverat av studien.
      7. Utesluta varianter som betecknas som ”sannolikt godartad” (dvs KCNQ1-A62T).
  4. Beräkna frekvensen mindre allel (MAF) av varje experimentella variant position.
    1. Beräkna hur någon alleler var positiva för varje respektive variant (dvs. om en KCNQ1-Y111C heterozygot mutation återfinns i 2 obesläktade individer, antalet variant-positiv alleler är 2).
    2. Beräkna det totala antalet alleler sekvenserade inom kohorten
      1. Observera det totala antalet individer som sekvenserade i varje kohortstudie (steg 2.1)
      2. Multiplicera det totala antalet individer med 2 för att fastställa det totala antalet alleler.
        Anmärkning: Förutsätter detta diploida genomen whereby varje enskilda värdar 2 av varje allel.
    3. Beräkna det totala antalet variant-positiva individer för varje aminosyra position (alleles i steg 2.4.1/alleles i steg 2.4.2). Till exempel om 2 orelaterade personer varje värd heterozygot KCNQ1-Y111C mutationer i kohorter av 100 och 200 LQTS-drabbade individer, respektive, då frekvensen av experimentella varianter på aminosyran position 111 är 2 varianter/((100+200 individuals ) * 2 alleler/individ) (dvs. kombinerad MAF 0.0033).
    4. Beräkna detta värde för varje variant som respektive MAF av varje experimentella variant. För ytterligare detaljer se steg 4,2.

3. skapa kontroll genetisk Variant databasen (”brus”)

Obs: Här visar vi hur du skapar en databas av kontroll varianter i genen av intresse med associerade frekvens i en kontroll. Denna databas representerar ”brus” (fenotyp-negativ, populationsbaserad genetisk variation) som är den bakgrund mot vilken experimentella variant databasen kommer att normaliseras. Detta benämns som ”kontroll” variant.

  1. Identifiera en cohort(s) av friska, orelaterade probands eller utnyttja stora populationsbaserade studier för att identifiera sällsynta varianter bland en viss befolkning.
    Obs: Källor för denna databas är varierande och inkluderar: 1) friska individer och/eller annars fenotyp-negativa individer utsätts för Sanger sekvensering eller börsnoterat databaser av populationsbaserade individer som sjukdomen i fråga är sällsynt i frekvens t.ex 2) 1000 Genome Project (N = 1 094 försökspersoner)18, 3) nationella hjärta, lungor och blod Institutet gå Exome sekvensering projekt (ESP, N = 5,379 försökspersoner)19, 4) Exome Aggregation Consortium (ExAC, N = 60 706 ämnen)13 , eller 5) genomet Aggregation databas (GnomAD, N = 138,632 individer)13 (se Tabell för material). GnomAD databasen kommer att kunna utnyttjas som ett belysande exempel.
    1. Ange genen sevärdheter i sökrutan på GnomAD hemsida (dvs KCNQ1).
    2. Kontrollera att webbläsaren markerade den rätta genen och avskrift av intresse (steg 1.4).
    3. Bekräfta att det finns lämplig täckning av sekvensering av locus genom att granska ”Genomsnittlig täckning” och ”täckning tomt”.
    4. Välj för kodande sekvens genetisk variation genom att välja ”Missense + LoF”.
    5. Välj ”Exportera tabell till CSV”, som kommer att generera en TextEdit fil med namnet ”okänd”.
    6. Märka om filen och inkludera en ny förlängning ”*.csv” (dvs ”KCNQ1 kontroll Variation.csv”).
    7. Öppna filen med ett lämpligt program för analys av *.csv filer (se Tabell för material).
  2. Identifiera proteinet ändrar genetisk variation i kolumnen märkt ”Protein konsekvens”.
  3. Gäller samma uteslutningskriterier för dessa kontroll genetiska varianter som de experimentella genetiska varianterna (steg 2.3.1).
  4. Identifiera MAF av varje kontroll variant.
    1. Leta upp kolumnen ”allel Count”, som betecknar antalet alleler befunnits harbor varianten.
    2. Leta upp kolumnen ”allel nummer”, som betecknar det totala antalet alleler sekvenserade vid denna tanke amino acid ställning.
      Obs: Det totala antalet alleler sekvenserade varierar beroende på täckningen på den platsen. Områden av hög täckning kommer att närma sig 2 * Totalt antal individer inom GnomAD (dvs. för 138,632 individer, fullständig täckning omfattar 277,264 totala alleler genotypbestämts).  Omvänt, områden av lägre täckning har en minskad total allel nummer
    3. Leta upp varianten MAF som beräknas före i kolumnen ”allel frekvens” och föreställer ”allel Count” dividerat med ”allel nummer”.
      Obs: Mänskliga genomet har två av varje allel (dvs. 1 ämne fann att ha en heterozygot variant av 10 personer har en MAF 1/20)
    4. Notera MAF för varje variant som respektive MAF av varje kontroll variant.
      Obs: Variant specifika MAF för varje ras och etniska grupp bestående av GnomAD kan ses i kolumnerna till höger om ”allel frekvens”.
  5. Tillämpa ett MAF tröskelvärde för sällsynta varianter över vilken kontroll varianter har uteslutits som ”vanligt”.
    1. Ange maximal värde där alla verkligen sjukdomsassocierade varianter (se steg 2) också observerats i databasen kontroll ingår under tröskelvärdet för MAF tröskeln (dvs.bland alla sjukdomsassocierade KCNQ1 varianter också finns i GnomAD den högsta gemensamma variant MAF är 0,009, då alla GnomAD varianter över en tröskel av 0,01 bör uteslutas).
  6. Se till att den experimentella variant nomenklaturen är identisk med kontroll (se steg 2.2).
  7. Spara filen. I vissa fall kan detta kräva ändra filnamnstillägget /.

4. aminosyra nivå Signal-brus-beräkning och kartläggning

  1. Beräkna en MAF för varje aminosyra position med en kontroll variant (se figur 1 som innehåller exempel KCNQ1 GnomAD varianter).
    1. En grafräknare-kapabla kalkylbladet, skapa en kolumn av positionerna för alla experimentella varianter.
    2. Ta bort variant text för att lämna endast variant position.
      Obs: Olika funktioner/formler kan användas för att automatiskt ta bort dessa textelement i celler (figur 1, kolumn C, se Tabell för material).
    3. Sortera varianterna i stigande värde att identifiera vilka positioner har mer än 1 variant som är associerad med det (figur 1, kolumn E; dvs. aminosyra position 10 visas två gånger i kolumn E som betecknar 2 unika varianter på position).
    4. Kombinera MAF för varje variant som är associerad med en viss position genom att ta summan av alla MAFs för en viss position (figur 1, kolumn G och H).
  2. Beräkna en MAF för varje aminosyra position med en experimentell variant (se figur 2 innehållande håna KCNQ1 patologiska varianter).
    1. På ett liknande sätt till punkt 4.1.1, skapa en kolumn av aminosyrapositioner som har experimentella varianter (figur 2, kolumn B).
    2. För varje variant position, beräkna MAF av alla varianter är associerad med den positionen från steg 2,4 (figur 2, kolumn C-G).
  3. Skapa en rullande medelvärde av MAF för både experimentell och kontroll varianter.
    1. Expandera kolumnerna skapas i 4.1 och 4.2 att inkludera celler för aminosyrapositioner som har någon variant som en MAF = 0. (Figur 3).
      1. Skapa en kolumn som innehåller alla aminosyrapositioner i genen av intresse (dvs. 1 till 676 för KCNQ1, figur 3, kolumn C och jag).
      2. Lägga till en MAF 0 för alla positioner som inte har varianter för både kontroll och experimentella DataSet.
        Obs: Detta kan göras automatiskt genom att använda funktionen ”LETARAD” i en ofta utnyttjad programvara (figur 3, kolumn D och J, se Tabell för material).
    2. Skapa en rullande medelvärde för varje experimentella och kontroll prevalensen kolumn.
      Obs: Detta möjliggör inferens av intilliggande position patogenicitet och kan vara ändras eller ens uteslutet, för att passa behoven i studien.
      1. Skapa en kolumn representerar ett medelvärde av MAF för både den för både kontroll och experimentella dataset (figur 3, kolumn E och K).
      2. I kolumnen rullande genomsnittliga placera genomsnittet av den respektiva MAF för 5 variant positioner N-terminal och 5 variant placerar C-terminal till given position.
        Obs: Detta skapar en rullande medelvärde av +/-5. För befattningar med mindre än 5 aminosyra rester föregående eller efter, en rullande genomsnittliga läge (dvs. N - eller C-terminus), det rullande medelvärdet tar bara hänsyn till de rester som finns (dvs. den rullande genomsnitt på aminosyra position 3 kommer att vara ett genomsnitt av MAF vid aminosyrapositioner 1 om 8, beräknat som summan av dessa MAFs dividerat med 8).
  4. Beräkna den minsta kontroll frekvensen genom att dividera den lägsta rullande MAF med 2.
    1. Ändra valfri cell med en kontroll MAF 0 till den lägsta frekvensen att undvika divideras 0 vid beräkning av en signal-brus-förhållande.
  5. Beräkna den aminosyra nivå signal-brus-förhållanden (figur 4).
    1. Dela varje aminosyra position experimentella flytande medelvärde av kontrollen respektive flytande medelvärde.
    2. Grafen här baserat (y-axeln) vs. aminosyra position (x-axeln).

5. protein domän topologi Overlay

  1. Identifiera samförstånd aminosyra platserna för funktionella domäner/funktioner eller områden av posttranslationella modifieringen, av proteinet av intresse (steg 1,7).
    Obs: Ett antal resurser kan utnyttjas för att identifiera dessa domäner. Dessa resurser, samt resurser för att identifiera förmodad domäner i romanen proteiner, har granskats väl i litteraturen20. Detta protokoll kommer beskriva protein databasen tillgänglig via NCBI, som används allmänt och robusta (se Tabell för material).
  2. Identifiera aminosyrapositioner associerade med protein domäner/funktioner.
    1. Öppna webbsidan NCBI.
    2. Ange NP av proteinet sevärdheter i sökfältet.
    3. Identifiera kända protein domäner och funktioner är kataloger under ”funktioner”.
    4. Identifiera och notera de domän namn/typ och aminosyra positionerna.
    5. Välj länken motsvarar funktionen att visualisera regionen på proteinet av intresse primära sekvens.
  3. Skapa en kolumn som innehåller gränserna för de domäner/funktionerna.
    1. Skapa en kolumn bredvid kolumnen signal: brus så att kolumnen aminosyra position kan refereras (figur 5A, kolumn C).
    2. Identifiera de celler som motsvarande vid den N-terminala eller C-terminal aspekten av varje domän/funktion och placera en 1 i varje cell (dvs. om N-terminala domänen för S1 transmembrana domän KCNQ1 är aminosyran position 122, och C-terminala domänen är position 142, sedan en 1 placeras i raden för aminosyra position 122 och 142).
    3. För överlappande domäner/funktioner, Visa flera domäner genom att ändra 1 till andra värden (dvs. 1.5, 2, 2.5); Detta kan hjälpa skilja domäner.
  4. Skapa ett diagram med dessa gränser som en y-axeln och aminosyra position på x-axeln (figur 5B).
  5. Överlagra denna graf med signal-brus-graph skapade i steg 4,4.
  6. Identifiera korrelationer mellan kända protein domäner/funktioner och signal-brus-analysen.

6. variant Position Overlay

  1. Mappa individuella variant positioner för överlagring av grafer som produceras i steg 4,4 och 5.4.
    1. Skapa en kolumn bredvid kolumnen domän/funktion sådan rader i kolumnen motsvarar aminosyrapositioner (figur 5A, kolumn D).
    2. Placera en 1 i varje cell i den tillagda raden motsvarar en position som innehåller en respektive variant.
    3. Skapa ett diagram med denna kolumn som en y-axeln och aminosyra position på x-axeln (figur 5C).
  2. Överlagra denna graf med signal-brus-diagrammet skapades i steg 4,4 och domän graf skapade i steg 5,4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Representativa resultat för aminosyra-nivå signal till Brusanalys för KCNQ1 avbildas i figur 6. I det här exemplet sällsynta varianter identifierade i GnomAD kohorten (kontroll-kohort), anses för övrigt identifierade WES varianter (experimental kohort #1) och LQTS fall-associerade varianter sannolikt sjukdomsassocierade (experimental kohort #2) skildras. «««Vidare, signal-brus-analysen jämföra WES och LQTS kohort variant frekvensen normaliserade mot GnomAD variant frekvens avbildas. LQTS-associerade varianter visat hög signal-brus-förhållanden i domäner motsvarande kanal pore, selektivitet filter och KCNE1-bindande domänen. I jämförelse visat för övrigt identifierade varianter i WES kohorten inte tydligt särskilda regioner hög signal-brus-höjd, vilket tyder på att dessa varianter återspeglar bakgrund genetisk variation. Detta exempel inte utnyttja variant MAFs som ovan; Det visar dock alla samma principer som beskrivs.

Figure 1
Figur 1 : Exempel på kontroll variant databas med MAF beräkning. Kolumn A, direkt importerade GnomAD kontroll sällsynta varianter. Kolumn B, borttagning av vänstersidig, icke-position-relaterad text från variant nomenklaturen exempel formulan för tecken borttagning (dvs: för B2 ”= höger (A2, LEN (A2) -5”, se Tabell för material). Kolumn C, borttagning av högersidig, icke-position-relaterad text från variant nomenklaturen formulan är relaterade (dvs: för C2 ”= LEFT(B2,LEN(B2)-3"). Kolumn D, resulterande osorterade aminosyrapositioner. Kolumn E, aminosyrapositioner sorterade i en stigande mode som möjliggör identifiering av dubbla positioner. Kolumn F, tillhörande MAF för varje variant som importeras från GnomAD. Kolumn G och H, kombinerat MAF för en viss aminosyra position (summan av varje variant MAF på en viss position). Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2 : Exempel på experimentell variant databas med MAF beräkning. Kolumn A, en lista över håna LQTS-associerade mutationer i KCNQ1 som representerar en sjukdomsassocierade mutation experimentella databas. Kolumn B, mutation läge som motsvarar varje variant. Kolumn C, antal-mutationspositiva individer inom håna studie 1. Varje är förmodas vara heterozygot mutationsbärare. Det totala antalet individer genotypbestämts i studien ligger längst ned på bladet. Kolumn D, greve av-mutationspositiva individ i håna studie 2. Kolumn E, greve av-mutationspositiva individ i håna studie 3. Kolumn F, totalt-mutationspositiva individer hosting observerade mutationen i alla studier. Observera att olika mutationer som förknippas med samma aminosyra position bör kombineras. Kolumn G, MAF av varje mutation och aminosyra position exempel formulan (dvs: för G2 ”=2/(176*2)”, se Tabell för material). Observera att eftersom alla individer antas vara heterozygot och varje individ antas bära 2 alleles av det KCNQ1 locus, de totala individerna bör multipliceras med 2 för allel frekvensen. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3 : Exempel på rullande genomsnittsberäkning för kontroll och experimentella varianter. Kolumn A och B, GnomAD kontroll variant positioner och respektive MAFs. Kolumn C, alla aminosyrapositioner i KCNQ1 från aminosyran position till final. Kolumn D, GnomAD variant MAF för alla positioner med en MAF 0 i stället för ståndpunkter utan en variant. Detta kan beräknas automatiskt med hjälp av en LETARAD funktion (dvs. för D2 ”, = IFERROR(VLOOKUP(C2,A:B,2,),0), se Tabell för material). Kolumn E, rullande medelvärde av placera MAF exempel formulan (dvs. för E2, ”= SUM(D2:D7)/6” och E7, ”= SUM(D2:D12)/11"). Kolumn G och H, LQTS experimentella variant positioner med respektive MAFs. Kolumn I, alla aminosyrapositioner i KCNQ1. Kolumn J, LQTS variant MAF för alla positioner. Kolumn K, rullande LQTS MAF. Grå fylla celler är exempel på där MAF värden från kolumner B och H är expanderat till kolumn D och J, respektive, som korrelerar med respektive ståndpunkter i kolumn C/I. Observera att det är viktigt att alla celler är formaterade som ”nummer” för rätt formel fungerar. Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4 : Exempel på signal-brus-analys och grafritande. Vänster, exempel databas och beräkningar. Kolumn A, alla aminosyrapositioner i KCNQ1. Kolumn B, LQTS experimentella MAF rullande medelvärde för varje position. Kolumn C, GnomAD styra MAF rullande medelvärde för varje position. D: signal-brus-förhållande (dvs. för D2, ”= B2/C2”). Rätt, exempel på grafen av signal-brus-förhållande (y-axeln) kontra aminosyra position (x-axeln). Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5 : Exempel på protein och variant position mappning. A, exempel databas och beräkningar. Kolumn A, alla aminosyrapositioner i KCNQ1. Kolumn B, KCNQ1 positioner som har en sällsynt kontroll variant identifieras i GnomAD. Kolumn C, kolumnen domän kartläggning där celler som innehåller värden motsvarar de N eller C-terminalen aspekten av identifierade KCNQ1 protein domäner eller funktioner. Som de flesta N-terminala domänen är domänen S1 har den N-terminala gränsen på aminosyran 122, noteras inga värden här. Kolumn D, kolumnen variant kartläggning där celler som innehåller en 1 motsvarar KCNQ1 positioner som lokalisera sällsynta varianter. Grå fylla celler är två exempel på där variant positioner i kolumn B är expanderat till kolumn D som korrelerar med respektive ståndpunkter i kolumn A. vänligen klicka här för att visa en större version av denna siffra.

Figure 6
Figur 6 : Exempel på aminosyra-nivå signal-brus-analys av KCNQ1-kodade KCNQ1 (Kv7.1). Topp, variant placerar demonstreras med vertikala linjer, inklusive sällsynta GnomAD kohort varianter (svart), för övrigt identifierade varianter i WES remisser (blå) och varianter som identifierats i LQTS cases(green). Funktionella domäner noteras. Relativ frekvens av LQTS fall varianter normaliserade till GnomAD varianter (gröna linjen) avbildas jämfört med WES (blå linje). S1-S6, transmembrana domänerna; SF, selektivitet jonfiltret; KCNE1 och AKAP9, respektive protein bindande domäner. Ändrad och omtryckt med tillåtelse från tidigare arbete14. Klicka här för att se en större version av denna siffra.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Hög genomströmning genetisk testning har avancerade dramatiskt i dess tillämpning och tillgänglighet under det senaste decenniet. Dock i många sjukdomar med väletablerade genetiska underbyggnad, t ex kardiomyopatier, har utökad testning lyckats förbättra diagnostiska kapacitet21. Vidare finns det betydande osäkerhet beträffande den diagnostiska nyttan av många identifierade varianter. Detta beror delvis på ett växande antal för övrigt identifierade sällsynta varianter upptäckte på WES och WGS, vilket kan leda till fel diagnos22. Aminosyra signal-brus-analys bygger på väletablerade strategier för att förutsäga variant patogenicitet och ger fördelen av att utnyttja storskaliga populationsbaserade genomet studier för att förfina variant tolkning.

Härav följer att ett av de mest avgörande stegen till detta protokoll val av kontroll och experimentella kohorter. Många av de allmänt tillgängliga stora genomet studierna är tillgängliga via sammanlagda databaser, till exempel GnomAD, som kan tillåta för representant kontroll kohorter i detta protokoll vara lika stor som 138,632 individer på dagens datum. Även om inte alla ämnen i dessa aggregerade kohorter är skenbart friska, stora urvalsstorleken i fastställandet av sällsynt sjukdom gör denna resurs ovärderlig och möjliggör en stränga MAF utslagning tröskel. Uteslutandet av vanliga varianter är nödvändigt eftersom det är osannolikt att vara en orsak till högt penetrant Mendelian sjukdom. Baserat på tidigare arbete, ett MAF tröskelvärde på 0,01 för channelopathy-associerade gener och 0,0001 för kardiomyopati gener kan vara lämpligt och har verifierats av oberoende grupper23,24. Ännu viktigare, bör med tanke på vikten av att tröskeln för MAF, detta ställa och validerade för varje studie självständigt. Ett MAF-tröskelvärde behöver inte tillämpas för en experimentell kohort, tanke på väletablerade förekomsten av grundaren mutationer i channelopathies och kardiomyopatier. Storleken på den experimentella kohorten måste vara tillräcklig för att identifiera områden där varianter kan kluster; Det finns dock ingen strikt storlek. Dessutom bör den experimentella kohorten inkluderar inte varianter kända för att vara godartad inom litteraturen, eftersom detta skulle minska riktigheten av patogena signalen.

Att korrekt välja uteslutningskriterier är också avgörande för tolkning och tillämpning av resultatet. Om detta protokoll rekommenderar exklusive vissa mutation klasser såsom synonym varianter, skulle dessa rimligen kunna ingå för sjukdomsprocesser som skadliga synonymt varianter varit identifierade25,26. Dessutom, när olika uteslutningskriterier tillämpas på både experimentell och kontrollerar grupper, kan det tillåta för stratifiering av signal-brus-kartläggning av mutation underklass (dvs jämföra missense att trunkera varianter).

Inställningen som ett rullande medelvärde för MAFs möjliggör inferens av engagemang till angränsande aminosyror. Till exempel om aminosyra position 35 innehåller en patologisk variant och är bosatt i en kritisk protein domän, sedan position 36 kan ha en grad av patogenicitet när muterade. Likaså bör en sträcka av primära sekvens har en stor mängd sällsynta kontroll varianter, då aminosyror inom denna region som inte är värdar för sällsynta varianter kanske ännu har en högre sannolikhet för som innehåller sällsynta varianter i en befolkning. Medan det rullande medelvärdet i detta protokoll är +/-5, detta intervall kan vara variera beroende på användaren är önskad nivå av upplösning av signal-brus-förhållande och viss proteinet studeras. I exemplet med LQTS, de förhört KCNQ1-kodade KCNQ1 kanal har flera transmembrana domänerna spanning ~ 10 aminosyror, föranledde författarna att justera deras önskad upplösning motsvarar signifikanta fynd på det skala14. För proteiner med längre primära sekvens och protein längd, kan spännvidd av det rullande medelvärdet behöva ökas på grund av större spännvidder av proteinsekvens utan kontroll variation.

Det finns flera begränsningar för denna metod. Som tidigare nämnts, måste en tillräcklig fenotyp-positiva befolkning hosting förmodad patologiska varianter identifieras för att driva en tydlig patologisk signal. Dessutom dessa patologiska varianter kan ha variabel penetrans, således verkligen patologisk mutationer inte kan manifestera en sjukdom fenotyp eller annars fullt penetrant och sjukdomen orsakar inte. Medan många hölls offentligt databaser, till exempel GnomAD, anses ofta vara ”friska kohorter”, förekomsten av genetiska sjukdomar är sannolikt liknande i denna databas som befolkningsstudier. Som detaljerad fokuserar detta protokoll specifikt på aminosyror nivå förändringar till följd av exonic genvarianter som koden för aminosyror, som utesluter den roll som patogena intronic skarvning varianter kan spela i monogena sjukdomar. Mot denna bakgrund deras nyligen påvisat roll i kardiomyopatier, expansion av resolutionen strategi vara befogat för att identifiera intergenic ”hotspots” också. Dessutom kan tillämpningen av en MAF tröskel missa vissa ”risk alleler” att, även om befintliga i befolkningen med en MAF som är högre än att sjukdomens prevalens, kan bidra till sjukdomen patogenes27,28. Trots dessa begränsningar, denna analys är anpassningsbar och kan spela en nyckelroll i att ge kliniker en relativa sannolikheten för sjukdom patogenicitet när så är lämpligt tillämpas.

Slutligen, med tanke på förkärlek av denna analys att identifiera kritiska regioner inom ett protein, aminosyra-nivå signal-brus-beräkningar utnyttja patologisk mutationer erbjuder möjligheten att identifiera nya funktionella domäner av proteinerna som studerade. Med tanke på observationen av hög patogenicitet signal-brus på viktiga platser för jonkanaler, såsom domänen pore, selektivitet filter, S2 transmembrana domän och KCNE1-bindande domänen för KCNQ1, identifiering av en ”peak av patogenicitet” inom ett område av proteinet utan en känd funktion kan föreslå en ny kritisk domän. Exempelvis en markant topp på patogenicitet av LQTS-mutationer har identifierats lokalisera till aminosyra rester 912-930 av KCNH2-kodade KCNH2 (Kv11.1). Denna region av protein har ingen identifierbar funktionell domän ännu visar en markant benägenhet för LQTS-mutationer14. Som kunskapen om protein topologi expanderar, mer sofistikerade proteomik rimligen kunde förbättra upplösning av denna metod i framtiden från att analysera signal-brusförhållande längs en proteinets primära struktur att inkludera dess sekundära, tertiära, eller Kvartär struktur. Tillägg av avancerade computational vetenskaper att denna analys, till exempel maskininlärning och artificiell intelligens, ger möjlighet att identifiera nya mönster bland patologisk kontra populationsbaserad genetisk variation, om robust databaser av dessa varianter kan vara genererade29,30. I sin tur denna metod kunde stöd i bättre karakterisera och förutsäga genotyp-fenotyp förhållandet mellan specifika sjukdomar och användas tillsammans med en individs pre-test probability av sjukdom för att förbättra diagnostiska utbytet av genetisk testning. Vidare kan denna analys Upptäck roman protein biologi och identifiera nya lokus inom det mänskliga genomet som manifesteras med sjukdom när ändras.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har något att avslöja.

Acknowledgments

APL stöds av de nationella institut för hälsa K08-HL136839.

Materials

Name Company Catalog Number Comments
1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles' heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. Lawless, C. , Springer. New York, NY. (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , Chapter 7 (Unit 7.20) (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, Database issue 447-453 (2005).
  16. O'Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Tags

Genetik fråga 143 genetisk analys genetisk testning mutation topologi variant av osäker betydelse hela exome sekvensering
Fastställandet av risken för Variant patogenicitet med aminosyra-nivå Signal-brus-analys av genetisk Variation
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Jones, E. G., Landstrom, A. P.More

Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter