Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Determinazione del rischio di patogenicità variante usando l'analisi di segnale-rumore dell'amminoacido-livello di variazione genetica

Published: January 16, 2019 doi: 10.3791/58907

Summary

Analisi di segnale-rumore dell'amminoacido-livello determina la prevalenza della variabilità genetica in una posizione determinata dell'amminoacido normalizzata alla variazione genetica di sfondo di una determinata popolazione. Questo consente per l'identificazione della variante "hotspot" all'interno di una sequenza della proteina (segnale) che si erge sopra la frequenza delle varianti rare trovate in una popolazione (rumore).

Abstract

Gli avanzamenti del costo e velocità di sequenziamento genetico di nuova generazione hanno generato un'esplosione di clinica dell'esoma intero e test intero genoma. Mentre questo ha portato una maggiore identificazione di mutazioni patogene probabile associato a sindromi genetiche, anche notevolmente ha aumentato il numero di fortuito trovato varianti genetiche di importanza sconosciuta (VUS). Determinare il significato clinico di queste varianti è una grande sfida per gli scienziati e i medici. Un approccio per aiutare a determinare la probabilità di patogenicità è analisi di segnale-rumore al livello di sequenza della proteina. Questo protocollo descrive un metodo per l'analisi di segnale-rumore dell'amminoacido-livello che sfrutta la variante frequenza in ogni posizione dell'amminoacido della proteina con topologia di proteina nota per identificare le aree della sequenza primaria con elevata probabilità di variazione patologica (relativo alla variazione di popolazione "background"). Questo metodo può identificare la posizione di residui dell'amminoacido "hotspot" di alto segnale patologico, che possa essere utilizzate per perfezionare il peso diagnostico di VUSs come quelli identificati dai test genetici di prossima generazione.

Introduction

Il rapido miglioramento nelle piattaforme di sequenziamento genetico ha rivoluzionato l'accessibilità e il ruolo della genetica nella medicina. Una volta limitata a un singolo gene, o una manciata di geni, la riduzione dei costi e aumento della velocità di ultima generazione sequenziamento genetico ha portato sequenziamento sistematico della totalità del genoma di sequenza di codificazione (il sequenziamento dell'esoma intero, WES) e l'intero genoma ( sequenziamento del genoma intero, WGS) nella regolazione clinica. WES e WGS sono stati utilizzati frequentemente nella cornice di neonati criticamente malati e bambini con preoccupazione per sindrome genetica dove è uno strumento diagnostico collaudato che può cambiare la gestione clinica1,2. Mentre questo ha portato una maggiore identificazione di mutazioni patogene probabile associato a sindromi genetiche, anche notevolmente ha aumentato il numero di varianti genetiche fortuito trovati, o risultati imprevisti positivi, di diagnostica sconosciuto significato (VUS). Mentre alcune di queste varianti sono ignorate e non segnalati, varianti localizzazione di geni associati a malattie potenzialmente mortali o estremamente patologica sono spesso riportati. Attuali linee guida raccomandano di segnalazione delle eventuali varianti nei geni specifici che possono essere di beneficio medico al paziente, compreso i geni connessi con lo sviluppo di malattie predisponenti di morte cardiache improvvise come cardiomiopatie e canalopatie3. Anche se questa raccomandazione è stato progettato per catturare gli individui a rischio di una malattia predisponente SCD, la sensibilità di rilevazione variante supera di gran lunga specificità. Questo si riflette in un numero crescente di VUSs e incidentalmente identificato varianti con utilità di diagnostica poco chiaro che superano di gran lunga la frequenza delle rispettive malattie in una data popolazione4. Una tale malattia, sindrome del QT lungo (LQTS), è una canonica Canalopatia cardiaca causata da mutazioni in geni che codificano i canali ionici cardiaci eseguendo la localizzazione, o canale di interazione di proteine, con conseguente ritardo della ripolarizzazione cardiaca5. Questa ripolarizzazione in ritardo, vista da un prolungato intervallo QT all'elettrocardiogramma, a riposo si traduce in una predisposizione elettrica per potenzialmente fatali aritmie ventricolari quali torsioni di punta. Mentre un numero di geni sono stati collegati allo sviluppo di questa malattia, le mutazioni in KCNQ1-codificato inKs potassio canale (KCNQ1, Kv7.1) è la causa di LQTS tipo 1 e viene utilizzato come esempio inferiore a6. Che illustrano la complessità nell'interpretazione variante, la presenza di rare varianti nei geni di LQTS associata, così chiamati "sfondo variazione genetica" è stato descritto in precedenza7,8.

Oltre ai database di grande compendio di varianti conosciute di patogeni, diverse strategie esistono per predire che le varianti differenti di effetto produrrà. Alcuni sono basati su algoritmi, quali SIFT e Polyphen 2, che può filtrare un numero elevato di nuove varianti non-sinonimo di prevedere deleteriousness9,10. Nonostante l'ampio uso di questi strumenti, specificità bassa limita la loro applicabilità quando si tratta di "chiamata" clinica VUSs11. Analisi di "Signal-to-noise" sono uno strumento che identifica la probabilità di una variante essendo associata a malattia basata sulla frequenza di variazione patologica noto ai loci in questione normalizzata contro variazione genetica rara da una popolazione. Varianti di localizzazione di loci genetici dove c'è un'alta prevalenza di mutazioni associate a malattia rispetto alla variazione basati sulla popolazione, un alto segnale-rumore, hanno maggiori probabilità di essere associati a malattia se stessi. Varianti più ulteriormente, rari trovati incidentalmente localizzazione di un gene con un'alta frequenza di varianti di rara popolazione rispetto alla frequenza di malattia-collegati, un basso segnale-rumore, può essere meno probabilità di essere associati a malattia. L'utilità di diagnostica di analisi di segnale-rumore è stato illustrato nelle ultime linee guida per test genetici per malattie del miocardio e canalopatie; Tuttavia, è stato impiegato solo a livello di intero gene o dominio specifico livello12. Recentemente, data la maggiore disponibilità di varianti patologiche (database di malattia, studi di coorte nella letteratura) e di varianti di controllo basato sulla popolazione (Consorzio di aggregazione dell'esoma, ExAC e l'aggregazione di dati del genoma, GnomAD13), Questo è stato applicato alle posizioni individuali dell'amminoacido all'interno della sequenza primaria di una proteina. Analisi di segnale-rumore dell'amminoacido-livello si sono dimostrato utile nel categorizzare incidentalmente identificati varianti nei geni associati con LQTS come probabile variazione genetica "sfondo", piuttosto che malattia-collegati. Tra i tre principali geni associati con LQTS, tra cui KCNQ1, queste varianti incidentalmente identificate mancavano un rapporti segnale-rumore significativo, suggerendo che la frequenza di queste varianti alle posizioni di singoli aminoacidi riflettono rara variazione di popolazione piuttosto che mutazioni associate a malattia. Inoltre, quando la topologia di dominio specifico della proteina era overlaid contro le zone di alto segnale-rumore, patologica mutazione "hotspot" localizzato in chiave domini funzionali delle proteine14. Questa metodologia tiene la promessa nella determinazione che 1) la probabilità che una variante è associata di malattia o di popolazione e 2) identificare nuovi critici domini funzionali di una proteina connessa con la malattia umana.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identificare il Gene e Splice specifica isoforma di interesse

Nota: Qui, noi dimostrare l'uso di Ensembl15 per identificare la sequenza di consenso per il gene di interesse che è associato con la patogenesi della malattia di interesse (cioè KCNQ1 mutazioni sono associate con LQTS). Alternative di Ensembl includono RefSeq tramite il National Center for Biotechnology Information (NCBI)16 e la University of California, Santa Cruz (UCSC) Human Genome Browser17 (Vedi Tabella materiali).

  1. Nella homepage del Ensembl, selezionano la specie (cioè umano) nel menu a discesa e immettere il gene dell'acronimo di interesse nel campo (cioè KCNQ1). Clicca su "Vai"
  2. Selezionare il link corrispondente al gene di interesse (cioè "KCNQ1 (Gene umano)"
  3. Selezionare il link corrispondente alla trascrizione dell'ID di interesse di interesse dalla tabella"trascrizione" (vale a dire TranscriptID ENST00000155840.10, NM_000218 [trascrizione del RNA], NP_000209 [prodotto della proteina della trascrizione del RNA]).
    Nota: Revisione della letteratura pertinente è necessario assicurare che la sequenza di consenso di trascrizione corretta è selezionata.
  4. Nota i numeri di identificazione specifico trascrizione NM e NP per riferimento futuro che trovata nella colonna "RefSeq" della tabella"trascrizione".
  5. Selezionare il link associato al numero identificativo NP per aprire una nuova pagina Web dal database NCBI proteina.
  6. Scorri fino alla sezione di "Origine" per ottenere la sequenza della proteina (primario) per la trascrizione del gene di interesse.
  7. Scorrere fino alla sezione "Caratteristiche" per ottenere un elenco delle caratteristiche della proteina (domini funzionali, domini, siti di modificazione post-traduzionale).
    Nota: Queste informazioni possono essere ottenute anche tramite la banca dati NCBI proteina o da fonti primarie nella letteratura. Questo sarà discusso ulteriormente nel passaggio 5.

2. creare il Database variante genetico sperimentale (il "segnale")

Nota: Qui, noi dimostrare come creare un database di malattia-collegati di varianti del gene di interesse con la frequenza delle varianti malattia-collegata fra gli individui con la malattia di interesse. Questo database può assumere molte forme e rappresenta il "segnale" (fenotipo-positiva variazione genetica) che sarà normalizzato nel database di variante di controllo. Questo può includere varianti 1) malattia-collegati per il confronto contro VUSs per identificare nuovi domini funzionali della proteina e/o 2) VUSs, tra cui incidentalmente identificati VUSs, da confrontare con varianti di malattia-collegati per determinare la probabilità di patogenicità. Varianti di malattia-collegati in KCNQ1 saranno presentati per illustrazione; Tuttavia, il metodo è lo stesso per l'analisi di VUSs fortuito identificato o qualsiasi altro insieme di varianti sperimentali.

  1. Identificare cohort(s) di casi di indice/probands indipendenti con la malattia di interesse per i quali il gene di interesse era completamente genotipizzato per tutti i probands (cioè uno studio identifica 24 probands indipendenti hosting varianti in KCNQ1 su 200 individui con LQTS che sono stati sottoposti a interrogatori genetica KCNQ1).
    Nota: Queste coorti possono essere identificati dalla letteratura, da analisi genetica sperimentale, o una combinazione di entrambi.
    1. Escludere gli studi che non sono basati su coorte (vale a dire un rapporto di caso descrive un singolo individuo di mutazione-positivi), non forniscono il numero totale di individui genotipizzati per il gene di interesse, o non completamente geneticamente analizzare il gene ( vale a dire un "mirati" screening genetico di solo KCNQ1 esoni 2-4) questi esclude il calcolo della frequenza di una variante.
    2. Includono gli individui che sono probands indipendenti ed escludono gli individui correlati come questo può sovrastimare la variante frequenze (cioè uno studio identifica 4 individui indipendenti con le mutazioni KCNQ1 in un gruppo di 20 pazienti con LQTS. Uno di questi probands è parte di una famiglia con 5 altri parenti di mutazione-positivi. Escludere tutti i membri della famiglia e includere solo le 4 probands indipendenti).
  2. Compilare tutte le varianti genetiche sperimentali trovate in cohort(s) identificati
    1. Assegnare la nomenclatura che contiene l'aminoacido di selvaggio-tipo, posizione dell'amminoacido e variante dell'amminoacido (cioè alanina a aminoacido numero 212 cambiato a valina, Ala212Val o A212V). Un tale tipo di nomenclatura è illustrata nella Figura 1.
    2. Confermare che nomenclatura variante di tutte le varianti genetiche sperimentali si basa sulla stessa trascrizione del gene di riferimento come indicato al punto 1.4. Se varianti genetiche sperimentali non sono annotati sulla trascrizione del gene di riferimento stesso, quindi reannotate variant posizione a una trascrizione di riferimento utilizzando trascrizione allineamento (Vedi punto 1.2)
  3. Escludere le varianti che non sono applicabili in base alla domanda in fase di esplorazione.
    1. Varianti di escludere localizzazione a regioni non codificanti del genoma o varianti che non alterano la proteina di sequenza come sinonimi, intronic varianti, 5' o 3' regione non tradotta [UTR] e regione intergenica varianti (cioè un segnalato patologica variante in KCNQ1 che localizza al 5' UTR della regione di codificazione sarebbero esclusi come non si prevede di modificare la sequenza di proteine).
    2. Escludere le varianti che non soddisfano i criteri di inclusione per lo studio. Per le varianti di malattia-collegati, questo include varianti che non sono ritenuti patologici.
      1. Confermare che ogni variante è attualmente ritenuta probabile patogeno, patogeni, o almeno non benigne, incrociando varianti con il database di ClinVar (Vedi Tabella materiali).
      2. Inserire il gene e la variante di interesse nel campo di ricerca di ClinVar (cioè KCNQ1-Y111C), selezionare "Cerca"
      3. Identificare la variante di interesse sotto la colonna "Variazione/posizione".
      4. Si noti l'interpretazione di consenso di patogenicità nella colonna "Significato clinico" (cioè KCNQ1-Y111C viene interpretato come "patogeni").
      5. Includere le varianti che sono "probabili patogeni" o "patogeno".
      6. Includere le varianti con le denominazioni di "interpretazioni contraddittorie di patogenicità," "significato incerto", o quando nessun record è disponibile ("non previsto") se giustificate dallo studio.
      7. Escludere le varianti designati come "probabilmente benigna" (cioè KCNQ1-A62T).
  4. Calcolare la frequenza dell'allele minore (MAF) di ogni posizione variante sperimentale.
    1. Calcolare come qualsiasi alleli erano positivi per ogni rispettiva variante (vale a dire se una mutazione eterozigote è trovata in 2 individui indipendenti, il numero degli alleli di variante-positiva KCNQ1-Y111C è 2).
    2. Calcolare il numero totale di alleli in sequenza all'interno della coorte
      1. Prendere nota del numero totale di individui sequenziati in ogni studio di coorte (punto 2.1)
      2. Moltiplicare il numero totale di individui per 2, per determinare il numero totale di alleli.
        Nota: Questo presuppone genomi diploidi per cui ogni singoli host 2 di ciascun allele.
    3. Calcolare il numero totale di individui di variante-positivi per ogni posizione dell'amminoacido (alleli in 2.4.1/alleles passo a passo 2.4.2). Ad esempio, se non collegati 2 individui ogni ospitano mutazioni eterozigotiche KCNQ1-Y111C in coorti di individui afflitti da LQTS 100 e 200, rispettivamente, allora la frequenza delle varianti sperimentali alla posizione dell'amminoacido 111 è 2 varianti/((100+200 individuals ) * 2 alleli/individuo) (cioè combinato MAF 0,0033).
    4. Calcolare questo valore per ciascuna variante come la MAF rispettiva di ciascuna variante sperimentale. Per ulteriori dettagli vedere il punto 4.2.

3. creare il Database variante genetica di controllo (il "rumore")

Nota: Qui, noi dimostrare come creare un database di varianti di controllo del gene di interesse con una frequenza associata in una popolazione di controllo. Questo database rappresenta il "rumore" (fenotipo negativo, basato sulla popolazione variazione genetica) che è lo sfondo contro cui il database variante sperimentale sarà normalizzato. Questa è detta variazione di "controllo".

  1. Identificare un cohort(s) dei probands sani, indipendenti o utilizzare grandi studi basati sulla popolazione per identificare varianti rare tra una determinata popolazione.
    Nota: Fonti per questo database sono diversi e comprendono: 1) individui in buona salute e/o altrimenti fenotipo negativo individui sottoposti a Sanger sequenziamento o database pubblicamente tenuti degli individui basati sulla popolazione per la quale la malattia in questione è rara in frequenza ad esempio 2) 1000 Genome Project (N = 1.094 soggetti)18, 3) National Heart, Lung e progetto di sequenziamento dell'esoma sangue Istituto GO (ESP, N = 5.379 soggetti)19, 4) dell'esoma aggregazione Consortium (ExAC, N = 60.706 soggetti)13 , e/o 5) aggregazione di dati del genoma (GnomAD, N = 138.632 individui)13 (Vedi Tabella materiali). Il database di GnomAD sarà utilizzato come esempio illustrativo.
    1. Inserire il gene di interesse nella casella di ricerca nella homepage di GnomAD (cioè KCNQ1).
    2. Verificare che il browser selezionato il gene corretto e trascrizione di interesse (punto 1.4).
    3. Verificare che vi sia una copertura adeguata del sequenziamento del locus esaminando "media copertura" e "copertura trama."
    4. Selezionare per variazione di sequenza genetica di codifica selezionando "Missenso + LoF."
    5. Selezionare "Esporta tabella in formato CSV," che genererà un file di TextEdit denominata "Sconosciuto".
    6. Rietichettare il file e includono una nuova estensione "CSV" (cioè "KCNQ1 controllo Variation.csv").
    7. Aprire il file utilizzando un programma di software appropriato per l'analisi di file CSV (Vedi Tabella materiali).
  2. Identificare la proteina cambiando variazione genetica nella colonna denominata "Proteina conseguenza."
  3. Applicare criteri di esclusione stessa per queste varianti genetiche di controllo come le varianti genetiche sperimentali (punto 2.3.1).
  4. Identificare la MAF di ogni variante di controllo.
    1. Individuare la colonna "Allele totali", che denota il numero di alleli trovato per harbor la variante.
    2. Individuare la colonna "Numero di Allele", che denota il numero totale di alleli sequenziato in questa data la posizione di acido amminico.
      Nota: Il numero totale di alleli sequenziato variano a seconda della copertura in quella posizione. Aree di copertura alta si avvicineranno 2 * numero totale degli individui all'interno di GnomAD (cioè per 138.632 individui, copertura completa comprende 277.264 totali alleli genotipizzati).  Al contrario, aree di copertura inferiore avrà un numero di allele totale ridotta
    3. Individuare la variante MAF che è pre-calcolati nella colonna "Frequenza dell'Allele" e rappresenta "Allele conteggio" diviso "Allele numero."
      Nota: Genomi umani hanno due di ogni allele (cioè 1 oggetto trovato per avere una variante eterozigote in 10 persone ha una MAF di 1/20)
    4. Si noti la MAF per ciascuna variante come la MAF rispettiva di ciascuna variante di controllo.
      Nota: Variante MAF specifici per ogni gruppo razziale/etnica comprendente GnomAD può essere visto nelle colonne a destra della "Frequenza allelica."
  5. Applicare una soglia MAF per varianti rare sopra il quale controllo varianti sono esclusi come "comune".
    1. Impostare la soglia MAF al valore massimo a cui tutti veramente malattia-collegati varianti (vedi passo 2) osservate anche nel database di controllo sono inclusi sotto la soglia (vale a dire, tra tutte le varianti di KCNQ1 malattia-collegati anche trovato in GnomAD la variante comune più alto MAF è 0,009, allora devono essere escluse tutte le varianti di GnomAD sopra una soglia di 0,01).
  6. Garantire che nomenclatura variante sperimentale è identica al controllo (Vedi punto 2.2).
  7. Salvare il file. In alcuni casi, questo potrebbe essere necessario modificare il tipo di estensione.

4. mappatura e calcolo del segnale-rumore livello aminoacido

  1. Calcolare una MAF per ogni posizione dell'amminoacido con una variante di controllo (vedere Figura 1 contenenti varianti KCNQ1 GnomAD esempio).
    1. In un foglio di calcolo in grado di rappresentare graficamente, è possibile creare una colonna delle posizioni di tutte le varianti sperimentali.
    2. Rimuovere il testo variante per lasciare solo la variante posizione.
      Nota: Varie funzioni/formule possono essere utilizzate per eliminare automaticamente questi elementi di testo all'interno delle cellule (Figura 1, colonna C; Vedi Tabella materiali).
    3. Ordinare le varianti in valore ascendente per identificare quali posizioni hanno più di 1 variante associata con essa (Figura 1, colonna E; posizione di amminoacido 10 cioè è elencato due volte nella colonna E che denota 2 varianti uniche nella posizione).
    4. Combinare la MAF per ogni variante connessa con una determinata posizione prendendo la somma di tutti i MAFs per una data posizione (Figura 1, colonna G e H).
  2. Calcolare una MAF per ogni posizione dell'amminoacido con una variante sperimentale (Vedi Figura 2 contenente finto KCNQ1 varianti patologiche).
    1. In modo simile al punto 4.1.1, creare una colonna di posizioni dell'aminoacido che hanno varianti sperimentali (Figura 2, colonna B).
    2. Per ogni posizione di variante, calcolare la MAF di tutte le varianti associate a tale posizione dal passaggio 2.4 (Figura 2, colonna C-G).
  3. Creare un rotolamento medio di MAF per entrambi sperimentale e varianti di controllo.
    1. Espandere le colonne create in 4.1 e 4.2 per includere le cellule per le posizioni dell'aminoacido che non hanno nessuna variante come una MAF = 0. (Figura 3).
      1. Creare una colonna contenente tutte le posizioni dell'amminoacido del gene di interesse (cioè 1 676 per KCNQ1, Figura 3, colonna C e io).
      2. Aggiungere una MAF 0 per tutte le posizioni che non hanno varianti per controllo e set di dati sperimentali.
        Nota: Questo può essere fatto automaticamente utilizzando la funzione "Cerca" in un programma di software comunemente utilizzati (Figura 3, colonna D e J, Vedi Tabella materiali).
    2. Creare un rotolamento medio per ogni sperimentale e colonna di prevalenza del controllo.
      Nota: Questo consente l'inferenza di patogenicità di posizione adiacente e può essere modificato o addirittura esclusi, per soddisfare le esigenze dello studio.
      1. Creare una colonna che rappresenta una media della MAF per entrambi il per controllo e set di dati sperimentali (Figura 3, colonna E e K).
      2. Nella colonna media rotolamento, posizionare la media dei rispettivi MAF per le 5 posizioni variante variante N-terminale e 5 posizioni C-terminale nella posizione specificata.
        Nota: Questa crea un rotolamento medio di + /-5. Per le posizioni con meno di 5 residui dell'amminoacido precedente, o in seguito, una posizione media rotolamento (cioè N - o C-terminale), la media mobile prenderà in considerazione solo quei residui che sono presenti (cioè il rotolamento media presso posizione dell'amminoacido 3 sarà una media della MAF alle posizioni dell'amminoacido 1 anche se 8, calcolato come la somma di questi MAFs diviso 8).
  4. Calcolare la frequenza di controllo del minimo dividendo la MAF più basso rotolamento per 2.
    1. Modificare una cella con un controllo MAF 0 la frequenza minima per evitare la divisione per 0 quando si calcola un rapporto segnale-rumore.
  5. Calcolare il rapporto di segnale-rumore del livello dell'aminoacido (Figura 4).
    1. Dividere ogni posizione dell'amminoacido sperimentale rotolamento medio dal rispettivo controllo medio di rotolamento.
    2. Posizione di questo rapporto (asse y) vs dell'amminoacido (asse x) del grafico.

5. proteina dominio topologia Overlay

  1. Identificare le posizioni di consenso dell'amminoacido di domini/caratteristiche funzionali, o aree di modificazione post-traduzionale, della proteina di interesse (punto 1.7).
    Nota: Un numero di risorse possa essere utilizzato per identificare questi domini. Queste risorse, nonché risorse per identificare putativi domini in nuove proteine, sono state esaminate bene nella letteratura20. Questo protocollo descriverà il database di proteina disponibile attraverso NCBI, che è ampiamente utilizzato e robusto (Vedi Tabella materiali).
  2. Identificare posizioni dell'amminoacido associate a proteine domini/funzionalità.
    1. Aprire la pagina Web NCBI.
    2. Immettere la NP della proteina di interesse nel campo di ricerca.
    3. Identificare i domini proteici noti e caratteristiche sono cataloghi sotto "Funzionalità".
    4. Identificare e annotare le posizioni dell'aminoacido e tipo di nome di dominio.
    5. Selezionare il link corrispondente alla funzione di visualizzare la regione sulla proteina della sequenza primaria di interesse.
  3. Creare una colonna contenente i confini dei domini/caratteristiche.
    1. Creare una colonna accanto alla colonna di segnale: rumore in modo che la colonna di posizione dell'amminoacido può essere fatto riferimento (Figura 5A, colonna C).
    2. Identificare le cellule corrispondente alla funzione N-terminale o C-terminale di ogni funzionalità di dominio e inserire un 1 in ogni cella (cioè se il dominio N-terminale del dominio transmembrana S1 di KCNQ1 è posizione dell'amminoacido 122, e il dominio C-terminale è posizione 142, poi un 1 è posizionato nella riga per posizione dell'amminoacido 122 e 142).
    3. Per domini/caratteristiche di sovrapposizione, visualizzare più domini modificando il 1 su altri valori (cioè 1.5, 2, 2.5); Questo può aiutare a distinguere domini.
  4. Creare un grafico con questi confini come posizione asse y e dell'aminoacido sull'asse x (Figura 5B).
  5. Overlay grafico con il grafico del segnale-rumore creato nel passaggio 4.4.
  6. Identificare le correlazioni fra proteina nota domini/caratteristiche e l'analisi di segnale-rumore.

6. variant posizione Overlay

  1. Mappa di singole posizioni variante per la sovrapposizione di grafici prodotti nei passaggi 4.4 e 5.4.
    1. Creare una colonna accanto alla colonna di funzionalità di dominio in cui righe nella colonna corrisponderà all'aminoacido posizioni (Figura 5A, colonna D).
    2. Collocare un 1 in ogni cella della riga aggiunta corrispondente a una posizione contenente una rispettiva variante.
    3. Creare un grafico con questa colonna come posizione asse y e dell'aminoacido sull'asse x (Figura 5C).
  2. Overlay grafico con il grafico di segnale-rumore creato nel passaggio 4.4 e dominio creato nel passaggio 5.4.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Un risultato rappresentativo dell'amminoacido-livello segnale per analisi del rumore per KCNQ1 è raffigurato in Figura 6. In questo esempio, varianti rare identificati nel gruppo GnomAD (gruppo di controllo), incidentalmente identificato WES varianti (coorte sperimentale #1) e varianti LQTS associata a caso ritenuto probabile malattia-collegati (sperimentale coorte #2) è raffigurati. Ulteriormente, l'analisi di segnale-rumore confrontando la frequenza variante coorte WES e LQTS normalizzati contro GnomAD frequenza variante è raffigurato. Varianti di LQTS associata hanno dimostrato elevati rapporti segnale-rumore in domini corrispondenti con il poro del canale, selettività del filtro e il dominio di legame al KCNE1. In confronto, incidentalmente identificati varianti nella coorte WES non hanno dimostrato chiaramente specifiche regioni di alta quota di segnale-rumore, suggerendo che queste varianti riflettono la variazione genetica di sfondo. Questo esempio non utilizzare variante MAFs come indicato in precedenza; Tuttavia, tutti i principi stessi dimostra come descritto.

Figure 1
Figura 1 : Esempio di controllo database variante con calcolo di MAF. Colonna A, importati direttamente varianti rare di controllo GnomAD. Colonna B, eliminazione di testo di sinistra-parteggiato, non riguardanti la posizione della variante nomenclatura utilizzando una formula di esempio per la rimozione di carattere (vale a dire: per B2 "= destra (A2, lunghezza (A2) -5", Vedi Tabella materiali). Colonna C, eliminazione di testo di destra-parteggiato, non riguardanti la posizione della nomenclatura variante utilizzando una formula correlata (vale a dire: per C2 "= LEFT(B2,LEN(B2)-3"). Colonna D, risultante senza pettorale posizioni dell'amminoacido. Colonna E, aminoacido posizioni ordinati in modo ascendente per consentire per l'identificazione delle posizioni di duplicati. Colonna F, associati MAF per ogni variante importati da GnomAD. Colonna G e H, combinato MAF per una determinato amminoacido posizione (somma di ogni variante MAF in una posizione specifica). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2 : Esempio di database sperimentale variante con calcolo di MAF. Colonna A, un elenco di deridere mutazioni associate a LQTS in KCNQ1 che rappresenta un database sperimentale di mutazione malattia-collegati. Colonna B, posizione di mutazione corrispondente a ogni variante. Colonna C, un conteggio degli individui mutazione-positivi all'interno di finto Studio 1. Ogni sono presunti per essere portatori della mutazione eterozigotica. Il numero totale di individui genotipizzati nello studio si trova nella parte inferiore del foglio. Colonna D, conte di individuo mutazione-positivi in finto Studio 2. Colonna E, conte di individuo mutazione-positivi in finto Studio 3. Colonna F, totali individui mutazione-positivi hosting la mutazione osservata attraverso tutti gli studi. Si noti che dovrebbero essere combinate distinte mutazioni associate con la stessa posizione dell'amminoacido. Colonna G, MAF di ogni posizione di mutazione e dell'aminoacido utilizzando una formula di esempio (vale a dire: per G2 "=2/(176*2)", Vedi Tabella materiali). Nota che, poiché tutti gli individui sono presunti per essere eterozigoti e ogni individuo presunto per trasportare 2 alleli del locus KCNQ1, gli individui totali devono essere moltiplicati per 2 per la frequenza dell'allele. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3 : Esempio di calcolo della media per il controllo e varianti sperimentali di rotolamento. Colonna A e B, GnomAD posizioni di controllo variante e rispettivi MAFs. Colonna C, tutte le posizioni dell'amminoacido di KCNQ1 dall'aminoacido posizione alla finale. Colonna D, GnomAD variante MAF per tutte le posizioni con un MAF 0 al posto di posizioni senza una variante. Questo può essere calcolato automaticamente utilizzando una funzione VLOOKUP (cioè per D2, "= IFERROR(VLOOKUP(C2,A:B,2,),0), Vedi Tabella materiali). Colonna E, rotolamento media di posizionare MAF utilizzando una formula di esempio (vale a dire per E2, "= SUM(D2:D7)/6" e per E7, "= SUM(D2:D12)/11"). Colonna G e H, la variante sperimentale di LQTS posizioni con rispettivi MAFs. Colonna I, tutte le posizioni dell'amminoacido di KCNQ1. Colonna J, la variante di LQTS MAF per tutte le posizioni. Colonna K, rotolamento LQTS MAF. Cellule di riempimento grigio sono esempi di dove i valori MAF da colonne B e H vengono espansi nella colonna D e J, rispettivamente, che correlano con le rispettive posizioni nella colonna C/I. nota che è fondamentale che tutte le celle sono formattate come "Numeri" per la formula corretta funzionamento. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4 : Esempio di analisi di segnale-rumore e graphing. Sinistra, database di esempio e calcoli. Colonna A, tutte le posizioni dell'amminoacido di KCNQ1. Colonna B, LQTS sperimentale MAF rotolamento media per ogni posizione. Colonna C, GnomAD controllo della media mobile MAF per ogni posizione. D: signal-to-noise ratio (cioè per D2, "= B2/C2"). Giusto, esempio di grafico di rapporto segnale-rumore (asse y) contro la posizione dell'amminoacido (asse x). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5 : Esempio di proteina e mapping posizione variant. A, database di esempio e calcoli. Colonna A, tutte le posizioni dell'amminoacido di KCNQ1. Colonna B, KCNQ1 posizioni che hanno una variante rara di controllo identificata in GnomAD. Colonna C, la colonna di mappatura del dominio dove le celle contenenti valori corrispondono all'aspetto N o C-terminale di identificati domini proteici KCNQ1 o caratteristiche. Come il maggior parte dominio N-terminale è che il dominio di S1 ha il limite di N-terminale ad amminoacido 122, valori non sono indicato qui. Colonna D, la colonna di mappatura variante quale celle contenenti un 1 corrispondono a KCNQ1 posizioni che localizzare varianti rare. Cellule di riempimento grigio sono due esempi di dove variante posizioni nella colonna B vengono espansi nella colonna D che correlano con le rispettive posizioni nella colonna A. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6 : Esempio di analisi di segnale-rumore dell'amminoacido-livello di KCNQ1-codificato KCNQ1 (Kv7.1). Posizioni top, variante sono dimostrate con linee verticali, tra cui rare varianti di coorte GnomAD (nero), incidentalmente identificato varianti nei riferimenti di WES (blu) e le varianti identificate in cases(green) LQTS. Domini funzionali sono notati. Frequenza relativa delle varianti casi LQTS normalizzato alle varianti di GnomAD (linea verde) è raffigurato rispetto a WES (linea blu). S1-S6, domini transmembrana; SF, filtro di selettività di ioni; KCNE1 e AKAP9, domini di legame della proteina rispettivi. Modificate e ristampato con permesso dal precedente lavoro14. Clicca qui per visualizzare una versione più grande di questa figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Test genetici di alto-rendimento ha avanzato notevolmente nella sua applicazione e la disponibilità nell'ultimo decennio. Tuttavia, in molte malattie con basi genetiche ben consolidate, come cardiomiopatie, test espanso ha fallito migliorare il rendimento diagnostico21. Inoltre, c'è notevole incertezza per quanto riguarda l'utilità di diagnostica di molte varianti identificate. Ciò è parzialmente dovuto un numero crescente di varianti rare identificati incidentalmente scoperto su WES e WGS, che può condurre a misdiagnosis22. Analisi di segnale-rumore livello dell'amminoacido è basato su strategie consolidate per la predizione variante patogenicità e offre il vantaggio di sfruttare gli studi su larga scala basati sulla popolazione genoma per perfezionare la variante interpretazione.

Ne consegue che una delle fasi più cruciali per questo protocollo è la selezione di controllo e sperimentali coorti. Molti degli studi pubblicamente disponibili grande genoma sono accessibili attraverso banche dati aggregati, ad esempio GnomAD, che può permettere per rappresentante coorti di controllo in questo protocollo per essere grande come 138.632 individui alla data attuale. Anche se non tutti i soggetti in queste coorti di aggregazione sono apparentemente sani, la dimensione del grande campione nella regolazione della malattia rara rende questa risorsa inestimabile e consente una soglia di esclusione MAF rigorosa. Esclusione di varianti comuni è necessario in quanto è improbabile che essere una causa della malattia mendeliana altamente penetrante. Basato sul precedente lavoro, una soglia MAF di 0,01 per geni associati Canalopatia e 0,0001 per geni di cardiomiopatia può essere appropriata ed è stata convalidata da gruppi indipendenti23,24. D'importanza, data l'importanza della soglia del MAF, questo dovrebbe essere impostato e convalidato in modo indipendente per ogni studio. Non è necessario applicare una soglia MAF ad una coorte sperimentale, data la consolidata presenza di mutazioni del fondatore in canalopatie e cardiomiopatie. La dimensione della coorte sperimentale deve essere sufficiente per identificare le aree dove possono cluster varianti; Tuttavia, non esiste nessuna dimensione rigorosa. Inoltre, il gruppo sperimentale non dovrebbe includere varianti noti per essere benigna all'interno della letteratura, come questo diminuirebbe la veridicità dell'ingresso del patogeno.

È inoltre cruciale per l'interpretazione e applicabilità del risultato correttamente selezionare criteri di esclusione. Se questo protocollo consiglia escluse determinate classi di mutazione come sinonimi varianti, questi potrebbe plausibilmente essere inclusi per processi di malattia in cui deleteri sinonimi varianti sono state identificate25,26. Inoltre, quando vari criteri di esclusione vengono applicati a entrambi sperimentali e gruppi di controllo, può permettere per stratificazione di signal-to-noise mapping di sottoclasse di mutazione (cioè confrontando missenso di troncamento di varianti).

Impostazione di una media mobile per MAFs consentire per inferenza della partecipazione agli amminoacidi vicini. Ad esempio, se dell'amminoacido posizione 35 contiene una variante patologica e risiede in un dominio della proteina critica, quindi posizione 36 possono avere un grado di patogenicità quando mutato. Allo stesso modo, dovrebbe un tratto di sequenza primaria hanno una grande quantità di varianti di controllo rara, allora gli aminoacidi all'interno di questa regione che non ospitano rare varianti può ancora avere una maggiore probabilità di contenere varianti rare trovate in una popolazione. Mentre la media mobile in questo protocollo è + /-5, questa gamma può variare in base all'utente desiderato livello di risoluzione del rapporto segnale-rumore e la proteina specifica in fase di studio. Nell'esempio di LQTS, l' interrogato KCNQ1-codificato KCNQ1 canale dispone di più domini transmembrane spanning ~ 10 aminoacidi, spingendo gli autori per regolare la loro risoluzione desiderata in modo da riflettere i risultati significativi su quella scala14. Per le proteine con una sequenza più primaria e una lunghezza di proteina, l'arco di media mobile potrebbe essere necessario essere aumentato a causa di più grandi campate di sequenza della proteina senza variazione di controllo.

Esistono numerose limitazioni a questo metodo. Come affermato in precedenza, una popolazione di fenotipo-positivi sufficiente hosting putativi varianti patologiche dovrà essere identificata per poter guidare un segnale chiaro patologico. Inoltre, queste varianti patologiche possono avere penetranza variabile, così le mutazioni patologiche veramente non possono manifestarsi un fenotipo di malattia o può altrimenti non essere completamente il liquido penetrante e malattia causa. Mentre molti tenuto pubblicamente di database, ad esempio GnomAD, sono spesso considerati "sani coorti", la prevalenza di malattie genetiche è probabile che simili in questo database come gli studi di popolazione. Come descritto in dettaglio, questo protocollo si focalizza specificatamente sull'aminoacido livello modifiche risultanti dalle varianti del gene exonic che codificano per gli amminoacidi, che esclude il ruolo che varianti d'impionbatura intronic patogeni possono svolgere nella malattia monogenica. Dato il loro ruolo recentemente dimostrato in cardiomiopatie, espansione della risoluzione questo approccio può essere giustificata per identificare intergenico "hotspot" pure. Inoltre, l'applicazione di una soglia MAF può perdere alcuni "alleli di rischio" che, anche se esistenti nella popolazione con una MAF superiore che di malattia la prevalenza, possono contribuire alla malattia patogenesi27,28. Nonostante queste limitazioni, questa analisi è adattabile e può giocare un ruolo chiave nel fornire ai medici una probabilità relativa di patogenicità di malattia quando appropriato applicato.

Infine, data la predilezione di questa analisi per identificare le aree critiche all'interno di una proteina, amminoacido-livello segnale-rumore calcoli che utilizzano le mutazioni patologiche offre la possibilità di individuare nuovi domini funzionali delle proteine essendo ha studiato. Dato l'osservazione di alta patogenicità segnale-rumore in punti chiave dei canali ionici, quali il dominio dei pori, selettività del filtro, dominio del transmembrane S2 e il dominio KCNE1-legante di KCNQ1, identificazione di un "picco di patogenicità" all'interno di un'area della proteina senza una funzione conosciuta può suggerire un romanzo dominio critico. Ad esempio, è stato individuato un marcato picco di patogenicità di mutazioni associate a LQTS eseguendo la localizzazione dell'amminoacido residui 912-930 di KCNH2-codificato KCNH2 (Kv11.1). Questa regione della proteina non ha nessun dominio funzionale identificabile ancora dimostra una spiccata propensione per mutazioni associate a LQTS14. Come si espande la conoscenza della topologia di proteina, proteomica più sofisticati plausibilmente potrebbe migliorare la risoluzione di questo metodo, in futuro, analizzando il rapporto segnale-rumore lungo la struttura primaria di una proteina per includere secondario, terziario, o struttura quaternaria. Aggiunta di scienze computazionali avanzate per questa analisi, come il machine learning e intelligenza artificiale, offre l'opportunità di identificare nuovi modelli tra patologici rispetto basato sulla popolazione di variazione genetica, se robusto database di questi le varianti possono essere generato29,30. A sua volta, questo metodo potrebbe aiutare a meglio caratterizzare e predire la correlazione genotipo-fenotipo delle malattie specifiche ed essere utilizzato in combinazione con probabilità pre-test di un individuo di malattia per migliorare il rendimento diagnostico dei test genetici. Inoltre, questa analisi può scoprire Biologia nuova proteina e identificare nuovi loci all'interno del genoma umano che si manifestano con la malattia quando alterata.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla a rivelare.

Acknowledgments

APL è supportato da istituti nazionali di salute K08-HL136839.

Materials

Name Company Catalog Number Comments
1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

DOWNLOAD MATERIALS LIST

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles' heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. Lawless, C. , Springer. New York, NY. (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , Chapter 7 (Unit 7.20) (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, Database issue 447-453 (2005).
  16. O'Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Tags

Genetica problema 143 analisi genetica la prova genetica mutazione topologia variante di significato incerto il sequenziamento dell'esoma intero
Determinazione del rischio di patogenicità variante usando l'analisi di segnale-rumore dell'amminoacido-livello di variazione genetica
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Jones, E. G., Landstrom, A. P.More

Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter