Mirati sequenziamento di nuova generazione è un approccio di tempo e costo-efficiente che sta diventando sempre più popolare in diagnostica clinica e ricerca di malattia. Il protocollo descritto qui presenta il complesso flusso di lavoro richiesto per la sequenza e il processo di bioinformatica utilizzato per identificare varianti genetiche che contribuiscono alla malattia.
Sequenziamento di nuova generazione (NGS) sta rivoluzionando rapidamente come viene eseguita la ricerca nei determinanti genetici della malattia costituzionale. La tecnica è altamente efficiente con milioni di letture di sequenziamento prodotte in un breve lasso di tempo e a costi relativamente bassi. In particolare, NGS mirata è in grado di indagini di messa a fuoco di regioni genomiche di particolare interesse basato sulla malattia di studio. Non solo fa questo ulteriormente a ridurre i costi e aumentare la velocità del processo, ma diminuisce l’onere computazionale che spesso accompagna NGS. Anche se mirata NGS è limitato ad alcune regioni del genoma, impedendo l’identificazione di potenziali nuovi loci di interesse, può essere una tecnica eccellente di fronte a una malattia fenotipicamente e geneticamente eterogenea, per cui ci sono precedentemente conosciuto associazioni genetiche. A causa della natura complessa della tecnica del sequenziamento, è importante aderire strettamente al protocolli e metodologie al fine di ottenere letture di sequenziamento di elevata copertura e qualità. Ulteriormente, una volta ottenute sequenziamento letture, un flusso di lavoro sofisticato bioinformatica è utilizzato per accuratamente mappa letture di un genoma di riferimento, di chiamare varianti e affinché che le varianti passano parametri di qualità. Varianti anche devono essere annotate e curate basata sulla loro importanza clinica, che può essere standardizzato applicando l’American College of Medical Genetics e linee guida di patogenicità di genomica. I metodi presentati qui visualizzerà i passaggi coinvolti nella generazione e analisi di dati NGS da un pannello di sequenziamento mirato, tramite il pannello di malattia neurodegenerative ONDRISeq come un modello, per identificare le varianti che possono essere di importanza clinica.
Come definire i determinanti genetici di varie condizioni assume una priorità nella ricerca e nella clinica, sequenziamento di nuova generazione (NGS) sta dimostrando di essere uno strumento di alto-rendimento e conveniente per raggiungere questi obiettivi1,2 ,3. Per quasi 40 anni, Sanger sequenziamento era stato il gold standard per identificare varianti genetiche4; Tuttavia, per le malattie con eterogeneità genetica o eziologia genetica, molti geni possibili del candidato devono essere valutati, spesso contemporaneamente. In questo contesto, Sanger sequenziamento diventa costoso e richiede tempo. Tuttavia, NGS comporta sequenziamento massivo parallelo di milioni di frammenti di DNA, che consente per una tecnica efficiente di costo e di tempo rilevare contemporaneamente una vasta gamma di variazione genetica in varie regioni del genoma.
Ci sono tre tipi di NGS per il sequenziamento del DNA: 1) intero genoma di sequenziamento (WGS), 2) intero-dell’esoma sequenziamento (WES) e sequenziamento 3) mirati5. WGS valuta l’intero contenuto genomico di un individuo, mentre WES coinvolge solo le regioni di proteina-codificazione del genoma6di sequenziamento. La sequenziazione mirata, al contrario, si concentra su regioni specifiche del genoma basato su relativamente pochi geni specifici collegati da meccanismi patologici comuni o noti fenotipo clinico. Gli esoni o introni oppure qualsiasi regioni intergeniche di un gene o un gruppo specifico di geni possono essere specificati utilizzando questo approccio. Di conseguenza, sequenziamento mirato può essere un ottimo approccio quando c’è già una base di geni noti per essere associati con la malattia di interesse. Targeting per regioni specifiche del genoma consente per l’eliminazione del superfluo e irrilevante variazione genetica che può cloud o distrarre da interpretazione clinica. Mentre WGS e WES entrambi producono una grande quantità di dati di alta qualità, la quantità di dati può essere schiacciante. Non solo questa grande quantità di dati richiede l’analisi bioinformatica computazionalmente intensivi, ma archiviazione dati frequentemente possa presentare problemi7. Questa sfida di memorizzazione dei dati aggiunge anche costi aggiuntivi sia WGS e WES, che spesso non è considerato inizialmente quando si calcola la spesa di sequenziamento. Ulteriormente, anche se esso è in diminuzione, il costo di WGS e WES rimangono relativamente elevati. Sequenziamento mirato può essere un’opzione più conveniente, specialmente quando è richiesto il sequenziamento di un gran numero di individui.
The Ontario Neurodegenerative malattia Research Initiative (ONDRI) è uno studio di coorte multi-piattaforma, a livello provinciale, d’osservazione che caratterizza cinque malattie neurodegenerative, tra cui: 1) la malattia di Alzheimer e mild cognitive impairment, 2). sclerosi laterale amiotrofica, 3) la demenza frontotemporale, 4) morbo di Parkinson e 5) danno conoscitivo vascolare8. Il sottogruppo di genomica ONDRI mira a chiarire come parte della caratterizzazione della linea di base di questa coorte spesso scontato, eppure estremamente importante panorama genetico di queste malattie fenotipicamente e geneticamente eterogenee. Le malattie neurodegenerative sono così candidati appropriati per le metodologie di NGS e per la sequenziazione mirata in particolare.
Abbiamo personalizzato-progettato un pannello NGS mirato, ONDRISeq, sequenziare 528 partecipanti coinvolti in ONDRI per le regioni di codificazione della proteina di 80 geni che sono stati precedentemente associati con le cinque malattie di interesse. Con questa metodologia, siamo in grado di sfruttare i dati NGS di alta qualità in modo mirato ed efficiente. La progettazione e la convalida del pannello ONDRISeq con gli studi multipli di concordanza precedentemente è stato descritto, per il quale il pannello di ONDRISeq era in grado di identificare il romanzo, rare varianti di significato clinico possibile nel 72,2% dei 216 casi utilizzati per la convalida di pannello 9. Sebbene NGS technology ha avanzato rapidamente e notevolmente negli ultimi anni, molti ricercatori affrontano una sfida durante l’elaborazione dei dati grezzi in un elenco di varianti utilizzabili, con annotazioni10. Ulteriormente, interpretazione delle varianti può essere complessa, soprattutto quando di fronte a molti che sono rari o romanzo11.
Qui, descriviamo in maniera dettagliata, la metodologia di NGS mirati e il flusso di lavoro associato bioinformatica necessaria per nuova sequenza, variante chiamata e la variante annotazione utilizzando il ONDRISeq studia come un esempio. Dopo la generazione di dati NGS, file raw sequenziamento devono essere allineati al genoma umano riferimento per poter chiamare accuratamente varianti. Varianti quindi devono essere annotate al fine di eseguire la successiva variante curation. Spiegheremo anche nostra implementazione dell’American College of Medical Genetics standard e linee guida per classificare accuratamente variante patogenicità.
Nel percorso dall’estrazione del campione di DNA per identificare varianti che possono essere di interesse quando si considera la diagnosi di un paziente, la progressione della malattia e possibili opzioni di trattamento, è importante riconoscere la natura multiforme della metodologia necessaria per sequenziamento e l’elaborazione dei dati appropriati. Il protocollo descritto nel presente documento è un esempio dell’utilizzo di NGS mirate e analisi bioinformatica successive essenziale per identificare varianti rare di potenziale rilevanza clinica. In particolare, vi presentiamo l’approccio adottato dal sottogruppo di genomica ONDRI quando si utilizza il pannello NGS ONDRISeq personalizzati.
È riconosciuto che questi metodi sono stati sviluppati basata su una specifica piattaforma NGS e che ci sono altre piattaforme di sequenziamento e kit di arricchimento di destinazione che può essere utilizzato. Tuttavia, lo strumento desktop e piattaforma NGS (Tabella materiali) è stato scelto in base il suoi primi US Food and Drug Administration (FDA) l’approvazione46. La presente autorizzazione riflette il sequenziamento di alta qualità che possa essere eseguito con i protocolli NGS di scelta e l’affidabilità che può essere posizionato sulle letture di sequenziamento.
Anche se ottenere letture accurate sequenziamento con la profondità di copertura è molto importante, l’elaborazione di bioinformatica richiesta per analisi di variante rara finale è vitale e può essere computazionalmente intensivo. A causa di numerose fonti di errori che possono verificarsi all’interno del processo di sequenziazione, una pipeline di bioinformatica robusto necessario correggere per le varie imprecisioni che possono essere introdotte. Essi possono derivare da disallineamenti nel processo di mapping, bias di amplificazione introdotto dall’amplificazione di PCR nella preparazione libreria e la tecnologia di produzione di manufatti di sequenziamento47. Non importa il software utilizzato per eseguire il mapping di lettura e la variante chiamata, ci sono modi comuni per ridurre questi errori tra cui locale riallineamento, rimozione di duplicati letture mappate e impostazione parametri appropriati per il controllo qualità quando si chiama varianti. Inoltre, i parametri scelti durante chiamata variante possono variare basato su ciò che è più appropriato per lo studio a mano11. La copertura minima e il Punteggio di qualità di una variante e i nucleotidi circostanti che sono stato applicati nel presente documento sono stati scelti da creare un equilibrio tra sensibilità e specificità appropriate. Questi parametri sono stati convalidati per il pannello di ONDRISeq basato su variante chiamata concordanza con tre distinte tecniche genetiche, come descritto in precedenza, tra cui: 1) basata su chip genotipizzazione; 2) test di discriminazione allelica; e 3) di sequenziamento Sanger9.
In seguito chiamata variante accurata, al fine di determinare quelli di potenziale rilevanza clinica, annotazione e curation sono essenziali. Grazie alla sua piattaforma di accesso aperto, ANNOVAR è uno strumento eccellente per sia annotazione e screening preliminare di variante o eliminazione. Oltre ad essere facilmente accessibile, ANNOVAR può essere applicato a qualsiasi file VCF, non importa quale piattaforma di sequenziamento viene utilizzato, ed è personalizzabile in base alle esigenze della ricerca26.
Dopo annotazione, varianti devono essere interpretati per determinare se sono da ritenersi per essere di importanza clinica. Non solo questo processo diventa complesso, ma spesso è incline a soggettività ed errori umani. Per questo motivo, l’ACMG ha fissato linee guida per valutare le prove di patogenicità di qualsiasi variante. Applichiamo un approccio curatela manuale base di variante non-sinonimo, raro, che è costruito sulla base di questi orientamenti e salvaguardato valutando singolarmente ogni variante che è in grado di passare attraverso la pipeline con un design personalizzato che script Python classifica le varianti sulla base degli orientamenti. In questo modo, ogni variante viene assegnata una classifica dei patogeni, probabile significato patogeno, incerta, probabilmente benigno o benigna, e siamo in grado di aggiungere standardizzazione e trasparenza per il processo di variante curation. Esso è importante riconoscere che le specifiche di variante curation, di là della pipeline di bioinformatica, saranno essere individualizzate in base alle esigenze della ricerca ed era quindi oltre l’ambito delle metodologie presentate.
Anche se i metodi presentati qui sono specifici di ONDRI, la procedura descritta può essere tradotto quando si considera un gran numero di malattie costituzionali di interesse. Aumentare il numero delle associazioni di gene per molti fenotipi, NGS mirata consente un’ipotesi di approccio che può capitalizzare la ricerca precedente che è stato fatto nel campo. Eppure, ci sono limitazioni a NGS mirati e la metodologia presentata. Concentrandosi solo su regioni specifiche del genoma, le aree della scoperta sono limitate a alleli novelli di interesse. Di conseguenza, nuovi geni o altri loci genomici di là di quelli coperti dagli obiettivi di sequenziamento, che potrebbero essere rivelati con WGS o WES approcci, non sarà identificato. Ci sono anche regioni all’interno del genoma che possono essere difficili da accuratamente sequenza con approcci NGS, compresi quelli con un elevato grado di sequenze ripetute48 o quelli che sono ricchi di contenuto di GC49. Fortunatamente, quando si utilizzano NGS mirati, c’è a priori un alto grado di familiarità con le regioni genomiche essere sequenziato, e se questi pongono sfide tecniche. Infine, il rilevamento di varianti di numero di copia dai dati NGS attualmente non è standardizzato50. Tuttavia, la bioinformatica soluzioni a queste preoccupazioni possono essere all’orizzonte; nuovi strumenti computazionali possono contribuire ad per analizzare queste ulteriori forme di variazione in ONDRI pazienti.
Nonostante i suoi limiti, NGS mirata è in grado di ottenere dati di alta qualità, all’interno di un approccio basato su ipotesi, pur rimanendo meno costosi rispetto ai suoi omologhi WGS e WES. Non solo è questa metodologia appropriata per ricerca efficiente e diretta, l’implementazione clinica di NGS mirati è in crescita esponenziale. Questa tecnologia sta usanda per rispondere a molte domande per quanto riguarda le vie molecolari di varie malattie. Inoltre è stato sviluppato in un preciso strumento diagnostico a costo relativamente basso quando si oppose a WES e WGS. Anche quando rispetto alla parità aurea Sanger sequenziamento, mirati NGS può prevalere nella sua tempo – e costo-efficienza. Per queste ragioni, è importante per uno scienziato o un clinico che riceve e utilizza dati NGS, per esempio, consegnati come testo in un laboratorio o un rapporto clinico, per capire il complesso “scatola nera” che è alla base dei risultati. I metodi presentati qui dovrebbero aiutare gli utenti a comprendere il processo alla base della generazione e interpretazione dei dati NGS.
The authors have nothing to disclose.
Vorremmo ringraziare tutti i partecipanti ONDRI per il loro consenso e la cooperazione con il nostro studio. Grazie agli investigatori ONDRI (www. ONDRI.ca/people), tra cui il nostro investigatore (MJS) e il ONDRI direttivo comitati: il Comitato esecutivo, Comitato direttivo, Comitato di pubblicazione, Comitato di reclutamento, piattaforme di valutazione e management team di progetto. Ringraziamo anche il centro di genomica regionale di Londra per la loro competenza tecnica. AAD è supportato da Alzheimer Society di Londra e Middlesex Masters Graduate Research Scholarship. SMKF è supportato da ALS Canada Tim E. Noël Postdoctoral Fellowship.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |