Genetics

Scoperta di romanzo sequenza genomica sottrattiva

Published: January 25, 2019 doi: 10.3791/58877

Kathryn C. Asalone¹, Megan M. Nelson¹, John R. Bracht¹

¹Biology Department, American University

Summary

Lo scopo del presente protocollo è quello di utilizzare una combinazione di computazionale e panca ricerca per trovare nuove sequenze che non possono essere facilmente separate da una sequenza co-purificante, che può essere conosciuta solo parzialmente.

Abstract

Sottrattiva genomica può essere utilizzato in qualsiasi ricerca dove l'obiettivo è quello di identificare la sequenza di un gene, la proteina o la regione generale che è incorporato in un contesto più ampio di genomico. Genomica sottrattivo consente un ricercatore isolare una sequenza di destinazione di interesse (T) mediante sequenziamento completo e sottrazione di elementi genetici conosciuti (riferimento, R). Il metodo può essere utilizzato per identificare nuove sequenze quali mitocondri, cloroplasti, virus, o germinale limitato di cromosomi ed è particolarmente utile quando T non può essere facilmente isolato da R. cominciando con i dati di genomici completi (R + T), il metodo utilizza base locale allineamento Cerca strumento (BLAST) contro una sequenza di riferimento, o sequenze, per rimuovere le sequenze note corrispondenti (R), lasciando dietro il bersaglio (T). Per la sottrazione funzionare al meglio, R dovrebbe essere una brutta copia relativamente completa che manca T. Dal sequenze restanti dopo sottrazione sono testati attraverso quantitative Polymerase Chain Reaction (qPCR), R non deve necessariamente essere completo per il metodo di lavoro. Qui ci colleghiamo passi computazionali con procedura sperimentale in un ciclo che può essere ripetuto se necessario, in sequenza rimozione più sequenze di riferimento e la rifinitura la ricerca di T. Il vantaggio della genomica sottrattiva è che una sequenza completamente nuovi target può essere identificata anche nei casi in cui la purificazione fisica è difficile, impossibile o costoso. Uno svantaggio del metodo è trovare un riferimento adatto per sottrazione e ottenere T-positivo e negativo di campioni per le prove di qPCR. Descriviamo la nostra implementazione del metodo nell'identificazione del primo gene sul cromosoma germline-limitata di zebra finch. In tal caso filtraggio computazionali coinvolti tre riferimenti (R), rimossi in sequenza su tre cicli: montaggio genomica incompleta, raw dati genomici e dati di trascrittomica.

Introduction

Lo scopo di questo metodo consiste nell'identificare un'obiettivo novello (T) sequenza genomic, DNA o RNA, da un contesto genomico, o un riferimento (R) (Figura 1). Il metodo è più utile se la destinazione non può essere fisicamente separata, o che sarebbe stato costoso farlo. Solo alcuni organismi hanno perfettamente finito genomi per sottrazione, quindi un'innovazione chiave del nostro metodo è la combinazione di calcolo e metodi di panca in un ciclo che permette ai ricercatori di isolare sequenze bersaglio quando il riferimento è imperfetto, o un progetto genoma da un organismo non-modello. Alla fine di un ciclo, qPCR test viene utilizzato per determinare se è necessario più di sottrazione. Una sequenza di convalidato candidato T mostrerà statisticamente maggiore rilevamento in noti campioni di T-positivi di qPCR.

Incarnazioni del metodo sono state implementate nella scoperta di nuovi bersagli farmacologici batterica che non dispongono di host omologhi¹^,²^,³^,⁴ e identificazione di nuovi virus da host infetti⁵^,⁶. Oltre alla identificazione di T, il metodo può migliorare r: recentemente abbiamo utilizzato il metodo per identificare 936 geni mancanti dal genoma di riferimento zebra finch e un nuovo gene da una sola linea germinale del cromosoma (T)⁷. La genomica sottrattiva è particolarmente preziosa quando T rischia di essere estremamente divergenti da sequenze conosciute o quando l'identità di T è ampiamente definito, come la zebra finch germline-limitata del cromosoma⁷.

Non richiedendo identificazione positiva di T in anticipo, un vantaggio chiave della genomica sottrattiva è che è imparziale. In uno studio recente, Readhead et al ha esaminato la relazione tra il morbo di Alzheimer e virale abbondanza nelle quattro regioni del cervello. Per identificazione virale, Readhead et al ha creato un database di 515 virus⁸, limitando gravemente l'agenti virali che poteva identificare i loro studio. Sottrattiva genomica potrebbe sono stati utilizzati per confrontare i sani e genomi di morbo di Alzheimer al fine di isolare possibili nuovi virus associati alla malattia, indipendentemente dalla loro somiglianza con gli agenti infettivi noti. Mentre ci sono 263 noto virus umani-targeting, è stato stimato che circa 1,67 milioni da scoprire specie virale esistono, con 631.000-827.000 di loro che hanno un potenziale di infettare gli esseri umani⁹.

Isolamento di nuovi virus è un'area in cui sottrattiva genomica è particolarmente efficace, ma alcuni studi potrebbero non essere necessario tale metodo rigoroso. Ad esempio, studi identificazione nuovi virus hanno usato imparziale high throughput sequenziamento, seguita da trascrizione d'inversione e BLASTx per sequenze virali⁵ o arricchimento degli acidi nucleici virali per estrarre e invertire trascrivono sequenze virali⁶. mentre questi studi impiegato sequenziamento de novo e assemblaggio, sottrazione non è stato utilizzato perché le sequenze bersaglio sono stati positivamente identificate attraverso BLAST. Se i virus erano completamente nuovi e non correlati (o lontanamente correlate) ad altri virus, genomica sottrattiva sarebbe stato una tecnica utile. Il vantaggio della genomica sottrattiva è che si possono ottenere sequenze che sono completamente nuove. Se è noto il genoma dell'organismo, possono essere sottratti fuori di lasciare eventuali sequenze virali. Ad esempio, nel nostro studio pubblicato abbiamo isolato una romanzo sequenza virale da zebra finch attraverso sottrattiva genomica, anche se non era nostro intento originale⁷.

Sottrattiva genomica si è dimostrata utile per l'identificazione di bersagli di vaccino batterico, motivati dall'aumento drammatico nella resistenza agli antibiotici¹^,²^,³^,⁴. Per ridurre al minimo il rischio di reazione autoimmune, ricercatori ha ristretto i potenziali bersagli di vaccino sottraendo qualsiasi proteine che sono omologhi nell'ospite umano. Uno studio particolare, guardando la pseudotuberculosi del corinebatterio, eseguita la sottrazione dei genoma ospite vertebrato da diversi genomi batterici per garantire che gli obiettivi della droga possibile non inciderebbe proteine nei padroni di casa che conduce agli effetti collaterali ¹. il flusso di lavoro di base di questi studi è quello di scaricare il proteoma batterico, determinare le proteine vitali, rimuovere le proteine ridondanti, utilizzare BLASTp per isolare le proteine essenziali e BLASTp contro host proteoma per rimuovere eventuali proteine con gli omologhi host ¹ ^, ² ^, ³ ^, ⁴. In tal caso, genomica sottrattiva assicura che i vaccini sviluppati non avrà alcun effetto fuori bersaglio in host¹^,²^,³^,⁴.

Abbiamo usato sottrattiva genomica per identificare il primo gene di proteina-codificazione su un limitato di germline cromosoma (GRC) (in questo caso, T), che si trova in germlines ma non somatica tessuto di entrambi i sessi¹⁰. Prima di questo studio, le informazioni solo genomiche che è state conosciute circa il GRC è stato una regione ripetitiva¹¹. De novo montaggio è stato eseguito su RNA sequenziato dai tessuti dell'ovaia e teste (R + T) da adulti zebra fringuelli. L'eliminazione computazionale delle sequenze è stata eseguita utilizzando pubblicati somatica (muscolo) genome sequence (R₁)¹², suo crudo (Sanger) leggere dati (R₂) e un somatico (cervello) trascrittoma (R₃)¹³. L'uso sequenza di tre riferimenti è stato guidato dalla qPCR test passaggio 5 di ciascun ciclo (Figura 2A), mostrando che altre opzioni di filtro è stato richiesto. Il gene α-SNAP scoperto è stato confermato mediante qPCR da DNA e RNA e clonazione e sequenziamento. Vi mostriamo nel nostro esempio che questo metodo è flessibile: non è dipenda su corrispondenti acidi nucleici (DNA vs RNA) e quello sottrazione può essere eseguita con riferimenti (R) che sono costituiti da assembly o crude letture.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. sequenza di avvio assemblare de novo

Nota: Qualsiasi dati di sequenza di generazione (NGS) possono essere utilizzati, purché un assembly può essere prodotto da tali dati. Dati di input adatti includono Illumina, PacBio, o Oxford Nanopore legge assemblata in un file fasta. Per concretezza, questa sezione descrive un assembly basati su Illumina Transcrittomica specifico allo studio zebra finch abbiamo effettuato⁷; tuttavia essere consapevoli che le specifiche variano dal progetto. Per il nostro progetto di esempio, i dati grezzi sono stati derivati da un MiSeq e circa 10 milioni di letture accoppiate sono state ottenute da ciascun campione.

Utilizzare Trimmomatic 0,32¹⁴ per rimuovere gli adattatori Illumina e basi di bassa qualità. Sulla riga di comando, digitare:
java-jar trimmomatic-0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 leader: 3 uscita: 3 SLIDINGWINDOW:4:20 MINLEN:40
Utilizzare pera¹⁵ v 0.9.6 per creare qualità unite letture da trimmomatic uscita accoppiato letture, utilizzando i parametri predefiniti. Sulla riga di comando, digitare:
Pera -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
Uso rettile v. 1.1¹⁶ per errore-correggere la legge prodotta attraverso pera. Seguire il passo-passo protocollo descritto in¹⁷.
Utilizzare Trinity v 2.4.0¹⁸ nella modalità predefinita per assemblare le sequenze corrette. Per le librerie specifiche del filo, utilizzare il - SS_lib_type parametro. L'output è un file fasta (your_assembly.fasta). Sulla riga di comando, digitare:
Trinity - seqType fq - SS_lib_type FR – max_memory 10G – uscita Trinity_output..--lasciato quality_and_adaptor_trimmed_forward_paired_reads.fq – quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10 a destra
Nota: L'output verrà inserito in una nuova directory, Trinity_output, e l'Assemblea sarà denominato 'Trinity.fasta', che può essere rinominato come Your_assembly.fasta se lo si desidera. Vedere il sito Trinity per maggiori dettagli: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. BLAST l'Assemblea contro la sequenza di riferimento

Nota: Utilizzare questo passaggio quando il riferimento è un assembly o lunga si legge come Sanger; Se si compone di crudo Illumina legge, vedere il passaggio 3 di seguito per il mapping di letture per la query. Tutti i BLAST passaggi sono stati completati con versione 2.2.29+, anche se i comandi dovrebbero funzionare su qualsiasi versione recente di BLAST.

Rendere un database di esplosione della sequenza di riferimento (nucleotide_reference.fasta) dalla riga di comando. Inserire la riga di comando seguente:
makeblastdb - dbtype nucl-in nucleotide_reference.fasta-fuori nucleotide_reference.db
BLAST-partita l'Assemblea di query (generato nel passaggio 1) per il database di riferimento. Per ottenere un file di output, utilizzare [-fuori BLAST_results.txt] e per generare output tabulare (obbligatorio per fasi di lavorazione successive con gli script Python), utilizzare [-outfmt 6]. Queste opzioni possono essere combinate in qualsiasi ordine, quindi un esempio completo comando è [blastn-your_assembly.fasta - db nucleotide_reference.db di query-fuori BLAST_results.txt - outfmt 6]. Se si desidera un ambiente di e-valore, è possibile utilizzare l'opzione - value con un numero appropriato, ad esempio [value-1e-6]. Tenere presente tuttavia che il ciclo sottrattivo efficacemente inverte il value impostazione in come descritto nella discussione.
Per una maggiore rigorosità, utilizzare sequenze proteiche dall'assembly come query BLAST con tradotta del nucleotide BLAST (tBLASTn), che esegue la conversione a 6 vie del database (nucleotidi). Questo metodo è consigliato per la maggior parte dei sistemi non-modello, evitando il problema delle annotazioni di proteina incompleta.
1. Garantire il corretto codice genetico è selezionato per l'organismo è studiato, utilizzando il - opzione di db_gencode. Per ottenere sequenze proteiche per la query, è necessario eseguire il comando TransDecoder.LongOrfs (dal pacchetto TransDecoder v 3.0.1) per identificare il più lunga open reading frame da sequenze assemblati query. Il comando è [TransDecoder.LongOrfs -t your_assembly.fasta]; l'output verrà inserito nella directory chiamata 'transcripts.transdecoder_dir' e conterrà un file denominato longest_orfs.pep contenente le sequenze più lunghe proteina preveduta da ogni sequenza in your_assembly.fasta.
2. Per utilizzare tBLASTn, eseguire il comando [tblastn-longest_orfs.pep - db nucleotide_reference.db di query-fuori BLAST_results.txt - outfmt 6]. Se un riferimento di proteine di alta qualità è disponibile, utilizzare proteine corrispondenti con BLASTp anziché tBLASTn.
3. Rendere un database BLAST del riferimento proteina [makeblastdb - dbtype prot-in protein_reference.fasta-fuori protein_reference.db] e poi [blastp-longest_orfs.pep - db protein_reference.db di query-fuori BLAST_results.txt - outfmt 6]. Assicurarsi di salvare i risultati come un file per l'elaborazione a valle e utilizzare tabulare (outfmt 6) per garantire che gli script Python li possono analizzare correttamente.

3. mappa legge sul gruppo

Nota: Questo metodo può essere utilizzato se il set di dati di riferimento è costituito da crude letture genomiche, piuttosto che assemblati sequenze o sequenze di Sanger, nel quale caso utilizzare BLAST (punto 2.1).

Utilizzando BWA-MEM v. 0.7.12¹⁹ o bowtie2²⁰, mappare le letture crude scaricate (raw_reads.fastq) sull'assieme della query. L'output sarà formato. Sam. I comandi sono i seguenti: primo indice l'Assemblea: [bwa Indice your_assembly.fasta] e quindi mappare la legge [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Nota il ' >' simbolo qui non è un maggiore-segno; invece indica l'output di andare in mapped.sam il file).

4. utilizzare Script Python per rimuovere tutte le sequenze di corrispondenza

Nota: Dotato di lavoro script Python 2.7.

A seguito di passaggio 2, utilizzare sottrattiva Python script utilizzando il comando [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Prima di eseguire lo script, assicurarsi che il file di output BLAST sia nel formato 6 (tabulare). Lo script visualizzerà anche l'abbinamento sequenze per i record, come your_assembly.fasta_matching_sequences_BLAST_ e un file con non corrispondenti sequenze in formato fasta denominato your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta Results.txt.fasta. la non corrispondenti file sarà il più importante, come una fonte di potenziali sequenze di T per il test e ulteriori cicli della genomica sottrattiva.
Seguendo il passaggio 3, eseguire il removeUnmapped.py di script Python a prendere come input i. Sam dal punto 3.1 e identifica i nomi delle sequenze di query senza qualsiasi letture corrispondenti e li salva in un nuovo file di testo. Utilizzare il comando [./removeUnmapped.py mapped.sam] e l'output sarà mapped.sam_contigs_with_no_reads.txt. (Il programma genererà un file sam semplificate con tutti non mappate letture rimosse; questo file può essere ignorato ai fini del presente protocollo, ma può essere utile per altre analisi).
Come l'output del passaggio precedente è un elenco di nomi di sequenza in un file di testo denominato mapped.sam_contigs_with_no_reads.txt, estrarre un file fasta con queste sequenze: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. L'output sarà un file chiamato mapped.sam_contigs_with_no_reads.txt.fasta.

5. disegnare Primers per la sequenza che rimane

Nota: A questo punto c'è un file di fasta contenente sequenze candidato T. Questa sezione descrive qPCR per verificare sperimentalmente se provengono da T o da regioni precedentemente sconosciute di R. Se la sottrazione nel passaggio 4 rimosso tutte le sequenze, quindi l'assemblaggio iniziale non è riuscito a includere T oppure la sottrazione può essere stato troppo stringenti.

Utilizzare Geneious²¹ per determinare sequenze primer ottimale manualmente.
1. Evidenziare una sequenza di candidati di 21-28 bp per il primer Forward. Evitare esecuzioni di 4 o più di qualsiasi base. Cercare di indirizzare una regione con una combinazione abbastanza uniforme di tutte le basi. Un singolo G o C all'estremità 3' è favorevole, aiuta ad per ancorare il primer.
2. Fare clic sulla scheda statistiche sul lato destro dello schermo per visualizzare quella sequenza stimato temperatura di fusione (Tm) come la regione del candidato viene evidenziata. Cercare di ottenere una temperatura di fusione tra 55-60 ° C, evitando ripetizioni e lunghe percorrenze di G/C.
3. Seguire i passaggi 5.1.1. e 5.1.2 scegliere un primer reverse, situato 150-250 paia di basi 3' del primer in avanti. Mentre le lunghezze di primer non ha bisogno di una partita, il predetto Tm dovrebbe essere più vicino possibile alla Tm del primer in avanti. Assicurarsi di invertire la sequenza di complemento (se cliccando col tasto destro in Geneious mentre la sequenza è evidenziata è un'opzione di menu).
Utilizzare la funzione di Disegno dell'iniettore , che si trova nella barra degli strumenti in alto nella finestra sequenza.
1. Fare clic sul pulsante Disegno dell'iniettore . Inserire l'area per amplificare sotto Regione di destinazione.
2. Nella scheda caratteristiche , inserire la dimensione desiderata, temperatura di fusione (Tm) e % GC (v. punto 5.1.1).
3. Fare clic su OK per avere gli iniettori generati. Ordinare i primer attraverso un servizio personalizzato oligo.
Convalidare gli iniettori con il DNA di controllo (codifica sia T e R) per ottimizzare il tempo Tm ed estensione. Utilizzare Taq regolari e l'elettroforesi del gel per vedere la dimensione di banda, ma ottimizzazione può essere eseguita anche con qPCR seguendo i metodi nel passaggio 6.
1. Fare 10 diluizioni X degli iniettori sia avanti e indietro in modo che gli iniettori hanno una concentrazione di 10 μM.
2. Utilizzare un mix PCR di 0,5 μL di dNTP, 0,5 µ l di primer forward, 0,5 µ l di primer reverse, 0,1 μL di Taq polimerasi, 2 μL di modello, 0.75 μL di magnesio, 2,5 µ l di tampone e 18.15 μL di acqua in modo che non c'è 25 μL per ogni modello con una concentrazione di 5 ng / ΜL.
3. Testare gli iniettori alle diverse temperature di fusione nel programma PCR. Prestazioni ottimali sono solitamente osservata melt temperature leggermente di sotto del predetto Tm degli iniettori, ma di solito non superiore a 60 ° C. Anche testare per estensione ottimale volte utilizzando questa guida: 1 min a 1000 bp (così, di solito 10-30 secondi a seconda della lunghezza di amplicon).
4. Eseguire l'elettroforesi del gel di punto finale per confermare che i primer amplificano la sequenza prevista. Eseguire 25 μL del prodotto qPCR mescolato con 5 μL di 6 X glicerolo tintura su un gel di agarosio 2% TAE a 200 V per 20 min.

6. qPCR convalida della sequenza rimanenti

Nota: Questo passaggio richiede primer convalidato e le condizioni PCR stabilite nel passaggio 5.

Eseguire ogni modello in triplice copia con la seguente miscela; 12.5 μL di mix master PowerSYBR Green, 0,5 µ l di primer in avanti con una concentrazione di 10 μM, 0,5 µ l di primer inverso con una concentrazione di 10 μM, 10,5 μL di acqua e 1 µ l di DNA campione (ad una concentrazione di 2 ng/μL) , affinché ciascun pozzetto contiene 25 μL di volume totale.
Eseguire un programma di qPCR informato dalla temperatura convalidato e il tempo di estensione dal passaggio 4. Abbiamo progettato e validato tutti i primer per essere compatibile con un ciclo di due fasi, 95 ° C per 10 min della fusione iniziale, poi 40 cicli di 95 ° C per 30 s e 60 ° C per 1 min. Tuttavia, un programma di tre-palcoscenico (melt-temprare-estendere) potrebbe essere più ottimo per i primers e dovrebbe essere adattato, se necessario. Si consiglia che le curve di denaturazione finale generato almeno la prima volta, i primers sono impiegati in qPCR per convalidare l'amplificazione di un singolo prodotto di DNA.
Misura qPCR/SYBR Green segnali rispetto l'actina (o qualsiasi altro controllo adatto 'R') by CT. per tutti i casi calcolare la media e la deviazione standard di 2^{-(gene Ct - β-actina Ct)}.
(Opzionale) Eseguire l'elettroforesi del gel di punto finale per confermare il rilevamento della dimensione prodotto corretto da qPCR. Qui, eseguire 25 μL del prodotto qPCR mescolato con 5 μL di 6 x glicerolo tintura su un gel di agarosio 2% TAE a 200 V per 20 min.

7. ripetere con un nuovo riferimento a Pare i dati.

Nota: Se passo 6 convalidato le sequenze identificate da T, terminare il ciclo qui (Figura 2A). Tuttavia, una serie di considerazioni può motivare una continuazione del ciclo, per esempio, se molti R sequenze rimangono nel file o se nessuna delle sequenze candidato T sono stata convalidata da qPCR nel passaggio 6.

Ottenere un nuovo riferimento. Questo passaggio consente una nuova iterazione del ciclo e può includere dati genomici grezzi, dati grezzi di RNA-seq o altri set di dati assemblati. Risorse preziose per i dati di riferimento includono il database del genoma presso il National Center for Biotechnology Information (https://www.ncbi.nlm.nih.gov/genome) che memorizza assemblati genomi accessibili tramite FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), e il Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) vengono archiviate crudo generazione sequenza letture. Progetti genoma possono fornire i dati di sequenza crudo attraverso altri siti associati al progetto e il database.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Dopo l'esecuzione di BLAST, il file di output avrà un elenco di sequenze dalla query che corrisponda al database. Dopo la sottrazione di Python, un numero di sequenze non corrispondenti sarà ottenuto e testato da qPCR. I risultati di questo e prossimi passi, sono discussi di seguito.

Risultato negativo. Ci sono due possibili risultati negativi che possono essere visto dopo BLAST per la sequenza di riferimento. Non ci può essere nessun risultati BLAST, che significa che la sequenza totale non dispone di eventuali sequenze simili al riferimento. Potrebbe trattarsi di un errore nella selezione la sequenza di riferimento giusto per l'esempio sequenziato. Un'altra possibilità è che non esistono sequenze uniche nell'assembly partenza (tutto viene sottratto di distanza), pertanto nessun gene si trovano per la sequenza di interesse. Verifica dove il riferimento è venuto da e assicurarsi che non sia il tessuto stesso dell'assembly di query.

Dopo il filtraggio computazionale, qPCR può produrre un risultato negativo, per esempi, vedere Figura 3A, 3B, C in cui non vi era alcuna differenza nella rilevazione attraverso tessuti di uccello. Pannelli A attraverso C sono geni rappresentativi da sottrazione diversi cicli, quali iterazioni del ciclo sottrattiva motivato e lo sviluppo del metodo (Figura 2A, 2B).

Risultato positivo. Un risultato positivo-- l'identificazione di una sequenza bersaglio vero..--è confermato quando genomic DNA qPCR Mostra rilevamento statisticamente maggiore nel tessuto / campione di interesse rispetto al riferimento (Figura 3D). Il progetto sottrattivo iniziato in questo caso con sequenziamento di RNA dal tessuto germinale del maschio e femmina adulto zebra finch, ottenere 10 milioni di coppie lettura da ciascun sesso. Per brevità, descriveremo l'elaborazione della sequenza dell'ovaia solo, in cui 167.929 trascrizioni sono state ottenute dall'Assemblea de novo . Il metodo sottrattivo genomica (BLASTn) è stato utilizzato per eliminare tutte le sequenze che abbinato al genoma somatico pubblicato¹², che lasciato 5.060 trascrizioni corrispondenti a 598 proteine uniche, che indica che le trascrizioni erano non codificanti. Sanger letture crude utilizzate per generare l'assembly sono stati poi utilizzati per il livello successivo di sottrazione da tBLASTn, producendo 78 proteine. Una sottrazione finale è stato effettuato usando RNA-seq raw legge dal lobulo uditiva¹³, che ha lasciato otto proteine. Quando queste proteine sono state eseguite attraverso nr NCBI BLAST, sei delle proteine erano virale, uno era una regione ripetitiva negli uccelli, e l'ultimo è stato un α-SNAP che è limitato di germline⁷ (Figura 2B). Durante questo processo, sono stati identificati 935 somatici geni che non sono stati precedentemente inclusi nell'annotazione intero genoma; vari hanno mostrato l'amplificazione qPCR uniforme attraverso tessuti (Figura 3A, 3B, 3C). Il gene α-SNAP è stato convalidato per essere germline limitato utilizzando qPCR, perché esso è stato impoverito in tessuto somatico rispetto al testicolo del DNA dove era presente a livelli equivalenti all'actina (Figura 3D).

Cosa potrebbe andare storto. Il problema principale che dovrà essere superato quando usando questo metodo consiste nel garantire che viene utilizzata la sequenza di riferimento corretto. La migliore sequenza di riferimento incapsula, in senso più ampio, la complessità genomica in cui la sequenza di interesse (T) è incorporata. Questo può significare che le sequenze in forme diverse; trascrittoma, assemblaggio, dati grezzi o dati da molteplici studi hanno bisogno di essere usati come riferimento (Figura 1). Nello studio zebra finch, abbiamo sviluppato gli iniettori da dati di sequenziamento di RNA; Tuttavia, i primer non funzionava sempre a causa della presenza degli introni tra o all'interno di siti di legame del primer nel DNA. Abbiamo testato ogni primer impostare mediante PCR fuori DNA genomic dal testicolo del DNA, che codifica per il riferimento (R), che lo rende idoneo controllo positivo e la destinazione (T). Fallimento di primer in questa fase richiede la progettazione e sperimentazione di nuovi primer fino a quando viene identificato un set adatto. Applicano standard insidie dei metodi basati su PCR: Condizioni di amplificazione devono essere ottimizzate, specificità di amplificazione confermata dalla prova e/o controlli clonazione e no-modello devono essere incluso in tutti gli esperimenti. Per ulteriori informazioni su saggi qPCR, vedere²².

Figura 1 . L'approccio sottrattivo iterativamente può rimuovere più riferimenti (R) per recuperare solo alla sequenza di destinazione di interesse (T) da totali dati genomici. Le sequenze di riferimento dei singoli progetti non possono sovrapporsi in proprio in questo modo e possono includere i DataSet non indicati in figura. Clicca qui per visualizzare una versione più grande di questa figura.

Nella figura 2. Metodi visivi. (A) schema di ciclo sottrattiva. Il ciclo può essere ripetuto tante volte quanto necessario, ogni volta che utilizzano sequenze di riferimento distinti, per ottenere i migliori risultati. (B) esempio specifico del ciclo sottrattivo dei passaggi effettuati in Biederman et al. ⁷, con passaggi numerati come A e con il numero di sequenze restanti ogni fase indicato. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3 . Dati di esempio di qPCR risultati compresi esiti positivi e negativi. (A) genomic DNA qPCR di CHD8, un esito negativo. (B) genomic DNA qPCR di DNMT1, un esito negativo. (C) Genomic DNA qPCR di CHD7, un esito negativo. (D) genomic DNA qPCR di NAPAG, confermando la presenza in particolare in campioni di testicolo e lo svuotamento dal fegato e ovario rispetto l'actina, un esito positivo. Tutti i pannelli indicano la media + /-scarto quadratico medio di tre misurazioni. Clicca qui per visualizzare una versione più grande di questa figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Mentre sottrattiva genomica è potente, non si tratta di un approccio cookie cutter, che richiedono personalizzazione in diversi passaggi chiave e un'attenta selezione di sequenze di riferimento e campioni di prova. Se l'assembly di query è di scarsa qualità, passaggi di filtraggio potrebbe isolare solo artefatti di assemblaggio. Pertanto, è importante convalidare accuratamente l'Assemblea de novo utilizzando un protocollo di convalida appropriata al progetto specifico. Per RNA-seq, linee sono fornite sul sito Web della Trinità¹⁸ e per DNA, uno strumento come REAPR²³ può essere utilizzato. Un altro passo fondamentale quando si utilizza BLAST è selezione di e-valore appropriato, che determinerà se la sottrazione sarà rilassato o severi. Tuttavia, si verifica un'inversione nel metodo: una partita più rigorosa per fare riferimento a è in realtà una sottrazione di meno-rigorosi, come sequenze non corrispondenti non vengono sottratti. Di conseguenza, un più grande (meno rigoroso) e-valore deve essere utilizzato in BLAST per una sottrazione più rigorosa. Il passo finale essenziale del protocollo è riferimento selezione. Per maggiore efficienza il riferimento dovrebbe essere più completo possibile; Tuttavia, esso non deve necessariamente essere perfetto perché qPCR test confermano se sequenze rimanenti sono da T o R e se più di filtraggio sia necessaria. Nel corso dell'attuazione del protocollo, nuovi riferimenti possono essere utilizzato per limitare ulteriormente verso il basso i geni da convalidare. Notiamo che a volte può cambiare il metodo di corrispondenza: per l'ultimo passo sottrattivo abbiamo utilizzato l'algoritmo BWA per mappare crude letture sulle sequenze di query e utilizzato personalizzati python script per identificare sequenze di query con nessuna corrispondenza legge (Figura 2B).

Limitazioni di questo metodo includono la disponibilità di una sequenza di riferimento. Per esempio, Meyer et al. valutate il genoma mitocondriale di un nuovo ominidi; Denisoviano sonde per l'acquisizione di DNA mitocondriale, che è stato sequenziato e mappato a un riferimento umano²⁴e hanno usato umano. In questo caso, non c'erano nessun dato di riferimento genoma nucleare esistente che i ricercatori potrebbero hanno sottratto contro per ottenere il genoma mitocondriale, rendendo necessaria la strategia alternativa lettura-mappatura²⁴. Qualsiasi regioni ampiamente divergente del mitocondrio romanzo rispetto al riferimento mitocondriale umano sarebbero perso da lettura-mapping. Sottrattiva genomica offre un approccio meno prevenuto di lettura-mappatura di ma non è sempre applicabile a seconda della domanda di ricerca, e in questo caso i bassi livelli di DNA antico precluso il tipo di copertura di sequenza necessaria per de novo assembly ( Passo 1 di genomica sottrattiva).

Purificazione fisica fornisce un altro metodo alternativo per genomica sottrattiva. Purificazione di DNA o RNA è spesso usato nel cloroplasto intero sequenziamento e genomi mitocondriali perché questi genomi organellari sono molto più piccoli di genomi nucleare²⁵^,²⁶^,²⁷^,²⁸. Umani e altri più piccoli genomi mitocondriali possono essere isolati per la sequenziazione attraverso amplificazione utilizzando due set di primer, seguita da purificazione²⁵. Tuttavia, sottrattiva genomica può essere utile per i casi in cui genomi mitocondriali sono insolitamente grandi, i siti di legame del primer sono divergenti o non provocherà il genoma completo. Un esempio di questo è sui ciliati, che hanno grande, divergenti, lineare genomi mitocondriali²⁹. Mappatura di un genoma di riferimento non è un opzione realizzabile per ciliati a causa di alta divergenza tra specie e la mancanza degli omologhi anche attraverso genuses³⁰. Utilizzando sottrattiva genomica, il genoma mitocondriale ciliato può essere isolato e analizzato, riducendo al minimo il potenziale dei segmenti mancanti del genoma. Allo stesso modo, mentre un metodo di assemblaggio de novo è stato usato all'Assemblea di genoma del cloroplasto abete Sitka, divario-chiusura coinvolto comparativa leggere mappatura contro l'abete bianco, potenzialmente introdurre bias a questi siti³¹.

A seconda del progetto, sottrattiva genomica può offrire tempo e i vantaggi relativi approcci purificazione o mappatura, offrendo meno pregiudizi nel processo di scoperta di costo. In alcune situazioni, la sequenza di destinazione non può essere facilmente isolata perché è completamente sconosciuto, è vitale per la sopravvivenza delle cellule (mitocondri), o troppo grande per essere separati mediante elettroforesi in gel standard. Basato su dimensione elettroforetica purificazione è lento e richiede notevole materiale di partenza (che può essere costoso) ottimizzando le condizioni sopra più tentativi. Elettroforesi del gel di impulso-campo (PFGE) consente la separazione dei frammenti di DNA fino a 10⁷bp (10 Mb), ma prende 2-3 giorni, grandi quantità di materiale e attrezzature a volte specializzate che non sono commercialmente disponibile³². In Biederman et al., la sequenza di unica che è stata conosciuta dal cromosoma di germline-limitata era una ripetizione non codificanti⁷. Come questo cromosoma è il più grande nell'uccello, oltre 100 Mb in lunghezza¹⁰, purificazione sarebbe stato impossibile; di conseguenza, sottrattiva genomica è stata in grado di fare ciò che altri metodi non potevano. Nell'era genomica è spesso più conveniente e veloce la sequenza ora e filtrare dal computer più tardi. Consentendo la scoperta di completamente nuove sequenze, genomica sottrattivo utilizza una combinazione di approcci per isolare nuove sequenze anche senza una sequenza di riferimento ideale.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla a rivelare.

Acknowledgments

Gli autori riconoscono Michelle Biederman, Alyssa Pedersen e Colin J. Saldanha per la loro assistenza con il progetto di genomica di zebra finch in varie fasi. Riconosciamo anche Evgeny Bijsk per computing cluster sistema amministrazione e NIH grant 1K22CA184297 (per J.R.B.) e 042767 NS NIH (a C.J.S).

Materials

Name	Company	Catalog Number	Comments
Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki