Genetics

Neue Sequenz Entdeckung durch subtraktive Genomics

Published: January 25, 2019 doi: 10.3791/58877

Kathryn C. Asalone¹, Megan M. Nelson¹, John R. Bracht¹

¹Biology Department, American University

Summary

Dieses Protokoll soll verwenden eine Kombination aus Rechenleistung und Bank-Forschung, um neue Sequenzen zu finden, die leicht von einer Co reinigende Sequenz, die nur teilweise bekannt sein kann nicht getrennt werden können.

Abstract

Subtraktive Genomics kann verwendet werden, in jede Forschung, wo das Ziel ist, identifizieren die Sequenz eines Gens, Protein oder allgemeine Region, die in einem größeren genomische Kontext eingebettet ist. Subtraktive Genomics ermöglicht ein Forscher, eine Ziel-Sequenz von Interesse (T) durch umfassende Sequenzierung und Subtraktion bekannte genetische Elemente (Referenz, R) zu isolieren. Die Methode kann verwendet werden, um neuartige Sequenzen wie Mitochondrien, Chloroplasten, Viren zu identifizieren, oder Keimbahn eingeschränkt Chromosomen, und ist besonders nützlich, wenn T von R. beginnend mit umfassenden genomischen Daten (R + T), die Methode leicht isoliert werden kann verwendet grundlegende lokale Alignment Search Tool (BLAST) gegen eine Referenzsequenz oder Sequenzen, um den passenden bekannten Reihenfolgen (R), hinterlässt das Ziel (T) zu entfernen. Für die Subtraktion funktioniert am besten soll R ein relativ vollständigen Entwurf, der T. fehlt Seit Sequenzen nach Subtraktion werden durch quantitative Polymerase Chain Reaction (qPCR) getestet muss R nicht vollständig für die Methode funktioniert. Hier verbinden wir rechnergestützte Schritte mit experimentellen Schritte in einem Zyklus, der iteriert werden kann, je nach Bedarf, nacheinander entfernen mehrere Referenz-Sequenzen und verfeinern die Suche nach T. Der Vorteil der subtraktiven Genomik ist eine völlig neuartiges Zielsequenz selbst in Fällen identifiziert werden kann, in denen körperliche Reinigung schwierig, teuer oder unmöglich ist. Ein Nachteil der Methode ist eine geeignete Referenz für die Subtraktion Suche und Erlangung eines T-Positive und negative Proben zu Testzwecken qPCR. Wir beschreiben unsere Implementierung der Methode zur Identifizierung des ersten Gens aus der Keimbahn eingeschränkt Chromosom von Zebrafinken. In diesem Fall drei Verweise (R), nacheinander entfernt über drei Zyklen beteiligt rechnerische Filterung: eine unvollständige genomische Montage, genomische Rohdaten und transkriptomischen Daten.

Introduction

Der Zweck dieser Methode ist, eine neuartige Ziel (T) genomischen Sequenz, entweder DNA oder RNA, aus einer genomischen Kontext oder Referenz (R) (Abbildung 1) zu identifizieren. Die Methode ist besonders hilfreich, wenn das Ziel nicht physisch getrennt werden, oder es teuer wäre, dies zu tun. Nur wenige Organismen haben Genome für die Subtraktion, perfekt beendet, so dass eine entscheidende Neuerung unserer Methode ist die Kombination aus Rechenleistung und Bank-Methoden in einem Zyklus Forscher um Zielsequenzen zu isolieren, wenn der Verweis nicht perfekt ist, oder ein Entwurf Genom von einem Modellorganismus. Am Ende eines Zyklus wird qPCR Tests verwendet, um festzustellen, ob weitere Subtraktion benötigt wird. Eine validierte Kandidat T-Sequenz zeigt statistisch höhere Erkennung in bekannten T-positiven Proben von qPCR.

Inkarnationen des Verfahrens wurden in Entdeckung neuer bakterielle Drug Targets, die keinen Host homologe¹^,²^,³^,⁴ und Identifikation von neuartigen Viren von infizierten Rechnern^{umgesetzt 5}^,⁶. Zusätzlich zur Identifikation von T kann die Methode verbessern R: wir vor kurzem die Methode verwendet, um 936 fehlenden Gene aus dem Zebrafinken Bezug Genom und aus eine Keimbahn-nur Chromosom (T)⁷ein neues Gen zu identifizieren. Subtraktive Genomics ist besonders wertvoll, wenn T extrem abweichend von bekannten Sequenzen sein dürfte, oder wenn die Identität des T ist im großen und ganzen nicht definiert, wie in der Zebrafinken Keimbahn eingeschränkt Chromosom⁷.

Durch die Forderung nicht positive Identifizierung T im Voraus, ist ein entscheidender Vorteil der subtraktiven Genomik, dass es Objektive. In einer aktuellen Studie untersuchten Readhead Et Al. die Beziehung zwischen Alzheimer und virale Fülle in vier Regionen des Gehirns. Für virale Identifizierung erstellt Readhead Et Al. eine Datenbank von 515 Viren⁸, stark einschränken die virale Agents, die ihre Studie identifizieren konnten. Subtraktive Genomics hätte genutzt werden können, die gesunden und Alzheimer Genome zu vergleichen um mögliche neuartige Viren, verbunden mit der Krankheit, unabhängig von ihrer Ähnlichkeit mit bekannten Infektionserreger zu isolieren. Zwar gibt es 263 Menschen gezielt Viren bekannte, wurde es geschätzt, dass etwa 1,67 Millionen unentdeckte viral Arten existieren, mit 631.000-827.000 von ihnen haben ein Potenzial, Menschen⁹zu infizieren.

Isolation von neuartigen Viren ist ein Bereich, in dem subtraktiven Genomics ist besonders effektiv, aber einige Studien können keine strenge Methode benötigen. Studien zur Identifizierung neuartige Viren unvoreingenommene Hochdurchsatz-Sequenzierung gefolgt von reverse Transkription und sequenziert für virale Sequenzen⁵ oder Anreicherung von viralen Nukleinsäuren verwendet haben, zu extrahieren und umkehren transkribieren beispielsweise virale Sequenzen⁶. während dieser Studien de Novo Sequenzierung und Montage beschäftigt, Subtraktion wurde nicht verwendet, weil die Zielsequenzen Blast positiv identifiziert wurden. Wenn die Viren wurden völlig neuartige und nicht in Zusammenhang stehen (oder weitläufig verwandten) zu anderen Viren subtraktiven Genomics gewesen wäre eine nützliche Technik. Der Vorteil der subtraktiven Genomik ist Sequenzen, die völlig neu sind können gewonnen werden. Wenn der Organismus Genom bekannt ist, kann es keine viralen Sequenzen verlassen, abgezogen werden. Zum Beispiel in unseren veröffentlichten Studie isoliert wir eine neuartige virale Sequenz von Zebrafinken durch subtraktive Genomics, aber es nicht unsere ursprüngliche Absicht^{7 war}.

Subtraktive Genomics hat auch bei der Identifizierung von bakterieller Impfstoff Ziele, motiviert durch den dramatischen Anstieg der Resistenz gegen Antibiotika¹^,²^,³^,⁴bewährt. Zur Minimierung des Risikos der Autoimmunreaktion eingegrenzt Forscher die potentiellen Impfstoff Ziele durch Subtraktion alle Proteine, die homologe im menschlichen Wirt haben. Eine besondere Untersuchung, Corynebacterium Pseudotuberculosis, betrachten durchgeführt Subtraktion von Wirbeltieren Host Genomen von mehreren bakteriellen Genome um sicherzustellen, dass mögliche Drogeziele Proteine in der Hosts führt zu Nebenwirkungen nicht beeinträchtigen würde ¹. grundlegende Arbeitsabläufe dieser Studien ist zum download des bakterielle Proteoms, lebenswichtige Proteine bestimmen, redundante Proteine zu entfernen, verwenden BLASTp, die wesentlichen Proteine zu isolieren und BLASTp gegen Gastgeber Proteom, um Proteine mit Host homologe zu entfernen ¹ ^, ² ^, ³ ^, ⁴. In diesem Fall subtraktiven Genomics sicherzustellen, dass die Impfstoffe entwickelt keiner Ziel-Host¹^,²^,³^,⁴auswirken werden.

Wir subtraktiven Genomics, das erste Protein-kodierenden gen auf Chromosom Keimbahn eingeschränkt (GRC) (in diesem Fall, T), zu identifizieren, die in Germlines gefunden wird aber keine somatischen Gewebe beider Geschlechter¹⁰. Vor dieser Studie war die nur genomische Informationen, die über das DRK bekannt war eine sich wiederholende Region¹¹. De Novo Assemblierung wurde RNA aus dem Eierstock und Teste Gewebe (R + T) von Erwachsenen Zebrafinken sequenziert aufgeführt. Die rechnerische Beseitigung von Sequenzen erfolgte mittels veröffentlichten somatische (Muskel) Genom-Sequenz (R₁)¹², seine rohe (Sanger) zu lesen, Daten (R₂) und eine somatische (Gehirn) Transkriptom (R₃)¹³. Die sequentielle Verwendung von drei Referenzen wurde durch die qPCR Tests bei Schritt 5 eines jeden Zyklus (Abb. 2A), zeigen, dass zusätzliche Filterung erforderlich war getrieben. Das entdeckte α-SNAP-gen wurde durch qPCR von DNA und RNA, und Klonierung und Sequenzierung bestätigt. Wir zeigen in unserem Beispiel, dass diese Methode flexibel ist: Es ist nicht abhängig von passenden Nukleinsäuren (DNA Vs RNA) und die Subtraktion mit Referenzen (R), die aus Baugruppen oder roh liest bestehen durchgeführt werden kann.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. de Novo montieren beginnend Sequenz

Hinweis: Alle Next-Generation-Sequenz (NGS) Daten können verwendet werden, solange eine Baugruppe aus diesen Daten hergestellt werden kann. Geeignete Eingabedaten enthält Illumina, PacBio, oder Oxford Nanopore montierten in einer Fasta-Datei liest. Für Konkretheit, dieser Abschnitt beschreibt eine Illumina-basierte transkriptomischen-Assembly für die Zebrafinken-Studie führten wir⁷; Beachten Sie jedoch, dass die Besonderheiten werden je nach Projekt variieren. Für unser Beispielprojekt wurden raw-Daten stammen aus einer MiSeq und ca. 10 Millionen gekoppelten liest von jeder Probe.

Verwenden Sie Trimmomatic 0.32¹⁴ , Illumina-Adapter und minderwertige Basen zu entfernen. In der Befehlszeile eingeben:
Java-jar Trimmomatic 0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - Baseout Quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 führende: 3 TRAILING: 3 SLIDINGWINDOW:4:20 MINLEN:40
Verwenden Sie Birne¹⁵ v. 0.9.6 erstellen Sie qualitativ hochwertige zusammengeführten liest aus Trimmomatic Ausgang gepaart liest, mit Standard-Parameter. In der Befehlszeile eingeben:
Birne -f < quality_and_adaptor_trimmed_1P.fastq > - R < quality_and_adaptor_trimmed_2P.fastq >
Verwendung Reptil v. 1.1¹⁶ , Fehler zu korrigieren die Lesevorgänge durch Birne produziert. Folgen Sie das Schritt für Schritt¹⁷beschriebene Protokoll.
Verwenden von Trinity v. 2.4.0¹⁸ im Standardmodus die korrigierten Sequenzen zusammenstellen. Für Strang-spezifischen Bibliotheken, verwenden Sie den - SS_lib_type-Parameter. Die Ausgabe ist einer Fasta-Datei (your_assembly.fasta). In der Befehlszeile eingeben:
Trinity--SeqType Fq - SS_lib_type FR – Max 10G – Ausgang Trinity_output--links quality_and_adaptor_trimmed_forward_paired_reads.fq – quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10 rechts
Hinweis: Die Ausgabe wird in einem neuen Verzeichnis, Trinity_output, platziert und die Versammlung wird den Namen "Trinity.fasta", die als Your_assembly.fasta umbenannt werden können, falls gewünscht. Die Trinity-Website für weitere Informationen siehe: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

(2) sprengen Sie die Versammlung gegen die Referenzsequenz

Hinweis: Verwendung liest sich diesen Schritt, wenn der Verweis eine Montage oder lange ist wie Sanger; Es besteht aus Roh Illumina liest, finden Sie in Schritt 3 unten die Abfrage liest zuordnen. Alle BLAST Schritte wurden mit Version 2.2.29+ abgeschlossen, obwohl die Befehle auf jedem aktuellen BLAST-Version funktionieren sollte.

Machen Sie eine Datenbank mit BLAST Referenzsequenz (nucleotide_reference.fasta) in der Befehlszeile. Geben Sie in der Befehlszeile Folgendes ein:
Makeblastdb - Dbtype Nucl-in nucleotide_reference.fasta-, nucleotide_reference.db
BLAST-Match der Abfrageassembly (in Schritt 1 generiert), Referenz-Datenbank. Um eine Ausgabe-Datei zu erhalten, verwenden [-, BLAST_results.txt] und um tabellarische Ausgabe (erforderlich für nachfolgende Bearbeitungsschritte mit Python-Skripten) zu generieren, verwenden Sie [-Outfmt 6]. Diese Optionen können in beliebiger Reihenfolge kombiniert werden, ist so ein Beispiel komplett Befehl [Blastn-your_assembly.fasta - Db nucleotide_reference.db Abfragen-, BLAST_results.txt - Outfmt 6]. Wenn eine e-Wert-Einstellung gewünscht wird, verwenden Sie die Option - Evalue mit einer angemessenen Zahl, z. B. [Evalue-1e-6]. Beachten Sie jedoch, dass der subtraktiven Zyklus effektiv die Evalue in festlegen, wie die Diskussion unter invertiert.
Verwenden Sie für erhöhte Stringenz Proteinsequenzen aus der Baugruppe als die BLAST-Abfrage mit übersetzten Nukleotid BLAST (tBLASTn), die 6-Wege-Übersetzung (Nukleotid) Datenbank ausführt. Diese Methode empfiehlt sich für die meisten nicht-Modellsysteme, das Problem der unvollständigen Protein Anmerkungen zu vermeiden.
1. Gewährleisten den richtigen genetischen Code für den Organismus ausgewählt ist, studiert, mit Hilfe der Db_gencode-Option. Um Proteinsequenzen für die Abfrage zu erhalten, führen Sie den TransDecoder.LongOrfs-Befehl (aus TransDecoder Paket v. 3.0.1) um die längste open Reading Frames zusammengebaute Abfrage Sequenzen zu identifizieren. Der Befehl lautet [TransDecoder.LongOrfs -t your_assembly.fasta]; die Ausgabe wird im Verzeichnis mit dem Namen "transcripts.transdecoder_dir" platziert werden und enthält eine Datei namens longest_orfs.pep, die die längste vorhergesagten Proteinsequenzen aus jeder Sequenz in your_assembly.fasta enthalten.
2. Um tBLASTn zu verwenden, führen Sie den Befehl [Tblastn-longest_orfs.pep - Db nucleotide_reference.db Abfragen-, BLAST_results.txt - Outfmt 6]. Wenn eine hochwertiges Eiweiß-Referenz zur Verfügung steht, verwenden Sie Proteinprotein Abgleich mit BLASTp statt tBLASTn.
3. Eine Explosion-Datenbank der Protein-Referenz zu machen [Makeblastdb - Dbtype Prot-in protein_reference.fasta-, protein_reference.db] und dann [Blastp-longest_orfs.pep - Db protein_reference.db Abfragen-, BLAST_results.txt - Outfmt 6]. Achten Sie darauf, die Ergebnisse als Datei für die Weiterverarbeitung zu speichern, und verwenden Sie tabellarische (Outfmt 6) um sicherzustellen, dass die Python-Skripte korrekt analysiert werden können.

3. Karte liest auf der Baugruppe

Hinweis: Diese Methode kann verwendet werden, wenn die Referenz-Dataset aus rohen genomische liest, anstatt montierten Sequenzen besteht oder Sanger, in welchem Fall verwenden BLAST (Schritt 2.1 Sequenzen).

Mit BWA-MEM v. 0.7.12¹⁹ oder bowtie2²⁰, ordnen Sie die heruntergeladenen roh liest (raw_reads.fastq) auf der Abfrageassembly. Der Ausgang ist .sam Format. Befehle sind wie folgt: zuerst index die Versammlung: [Bwa-Index-your_assembly.fasta], und ordnen Sie die lautet [Bwa Mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Hinweis der ">" Symbol hier ist nicht mehr-als-Zeichen; stattdessen weist es die Ausgabe in die Datei mapped.sam gehen).

4. verwenden Sie Python-Skript keine passenden Sequenzen entfernen

Anmerkung: Skripts Arbeit mit Python 2.7 versehen.

Benutzen Sie nach Schritt2 subtraktive Python-Skript mit dem Befehl [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Sicherstellen Sie bevor Sie das Skript ausführen, dass die BLAST-Ausgabe-Datei im Format 6 (tabellarisch). Das Skript gibt eine Datei mit nicht übereinstimmenden Sequenzen im Fasta-Format mit dem Namen your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta und auch die passenden Sequenzen für Aufzeichnungen, als your_assembly.fasta_matching_sequences_BLAST_ Results.txt.FASTA. die nicht übereinstimmenden Datei werden die wichtigsten, als eine Quelle für mögliche T-Sequenzen zum Testen und weitere Zyklen der subtraktiven Genomics.
Nach Schritt 3, laufen das Python-Skript removeUnmapped.py zu nehmen als Eingang .sam aus Schritt 3.1, und identifiziert die Namen der Abfrage Sequenzen ohne jede passende liest und speichert diese auf eine neue Textdatei. Verwenden Sie den Befehl [./removeUnmapped.py mapped.sam] und der Ausgang ist mapped.sam_contigs_with_no_reads.txt. (Das Programm generiert eine abgespeckte Sam-Datei mit alle nicht zugeordneten liest entfernt, diese Datei kann ignoriert werden, für Zwecke dieses Protokolls kann jedoch für andere Analysen nützlich).
Wie die Ausgabe des vorherigen Schrittes eine Liste der Namen der Sequenz in eine Textdatei namens mapped.sam_contigs_with_no_reads.txt ist, extrahieren eine Fasta-Datei mit diesen Sequenzen: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. Die Ausgabe ist eine Datei namens mapped.sam_contigs_with_no_reads.txt.fasta.

5. Design Primer für die Sequenz, die bleibt

Hinweis: an dieser Stelle gibt es eine Fasta-Datei mit Kandidat T Sequenzen. Dieser Abschnitt beschreibt qPCR experimentell zu testen, ob sie aus T oder bisher unbekannte Regionen der R. kommen Wenn die Subtraktion in Schritt 4 alle Sequenzen entfernt, dann die Erstmontage konnte T einschließen oder Subtraktion kann zu streng gewesen.

Verwenden Sie Geneious²¹ , um optimale Grundierung Sequenzen manuell bestimmen.
1. Markieren Sie eine Kandidat Abfolge von 21-28 bp für die Forward Primer. Vermeiden Sie läuft von 4 oder mehr von jedem Untergrund. Versuchen Sie, eine Region mit einer relativ einheitlichen Kombination aus allen Basenpaaren abzielen. Eine einzelne G oder C am 3'-Ende ist vorteilhaft, zu den Primer verankern hilft.
2. Klicken Sie auf die Registerkarte " Statistik " auf der rechten Seite des Bildschirms anzeigen, dass Sequenz Schmelztemperatur (Tm) geschätzt, da der Kandidat Bereich hervorgehoben ist. Blick auf eine Schmelztemperatur zwischen 55-60 ° C, unter Vermeidung von Wiederholungen und lange Läufe G/c zu erhalten
3. Führen Sie die Schritte 5.1.1. und 5.1.2 eine rückwärts-Primer wählen befindet sich 150-250 Basenpaare 3' forward Primer. Während die Grundierung Längen nicht übereinstimmen müssen, sollte das vorhergesagte Tm so nah wie möglich an die Tm der forward Primer. Achten Sie darauf, ergänzen die Reihenfolge umkehren (wenn in Geneious Rechtsklick auf, während die Sequenz markiert ist ist es eine Menü-Option).
Die Funktion Besser gekleideteres Design , das in der oberen Symbolleiste im Fenster "Sequenz" vorkommt.
1. Klicken Sie auf die Schaltfläche " Besser gekleideteres Design ". Legen Sie die Region um unter Zielregionzu verstärken.
2. Fügen Sie unter der Registerkarte " Eigenschaften " gewünschte Größe, Schmelztemperatur (Tm) und % GC (siehe Punkt 5.1.1.).
3. Klicken Sie auf "OK" , um Zündkapseln generiert haben. Bestellen Sie die Primer durch einen benutzerdefinierten Oligo-Service.
Validieren Sie Primer mit Kontrolle DNA (Codierung T und R) Tm und Erweiterung Zeit optimieren. Verwenden regelmäßige Taq und Gelelektrophorese Bandgröße zu sehen, aber Optimierung kann auch mit folgenden Methoden in Schritt 6 qPCR durchgeführt werden.
1. 10 X Verdünnungen von forward und reverse Primer zu machen, so dass die Primer eine Konzentration von 10 μM.
2. PCR aus 0,5 μl dNTP, 0,5 μL vorwärts Grundierung, 0,5 μL der rückwärts-Primer, 0,1 μL der Taq Polymerase, 2 μL der Vorlage, 0,75 μL des Magnesiums, 2,5 μL des Puffers und 18.15 μl Wasser verwenden, so dass es 25 μL pro Vorlage mit einer Konzentration von 5 gibt ng / ΜL.
3. Testen Sie die Primer an verschiedenen Schmelztemperaturen in der PCR-Programm. In der Regel ist die optimale Leistung beobachteten Schmelztemperaturen leicht unter dem vorhergesagten Tm der Primer, aber in der Regel nicht über 60 ° C. Testen Sie auch auf optimale Erweiterung jederzeit mit Hilfe dieser Anleitung: 1 min pro 1000 bp (also in der Regel 10-30 Sekunden je nach Länge der Amplifikate).
4. Durchführen Sie Endpunkt-Gelelektrophorese zu bestätigen, dass die Primer die erwartete Reihenfolge verstärken. Laufen Sie 25 μL des Messguts qPCR gemischt mit 5 μl 6 X Glycerin Farbstoff auf einem 2 % TAE Agarose-Gel bei 200 V für 20 min.

6. qPCR Validierung der restlichen Sequenz

Hinweis: Dieser Schritt erfordert Primer validiert und PCR-Bedingungen, die in Schritt 5 festgelegt.

Führen Sie jede Vorlage in dreifacher Ausfertigung mit der folgenden Mischung; 12.5 μL PowerSYBR Green-master-Mix, 0,5 μL vorwärts Grundierung mit einer Konzentration von 10 μM, 0,5 μL der rückwärts-Primer mit einer Konzentration von 10 μM, 10,5 μL des Wassers und 1 μl DNA-Vorlage (in einer Konzentration von 2 ng/μl) , so dass jeder gut 25 μl Gesamtvolumen enthält.
Führen Sie qPCR Programm informiert durch die validierte Temperatur und Verlängerung von Schritt 4 aus. Wir entwickelt und überprüft alle Primer kompatibel mit einem zwei-Phasen-Zyklus, 95 ° C für 10 min erste Schmelze, dann 40 Zyklen von 95 ° C für 30 s und 60 ° C für 1 min. Jedoch eine dreistufiges (Schmelze-Tempern-erweitern) Programm möglicherweise mehr optimal für die Primer und sollte bei Bedarf angepasst werden. Wir empfehlen, dass endgültige denaturierenden Kurven erzeugt werden zumindest zum ersten Mal die Primer in qPCR beschäftigt sind, um die Verstärkung eines einzelnen DNA-Produkts zu überprüfen.
Maßnahme qPCR/SYBR Green signalisiert relativ Aktin (oder jedes andere geeignete 'R'-Steuerelement) durch CT. für alle Fälle zu berechnen, der Mittelwert und die Standardabweichung von 2^{-(gen Ct - β-Aktin Ct)}.
(Optional) Führen Sie Endpunkt Gelelektrophorese um korrekte Größe Produkterkennung durch qPCR zu bestätigen. Hier laufen 25 μL des Messguts qPCR gemischt mit 5 μl 6 x Glycerin Farbstoff auf einem 2 % TAE Agarose-Gel bei 200 V für 20 Minuten.

7. mit einen neuen Verweis auf Pare die Daten wiederholen .

Hinweis: Wenn Schritt 6 der identifizierten Sequenzen aus T validiert, am Ende des Zyklus hier (Abb. 2A). Allerdings kann eine Vielzahl von Überlegungen motivieren eine Fortsetzung des Zyklus, wenn zum Beispiel viele R Sequenzen in der Datei bleiben oder wenn keiner der Kandidaten T Sequenzen von qPCR validiert wurden in Schritt 6.

Erhalten Sie eine neue Referenz. Dieser Schritt ermöglicht eine neue Iteration des Zyklus und genomische Rohdaten, RNA-Seq-Rohdaten oder anderen zusammengesetzten Datasets beinhalten. Wertvolle Ressourcen für Referenzdaten umfassen die Genom-Datenbank am National Center for Biotechnology Information (https://www.ncbi.nlm.nih.gov/genome) welche Geschäfte Genome zugänglich per FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), montiert und der Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) wo rohe nächsten Generation Sequenz liest gespeichert sind. Genom-Projekte können ihre rohen Sequenzdaten durch andere Projekt verbundenen Websites und Datenbanken.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Nach dem Ausführen von BLAST, haben die Ausgabe-Datei eine Liste der Sequenzen aus der Abfrage, die der Datenbank entspricht. Nach Python Subtraktion wird eine Reihe von verglichen Sequenzen erhalten und von qPCR getestet. Die Ergebnisse dieser und nächsten Schritte werden nachfolgend erläutert.

Negatives Ergebnis. Es gibt zwei mögliche negative Ergebnisse, die nach der Explosion, die Referenzsequenz gesehen werden können. Möglicherweise gibt es keine Explosion Ergebnisse, was bedeutet, dass die Gesamtsequenz keinen keine ähnlichen Sequenzen zur Referenz. Dies ist möglicherweise ein Fehler bei der Auswahl der richtigen Referenzsequenz für das Beispiel sequenziert. Eine andere Möglichkeit ist, dass es keine eindeutigen Sequenzen in der Ausgangspunkt Baugruppe (alles wird Weg abgezogen), daher keine Gene für die Reihenfolge des Interesses gefunden werden. Überprüfen Sie, woher die Referenz und sicherzustellen Sie, dass es nicht das gleiche Gewebe wie die Abfrageassembly.

Nach dem rechnerischen filtern, qPCR kann ein negatives Ergebnis ergeben, für Beispiele siehe Bild 3A, 3 b, C , es gab keinen Unterschied in der Erkennung über Vogel Gewebe. Seitenteile A bis C sind repräsentative Gene aus verschiedenen Subtraktion Zyklen, welche motiviert weitere subtraktive Zyklus Iterationen und die Entwicklung der Methode (Abbildung 2A, 2 b).

Positives Ergebnis. Ein positives Ergebnis--die Identifizierung von einer wahren Zielsequenz--wird bestätigt, wenn genomische DNA qPCR statistisch höhere Erkennung im Gewebe zeigt / Probe von Interesse im Verhältnis zu den Verweis (Abbildung 3D). Die subtraktive Projekt begann in diesem Fall mit Sequenzierung der RNS von Keimbahn Gewebe des männlichen und weiblichen Erwachsenen Zebrafinken, 10 Millionen lesen Sie Paare von Geschlechterquote erhalten. Aus Platzgründen beschreiben wir die Verarbeitung der Eierstock Sequenz nur, in der 167.929 Abschriften von de Novo Assemblierung erworben wurden. Die subtraktive Genomik-Methode (BLASTn) wurde zur keine Sequenzen zu beseitigen, die die veröffentlichten somatische Genom¹²die 598 einzigartige Proteine abgestimmt, darauf hinweist, dass viele der Transkripte forensisches waren 5.060 Transkripte entsprechend überlassen. Die Sanger roh liest verwendet, um die Assembly zu generieren wurden dann verwendet für die nächste Stufe der Subtraktion von tBLASTn, 78 Proteine nachgeben. Eine endgültige Subtraktion durchgeführt wurde mit RNA-Seq roh liest aus der auditiven Lobule¹³, die acht Proteinen zu verlassen. Wenn diese Proteine durch NCBI nr BLAST ausgeführt wurden, waren sechs der Proteine virale, gehörte zu einer sich wiederholenden Region in Vögel und der letzte war ein α-SNAP, der Keimbahn eingeschränkt⁷ (Abbildung 2B). Während dieses Prozesses wurden 935 somatische Gene, die zuvor nicht in der gesamten Genom-Anmerkung enthalten waren; einige zeigten einheitliche qPCR Verstärkung über Gewebe (Bild 3A, 3 b, 3 C). Das α-SNAP-gen wurde überprüft, um sein Keimbahn eingeschränkt mit qPCR, weil es im somatischen Gewebe relativ Hoden DNA erschöpft war wo es Stufen entspricht Aktin (Abbildung 3-D) vorhanden war.

Was schief gehen könnte. Das Hauptproblem, das überwunden werden muss, wenn mit dieser Methode sicherzustellen, dass die richtige Referenzsequenz verwendet wird. Die besten Referenzsequenz kapselt im weitesten Sinne die genomische Komplexität in der Reihenfolge des Interesses (T) eingebettet ist. Dies kann bedeuten, dass die Sequenzen, die in verschiedenen Formen; Transkriptom, Montage, raw-Daten oder Daten aus mehreren Studien müssen als Referenz (Abbildung 1) verwendet werden. In der Zebrafinken-Studie entwickelten wir Primer aus RNA Sequenzierungsdaten; Allerdings funktionierte die Primer nicht immer aufgrund des Vorhandenseins von Introns zwischen oder innerhalb Grundierung Bindungsstellen in der DNA. Wir testeten jede Grundierung festgelegten PCR aus genomischer DNA aus Hoden DNA, die das Ziel (T) und die Referenz (R), so dass es eine geeignete Positivkontrolle kodiert. Grundierung Scheitern in dieser Phase erfordert die Gestaltung und Prüfung von neuen Primer, bis ein passendes Set identifiziert ist. Standard Fallstricke des PCR-basierte Methoden anwenden: Verstärkung Bedingungen müssen optimiert werden, Verstärkung Spezifität bestätigt durch Tests und/oder Klonen und keine-Template-Kontrollen müssen in alle Experimente einbezogen werden. Für weitere Informationen über qPCR-Assays siehe²².

Abbildung 1 . Der subtraktive Ansatz kann iterativ entfernen mehrere Verweise (R) wieder nur die Zielsequenz von Interesse (T) aus insgesamt Genomdaten. Die Referenz-Sequenzen einzelner Projekte dürfen sich nicht auf genau diese Weise überschneiden und umfassen Datasets, die nicht auf der Abbildung angegeben. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 2. Visuelle Methoden. (A) subtraktiven Zyklus Schaltplan. Der Zyklus kann so oft wie erforderlich, jedes Mal unter Verwendung unterschiedliche Referenz-Sequenzen, die besten Ergebnisse zu erzielen iteriert werden. (B) besondere Beispiel des subtraktiven Zyklus der Schritte im Biederman Et Al. durchgeführten ⁷, mit Schritten wie in A nummeriert und mit der Anzahl der Sequenzen bleiben in jedem Stadium gezeigt. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 3 . Beispieldaten der qPCR Ergebnisse einschließlich der negativen und positiven Ergebnisse. (A) Genomic DNA qPCR von CHD8, ein negatives Ergebnis. (B) Genomic DNA qPCR der DNMT1, ein negatives Ergebnis. (C) Genomic DNA qPCR des CHD7, ein negatives Ergebnis. (D) Genomic DNA qPCR von NAPAG, speziell in Hoden Proben und Erschöpfung aus Leber und Eierstock relativ Aktin, ein positives Ergebnis zu bestätigen. Alle Panels zeigen Mittelwert +/-Standardabweichung der drei Messungen. Bitte klicken Sie hier für eine größere Version dieser Figur.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Während subtraktiven Genomics mächtig ist, ist es kein Cookie-Cutter-Ansatz, Anpassung an mehreren wichtigen Schritte und sorgfältige Auswahl von Referenz-Sequenzen und Proben. Wenn die Abfrageassembly von schlechter Qualität ist, könnte Filterung Schritte nur Montage Artefakte isolieren. Daher ist es wichtig, die de Novo Assemblierung über eine entsprechende Validierung-Protokoll für das jeweilige Projekt gründlich zu überprüfen. RNA-Seq sind Leitlinien vorgesehen auf der Trinity Website¹⁸ und für DNA, ein Tool wie REAPR²³ verwendet werden kann. Ein weiterer wichtiger Schritt bei der Verwendung von BLAST ist die Auswahl der geeigneten e-Wert, der entscheiden wird, ob die Subtraktion locker oder streng sein wird. Allerdings tritt eine Umkehrung in der Methode: eine strengere Übereinstimmung zu verweisen ist eigentlich eine weniger strenge Subtraktion, wie nicht übereinstimmenden Sequenzen nicht abgezogen werden. Daher sollte ein größerer (weniger strenger) e-Wert in BLAST für eine strengere Subtraktion verwendet werden. Der letzte wichtige Schritt des Protokolls ist Referenz Selection. Für höchste Effizienz sollte der Verweis so vollständig wie möglich sein; Allerdings muss es nicht perfekt sein, weil qPCR Tests bestätigen, ob die verbleibenden Sequenzen von T oder R sind, und ob weitere Filterung notwendig ist. Während der Durchführung des Protokolls können neue Referenzen weiter einschränken der Gene verwendet werden, validiert werden. Wir stellen fest, dass manchmal die passende Methode ändern kann: für der letzte subtraktive Schritt wir den Algorithmus BWA roh liest auf der Abfrage-Sequenzen zuordnen und verwendet benutzerdefinierte Python zur Abfrage Sequenzen mit Identifizierung Skripte keine passenden liest (Abbildung 2B).

Grenzen dieser Methode gehören Verfügbarkeit von eine Referenzsequenz. Z. B. Meyer Et al. Das mitochondriale Genom des neuen Hominini bewertet; Sie benutzten menschlichen und Denisova-Sonden um mitochondrische DNA zu erfassen wurde sequenziert und eine menschliche Referenz²⁴zugeordnet. In diesem Fall gab es keine vorhandenen Kerngenom Referenzdaten, denen die Forscher gegen abgezogen haben könnte, um das mitochondriale Genom zu erhalten erfordern die alternative Strategie lesen-Mapping-²⁴. Alle ausgiebig wichen Regionen der neuartigen Mitochondrium im Vergleich zu den menschlichen mitochondrialen Verweis würde durch lesen-Zuordnung verloren. Subtraktive Genomics bietet einen weniger voreingenommen Ansatz als Lese-Zuordnung aber nicht immer anwendbar, abhängig von der Fragestellung ist, und in diesem Fall das niedrige Niveau der alten DNA, die Art der Sequenz Berichterstattung erforderlich für Montage ( de Novo ausgeschlossen Schritt 1 der subtraktiven Genomik).

Physikalischen Reinigung bietet eine weitere alternative Methode zur subtraktiven Genomik. Reinigung von DNA oder RNA wird oft in ganzen Chloroplasten Sequenzierung und mitochondrische Genome verwendet, da diese Organellen Genome viel kleiner als nukleare Genome²⁵^,²⁶^,²⁷^,^{28 sind}. Menschlichen und anderen kleineren mitochondrische Genome können für die Sequenzierung durch Amplifikation mit Grundierung zweierlei gefolgt von Reinigung²⁵isoliert werden. Jedoch kann subtraktiven Genomics für Fällen hilfreich sein, in denen mitochondrische Genome ungewöhnlich groß sind, die Grundierung-Bindungsstellen sind unterschiedlich oder führt nicht das vollständige Genom. Ein Beispiel hierfür ist in Ciliaten, die große, divergierende, lineare mitochondrische Genome²⁹. Zuordnung zu einem Referenz-Genom ist keine praktikable Option für Ciliaten aufgrund hoher Divergenz über Arten und Mangel an homologe auch über Gattungen³⁰. Mithilfe von subtraktiven Genomics kann bei gleichzeitiger Minimierung des Potenzials der Segmente des Genoms fehlen ciliate mitochondriale Genom isoliert und analysiert werden. In ähnlicher Weise während ein de Novo Montage Ansatz in der Sitka Fichte Chloroplast Genom Baugruppe verwendet wurde, lesen Lücke schließender beteiligten vergleichende Zuordnung gegen die weiße Fichte, potenziell Einführung Voreingenommenheit bei diesen Seiten³¹.

Je nach Projekt kann subtraktive Genomics Zeit und Kostenvorteile im Vergleich zu Reinigung oder Mapping Konzepte und bieten weniger Vorspannung in der Discovery-Prozess. In einigen Situationen nicht die Zielsequenz leicht isoliert werden, denn es völlig unbekannt ist, ist entscheidend für das Überleben der Zellen (Mitochondrien), oder zu groß, um durch standard Gelelektrophorese getrennt. Größe-basierte elektrophoretischen Reinigung ist langsam und erfordert erhebliche Ausgangsmaterial (die teuer werden kann) bei gleichzeitiger Optimierung der Bedingungen über mehrere Versuche. Puls-Bereich Gelelektrophorese (PFGE) ermöglicht die Trennung von DNA-Fragmenten bis zu 10⁷bp (10 Mb) aber dauert ca. 2-3 Tage, große Mengen an Material und manchmal spezielle Geräte, die nicht im Handel erhältlichen³². In Biederman Et Al.war die einzige Folge, die aus der Keimbahn eingeschränkt Chromosom bekannt war ein forensisches Wiederholung⁷. Da dieses Chromosom der größte Vogel, über 100 Mb Länge^{10 ist}, wäre Reinigung nicht möglich gewesen; Daher konnte sich die subtraktive Genomik zu tun, was andere Methoden nicht konnte. In der genomischen Ära ist es oft billiger und schneller zu sequenzieren jetzt und später per Computer zu filtern. Ermöglicht die Entdeckung von völlig neuartigen Sequenzen, nutzt subtraktive Genomics eine Kombination Ansätze, neue Sequenzen auch ohne eine perfekte Referenzsequenz zu isolieren.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts preisgeben.

Acknowledgments

Die Autoren erkennen Michelle Biederman, Alyssa Pedersen und Colin J. Saldanha für ihre Hilfe mit dem Zebrafinken Genomics Projekt in verschiedenen Stadien. Wir anerkennen auch Evgeny Bisk für computing-Cluster-System-Administration und NIH Grant 1K22CA184297 (zu J.R.B.) und NIH-NS-042767 (zu C.J.S).

Materials

Name	Company	Catalog Number	Comments
Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki