Genetics

Transkriptom-Analyse von Published: April 8, 2017 doi: 10.3791/55473

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Francis R. G. Amrit¹, Arjumand Ghazi¹

¹Department of Pediatrics, University of Pittsburgh School of Medicine, Children's Hospital of Pittsburgh

Summary

Galaxy und DAVID haben als beliebte Werkzeuge entstanden, die Ermittler ohne Bioinformatik Ausbildung ermöglichen RNA-Seq Daten zu analysieren und zu interpretieren. Wir beschreiben ein Protokoll für C. elegans Forscher RNA-Seq Versuche, den Zugang und verarbeiten die Daten - Set mit Galaxy und erhalten aussagekräftige biologische Informationen aus den Gen - Listen mit DAVID auszuführen.

Abstract

Next Generation Sequencing (NGS) Technologien haben die Art der biologischen Untersuchung revolutioniert. Von diesen hat RNA Sequencing (RNA-Seq) als ein leistungsfähiges Werkzeug für die Gen-Expressionsanalyse und Kartierung Transkriptom entstanden. Allerdings erfordert ausgefeilte Rechenkompetenz RNA-Seq Datensätze Handhabung und inhärente Herausforderungen für Biologie Forscher darstellt. Dieser Engpass wurde von dem Open-Access-Galaxy-Projekt gemildert, die RNA-Seq Daten zu analysieren, und die Datenbank für die Annotation, Visualisierung und integrierte Entdeckung (DAVID), ein Gen Ontology (GO) Zeitanalyse-Suite Benutzer ohne Bioinformatik Fähigkeiten ermöglicht, das hilft biologische Bedeutung von großen Datenmengen abzuleiten. Doch für Erstanwender und Bioinformatik Amateure, selbstlernend und Einarbeitung in diesen Plattformen können zeitaufwendig und entmutigend sein. Wir beschreiben einen einfachen Workflow, den C. elegans Forscher RNA zu isolieren Wurm helfen, führen ein RNA-Seq - Experimentund analysiert die Daten mit Galaxy und DAVID-Plattformen. Dieses Protokoll stellt schrittweise Anweisungen für die Verwendung der verschiedenen Galaxy Modulen für den Zugriff auf rohe NGS Daten, Qualitätskontrollen, Ausrichtung und Differentialgenexpressionsanalyse, Führen des Benutzers mit Parametern bei jedem Schritt ein Gen-Liste zu generieren, die für die Anreicherung gescreent werden können von Genklassen oder biologische Prozesse unter Verwendung von DAVID. Insgesamt erwarten wir , dass diese Artikel Informationen zur Verfügung stellen werden , um C. elegans Forscher RNA-Seq Experimente zum ersten Mal sowie häufige Benutzer eine kleine Anzahl von Proben Unternehmen ausgeführt wird .

Introduction

Die erste Sequenzierung des menschlichen Genoms führte Fred Sanger-Didesoxynucleotid-Sequenzierungsverfahren verwendet wird , dauerte 10 Jahre und kostete schätzungsweise US $ ¹ ^3000000000, ^2. Doch in etwas mehr als ein Jahrzehnt seit seiner Gründung, Next-Generation Sequencing (NGS) Technologie hat es ermöglicht, das gesamte menschliche Genom innerhalb von zwei Wochen sequenzieren und für US $ 1.000. Neue NGS Instrumente, die ständig steigenden Geschwindigkeiten von Sequenzierungs-Datenerfassung mit unglaublicher Effizienz, zusammen mit starken Kostensenkungen ermöglichen, revolutionieren die moderne Biologie in unvorstellbarer Weise wie Genomsequenzierungsprojekte alltäglich schnell geworden sind. in vielen anderen Bereichen, wie zum Beispiel Gen-Expressionsanalyse durch RNA-Sequenzierung (RNA-Seq), Studium der genomweiten epigenetische Modifikationen, DNA-Protein-Wechselwirkungen, und Screening auf mikrobielle Diversität in menschlichen Wirten Zusätzlich haben diese Entwicklungen Fortschritt galvanisiert. NGS-basierte RNA-Sieq insbesondere hat es möglich gemacht zu identifizieren und Karte Transkriptomen umfassend mit Genauigkeit und Empfindlichkeit und hat Microarray-Technologie als Methode der Wahl für die Expressionsprofile ersetzt. Während der Microarray-Technologie extensiv verwendet wurde, wird es durch seine Abhängigkeit von vorbestehenden Arrays mit bekannten genomischen Informationen und anderen Nachteilen, wie eine Kreuzhybridisierung und eingeschränkten Bereich von Expressionsänderungen begrenzt, die zuverlässig gemessen werden können. RNA-Seq, auf der anderen Seite, kann sowohl bekannte als auch unbekannte Transkripte zu erfassen, verwendet werden, während niedriges Hintergrundrauschen zu seiner eindeutigen DNA-Mapping Natur aufgrund erzeugen. RNA-Seq, zusammen mit den zahlreichen genetischen Werkzeuge von Modellorganismen wie Hefe angeboten, Fliegen, Würmer, Fische und Mäuse, hat für viele wichtige neue biomedizinische Entdeckungen als Grundlage diente. Allerdings erhebliche Herausforderungen bleiben, die NGS unzugänglich für die breitere wissenschaftliche Gemeinschaft, einschließlich Beschränkungen der Speicherung, Verarbeitung und vor allem, m eaningful bioinformatische Analyse großer Mengen von Sequenzierungsdaten.

Die schnellen Fortschritte in der Sequenzierungstechnologien und exponentielle Datenakkumulation haben einen großen Bedarf an Rechenplattformen geschaffen, die Forscher ermöglicht den Zugriff auf, analysieren und diese Informationen zu verstehen. Frühe Systeme waren stark abhängig von Computer-Programmierkenntnisse, während Genom-Browser wie NCBI, die Nicht-Programmierer erlaubt den Zugriff und Visualisierung von Daten nicht anspruchsvolle Analysen ermöglichen. Die webbasierte Open-Access - Plattform, Galaxy ( https://galaxyproject.org/ ), hat diese Lücke gefüllt und sich als eine wertvolle Pipeline sein , die Forscher ermöglicht NGS - Daten zu verarbeiten und ein Spektrum von einfach zu komplex durchführen Bioinformatik analysiert. Galaxy wurde ursprünglich gegründet, und aufrecht erhalten wird, von den Labors von Anton Nekrutenko (Penn State University) und James Taylor (Johns Hopkins University)f "> 3. Das Galaxy bietet eine breite Palette von Rechenaufgaben es sich um eine‚one-stop - shop‘für unzählige Bioinformatik Bedürfnisse zu machen, einschließlich aller Schritte , die bei einer RNA-Seq - Studie. Itallows Benutzer Datenverarbeitung auszuführen entweder auf ihren Servern oder lokal auf ihre eigenen Maschinen. Daten und Workflows können wiedergegeben und gemeinsam genutzt werden. Online - Tutorials, Hilfebereich und eine Wiki-Seite ( https://wiki.galaxyproject.org/Support ) an das Galaxy - Projekt konsequent unterstützt gewidmet ist . Allerdings für Erstanwender, vor allem diejenigen, die keine Bioinformatik Ausbildung kann die Pipeline entmutigend erscheinen und der Prozess der Selbstlern und Einarbeitung kann Darüber hinaus untersucht das biologische System, und die Besonderheiten des Experiments und Methoden verwendet, Schlagzeitaufwendig. sein die analytischen Entscheidungen in mehreren Schritten, und diese können schwierig sein, ohne Anleitung zu navigieren.

Die Gesamt RN A-Seq Galaxy Arbeitsablauf besteht aus Daten - Upload und Qualitätskontrolle durch Analyse folgte die Tuxedo Suite ^{^4,} ^{^5,} ^{^6,} ^{^7,} ^{^8,} ^9, mit dem ein Kollektiv von verschiedenen Werkzeugen für verschiedene Stufen von ¹⁰ RNA-Seq Datenanalyse erforderlich ist ^, ^{^11,} ^{^12,} ^{^13,} ^14. Ein typisches RNA-Seq Experiment besteht aus dem experimentellen Teil (Probenvorbereitung, mRNA-Isolierung und cDNA-Bibliothek Vorbereitung), die NGS und die Bioinformatics Datenanalyse. Eine Übersicht über diese Abschnitte, und die in der Pipeline Galaxy beteiligten Schritte sind in Abbildung 1 dargestellt.

3fig1.jpg“/>
Abbildung 1: Übersicht über einen RNA-Seq - Workflow. Darstellung der Versuchs- und Berechnungsschritte in einem RNA-Seq Experiment involvierten die Gen-Expressionsprofile von zwei Schnecken Stämmen zu vergleichen (A und B, orange und grüne Linien und Pfeile bezeichnet). Die verschiedenen Module von Galaxy verwendet werden in Kisten mit dem entsprechenden Schritt in unserem Protokoll in rot angezeigt gezeigt. Die Ausgänge der verschiedenen Operationen sind in grau mit den Dateiformaten in blau angezeigt geschrieben. Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

Das erste Werkzeug in der Tuxedo - Suite ist ein Ausrichtungsprogramm ‚Tophat‘ genannt. Es bricht die NGS Eingabe liest in kleinere Fragmente nach unten und dann ordnet sie einen Referenzgenom. Dieses zweistufige Verfahren gewährleistet, dass liest intronischen Regionen überspannen, deren Ausrichtung kann anders sein, disrupted oder verpassten werden berücksichtigt und abgebildet. Dies erhöht die Reichweite und erleichtert die Identifizierung von neuen Spleißstellen. Tophat Ausgang als zwei Dateien, eine BETT - Datei (mit Informationen über Spleißstellen , die genomische Lage sind) berichtet und eine BAM - Datei (mit Mapping Details jeder lesen). Als nächstes wird die BAM - Datei gegen einen Referenzgenom ausgerichtet das nachfolgende Werkzeug in der Tuxedo - Suite die Fülle der einzelnen Transkripte innerhalb jeder Probe zu schätzen ‚Manschettenknöpfe‘ genannt werden. Manschettenknöpfe Funktionen durch die Ausrichtung Abtastung in voller Länge Transkript Fragmente oder ‚transfrags‘ zu berichten , die für jedes Gen , alle möglichen Spleißvarianten in den Eingangsdaten überspannt. Auf dieser Grundlage erzeugt er einen ‚Transkriptom‘ (Montag aller Transkripte erzeugen pro Gen für jedes Gen) für jede Probe sequenziert werden. Diese Manschettenknöpfe Anordnungen werden dann kollabiert oder zusammengeführt werden zusammen mit dem Wiederferenz Genom eine einzige Anmerkungsdatei für nachgeschaltete Differentialanalyse mit dem nächsten Werkzeug ‚Cuffmerge‘ zu erzeugen. Schließlich wird der Ausdruck ‚Cuffdiff‘ Werkzeug Maßnahmen Differential Gene zwischen den Proben durch die TopHat Ausgänge von jedem der Proben auf die endgültige Cuffmerge Ausgabedatei zu vergleichen (Abbildung 1). Manschettenknöpfe verwendet FPKM / RPKM (Fragmente / Reads pro Kilobasen von Transkript pro Million abgebildet liest) Werte Transkript Abundanzen zu melden. Diese Werte spiegeln die Normalisierung der Ausgangs NGS Daten für die Tiefe (durchschnittliche Anzahl der von einer Probe liest, die mit dem Bezugsgenom auszurichten) und Gen-Länge (Gene haben unterschiedliche Längen, so Zählungen haben für Länge eines Gens zu normalisierenden Ebenen zu vergleichen, zwischen Genen). FPKM RPKM und ist im Wesentlichen gleich mit RPKM für Single-End-RNA-Seq verwendet wird, wo jedes Lese zu einem einzelnen Fragmente entspricht, während, wird verwendet für FPKMPaired-End-RNA-Seq, da sie die Tatsache berücksichtigt, daß zwei Lesevorgänge auf das gleiche Fragment entsprechen kann. Letztlich ist das Ergebnis dieser Analyse eine Liste von Genen differentiell zwischen den Bedingungen exprimiert und / oder getesteten Stämme.

Sobald ein erfolgreicher Galaxy Lauf beendet ist und eine ‚Gen-Liste‘ erzeugt wird, erfordert der nächste logische Schritt mehr Bioinformatik analysiert aus den Datensatz sinnvoll Wissen abzuleiten. Viele Software - Pakete sind entstanden auf diesen Bedarf gerecht zu werden, einschließlich der öffentlich zugänglichen Web-basierten Rechenpakete wie DAVID (der Datenbank für Annotation, Visualisierung und integrierten Discovery) ^15. DAVID erleichtert, indem die hochgeladen Genliste seiner integrierten biologischen Wissensdatenbank und enthüllt die biologischen Anmerkungen im Zusammenhang mit der Genliste biologische Bedeutung zu großen Genlisten von Hochdurchsatz-Studien zuweisen. Dies wird durch Anreicherung Analyse gefolgt, dh Tests identify wenn jedes biologische Prozess oder Gen-Klasse in der Gen-Liste (n) in einer statistisch signifikanten Weise überrepräsentiert ist. Es ist eine beliebte Wahl, weil aus einer Kombination aus einem breiten, integrierten Wissensbasis und leistungsstarke analytische Algorithmen , die den Forschern ermöglichen , biologische Themen innerhalb der Genomik-derived ‚Genlisten‘ ^{^10,} ¹⁶ angereichert zu erkennen. Weitere Vorteile sind seine Fähigkeit, Genlisten erstellt auf jeder Sequenzierungsplattform und eine sehr benutzerfreundlichen Oberfläche zu verarbeiten.

Der Nematode Caenorhabditis elegans ist ein genetisches Modellsystem, das für seine viele Vorteile, wie geringe Größe, transparente Körper, einfachen Körperplan, einfache Kultur und große amenability zu genetischer und molekularen Präparation bekannt. Würmer haben eine kleine, einfache und gut kommentierten Genom , die mit bekannten humanen Homologe ¹⁷ bis 40% konservierte Gene beinhaltet bis. Tatsächlich C. eleganswar das erste Metazoen , dessen Genom sequenziert wurde ¹⁸ vollständig, und einer von der ersten Spezies in dem RNA-Seq verwendet wurde , ²⁰ eines Organismus Transkriptom ^{^19,} abzubilden. Frühe Wurm Studien Experimentieren mit verschiedenen Methoden für die Hochdurchsatz - RNA - Capture, Bibliothek Vorbereitung und Sequenzierung sowie Bioinformatik - Pipelines beteiligt, die zur Weiterentwicklung der Technologie ^{^21,} ²² beigetragen. In den letzten Jahren hat sich RNA-Seq-basierten Experimenten in Würmern alltäglich geworden. Aber für traditionelle Wurm Biologen die durch Computeranalyse von RNA-Seq Daten Herausforderungen wie vor ein großes Hindernis für eine größere und bessere Ausnutzung der Technik.

In diesem Artikel beschreiben wir ein Protokoll der Galaxy - Plattform für den Einsatz von Hochdurchsatz - RNA-Seq Daten von C. elegans erzeugt zu analysieren. Für viele erstmaligen und Klein scale-Nutzer, die kosteneffiziente und einfache Art und Weise einen RNA-Seq Versuch zu unternehmen ist RNA im Labor zu isolieren und eine kommerzielle (oder in-house) NGS-Anlage zur Herstellung von Sequenzierung von cDNA-Bibliotheken und dem NGS selbst zu nutzen. Daher haben wir zuerst die Schritte in Isolierung, Quantifizierung und Qualitätsbewertung von C. elegans - RNA - Proben für die RNA-Seq beteiligt detailliert beschrieben. Weiter stellen wir die Galaxy-Schnittstelle für Analysen der NGS Daten Schritt-für-Schritt-Anweisungen für die Verwendung mit Tests für die post-Sequenzierungsqualitätskontrollprüfungen gefolgt von Ausrichtung, Montage und differentiellen Quantifizierung der Genexpression beginnen. Darüber hinaus haben wir Richtungen enthalten die Genlisten aus Galaxy für die biologische Anreicherung Studien mit DAVID zu prüfen. Als letzter Schritt im Workflow bieten wir Anweisungen RNA-Seq Daten auf öffentlichen Servern wie die Sequenz Archiv lesen (SRA) auf NCBI für das Hochladen ( http: // www.ncbi.nlm.nih.gov/sra), um es an die wissenschaftliche Gemeinschaft frei zugänglich. Insgesamt erwarten wir, dass dieser Artikel umfassende und ausreichende Informationen, um Wurm Biologen liefern RNA-Seq Experimente zum ersten Mal sowie häufige Benutzer Unternehmen eine kleine Anzahl von Proben ausgeführt wird.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA-Isolierung

Vorsichtsmaßnahmen
1. Wischen der gesamte Arbeitsfläche, Instrumente nach unten und Pipetten mit einem handelsüblichen RNase Spray eventuell vorhandenen RNAsen zu beseitigen.
2. Handschuhe tragen zu allen Zeiten, sie regelmäßig mit frischen, um während der verschiedenen Schritte des Protokolls zu ändern.
3. Verwenden Sie nur Filterspitzen und hält alle Proben auf Eis so viel wie möglich RNA-Abbau zu vermeiden.
  HINWEIS: Um die besten Daten von NGS-Plattformen zu erhalten, ist es wichtig, mit qualitativ hochwertigen RNA zu beginnen. RNA-Isolierung und Herstellungsmethoden variieren je nach Probe Herkunft, Verfahren zur Sequenzierung und Investigator bevorzugt. Mehrere im Handel erhältlichen Kits können für diesen Zweck oder RNA kann auch eine Standard-Phenol-Chloroform-Methode der RNA-Extraktion unter Verwendung isoliert wird verwendet werden. Bei beiden Methoden aufgeführten Vorsichtsmaßnahmen oben sollten während des gesamten Prozesses gefolgt werden, um Verunreinigungen und obt zu minimierenain ursprünglichen RNA-Proben.
Ernte Worms
1. Synchronisieren Sie die Wurmpopulation durch Hypochloritbleich- Behandlung ²³ 1000-1500 altersangepassten C. elegans erwachsenen Würmer pro Stamm zu erhalten.
2. Waschen Sie die Würmer aus Platten unter Verwendung von M9 Pufferlösung und bei 325 xg Spin auf einer Tischzentrifuge für 30 s. Absaugen M9 Puffer aus hinter einem Pellet von Würmern zu verlassen. Wiederholen Sie diesen Schritt mindestens dreimal bakterielle Verschleppung zu beseitigen.
3. Um den Wurm Pellet, fügen ~ 500 & mgr; l Lysepuffer (wenn eines kommerziellen Kits verwenden) oder Trizol (eine mono-phasischen Lösung von Phenol und Guanidinisothiocyanat, wenn Phenol: Chloroform-Extraktion in 1.3.3 beschrieben durchgeführt) worm Gewebe zu stören deaktivieren RNasen und Nukleinsäuren stabilisieren.
  HINWEIS: Das Protokoll hier pausiert durch Flash werden die Proben in flüssigem Stickstoff durch Lagerung bei -80 ° C, gefolgt einfriert.
RNA - Isolierung
Beschallen worm Proben bei 45% Amplitude in Zyklen von 20 s. 'ON' und 40 s. 'OFF' (8-12 Zyklen pro Stamm). Halte Proben auf Eis zu allen Zeiten.
HINWEIS: Stellen Sie sicher, dass die Beschallungsgerät Sonde in dem Puffer eingetaucht und auf einem konstanten Niveau gehalten im gesamten Gebäude. Vermeiden der Probe Aufschäumen und reinigen Sie die Sonde gründlich in-zwischen den Proben. Beschallen Zyklen können in Abhängigkeit von der Art des verwendeten Sonicator variieren. Es wird empfohlen, Beschallung Bedingungen auf einer Testprobe zuerst optimiert werden, bevor ein Experiment zu starten.
Wenn eine im Handel erhältliche Kit, geht mit RNA-Isolierung nach dem vorgeschriebenen Protokoll. Für die RNA-Isolierung eines Phenol-Chloroform-Verfahren, die folgenden Schritte aus.
Zentrifuge beschallten Proben bei 16.000 × g für 10 min. bei 4 ° C
Der Überstand in ein 1,5 ml RNase-freien Mikrozentrifugenröhrchen und Zugabe von 100 ul Chloroform ^(1/5 das Volumen der RNA / DNA - Isolation - Reagenz).
Vorsicht: Chloroform ist giftig. Zur Verringerung der Exposition und Inhalation zu vermeiden, arbeitet in einer chemischen Haube, wenn Umgang mit dieser Substanz.
Vortex, um die Proben gründlich für 30 bis 60 s. und lassen Sie die Proben bei Raumtemperatur für 3 Minuten sitzen.
Zentrifuge bei 11.750 xg für 15 min. bei 4 ° C. Übertragen Sie nur die obere wässrige Schicht in ein neues RNase-freie Mikrozentrifugenröhrchen dabei nicht die DNA-haltigen weißen Schnittstelle aspirieren. Wiederholen Sie die Schritte 1.3.4 bis 1.3.6.
Nach Eintragen von 250 & mgr; l (70% der wässrigen Phase oder 1/2 RNA / DNA-Isolation Reagenzes Volumen) von 2-Propanol und invertieren das Rohr zu mischen. Lassen Rohre für 10 Minuten bei Raumtemperatur sitzen oder lassen Sie über Nacht bei -80 ° C.
Centrifuge Proben bei 11.750 × g für 10 min. bei 4 ° C. Man dekantiert die überstehende Flüssigkeit sehr sorgfältig, hinter ein paar ui am Boden des Röhrchens zu verlassen, so dass das Pellet nicht gestört wird.
Waschen Sie das Pellet mit 500 ul 75% Ethanol (hergestellt unter Verwendung von RNase-freies Wasser) und Spin-down bei 16000 × g für 5 min. eint 4 & deg; C.
Entfernen Sie so viel Überstand wie möglich, ohne das Pellet zu stören. Luft trocknet das Pellet in einer Haube für ein paar Minuten.
In 30 ul RNase-freiem Wasser und helfen, das RNA-Pellet für 10 Minuten durch Erwärmen auflösen. bei 60 ° C.
Überprüfen RNA-Qualität und Quantität einer Bioanalyzer verwenden.
HINWEIS: Bioanalyzer erzeugt ein R I NA ntegrity N umber (RIN) als Maß für die RNA - Qualität. Ein RIN von mindestens 8 ist der empfohlene Grenzwert für RNA-Seq-Proben (je höher desto besser). RNA-Menge und Qualität können auch spektrophotometrisch geprüft werden, sondern auch durch visuelle Beurteilung der RNA-Integrität befolgt werden sollten. Dazu laufen die Proben auf einem 1,2% Agarose-Gel lang genug, um geeignete Trennung der 28s und 18s ribosomalen RNA-Banden zu erhalten. Das Vorhandensein von zwei distinkten Banden (1,75 kb für 18S - rRNA und 3,5 kb für die 28S rRNA im Fall von C. elegans) ist ein akzeptables Maß der RNA - Qualität.
Verwenden ~ 100 ng / & mgr; l RNA ship an den Anbieter / NGS Anlage zur Vorbereitung von Sequenzierungsbibliotheken.
HINWEIS: Die RNA-Proben sollten auf Trockeneis an den Sequenzierungs Service-Provider versendet werden. Die meisten Anbieter führen einen unabhängigen RNA Qualitätskontrolltest vor der Bibliothek Vorbereitung.

2. RNA-Seq Datenanalyse

Herunterladen von Raw Sequenzierungsdaten
1. Laden Sie die komprimierten rohe fastq Sequenzierungsdaten codierten im fastq.gz - Format von dem NGS - Anbieter mit einem „File Transfer Protocol“ (FTP).

Figur 2
Abbildung 2: Aufbau des Galaxy Benutzeroberfläche Tafel und Key - RNA-Seq - Funktionen. Die wichtigsten Funktionen der Seite werden erweitert und hervorgehoben. (A) betont die ‚Analyse - Daten‘ Funktion auf der Webseite Header für den Zugriff auf (B) ist der Fortschrittsbalken, der den Raum auf der Galaxy - Server durch den Betrieb verwendet anzeigt. (C) ist die ‚Tools Abschnitt‘ , die alle Werkzeuge aufgelistet , die auf dem Galaxy - Schnittstelle ausgeführt werden können. (D) zeigt die 'NGS: RNA Analyse' Werkzeugabschnitt für RNA-Seq - Analyse verwendet. (E) zeigt das Panel ‚Geschichte‘, die alle Dateien auflistet Galaxy erzeugt. (F) zeigt ein Beispiel des Dialogfeld, das sich öffnet , wenn auf eine beliebige Datei in dem Abschnitt Historie klicken. Innerhalb (F), die blaue Box hebt Symbole , die zu betrachten , die verwendet werden können, editthe Attribute oder den Datensatz löschen, die lila Box hebt Symbole , die auf ‚Bearbeiten‘ verwendet werden kann , die Daten - Set - Tags oder Anmerkungen und gibt die rote Box Icons die Daten, Details der Aufgabe zum Download ausgeführt oder den Vorgang erneut auszuführen. Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

Erste Schritte mit Galaxy
HINWEIS: Verwenden einer webbasierten Plattform bietet Cloud-Zugang und kostenloses begrenzte Lager Galaxy kann auf einem öffentlichen Server ausgeführt werden. Es kann auch von Institutionen, sondern der lokalen Verarbeitung gehostet auf dem Computer des Benutzers oder Rechen-Cluster lokal heruntergeladen und ausgeführt werden, kann durch Datenspeichergrenzen und Verarbeitungsleistung Grenzen Benutzermaschinen eingeschränkt werden. Details zum Herunterladen und die Installation kann abgerufen werden unter https://wiki.galaxyproject.org/Admin/GetGalaxy . In diesem Protokoll beschreiben wir die webbasierte Nutzung der Galaxy-Pipeline.
1. Nach dem Herunterladen und Speichern der NGS-Daten auf den Computer des Benutzers, den Zugang Galaxy auflaxy.org/“target = "_blank"> https://usegalaxy.org/.
2. Registrieren Sie ein Benutzerkonto , indem Sie auf ‚Benutzer‘ in der Kopfzeile der Seite, einloggen und beginnen , indem sie mit der Benutzeroberfläche Panel vertraut zu werden .
  HINWEIS: Es wird empfohlen , dass Erstanwender die ‚Hier starten‘ Tutorial auf der Homepage nutzen kann mit der grundlegenden Einrichtung von Galaxy vertraut zu machen ( https://github.com/nekrut/galaxy/wiki/Galaxy101-1 ) .
3. Klicken Sie auf ‚Analysieren von Daten‘ (2A) in der Kopfplatte die ‚Analysis Home Ansicht‘ für den Zugriff auf die auch der Startbildschirm auf Galaxy.
  HINWEIS: Der Header befindet sich auch andere Verbindungen, deren Details können durch mit dem Mauszeiger über sie zu sehen. Die obere rechte Ecke des Kopfes hat einen Fortschrittsbalken, den Raum für die Aufgaben (2B) verwendet überwacht.
4. Clecke auf ‚NGS: RNA - Analyse‘ Aufgabe im ‚Menü Extras‘ auf der linken Seite (2C) , die alle Werkzeuge für die RNA-Seq Datenanalyse erforderlich zuzugreifen.
  HINWEIS: Das ‚Menü Extras‘ katalogisiert alle Operationen , die Galaxy - Angebote. Dieses Menü wird aufgeteilt basierend auf Aufgaben, und klicken Sie auf einem eine Liste aller Werkzeuge öffnen benötigt, um diese Aufgabe zu erfüllen.
5. Erstellen Sie neue Analyse Geschichte , indem Sie auf der rechten Seite am oberen Rand des Fensters ‚Geschichte‘ auf das Zahnrad - Symbol klicken (Abbildung 2E). Wählen Sie ‚Neu erstellen‘ Option aus dem Popup-Menü. Geben Sie diese ‚Geschichte‘ einen geeigneten Namen , um die Analyse zu identifizieren.
  HINWEIS: Die Panel ‚History‘ zeigt alle für die Analyse hochgeladenen Dateien sowie alle Ausgabedateien, die von laufenden Tasks auf Galaxy erzeugt werden. Ein Klick auf einen Dateinamen in diesem Fenster öffnet sich ein Dialogfenster mit detaillierten Informationen über die Aufgabe oben ausgeführtund ein Ausschnitt des Datensatzes (Figur 2F). Symbole in dieser Box ermöglichen es dem Benutzer zu ‚Ansicht‘, ‚bearbeiten , um die Attribute‘ oder ‚Löschen‘ der Datensatz (2F, blau hervorgehoben). Darüber hinaus kann der Anwender auch ‚Bearbeiten‘ Daten - Set - Tags oder Annotation (2F, in lila markiert), ‚Download‘ die Daten, ‚Details‘ der Aufgabe, ‚Wiederholung‘ die Aufgabe oder sogar ‚visualisieren‘ den Datensatz aus diesem Dialogbox (2F, rot markiert).
6. Klicken Sie auf die 'Upload File' Funktion unter 'Get Data' im 'ToolsMenu' raw fastq Dateien zu.
  HINWEIS: Wenn Sie auf diesem oder einem anderen Werkzeug öffnet eine kurze Beschreibung des Betriebes nach oben, und der Prüfung selbst, in der Mitte ‚Analysis Interface‘ Panel. Dieses Panel Schnürsenkel zusammen die‚Extras‘ aus dem linken Fenster und dem ‚Input Files‘ auf der rechten ‚Geschichte‘ Panel (Abbildung 2E). Hier Eingabedateien aus ‚Geschichte‘ werden ausgewählt und andere Parameter eine bestimmte Aufgabe auszuführen definiert. Der resultierende Ausgabe - Datensatz aus jedem Test wird in ‚Geschichte‘ gespeichert zurück. Im Lieferumfang der Test im Panel 'Analysis Interface "sind Erklärungen für alle verfügbaren Parameter für den Betrieb eines bestimmten Werkzeugs zusammen mit einer detaillierten Liste aller Ausgabedateien erstellt das Tool.
7. Nach der Aufgabe in der ‚Analyse - Interface‘ öffnet, klicken Sie auf ‚Wählen Sie Lokale Datei‘ oder ‚Wählen Sie FTP File‘ (schneller Upload), navigieren , um die Sequenzierung von Dateien in den Ordner, und die entsprechende Datenmenge wählen hochgeladen werden.
8. Lassen Sie Galaxy zu ‚Auto-detect‘ die hochgeladene Datei - Typ (Standardeinstellung). Wählen Sie 'C elEgans "im Pulldown - Menü für das Genom.
9. Klicken Sie auf ‚Start‘ Daten - Upload zu starten. Sobald die Datei hochgeladen wird, wird es im Panel ‚Geschichte‘ gespeichert und können von dort abgerufen werden.
10. Wenn mehrere Sequenzierungsdaten - Dateien für eine einzelne Probe erzeugt werden, kombinieren sie das ‚verketten‘ Tool. Um dies zu tun, öffnen Sie die ‚Text Manipulation‘ Option im ‚Menü Extras‘.
11. Klicken Sie auf dem ‚verketten‘ Werkzeug, wählen Sie die Dateien , die aus der Drop-Down - Box in der Mitte des ‚Analyse - Schnittstelle‘ und klicken Sie auf ‚Ausführen‘ kombiniert werden müssen.
  HINWEIS: Die Ausgabe von Dateien mit dieser Aufgabe erzeugt werden , in dem fastq Format erzeugt. Das Mapping - Programm hat eine Grenze von 16.000.000 Sequenzen pro fastq Datei und wenn diese Grenze eine neue fastq Datei wird für die verbleibenden Sequenzen erzeugt erreicht ist. die '; Concatenate‘Werkzeug ist in solchen Fällen notwendig , um die Datensätze zu kombinieren.
12. Konvertieren Sie die hochgeladen fastq - Format - Dateien auf das gewünschte fastqsanger Format für Galaxy RNA-Seq - Analyse unter Verwendung des ‚fastq Groomer‘ Werkzeugs unter den gefundenen ‚NGS: QC und Manipulation‘ Abschnitt (siehe ergänzende Datei).
13. Wählen Sie den entsprechenden fastq - Datensatz unter ‚Datei zu Groom‘ Option und führen Sie das Tool Standardparameter.
  HINWEIS: Ausgabedateien dieser Aufgabe hergestellt unter Verwendung von in der fastqsanger Format erzeugt.
fastqsanger Data Quality-Control - Tests
1. Prüfen Sie die Qualität der hochgeladenen fastqsanger liest mit dem ‚FastQC‘ Tool befindet sich unter ‚NGS: QC und Manipulation‘ im Menü ‚Extras‘.
2. Wählen Sie die präparierten fastqsanger Datendatei aus dem Dropdown - Menü für "Short Daten aus der aktuellen Bibliothek lesen und das Werkzeug mit den Standardparametern ausgeführt werden .
  HINWEIS: Achten Sie besonders auf die Qualität der liest und Vorhandensein irgendwelcher Adaptersequenzen. Adapter ist in der Regel als Teil der Post-RNA-Seq Datenverarbeitung durch NGS-Anbieter, aber in einigen Fällen entfernt wird, kann zurückgelassen werden. Zur Erläuterung der Qualitätsstandards gehen zu http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ .
3. Prüfen Sie mit dem NGS - Anbieter und wenn Adapter vorhanden ist, schneiden sie mit dem ‚Clip‘ Werkzeug aus dem ‚NGS: QC und Manipulation‘ Task - Menü.
  HINWEIS: Ausgabedateien um diese Aufgabe , hergestellt unter Verwendung werden im unverdünnten txt - Format sowie in HTML erzeugt , die auf einem beliebigen Web - Browser geöffnet werden können.
Datenanalyse mit Tuxedo Suite
1. TopHat
  1. Laden Sie die neueste Version von fasta und gtf (Gene Transfer Format) Dateien aus Datei hochladen‘ , wie oben in 2.2.6 beschrieben.
  2. Öffnen Sie die ‚NGS: RNA - Analyse‘ Abschnitt und klicken Sie auf ‚TopHat‘ Werkzeug zur Karte der Sequenzierung liest auf die heruntergeladene Referenzgenom.
  3. Wählen Sie die entsprechende Antwort aus dem Drop - Down - Menü auf die Frage ‚Ist das Single-End oder Paired-End - Daten?‘
  4. Wählen Sie die entsprechende Datei fastq.
  5. Wählen Sie im nächsten Drop - Down - Menü ‚ein Genom aus der Geschichte verwenden‘ und Referenzgenom in Schritt 2.4.1.1 heruntergeladen wählen.
  6. Wählen Sie ‚Default‘ für die anderen Parameter und klicken Sie auf ‚Ausführen‘.
    HINWEIS: Unter den Ausgabedateien diese Aufgabe hergestellt wird, unter der Datei ‚Akzeptierte Hits‘ für die nachfolgenden Schritte verwendet wird.
2. Manschettenknöpfe und Cuffmerge
  1. Wählen Sie den ‚CuffLinks' Werkzeug in den ‚NGS: Abschnitt‘ RNA - Analyse der Transkripte, schätzen ihre Fülle und Test für unterschiedliche Expression zu montieren.
  2. Im ersten Drop - Down - Menü wählen Sie die abgebildeten ‚Akzeptierte Treffer (BAM - Format)‘ Datei von TopHat - Analyse erhalten.
  3. Im zweiten Dropdown - Menü eingestellten Referenz Anmerkung an die GTF - Datei in Schritt 2.4.1.1 heruntergeladen.
  4. Wählen Sie ‚Ja‘ für die ‚Perform Bias - Korrektur‘ Option , und führen Sie die Aufgabe , die Standardeinstellungen für alle anderen Parameter.
    HINWEIS: Unter den Ausgabedateien mit dieser Aufgabe betraut wird , die ‚Accepted Transcripts‘ Datei für die nachfolgenden Schritte verwendet wird.
  5. Open 'Cuffmerge' Werkzeug in den 'NGS: RNA - Analyse' , die 'Assembled Transcripts' verschmelzen produziert für alle RNA-Seq - Proben.
    Hinweis: das erste Feld in der Werkzeugselbst bevölkert und listet alle Manschettenknöpfe hergestellt.
  6. Wählen Sie den ‚Assembled Transcripts‘ Datei für alle Stämme / Bedingungen getestet wurden, einschließlich biologische Replikate des gleichen Stammes / Zustand (siehe Diskussion für die biologische Replikate).
  7. Wählen Sie ‚Ja‘ für ‚Use Reference Annotation‘ und wählen Sie die GTF - Datei heruntergeladen in Schritt 2.4.1.1.
  8. Im folgende Kästchens wieder ‚Ja‘ für die Option ‚Verwenden Sequenzdaten‘ und die gesamte Genom fasta Datei in Schritt 2.4.1.1 heruntergeladen wählen.
  9. Halten Sie die anderen Parameter als Standard, klicken Sie auf ‚Ausführen‘.
    HINWEIS: Cuffmerge erzeugt eine einzelne gtf Ausgabedatei.
3. Cuffdiff
  1. Navigieren Sie zu dem ‚Cuffdiff‘ Werkzeug in dem ‚NGS: RNA - Analyse‘ Abschnitt. Im Menü ‚Transcripts‘, wählen Sie die fusionierte Ausgabedatei von Cuffmerge.
  2. EtiketteBedingungen 1 und 2 mit den beiden Stämmen / Bedingungsnamen.
    HINWEIS: Cuffdiff Vergleiche zwischen mehr als zwei Stämmen oder Bedingungen sowie Zeitverlauf Experimente durchführen können. Nutzen Sie einfach die ‚neue Bedingungen Add‘ Option jede neue Stämme / Bedingung hinzuzufügen, je nach Bedarf.
  3. Für jeden Stamm / Zustand, unter ‚Replikate‘ select individuellen Accepted Hits "Ausgabedateien von TopHat, die auf die verschiedenen biologischen Replikate dieser Stamm / Zustand entsprechen. Halten Sie die Taste ‚cmd‘, wenn ein Macintosh - Computer, und Strg-Taste, wenn ein PC, um mehrere Dateien auszuwählen.
  4. Lassen Sie alle anderen Optionen als Standardparameter. Klicken Sie auf ‚Ausführen‘ um die Aufgabe auszuführen.
    HINWEIS: Cuffdiff zahlreiche Ausgabedateien in tabellarischer Form als die endgültigen Auslesen der RNA-Seq Analyse erzeugt. Dazu gehören Dateien mit FPKM Tracking für Transkripte, Gene (kombiniertFPKM Werte von Transkripten ein Gen Identität teilen), primär und Transkripte kodierenden Sequenzen. Alle Datendateien erzeugt werden, können auf jeder Tabellenkalkulationsanwendung betrachtet werden und enthalten ähnliche Attribute wie Genname, Locus, falzen Änderung (in log2-Skala) sowie statistische Daten über die Vergleiche zwischen den Stämmen / Bedingungen, einschließlich dem p-Wert und Q-Werte. Die Daten in diesen Dateien können auf der Grundlage statistischer Signifikanz der Unterschiede sortiert werden oder eine Änderung in der Genexpression falten (Größe und Richtung der Veränderung, wie in Up- oder regulierte Gene Down-) und gemäß den Anforderungen der Anwender manipuliert. Wenn die Konvertierung zwischen den verschiedenen Gen - Identifikatoren benötigt wird (zB WormBase Gen ID vs. Cosmid - Zahl), verfügbare Werkzeuge auf Biomart ( http://www.biomart.org/ ) verwendet werden.

3. Gene Ontology (GO) Zeitanalyse mit DAVID

Zugang DAVID von der Website hTGP: //david.ncifcrf.gov/. Klicken Sie auf ‚Start Analysis‘ im Header der Webseite. In ‚Schritt 1‘, kopieren und die Liste der Gene aus Galaxy in Kasten A. In ‚Schritt 2‘ der Option ‚WormBase Gene ID‘ als Kennung für den Eingang Gene erhaltenen Paste.
HINWEIS: DAVID erkennt die meisten öffentlich zugänglichen Anmerkung Kategorien, so dass andere Gen-IDs (wie Entrez Gen ID oder Gen-Symbol) können ebenfalls verwendet werden.
In ‚Schritt 3‘, wählen Sie ‚Gene - Liste‘ (Gene analysiert werden) unter ‚Listentyp‘ und klicken Sie dann auf dem ‚Liste Senden‘ Symbol.
HINWEIS: ‚Analysis Wizard‘, öffnet sich alle verlinkte DAVID Tools aufzulisten , die auf dem hochgeladenen Genliste (Abbildung 3) ausgeführt werden kann. Klicken Sie auf diese Links als relevant entsprechenden Module für den Zugriff pro Anforderung des Benutzers. Zur Identifizierung der Werkzeuge geeignet für eine bestimmte Aufgabe, klicken Sie auf 'Welche DAVID Werkzeuge zu benutzen? ‚Link auf der‘ ; Analyse Wizard‘Seite. Klicken Sie auf den ‚Start Analyse‘ Link in der Kopfzeile der ‚Analysis Wizard‘ Homepage zu jedem Zeitpunkt während der Analyse zurückzukehren.

Abbildung 3: Aufbau des DAVID Analyseassistent Webpage und Beispiele für Betrieb Ausgänge. Die ‚Analyse Wizard‘ Web - User-Interface listet die verwendeten Werkzeuge uploaded Genliste zur Anreicherung auf Grundlage verschiedenen Parameter zu analysieren. Ein Klick auf diesen Tools berichtet über die analysierten Daten in einer neuen Webseite. Beispiele für die tabellarischen Berichte erzeugt von ‚Genen Funktionale Klassifikation‘, ‚Funktionale Annotation - Diagramm‘ und ‚Functional Annotation Clustering‘ wie -einsätze (Pfeile) gezeigt.> Klicken Sie hier um eine größere Version dieser Figur zu sehen.

Functional Annotation Tool 1: Functional Annotation Clustering
1. Klicken Sie auf ‚Functional Annotation Clustering‘ -Modul auf die Übersichtsseite zu gehen. Behalten Sie die Standardanmerkungskategorien und klicken Sie auf ‚Functional Annotation Clustering‘ Cluster ähnlicher Anmerkung Begriffe zu erzeugen durch ihre Anreicherung Punktzahl rangiert.
2. Klicken Sie auf die verlinkte Namen jeder Begriff Details zu erfahren und ‚RT‘ (verwandte Begriffe) andere ähnliche Begriffe in die Kategorie im Zusammenhang aufzulisten.
3. Klicken Sie auf die lila Balken, die Gene mit einer Laufzeit und dem roten ‚G‘ zugeordnet listet alle Gene zur Liste im Zusammenhang mit allen Ausdrücken innerhalb eines Clusters.
4. Klicken Sie auf das grüne Symbol, um eine zweidimensionale Darstellung aller Gene und Begriffe in einem Cluster zu sehen.
  HINWEIS: Die letzten drei Spalten zeigen die analytischen und statistische Ergebnisse für jedenBegriff. Die Ergebnisse für diese und alle anderen Analysen können durch Klicken auf die ‚Datei herunterladen‘ Link in einer TXT - Format heruntergeladen werden.
Functional Annotation Tool 2: Functional Annotation - Diagramm
1. Zurück zur Übersichtsseite und klicken Sie auf ‚Functional Annotation Chart‘ zu identifizieren , deutlich überrepräsentiert biologische Begriffe verwenden (zB Transkriptionsfaktor - Aktivität oder Kinase - Aktivität) mit dem Gen - Liste zugeordnet.
2. Klicken Sie den Begriff Namen Ausführlichere Informationen und ‚RT‘ (verwandte Begriffe) zur Liste andere verwandte Begriffe zu erhalten.
3. Klicken Sie auf die lila Balken um eine Liste aller zugehörigen Gene einzelner Kategorie entspricht.
  HINWEIS: Die letzten beiden Spalten der statistischen Tests die Ergebnisse für jede Kategorie auflisten.
Functional Annotation - Tool 3: Functional Annotation Tabelle
1. Zurück zur Übersichtsseite und klicken Sie auf 'Functional Annotation Table "zugeordnet ist, eine Liste aller Anmerkungen zu sehen , mit den Genen auf einer Liste ohne statistische Berechnungen.
  HINWEIS: Dieses Tool kann für die Gen-für-Gen-Analyse einer Liste oder suchen an bestimmten, sehr interessante Gene nützlich sein.
Gene Funktionsklassifizierung Werkzeug
1. Zurück zu ‚Analysis Wizard‘ und klicken Sie auf ‚Gene Funktionsklassifizierung‘ -Modul die Eingangs Genliste in funktionsbezogenen Gruppen von Genen entmischen rangiert als pro ihre ‚Enrichment Score‘, ein Maß für die allgemeine Bereicherung des Gens Gruppe in der Liste.
2. Klicken Sie den Begriff Namen zu erhalten detailliertere Informationen und ‚RG‘ funktionell verwandten Genen des Gens Gruppe zeigen
3. Klicken Sie auf den roten ‚T‘ (Begriff Berichte), die Biologie und das grüne Symbol zur Liste eine zweidimensionale Ansicht aller Gene und Begriffe zu sehen.
Gen-NameBatch-Viewer
1. Zurück zu 'Analysis Wizard' und klicken Sie auf 'Gene-name Batch - Viewer' 'WormBase Gene IDs' in ihren entsprechenden Gen - Namen zu übersetzen. (WBGene00022855 = tCER-1).
2. Klicken Sie auf Genname mehr Gen-spezifische Informationen zu erhalten.
3. Klicken auf den ‚RG‘ ( in Zusammenhang stehenden Genen) Link neben jedem Gen Gene zu offenbaren vorhergesagt zu dem Gen von Interesse funktionell verwandt zu sein.

4. Hochladen von RAW-Daten auf der NCBI Sequence Archiv lesen (SRA)

Besuchen Sie die SRA - Webseite unter Anmelden bei NCBI‘Link oder ein neues Konto registrieren.
Klicken Sie auf ‚Bioproject‘.
Klicken Sie auf ‚Submission‘ unter der ‚Mit Bioproject‘ Überschrift auf der linken Seite.
Wählen Sie die Option ‚Neue Vorlage‘. Details zum Update des Einreicher. Fahren Sie durch die verbleibenden sieben Registerkarten, In den Einzelheiten des Experiments Abfüll- und Daten hochgeladen werden. Klicken Sie auf ‚Senden‘ , wenn sie abgeschlossen sind .
HINWEIS: In der fünften ‚Bioprobe‘ Reiter, lassen Sie den Steckplatz für ‚Bioprobe‘ leer.
Aktualisieren Sie die resultierende Seite durch einen Klick auf den ‚My Submissions‘ -Link. Die übermittelten Daten werden mit einer zugewiesenen Einreichungsnummer, eine kurze Beschreibung und Upload-Status aufgelistet.
Klicken Sie auf ‚Bioprobe‘ am oberen Rand der Seite, in der ‚eine neue Vorlage beginnen‘ -Box und schaffen eine ‚neue Vorlage‘. Senden separate Eingaben für jede Probe.
Wie im Fall mit ‚Bioproject‘ in 4.4, aktualisieren Sie die Einzelheiten der Einreicher und weiter durch den Rest der Registerkarten in den Details der einzelnen Register zu füllen. Nach Überprüfung abgeschlossen und klicken Sie auf ‚Senden‘.
Navigieren Sie zu http: //www.ncbi.nlm.nih.gov / sra die endgültige 'Sequence Archiv lesen (SRA)' Vorlage zu erstellen.
Klicken Sie auf 'Login SRA' unter 'Getting Started'.
Auf der nächsten Seite klicken Sie auf den ‚NCBI PDA‘ Link. Ein ‚Update - Einstellungen‘ Link öffnet sich. Füllen Sie das Formular aus und klicken Sie auf ‚Einstellungen speichern‘.
Auf der angezeigten Seite klicken Sie auf den Link ‚Create New Submission‘. Geben Sie einen geeigneten Namen unter ‚Alias‘ und klicken Sie auf ‚Speichern‘. Eine Tabelle mit der Vorlage ID und anderen Details wird erstellt.
Klicken Sie auf ‚New Experiment‘ und registrieren mindestens eine eindeutige Sequenzierung Bibliothek für jeden ‚Bioprobe‘.
Bezeichnen Sie und verknüpfen Sie die zuvor erstellten ‚Bioproject‘ und ‚Bioprobe‘ Vorlage IDs. A 'New Experiment' wird erstellt.
Klicken Sie auf ‚New Run‘ am unteren Rand der Seitenach dem SRA Experiment wurde die Datendateien gemacht und identifizieren, die ihn verknüpft werden müssen.
Berechnen Sie die MD5-Summe von jeder Datendatei. Um dies zu tun auf einem Terminal MacIntosh, navigieren Sie zu Programme / Dienstprogramme / Terminal. In Terminal, Typ in ‚md5‘ (ohne Anführungszeichen), gefolgt von einem Leerzeichen. Drag & Drop die Dateien , die in Terminal von Finder hochgeladen werden müssen, und klicken Sie auf ‚Enter‘.
Terminal wird eine alphanumerische MD5-Summe zurück. Geben Sie diese als Teil des Einreichungsprozesses für die Datei-Upload. Verwenden Sie den Benutzernamen und das Passwort vom System bereitgestellte Dateien per FTP hochladen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

In C. elegans, Eliminierung der Keimbahn - Stammzellen (GSCs) erstreckt Lebensdauer erhöht Stressresistenz, und erhöht Körperfett ^{^24,} ^28. Verlust von GSCs entweder durch Laserablation oder durch Mutationen , wie GLP-1, verursacht durch die Aktivierung Lebensdauer Erweiterung eines Netzes von Transkriptionsfaktoren ²⁹ hervorgerufen wird . Ein solcher Faktor, TCER-1 kodiert das worm Homolog des humanen Transkriptions Dehnung und Spleißfaktor, TCERG1 ^30. Die folgenden repräsentativen Ergebnisse zeigen , wie RNA-Seq verwendet wurde , um Gene zu identifizieren , deren Expression moduliert durch TCER-1 / TCERG1 folgende Keimbahn Verlust in unserer kürzlich veröffentlichten Studie ^31. Die Transkriptomen von altersangepassten, Tag 2 Erwachsene von GLP-1 und tCER-1; GLP-1 - Mutanten wurden verglichen. Für jeden Stamm wurde mRNA aus zwei biologischen Replik isolierttes (vier Proben total) das Protokoll in Abschnitt 1. RNA-Proben wurden zu einem kommerziellen Service Provider ausgeliefert beschrieben verwenden, die cDNA-Bibliotheken aus den vier Proben hergestellt und 50 bp Einzel Ende Sequenzierung durchgeführt. Die rohen NGS-Daten wurden in Abschnitt 2.1 beschrieben heruntergeladen.

Post-Sequenzierung Datenauswertung

Tabelle 1 ist eine Zusammenstellung von Testergebnissen , die Qualität der Roh - Sequenzierung liest zu beurteilen. ‚Fastq‘ Qualitätsüberprüfung Analyse zeigt die Anzahl von Sequenzen ohne ‚schlechte Qualität‘ gelesen liest zusammen mit 48-49% GC-Gehalt und einer konstanten Sequenz gelesen Länge von 51 bp. Dieser Schritt überprüft auch die Sequenzierungsdaten für viele weitere Funktionen wie Kmer Inhalt und kollektiv aus 11 Tests insgesamt gemacht. Das Genom von C. elegans ist ~ 100 Mbp. Basierend auf der Anzahl von Sequenzierungs liest aus jeder Probe, die auf das Genom kartiert, die genome Abdeckung (letzte Spalte) wurde die Länder / Waterman Gleichung abgeschätzt unter Verwendung von ‚C = LN / G‘, wobei C für die Deckung steht, G ist die haploide Genomlänge, L ist die Leselänge und N die Anzahl der Lesevorgänge. Wir verwenden Standardparameter für alle Schritte und erhielten 48 - 49% GC-Gehalt in allen Proben. Wie zu sehen ist, war Genomabdeckung zu 11x in den Proben zwischen 9x.

Identifizierung von TCER-1 / TCERG-1-regulierte Gene durch Differential-Genexpressionsanalyse auf Galaxy

Durch die detaillierten Schritte in den Abschnitten 2.2 bis 2.4 wurde die Galaxy Rohrleitung ³ verwendet , um eine Liste von Genen zwischen GLP-1 und tCER-1 differentiell exprimiert zu erhalten; GLP-1 - Mutanten. Galaxy konnten wir die NGS-Daten aus den beiden Replikaten für jeden Stamm kombinieren und durchgeführt Analyse Differential tabellarische-Dateien zu generieren Hervorhebung der genomweiten Ausdruck profile. Verwendung einer Schwelle von mindestens einem fache Änderung der Größe und der P - Wert von mindestens 0,05, eine Liste von 835 Genen , die differentiell zwischen den beiden Stämmen exprimiert wurden , wurde ³¹ erzeugt. Die Liste wurde geteilt basierend darauf , ob die Expression der Gene herunterreguliert wurde in tCER-1; GLP-1 - Mutanten (359 UP Gene , deren Transkription wahrscheinlich erhöht durch TCER-1 / TCERG1) oder hochreguliert (476 AB - Gene , deren Transkription verglichen wird wahrscheinlich durch TCER-1 / TCERG1 reprimiert) zu GLP-1 (Abbildung 4).

Abbildung 4: Identifizierung von TCER-1 / TCERG1 regulierter Gene in Germline losen C. elegans - Mutanten unter Verwendung von RNA-Seq: Ergebnisse der Galaxy (A) und David (B) Analysiert. (A) Differentialgenexpressionsanalyse von RNA-Seq - Daten zu vergleichendie Transkriptomen von GLP-1 und tCER-1; GLP-1 insgesamt 835 Gene ergab, von denen 359 hochreguliert identifiziert wurden von TCER-1 / TCERG1 (UP) und 476 als nach unten reguliert durch TCER-1 als / TCERG1 (DOWN). (B) Die Ergebnisse der 'Functional Annotation Clustering' Analyse von Genen als TCER-1 / TCERG1 Ziele identifiziert unter Verwendung von DAVID. Prozentual Anreicherung von biologischen Prozessen sowohl für die hochreguliert (UP) und nach unten reguliert (DOWN) Klassen TCER-1 / TCERG1 Ziele. Die Grafik hier gezeigt ist, durch Auftragen der angereicherten Gengruppen (X-Achse), und ihre jeweiligen Prozent Anreicherung (Y-Achse) erhalten, wie die Ausgabe von DAVID-Analyse erhalten. Figur aus Amrit et al modifiziert. ³¹ und mit Genehmigung. Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

Um einen Überblick über die Genklassen angereichert in TCER-1 / TCERG1 Ziele zu erhalten, führten wir Gen-Ontologie (GO) Zeitanalyse unter Verwendung von DAVID geführt. Die TCER-1 / TCERG1 reguliert UP und DOWN Genlisten wurden unabhängig auf DAVID hochgeladen und in Abschnitt 3. Kleine wie beschrieben analysiert wurde über die Gene und zelluläre Prozesse bekannt durch TCER-1 gezielt / TCERG1 zuvor ^30, so fanden wir das DAVID Analyse als besonders aufschlussreich und hilfreich. Functional Annotation Analyse der UP - Gene ergab fünf Annotation - Clustern mit einem Anreicherungsfaktor von> 1.3, einschließlich dem höchsten Cytochrome - P450 - Enzym-kodierenden Genen und xenobiotischen Response - Gene, gefolgt von Genen in Lipidmodifikationen gebracht. Dies wurde durch die Ergebnisse der Gene Funktionsklassifizierung Analyse verstärkt die identifizierten Gruppen zugeschrieben mit ähnlichen molecular Aktivitäten mit signifikanten Anreicherung Partituren. Verwendung von Tabellenkalkulations wurden die identifizierten Gruppen , aufgetragen gegen ihre jeweiligen Anreicherungs Scores (Abbildung 4). Unsere bisherigen Daten legten nahe , dass TCER-1 / TCERG1 mit dem konservierten Langlebigkeit Transkriptionsfaktor funktioniert, DAF-16 / FOXO3A, ³⁰ , um die Langlebigkeit von GSC-weniger Erwachsenen zu fördern. DAF-16 / FOXO3A, wiederum wurde in den Lipidstoffwechsel modulieren in jüngsten Studien ^{^27,} ^{^32,} ³³ gebracht. in der RNA-Seq-Studie für detaillierte mechanistische Studien identifiziert Aufgrund dieser Daten und die Identifizierung von Lipid-Stoffwechsel-Gene und Signalwege als potentielle TCER-1 / TCERG1 Ziele in der DAVID analysiert, wir auf den Fettstoffwechsel Gene konzentriert. Im Anschluss an diesen Vorsprung und durch anschließende molekulare genetische, biochemische und funktionelle Experimente haben wir gezeigt, dass TCER-1 / TCERG1 zusammen mit DAF-16 / FOXO3A koordinativ Enhanced sowohl lipid katabolischen und anabolischen Prozesse in Reaktion auf Keimbahnverlust ^31. In ähnlicher Weise Functional Annotation Clustering des ABWÄRTS TCER-1 / TCERG1 Ziele identifiziert Annotation Clusters für Zytoskelett - Funktionen angereichert, positive Regulation des Wachstums, der Reproduktion und der Alterung (Abbildung 4). Diese Beobachtungen und unsere experimentellen Beweise unterstützen, legen nahe , dass bei Verlust der Keimbahn, TCER-1 / TCERG1 reprimiert auch das Wachstum und die Fortpflanzungsphysiologie in somatischen Zellen sowie die Expression von anti-Langlebigkeit Gene ^31.

Sample	insgesamt Sequenzen	Länge	% GC	Insgesamt Liest (Galaxy)	Zugeordnet Reads (Galaxy)	Genom Coverage
GLP1	4000000	51	49	20700539	~ 16.000.000	11x
GLP-1; tCER-1	4000000	51	49	18055444	~ 13.000.000	9x
GLP1	4000000	51	48	18947463	~ 14.000.000	10x
GLP-1; tCER-1	4000000	51	48	13829643	~ 10.000.000	7x

Tabelle 1: RNA-Seq Probe auf Details. Erstellung von Rohdaten Attributen ausgewertet post-Sequenzierung für den Erfolg des Sequenzierlauf zu bestätigen. Sequenzierungsdaten von dem repräsentativen Experiment besteht aus zwei biologischen Bedingungen, einen Kontrollstamm (GLP1 (tCER-1; GLP-1) mit zwei biologischen für jeden sequenziert nachbildet. ‚FastQC‘ Qualitätskontrolle Analyse zeigt die Anzahl der Sequenzen ohne „schlechte Qualität“ lesen liest, 48 - 49% GC - Gehalt und eine konstante Sequenz gelesen Länge von 51bp. Modifizierte und mit freundlicher Genehmigung von Amrit et al wiedergegeben. ^31.

Supplemental File: Befehlskette in Kürze für die Werkzeuge auf der Galaxy - Pipeline für RNA-Seq Datenanalyse auszuführen. Bitte klicken Sie hier , um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Bedeutung der Galaxy Sequencing-Plattform in der modernen Biologie

Die Galaxy-Projekt hat instrumental werden Biologen ohne Bioinformatik Ausbildung helfen Sequenzierungsdaten mit hohem Durchsatz auf eine schnelle und effiziente Art und Weise zu verarbeiten und zu analysieren. Sobald eine Herkules-Aufgabe betrachtet, diese öffentlich zugängliche Plattform komplexe Bioinformatik-Algorithmen gemacht lief NGS-Daten einen einfachen, zuverlässiger und einfacher Prozess zu analysieren. Neben einer breiten Palette von Bioinformatik-Tools Hosting, der Schlüssel zum Erfolg für Galaxy ist auch die Einfachheit der Benutzeroberfläche, die die verschiedenen Aspekte der komplexen Sequenzanalyse auf intuitive und nahtlose Weise schnürt zusammen. Aufgrund dieser Eigenschaften hat sich die Galaxy - Pipeline breite Verwendung unter Biologen erworben, darunter Forscher C. elegans. Neben den Benutzer mit der RNA-Seq Analyse Pipeline vertraut gemacht, Galaxy hilft auch, die Grundlagen für die Grund Biologen die begreifenKonzept der Datenanalyse und verstehen die beteiligten Werkzeuge. Dieses Wissen Primzahlen die Benutzer vielleicht weiter komplexere Bioinformatik-Plattformen wie ‚R‘ und ‚Python‘ zu verfolgen. Neben Galaxy, andere Tools und Pakete sind im Handel erhältlich und als Open-Source-Lösungen, die für RNA-Seq-Analyse verwendet werden können. Die kommerziellen Optionen sind oft Stand-alone-Software-Pakete, die benutzerfreundlich sind, aber für einzelne Forscher teuer sein, die NGS nicht oft benutzen. Alternativ Open - Source - Plattformen wie BioWadrobe ³⁴ und ³⁵ erfordern ArrayExpressHTS Kenntnisse in der Befehlszeile und Ausführen von Skripten, die für nicht-Bioinformatiker große Herausforderungen stellen. Somit bleibt Galaxy eine beliebte und unverzichtbare Ressource.

Kritische Schritte innerhalb des Protokolls

Die mühelos Vorteile von Galaxy und DAVID ungeachtet, ein erfolgreiches RNA-Seq Experiment nochstützt sich grundsätzlich auf eine sorgfältige Planung und Ausführung des experimentellen Schritt. Zum Beispiel ist es wichtig genetische Homogenität zu gewährleisten, bevor zwei Stämme von RNA-Seq zu vergleichen und zu bestimmen, ob es Unterschiede in den Entwicklungsraten. Isolieren von RNA aus altersangepassten Stämmen ist auch kritisch. In ähnlicher Weise für die Variabilität der Genexpression in dem gleichen Stamm zu berücksichtigen, ist es wichtig, zwei oder mehr ‚biologische Replikaten‘ jedes Stamm zu laufen. Dies bedeutet im Wesentlichen , Anbau- und Ernte Würmer aus den Stämmen in mindestens twoindependent Experimenten sequenziert werden, obwohl drei biologische Replikate der empfohlene Standard. Galaxy vereint die Daten aus mehreren biologischen Replikate so dass das berichteten Gen-Expressionsunterschiede zwischen den Stämmen ist nicht einfach eine Folge von ‚within-Probe‘ Variabilität.

Eine kritische Design - Entscheidung ist über die Verwendung von Single-End gegen Paired-End - Sequenzierung. MitSingle-End-Sequenzierung, wird jedes Fragment sequenziert unidirektional so dass der Prozess schneller, billiger und geeignet für die Transkriptionsprofilierung. In Paired-End-Sequenzierung, sobald das Fragment von einem Ende zum anderen sequenziert ist, wird eine zweite Runde der Sequenzierung in der entgegengesetzten Richtung wieder aufgenommen. Es bietet mehr in die Tiefe gehende Daten und zusätzliche Positionierungsinformationen des Genoms, so besser geeignet für die de novo - Genom Montage, neue SNP Identifizierung und zur Identifizierung von epigenetischen Veränderungen, Deletionen, Insertionen und Inversionen. In ähnlicher Weise liest die Gesamtzahl der und Umfang der Berichterstattung Genoms für eine angemessene Differenzexpressionsstudien erforderlich ist kontextabhängig. Für kleine Genome, wie Bakterien und Pilzen, ~ 5 Millionen liest ausreichend ist, wohingegen, Worms und fliegt ~ 10 Millionen liest ausreichende Abdeckung. Für Organismen mit großen Genomen wie Mäusen und Menschen, 15-25.000.000 liest der erforderliche Bereich ist. Zusätzlich zu der Lesenummer und Abdeckung ist es auch important dass die meisten der NGS liest auf das Referenzgenom auszurichten. Eine Ausrichtung von <70% anzeigt weist auf schlechte NGS oder das Vorhandensein von Verunreinigungen. Insgesamt für C. RNA-Seq Studien elegans, drei biologische Replikate mit 50 bp unidirektionale sequenziert , was zu ~ 10-15 Millionen lesen und ~ 5-10X Genomabdeckung für jede Probe ist ein ideales Ziel.

Trotz der Einfachheit der Galaxy verwendet wird, gibt es ein paar Punkte, um daran zu erinnern, eine reibungslose und störungsfreie Datenanalyse Erfahrung zu gewährleisten. Es ist notwendig, dass der Benutzer verwendet, um ein grundlegendes Verständnis für den Zweck und die Funktionsweise der verschiedenen Werkzeuge zu haben. Jedes Galaxy Werkzeug erfordert Auswahl von Parametern und das Werkzeug zu verstehen, wird dazu beitragen, die Benutzereinstellungen zu optimieren, basierend auf den Anforderungen des Experiments. Die Galaxy-Hilfeseiten erklären jeden Parameter und es wird empfohlen, dass der Benutzer diese Daten lesen auf Testvariablen zu entscheiden.

Das Gen Liste erhalten pie meisten RNA-Seq Analyse ist lediglich eine Liste von Genen, bis es für biologisch relevante Daten mit DAVID abgebaut wird. Dies ist eine entscheidende Übung, die konvertiert einzelne Gen-basierten Daten in biologisch-Prozess basierten Ergebnisse. die RNA-Seq-Gen Liste Erforschung der verschiedene Analyse DAVID bietet verwendet, ist daher ein integraler und wichtiger Bestandteil des Protokolls.

Änderungen, Fehlerbehebung und Einschränkungen

Eine gemeinsame Glitch mit NGS Datenanalyse sind Aufgaben oder Tests, die, insbesondere bei der Qualitätskontrolle Stufen ausfallen. Von den Tests , die FastQC auf einer Probe läuft, kommen ein paar könnte als gescheitert. Allerdings bedeutet dies nicht zwangsläufig auf die Probe bedeutet nicht , die fastq Qualitätsstandards entsprechen. Der Fehler könnte eine alternative Erklärung, die sorgfältig geprüft werden soll.

Zum Beispiel, wenn der ‚Pro - Basensequenz Inhalt‘ Test nicht besteht ( was darauf hindeutet , dass es eine mehr als 10% Differenz zwischenBasen in jeder Position), überprüfen die Methode zur oligodT Bibliothek Zubereitung. Frühere Arbeiten haben gezeigt , dass Illumina NGS - Bibliotheken eine Neigung für die 13 - ^te Basis kann eine Vorspannung für bestimmte Basen sequenziert werden , um die Probe zu verursachen , den Test zu versagen. In ähnlicher Weise kann ein Fehler des ‚Kmer Inhalt‘ Tests manchmal die Tatsache zugeschrieben werden , die von Random - Priming abgeleitete Bibliotheken werden fast immer zeigen Kmer Vorspannung zu Beginn aufgrund einer unvollständigen Abtastung des Zufallsprimer. Daher ist es wichtig, diese und andere Hindernisse in der Analyse Pipeline zu prüfen, bevor das Schicksal des Experiments zu bestimmen.

Ein weiteres wichtiges Merkmal, das RNA-Seq Datenanalyse beeinflussen kann, ist die rasche und exponentielle Fortschritte, die in NGS-Methoden und Analysesoftware auftreten. Idealerweise erwartet man eine identisches Gen Liste von Ergebnis eine Probe NGS Daten auf zwei Leitungen oder zwei Versionen des gleichen Rohres AnalysierenLinie. Während jedoch ständig zu verbessern Algorithmen sind Abweichungen in der RNA-Seq Analyse Senk- und Genlisten größeren Genauigkeit produzieren, führt dies häufig zu Unterschieden. Zum Beispiel die Analyse einer Probe NGS Daten , die eine ältere , neuere Version des gleichen Toolset mit erheblich unterschiedlichen Genlisten produzieren. Eine bescheidene Variante wird erwartet, aber die Nutzer müssen sich bewusst sein, dass große Abweichungen von Schwächen in der Konzeption oder Durchführung des Versuchs reflektierend sein kann.

Zusammengenommen haben die Galaxy-Projekt und DAVID analytische Werkzeuge, um die Art und Weise NGS-Daten transformiert wurden, können genutzt werden, um biologisch relevante Informationen zu extrahieren. Dies hat eine völlig neue Ebene der Unabhängigkeit und der Untersuchung der wissenschaftlichen Gemeinschaft eröffnet, darunter Forscher C. elegans. die ständig die Kosten reduziert wird die Sequenzierung zum Beispiel in Verbindung mit besserer und schnellerer Sequenzierungstechnologie werden in einer Ära der Transkriptomik auf der Ebene der einzelnen Würmer einleiten,einzelner Wurm Gewebe und sogar einige ausgewählte Würmer Zellen. Diese Bemühungen umfassen einen dramatischen Anstieg der NGS-Daten erzeugt werden. Schritt halten mit dem analytischen Ende dieses Workflow - up wird eine Herausforderung sein, aber aufgrund seiner Vielseitigkeit, ist Galaxy wahrscheinlich bei der Stärkung der Übergang vom ganzen Organismus Transkriptomik zu RNA-Seq auf Einzelzellebene in C. elegans instrumental sein. Die daraus resultierenden Fortschritte in Wissen sind wahrscheinlich außergewöhnliche Einblicke in die grundlegende Biologie zu schaffen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts zu offenbaren.

Acknowledgments

Die Autoren möchten ihren Dank an die Laboratorien, Gruppen und Einzelpersonen zum Ausdruck bringen, die Galaxy und DAVID entwickelt hat und damit gemacht NGS für die wissenschaftliche Gemeinschaft allgemein zugänglich. Die Hilfe und Rat von Kollegen an der University of Pittsburgh während unserer Bioinformatik Ausbildung zur Verfügung gestellt werden anerkannt. in Aging Award (AG-NS-0879-12) und einen Zuschuss von der National Institutes of Health (R01AG051659) zu AG Diese Arbeit wurde von einer Ellison Medical Foundation New Scholar unterstützt.

Materials

Name	Company	Catalog Number	Comments
RNase spray	Fisher Scientific	21-402-178
Trizol	Ambion	15596026
Sonicator	Sonics Vibra Cell	VCX130
Centrifuge	Eppendorf	5415C
chloroform	Sigma Aldrich	288306
2-propanol	Fisher Scientific	A416P-4
Ethanol	Decon Labs	2705HC
RNase-free water	Fisher Scientific	BP561-1
Bioanalyzer	Agilent	G2940CA
Mac/PC