Biology

Computergestütztes Analyse-Tutorial für chimäre kleine nichtkodierende RNA: Ziel-RNA-Sequenzierungsbibliotheken

Published: December 1, 2023 doi: 10.3791/65779

Sreenivas Eadara¹, Xinbei Li¹, Emily A. Eiss¹, Mollie K. Meffert^1,2

¹Department of Biological Chemistry, Johns Hopkins University School of Medicine, ²Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine

Summary

Hier stellen wir ein Protokoll vor, das die Installation und Verwendung einer bioinformatischen Pipeline zur Analyse chimärer RNA-Sequenzierungsdaten demonstriert, die bei der Untersuchung von in vivo RNA:RNA-Interaktionen verwendet werden.

Abstract

Das Verständnis der in vivo genregulatorischen Wechselwirkungen von kleinen nicht-kodierenden RNAs (sncRNAs), wie z.B. microRNAs (miRNAs), mit ihren Ziel-RNAs wurde in den letzten Jahren durch biochemische Ansätze verbessert, die Cross-Linking gefolgt von Ligation verwenden, um sncRNA:Ziel-RNA-Interaktionen durch die Bildung chimärer RNAs und anschließende Sequenzierungsbibliotheken zu erfassen. Während Datensätze aus der chimären RNA-Sequenzierung genomweite und wesentlich weniger mehrdeutige Eingaben liefern als miRNA-Vorhersagesoftware, erfordert die Destillation dieser Daten in aussagekräftige und umsetzbare Informationen zusätzliche Analysen und kann Forscher ohne rechnerischen Hintergrund davon abhalten. Dieser Bericht enthält ein Tutorial zur Unterstützung von Bioinformatikern auf Einstiegsebene bei der Installation und Anwendung eines aktuellen Open-Source-Software-Tools: Small Chimeric RNA Analysis Pipeline (SCRAP). Plattformanforderungen, Updates und eine Erläuterung der Pipelineschritte und der Manipulation der wichtigsten Benutzereingabevariablen werden bereitgestellt. Der Abbau einer Barriere für Biologen, um Erkenntnisse aus chimären RNA-Sequenzierungsansätzen zu gewinnen, hat das Potenzial, entdeckungsbasierte Untersuchungen von regulatorischen sncRNA-Ziel-RNA-Interaktionen in verschiedenen biologischen Kontexten in Gang zu bringen.

Introduction

Kleine nicht-kodierende RNAs werden intensiv auf ihre posttranskriptionelle Rolle bei der Koordination der Expression von Genen in verschiedenen Prozessen wie Differenzierung und Entwicklung, Signalverarbeitung und Krankheit untersucht ^1,2,3. Die Fähigkeit, die Zieltranskripte von genregulatorischen kleinen nichtkodierenden RNAs (sncRNAs), einschließlich microRNAs (miRNAs), genau zu bestimmen, ist für Studien der RNA-Biologie sowohl auf grundlegender als auch auf translationaler Ebene von Bedeutung. Bioinformatische Algorithmen, die die erwartete Komplementarität zwischen der miRNA-Seed-Sequenz und ihren potenziellen Zielen ausnutzen, werden häufig für die Vorhersage von miRNA-Ziel-RNA-Interaktionen verwendet. Obwohl diese bioinformatischen Algorithmen erfolgreich waren, können sie sowohl falsch-positive als auch falsch-negative Ergebnisse enthalten, wie an anderer Stelle überprüft wurde ^4,5,6. In jüngster Zeit wurden mehrere biochemische Ansätze entwickelt und implementiert, die eine eindeutige und semiquantitative Bestimmung von in vivo sncRNA:Ziel-RNA-Interaktionen durch In-vivo-Vernetzung und anschließende Einbeziehung eines Ligationsschritts ermöglichen, um die sncRNA physisch an ihr Ziel zu binden, um eine einzelne chimäre RNA zu bilden 4,5,7,8,9,10 . Die anschließende Präparation von Sequenzierungsbibliotheken aus den chimären RNAs ermöglicht die Bewertung der sncRNA:Ziel-RNA-Interaktionen durch computergestützte Verarbeitung der Sequenzierungsdaten. Dieses Video enthält ein Tutorial für die Installation und Verwendung einer Rechenpipeline, die als kleine chimäre RNA-Analyse-Pipeline (SCRAP) bezeichnet wird und eine robuste und reproduzierbare Analyse von sncRNA:Ziel-RNA-Interaktionen aus chimären RNA-Sequenzierungsbibliotheken ermöglicht⁶.

Ein Ziel dieses Tutorials ist es, Forscher dabei zu unterstützen, sich nicht übermäßig auf rein prädiktive bioinformatische Algorithmen zu verlassen, indem die Barrieren für die Analyse von Daten gesenkt werden, die durch biochemische Ansätze generiert werden, die chimäre molekulare Auslesungen von sncRNA:Ziel-RNA-Interaktionen liefern. Dieses Tutorial enthält praktische Schritte und Tipps, um angehende Computerwissenschaftler durch die Verwendung einer Pipeline, SCRAP, zu führen, die für die Analyse chimärer RNA-Sequenzierungsdaten entwickelt wurde, die durch mehrere bestehende biochemische Protokolle generiert werden können, einschließlich Crosslinking, Ligation und Sequenzierung von Hybriden (CLASH) und kovalenter Ligation endogener Argonaute-gebundener RNAs - Crosslinking und Immunpräzipitation (CLEAR-CLIP)^7,9.

Die Verwendung von SCRAP bietet mehrere Vorteile für die Analyse von chimären RNA-Sequenzierungsdaten im Vergleich zu anderen Rechenpipelines⁶. Ein herausragender Vorteil ist die umfangreiche Annotation und die Integration von Call-Outs zu gut unterstützten und routinemäßig aktualisierten bioinformatischen Skripten innerhalb der Pipeline im Vergleich zu alternativen Pipelines, die häufig auf benutzerdefinierten und/oder nicht unterstützten Skripten für Schritte in der Pipeline angewiesen sind. Diese Funktion verleiht SCRAP Stabilität und macht es für Forscher lohnenswerter, sich mit der Pipeline vertraut zu machen und deren Einsatz in ihren Arbeitsablauf zu integrieren. Es wurde auch gezeigt, dass SCRAP alternative Pipelines bei der Aufrufung von Peaks von sncRNA:Ziel-RNA-Interaktionen übertrifft und plattformübergreifende Funktionalität aufweist, wie in einer früheren Veröffentlichung^{beschrieben 6}.

Am Ende dieses Tutorials werden Benutzer in der Lage sein, (i) die Plattformanforderungen für SCRAP zu kennen und SCRAP-Pipelines zu installieren, (ii) Referenzgenome zu installieren und Befehlszeilenparameter für SCRAP einzurichten und (iii) die Kriterien für Peak-Aufrufe zu verstehen und Peak-Aufrufe und Peak-Annotationen durchzuführen.

In diesem Video wird im praktischen Detail beschrieben, wie Forscher, die sich mit RNA-Biologie befassen, die Rechenpipeline SCRAP installieren und optimal nutzen können, um sncRNA-Interaktionen mit Ziel-RNAs, wie z. B. Boten-RNAs, in chimären RNA-Sequenzierungsdaten zu analysieren, die durch einen der diskutierten biochemischen Ansätze zur Vorbereitung von Sequenzierungsbibliotheken gewonnen wurden.

SCRAP ist ein Befehlszeilenprogramm. Im Allgemeinen muss der Benutzer gemäß der folgenden Anleitung (i) SCRAP (https://github.com/Meffert-Lab/SCRAP) herunterladen und installieren, (ii) Referenzgenome installieren und SCRAP ausführen und (iii) Peak-Aufrufe und -Annotationen durchführen.

Weitere Details zu den Berechnungsschritten in diesem Verfahren finden Sie unter https://github.com/Meffert-Lab/SCRAP. Dieser Artikel enthält die Einrichtung und Hintergrundinformationen, die es Forschern mit Einstiegskenntnissen ermöglichen, SCRAP in chimären RNA-Sequenzierungsbibliotheksdatensätzen zu installieren, zu optimieren und zu verwenden.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

HINWEIS: Das Protokoll beginnt mit dem Herunterladen und Installieren von Software, die für die Analyse von chimären RNA-Sequenzierungsbibliotheken mit SCRAP erforderlich ist.

1. Einbau

Installieren Sie vor der Installation von SCRAP die Abhängigkeiten Git und Miniconda auf dem Rechner, der für die Analysen verwendet werden soll. Git ist wahrscheinlich bereits installiert. Überprüfen Sie dies z. B. auf der Mac OSX-Plattform mit welchem git, um zu sehen, ob das Dienstprogramm " git " in diesem Verzeichnis vorhanden und installiert ist. Prüfen Sie, ob Miniconda mit welcher Conda installiert ist. Wenn nichts zurückgegeben wird, installieren Sie Miniconda. Für die Installation von Miniconda sind 400 MB Speicherplatz erforderlich.
1. Es gibt einige Methoden, um Miniconda zu installieren, und sie unterscheiden sich je nach Plattform. Weitere Informationen finden Sie in der Markdown-Datei PLATFORM-SETUP im GitHub-Repository von Meffert Lab [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md], wo Sie weitere Anweisungen für die Installation unter Windows, MacOS und Ubuntu finden. Für Linux-Benutzer hat Linux einen eigenen Standard-Paketmanager (apt). Verwenden Sie in dem für diese Studie spezifischen Fall den Befehl brew install Miniconda, um Miniconda mit dem vorhandenen Paketmanager brew zu installieren.
  HINWEIS: "Homebrew", auch "Brew" genannt, ist ein Open-Source-System zur Verwaltung von Softwarepaketen, das die Installation von Software auf Apples Betriebssystem macOS vereinfacht.
2. Wenn conda zum ersten Mal installiert wird, führen Sie conda init für die jeweilige Shell aus, die gerade verwendet wird. Im Beispiel hier ist die verwendete Shell zsh. Schließen Sie dann die Schale und öffnen Sie sie erneut. Wenn Conda erfolgreich installiert wurde, wird die Basisumgebung angezeigt, die in der Terminalsitzung aktiviert wurde.
Laden Sie die SCRAP-Quelle herunter und installieren Sie ihre Abhängigkeiten.
1. Die bevorzugte Methode zum Abrufen der SCRAP-Quelle ist die Verwendung von Git. Greifen Sie darauf zu, indem Sie git clone https://github.com/Meffert-Lab/SCRAP ausführen, um die neueste Kopie des Quellcodes zu erhalten.
2. Installieren Sie mamba, einen verbesserten Paket-Solver für Conda, und installieren Sie alle Abhängigkeiten für SCRAP von SCRAP_environment.yml in die eigene Conda-Umgebung mit den folgenden Befehlen:
  conda install -n base conda-forge::mamba
  mamba env create -f SCHROTT/SCRAP_environment.yml -n SCHROTT
Führen Sie als Nächstes die Referenzinstallation für SCRAP aus. Die Argumente, die in der Referenzinstallation verwendet werden, sind spezifisch für den Organismus, dessen sncRNA-mRNA-Interaktionen analysiert werden.
bash SCRAP/bin/Reference_Installation.sh -r full/path/to/SCRAP/ -m has -g hg38 -s human
1. Geben Sie das Verzeichnis des SCRAP-Quellordners für die Referenzinstallation an. Die Installationsschritte werden dann mit den Dateien in den Ordnern fasta und annotation durchgeführt. Listen Sie den vollständigen Pfad ohne Abkürzungen auf. Beenden Sie mit einem Schrägstrich.
2. In den Tabellen in README.md finden Sie die korrekten miRbase-Spezies-Abkürzungen. Die aktuellen Referenzgenome finden Sie unter https://genome.ucsc.edu/ oder https://www.ncbi.nlm.nih.gov/data-hub/genome/. In diesem Beispiel wird hg38 für das GRCm38-Genom der Maus verwendet.
3. Die derzeit für die Annotation einbezogenen Arten sind Mensch, Maus und Wurm. Zeigen Sie die entsprechenden species.annotation.bed-Dateien im Annotationsverzeichnis im SCRAP-Quellordner an. Wenn die Verwendung einer anderen Spezies für die Analyse gewünscht wird, stellen Sie eine annotation.bed-Datei bereit, die dem gleichen Benennungsschema species.annotation.bed folgt.

2. Ausführen von SCRAP

Nachdem die Abhängigkeiten und SCRAP installiert sind, - führen Sie das Skript SCRAP.sh
bash SCRAP/bin/SCRAP.sh -d full/path/to/CLASH_Human/ -a full/path/to/CLASH_Human/CLASH_Human_Adapters.txt -p no -f yes -r full/path/to/SCRAP/ -m has -g hg38
1. Listen Sie den gesamten Pfad zu den Beispielverzeichnissen ohne Abkürzung auf. Formatieren Sie die Beispielverzeichnisse so, dass der Ordnername genau mit dem Beispielnamen übereinstimmt, wie in Abbildung 1 dargestellt.
2. Beachten Sie, dass es sich bei dem aufgeführten Pfad um den Pfad zu dem Verzeichnis handelt, das alle Beispielordner enthält, und nicht um den Pfad zu einem einzelnen Beispielordner oder einer Beispieldatei (siehe Befehlszeile in Schritt 2.1).
3. Listen Sie als Nächstes den gesamten Pfad zur Adapterdatei auf. Stellen Sie sicher, dass die Beispielnamen in der Adapterdatei mit den zuvor genannten Ordnernamen und Dateinamen übereinstimmen (siehe Befehlszeile in Schritt 2.1).
4. Geben Sie an, ob es sich um gepaarte Proben handelt und ob eine Filterung nach Prä-miRNAs und/oder tRNAs durchgeführt wird oder nicht. Fügen Sie bei Bedarf einen Filter für die rRNA-Reinigung hinzu (siehe Befehlszeile in Schritt 2.1).
  HINWEIS: Die Benutzer können sich je nach Stichprobentyp und Versuchsziel für die Verwendung dieser Filter entscheiden oder nicht. Abhängig vom Versuchsdesign können Prä-miRNAs, tRNAs und rRNAs die verfügbare Sequenzierungstiefe für echte sncRNA:Ziel-RNA-Chimären verbrauchen, und Benutzer können Filter verwenden, um sie auszuschließen. Benutzer können jedoch unter bestimmten Umständen eine solche Filterung vermeiden (z. B. Zuordnung von sncRNA-Zielen zum mitochondrialen Genom, das mitochondriale rRNAs enthält).
5. Listen Sie als Nächstes den gesamten Pfad zum Referenzverzeichnis, die miRbase-Abkürzung und die Referenzgenom-Abkürzung auf (siehe Befehlszeile in Schritt 2.1).
  Hinweis: Das Skript kann je nach Größe des Datasets und CPU des verwendeten Computers einige Stunden in Anspruch nehmen.

3. Peak-Aufrufe und Annotationen

Nachdem die Ausführung von SCRAP abgeschlossen ist, überprüfen Sie, ob die Ausgabe unter anderem die Datei SAMPLE.aligned.unique.bam enthält. Dabei handelt es sich um eine Binärdatei, die Ausrichtungen von Ziel-RNAs auf das vom Benutzer bereitgestellte Referenzgenom enthält.
Führen Sie nun Spitzenanrufe durch, indem Sie Peak_Calling.sh ausführen.
bash SCRAP/bin/Peak_Calling.sh -d CLASH_Human/ -a CLASH_Human/CLASH_Human_Adapters.txt -c 3 -l 2 -f no -r SCRAP/ -m has -g hg38
HINWEIS: Peak Calling ist eine Funktion von SCRAP, die es Forschern ermöglicht, die robustesten und reproduzierbarsten kleinen nicht-kodierenden RNA-Ziel-RNA-Interaktionen innerhalb ihrer chimären RNA-Bibliotheken zu bewerten. Diese Funktion kann Forschern beispielsweise dabei helfen, Wechselwirkungen zu identifizieren, die sie für weitere Untersuchungen auswählen möchten. In Schritt 3.2.2 unten wird beschrieben, wie der Benutzer die Kriterien festlegt, die verwendet werden sollen, um die Stringenz zu definieren, mit der ein Peak aufgerufen wird - dazu gehört die Anzahl der eindeutigen Interaktionen oder Sequenzierungslesevorgänge, die aufgetreten sein müssen, damit der Peak aufgerufen wird, sowie die Anzahl der Bibliotheken, in denen diese bestimmte Interaktion aufgetreten sein muss.
1. Listen Sie auch hier die vollständigen Pfade zu dem Verzeichnis auf, das die Beispielordner und die Adapterdatei enthält (siehe Befehlszeile in Schritt 3.2).
2. Legen Sie als Nächstes die Mindestanzahl von Sequenzlesevorgängen fest, die erforderlich sind, damit ein Peak aufgerufen wird (siehe Befehlszeile in Schritt 3.2).
3. Legen Sie die Mindestanzahl von unterschiedlichen Sequenzbibliotheken fest, die einen Peak enthalten müssen, damit er aufgerufen wird (siehe Befehlszeile in Schritt 3.2).
  ANMERKUNG: Die Wahl der Werte für 3.2.2 und 3.2.3 hängt von der Art der sequenzierten Proben und der Anzahl der Proben oder Probentypen ab. Hier sind mindestens 3 chimäre Sequenzierungs-Reads in einer Probe erforderlich, um einen Peak aufzurufen, und der Peak muss von mindestens 2 Samples unterstützt werden. Ein Prüfer, der einen Datensatz auswertet, in dem es viele Replikate der Sequenzierungsbibliothek für eine bestimmte Bedingung gibt, kann z. B. beschließen, das Vorhandensein der Lesevorgänge in einer größeren Anzahl von Probensequenzierungsbibliotheken zu verlangen.
4. Geben Sie an, ob sncRNAs derselben Familie zum gleichen Peak beitragen müssen. Da beispielsweise miRNAs derselben Familie Samensequenzen teilen, können diese miRNAs gemeinsame und überlappende Sätze von Genzielen binden. Ein Benutzer möchte möglicherweise den vollen Einfluss einer Familie auf diese Ziele ermitteln, indem er ihre kollektiven Spitzen bewertet (siehe Befehlszeile in Schritt 3.2).
5. Geben Sie als Nächstes den vollständigen Pfad zum Referenzverzeichnis, die miRBase-Abkürzung und die Referenzgenom-Abkürzung an (siehe Befehlszeile in Schritt 3.2).
Sobald der Peak-Aufruf abgeschlossen ist, führen Sie die Peak-Annotation aus.
bash SCRAP/bin/Peak_Annotation.sh -p CLASH_Human/peaks.bed -r SCRAP/ -s human
1. Listet den vollständigen Pfad zur resultierenden Datei peaks.bed (oder peaks.family.bed ) aus dem Peak-Aufruf, den vollständigen Pfad zum Referenzverzeichnis und die gewünschte Spezies für die Annotation auf.

4. Visualisierung der Daten

HINWEIS: Alle Schritte zur Analyse mit SCRAP sind nun abgeschlossen. Für die Visualisierung der Daten werden mehrere Ansätze empfohlen:

Führen Sie alle .bam-Dateien (binäre SAM-Datei) zusammen, die visualisiert werden sollen (samtools merge).
Sortieren Sie die resultierende zusammengeführte BAM-Datei (samtools-Sortierung). Der Inhalt der Dateien wird zeilenweise sortiert, so dass samtools indizieren kann.
Indizieren Sie die sortierte BAM-Datei (samtools-Index). Eine BAI-Datei (Binary samtools format index) wird generiert, um die Visualisierung im integrativen Genomik-Viewer (IGV) zu ermöglichen.
Öffnen Sie abschließend die resultierende sortierte .bam- und indizierte .bai-Datei in IGV.
HINWEIS: SncRNA:Ziel-RNA-Interaktionen von Interesse können für die Nachbeobachtung auf verschiedene untersuchungsspezifische Weise priorisiert werden. Ein generischer erster Ansatz besteht darin, die Wechselwirkungen zu bewerten, für die Peaks von den chimären Sequenzierungs-Reads unterstützt werden. Wechselwirkungen von Interesse können auch unter Verwendung des DuplexFold-Webservers aus dem RNA-Strukturpaket visualisiert werden, indem die Sequenz sowohl für die sncRNA als auch für die Ziel-RNA aus der detektierten Interaktion¹¹ eingegeben wird. Für jeden Peak sind das Chromosom (erste Spalte) und die genomischen Koordinaten (Start: 1. Spalte Ende: 2. Spalte) in der peaks.bed.species.annotation.txt Datei zu finden, die in der Peak-Annotation generiert wurde. Insbesondere für miRNAs kann das Vorhandensein von Seed-angepassten Stellen in einem verwandten Bindungsmotiv der Ziel-RNA dennoch als validierendes Merkmal funktionell wichtiger detektierter Interaktionen bewertet werden, während reproduzierbare und funktionelle Interaktionen keine umfassende Seed-Matching-Bindung aufweisen können⁽z. B. können Interaktionen 3'-kompensatorische Bindungen verwenden^).. Die ergänzende Datenverarbeitung könnte Vergleiche der differentiellen Leseabdeckung zwischen Peaks unter verschiedenen biologischen Bedingungen und möglicherweise die Bewertung der Clusterbildung regulierter Gene in Signalwegen mit Hilfe eines Signalweganalysetools umfassen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die Ergebnisse für sncRNA:Ziel-RNA, die mit einer modifizierten Version von SCRAP (SCRAP Release 2.0, das Modifikationen für die rRNA-Filterung implementiert) auf zuvor veröffentlichten Sequenzierungsdatensätzen detektiert wurden, die mit CLEAR-CLIP⁹ erstellt wurden, sind in Abbildung 2 und Tabelle 1 dargestellt. Benutzer können die Abnahme der relativen Fraktion von miRNA-Interaktionen mit Intron-Regionen erkennen, die nach der Isolierung von Wechselwirkungen mit hoher Zuverlässigkeit durch Peak-Aufruf in SCRAP auftritt. Zusätzliche Daten aus Analysen mit SCRAP sind auch in der Erstveröffentlichung dieser Pipeline⁶ verfügbar. Abhängig vom experimentellen Ansatz kann es erforderlich sein, Sequenzierungsdaten aus präparierten chimären RNA-Bibliotheken zu filtern, um Artefakte in den Ergebnissen zu reduzieren. Eine suboptimale biochemische Aufbereitung der Sequenzierungsbibliothek und/oder eine suboptimale Filterung der Sequenzierungsdaten haben das Potenzial, zu einem falschen Einschluss von Reads zu führen, die nicht aus der Ligation von sncRNAs und Ziel-RNAs stammen, die an Argonaute gebunden sind. Diese künstlichen Lesevorgänge können Primer-Dimere oder Adapter-Dimere, rRNAs und Prä-miRNAs umfassen. Tabelle 2 beschreibt mögliche Artefakte, die in den Ergebnissen erkannt werden können, sowie mögliche Lösungen.

Abbildung 1: Formatierung für Datenverzeichnisse. Dateien, die unformatierte Lesevorgänge für jede Sequenzierungsbibliothek enthalten, müssen im .fastq.gz Format bereitgestellt werden. (A) Wenn die Bibliotheken nicht gekoppelt sind, wird eine einzelne .fastq.gz Datei für die Analyse verwendet. Diese Datei sollte den Namen "SAMPLE.fastq.gz" haben, wobei SAMPLE der genaue Beispielname ist, den der Benutzer in der Adapterdatei angegeben hat. Die Datei sollte sich in einem Ordner befinden, der genau mit dem Beispielnamen übereinstimmt. (B) Für Paired-End-Sequenzierungsbibliotheken werden zwei .fastq.gz Dateien verwendet. Diese Dateien sollten "SAMPLE-R1.fastq.gz" und "SAMPLE-R2.fastq.gz" heißen und sich in einem Ordner befinden, der genau mit dem Beispielnamen übereinstimmt. Alle diese Verzeichnisse mit dem Namen SAMPLE sollten sich im selben übergeordneten Verzeichnis befinden, das der Benutzer SCRAP als "Beispielverzeichnis" zur Verfügung stellt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Anteil der miRNA:Ziel-RNA-Interaktionen nach Target-Typ- und Peak-Calling-Methoden. Chimäre sncRNA:Ziel-RNA-Sequenzierung Veröffentlichte Daten aus Bibliotheken, die mit CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ hergestellt wurden, wurden mit einer modifizierten Version von SCRAP (SCRAP release 2.0) mit implementierter rRNA-Filterung analysiert. Prä-miRNAs, tRNAs und rRNAs wurden gefiltert, und es wurden unterschiedliche Peak-Calling-Einstellungen für "hohes Konfidenz" (mindestens 3 Lesevorgänge und 2 Bibliotheken) und "alle Interaktionen" (mindestens 1 Lesevorgang und 1 Bibliothek) verwendet. Die Interaktionen wurden nach miRNA-Familie gruppiert oder nicht gruppiert. Die relativen Fraktionen der chimären RNA-Reads für die Kategorien (CDS, 5' UTR, intergen, Intron, 3'UTR) wurden berechnet und grafisch dargestellt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

	Alle Interaktionen		Interaktionen mit hoher Zuverlässigkeit
	Einzelne miRNAs	miRNA-Familien	Einzelne miRNAs	miRNA-Familien
CDS	8675	8679	925	1046
5' UTR	338	338	38	43
Intergen	2230	2230	320	339
Intron	9522	9519	382	406
3' UTR	6814	6813	548	644
Interaktionen insgesamt:	31033	31034	4219	4597

Tabelle 1: Chimäre Leseanzahl der miRNA:Ziel-RNA-Interaktionen nach Zieltyp und Peak-Calling-Methode. Chimäre sncRNA:Ziel-RNA-Sequenzierungsdaten, die aus Bibliotheken veröffentlicht wurden, die mit CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ erstellt wurden, wurden mit einer modifizierten Version von SCRAP (SCRAP release 2.0) mit implementierter rRNA-Filterung analysiert. Prä-miRNAs, tRNAs und rRNAs wurden gefiltert, und unterschiedliche Peak-Calling-Einstellungen wurden für Interaktionen mit hoher Konfidenz (mindestens 3 Lesevorgänge und 2 Bibliotheken) und alle (mindestens 1 Lesevorgang und 1 Bibliothek) verwendet, gruppiert nach miRNA-Familie oder nicht gruppiert. Für jede Bedingung wird die Anzahl der insgesamt detektierten miRNA:Ziel-RNA-Interaktionen aufgelistet, bei denen die Ziel-RNA-Interaktion der Kategorie der kodierenden Sequenz (CDS), der 5'-untranslatierten Region (5' UTR), der intergenen Region, des Introns oder der 3'-untranslatierten Region (3'UTR) zugeordnet wurde.

Potentielle Verunreinigung	Erkannt als	Bewirkt	Mögliche Lösungen
Primer-Dimere	Wechselwirkungen zwischen miRNAs, deren Sequenz mit dem 5'-Ende eines Amplifikationsprimers übereinstimmt, und einer Ziel-RNA, deren Sequenz mit dem Rest des Primers übereinstimmt.	Unsachgemäße Größentrennung (d. h. Gelextraktion) des PCR-Produkts nach der Amplifikation.	Die meisten Primer-Dimere werden nach dem Entfernen des Adapters aufgrund ihrer geringen Länge von SCRAP nicht berücksichtigt. Wenn sie weiterhin bestehen, sollten Sie Primersequenzen zu einem Filter hinzufügen.
rRNAs	Wechselwirkungen zwischen beliebigen miRNAs und bekannten rRNAs oder lncRNAs Gm26917 und Gm42418	Ineffektive Isolierung (d. h. Immunpräzipitation und Geltrennung) von Argonaute-Komplexen.	Eine rRNA-Filterung ist häufig erforderlich, wenn eine rRNA-Kontamination reichlich vorhanden ist.
tRNAs und prä-miRNAs	Wechselwirkungen zwischen tRNA-Fragmenten, die Abbauprodukte derselben tRNA sind, oder 5p- und 3p-miRNAs, die aus derselben prä-miRNA hergestellt werden.	Geringe Häufigkeit von echten sncRNA:Ziel-RNA-Chimären oder geringe Expression von Argonaute im Gewebe.	tRNA-Filterung und Prä-miRNA-Filterung.

Tabelle 2: Messwerte und Lösungen zur Sequenzierung potenzieller Verunreinigungen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Dieses Protokoll über die Verwendung der SCRAP-Pipeline für die Analyse von sncRNA:Ziel-RNA-Interaktionen wurde entwickelt, um Forscher zu unterstützen, die in die computergestützte Analyse einsteigen. Es wird erwartet, dass der Abschluss des Tutorials Forscher mit Einstiegs- oder größerer Computererfahrung durch die Schritte führt, die für die Installation und Verwendung dieser Pipeline und ihrer Anwendung zur Analyse von Daten aus chimären RNA-Sequenzierungsbibliotheken erforderlich sind. Zu den Schritten, die für die Fertigstellung dieses Protokolls entscheidend sind, gehören die korrekte Referenzinstallation und das Ausführen von SCRAP, was zeitintensiv sein und die Fehlerquelle sein kann, insbesondere wenn bei der Installation von Abhängigkeiten mit Anaconda oder der Eingabe von Befehlszeilenargumenten keine Sorgfalt walten gelassen wurde.

Hier lag der Fokus insbesondere auf Tipps und Schritten für den praktischen Einsatz der SCRAP-Pipeline zur Analyse von chimären sncRNA:target-RNA-Sequenzierungsbibliotheken. Es wurde festgestellt, dass SCRAP andere chimäre RNA-Analyseplattformen bei der Detektion von sncRNA:Ziel-RNA-Interaktionen übertrifft ^6,13. Dies kann auf das Peak-Calling-Merkmal von SCRAP zurückzuführen sein, das speziell entwickelt wurde, um die Merkmale (z. B. 3'-Schultern) zu detektieren, die als Ergebnis biochemischer Schritte beobachtet werden, die an der Bildung der chimären RNAs beteiligt sind. Andere Peak-Calling-Methoden für unterschiedliche biochemische Ansätze, wie z. B. CHIP-seq-Anwendungen (Downstream of Chromatin Immunoprecipitation Sequencing), wurden entwickelt, um Peaks in Daten zu erkennen, die symmetrisch um einen Mittelwert verteilt sind und typischerweise nicht so gut bei der Erkennung der Peak-Merkmale von chimären sncRNA:Ziel-RNA-Bibliotheken abschneiden. Benutzer können jedoch die Verwendung anderer Rechenpipelines testen, die für ihre Anforderungen besser geeignet sind, insbesondere wenn ihre Daten nicht auf diese Beschreibung passen.

Während SCRAP minimale Hardwareanforderungen hat, skaliert die SCRAP-Laufzeit schlecht mit der Größe des Datasets. Forscher, die über das Anfängerniveau hinaus sind oder über eine große Anzahl von Datensätzen oder Datensätzen mit hoher Sequenzierungsabdeckung verfügen, möchten SCRAP möglicherweise auf eine Weise verwenden, die die Analyseschritte beschleunigen kann. Da große Datensätze (in der Regel > 1 Milliarde Lesevorgänge) erweiterte Dateispeicherfunktionen und Lese-/Schreibgeschwindigkeiten für Daten erfordern, kann die Ausführung von SCRAP auf einem HPC-Cluster (High-Performance Computing) für die Analyse größerer Datensätze wünschenswert sein. Eine SCRAP-Optimierung, die für Parallelisierung und verbesserte Performance sorgen soll, wird auf GitHub zur Verfügung gestellt (https://github.com/Meffert-Lab/). Diese aktualisierte Version von SCRAP (Release 2.0) verfügt auch über verbesserte Filter für rRNA und andere Verunreinigungen.

Wie bei jeder Schnittstelle können Benutzer bei der Verwendung der Befehlszeilenschnittstelle unweigerlich auf Schwierigkeiten stoßen. Zu den häufigsten gehören Rechtschreibfehler, falsche Pfade und Paketinstallation/Versionierung. Ermittlern wird empfohlen, beim Schreiben von Befehlszeilenargumenten Vorsicht walten zu lassen und Tippfehler zu vermeiden und Pfade zu Dateien oder Ordnern genau zu reproduzieren (die Verwendung einer "Tab"-Autovervollständigung kann dabei helfen). Abhängigkeiten für SCRAP werden über Anaconda verwaltet, so dass Ermittler weniger wahrscheinlich auf Probleme bei der Paketinstallation oder Versionsaktualisierungen stoßen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts zu verraten.

Acknowledgments

Wir danken den Mitgliedern des Meffert-Labors für hilfreiche Gespräche, darunter BH Powell und WT Mills IV, für ihr kritisches Feedback zur Beschreibung der Installation und Implementierung der Pipeline. Diese Arbeit wurde durch einen Preis der Braude Foundation, das Maryland Stem Cell Research Fund Launch Program, den Blaustein Endowment for Pain Research and Education Award und NINDS RO1NS103974 und NIMH RO1MH129292 an M.K.M. unterstützt.

Materials

Name	Company	Catalog Number	Comments
Genomes	UCSC Genome browser	N/A	https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/
Linux	Linux	Ubuntu 20.04 or 22.04 LTS recommended
Mac	Apple	Mac OSX (>11)
Platform setup	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md]
SCRAP pipeline	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP
Unix shell	Unix operating system	bash >=5.0
Unix shell	Unix operating system	zsh (5.9 recommended)
Windows	Windows	WSL Ubuntu 20.04 or 22.04 LTS

DOWNLOAD MATERIALS LIST

References

Morris, K. V., Mattick, J. S. The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014).
Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119 (2023).
Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129 (2010).
Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864 (2015).
Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).

Biology

Computergestütztes Analyse-Tutorial für chimäre kleine nichtkodierende RNA: Ziel-RNA-Sequenzierungsbibliotheken

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.