Biology

Tutorial sull'analisi computazionale per piccoli RNA non codificanti chimerici: librerie di sequenziamento dell'RNA target

Published: December 1, 2023 doi: 10.3791/65779

Sreenivas Eadara¹, Xinbei Li¹, Emily A. Eiss¹, Mollie K. Meffert^1,2

¹Department of Biological Chemistry, Johns Hopkins University School of Medicine, ²Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine

Summary

Qui, presentiamo un protocollo che dimostra l'installazione e l'uso di una pipeline bioinformatica per analizzare i dati di sequenziamento dell'RNA chimerico utilizzati nello studio delle interazioni RNA:RNA in vivo .

Abstract

La comprensione delle interazioni regolatorie genetiche in vivo di piccoli RNA non codificanti (sncRNA), come i microRNA (miRNA), con i loro RNA bersaglio è stata avanzata negli ultimi anni da approcci biochimici che utilizzano il cross-linking seguito dalla legatura per catturare le interazioni sncRNA:RNA bersaglio attraverso la formazione di RNA chimerici e successive librerie di sequenziamento. Mentre i set di dati provenienti dal sequenziamento dell'RNA chimerico forniscono input a livello di genoma e sostanzialmente meno ambigui rispetto al software di previsione dei miRNA, la distillazione di questi dati in informazioni significative e fruibili richiede ulteriori analisi e può dissuadere i ricercatori che non hanno un background computazionale. Questo report fornisce un'esercitazione per supportare i biologi computazionali entry-level nell'installazione e nell'applicazione di un recente strumento software open source: Small Chimeric RNA Analysis Pipeline (SCRAP). Vengono forniti i requisiti della piattaforma, gli aggiornamenti e una spiegazione dei passaggi della pipeline e della manipolazione delle variabili chiave di input dell'utente. Ridurre una barriera per i biologi nell'ottenere informazioni dagli approcci di sequenziamento dell'RNA chimerico ha il potenziale per lanciare indagini basate sulla scoperta delle interazioni regolatorie sncRNA:RNA bersaglio in più contesti biologici.

Introduction

I piccoli RNA non codificanti sono altamente studiati per il loro ruolo post-trascrizionale nel coordinare l'espressione di gruppi di geni in diversi processi come la differenziazione e lo sviluppo, l'elaborazione dei segnali e la malattia ^1,2,3. La capacità di determinare con precisione i trascritti bersaglio di piccoli RNA non codificanti (sncRNA) regolatori genici, inclusi i microRNA (miRNA), è importante per gli studi di biologia dell'RNA sia a livello di base che di traduzione. Algoritmi bioinformatici che sfruttano la complementarità anticipata tra la sequenza seme di miRNA e i suoi potenziali bersagli sono stati frequentemente utilizzati per la predizione delle interazioni miRNA:RNA bersaglio. Sebbene questi algoritmi bioinformatici abbiano avuto successo, possono anche ospitare risultati sia falsi positivi che falsi negativi, come è stato esaminato altrove ^4,5,6. Recentemente, sono stati progettati e implementati diversi approcci biochimici che consentono la determinazione univoca e semiquantitativa delle interazioni in vivo sncRNA:RNA bersaglio mediante reticolazione in vivo e conseguente incorporazione di una fase di legatura per legare fisicamente l'sncRNA al suo bersaglio per formare un singolo RNA chimerico 4,5,7,8,9,10 . La successiva preparazione di librerie di sequenziamento a partire dagli RNA chimerici consente di valutare le interazioni sncRNA:RNA bersaglio mediante elaborazione computazionale dei dati di sequenziamento. Questo video fornisce un tutorial per l'installazione e l'utilizzo di una pipeline computazionale denominata small chimeric RNA analysis pipeline (SCRAP), progettata per consentire un'analisi robusta e riproducibile delle interazioni sncRNA:target RNA da librerie di sequenziamento dell'RNA chimerico⁶.

Uno degli obiettivi di questo tutorial è quello di aiutare i ricercatori ad evitare un'eccessiva dipendenza da algoritmi bioinformatici puramente predittivi, abbassando le barriere all'analisi dei dati generati attraverso approcci biochimici, fornendo letture molecolari chimeriche delle interazioni sncRNA:RNA bersaglio. Questo tutorial fornisce passaggi pratici e suggerimenti per guidare gli scienziati computazionali entry-level attraverso l'uso di una pipeline, SCRAP, sviluppata per analizzare i dati di sequenziamento dell'RNA chimerico, che possono essere generati da diversi protocolli biochimici esistenti, tra cui crosslinking, legatura e sequenziamento di ibridi (CLASH) e legatura covalente di RNA endogeni legati ad Argonaute - reticolazione e immunoprecipitazione (CLEAR-CLIP)^7,9.

L'utilizzo di SCRAP offre diversi vantaggi per l'analisi dei dati di sequenziamento dell'RNA chimerico, rispetto ad altre pipeline computazionali⁶. Un vantaggio saliente è la sua ampia annotazione e l'incorporazione di call-out a script bioinformatici ben supportati e regolarmente aggiornati all'interno della pipeline, rispetto a pipeline alternative che spesso si basano su script personalizzati e/o non supportati per i passaggi della pipeline. Questa caratteristica conferisce stabilità a SCRAP, rendendo più utile per i ricercatori familiarizzare con la pipeline e incorporarne l'uso nel loro flusso di lavoro. È stato anche dimostrato che SCRAP supera le pipeline alternative nel chiamare i picchi di interazioni sncRNA:target RNA e che ha funzionalità multipiattaforma, come dettagliato in una precedente pubblicazione⁶.

Al termine di questa esercitazione, gli utenti saranno in grado di (i) conoscere i requisiti della piattaforma per SCRAP e installare le pipeline SCRAP, (ii) installare genomi di riferimento e impostare i parametri della riga di comando per SCRAP e (iii) comprendere i criteri di chiamata di picco ed eseguire le chiamate di picco e l'annotazione di picco.

Questo video descriverà in dettaglio come i ricercatori che studiano la biologia dell'RNA possono installare e utilizzare in modo ottimale la pipeline computazionale, SCRAP, per analizzare le interazioni di sncRNA con gli RNA bersaglio, come gli RNA messaggeri, nei dati di sequenziamento dell'RNA chimerico ottenuti attraverso uno degli approcci biochimici discussi alla preparazione della libreria di sequenziamento.

SCRAP è un'utilità della riga di comando. Generalmente, seguendo la guida riportata di seguito, l'utente dovrà (i) scaricare e installare SCRAP (https://github.com/Meffert-Lab/SCRAP), (ii) installare genomi di riferimento ed eseguire SCRAP e (iii) eseguire le chiamate e le annotazioni dei picchi.

Ulteriori dettagli sulle fasi computazionali di questa procedura sono disponibili all'https://github.com/Meffert-Lab/SCRAP. Questo articolo fornirà la configurazione e le informazioni di base per consentire ai ricercatori con competenze computazionali di livello base di installare, ottimizzare e utilizzare SCRAP su set di dati di librerie di sequenziamento dell'RNA chimerico.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: Il protocollo inizierà con il download e l'installazione del software necessario per analizzare le librerie di sequenziamento dell'RNA chimerico utilizzando SCRAP.

1. Installazione

Prima di installare SCRAP, installare le dipendenze Git e Miniconda sulla macchina da utilizzare per le analisi. È probabile che Git sia già installato. Sulla piattaforma Mac OSX, ad esempio, verificalo utilizzando quale git per vedere che l'utilità " git " è presente e installata in questa directory. Verificare se Miniconda è installato utilizzando quale conda. Se non viene restituito nulla, installare Miniconda. Miniconda richiede 400 MB di spazio su disco per l'installazione.
1. Esistono alcuni metodi per installare Miniconda e variano in base alla piattaforma. Fare riferimento al file markdown PLATFORM-SETUP nel repository GitHub di Meffert Lab [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md] dove sono disponibili ulteriori istruzioni per l'installazione su Windows, MacOS e Ubuntu. Per gli utenti Linux, Linux ha il proprio gestore di pacchetti predefinito (apt). Nel caso specifico di questo studio, utilizzare il comando brew install Miniconda per installare Miniconda utilizzando un gestore di pacchetti esistente, brew.
  NOTA: 'Homebrew', definito 'brew' è un sistema di gestione dei pacchetti software open source che semplifica l'installazione del software sul sistema operativo Apple, macOS.
2. Se conda viene installato per la prima volta, eseguire conda init per la shell specifica che è in uso. Nell'esempio qui, la shell in uso è zsh. Quindi, chiudi e riapri il guscio. Se conda è stato installato correttamente, verrà visualizzato l'ambiente di base attivato all'interno della sessione del terminale.
Scaricare il codice sorgente SCRAP e installarne le dipendenze.
1. Il metodo preferito per ottenere i sorgenti SCRAP è l'utilizzo di Git. Per accedervi, esegui git clone https://github.com/Meffert-Lab/SCRAP per ottenere l'ultima copia del codice sorgente.
2. Installare mamba, un risolutore di pacchetti migliorato per conda, e installare tutte le dipendenze per SCRAP da SCRAP_environment.yml al proprio ambiente conda usando i seguenti comandi:
  conda install -n base conda-forge::mamba
  mamba env create -f ROTTAME/SCRAP_environment.yml -n SCARTO
Eseguire quindi l'installazione di riferimento per SCRAP. Gli argomenti utilizzati nell'installazione di riferimento saranno specifici per l'organismo di cui si stanno analizzando le interazioni sncRNA-mRNA.
bash SCRAP/bin/Reference_Installation.sh -r full/path/to/SCRAP/ -m has -g hg38 -s umano
1. Specificare la directory della cartella di origine SCRAP per l'installazione di riferimento. I passaggi di installazione verranno quindi eseguiti utilizzando i file all'interno delle cartelle fasta e annotazione . Elenca il percorso completo senza alcuna scorciatoia. Termina con una barra.
2. Fare riferimento alle tabelle in README.md per le abbreviazioni corrette delle specie miRbase. I genomi di riferimento aggiornati possono essere trovati a https://genome.ucsc.edu/ o https://www.ncbi.nlm.nih.gov/data-hub/genome/. In questo esempio, hg38 verrà utilizzato per il genoma GRCm38 del topo.
3. Le specie attualmente incluse per l'annotazione sono l'uomo, il topo e il verme. Visualizzare i file species.annotation.bed corrispondenti nella directory delle annotazioni nella cartella di origine SCRAP. Se si desidera utilizzare una specie diversa per l'analisi, fornire un file annotation.bed che segua lo stesso schema di denominazione species.annotation.bed.

2. Esecuzione di SCRAP

Ora che le dipendenze e SCRAP sono installate, - eseguire lo script SCRAP.sh
bash SCRAP/bin/SCRAP.sh -d full/percorso/della/CLASH_Human/ -a completo/percorso/della/CLASH_Human/CLASH_Human_Adapters.txt -p no -f sì -r completo/percorso/della/SCRAP/ -m ha -g hg38
1. Elencare l'intero percorso delle directory di esempio senza alcuna scorciatoia. Formattare le directory di esempio con il nome della cartella che corrisponde esattamente al nome del campione, come illustrato nella Figura 1.
2. Si noti che il percorso elencato è il percorso della directory che contiene tutte le cartelle di esempio, non il percorso di una singola cartella di esempio o di un file di esempio (fare riferimento alla riga di comando nel passaggio 2.1).
3. Elencare quindi l'intero percorso del file dell'adattatore. Assicurarsi che i nomi di esempio nel file dell'adattatore corrispondano ai nomi delle cartelle e dei file menzionati in precedenza (fare riferimento alla riga di comando nel passaggio 2.1).
4. Indicare se i campioni sono accoppiati e se verrà eseguito o meno il filtraggio per i pre-miRNA e/o i tRNA. Se lo si desidera, aggiungere un filtro per la pulizia dell'rRNA (fare riferimento alla riga di comando nel passaggio 2.1).
  NOTA: Gli utenti possono decidere o meno di utilizzare questi filtri a seconda dei tipi di campione e degli obiettivi sperimentali. A seconda del disegno sperimentale, i pre-miRNA, i tRNA e gli rRNA possono consumare la profondità di sequenziamento disponibile per le chimere reali sncRNA:target RNA e gli utenti possono utilizzare filtri per escluderli. Tuttavia, gli utenti potrebbero voler evitare tale filtraggio in determinate circostanze (ad esempio, mappando i bersagli sncRNA sul genoma mitocondriale, che contiene rRNA mitocondriali).
5. Quindi, elencare l'intero percorso della directory di riferimento, l'abbreviazione miRbase e l'abbreviazione del genoma di riferimento (fare riferimento alla riga di comando nel passaggio 2.1).
  NOTA: il completamento dello script potrebbe richiedere alcune ore, a seconda delle dimensioni del set di dati e della CPU del computer in uso.

3. Chiamate e annotazioni di picco

Al termine dell'esecuzione di SCRAP, verificare che l'output includa, tra gli altri file, un file SAMPLE.aligned.unique.bam. Si tratta di un file binario contenente allineamenti di RNA bersaglio sul genoma di riferimento fornito dall'utente.
Ora esegui le chiamate di picco eseguendo Peak_Calling.sh.
bash ROTTAMI/contenitore/Peak_Calling.sh -d CLASH_Human/ -a CLASH_Human/CLASH_Human_Adapters.txt -c 3 -l 2 -f no -r ROTTAMI/ -m ha -g hg38
NOTA: La chiamata di picco è una caratteristica di SCRAP, che è progettata per consentire ai ricercatori di valutare prontamente le interazioni RNA non codificante più robuste e riproducibili all'interno delle loro librerie di RNA chimerico. Questa funzione, ad esempio, può aiutare i ricercatori a identificare le interazioni che potrebbero voler selezionare per ulteriori indagini. Il passaggio 3.2.2 seguente descrive come l'utente imposta i criteri che desidera vengano utilizzati per definire il rigore con cui viene chiamato un picco, incluso il numero di interazioni univoche, o letture di sequenziamento, che devono essersi verificate affinché il picco venga chiamato, nonché il numero di librerie in cui deve essersi verificata questa particolare interazione.
1. Anche in questo caso, elencare i percorsi completi della directory contenente le cartelle di esempio e il file dell'adattatore (fare riferimento alla riga di comando nel passaggio 3.2).
2. Successivamente, impostare il numero minimo di letture di sequenziamento necessarie per la chiamata di un picco (fare riferimento alla riga di comando nel passaggio 3.2).
3. Impostare il numero minimo di librerie di sequenziamento distinte che devono contenere un picco per poter essere chiamate (fare riferimento alla riga di comando nel passaggio 3.2).
  NOTA: La scelta dei valori per i punti 3.2.2 e 3.2.3 dipenderà dalla natura dei campioni sequenziati e dal numero di campioni o tipi di campioni. In questo caso, sono necessarie almeno 3 letture di sequenziamento chimerico in un campione per chiamare un picco e il picco deve essere supportato da almeno 2 campioni. Un ricercatore che valuta un set di dati in cui sono presenti molte repliche di librerie di sequenziamento per una determinata condizione, ad esempio, potrebbe decidere di richiedere la presenza delle letture in un numero maggiore di librerie di sequenziazione di esempio.
4. Indicare se gli sncRNA della stessa famiglia devono contribuire allo stesso picco. Ad esempio, poiché i miRNA della stessa famiglia condividono sequenze seme, questi miRNA possono legare insiemi di geni bersagli condivisi e sovrapposti; Un utente potrebbe voler identificare l'impatto completo di una famiglia su questi obiettivi valutando i loro picchi collettivi (fare riferimento alla riga di comando nel passaggio 3.2).
5. Quindi, indicare il percorso completo della directory di riferimento, l'abbreviazione miRBase e l'abbreviazione del genoma di riferimento (fare riferimento alla riga di comando nel passaggio 3.2).
Una volta completata la chiamata di picco, eseguire l'annotazione di picco.
bash SCRAP/bin/Peak_Annotation.sh -p CLASH_Human/peaks.bed -r SCRAP/ -s umano
1. Elenca il percorso completo del file peaks.bed (o peaks.family.bed) risultante dal richiamo del picco, il percorso completo della directory di riferimento e la specie desiderata per l'annotazione.

4. Visualizzazione dei dati

NOTA: tutti i passaggi per l'analisi tramite SCARTO sono stati completati. Per visualizzare i dati, si consigliano diversi approcci:

Unisci tutti i file .bam (file SAM binario) che si desidera visualizzare insieme (samtools merge).
Ordina il file .bam unito risultante (samtools sort). Il contenuto dei file è ordinato riga per riga in modo che samtools possa indicizzarlo.
Indicizzare il file .bam ordinato (samtools index). Viene generato un file BAI (binary samtools format index) per consentire la visualizzazione nel visualizzatore di genomica integrativa (IGV).
Infine, apri il file .bam ordinato e il file .bai indicizzato risultante in IGV.
NOTA: SncRNA: le interazioni dell'RNA bersaglio di interesse possono essere prioritarie per il follow-up in una serie di modi specifici dell'indagine. Un approccio iniziale generico consiste nel valutare le interazioni per le quali i picchi sono supportati dalle letture di sequenziamento più chimeriche. Le interazioni di interesse possono anche essere visualizzate utilizzando il server Web DuplexFold dal pacchetto RNAstructure inserendo la sequenza sia per l'sncRNA che per l'RNA bersaglio dall'interazione rilevata¹¹. Per ogni picco, il cromosoma (prima colonna) e le coordinate genomiche (inizio: 1a colonna fine: 2a colonna) possono essere trovati all'interno del file peaks.bed.species.annotation.txt generato nell'annotazione del picco. Per i miRNA in particolare, mentre le interazioni riproducibili e funzionali possono mancare di un esteso legame con il seme (ad esempio, le interazioni possono utilizzare il legame compensatorio 3'), la presenza di siti abbinati al seme in un motivo di legame affine dell'RNA bersaglio può comunque essere valutata come una caratteristica di convalida delle interazioni rilevate funzionalmente importanti ^4,12. L'elaborazione ausiliaria dei dati potrebbe includere confronti della copertura differenziale di lettura tra picchi in condizioni biologiche distinte e potenzialmente la valutazione del raggruppamento di geni regolati in percorsi utilizzando uno strumento di analisi dei percorsi.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I risultati per sncRNA:target RNA rilevato da una versione modificata di SCRAP (SCRAP release 2.0, che implementa modifiche per il filtraggio dell'rRNA) su set di dati di sequenziamento precedentemente pubblicati e preparati utilizzando CLEAR-CLIP⁹ sono mostrati nella Figura 2 e nella Tabella 1. Gli utenti possono apprezzare la diminuzione delle interazioni dei miRNA della frazione relativa con le regioni degli introni che si verifica in seguito all'isolamento delle interazioni ad alta confidenza mediante chiamata di picco in SCRAP. Ulteriori dati provenienti da analisi che utilizzano SCRAP sono disponibili anche nella pubblicazione iniziale di questa pipeline⁶. A seconda dell'approccio sperimentale, potrebbe essere necessario filtrare i dati di sequenziamento da librerie di RNA chimerico preparate per ridurre gli artefatti nei risultati. Una preparazione biochimica non ottimale della libreria di sequenziamento e/o un filtraggio non ottimale dei dati di sequenziamento hanno il potenziale di comportare l'inclusione errata di letture che non derivano dalla legatura di sncRNA e RNA bersaglio legati da Argonaute. Queste letture artefatte possono includere dimeri primer o dimeri adattatori, rRNA e pre-miRNA. La Tabella 2 descrive i possibili artefatti che possono essere rilevati nei risultati e le potenziali soluzioni.

Figura 1: Formattazione per le directory di dati. I file contenenti letture non elaborate per ogni libreria di sequenziazione devono essere forniti nel formato .fastq.gz. (A) Se le librerie non sono accoppiate, nell'analisi verrà utilizzato un singolo file .fastq.gz. Questo file deve essere denominato 'SAMPLE.fastq.gz' dove SAMPLE è il nome esatto del campione fornito dall'utente nel file dell'adattatore. Il file deve essere contenuto all'interno di una cartella che corrisponda esattamente al nome del campione. (B) Per le librerie di sequenziamento paired-end, verranno utilizzati due file .fastq.gz. Questi file devono essere denominati 'SAMPLE-R1.fastq.gz' e 'SAMPLE-R2.fastq.gz' e devono trovarsi all'interno di una cartella che corrisponda esattamente al nome del campione. Tutte le directory denominate SAMPLE devono trovarsi all'interno della stessa directory padre, che l'utente fornirà a SCRAP come "directory di esempio". Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Proporzione di interazioni miRNA:RNA bersaglio per tipo di bersaglio e metodi di chiamata di picco. I dati pubblicati da librerie preparate utilizzando CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ sono stati analizzati utilizzando una versione modificata di SCRAP (SCRAP release 2.0) con il filtraggio dell'rRNA implementato. I pre-miRNA, i tRNA e gli rRNA sono stati filtrati e sono state utilizzate impostazioni di chiamata di picco distinte per "alta confidenza" (minimo 3 letture e 2 librerie) e "tutte le interazioni" (minimo 1 lettura e 1 libreria). Le interazioni sono state raggruppate per famiglia di miRNA o non raggruppate. Le frazioni relative di letture chimeriche dell'RNA per le categorie (CDS, 5' UTR, intergenico, introne, 3'UTR) sono state calcolate e rappresentate graficamente. Fare clic qui per visualizzare una versione più grande di questa figura.

	Tutte le interazioni		Interazioni ad alta confidenza
	Singoli miRNA	Famiglie di miRNA	Singoli miRNA	Famiglie di miRNA
CD	8675	8679	925	1046
5' UTR	338	338	38	43
Intergenico	2230	2230	320	339
Introne	9522	9519	382	406
3' UTR	6814	6813	548	644
Interazioni totali:	31033	31034	4219	4597

Tabella 1: Conteggi chimerici di lettura delle interazioni miRNA:RNA bersaglio per tipo di bersaglio e metodo di chiamata del picco. I dati di sequenziamento dell'RNA sncRNA chimerico pubblicati da librerie preparate utilizzando CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ sono stati analizzati utilizzando una versione modificata di SCRAP (SCRAP release 2.0) con il filtraggio dell'rRNA implementato. I pre-miRNA, i tRNA e gli rRNA sono stati filtrati e sono state utilizzate impostazioni di chiamata di picco distinte per le interazioni ad alta confidenza (minimo 3 letture e 2 librerie) e tutte (minimo 1 lettura e 1 libreria), raggruppate per famiglia di miRNA o non raggruppate. Per ogni condizione, sono elencati i conteggi delle interazioni totali rilevate tra miRNA e RNA bersaglio in cui l'interazione con l'RNA bersaglio è stata mappata nella categoria della sequenza codificante (CDS), della regione non tradotta 5' (5' UTR), della regione intergenica, dell'introne o della regione non tradotta 3' (3'UTR).

Potenziale contaminante	Rilevato come	Cause	Potenziali soluzioni
Dimeri di primer	Interazioni rilevate tra miRNA la cui sequenza corrisponde all'estremità 5' di un primer di amplificazione e un RNA bersaglio la cui sequenza corrisponde al resto del primer.	Separazione dimensionale impropria (cioè estrazione su gel) del prodotto PCR dopo l'amplificazione.	La maggior parte dei dimeri di primer verrà ignorata da SCRAP dopo la rimozione dell'adattatore a causa della loro lunghezza ridotta. Se persistono, prendere in considerazione l'aggiunta di sequenze di primer a un filtro.
rRNA	Interazioni tra miRNA arbitrari e rRNA o lncRNA noti Gm26917 e Gm42418	Isolamento inefficace (i.e. immunoprecipitazione e separazione del gel) dei complessi Argonaute.	Il filtraggio dell'rRNA è spesso necessario quando la contaminazione da rRNA è abbondante.
tRNA e pre-miRNA	Interazioni tra frammenti di tRNA che sono prodotti di degradazione dello stesso tRNA o miRNA 5p e 3p prodotti dallo stesso pre-miRNA.	Bassa abbondanza di vero sncRNA: chimere di RNA bersaglio o bassa espressione di Argonaute tissutale.	Filtraggio dei tRNA e filtraggio dei pre-miRNA.

Tabella 2: Letture e soluzioni per il sequenziamento di potenziali contaminanti.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Questo protocollo sull'uso della pipeline SCRAP per l'analisi delle interazioni sncRNA:target RNA è progettato per assistere i ricercatori che stanno entrando nell'analisi computazionale. Ci si aspetta che il completamento dell'esercitazione guidi i ricercatori con esperienza computazionale entry-level o superiore attraverso i passaggi necessari per l'installazione e l'uso di questa pipeline e della sua applicazione per analizzare i dati ottenuti dalle librerie di sequenziamento dell'RNA chimerico. I passaggi critici per il completamento di questo protocollo includono la corretta installazione dei riferimenti e l'esecuzione di SCRAP, che può richiedere molto tempo e può essere fonte di errori, in particolare se non è stata prestata attenzione durante l'installazione delle dipendenze utilizzando Anaconda o la digitazione di argomenti della riga di comando.

In questo caso, l'attenzione si è concentrata in particolare sui suggerimenti e sui passaggi per l'uso pratico della pipeline SCRAP per l'analisi delle librerie chimeriche di sequenziamento sncRNA:target RNA. È stato riscontrato che SCRAP supera le prestazioni di altre piattaforme di analisi dell'RNA chimerico nella rilevazione delle interazioni sncRNA:RNA bersaglio ^6,13. Ciò può essere dovuto alla funzione di chiamata di picco di SCRAP, che è stata sviluppata specificamente per rilevare le caratteristiche (ad esempio 3' shouldering) che si osservano come risultato di passaggi biochimici coinvolti nella formazione degli RNA chimerici. Altri metodi di chiamata dei picchi per approcci biochimici distinti, come le applicazioni a valle del sequenziamento dell'immunoprecipitazione della cromatina (CHIP-seq), sono stati sviluppati per rilevare i picchi nei dati che sono distribuiti simmetricamente intorno a una media e in genere non funzionano altrettanto bene nel rilevare le caratteristiche di picco delle librerie chimeriche di sncRNA:target RNA. Gli utenti potrebbero, tuttavia, voler testare l'uso di altre pipeline computazionali che potrebbero funzionare meglio per le loro esigenze, in particolare se i loro dati non corrispondono a questa descrizione.

Mentre SCRAP ha requisiti hardware minimi, il runtime SCRAP è scarsamente ridimensionabile con le dimensioni del set di dati. Gli investigatori che hanno superato il livello principiante o che dispongono di un numero elevato di set di dati o di set di dati con un'elevata copertura di sequenziamento, potrebbero voler utilizzare SCRAP in modo da accelerare le fasi di analisi. Poiché i set di dati di grandi dimensioni (in genere, > 1 miliardo di letture) richiedono funzionalità di archiviazione dei file avanzate e velocità di lettura/scrittura per i dati, l'esecuzione di SCRAP su un cluster HPC (High-Performance Computing) può essere utile per l'analisi di set di dati più grandi. Un'ottimizzazione SCRAP, che dovrebbe fornire parallelizzazione e prestazioni migliorate, sarà resa disponibile su GitHub (https://github.com/Meffert-Lab/). Questa versione aggiornata di SCRAP (versione 2.0) ha anche filtri migliorati per rRNA e altri contaminanti.

Come con qualsiasi interfaccia, gli utenti possono inevitabilmente incontrare difficoltà quando utilizzano l'interfaccia a riga di comando. I più comuni includono errori di ortografia, percorsi errati e installazione/controllo delle versioni dei pacchetti. Si consiglia agli investigatori di prestare attenzione ed evitare errori di battitura quando si scrivono argomenti della riga di comando e di riprodurre esattamente i percorsi di file o cartelle (l'uso di un completamento automatico "tabulazione" può aiutare in questo). Le dipendenze per SCRAP sono gestite tramite Anaconda in modo che gli investigatori abbiano meno probabilità di riscontrare problemi con l'installazione dei pacchetti o gli aggiornamenti delle versioni.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Ringraziamo i membri del laboratorio Meffert per le utili discussioni, tra cui BH Powell e WT Mills IV, per il feedback critico sulla descrizione dell'installazione e dell'implementazione del gasdotto. Questo lavoro è stato sostenuto da un premio della Fondazione Braude, dal programma di lancio del Maryland Stem Cell Research Fund, dal premio Blaustein Endowment for Pain Research and Education e dal NINDS RO1NS103974 e NIMH RO1MH129292 a M.K.M.

Materials

Name	Company	Catalog Number	Comments
Genomes	UCSC Genome browser	N/A	https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/
Linux	Linux	Ubuntu 20.04 or 22.04 LTS recommended
Mac	Apple	Mac OSX (>11)
Platform setup	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md]
SCRAP pipeline	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP
Unix shell	Unix operating system	bash >=5.0
Unix shell	Unix operating system	zsh (5.9 recommended)
Windows	Windows	WSL Ubuntu 20.04 or 22.04 LTS

DOWNLOAD MATERIALS LIST

References

Morris, K. V., Mattick, J. S. The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014).
Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119 (2023).
Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129 (2010).
Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864 (2015).
Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).

Biology

Tutorial sull'analisi computazionale per piccoli RNA non codificanti chimerici: librerie di sequenziamento dell'RNA target

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.