Biology

Tutoriel d’analyse computationnelle pour les petits ARN non codants chimériques : bibliothèques de séquençage de l’ARN cible

Published: December 1, 2023 doi: 10.3791/65779

Sreenivas Eadara¹, Xinbei Li¹, Emily A. Eiss¹, Mollie K. Meffert^1,2

¹Department of Biological Chemistry, Johns Hopkins University School of Medicine, ²Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine

Summary

Nous présentons ici un protocole démontrant l’installation et l’utilisation d’un pipeline bioinformatique pour analyser les données de séquençage chimérique de l’ARN utilisées dans l’étude des interactions ARN :ARN in vivo .

Abstract

La compréhension des interactions in vivo entre les gènes régulateurs des petits ARN non codants (ARNsnc), tels que les microARN (miARN), et leurs ARN cibles, a progressé ces dernières années grâce à des approches biochimiques qui utilisent la réticulation suivie d’une ligature pour capturer les interactions ARN snc :ARN cible par la formation d’ARN chimériques et de banques de séquençage ultérieures. Bien que les ensembles de données issus du séquençage chimérique de l’ARN fournissent des données à l’échelle du génome et soient beaucoup moins ambigus que les logiciels de prédiction des miARN, la distillation de ces données en informations significatives et exploitables nécessite des analyses supplémentaires et peut dissuader les chercheurs qui n’ont pas de connaissances en informatique. Ce rapport fournit un tutoriel pour aider les biologistes computationnels débutants à installer et à appliquer un outil logiciel open source récent : Small Chimeric RNA Analysis Pipeline (SCRAP). Les exigences de la plate-forme, les mises à jour et une explication des étapes du pipeline et de la manipulation des variables d’entrée utilisateur clés sont fournies. La réduction d’un obstacle pour les biologistes à l’obtention d’informations à partir d’approches chimériques de séquençage de l’ARN a le potentiel de servir de tremplin à des recherches fondées sur la découverte d’interactions régulatrices entre l’ARNnc et l’ARN cible dans de multiples contextes biologiques.

Introduction

Les petits ARN non codants sont très étudiés pour leur rôle post-transcriptionnel dans la coordination de l’expression de suites de gènes dans divers processus tels que la différenciation et le développement, le traitement du signal et la maladie ^1,2,3. La capacité de déterminer avec précision les transcrits cibles des petits ARN non codants (ARNsnc) régulateurs des gènes, y compris les microARN (miARN), est importante pour les études de biologie de l’ARN aux niveaux fondamental et translationnel. Les algorithmes bioinformatiques qui exploitent la complémentarité anticipée entre la séquence d’amorçage du miARN et ses cibles potentielles ont été fréquemment utilisés pour la prédiction des interactions miARN :ARN cible. Bien que ces algorithmes bioinformatiques aient été couronnés de succès, ils peuvent également contenir des résultats à la fois faux positifs et faux négatifs, comme cela a été examiné ailleurs ^4,5,6. Récemment, plusieurs approches biochimiques ont été conçues et mises en œuvre qui permettent de déterminer sans ambiguïté et semi-quantitativement les interactions ARNsnc snc :ARN cible in vivo par réticulation in vivo et l’incorporation subséquente d’une étape de ligature pour attacher physiquement l’ARNsnc à sa cible pour former un seul ARN chimérique 4,5,7,8,9,10 . La préparation ultérieure de banques de séquençage à partir des ARN chimériques permet d’évaluer les interactions ARNsnc :ARN cible par traitement informatique des données de séquençage. Cette vidéo fournit un tutoriel pour l’installation et l’utilisation d’un pipeline de calcul appelé small chimeric RNA analysis pipeline (SCRAP), qui est conçu pour permettre une analyse robuste et reproductible des interactions sncRNA :ARN cible à partir de bibliothèques de séquençage d’ARN chimérique⁶.

L’un des objectifs de ce tutoriel est d’aider les chercheurs à éviter de s’appuyer excessivement sur des algorithmes bioinformatiques purement prédictifs en réduisant les obstacles à l’analyse des données générées par des approches biochimiques fournissant des lectures moléculaires chimériques des interactions ARNsnc :ARN cible. Ce tutoriel fournit des étapes pratiques et des conseils pour guider les informaticiens débutants dans l’utilisation d’un pipeline, SCRAP, développé pour analyser les données de séquençage de l’ARN chimérique, qui peuvent être générées par plusieurs protocoles biochimiques existants, y compris la réticulation, la ligature et le séquençage des hybrides (CLASH) et la ligature covalente des ARN endogènes liés à l’argonaute - réticulation et immunoprécipitation (CLEAR-CLIP)^7,9.

L’utilisation de SCRAP offre plusieurs avantages pour l’analyse des données de séquençage d’ARN chimérique, par rapport à d’autres pipelines de calcul⁶. L’un des principaux avantages est son annotation étendue et l’incorporation d’appels à des scripts bioinformatiques bien pris en charge et régulièrement mis à jour dans le pipeline, par rapport aux pipelines alternatifs qui s’appuient souvent sur des scripts personnalisés et/ou non pris en charge pour les étapes du pipeline. Cette fonctionnalité confère de la stabilité à SCRAP, ce qui permet aux chercheurs de se familiariser avec le pipeline et d’intégrer son utilisation dans leur flux de travail. Il a également été démontré que SCRAP surpasse les pipelines alternatifs dans l’appel des pics d’interactions ARNsnc :ARN cible et qu’il a une fonctionnalité multiplateforme, comme détaillé dans une publication antérieure⁶.

À la fin de ce didacticiel, les utilisateurs seront en mesure (i) de connaître les exigences de la plate-forme pour SCRAP et d’installer des pipelines SCRAP, (ii) d’installer des génomes de référence et de configurer des paramètres de ligne de commande pour SCRAP, et (iii) de comprendre les critères d’appel de pic et d’effectuer des appels de pics et des annotations de pics.

Cette vidéo décrira en détail comment les chercheurs qui étudient la biologie de l’ARN peuvent installer et utiliser de manière optimale le pipeline de calcul, SCRAP, pour analyser les interactions de l’ARNsnc avec les ARN cibles, tels que les ARN messagers, dans les données de séquençage chimérique de l’ARN obtenues grâce à l’une des approches biochimiques discutées pour la préparation de banques de séquençage.

SCRAP est un utilitaire en ligne de commande. En règle générale, en suivant le guide ci-dessous, l’utilisateur devra (i) télécharger et installer SCRAP (https://github.com/Meffert-Lab/SCRAP), (ii) installer des génomes de référence et exécuter SCRAP, et (iii) effectuer des appels de pics et des annotations.

Vous trouverez de plus amples informations sur les étapes de calcul de cette procédure à l’adresse https://github.com/Meffert-Lab/SCRAP. Cet article fournira la configuration et les informations de base pour permettre aux chercheurs ayant des compétences informatiques de base d’installer, d’optimiser et d’utiliser SCRAP sur des ensembles de données de bibliothèque de séquençage d’ARN chimérique.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

REMARQUE : Le protocole commencera par le téléchargement et l’installation du logiciel nécessaire à l’analyse des bibliothèques de séquençage d’ARN chimérique à l’aide de SCRAP.

1. L’installation

Avant d’installer SCRAP, installez les dépendances Git et Miniconda sur la machine à utiliser pour les analyses. Git est probablement déjà installé. Sur la plate-forme Mac OSX, par exemple, vérifiez cela à l’aide de quel git pour voir que l’utilitaire « git » est présent et installé dans ce répertoire. Vérifiez si Miniconda est installé à l’aide de quel conda. Si rien n’est retourné, installez Miniconda. L’installation de Miniconda nécessite 400 Mo d’espace disque.
1. Il existe plusieurs méthodes pour installer Miniconda, et elles diffèrent selon la plate-forme. Reportez-vous au fichier Markdown PLATFORM-SETUP sur le référentiel GitHub de Meffert Lab [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md] où vous trouverez des instructions supplémentaires pour l’installation sur Windows, MacOS et Ubuntu. Pour les utilisateurs de Linux, Linux a son propre gestionnaire de paquets par défaut (apt). Dans le cas spécifique à cette étude, utilisez la commande brew install Miniconda pour installer Miniconda à l’aide d’un gestionnaire de paquets existant, brew.
  REMARQUE : « Homebrew », appelé « brew », est un système de gestion de progiciels open source qui simplifie l’installation de logiciels sur le système d’exploitation d’Apple, macOS.
2. Si conda est installé pour la première fois, exécutez conda init pour le shell particulier utilisé. Dans l’exemple ci-dessous, le shell utilisé est zsh. Ensuite, fermez et rouvrez la coque. Si conda a été installé avec succès, l’environnement de base activé dans la session de terminal s’affiche.
Téléchargez le code source SCRAP et installez ses dépendances.
1. La méthode préférée pour obtenir la source SCRAP est d’utiliser Git. Accédez-y en exécutant git clone https://github.com/Meffert-Lab/SCRAP pour obtenir la dernière copie du code source.
2. Installez mamba, un solveur de package amélioré pour conda, et installez toutes les dépendances de SCRAP à partir de SCRAP_environment.yml dans son propre environnement conda à l’aide des commandes suivantes :
  conda install -n base conda-forge ::mamba
  mamba env create -f SCRAP/SCRAP_environment.yml -n SCRAP
Ensuite, exécutez l’installation de référence pour SCRAP. Les arguments utilisés dans l’installation de référence seront spécifiques à l’organisme dont les interactions ARNm-ARNm sont analysées.
bash SCRAP/bin/Reference_Installation.sh -r full/path/to/SCRAP/ -m a -g hg38 -s humain
1. Indiquez le répertoire du dossier source SCRAP pour l’installation de référence. Les étapes d’installation seront ensuite effectuées à l’aide des fichiers contenus dans les dossiers fasta et annotation . Répertoriez le chemin complet sans aucune abréviation. Terminez par une barre oblique.
2. Reportez-vous aux tableaux en README.md pour connaître les abréviations correctes des espèces de base. Les génomes de référence à jour peuvent être trouvés à https://genome.ucsc.edu/ ou https://www.ncbi.nlm.nih.gov/data-hub/genome/. Dans cet exemple, hg38 sera utilisé pour le génome de la souris GRCm38.
3. Les espèces actuellement incluses pour l’annotation sont l’homme, la souris et le ver. Affichez les fichiers species.annotation.bed correspondants dans le répertoire d’annotation du dossier source SCRAP. Si vous souhaitez utiliser une espèce différente pour l’analyse, fournissez un fichier annotation.bed qui suit le même schéma de nommage species.annotation.bed.

2. Exécution de SCRAP

Maintenant que les dépendances et SCRAP sont installés, exécutez le script SCRAP.sh
bash SCRAP/bin/SCRAP.sh -d full/path/to/CLASH_Human/ -a full/path/to/CLASH_Human/CLASH_Human_Adapters.txt -p no -f yes -r full/path/to/SCRAP/ -m has -g hg38
1. Répertoriez le chemin d’accès complet aux répertoires d’exemple sans raccourci. Mettez en forme les répertoires d’exemple avec le nom de dossier correspondant exactement au nom de l’échantillon, comme illustré à la figure 1.
2. Notez que le chemin d’accès répertorié est le chemin d’accès au répertoire qui contient tous les dossiers d’exemple, et non le chemin d’accès à un dossier d’exemple individuel ou à un fichier d’exemple (reportez-vous à la ligne de commande de l’étape 2.1).
3. Ensuite, répertoriez le chemin d’accès complet au fichier de l’adaptateur. Assurez-vous que les exemples de noms dans le fichier de l’adaptateur correspondent aux noms de dossiers et de fichiers mentionnés précédemment (reportez-vous à la ligne de commande de l’étape 2.1).
4. Indiquez si les échantillons sont appariés et si un filtrage des pré-miARN et/ou des ARNt sera effectué ou non. Ajoutez un filtre pour le nettoyage de l’ARNr si vous le souhaitez (reportez-vous à la ligne de commande à l’étape 2.1).
  REMARQUE : Les utilisateurs peuvent décider ou non d’utiliser ces filtres en fonction des types d’échantillons et des objectifs expérimentaux. Selon la conception expérimentale, les pré-miARN, les ARNt et les ARNr peuvent consommer la profondeur de séquençage disponible pour les chimères d’ARN snc :ARN cible réelles et les utilisateurs peuvent utiliser des filtres pour les exclure. Cependant, les utilisateurs peuvent vouloir éviter un tel filtrage dans certaines circonstances (par exemple, en cartographiant les cibles de l’ARNsnc au génome mitochondrial, qui contient des ARNr mitochondriaux).
5. Ensuite, répertoriez le chemin complet vers le répertoire de référence, l’abréviation miRbase et l’abréviation du génome de référence (reportez-vous à la ligne de commande à l’étape 2.1).
  REMARQUE : l’exécution du script peut prendre quelques heures, en fonction de la taille du jeu de données et du processeur de l’ordinateur utilisé.

3. Appels de pointe et annotations

Une fois l’exécution de SCRAP terminée, vérifiez que la sortie inclut, entre autres fichiers, un fichier SAMPLE.aligned.unique.bam. Il s’agit d’un fichier binaire contenant les alignements des ARN cibles sur le génome de référence fourni par l’utilisateur.
Effectuez maintenant des appels de pointe en exécutant Peak_Calling.sh.
bash SCRAP/bin/Peak_Calling.sh -d CLASH_Human/ -a CLASH_Human/CLASH_Human_Adapters.txt -c 3 -l 2 -f no -r SCRAP/ -m a -g hg38
REMARQUE : L’appel de pic est une fonctionnalité de SCRAP, qui est conçue pour permettre aux chercheurs d’évaluer facilement les interactions ARN-cible de petite taille non codantes les plus robustes et les plus reproductibles au sein de leurs banques d’ARN chimériques. Cette fonctionnalité, par exemple, peut aider les chercheurs à identifier les interactions qu’ils pourraient vouloir sélectionner pour une enquête plus approfondie. L’étape 3.2.2 ci-dessous décrit comment l’utilisateur définit les critères qu’il souhaite utiliser pour définir la rigueur avec laquelle un pic est appelé - cela inclut le nombre d’interactions uniques, ou lectures de séquençage, qui doivent s’être produites pour que le pic soit appelé, ainsi que le nombre de bibliothèques dans lesquelles cette interaction particulière doit s’être produite.
1. Encore une fois, répertoriez les chemins d’accès complets au répertoire contenant les exemples de dossiers et le fichier de l’adaptateur (reportez-vous à la ligne de commande à l’étape 3.2).
2. Ensuite, définissez le nombre minimum de lectures de séquençage requises pour qu’un pic soit appelé (reportez-vous à la ligne de commande à l’étape 3.2).
3. Définissez le nombre minimal de bibliothèques de séquençage distinctes qui doivent contenir un pic pour qu’il soit appelé (reportez-vous à la ligne de commande à l’étape 3.2).
  NOTA : Le choix des valeurs pour les paragraphes 3.2.2 et 3.2.3 dépend de la nature des échantillons séquencés et du nombre d’échantillons ou de types d’échantillons. Ici, au moins 3 lectures de séquençage chimérique dans un échantillon sont nécessaires pour appeler un pic, et le pic doit être pris en charge par au moins 2 échantillons. Un chercheur évaluant un ensemble de données dans lequel il existe de nombreuses répétitions de bibliothèques de séquençage pour une condition donnée, par exemple, peut décider d’exiger la présence des lectures dans un plus grand nombre de bibliothèques de séquençage d’échantillons.
4. Indiquez si les ARNsnc d’une même famille doivent contribuer au même pic. Par exemple, étant donné que les miARN d’une même famille partagent des séquences de semences, ces miARN peuvent se lier à des ensembles de gènes cibles partagés et qui se chevauchent ; Un utilisateur peut souhaiter identifier l’impact complet d’une famille sur ces cibles en évaluant leurs pics collectifs (reportez-vous à la ligne de commande à l’étape 3.2).
5. Ensuite, indiquez le chemin d’accès complet au répertoire de référence, l’abréviation miRBase et l’abréviation du génome de référence (reportez-vous à la ligne de commande à l’étape 3.2).
Une fois l’appel de pic terminé, exécutez l’annotation de pic.
bash SCRAP/bin/Peak_Annotation.sh -p CLASH_Human/peaks.bed -r SCRAP/ -s humain
1. Répertoriez le chemin d’accès complet au fichier peaks.bed (ou peaks.family.bed) résultant de l’appel de pic, le chemin d’accès complet au répertoire de référence et l’espèce souhaitée pour l’annotation.

4. Visualisation des données

REMARQUE : Toutes les étapes de l’analyse à l’aide de SCRAP sont maintenant terminées. Pour visualiser les données, plusieurs approches sont recommandées :

Fusionnez tous les fichiers .bam (fichier SAM binaire) que vous souhaiterez visualiser ensemble (samtools merge).
Triez le fichier .bam fusionné résultant (samtools sort). Le contenu des fichiers est trié ligne par ligne afin que samtools puisse indexer.
Indexez le fichier .bam trié (index samtools). Un fichier BAI (binary samtools format index) est généré pour permettre la visualisation dans la visionneuse de génomique intégrative (IGV).
Enfin, ouvrez le fichier .bam trié et indexé .bai résultant dans IGV.
REMARQUE : ARNsnc : Les interactions d’intérêt avec l’ARN cible peuvent être classées par ordre de priorité pour le suivi de plusieurs façons spécifiques à l’enquête. Une première approche générique consiste à évaluer les interactions pour lesquelles les pics sont soutenus par les lectures de séquençage les plus chimériques. Les interactions d’intérêt peuvent également être visualisées à l’aide du serveur Web DuplexFold à partir du package RNAstructure en saisissant la séquence de l’ARNsnc et de l’ARN cible de l’interaction détectée¹¹. Pour chaque pic, le chromosome (première colonne) et les coordonnées génomiques (début : 1ère colonne fin : 2ème colonne) se trouvent dans le fichier peaks.bed.species.annotation.txt généré dans l’annotation du pic. Pour les miARN en particulier, bien que les interactions reproductibles et fonctionnelles puissent ne pas avoir de liaison étendue à la graine (par exemple, les interactions peuvent utiliser une liaison compensatoire 3'), la présence de sites appariés à la graine dans un motif de liaison apparenté à l’ARN cible peut néanmoins être évaluée comme une caractéristique validant des interactions détectées fonctionnellement importantes ^4,12. Le traitement des données auxiliaires pourrait inclure des comparaisons de la couverture différentielle de lecture entre des pics dans des conditions biologiques distinctes et, éventuellement, l’évaluation du regroupement de gènes régulés en voies à l’aide d’un outil d’analyse des voies.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Les résultats pour l’ARN snc :cible détecté par une version modifiée de SCRAP (version 2.0 de SCRAP, qui implémente des modifications pour le filtrage de l’ARNr) sur des ensembles de données de séquençage précédemment publiés et préparés à l’aide de CLEAR-CLIP⁹ sont présentés à la figure 2 et au tableau 1. Les utilisateurs peuvent apprécier la diminution des interactions relatives des miARN de fraction avec les régions d’intron, qui se produit à la suite de l’isolement des interactions à haut niveau de confiance par l’appel de pic dans SCRAP. Des données supplémentaires issues d’analyses effectuées à l’aide de SCRAP sont également disponibles dans la publication initiale de ce pipeline⁶. Selon l’approche expérimentale, le filtrage des données de séquençage à partir de banques d’ARN chimériques préparées pourrait être nécessaire pour réduire les artefacts dans les résultats. Une préparation biochimique sous-optimale de la bibliothèque de séquençage et/ou un filtrage sous-optimal des données de séquençage peuvent entraîner l’inclusion incorrecte de lectures qui ne proviennent pas de la ligature des ARNsnc et des ARN cibles liés à Argonaute. Ces lectures artificielles peuvent inclure des dimères d’amorce ou des dimères adaptateurs, des ARNr et des pré-miARN. Le tableau 2 décrit les artefacts possibles qui peuvent être détectés dans les résultats et les solutions possibles.

Figure 1 : Mise en forme des répertoires de données. Les fichiers contenant des lectures brutes pour chaque bibliothèque de séquençage doivent être fournis au format .fastq.gz. (A) Si les bibliothèques ne sont pas appariées, un seul fichier .fastq.gz sera utilisé pour l’analyse. Ce fichier doit être nommé 'SAMPLE.fastq.gz' où SAMPLE est le nom exact de l’échantillon fourni par l’utilisateur dans le fichier de l’adaptateur. Le fichier doit être contenu dans un dossier correspondant exactement au nom de l’échantillon. (B) Pour les bibliothèques de séquençage à extrémité appariée, deux fichiers .fastq.gz seront utilisés. Ces fichiers doivent être nommés 'SAMPLE-R1.fastq.gz' et 'SAMPLE-R2.fastq.gz' et doivent être situés dans un dossier correspondant exactement au nom de l’échantillon. Tous les répertoires nommés SAMPLE doivent être situés dans le même répertoire parent, que l’utilisateur fournira à SCRAP en tant que « répertoire d’exemples ». Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Proportion d’interactions miARN/ARN cible selon les méthodes de type de cible et d’appel de pic. Les données publiées par le séquençage chimérique de l’ARN snc :cible à partir de banques préparées à l’aide de CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ ont été analysées à l’aide d’une version modifiée de SCRAP (version 2.0 de SCRAP) avec filtrage de l’ARNr implémenté. Les pré-miARN, les ARNt et les ARNr ont été filtrés, et des paramètres d’appel de pic distincts ont été utilisés pour le « niveau de confiance élevé » (minimum 3 lectures et 2 bibliothèques) et « toutes les interactions » (minimum 1 lecture et 1 bibliothèque). Les interactions ont été regroupées par famille de miARN ou non groupées. Les fractions relatives des lectures d’ARN chimérique pour les catégories (CDS, 5' UTR, intergénique, intron, 3'UTR) ont été calculées et représentées graphiquement. Veuillez cliquer ici pour voir une version agrandie de cette figure.

	Toutes les interactions		Des interactions à haut niveau de confiance
	MiARN individuels	Familles de miARN	MiARN individuels	Familles de miARN
CD	8675	8679	925	1046
5' UTR	338	338	38	43
Intergénique	2230	2230	320	339
Intron	9522	9519	382	406
3' UTR	6814	6813	548	644
Nombre total d’interactions :	31033	31034	4219	4597

Tableau 1 : Nombre de lectures chimériques des interactions miARN :ARN cible par type de cible et méthode d’appel de pic. Les données de séquençage chimérique de l’ARN snc :cible publiées à partir de banques préparées à l’aide de CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ ont été analysées à l’aide d’une version modifiée de SCRAP (version 2.0 de SCRAP) avec filtrage de l’ARNr implémenté. Les pré-miARN, les ARNt et les ARNr ont été filtrés, et des paramètres d’appel de pic distincts ont été utilisés pour les interactions à haut niveau de confiance (minimum 3 lectures et 2 bibliothèques) et toutes (minimum 1 lecture et 1 bibliothèque), regroupées par famille de miARN ou non groupées. Pour chaque condition, le nombre total d’interactions miARN :ARN cible détectées dans lesquelles l’interaction de l’ARN cible a été mappée à la catégorie de séquence codante (CDS), à la région non traduite 5' (UTR 5'), à la région intergénique, à l’intron ou à la région non traduite 3' (UTR 3') est indiqué.

Contaminant potentiel	Détecté comme	Causes	Solutions potentielles
Dimères d’apprêt	Interactions détectées entre des miARN dont la séquence correspond à l’extrémité 5' d’une amorce d’amplification et un ARN cible dont la séquence correspond au reste de l’amorce.	Séparation granulométrique inadéquate (c.-à-d. extraction sur gel) du produit PCR après amplification.	La plupart des dimères d’apprêt ne seront pas pris en compte par SCRAP après le retrait de l’adaptateur en raison de leur faible longueur. S’ils persistent, envisagez d’ajouter des séquences d’amorces à un filtre.
ARNr	Interactions entre des miARN arbitraires et des ARNr connus ou ARNlnc Gm26917 et Gm42418	Isolement inefficace (c’est-à-dire immunoprécipitation et séparation du gel) des complexes d’Argonaute.	Le filtrage de l’ARNr est souvent nécessaire lorsque la contamination par l’ARNr est abondante.
ARNt et pré-miARN	Interactions entre des fragments d’ARNt qui sont des produits de dégradation d’un même ARNt ou des miARN 5p et 3p produits à partir du même pré-miARN.	Faible abondance de véritables chimères d’ARNsnc : ARN cible ou faible expression tissulaire de l’Argonaute.	Filtrage de l’ARNt et filtrage du pré-miARN.

Tableau 2 : Lectures et solutions de séquençage des contaminants potentiels.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ce protocole sur l’utilisation du pipeline SCRAP pour l’analyse des interactions ARNsnc :ARN cible est conçu pour aider les chercheurs qui se lancent dans l’analyse informatique. L’achèvement du didacticiel devrait guider les chercheurs ayant une expérience informatique de niveau débutant ou supérieure à travers les étapes requises pour l’installation et l’utilisation de ce pipeline et de son application pour analyser les données obtenues à partir de bibliothèques de séquençage d’ARN chimérique. Les étapes essentielles à la réalisation de ce protocole incluent l’installation de référence correcte et l’exécution de SCRAP, qui peuvent prendre beaucoup de temps et être la source d’erreurs, en particulier si des précautions n’ont pas été prises lors de l’installation des dépendances à l’aide d’Anaconda ou de la saisie des arguments de la ligne de commande.

Ici, l’accent a été mis sur les conseils et les étapes d’utilisation pratique du pipeline SCRAP pour l’analyse des banques chimériques de séquençage d’ARN snc :ARN cible. Il a été démontré que SCRAP surpasse les autres plates-formes d’analyse d’ARN chimérique dans la détection des interactions ARNsnc :ARN cible ^6,13. Cela peut être dû à la fonction d’appel de pic de SCRAP qui a été développée spécifiquement pour détecter les caractéristiques (par exemple, l’épaulement 3') qui sont observées à la suite d’étapes biochimiques impliquées dans la formation des ARN chimériques. D’autres méthodes d’appel de pics pour des approches biochimiques distinctes, telles que les applications de séquençage par immunoprécipitation de la chromatine (CHIP-seq) en aval, ont été développées pour détecter les pics dans les données qui sont distribuées symétriquement autour d’une moyenne et qui ne sont généralement pas aussi performantes dans la détection des caractéristiques de pic des banques chimériques d’ARN sncRNA :cible. Les utilisateurs peuvent toutefois souhaiter tester l’utilisation d’autres pipelines de calcul qui pourraient mieux répondre à leurs besoins, en particulier si leurs données ne correspondent pas à cette description.

Alors que SCRAP a une configuration matérielle minimale, le runtime SCRAP s’adapte mal à la taille du jeu de données. Les chercheurs qui n’ont pas atteint le niveau novice ou qui disposent d’un grand nombre d’ensembles de données ou d’ensembles de données à forte couverture de séquençage peuvent souhaiter utiliser SCRAP d’une manière qui peut accélérer les étapes d’analyse. Étant donné que les jeux de données volumineux (généralement > 1 milliard de lectures) nécessitent des capacités de stockage de fichiers et des vitesses de lecture/écriture améliorées pour les données, l’exécution de SCRAP sur un cluster de calcul haute performance (HPC) peut être souhaitée pour l’analyse de jeux de données plus volumineux. Une optimisation SCRAP, qui devrait fournir une parallélisation et des performances améliorées, sera disponible sur GitHub (https://github.com/Meffert-Lab/). Cette version mise à jour de SCRAP (version 2.0) dispose également de filtres améliorés pour l’ARNr et d’autres contaminants.

Comme pour toute interface, les utilisateurs peuvent inévitablement rencontrer des difficultés lors de l’utilisation de l’interface en ligne de commande. Les plus courants d’entre eux incluent les fautes d’orthographe, les chemins d’accès incorrects et l’installation/la gestion des versions des paquets. Il est conseillé aux enquêteurs de faire preuve de prudence et d’éviter les fautes de frappe lors de l’écriture d’arguments en ligne de commande et de reproduire exactement les chemins d’accès aux fichiers ou aux dossiers (l’utilisation d’une autocomplétion par onglet peut y contribuer). Les dépendances pour SCRAP sont gérées via Anaconda afin que les enquêteurs soient moins susceptibles de rencontrer des problèmes avec l’installation de paquets ou les mises à jour de version.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Nous remercions les membres du laboratoire Meffert pour leurs discussions utiles, y compris BH Powell et WT Mills IV, pour leurs commentaires critiques sur la description de l’installation et de la mise en œuvre du pipeline. Ce travail a été soutenu par un prix de la Fondation Braude, le programme de lancement du Fonds de recherche sur les cellules souches du Maryland, le prix Blaustein Endowment for Pain Research and Education, ainsi que le NINDS RO1NS103974 et le NIMH RO1MH129292 à M.K.M.

Materials

Name	Company	Catalog Number	Comments
Genomes	UCSC Genome browser	N/A	https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/
Linux	Linux	Ubuntu 20.04 or 22.04 LTS recommended
Mac	Apple	Mac OSX (>11)
Platform setup	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md]
SCRAP pipeline	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP
Unix shell	Unix operating system	bash >=5.0
Unix shell	Unix operating system	zsh (5.9 recommended)
Windows	Windows	WSL Ubuntu 20.04 or 22.04 LTS

DOWNLOAD MATERIALS LIST

References

Morris, K. V., Mattick, J. S. The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014).
Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119 (2023).
Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129 (2010).
Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864 (2015).
Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).

Biology

Tutoriel d’analyse computationnelle pour les petits ARN non codants chimériques : bibliothèques de séquençage de l’ARN cible

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.