Summary
此处提交的协议解释了从研究宿主-病原体相互作用的RNA测序转录组数据中预测和功能表征circRNA所需的完整 计算机 管道。
Abstract
环状RNA(circRNA)是一类通过反向剪接 形成的 非编码RNA。这些circRNA主要因其作为各种生物过程的调节剂的作用而被研究。值得注意的是,新出现的证据表明,宿主circRNA在感染病原体(例如流感和冠状病毒)时可以差异表达(DE),这表明circRNA在调节宿主先天免疫反应方面发挥作用。然而,关于 circRNA 在致病性感染中的作用的研究受到进行必要的生物信息学分析以从 RNA 测序 (RNA-seq) 数据中识别 DE circRNA 所需的知识和技能的限制。在任何验证之前,circRNA的生物信息学预测和鉴定至关重要,并且使用昂贵且耗时的湿实验室技术进行功能研究。为了解决这个问题,本文提供了使用RNA-seq数据对circRNA进行 计算机 预测和表征的分步方案。该协议可分为四个步骤:1)通过CIRIquant管道 预测 和定量DE circRNA;2)通过circBase 进行 注释和DE circRNA的表征;3)通过Circr流水线预测CircRNA-miRNA相互作用;4)使用基因本体(GO)和京都基因和基因组百科全书(KEGG)对circRNA亲本基因进行功能富集分析。该管道将有助于推动未来的 体外 和 体内 研究,以进一步揭示circRNA在宿主 - 病原体相互作用中的作用。
Introduction
宿主-病原体相互作用代表了病原体和宿主生物之间的复杂相互作用,它触发了宿主的先天免疫反应,最终导致入侵病原体的去除1,2。在致病性感染期间,许多宿主免疫基因受到调节以抑制病原体的复制和释放。例如,对致病性感染进行调节的常见干扰素刺激基因(ISG)包括ADAR1,IFIT1,IFIT2,IFIT3,ISG20,RIG-I和OASL3,4。除了蛋白质编码基因外,研究还报告说,非编码RNA,如长非编码RNA(lncRNA),microRNA(miRNA)和环状RNA(circRNA)也在致病性感染期间发挥作用并同时受到调节5,6,7。与主要将蛋白质编码为功能分子的蛋白质编码基因相反,已知非编码RNA(ncRNA)在转录和转录后水平上充当基因的调节因子。然而,与蛋白质编码基因相比,涉及非编码RNA(特别是circRNA)参与调节宿主免疫基因的研究并没有很好的报道。
CircRNA的广泛特征是其共价闭合的连续环结构,该结构是通过称为反向剪接8的非规范剪接过程产生的。与同源线性RNA的剪接过程不同,反向剪接过程涉及下游供体位点与上游受体位点的连接,形成圆形结构。目前,已经提出了三种不同的circRNA生物发生的反向剪接机制。这些是RNA结合蛋白(RBP)介导的环化9,10,内含子配对驱动的环化11和lariat驱动的环化12,13,14。鉴于circRNA以环状结构端到端连接,它们往往对正常的核酸外切酶消化具有天然抵抗力,因此被认为比线性对应物更稳定15。circRNA表现出的另一个共同特征包括宿主16中的细胞或组织类型特异性表达。
正如其独特的结构和细胞或组织特异性表达所暗示的那样,circRNA已被发现在细胞中发挥重要的生物学功能。迄今为止,circRNA的突出功能之一是它们作为microRNA(miRNA)海绵的作用17,18。circRNA的这种调节作用是通过circRNA核苷酸与miRNA种子区域的互补结合而发生的。这种circRNA-miRNA相互作用抑制了miRNA对靶mRNA的正常调节功能,从而调节基因19,20的表达。此外,circRNA还已知通过与RNA结合蛋白(RBP)相互作用并形成RNA-蛋白质复合物来调节基因表达21。虽然circRNA被归类为非编码RNA,但也有证据表明circRNA可以作为蛋白质翻译的模板22,23,24。
最近,circRNA已被证明在调节宿主 - 病原体相互作用中起着关键作用,特别是在宿主和病毒之间。通常,宿主circRNA被认为有助于调节宿主的免疫反应以消除入侵的病原体。促进宿主免疫反应的circRNA的一个例子是circRNA_0082633,由Guo等人报道25。这种circRNA增强了A549细胞内的I型干扰素(IFN)信号传导,有助于抑制流感病毒复制25。此外,Qu等人还报道了一种名为circRNA AIVR的人内含子circRNA,它通过调节CREB结合蛋白(CREBBP)的表达来促进免疫,CREBBP是IFN-β26,27的信号换能器。然而,已知在感染时促进疾病发病机制的circRNA也存在。例如,Yu等人最近报道了从含有2A基因的GATA锌指结构域剪接而成的circRNA通过抑制宿主细胞自噬28在促进H1N1病毒复制中所起的作用。
为了有效地研究circRNA,通常实施全基因组circRNA预测算法,然后在进行任何功能研究之前对预测的circRNA候选物进行 计算机 表征。这种预测和表征circRNA的生物信息学方法成本更低,时间效率更高。它有助于完善要进行功能研究的候选者的数量,并可能导致新的发现。在这里,我们提供了一个详细的基于生物信息学的协议,用于宿主 - 病原体相互作用过程中circRNA 的计算机鉴定, 表征和功能注释。该协议包括从RNA测序数据集中鉴定和定量circRNA,通过circBase 进行 注释,以及根据circRNA类型,重叠基因的数量和预测的circRNA-miRNA相互作用来表征circRNA候选者。本研究还通过基因本体(GO)和京都基因和基因组百科全书(KEGG)富集分析提供了circRNA亲本基因的功能注释。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
在该协议中,从基因表达综合(GEO)数据库中下载并使用由甲型流感病毒感染的人巨噬细胞制备的去识别核糖体RNA(rRNA)耗尽RNA-seq库数据集。 图1总结了从circRNA的预测到功能表征的整个生物信息学管道。以下各节将进一步解释管道的每个部分。
1. 数据分析前的准备、下载和设置
注意:本研究中使用的所有软件包都是免费和开源的。
- 在 Linux 平台上下载所需的工具
- 按照开发人员提供的说明,在 Linux 高性能计算机上下载并安装 材料表中 列出的所需软件和工具。
注意:大多数工具和软件都有自己的在线 GitHub 页面或文档,其中包含有关安装和使用其工具的说明(请参阅 材料表)。 - 从序列存档网站(例如,欧洲核苷酸存档和基因表达综合)下载所需的 RNA-seq 数据集,用于 circRNA 检测和分析。
- 下载参考基因组(FASTA格式)和注释文件(GTF/GFF3格式),与制备RNA-seq数据集的宿主兼容。宿主参考基因组和注释文件通常位于在线基因组浏览器上,例如国家生物技术信息中心(NCBI),加州大学圣克鲁斯分校(UCSC)和Ensembl网站。
- 按照开发人员提供的说明,在 Linux 高性能计算机上下载并安装 材料表中 列出的所需软件和工具。
- 核糖核酸序列的质量检查
- 将 FASTQ 文件输入 FASTQC 程序以确定 RNA 序列的质量。如果 FASTQ 文件的质量较低(例如,
29,30 等工具进行进一步修整。
- 将 FASTQ 文件输入 FASTQC 程序以确定 RNA 序列的质量。如果 FASTQ 文件的质量较低(例如,
2. 利用CIRIquant对circRNA进行预测和差异表达分析
注意:有关安装和执行差异表达分析的更详细手册,请参见CIRIquant论文31的代码可用性部分。补充数据还包括此协议中使用的一些基本命令。
- 环核糖核酸预测
- 首先使用BWA和HISAT2对准器索引宿主的参考基因组。然后,在 Linux 终端上,在主机参考基因组的目录中执行命令 bwa index 32 和 hisat2-build33 以对其进行索引。
- 接下来,准备一个 YML 配置文件,其中包含文件名、工具路径(BWA、HISAT2、stringtie34、samtools35)、下载的参考文件的路径(宿主的参考基因组 FASTA 文件、注释文件)以及步骤 2.1.1 中索引文件的路径。
- 使用默认或手动参数从终端执行 CIRIquant 工具。用户可以在执行 CIRIquant 工具时指定 RNA-seq 数据的文库类型(链或非链)。
注意:RNA-seq数据的文库类型可以通过了解所用文库制备试剂盒的类型来确定。如果文库制备试剂盒的身份未知,则可以使用称为RSeQC36 的RNA-seq对照生物信息学包来确定RNA-seq数据的链状。
- 差异表达分析
注意:CIRIquant 软件包包括 prep_CIRIquant、 prepDE.py 和 CIRI_DE_replicate;因此,这三个工具不需要其他下载。- 准备一个文本文件 (.lst),其中包含包含以下内容的数据列表:
第 1 列:步骤 2.1.3 中使用的 RNA-seq 数据的 ID
第 2 列:CIRIquant 输出的 GTF 文件的路径
第 3 列:RNA-seq 数据的分组,无论是对照组还是处理组。 - 有关示例,请参阅下面的 表 1 。
注意:没有必要放入标题,因为它们仅供参考。 - 在 Linux 终端上,使用步骤 2.2.1 中准备的文本文件 (.lst) 作为输入运行 prep_CIRIquant 。运行将生成文件列表: library_info.csv、 circRNA_info.csv、 circRNA_bsj.csv和 circRNA_ratio.csv。
- 准备第二个文本文件,其中包含包含RNA-seq ID及其各自StringTie输出路径的数据列表。文件布局必须类似于步骤 2.2.1 中的文本文件,不带分组列。
- 使用步骤 2.2.4 中准备的文本文件作为输入运行 prepDE.py 以生成基因计数矩阵文件。
- 使用步骤 2.2.3 中的library_info.csv和circRNA_bsj.csv文件以及步骤 2.2.5 中的gene_count_matrix.csv文件作为输入执行CIRI_DE_replicate,以输出最终的 circRNA_de.tsv 文件。
- 准备一个文本文件 (.lst),其中包含包含以下内容的数据列表:
- DE 环核糖核酸的过滤
- 使用R(在计算机终端或RStudio中)或任何电子表格软件(例如,Microsoft Excel)打开从步骤2.2.6生成的 circRNA_de.tsv 文件,以过滤和确定差异表达(DE)circRNA的数量。
- 根据标准过滤DE circRNA > |2|罗斯福<0.05。
- 创建一个名为 DE_circRNAs.txt 的文件来存储 DE circRNA 的信息。
3. 预测DE circRNA的表征和注释
- DE circRNA 的注释状态
- 在RStudio中加载名为 DE_circRNAs.txt 的文件,该文件由从步骤2.3.3过滤的DE circRNA列表组成。包括其他信息,例如基因组位置(Chr,开始,结束),链方向(+或-),基因名称和circRNA类型。在继续之前,通过减去 1 个碱基对将 circRNA 基因组起始坐标从 CIRIquant 转换为 0-基。
注意:上述其他信息可以从 CIRIquant 输出的 GTF 文件(补充文件 1)中获得。 - 通过下载包含 circRNA 数据库(例如 circBase)沉积的 circRNA 的基因组位置的文库来确定预测的 DE circRNA 的注释状态。
注意:在进行比较之前,请确保用于预测circRNA的基因组版本与circRNA数据库库相同。此处使用的circBase数据文件可在Github(https://github.com/bicciatolab/Circr)37中提供的驱动器文件夹中免费获得。 - 准备好步骤 3.1.1 和步骤 3.1.2 中的文件后,运行 补充文件 1 中给出的 R 脚本。DE circRNA的染色体位置在分配状态“注释”或“未注释”之前被查询到文库。
- 在RStudio中加载名为 DE_circRNAs.txt 的文件,该文件由从步骤2.3.3过滤的DE circRNA列表组成。包括其他信息,例如基因组位置(Chr,开始,结束),链方向(+或-),基因名称和circRNA类型。在继续之前,通过减去 1 个碱基对将 circRNA 基因组起始坐标从 CIRIquant 转换为 0-基。
- DE 环核糖核酸的表征
- 使用 R 和其他电子表格软件根据 circRNA 类型(即外显子、内含子、基因间和反义)和 circRNA 跨越的基因数量(1 或 >1)汇总 circRNA 的数量(补充文件 1)。注意:CIRIquant只能检测四种类型的circRNA(外显子,内含子,基因间和反义)。外显子-内含子circRNA,也称为ElciRNA,不能被CIRIquant检测到。
4. 使用 Circr 预测 circRNA-miRNA 相互作用
注意:有关如何安装和使用Circr进行circRNA-miRNA相互作用分析的更详细手册,请访问: https://github.com/bicciatolab/Circr37。
- 准备文件
- 使用相关软件(如“WinRar”或“7-zip”)从 Circr GitHub 页面下载 Circr.zip 文件的内容后,解压缩并提取到将进行分析的新目录中。
- 在进行circRNA-miRNA分析之前,安装必备软件应用程序(miRanda,RNAhybrid,Pybedtools和samtools)。
- Circr 作者在 Github 页面 (https://github.com/bicciatolab/Circr)37 中提供了几种感兴趣的生物体的参考基因组和注释文件、rRNA 坐标文件、经过验证的 miRNA 相互作用文件和 circBase circRNA 文件。单击驱动器文件夹中的支持文件后,选择感兴趣的生物体文件夹,miRNA文件夹和circBase文本文件并下载。
- 在步骤 4.1.3 中下载必要的文件后,在步骤 4.1.1 中提到的目录中创建一个名为 support_files 的新目录。然后,解压缩内容并将其解压缩到 support_files 目录中。
- 使用 samtools faidx 命令(补充文件1)索引感兴趣的生物体的参考基因组文件。
- 在制表符分隔的BED文件中准备一个由感兴趣的DE circRNA的坐标组成的输入文件,如 表2所示。
注意:由于CIRIquant预测的circRNA不是基于0的,因此在将其转换为BED格式之前,有必要在起始坐标处减去1 bp(如步骤3.1.1中所述)。 表 2 中显示的标头仅供参考,在 BED 文件中不需要。 - 此时,请确保 Circr 分析的预期文件夹树结构如图 2 所示。
- 跑步 Circr.py
- 使用 Python 3 执行 Circr.py,并在命令行中指定 circRNA 输入文件、感兴趣生物体的 FASTA 基因组、所选生物体的基因组版本、线程数和输出文件的名称作为参数。
- 如果在步骤 4.1.3 中列出的驱动器文件夹中未提供感兴趣的生物体,或者如果用户希望拥有一组自定义文件来运行分析,则在执行 Circr.py 时需要包含指定这些文件位置的其他命令。
- Circr 分析完成后,程序会输出 csv 格式的 circRNA-miRNA 相互作用文件。
- 根据用户特定的偏好过滤circRNA-miRNA相互作用结果。在本研究中,使用 Rstudio 根据以下标准过滤预测:
-由所有三个软件工具检测
-Targetscan和miRanda报告的两个或多个结合位点
-在“AGO”或“已验证”列中标识
-过滤掉没有种子区域的相互作用 - 将传递步骤 4.2.3 中过滤条件的 circRNA 写入名为 circRNA_miRNA.txt 的新文本文件中。此类筛选可以提高预测交互的置信度。
5. ceRNA网络的构建
注意:有关如何使用Cytoscape的详细手册,请访问:http://manual.cytoscape.org/en/stable/ 和 https://github.com/cytoscape/cytoscape-tutorials/wiki#introduction
- 下载和准备
- 从以下位置下载最新版本的 Cytoscape38 :https://cytoscape.org/download.html。
- 执行在步骤 5.1.1 中下载的安装程序向导,并选择 Cytoscape 软件的文件位置。
- 准备一个制表符分隔的文件,其中包含感兴趣的circRNA及其靶miRNA。第一列由 circRNA 名称组成;第二列指定第一列中的RNA类型;第三列是目标miRNA;第四列指定第三列中的RNA类型。 表 3 显示了该文件的示例。
- 构建 ceRNA 网络图
- 打开步骤 5.1.2 中安装的 Cytoscape 软件。
- 在 Cytoscape 中,导航到 “文件>从文件导入网络”>。选择在步骤 5.1.3 中准备的文件。
- 在新选项卡中,选择第一列和第二列作为“源节点”和“源节点属性”,同时选择第三列和第四列作为“目标节点”和“目标节点属性”。单击 “确定”,网络将显示在 Cytoscape 的右上角。
- 要更改网络的视觉样式,请按 Cytoscape 左侧的 “样式 ”按钮。
- 按 “填充颜色”右侧的箭头。为列选择 “类型” ,为映射类型选择“ 离散映射 ”。然后,选择每种RNA类型所需的颜色。
- 更改颜色后,通过导航到 “形状 ”并按照步骤 5.2.5 更改节点的形状。
6. 功能富集分析
- 基因本体(GO)和京都基因和基因组百科全书(KEGG)对circRNA亲本基因的分析
- 确保集群探查器39,40 和组织。Hs.eg.db Rstudio 中已安装了 41 个软件包。组织。Hs.eg.db41包是仅针对人类的全基因组注释包。 如果感兴趣的生物是另一个物种,请参阅:https://bioconductor.org/packages/release/BiocViews.html#OrgDb
- 将步骤 2.3.1 中的DE_circRNA信息导入 Rstudio 工作区。
- 在接下来的步骤中,使用此文件中提供的circRNA的亲本基因进行富集分析。但是,如果用户希望将基因符号转换为其他格式,例如 Entrez ID,请使用“bitr”等函数。
- 通过使用基因 ID 作为输入,使用默认参数在 clusterProfiler39,40软件包中使用 enrichGO 函数运行 GO 富集分析。
- 通过使用基因 ID 作为输入,使用默认参数在 clusterProfiler39,40 软件包中使用 enrichKEGG 函数运行 KEGG 富集分析。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
上一节中列出的协议已经过修改和配置,以适应 Linux 操作系统系统。主要原因是大多数涉及 circRNA 分析的模块库和包只能在 Linux 平台上工作。在该分析中,从GEO数据库42下载了从GEO数据库42 中制备的由甲型流感病毒感染的人巨噬细胞制备的去识别核糖体RNA(rRNA)耗尽RNA-seq文库数据集,并用于生成具有代表性的结果。
环形RNA预测和定量
本分析采用甲型流感病毒感染人巨噬细胞制备的核糖体RNA(rRNA)去除RNA-seq文库数据集进行circRNA检测和功能分析。如协议部分所述,CIRIquant用于使用RNA-seq文库数据集作为输入来鉴定和实施已鉴定的circRNA的DE分析。使用的参考文件基于最新的人类基因组版本(hg38)。 表 4 显示了 CIRIquant 分析的最终输出示例。CIRIquant输出中DE circRNA的鉴定和过滤通过简单的RStudio脚本(补充文件1)执行。只有当错误发现率(FDR)值为<0.05且对数倍变化(LogFC)为>|2|时,CircRNA才被归类为DE。 表5 显示了检测到的circRNA和DE circRNA的总数。共检测到35,846个circRNA,其中306个为DE。在此输出中检测到的DE circRNA完全上调(LogFC > 2),没有一个被下调(LogFC < 2)。
DE circRNA 的注释和表征
DE circRNA 的注释状态
鉴定出的DE circRNA与已建立的circRNA数据库circBase进行了交叉核对。然而,由于沉积在circBase中的circRNA坐标是基于以前的人类基因组版本(hg19),因此来自circBase的circRNA坐标必须转换为当前的人类基因组版本(hg38)以进行交叉检查。此外,起始坐标必须从 CIRIquant 的 1 开始转换为从 0 开始的输出。circBase 的 hg38 版本转换的 circRNA 坐标在 Github (https://github.com/bicciatolab/Circr)37 的驱动器文件夹中提供。然后,使用Rstudio脚本(补充文件1)在新的数据帧列中分配circRNA的注释状态。 表6 显示了具有注释状态的circRNA示例。
DE 环核糖核酸的表征
这部分完全通过RStudio软件中的R脚本执行。R 脚本简化了分析过程,只需要基本知识。
环核糖核酸类型
在此步骤中,DE circRNA根据其基因组位置对其circRNA类型(反义,外显子,基因间和内渗子)进行表征。下面的 表7 显示了已鉴定的DE circRNA所包含的不同circRNA类型的分解百分比。在总共306个DE circRNA中,263个circRNA(85.95%)被鉴定为外显子circRNA,这是鉴定出的最丰富的circRNA类型。内含子 circRNA 是第二多识别的 circRNA 类型,包含 17 个 DE circRNA,占总 DE circRNA 的 5.56%。其次是基因间 circRNA(16 DE circRNA ~5.23%)和反义 circRNA(10 DE circRNA ~3.27%)。
每个 circRNA 跨越的基因数
CIRIquant鉴定的circRNA可以在许多基因中重叠。迄今为止,大多数研究都集中在跨越一个基因的circRNA上。因此,在该协议中,跨越多个基因的circRNA候选物被排除在下游分析之外。下面的 表8 描述了跨越一个和多个基因的DE circRNA的数量和百分比。在该表中,基因间 circRNA(16 DE circRNA)被排除在外,因为它们不与任何宿主基因重叠,而其余的 circRNA 类型(290 DE circRNA)则进行此分析。在290个DE circRNA中,大多数DE circRNA(261个circRNA ~90%)仅跨越一个基因,而其余29个circRNA(~10%)跨越多个基因。
构建 ceRNA 网络
通常绘制ceRNA网络以在预测后可视化circRNA-miRNA相互作用。在下面的 图3 中,仅选择了一种DE circRNA作为代表性结果,即hsa_DE_58 circRNA。根据Circr的预测,hsa_DE_58可以海绵化多达九种不同的miRNA。这九种miRNA是通过严格的标准过滤后鉴定的。
功能富集分析
circRNA亲本基因的GO和KEGG分析
下面的图4描绘了通过GO分析的DE circRNA亲本基因功能富集的气泡图。从根本上说,GO分析旨在揭示在所研究的条件下富集或受影响的生物过程,细胞位置和分子功能,在这种情况下,病毒感染的样本。富集被认为具有统计显著性,并且仅当 p 值< 0.01 时才绘制在气泡图上。如图4所示,生物过程(BP)的前三个富集包括核糖核蛋白复合物生物发生,对病毒的反应以及对生物刺激的反应调节,而对于分子功能(MF),只有作用于RNA和单链RNA结合的催化活性在统计学上富集。另一方面,只有逆转录体复合物在统计学上富集了细胞成分(CC)。
图5 显示了气泡图中DE circRNA亲本基因的KEGG富集分析。与 GO 富集分析类似,KEGG 富集仅被视为具有统计显著性,并在 p 值< 0.01 时绘制在气泡图上。在这种情况下,只有两个KEGG术语被富集,即甲型流感和病毒生命周期(HIV-1)途径。
图 1:用于预测和表征 circRNA 的管道。 该管道从头到尾显示了关键步骤的简单概述,包括安装必要的软件包、预测和量化 circRNA 表达、构建 ceRNA 网络以及执行 circRNA 亲本基因功能富集。 请点击此处查看此图的大图。
图 2:Circr 的文件夹树结构。 在运行 Circr 软件之前必须建立此文件夹树结构,以便检测分析所需的文件。 请点击此处查看此图的大图。
图 3:由 circRNA-miRNA 相互作用组成的 ceRNA 网络。 蓝色椭圆形代表circRNA,而橙色三角形代表miRNA。连接 circRNA 和 miRNA 的实线描述了hsa_DE_58 circRNA 的潜在 miRNA 海绵功能。 请点击此处查看此图的大图。
图4:DE circRNA亲本基因GO富集分析的气泡图。x 轴上的 GeneRatio 是输入列表中与给定 GO 项相关的基因数,除以输入基因的总数。图中的点大小由计数值表示,计数值是输入列表中与给定GO项关联的基因数。点的大小越大,与该术语相关的输入基因数量就越多。此外,图中的点根据p值进行颜色编码。P 值是通过将注释项的观测频率与偶然预期的频率进行比较来计算的。单个项被视为富集超过临界值(p 值 < 0.01)。p 值的颜色渐变范围从蓝色到红色表示项的丰富程度增加。请点击此处查看此图的大图。
图5:DE circRNA亲本基因的KEGG富集分析。 x轴上的GeneRatio是输入列表中与给定KEGG项相关的基因数,除以输入基因的总数。图中的点大小由计数值表示,计数值是输入列表中与给定 KEGG 项关联的基因数。点的大小越大,与该术语相关的输入基因数量就越多。此外,图中的点根据p值进行颜色编码。P 值是通过将注释项的观测频率与偶然预期的频率进行比较来计算的。单个项被视为富集超过临界值(p 值< 0.01)。p 值的颜色渐变范围从蓝色到红色表示项的丰富程度增加。 请点击此处查看此图的大图。
示例名称 | CIRIquant 输出 GTF 文件的路径 | 分组 |
控制 1 | /path/to/CIRIquant/ctrl1.gtf | C |
控制 2 | /path/to/CIRIquant/ctrl2.gtf | C |
感染 1 | /path/to/CIRIquant/infect1.gtf | T |
感染者 2 | /path/to/CIRIquant/infect2.gtf | T |
表 1:CIRIquant 的 .lst 文件准备。 来自CIRIquant输出的对照和处理样品的目标路径写入文本文件,以比较两种样品之间circRNA的表达。
克里斯 | 开始 | 结束 | 名字 | . | 链 |
CHR2 | 137428930 | 137433876 | hsa_circ_000076 | . | - |
CHR2 | 154705868 | 154706632 | hsa_circ_000105 | . | - |
CHR2 | 159104273 | 159106793 | hsa_circ_000118 | . | - |
CHR2 | 159215701 | 159226125 | hsa_circ_000119 | . | - |
CHR4 | 39980067 | 39980129 | hsa_circ_002584 | . | - |
表 2:Circr 的示例 BED 文件。 生成 BED 文件需要与 circRNA 相关的六列(Chr、Start、End、Name、Gene和Strand)。
circRNA_name | 类型 | miRNA_name | 类型 |
DE_circRNA_1 | 环核糖核酸 | 米R-001 | miRNA |
DE_circRNA_1 | 环核糖核酸 | 米R-002 | miRNA |
DE_circRNA_2 | 环核糖核酸 | miR-003 | miRNA |
DE_circRNA_2 | 环核糖核酸 | miR-004 | miRNA |
表 3:细胞景观输入文件。 需要将四列(circRNA_name、类型、miRNA_name和类型)写入文本文件。
环核糖核酸 | 日志FC | 对每千次展示费用 | 英商道 | Pvalue | 德 | 罗斯福 |
【传 4:17595410|17598558 | 8.167934481 | -0.039318634 | 185.5341965 | 3.00E-42 | 1 | 1.08E-37 |
【希16:18834892|18850467 | -3.955083482 | -4.397235736 | 2.982607619 | 0.08416358 | 0 | 0.282478158 |
【传 14:73198031|73211942 | 2.493964729 | -4.448176684 | 2.736442046 | 0.09808293 | 0 | 0.282478158 |
表 4:CIRIquant 的最终输出 (.csv) 文件的一部分。 CIRIquant 提供诸如 LogFC、每百万对数计数 (LogCPM)、逻辑回归 (LR)、p 值、差分表达式和 FDR 等信息。
CIRIquant 结果 | |||
总 | 德 | 向上 | 下 |
35846 | 306 | 306 | 0 |
表 5:鉴定的总和差异表达 (DE) circRNA 数量的摘要。 总共检测到35,846个circRNA,其中306个是DE circRNA。与对照样品相比,所有306个DE circRNA在处理样品中均上调(无下调)。
Custom_Name | Annotation_Status |
hsa_DE_22 | 无注释 |
hsa_DE_2 | 注释 |
hsa_DE_58 | 无注释 |
hsa_DE_3 | 注释 |
表 6:带有注释状态的自定义 circRNA 名称表。 CircRNA在已知沉积的circRNA(circBase)数据库中查询。如果数据库中存在 circRNA,则将其标记为要注释,而缺少 circRNA 则标记为未注释。
环核糖核酸类型 | 频率 | 百分比 |
反义 | 10 | 3.27% |
外 显 子 | 263 | 85.95% |
基因间 | 16 | 5.23% |
内含 子 | 17 | 5.56% |
表7:鉴定的circRNA类型。 CircRNA可以根据其序列区域进一步分为不同类型的circRNA,即外显子,内微,反义和基因间。
亲本基因数量 | 频率 | 百分比 |
1 | 261 | 90% |
> 1 | 29 | 10% |
表8:跨越不同基因数量的circRNA的百分比。 CircRNA通常从一个基因的外显子编码,但CIRIquant也可以检测到跨越多个基因的circRNA。
补充文件 1:协议中使用的脚本。请点击此处下载此文件。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
为了说明该协议的实用性,以来自甲型流感病毒感染的人巨噬细胞的RNA-seq为例。研究了在宿主-病原体相互作用中充当潜在miRNA海绵的circRNA及其在宿主内的GO和KEGG功能富集。尽管网上有各种各样的circRNA工具,但它们中的每一个都是一个独立的软件包,不会相互交互。在这里,我们汇总了circRNA预测和定量,circRNA功能富集,circRNA-miRNA相互作用预测和ceRNA网络构建所需的一些工具。这种简化的方案节省时间,可应用于临床样本,以检测具有诊断和预后价值的 circRNA 候选物。
从本质上讲,我们采用了CIRIquant31,这是一种预先与CIRI2一起包装的circRNA定量工具,可以检测和进行circRNA的DE分析。DE circRNA 根据 LogFC > |2| 的临界值进行过滤FDR < 0.05,这有助于消除下游分析中的潜在误报。根据注释状态、circRNA 类型和跨越的基因数量对 DE circRNA 进行表征有助于对 circRNA 候选物进行分类和进一步过滤。随后,circRNA-miRNA预测工具Circr37用于预测潜在的miRNA海绵候选者。在预测潜在的miRNA作为circRNA的靶标后,绘制了ceRNA网络。最后,基于circRNA的亲本基因,使用R clusterProfiler包39 通过GO和KEGG途径富集分析 进行 功能注释。GO和KEGG的结果可能有助于揭示受circRNA影响的生物学机制。
迄今为止,已经开发了几种不同的circRNA预测工具,包括CIRI243,CIRCexplorer2 44,find_circ 45,MapSplice46和UROBORUS 47。在Hansen等人进行的一项研究中,据报道CIRI2具有很高的整体性能。它是为数不多的可以在从头预测和减少假阳性识别方面发挥作用的circRNA检测工具之一48。因此,本研究使用了利用CIRI2进行circRNA检测和定量的CIRIquant。CIRIquant用于计数反向剪接连接(BSJ)读数,并将计数数据归一化为映射到从同一基因位点转录的同源线性RNA的读数。这允许定量样品中的circRNA。为了确定circRNA在实验条件下的差异表达,CIRIquant在edgeR49中实现了广义线性模型进行DE分析,并使用精确的速率比测试作为统计测试来确定circRNA连接比差异的显着性。虽然其他 circRNA 定量工具(如 CIRCexplorer3-CLEAR50)可用于定量 circRNA 的表达水平,但该工具仅允许在样品中进行 circRNA 定量,因为它对样品中的 BSJ 读数进行计数,并根据来自同一样品的同源线性 RNA 计数对计数数据进行归一化。CIRCexplorer3-CLEAR无法比较不同实验条件下的circRNA表达。此外,CIRCexplorer3-CLEAR中没有实现统计分析工具来支持量化表达水平。尽管CIRIquant中实现的默认circRNA预测工具是CIRI2,但来自其他工具(如find_circ和CIRCexplorer2)的预测结果也可用于定量和DE分析31。在该协议中,仅使用一种circRNA预测工具(CIRI2)进行预测,这仍可能产生假阳性的circRNA候选者。为了减少假阳性,可以结合其他 circRNA 预测工具进行分析,并选择在不同的 circRNA 预测工具中选择检测到的常见 circRNA48,51。为了进一步改善circRNA检测,理想的做法是使用rRNA耗尽并经过RNase R预处理的RNA测序数据集。
根据研究目的,可以从circBase数据库52分别鉴定从头和注释的DE circRNA。然而,跨越多个基因的circRNA通常需要在UCSC或任何其他基因组浏览器上进行手动检查,以确定circRNA的真实性并消除假阳性。尽管如此,跨越多个基因的circRNA,例如源自融合基因的circRNA,最近也有报道53,54。
Circr通过结合三种不同的miRNA-mRNA预测算法,即TargetScan55,miRanda 56和RNAhybrid57来预测circRNA-miRNA结合位点。最重要的是,该算法还在circRNA-miRNA分析中结合了AGO峰和先前验证的相互作用的信息。在这里,应用了严格的过滤标准,以获得更可靠的circRNA-miRNA预测,从而进一步减少假阳性。但是,可以根据用户偏好设置此过滤步骤的严格程度。
ClusterProfiler是一个有据可查的R包,可以在功能上注释不同生物体的基因集。除了该协议中提到的R clusterProfiler包(enrichGO和enrichKEGG)中利用过度表示分析的功能外,还可以使用其他函数,例如gseGO和gseKEGG。 如果clusterProfiler不是工作流程的合适选择,还有其他工具和软件包,如“AllEnricher”58或基于网站的工具,如“Metascape”59,可以在功能上注释一组基因。最后,尽管上面提供的管道有助于预测潜在的circRNA及其功能注释,但需要湿实验室验证才能提供可靠的证据。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者没有什么可透露的。
Acknowledgments
作者要感谢Tan KeEn和Cameron Bracken博士对这份手稿的批判性评论。这项工作得到了基础研究资助计划(FRGS/1/2020/SKK0/UM/02/15)和马来亚大学高影响力研究资助计划(UM.C/625/1/HIR/MOE/CHAN/02/07)。
Materials
Name | Company | Catalog Number | Comments |
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |
References
- Raman, K., Bhat, A. G., Chandra, N. A systems perspective of host-pathogen interactions: predicting disease outcome in tuberculosis. Molecular BioSystems. 6 (3), 516-530 (2010).
- Casadevall, A., Pirofski, L. A. Host-pathogen interactions: basic concepts of microbial commensalism, colonization, infection, and disease. Infection and Immunity. 68 (12), 6511-6518 (2000).
- Yang, E., Li, M. M. H. All About the RNA: Interferon-stimulated genes that interfere with viral RNA processes. Frontiers in Immunology. 11, 605024 (2020).
- Schneider, W. M., Chevillotte, M. D., Rice, C. M. Interferon-stimulated genes: A complex web of host defenses. Annual Review of Immunology. 32 (1), 513-545 (2014).
- Shirahama, S., Miki, A., Kaburaki, T., Akimitsu, N. Long non-coding RNAs involved in pathogenic infection. Frontiers in Genetics. 11, 454 (2020).
- Chandan, K., Gupta, M., Sarwat, M. Role of host and pathogen-derived microRNAs in immune regulation during infectious and inflammatory diseases. Frontiers in Immunology. 10, 3081 (2019).
- Chen, X., et al. Circular RNAs in immune responses and immune diseases. Theranostics. 9 (2), 588-607 (2019).
- Kristensen, L. S., et al. The biogenesis, biology and characterization of circular RNAs. Nature Reviews Genetics. 20 (11), 675-691 (2019).
- Ashwal-Fluss, R., et al. circRNA biogenesis competes with pre-mRNA splicing. Molecular Cell. 56 (1), 55-66 (2014).
- Conn, S. J., et al. The RNA binding protein quaking regulates formation of circRNAs. Cell. 160 (6), 1125-1134 (2015).
- Zhang, X. O., et al.
Complementary sequence-mediated exon circularization. Cell. 159 (1), 134-147 (2014). - Robic, A., Demars, J., Kuhn, C. In-depth analysis reveals production of circular RNAs from non-coding sequences. Cells. 9 (8), 1806 (2020).
- Eger, N., Schoppe, L., Schuster, S., Laufs, U., Boeckel, J. N.
Circular RNA splicing. Advances in Experimental Medicine and Biology. 1087, 41-52 (2018). - Barrett, S. P., Wang, P. L., Salzman, J. Circular RNA biogenesis can proceed through an exon-containing lariat precursor. eLife. 4, 07540 (2015).
- Memczak, S., et al. Circular RNAs are a large class of animal RNAs with regulatory potency. Nature. 495 (7441), 333-338 (2013).
- Misir, S., Wu, N., Yang, B. B. Specific expression and functions of circular RNAs. Cell Death and Differentiation. 29 (3), 481-491 (2022).
- Bai, S., et al. Construct a circRNA/miRNA/mRNA regulatory network to explore potential pathogenesis and therapy options of clear cell renal cell carcinoma. Scientific Reports. 10 (1), 13659 (2020).
- Sakshi, S., Jayasuriya, R., Ganesan, K., Xu, B., Ramkumar, K. M. Role of circRNA-miRNA-mRNA interaction network in diabetes and its associated complications. Molecular Therapy - Nucleic Acids. 26, 1291-1302 (2021).
- Hansen, T. B., et al. miRNA-dependent gene silencing involving Ago2-mediated cleavage of a circular antisense RNA. The EMBO Journal. 30 (21), 4414-4422 (2011).
- Lu, M. Circular RNA: functions, applications, and prospects. ExRNA. 2 (1), 15 (2020).
- Liu, K. S., Pan, F., Mao, X. D., Liu, C., Chen, Y. J. Biological functions of circular RNAs and their roles in occurrence of reproduction and gynecological diseases. American Journal of Translational Research. 11 (1), 1-15 (2019).
- Pamudurti, N. R., et al.
Translation of CircRNAs. Molecular Cell. 66 (1), 9-21 (2017). - Legnini, I., et al. Circ-ZNF609 Is a circular RNA that can be translated and functions in myogenesis. Molecular Cell. 66 (1), 22-37 (2017).
- Weigelt, C. M., et al. An insulin-sensitive circular RNA that regulates lifespan in Drosophila. Molecular Cell. 79 (2), 268-279 (2020).
- Guo, Y., et al. Identification and characterization of circular RNAs in the A549 cells following Influenza A virus infection. Veterinary Microbiology. 267, 109390 (2022).
- Qu, Z., et al. A novel intronic circular RNA antagonizes influenza virus by absorbing a microRNA that degrades CREBBP and accelerating IFN-β production. mBio. 12 (4), 0101721 (2021).
- Kawarada, Y., et al. TGF-β induces p53/Smads complex formation in the PAI-1 promoter to activate transcription. Scientific Reports. 6 (1), 35483 (2016).
- Yu, T., et al. Circular RNA GATAD2A promotes H1N1 replication through inhibiting autophagy. Veterinary Microbiology. 231, 238-245 (2019).
- Andrews, S. FastQC: A quality control tool for high throughput sequence data. , Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2010).
- Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
- Zhang, J., Chen, S., Yang, J., Zhao, F. Accurate quantification of circular RNAs identifies extensive circular isoform switching events. Nature Communications. 11 (1), 90 (2020).
- Li, H., Durbin, R. Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics. 26 (5), 589-595 (2010).
- Kim, D., Paggi, J. M., Park, C., Bennett, C., Salzberg, S. L. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nature Biotechnology. 37 (8), 907-915 (2019).
- Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature Biotechnology. 33 (3), 290-295 (2015).
- Li, H., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
- Wang, L., Wang, S., Li, W. RSeQC: quality control of RNA-seq experiments. Bioinformatics. 28 (16), 2184-2185 (2012).
- Dori, M., Caroli, J., Forcato, M. Circr, a computational tool to identify miRNA:circRNA associations. Frontiers in Bioinformatics. 2, 852834 (2022).
- Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).
- Wu, T., et al. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data. The Innovation. 2 (3), 100141 (2021).
- Yu, G., Wang, L. G., Han, Y., He, Q. Y. clusterProfiler: an R package for comparing biological themes among gene clusters. OMICS: A Journal of Integrative Biology. 16 (5), 284-287 (2012).
- Carlson, M. org.Hs.eg.db: Genome wide annotation for human. 2022. R package version 3.15.0. , Available from: https://bioconductor.org/packages/release/data/annotation/html/org.Hs.eg.db.html (2022).
- Barrett, T., et al. NCBI GEO: archive for functional genomics data sets-update. Nucleic Acids Research. 41, 991-995 (2012).
- Gao, Y., Zhang, J., Zhao, F. Circular RNA identification based on multiple seed matching. Briefings in Bioinformatics. 19 (5), 803-810 (2018).
- Zhang, X. O., et al. Diverse alternative back-splicing and alternative splicing landscape of circular RNAs. Genome Research. 26 (9), 1277-1287 (2016).
- Memczak, S., et al. Circular RNAs are a large class of animal RNAs with regulatory potency. Nature. 495 (7441), 333-338 (2013).
- Wang, K., et al. MapSplice: Accurate mapping of RNA-seq reads for splice junction discovery. Nucleic Acids Research. 38 (18), 178 (2010).
- Song, X., et al. Circular RNA profile in gliomas revealed by identification tool UROBORUS. Nucleic Acids Research. 44 (9), 87 (2016).
- Hansen, T. B. Improved circRNA identification by combining prediction algorithms. Frontiers in Cell and Developmental Biology. 6, 20 (2018).
- Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: A bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
- Ma, X. K., et al. CIRCexplorer3: A CLEAR pipeline for direct comparison of circular and linear RNA expression. Genomics Proteomics Bioinformatics. 17 (5), 511-521 (2019).
- Gaffo, E., Buratin, A., Dal Molin, A., Bortoluzzi, S. Sensitive, reliable and robust circRNA detection from RNA-seq with CirComPara2. Briefings in Bioinformatics. 23 (1), (2022).
- Glažar, P., Papavasileiou, P., Rajewsky, N. circBase: a database for circular RNAs. RNA. 20 (11), New York, N.Y. 1666-1670 (2014).
- Tan, S., et al. Circular RNA F-circEA-2a derived from EML4-ALK fusion gene promotes cell migration and invasion in non-small cell lung cancer. Molecular Cancer. 17 (1), 138 (2018).
- Guarnerio, J., et al. Oncogenic role of Fusion-circRNAs Derived from cancer-associated chromosomal translocations. Cell. 165 (2), 289-302 (2016).
- McGeary, S. E., et al. The biochemical basis of microRNA targeting efficacy. Science. 366 (6472), (2019).
- Enright, A. J., et al.
MicroRNA targets in Drosophila. Genome Biology. 5 (1), 1 (2003). - Rehmsmeier, M., Steffen, P., Hochsmann, M., Giegerich, R. Fast and effective prediction of microRNA/target duplexes. RNA. 10 (10), 1507-1517 (2004).
- Zhang, D., et al. AllEnricher: a comprehensive gene set function enrichment tool for both model and non-model species. BMC Bioinformatics. 21 (1), 106 (2020).
- Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10 (1), 1523 (2019).