Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

间歇酵母 2-混合筛序列数据的信息化分析

Published: June 28, 2018 doi: 10.3791/57802

Summary

酵母菌群的深度测序为阳性酵母 2-混合相互作用可能产生大量的信息关于相互作用的伙伴蛋白。在这里, 我们描述了具体的生物信息学工具的操作和定制的更新软件来分析这些屏幕的序列数据。

Abstract

我们已经适应了酵母 2-杂交试验, 同时揭示了在一个单一的屏幕上大量的瞬时和静态蛋白质相互作用, 利用高通量的短读 DNA 测序。所产生的序列数据集不仅可以跟踪在选择的阳性酵母 2-混合相互作用的人群中丰富的基因, 而且还提供了足够的相互作用的蛋白质相关子域的详细信息。在这里, 我们描述了一整套独立的软件程序, 允许非专家执行所有的生物信息学和统计步骤, 以处理和分析 DNA 序列 fastq 文件从一批酵母 2-杂交试验。这些软件包含的处理步骤包括: 1) 映射和计数序列读数对应于酵母 2-混合猎物库中编码的每个候选蛋白;2) 评估浓缩剖面的统计分析程序;和 3) 工具, 以检查在编码区域内的平移帧和位置的每个丰富的质粒, 编码的相互作用的蛋白质的兴趣。

Introduction

一种发现蛋白质相互作用的方法是酵母 2-杂交 (Y2H) 试验, 它利用工程酵母细胞生长, 只有当一个兴趣蛋白质绑定到一个相互作用的伙伴1的片段。在大规模并行高通量测序的帮助下, 现在可以进行多 Y2H 交互的检测。有几种格式被描述2,3,4,5 , 包括一个我们开发的人口是分批种植的条件下, 选择酵母含有质粒, 产生积极的 Y2H 互动6。我们开发的工作流称为 DEEPN (动态富集, 用于评估蛋白质网络), 它识别出相同的猎物库中的差异 interactomes, 以识别与一种蛋白质 (或域) 的交互作用的蛋白质。另一种蛋白质或构象不同的突变域。该工作流的主要步骤之一是正确处理和分析 DNA 测序数据。有些信息可以通过计算每种基因在选择 Y2H 交互前后的次数, 比如 RNA 序列实验的方式来收集。但是, 可以从这些数据集中提取更多的深入信息, 包括有关特定蛋白质的子域的信息, 该子域能够产生 Y2H 的交互作用。此外, 虽然 DEEPN 方法是有价值的, 但分析许多样本复制可能是繁琐和昂贵的。使用一个专门为 DEEPN 数据集开发的统计模型来缓解这个问题, 因为复制的数量有限6。为了处理和分析 DNA 测序数据集可靠、完整、健壮、可供没有生物信息学专业知识的调查人员使用, 我们开发了一套涵盖所有分析步骤的软件程序。

这套单机版的软件程序在台式计算机上运行, 包括 MAPster、DEEPN 和 Stat_Maker。MAPster 是一个图形用户界面, 允许每个 fastq 文件排队使用 HISAT2 程序7映射到基因组, 生成一个标准. sam 文件, 以便在下游应用程序中使用。DEEPN 有几个模块。它分配和计数的读数对应的特定基因类似的 RNA 序列类型量化使用模块 ' 基因计数 '。它还提取与 Gal4 转录域和猎物序列相对应的序列, 并整理这些结点的位置, 以便通过比较表和图 (使用模块 "Junction_Make") 进行检查。模块 ' Blast_Query ' 允许简单的检查, 定量, 并比较连接 Gal4 连接序列。Stat_Maker 以统计学的方式评估每种基因浓缩数据的读数, 以此来确定可能 Y2H 命中的优先级。在这里, 我们描述如何使用这些软件程序, 并充分分析 DNA 序列数据从 DEEPN Y2H 实验。DEEPN 版本可在 PC、Mac 和 Linux 系统上运行。其他程序, 如映射程序 MAPster 和 DEEPN 统计模块 Stat_Maker 依赖于在 Unix 下运行的子例程, 仅在 Mac 和 linux 系统上可用。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 映射 Fastq 文件

注: DEEPN 软件以及许多生物信息学程序使用 dna 序列数据, 其中每个序列读取已被映射为其在参考 DNA 的位置。可以使用多种映射程序, 包括此处使用 HISTAT2 程序生成. sam 文件在后续步骤中使用的 MAPster 接口。

  1. 将序列数据映射到基因组的正确版本。对于 Y2H 的小鼠源库, 使用 UCSC mm10 基因组;对于那些使用人类基因的人, 使用 UCSC hg38 参考基因组, 为酿酒酵母基因, 使用 UCSC SacCer3 参考基因组。
  2. 安装 MAPster。
    1. 下载 MAPster 软件并安装。可以使用 web 浏览器在下面找到该软件: https://github.com/emptyewer/MAPster/releases。HISAT2 在基于 Unix 的系统 (如苹果 Macintosh) 上运行。因此, MAPster 程序只会在兼容的系统 (如 Apple Macintosh 和 linux) 上运行。
      注: 苹果 Mac 的系统要求有: OSX 10.10 +, > 4 gb RAM, > 500 Gb 磁盘空间, 以及用于下载参考基因组的 internet 访问。如果用户的企业具有限制管理员权限和权限的安全协议, 则可能需要与机构 IT 人员协商。
  3. 通过 "主" 选项卡输入所需的文件和参数 (图 1)。选择适当的 "配对" 按钮, 以对形式或以 FASTQ 作为默认文件格式输入文件。
    1. 对于 DEEPN 分析, 将 "配对" 选项改为 "Off" 以单读格式运行。
    2. 只需将文件拖放到相应的窗口中, 即可将其加载到 MAPster 中。
    3. 选择与 Y2H 猎物库插入源对应的参考 DNA/基因组源。来自多个模型生物体的索引基因组在 "基因组" 框中列出, 可以从约翰霍普金斯大学计算生物学中心自动下载。参考基因组将存储在本地以供以后使用。
    4. 指示在 "线程" 框下用于映射程序的计算机进程数, 因为 HISAT2 支持多线程处理。MAPster 将搜索计算机并建议默认情况下可用的最大处理器数。
    5. 指定输出文件名。此文件名将在整个 DEEPN 过程中使用, 因此建议不带空格或特殊字符的简短但描述性的名称。指定使用 "打开输出目录" 按钮输出映射文件的文件夹。
    6. 选择适当的文件和参数后, 使用 "添加到队列" 按钮将映射作业添加到作业队列中。可以删除主窗口中的文件名并替换为与新示例相对应的文件, 并在提供相应的输出文件名后将它们添加到队列中。
    7. 一旦所有作业都输入到作业队列中, 请单击 "运行队列" 按钮。
      注意: 一旦将映射作业放置在队列中, 选择该作业会导致参数设置显示在 "作业参数" 窗口中, 并且命令行语句中的所有参数都将显示在 "作业命令" 窗口中。输出选项包括指示是否保留无法对齐的读取, 并指定每个读取所允许的主对齐次数。来自 MAPster 的默认输出文件是 SAM 格式 (". SAM" 文件)。它将包含为该示例指定的 fastq 文件中的所有序列读取, 其中包括 (映射的) 和未 (未映射) 成功映射到指定 geome 的程序。

2. 使用 DEEPN 软件进行生物信息学处理

注意: DEEPN 软件目前正在编译, 用于包含小鼠 cdna 序列、人类 cdna 序列或S. 酵母基因组 DNA 序列的猎物库。DEEPN 接受标准的. sam 文件格式, 并且可以接受包含映射和未映射的读取或单独文件的 sam (. sam) 文件, 用于每个未映射和映射的读取。

  1. 下载 DEEPN 软件并安装。可以使用 web 浏览器在下面找到该软件: https://github.com/emptyewer/DEEPN/releases。选择与计算平台匹配的版本并下载。要安装, 请打开下载的安装包。
    注意: DEEPN 的版本可用于 PC、Mac 和 Linux sysrems。Mac 和 PC 系统应该有 > 500 gb 硬盘空间和 > 4 gb RAM。
  2. 打开 DEEPN 软件。从主窗口 (图 2) 从顶部选择框中选择相应的猎物库信息。通过单击 "工作文件夹" 按钮并导航到文件夹/目录, 可以选择已处理文件的文件夹。如果需要, 可以创建一个新的文件夹/目录。一旦选择了 "工作文件夹", DEEPN 将创建三个子文件夹, 标题为 unmapped_sam_files、mapped_sam_files 和 sam_files。
    1. 如果使用包含映射和未映射读取的. sam 文件 (如 MAPster 程序的默认设置所生成的), 请将它们放在 "sam_files" 文件夹中。否则将. sam 文件放入 unmapped_sam_files 和 mapped_sam_files 相应。
  3. 通过点击 "基因计数 + 连接制造" 按钮启动处理。
    注意: 处理将开始与基因计数模块, 将使用映射位置来计算多少读取对应于每个基因。然后, 接合器将提取连接序列 (从 Gal4-activation 域直接熔化的序列), 并使用爆破算法对其进行识别。这将创建一组完整的文件夹, 如图 3所示。处理时间取决于序列数据文件的大小和数量以及使用的计算机的处理速度。典型的时间范围从 12–30 h 为实验数据集2.5亿读。基因计数程序和 Junction_Make 程序可以单独启动, 点击 "基因计数" 按钮或 "连接做" 按钮。
  4. 下载并安装 Stat_Maker (https://github.com/emptyewer/DEEPN/releases)。这是一个为 DEEPN 数据集设计的统计分析包, 当前只在 Unix Mac 系统上工作。
    1. 打开 Stat_Maker 并单击按钮 "验证安装" (图 4)。如果第一次运行, Stat_Maker 将通过从 internet 上拉出这些资源自动安装 R、锯齿和 Bioconductor。一旦检测到 R、锯齿和 Bioconductor, Stat_Maker 将变为活动状态并允许用户进一步输入。
    2. 单击 "选择文件夹" 按钮以导航到 DEEPN 处理的工作文件夹。Stat_Maker 将自动查找并列出在窗口中进行统计分析的文件。
    3. 将相应的文件从上面的 "文件列表" 窗口拖放到下面的文件窗口中, 每个向量和诱饵数据集以及每个增长条件: 非选定 (他的 + 媒体) 和选定的 (他的媒体)。重要的是, Stat_Maker 需要单独的空矢量的重复数据集、两个非选定种群样本和选定的两个样本。这给出了实验中的可变性的估计。
    4. 单击 "运行" 按钮。根据计算机的速度, 计算将在5–15分钟之间进行。
  5. 查看 Stat_Maker 输出中的结果, 这些数据被放在标有 "Stat_Maker 结果" 的主工作文件夹中的新文件夹中。
    注意: 结果在一个 CSV (逗号分隔值) 文件中找到, 可以在公共电子表格程序中打开。Stat_Maker 将排名的基因命中, 可能是差异丰富后, 选择与诱饵的兴趣在空 pTEF-GBD (图 5)。表中还列出了每个数据集的读取百分比, 其中在上游、下游或开放阅读框架内发现基因插入, 以及是否在正确的平移阅读框架内找到该基因。通常, DEEPN 将捕获一个诱饵的强健的 Y2H 相互作用的一部分, 给定的 cdna, 是从适当的阅读框架的相应的蛋白质或是在其相应的开放阅读框架的一部分的 cdna。扫描 Stat_Maker 的组合输出将简化这些无关命中的检测和消除。
  6. 要查看每个潜在候选者的数据, 请打开 DEEPN 软件, 选择相应的猎物库信息, 然后使用 "工作文件夹" 正确的工作文件夹。
    1. 单击 "爆炸查询" 按钮。这将加载一个新窗口 (图 6)。在顶部文本框中, 键入基因名称或基因库 NM 数以选择感兴趣的候选基因。这些基因名称对应于 StatMaker 输出文件中列出的名称。输入或返回, 启动感兴趣的基因检索。
    2. 使用 "选择数据集" 菜单选择要用于分析的数据集。通常, 这些都包括向量和在非选择性条件下生长的诱饵样本, 以及在选择条件下生长的诱饵样本。最初, 数据集需要几分钟的时间来加载, 但是, 对相同数据集的后续查询将会迅速进行。Blast_Query 将沿感兴趣的序列显示融合点, 以及每个融合点的丰富程度。这可以使用 "结果" 选项卡或使用 "绘图" 选项卡的图形格式显示在表格格式中。通过单击右上方的 "保存. csv" 按钮, 可以将这些结果导出到. csv 文件。

3. 核查 DEEPN 确定的候选人

注意: DEEPN 和 Stat_Maker 的目的是确定候选基因, 从而给予积极的 Y2H 互动。验证这种 Y2H 交互可以使用传统的二进制 Y2H 格式, 利用与空 Gal4-activation 域 "猎物" 质粒配对的诱饵质粒, 并与携带该基因/cDNA 片段的捕食质粒进行配对。在 Y2H 选择的酵母种群 DNA 混合物中分离出感兴趣的实际质粒是不可行的。然而, 一个可以计算重建什么基因/cDNA 片段是产生 Y2H 相互作用, 设计引物的 5 ' 和 3 ' 的两端的片段, 并扩大该片段从 DNA 分离的酵母种群。本节介绍如何查找候选猎物片段的 5 ' 和 3 ' 结尾。

  1. 打开 DEEPN 软件, 然后选择对应于项目的 "选择参数" 和 "选择工作文件夹" 的参数。通过单击 "爆炸查询" 按钮启动 Blast_Query 模块。
  2. 在顶部文本框中键入感兴趣基因的名称或其基因库 "NM" 号。从下拉菜单中选择与所选酵母填充相对应的数据集, 以便在 "结果" 选项卡中检索接合位置表。默认情况下, Blast_Query 将根据数据集中的丰度顺序排列不同的位置, 并通过数据库中找到的连接总数的 ppm 进行量化。
    1. 找到最丰富的位置, 是 "在 ORF"和 "框架"。位置值对应于该基因的核苷酸位置与 NCBI 参考序列 ("NM" 号) 在顶部文本框中找到。此序列可从基因库 (https://www.ncbi.nlm.nih.gov/nuccore/) 中检索, 也可以从 Blast_Query 窗口中的下文本框中复制。
      注: 一个例子可以在图 6, 中间面板中找到。在中心数据集中, "结果" 显示为最丰富的连接点: "位置": 867;' #Junctions ': 20033.821;"查询开始", 1;CDS: 在 ORF;和 ' 框架 ': 在框架。核苷酸867的基因库 NCBI 参考序列 NM_019648 是猎物片段的开始。
  3. 如果查询起始为 1, 则设计该底漆的 5 ' 末端, 其中包括与位置编号相对应的核苷酸, 并将25核苷酸从该位置向下延伸 (图 7)。如果查询起始值大于 1, 则表明 Gal4 激活域和猎物序列之间存在额外的核苷酸, 并且该底漆应根据查询起始数值进一步下游。
  4. 从 DEEPN 窗口单击 "分析数据" 下的 "读取深度" 按钮。打开 "读取深度" 窗口后, 在顶部文本框中键入 NCBI 参考序列 (NM) 编号或基因名称。使用下拉菜单选择包含感兴趣的丰富基因的相关数据集。使用左侧的表格和右侧的图形显示, 以确定在与感兴趣的基因对应的数据中发现了多少读取 (图 7B)。
  5. 设计一个 3 ' 端底漆, 将捕获的序列的基因片段的读取深度计算。如果大量的读取超出了 ORF 和停止密码子, 设计的底漆, 使它包括停止密码子和区域只是在上游的停止密码。如果基因序列不延伸到过去的停止密码子, 使用结果表找到最遥远的 3 ' 区域, 可以检测和使用这个位置作为最远的 3 ' 位置放置底漆。
    注意: 读深度程序扫描的间隔时间, 以找到匹配的特定基因/cDNA 感兴趣的序列。这有助于预测在样本中最丰富的猎物片段的 5 ' 和 3 ' 末端是什么。沿序列长度的读取深度的波动是正常的, 如图 7所示。如果读取深度清楚地超过了停止密码子, 它表明, 猎物片段延伸到停止密码子, 因此 3 ' 底漆可以简单地对应于停止密码子周围的区域。
  6. 每一个基因执行50µL PCR 反应。每个反应包含 25 pmol 的每向前和反向底漆匹配的猎物-图书馆质粒 (见材料表)。反应还包括25µL 高保真 2x PCR 主混合, 5 µg 的 DNA 样本, 水多达50µL。
    1. 放大反应为25个周期以3分钟的延长的时间在72°c, 退火温度55°c 三十年代, 并且变性在98°c 十年代. 在98摄氏度的三十年代变性之前骑自行车, 在5摄氏度时跟随72分钟孵化。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

映射 fastq 数据: 第一步
在几乎所有的包括 DEEPN 的应用中, 初始输出是一个短序列读取的文件, 必须通过对基因组、transcriptomic 或其他参考 DNA8进行映射。最近, 开发了 HISAT2 对齐程序, 使用最先进的索引算法来显著提高映射速度7,9。HISAT2 在台式计算机上高效运行, 可以在几分钟内映射一个典型大小的读取文件。这使得我们可以将 HISAT2 包装成一个称为 MAPster 的图形用户界面, 它可以在本地映射 fastq 文件, 允许用户避免依赖通常使用命令行语言操作的远程高性能计算机群集 (图 1)。MAPster 的重要特点包括对 RNA 序列和全基因组映射实验预设参数的存在, 对多个作业进行排队的能力, 以及为专家用户提供一整套易于调节的 HISAT2 参数, 并可用于定制应用。为了说明 MAPster 的功能, 公开提供的 eHAP 细胞 RNA 序列数据文件被映射到集成 GRChg38 基因组加转录参考 DNA。eHAP A11 复制 1 FASTQ 文件是从 NCBI 序列读取存档中下载的, 其中包含3830万个读取。MAPster 是运行在苹果 iMac 与一个 3.5 GHz 英特尔核心 i7 处理器使用默认的 RNA 序列参数的不成对读取文件。映射在不到五分钟内完成。整体对准率为96.6%。类似的结果与典型的 DEEPN 数据集的15–25百万读取/样本, 虽然整体排列率较低, 由于存在的向量序列从 Y2H 猎物质粒。

在 Stat_Maker 的帮助下找到候选命中。
StatMaker 程序生成一个 excel 可查看的文件, 它总结了识别候选交互蛋白质所需的大部分相关信息。因为 Stat_Maker 使用基于 unix 的子例程, 所以它将在 Mac (OS10.10 +) 上运行, 而不是 PC。首先, 它总结了每个基因的 ppm 的读数为矢量控制和诱饵种群, 也产生了一个概率排序是否丰富的特定基因时, 选择 Y2H 互动与诱饵的兴趣是真正大于这一基因的丰富, 当选择与矢量控制的互动 (图 5)。其次, StatMaker 对每个基因进行 BlastQuery 模块计算, 并列表正确平移帧中的连接读数百分比, 以及 bonafide 生物相关的编码序列。interactor。这种组合的输出使得可以快速排序和筛选候选者, 以识别那些可通过 BlastQuery 更接近的检查。有了这个输出, 你可以首先排序的那些最可能可可的候选者在选择 Y2H 互动的诱饵蛋白的兴趣, 而不是选择时, 在载体质粒的互动。在实践中, 我们发现 P > 0.95 工作良好。然后, 考生可以在编码区域和正确的阅读框架中使用简单的排序功能, 对那些具有最多连接读数的人进行排名。在这里, 考生与 > 85% 的路口, 是在正确的平移框架和发现要么在开放阅读框架/蛋白质编码区域 (在 ORF) 或开始刚刚上游的起始密码子 (上游)。后一种过滤器消除了具有可接受的 P 值的候选者的 60–80%, 产生了一个与生物学相关且可管理的更便于进一步检查的列表。

DEEPN 软件。
核心 DEEPN 软件捆绑几个计算模块一起使用 SAM 文件集成所有生物信息学步骤。Gene_Count 提供每个基因的读数数, 执行类似于 RNA 序列定量的计算。其他执行此类计算的程序也可以使用, 但是, 文件格式需要修改, 以与其他 DEEPN 模块和 Stat_Maker 程序兼容。另外, Gene_Count 模块可以用来量化 RNAseq 实验, 但是, 其他与具体统计程序集成的软件包已经开发了10。利用数据树结构进行基因赋值, 从初始 DEEPN 软件中改进了特定映射读取与相应的兴趣基因匹配的过程。这样做的作用是大大加快了处理速度, 这样, 包含1000万映射读取的典型数据集在台式计算机上采用了5–10最小的系统要求。其他分析, 特别是跨 Gal4-activation 域和互动候选者的交叉阅读分析是独立的。他们被包装与爆炸算法在当地运行, 并有分析程序, 以正确核对所有的连接读数和他们的立场, 所有给定的基因。DEEPN 软件的缺点之一是它使用特殊的格式化数据库来定义引用基因组中的外显子用于定义基因或编码区域, 以及指定序列和平移开始和停止的格式化数据库。使用的每个 cDNA/基因。我们发现, 很难检索到所有的数据库信息 DEEPN 需要的可靠的格式, 缺乏一些虚假的错误, 我们遇到的特定基因的索引。因此, 我们收集了质量控制的新数据库, 并将它们嵌入到 DEEPN 软件中, 以实现一致的内部引用。目前, 鼠标、人和S. 酵母Y2H 猎物库由包含的数据库支持, 前提是 DNA fastq 文件是根据 SacCer3 中可用的 mm10、hg38 或 UCSC 参考数据库映射的。Y2H 可以通过 DEEPN 处理来自不同有机体的库, 前提是建立了类似的数据库并将其放入 DEEPN 软件中。然而, 总的来说, 所有 DEEPN 模块、数据库和其他程序的自包含包装使这些生物信息学分析能够在各级专家的调查人员那里获得。

Figure 1
图 1: MAPster 接口.MAPster 主窗口的屏幕截图。显示用于输入所需文件和格式的框。将 "配对" (A) 关闭以将序列文件视为单端读取。参考基因组选择了 "基因组" 菜单栏 (B)。用 "线程" 菜单 (C) 选择了 HISAT2 使用的处理器数。新的示例名称可以键入 "输出文件名" 文本窗口 (D)。输出文件的目录可以在 (E) 中指定。下面是一个显示单端读取文件排队的窗口。将示例添加到队列后, 可以使用 "运行队列" 按钮 (F) 启动映射。请单击此处查看此图的较大版本.

Figure 2
图 2: DEEPN 接口.用于操作 DEEPN 模块的图形用户界面的图片。请单击此处查看此图的较大版本.

Figure 3
图 3: 完成加工.一旦 DEEPN 处理数据, 就会创建以下子文件夹。可以对这些子文件夹进行检查, 但下游进程需要在主工作文件夹中保留它们的内容和名称。请单击此处查看此图的较大版本.

Figure 4
图 4: Stat_Maker 分析.Stat_Maker 图形用户界面的图片, 它已加载了适当的文件以允许进行处理。顶部显示 Stat_Maker 的初始视图。一旦通过单击 "验证安装" 按钮和在单击 "选择文件夹" 按钮后标识的正确工作文件夹来验证底层支持数据的存在, GUI 将变为活动的, 允许加载文件。请单击此处查看此图的较大版本.

Figure 5
图 5: 摘录从 Stat_Maker 输出.Stat_Maker 输出的部分比较了捕食者在单一诱饵蛋白上的富集和单独的载体 (空 pTEF-GBD)。并对与猎物候选物相对应的质粒是否包含适当的开读框架进行了相应的分析。每个基因评估有几个价值: 基础, Vec, 诱饵和 Enr。"基数" 是在2数据集中所观察到的平均读数 (ppm) 比例, 该基因对应于仅包含向量的重复种群并在非选择性条件下生长。"Vec" 是指在2数据集内所观察到的平均读数 (ppm) 比例, 该基因对应于仅包含向量的重复种群, 并在选择性条件下生长 (-他)。"诱饵" 是指在2数据集内观察到的与含有诱饵质粒的2个种群相对应的读数 (ppm) 的比例, 在选择性条件下生长 (他)。"Enr" (enrichement) 是 log2 (bs/Bn)/(Vs)), 其中 bs 是在选择的诱饵读取, Bn 是在非选择的诱饵, Vs 是向量单独在选择, 和钒氮是向量单独在选择。请单击此处查看此图的较大版本.

Figure 6
图 6: Blast_Query 的显示.Blast_Query 的产量来自3种不同的观点。顶部是在选择候选数据集之前 Stat_Maker 的初始视图。中间面板是数据表的示例视图, 用于显示两个不同数据集的给定候选者的信息。底部显示表格数据的图形视图, 绘制与感兴趣的基因/cDNA 相关的特定连接点的数目。请单击此处查看此图的较大版本.

Figure 7
图 7: 找到 5 ' 和 3 ' 引物放大.(a) 显示一个假设序列, 以及如何设计 5 ' 寡聚物, 以捕获 Gal4-activation 域和猎物序列之间的正确帧和融合点。例如 1, 聚变点的位置在10次核苷酸上, Q 开始为1。使用上述偏移表, 0 核苷酸将被添加, 以找到 5 ' 开始位置的底漆。重建的食饵质粒融合点表明, Gal4 活化域直接与核苷酸10的捕食者融合。在例如2中, 查询开始是 3, 它需要1核苷酸的偏移量, 以捕获猎物插入的正确起点和帧。被重建的猎物的示意图表明, 在 Gal4 活化域和已知的猎物插入位置之间有2核苷酸必须被占。(B) 显示 "读取深度" 窗口。顶部的文本框用于输入 NCBI 参考序列号和 "选择. sam 文件" 下的下拉菜单, 用于选择含有丰富交互基因的样本的数据 (如果感兴趣)。读取深度显示在与感兴趣序列 (X 轴) 的核苷酸位置相对应的数据中找到了多少个序列 (Y 轴)。请单击此处查看此图的较大版本.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

这里描述的软件套件允许一个从 DEEPN 实验中完全处理和分析高通量 DNA 测序数据。第一个程序使用的是 MAPster, 它采取的 DNA 序列读取标准的 fastq 文件, 并将其位置映射到参考 DNA 的下游处理由一个完整的信息学程序, 包括 DEEPN 软件。MAPster 接口的实用程序以及它对多个作业进行排队、组合输入文件、coveniently 名称输出文件的能力, 加上底层 HISAT2 程序7 it 控件的速度, 提供了一种易于使用的工具映射, 可用于各种应用程序超出 DEEPN。除了 DEEPN 之外, MAPster 还可以访问 HISAT2 程序的多个参数, 这些特性适合其他类型的数据分析。其中一些功能包括用于 RNA 序列和整个基因组映射实验的预设参数, 以及对专家用户和定制应用的全套可调 HISAT2 参数的访问。例如, "RNA 序列" 按钮添加的格式将有助于字幕程序集。CRISPR 按钮块对齐到反向补线, 这将是适当的参考 DNA 文件派生的指南 RNA 序列。可选参数在标记为 "输入、对齐、评分和输出" 的四个标签下找到。输入选项包括更改输入文件格式和指定基本读修剪选项的能力。对齐和评分选项卡包括选择在参考 DNA 上只选取一条链, 并设置对齐评分的间隙和不匹配惩罚。能够方便地对每个具有不同参数设置的映射作业进行排队的能力, 应使专家和非专家用户都 MAPster 追求复杂的产品应用。

DEEPN 和 Stat_Maker 软件程序致力于对来自批量 Y2H 屏幕的数据进行特定的生物信息学分析。这对于广泛的调查人员是可以访问的, 它构成了一个通过图形用户界面运行的连续的生物信息学软件包。该软件包已进一步优化, 并从其原始描述6集成, 使其运行速度更快, 对候选命中的分析简化。所有的生物信息学步骤都可以在台式计算机上运行。主要的 DEEPN 软件利用这些地图位置来计算多少读数对应于每个基因从而形成了一个给定的基因如何丰富后选择的基础。该软件还找到了与插入利益相对应的 "连接" 序列, 因为它被融合到了猎物质粒的转录激活域, 并列表这些结果, 这样人们就可以可视化特定的 ORF 的所有不同部分。或者是足够用于相互作用的 cDNA。此外, 这还提供了验证每个插入的阅读框架的信息。生物信息学软件的第三个 arm 是 Stat_Maker, 它使用 DEEPN 处理的输出文件来计算基因充实与给定饵蛋白和 Gal4-DNA-binding 域矢量的相互作用所产生的统计相关性 (空 pTEF-GBD)。最近的改进是, Stat_Maker 不仅提供每个候选者的统计排名, 而且还列表从相应的连接序列中提取的相应信息, 使它们在单个文件中可用, 使其更容易调查和审查结果。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有什么可透露的

Acknowledgments

这项工作得到国家卫生研究院的支持: NIH R21 EB021870-01A1 和 NSF 研究项目赠款: 1517110。

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

遗传学 问题 136 蛋白质相互作用 下一代测序 DNA 序列分析 酵母 2-杂交
间歇酵母 2-混合筛序列数据的信息化分析
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter