Cancer Research

使用转录组学分析绘制无序致癌转录因子的结构-功能关系

Published: June 27, 2020 doi: 10.3791/61564

Summary

内在无序结构域对致癌融合转录因子功能很重要。为了治疗靶向这些蛋白质，需要更详细地了解这些结构域所采用的调节机制。在这里，我们使用转录组学来绘制尤文氏肉瘤中内在无序的EWS结构域的重要结构特征。

Abstract

许多癌症的特征在于染色体易位，导致致癌融合转录因子的表达。通常，这些蛋白质包含与另一种蛋白质的DNA结合结构域（DBD）融合的内在无序结构域（IDD），并协调广泛的转录变化以促进恶性肿瘤。这些融合通常是它们引起的癌症中唯一反复出现的基因组畸变，使它们成为有吸引力的治疗靶点。然而，靶向致癌转录因子需要更好地了解低复杂性IDD在其功能中所起的机制作用。EWSR1 的 N 端结构域是一种 IDD，涉及多种致癌融合转录因子，包括 EWS/FLI、EWS/ATF 和 EWS/WT1。在这里，我们使用RNA测序来研究EWS结构域的结构特征，这些结构域对Ewing肉瘤中EWS / FLI的转录功能很重要。首先进行shRNA介导的尤文氏肉瘤细胞内源性融合的消耗，该细胞与各种EWS突变体构建体的异位表达配对。然后使用RNA测序来分析表达这些构建体的细胞的转录组，以表征与EWS结构域突变相关的功能缺陷。通过将转录组学分析与先前发表的有关EWS / FLI DNA结合基序和基因组定位的信息以及转化能力的功能测定相结合，我们能够确定对肿瘤发生重要的EWS / FLI的结构特征，并定义一组对尤文氏肉瘤至关重要的EWS / FLI靶基因。本文证明了使用RNA测序作为绘制致癌转录因子内在无序结构域的结构 - 功能关系的方法。

Introduction

癌症的一个子集，包括许多儿童和青春期的恶性肿瘤，其特征在于染色体易位，产生新的融合癌基因^{1，2，3，4，5，6。}由此产生的融合蛋白经常作为致癌转录因子起作用，协调转录调控的广泛变化以促进肿瘤发生^7，8。具有这些易位的癌症通常具有安静的突变景观，除了特征性融合之外，很少有反复出现的基因组畸变^4，9。因此，直接靶向融合蛋白是这些疾病中一种有吸引力的治疗策略。然而，这些致癌转录因子通常由低复杂性，内在无序，转录激活结构域与DNA结合结构域（DBD）融合10，11，12，13，14组成。这些蛋白质的内在无序结构域（IDD）和DBD都已被证明很难用传统的药理学方法靶向。因此，开发新的治疗方法需要更详细的分子理解这些融合所采用的机制，以异常地调节基因表达。

EWSR1的N端IDD部分通常融合到癌症中的DBD，包括尤文氏肉瘤中的EWS / FLI，弥漫性小圆细胞肿瘤中的EWS / WT1以及软部分10的透明细胞肉瘤中的EWS /^ATF1。EWS IDD在每次聚变中的机制作用尚不清楚。EWS/ETS系列融合，特别是EWS/FLI，是迄今为止功能最突出的融合。EWS/ FLI协调全基因组表观遗传和转录变化，导致数千个基因的激活和抑制^{7，11，15，16。}研究表明，IDD对于转录共激活子（如p300，WDR5和BAF复合物）以及共抑制子（如NuRD复合物）的招募很重要11，15，17。EWS IDD与FLI1的C端部分的融合赋予了FLI1的ETS DBD新的DNA结合特异性，使得融合癌蛋白（EWS / FLI）结合到基因组的重复GGAA-微卫星区域除了共识ETS基序^18，19，20之外。结合共激活子募集功能，EWS/FLI的这种紧急DNA结合活性促进GGAA-微卫星远端到转录起始位点（TSS）（"增强子样"微卫星）的从头增强子形成，并招募RNA聚合酶II以促进在TSS（"启动子样"微卫星）近端的GGAA-微卫星（"启动子样"微卫星）的转录11，15，16，21。

综上所述，这些数据使我们假设EWS域内的离散元素有助于为不同类型的EWS / FLI结合位点招募不同的共同调节因子。然而，在EWS / FLI的EWS部分内辨别这些元素以及它们如何运作，受到该领域高度重复和无序性质的阻碍。在这里，我们利用先前在尤文氏肉瘤细胞中发表的敲低-拯救系统来功能性地绘制EWS IDD中的这些元素。在这个系统中，EWS / FLI使用靶向FLI1基因的3'UTR的shRNA耗尽，并且使用缺乏3'UTR^7，17，22的不同EWS / FLI突变cDNA构建体来挽救表达。这些实验集中在具有各种缺失的构建体上，以绘制EWS IDD与重要致癌表型之间的结构 - 功能关系，包括GGAA-微卫星报告基因构建体的激活，集落形成测定以及EWS / FLI激活和抑制基因的靶向验证^7，17，22.然而，这些研究未能在EWS / FLI的EWS IDD中发现离散子结构域，这些子结构域对于激活或抑制都非常重要。所有测试的构建体要么能够激活和抑制特定的靶基因，导致有效的菌落形成，要么无法调节任何EWS / FLI靶基因，导致菌落形成^7，17，22的丧失。

通过广泛采用下一代测序实现的转录组学分析通常用于比较两种情况下的基因表达特征，通常在筛选或描述性研究的背景下。相反，我们希望利用使用RNA测序（RNA-seq）捕获全基因组表达数据的能力来表征IDD对转录因子功能的贡献。在这种情况下，RNA-seq与敲低-救援系统配对，以探索EWS结构域的结构-功能关系。这种方法适用于其他融合转录因子，包括其他EWS融合或功能知之甚少的野生型转录因子，并且与用于功能图谱研究的其他测定（例如报告测定或靶向qRT-PCR）相比具有多种优势。这些包括在相关染色质环境中测试功能的结构决定因素，在一次测定中测试多种类型的响应元件的能力（即，活化和抑制，GGAA-微卫星和非微卫星等），以及由此产生的更好地检测部分功能的能力。

这种方法的成功实施取决于基于细胞的系统，该系统捕获感兴趣的表型（在这种情况下，A673细胞具有shRNA介导的EWS / FLI耗尽），以及适合基于细胞的系统的表达载体中的一组突变体构建体（在这种情况下，pMSCV-hygro具有各种3x-FLAG标记的EWS / FLI突变体将通过逆转录病毒转导递送）。建议对基于CRISPR的耗竭构建体、基于shRNA的耗竭构建体和cDNA表达构建体进行病毒转导，并进行适当的选择以产生稳定的细胞系，而不是瞬时转染。当转录组学数据可以与转录因子定位相关的其他数据和其他表型读数（如果可用）配对时，结果的下游解释得到加强。

在本文中，我们应用这种方法来表征EWS / FLI¹⁴的DAF突变体的活性。DAF突变体在EWS / FLI 14的EWS IDD的重复区域中有¹⁷个酪氨酸至丙氨酸突变。这种特殊的EWS突变体以前曾被报道过，当与ATF1 DBD¹⁴融合时，它无法激活报告基因表达。然而，初步的qRT-PCR数据表明，该突变体能够激活EWS / FLI靶标 NR0B1²³的转录。这里描述的转录组学方法能够成功检测DAF突变体的部分功能。通过将这些转录组学数据与有关EWS / FLI结合和识别基序的信息配对，我们进一步表明DAF突变体在GGAA-微卫星重复时保持功能。这些结果将DAF确定为第一个部分功能的EWS / FLI突变体，并突出了非微卫星基因的功能对肿瘤发生很重要（如报道^23）。这证明了这种转录组学结构 - 功能映射方法的强大功能，可以深入了解致癌转录因子的功能。

Protocol

1. 建立体外结构面板

注意：此步骤将根据要分析的特定蛋白质而有所不同。

根据需要准备病毒等分试样以进行消耗和表达构建。
1. 用3-5 x 10⁶ HEK293-EBNA或HEK293T细胞接种10cm组织培养皿，用于病毒转导所需的每种构建体。让细胞在Dulbecco的改良鹰培养基（DMEM）中粘附过夜，并补充10%胎牛血清（FBS），青霉素/链霉素/谷氨酰胺（P / S / Q）和0.3mg / mL G418。
  注意：HEK293-EBNA和HEK293T细胞推荐用于病毒生产，因为它们易于生长，具有高转染效率，并且有效地从外显体质粒中表达重组蛋白。细胞在转染当天应汇合50-70%。。
2. 为每个病毒转导构建体准备转染混合物。将 2 mL 还原血清培养基与 90 μL 转染试剂混合。
  注意：建议使用预热还原血清培养基。
3. 将病毒包装质粒（例如，gag-pol）、病毒包膜质粒（例如VSV-G）和一种基于CRISPR的耗竭、基于shRNA的耗竭或cDNA表达构建体（例如pMKO或pMSCV）中的每一种加入到转染混合物中。通过轻柔移液混合均匀。
4. 让转染混合物在室温下静置20分钟。从组织培养皿中取出HEK293-EBNA生长培养基，加入3 mL DMEM，补充10%FBS，P / S / Q和10mM丙酮酸钠。在每个培养皿中，滴加2 mL转染混合物。让细胞在转染培养基中过夜，在37°C和5%CO₂的培养箱中培养基中。
5. 第二天早上加入20 mL DMEM培养基，10%FBS，补充P / S / Q和10mM丙酮酸钠。将细胞在37°C和5%CO₂ 下孵育过夜。
6. 第二天早上，用5 mL病毒收集培养基（VCM）代替培养基（DMEM补充10%热灭活FBS，P / S / Q和20 mM HEPES）。
7. 4小时后，从板中收集VCM，并在4°C的冰上储存在50mL锥形管中。用 5 mL 新鲜 VCM 代替。
8. 4小时后，从相同的50 mL锥形管中的板中收集VCM，并在4°C的冰上储存。用 8 mL 新鲜 VCM 代替，用于过夜收集。
9. 早上从板中收集VCM，并将50 mL锥形管储存在4°C的冰上。用 5 mL 新鲜 VCM 代替。
10. 4小时后，从板中收集VCM，并将50 mL锥形管储存在4°C的冰上。用 5 mL 新鲜 VCM 代替。4小时后，从板中收集VCM并加入50mL锥形管中。
11. 通过0.45μm过滤器过滤后，从50 mL管收集等分试样到冷冻管（每个等分试样2 mL）。将病毒等分试样储存在-80°C直至使用。
  注意：可以在此处暂停实验方案，并且可以存储病毒等分试样，直到准备就绪。
在10cm组织培养皿中以适当密度的种子细胞。目标 50% 汇合度。通过将细胞置于含有5%CO₂的37°C培养箱中，让细胞粘附过夜。
注意：对于A673细胞，这是5 x 10⁶ 个细胞，在10 mL DMEM培养基中，10%FBS，P / S / Q补充和10mM丙酮酸钠。这些条件可能因所用细胞的生长速率而异。
消耗内源性目的因素。如果细胞不需要耗尽感兴趣的内源性蛋白，请跳到步骤1.4。
1. 解冻病毒等分试样，用于转导靶向目标蛋白质的shRNA或CRISPR构建体。在37°C水浴中快速解冻冷冻等分试样。
2. 向每个病毒等分试样中加入2.5μL8mg / mL聚苯乙烯，并通过温和移液混合。从细胞板中取出培养基，并通过沿板侧面移液将病毒等分试样轻轻地加入10cm板中。摇动平板以传播2 mL病毒等分试样。
3. 在组织培养箱中孵育37°C2小时。每30分钟摇动一次板，以防止板的任何区域变干。
4. 加入 5 mL DMEM 培养基，加入 10% FBS、P/S/Q 补充剂和 10 mM 丙酮酸钠，加入 5 μL 8 mg/mL 聚苯乙烯。让细胞孵育过夜。
5. 早上从细胞中取出培养基，将细胞传代到补充有精选试剂的培养基中。当传递细胞时，以一种允许它们生长48-72小时并达到50%汇合度的方式接种它们。
  注意：对于具有pSRP-iEF-2的A673细胞，将细胞接种在1：5的分裂中，并用2μg/ mL嘌呤霉素选择72小时。
转导cDNA表达结构。
1. 检查单元格以确认 50-70% 汇合度。
2. 解冻病毒等分试样，用于转导感兴趣的cDNA构建体。在37°C水浴中快速解冻冷冻等分试样。向每个病毒等分试样中加入2.5μL8mg / mL聚苯乙烯，并通过轻轻移液混合。
3. 从电镀细胞中取出培养基，并通过沿板侧面移液将病毒等分试样轻轻地加入10cm板中。摇动平板以传播2 mL病毒等分试样。
4. 在组织培养箱中孵育37°C2小时。每30分钟摇动一次板，以防止板的任何区域变干。
5. 加入 5 mL DMEM 培养基，加入 10% FBS、P/S/Q 补充剂和 10 mM 丙酮酸钠，加入 5 μL 8 mg/mL 聚苯乙烯。让细胞孵育过夜。
6. 早上从细胞中取出培养基，并将细胞传代到双重选择培养基中。根据需要生长和传代细胞7-10天，以允许cDNA构建体的双重选择和表达。
  注意：该传代的这种分裂可能需要针对不同的细胞系进行优化。对于具有pSRP-iEF-2和pMSCV-hygro构建体的A673细胞，细胞在不分裂成2μg/ mL嘌呤霉素和100μg/ mL潮霉素的情况下通过。

2. 收集细胞，验证构建体的表达，并建立相关的表型测定

经过7-10天的双重选择，将细胞收集在15mL锥形管中。用血细胞计数器计数收集的细胞。等分试样收集的细胞用于RNA测序和验证cDNA构建体的表达。
注意：设置所研究问题所需的任何相关表型测定。菌落形成测定是此处使用的相关表型测定的一个例子。
1. 收集5 x 10⁵和1 x 10⁶个细胞用于RNA测序，2 x 10⁶个细胞用于蛋白质提取。通过在4°C下以1，000×g离心5分钟并除去上清液来沉淀细胞。
2. 用1 mL冷PBS洗涤沉淀。通过在4°C下以1，000×g离心沉淀5分钟并除去上清液。将颗粒在液氮中快速冷冻并储存在-80°C。
3. 设置与剩余细胞的任何相关测定。
  注意：实验方案可以在这里暂停，将收集的样品储存在-80°C的冰箱中。
验证目标蛋白（如果使用）的敲低和结构组合的表达。
1. 解冻细胞沉淀，用于在冰上提取蛋白质。将细胞重悬于冰冷的500μL核提取缓冲液（20mM HEPES pH 7.9，140mM NaCl，10%甘油，1.5mM MgCl_2，1mMEDTA，1mM DTT，1%IGEPAL）中，并带有蛋白酶抑制剂。让它在冰上静置5分钟。
2. 通过在4°C下以1，000×g离心5分钟并除去上清液来沉淀细胞核。用蛋白酶抑制剂在500μL冰冷核提取缓冲液（20mM HEPES pH 7.9，140mM NaCl，10%甘油，1.5mM MgCl_2，1mMEDTA，1mM DTT，1%IGEPAL）中洗涤细胞核。
3. 通过在4°C下以1，000×g离心5分钟并除去上清液来沉淀细胞核。将细胞核重悬于200μL冷RIPA缓冲液中，并带有蛋白酶抑制剂（根据沉淀大小调整RIPA缓冲液的体积。让它在冰上静置45-60分钟，每15分钟剧烈涡旋。
4. 通过在4°C下以16，000×g离心45-60分钟来沉淀细胞碎片。保留上清液并转移到新鲜的冷管中
5. 通过将5-10μg蛋白质与1x上样缓冲液煮沸5分钟来制备用于SDS-PAGE电泳的样品。根据目标蛋白质的需要运行SDS-PAGE凝胶。
6. 根据需要转移到硝酸纤维素或PVDF膜上，以制备感兴趣的蛋白质。阻断并用适当的一抗和二抗进行印迹，以确认内源性蛋白（如果使用）的敲低和cDNA构建体的异位表达。
  注意：协议可以在此处暂停。
提取核糖核酸。评估RNA的质量和数量。
1. 在冰上解冻细胞沉淀。根据制造商的说明，使用基于二氧化硅离心柱的提取试剂盒提取总RNA。
2. 简而言之，使用试剂盒中的裂解缓冲液裂解细胞。将裂解物以>13000 rpm的短暂旋转将裂解物施加到二氧化硅离心柱上30-60秒，或者通过将裂解物以>13000 rpm的短暂旋转将裂解物施加到gDNA去除柱上30-60秒来除去gDNA。
3. 如果将裂解物直接应用于二氧化硅离心柱，则进行列上DNA消化。如果使用gDNA去除柱，将洗脱液以>13000 rpm短暂旋转的二氧化硅自旋柱上30-60秒。
4. 根据制造商的说明在色谱柱上洗涤RNA。在30μL洗脱缓冲液中洗脱RNA。
5. 使用荧光计或任何其他类似仪器评估RNA的质量和数量。确保260/280比率接近2，并且至少有2.5μgRNA需要提交进行测序。
  注意：收集重复项时，必须使用相同的RNA提取方案处理每个重复项。
6. 如果需要，使用少量等分试样的RNA来确认目标蛋白的稳定敲低，如果需要，通过qRT-PCR。将剩余的RNA样品储存在-80°C。
7. 通过重复步骤1-2收集生物重复，直到收集到3-4个完整的RNA集。确保每个重复显示cDNA构建体的充分表达和内源性蛋白的稳定敲低（如果使用）。

3. 下一代测序

提交提取的RNA，使用下一代测序平台进行测序，目标是5000万个碱基对（bp）配对的末端读数。按照处理样品的设施的说明进行操作。选择用于多腺苷基化RNA和链特异性测序。

4. 对齐和成绩单计数管道

注意：此协议假定在示例提交和处理之后，将为每个示例返回一组配对的 FASTQ 文件。这些文件通常使用后缀"fastq.gz"进行压缩。对这些 FASTQ 文件的进一步分析将需要访问运行 Linux 操作系统的高性能计算（HPC）设施。

传输文件
1. 使用 PuTTY 打开 HPC 环境的终端。创建一个名为"项目"的分析目录。
2. 导航到"path_to/项目"目录，并为压缩的原始 fastq.gz 文件创建一个名为"fastq"的新目录。还要创建一个名为"修剪"的目录。如图 S1A-C所示。
3. 使用 WinSCP 或类似程序将压缩的原始 fastq.gz 文件从本地存储传输到"path_to/project/fastq/"目录。检查每个样本是否有"R1"和"R2"文件， 如图S1B所示。
4. 可选：如果需要，请安装 TrimGalore。在 Linux 的 PATH 环境变量中设置包含trim_galore可执行文件的目录。
  注：低质量读取和适配器使用 TrimGalore 进行修整。TrimGalore可在 https://github.com/FelixKrueger/TrimGalore。
5. 可选：导航到已下载软件包的目录（即"path_to/软件"）。使用命令"curl -fsSL https://github.com/FelixKrueger/TrimGalore/archive/[version].tar.gz -o trim_galore-[version].tar.gz"下载最新的 TrimGalore 软件包。
6. 可选：解压缩 tar.gz 文件。使用命令"tar -xvzf trim_galore-[version_number].tar.gz"。
7. 可选：使 TrimGalore 可执行。使用命令"chmod a+x path_to/software/TrimGalore-[version]/trim_galore"。请确保此新目录位于 PATH 中。使用命令"export PATH=path_to/software/TrimGalore-[version]：$PATH"。
8. 导航到path_to/项目/fastq/。使用 TrimGalore 使用 图 S1C中所示的命令修剪 fastq.gz 文件中的低质量读取。
  注意：此命令的其他标志可能相关，可在此处找到：https://github.com/FelixKrueger/TrimGalore/blob/master/Docs/
  Trim_Galore_User_Guide.md
9. 检查path_to/项目/修整目录中的已修整 fastq.gz 文件。确保它们称为 sample1_R1_val_1.fq.gz 和 sample1_R2_val_2.fq.gz
将修剪过的 FASTQ 文件与 STAR 对齐并生成脚本计数。
注：STAR 位于 https://github.com/alexdobin/STAR）
1. 可选：安装 STAR 版本 2.6 或更高版本。在路径中设置 STAR 可执行文件。
2. 可选：导航到已下载软件包的目录（即"path_to/软件"）。
3. 可选：使用命令"curl -SLO https://github.com/alexdobin/STAR/archive/[version].tar.gz"下载 STAR 软件包。解压缩焦油.gz文件。
4. 可选：使用命令"tar -xzf [version].tar.gz"。使 STAR 可执行。使用命令"chmod a+x path_to/software/STAR-[version]/bin"。
5. 可选：请确保此新目录位于路径中。使用命令"导出 PATH=path_to/软件/STAR-[version_number]/bin/linux_x86_64_static：$PATH"。
  注：STAR 手册见：（https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf）。
6. 确保有基因组索引与STAR一起使用。将其放在与path_to/项目/目录分开的目录中。如果之前为先前的实验生成了索引，请使用该索引。或者，使用适当的预生成索引（如果可在此处获得）：http://refgenomes.databio.org/。否则，请使用 STAR 手册中的说明使用"STAR--runMode genomeGenerate"命令构建新索引。
  注意：对于此协议的其余部分，STAR 索引的路径将称为"path_to/STAR_index"。
7. 导航到path_to/项目/目录。创建一个名为"STAR_output"的新目录 ，如图S1D所示。
8. 导航到path_to/项目/已修整/目录。使用 图 S1D 中所示的命令运行 STAR 以对齐修剪后的 fastq.gz 文件。
  注意：此步骤是计算最密集的步骤，建议在具有多个线程（即 >16）的 HPC 群集上执行此操作，以用于对齐任务。根据样本数量和可用计算资源，此步骤可能需要数小时至数天。
9. 在以下位置查找包含每个成绩单计数的后续步骤所需的输出：path_to/project/STAR_output/sampleN_ReadsPerGene.out.tab。
  注意：在 ReadsPerGene.out.tab 文件中，第 1 列包含有关正在计数的特征的信息。列 2 保存未拖链读取计数，列 3 保存正向搁浅读取计数，列 4 保存反向搁浅读取计数。此文件的前四行将包含有关未与单个基因对齐的对齐读取的信息。此协议要求未拆分的读取计数。
10. 在 HPC 环境中使用 RStudio（首选）或 R 来编译每个样本的第 1 列和第 2 列的第 5 行及更低级别的数据。在 R 中将工作目录设置为"项目"。
11. 使用 图 S2A中的命令读取每个 ReadsPerGene.out.tab 文件。对于第一列，仅取"Ensembl基因ID"列中"."之前的字符，以便于下游处理。
12. 使用 图 S2B中的命令将所有样本中的计数编译为一个名为"totcts"的数据帧。将此新的原始计数数据表另存为.txt文件的制表符分隔，即如果需要，请使用"write.table"命令sample_counts.txt。
  注意：对于样本中每个ReadsPerGene.out.tab文件，Ensembl基因ID的顺序是相同的。

5. 差异表达和下游分析

使用 ComBat 对样本之间的批次效应进行归一化。
注意：有两个可能的变量可以解释基因表达的变化，第一个是使用的构建体（即样品），第二个是与细胞通过时间（即批次）相关的外部因素。建议使用 R 包 ComBat 对样品进行标准化，以实现批次间变化。
1. 如果需要，请安装并加载 sva、DESeq2、AnnotationDBI、org 的库。Hs.eg.db， pheatmap， RColorBrewer， genefilter， Cairo， ggplot2， ggbiplot， rgl， and reshape2 如图 S2C所示。对于安装，请根据每个软件包的文档使用"install.packages"命令或 Bioconductor。
2. 首先将数据过滤为仅那些每次读取至少有一个计数的基因。保存此新表以表示过滤，如图 S2D 所示。
  注意：通常，许多基因的读取计数非常低或没有。
3. 准备第二个表进行批量规范化，称为"vars"，如图 S2E所示。将行名设置为每个示例的唯一名称。将列名称设置为"sample"、"batch"和"construct"。
4. 在"样本"列中为所有样本分配一个从 1 到 n 的唯一编号，其中 n 是样本数。为"批次"列中的所有样本分配批号，以便为条件a_1和条件b_1都分配 1，并为条件a_2和条件b_2分配 2。将所有条件指定分配给"构造"列中的所有样本，以便条件 a 样本都是"A"，条件 b 样本都是"B"。
5. 还要定义批处理变量，以及 ComBat 的特定空模型矩阵，如图 S2F所示。使用 图 S2F中定义的命令运行 ComBat。
通过舍入到最接近的整数来进一步整理数据。同时去除具有负值的基因。使用 图 S3A中所示的命令。
注意：批处理归一化的输出将具有非整数读取计数和一些具有负值的基因。此步骤是必需的，因为下游差分表达式分析不支持负读取计数。
使用 DESeq2 为每个构造定义差分表达式配置文件。
1. 输入 DESeq2 的实验设计， 如图 S3B 所示。使用 DESeqDataSetFromMatrix 函数构造一个 DESeqDataSet （dds），估计大小因子，然后运行 DESEq2，如图 S3B所示。
  注意：为"条件"输入的列数据必须与计数矩阵中的列的顺序相同。
2. 为了评估分析的质量，提取 DESeq2 使用的 rlog 归一化计数 ，如图 S3B所示。
  注意：在分析过程中，DESeq2使用"正则化对数"进行rlog，转换以缩小低计数（低信息）基因的样本间差异，以保留样本中计数较高的基因的差异（高信息）。
3. 当从DESeq2的结果中提取每个转录谱的结果时，参考敲低条件或基线空载体进行成对比较， 如图S3C所示。使用HGNC基因符号进一步修改这些结果，如图 S3D所示。
4. 如图 S3E所示，从DESeq2结果中提取数据。导出为单个文件，其中包含具有 log2FoldChange 的所有构造的 Ensembl 基因 ID、HGNC 符号、基本均值表达和差异表达数据，以及原始和调整后的 p 值。
  注意：使用调整后的 p 值< 0.05 是差分表达的推荐截止值。
5. 评估成功的批次归一化和样品内相似性。使用PCA检查样品聚类，并使用 图S4A-B所示的代码使用rlog归一化计数检查样品到样品距离图。
使用差分表达式配置文件，使用 图 S4C 中的代码生成火山图。评估构建体之间基因表达的变化。
使用 rlog 归一化计数和分层聚类来识别不同构造所独有的基因特征。使用 图 S4D中所示的代码。
1. 提取基质中所有构建体中1000个最具可变性的基因。使用pheatmap根据这些基因对样本进行无监督的分层聚类。
2. 通过确定感兴趣的树状图簇出现在哪个水平上，从树状图中提取感兴趣的聚类。将"k"设置为该级别的聚类数。重新绘制按聚类排序的热图，以确定感兴趣的聚类，如图 S5所示。
3. 导出与每个簇相关的基因列表，如 表S1所示。使用此信息来确定感兴趣的簇中的基因。
确定所鉴定的不同基因簇的生物学作用，并在类别之间进行比较。这可以使用各种生物信息学工具进行。ToppGene²⁴ 在这里使用，可在线免费获得。
注意：有许多免费工具只需要一个基因列表即可复制并粘贴到网站上的字段中。选择最适合所调查研究问题的分析工具。
或者，如果有关于基因组结合的可用数据驱动感兴趣的转录因子的转录输出，则比较与不同结合元件相关的基因的转录反应，以进一步评估突变功能。

6. 与相关表型的比较

将相关表型与生成的转录组学谱数据进行比较，并根据需要进行解释。

Representative Results

初步的qRT-PCR数据表明，一种名为DAF的EWS / FLI突变体在EWS的重复和无序区域具有特异性酪氨酸至丙氨酸突变，保持了激活EWS / FLI靶基因的能力，但未能抑制关键靶基因^23。为了更好地理解EWS域中的这些残基与EWS/FLI功能之间的关系，使用了上述描述并在图1 中概述的协议。A673尤文氏肉瘤细胞被病毒转导，用shRNA靶向 FLI1的3'UTR，导致内源性EWS/FLI的消耗。经过4天的选择，用不同3XFLAG标记的EWS/FLI突变体的病毒转导挽救了EWS/FLI功能，以空载体为对照，无需救援。一种缺乏EWS结构域的非功能突变体（称为Δ22）被用作阴性对照，野生型EWS/ FLI（称为wtEF）被用作阳性对照（图2A）。DAF 被用作测试构造，但如果需要，可以使用多个测试构造。选择细胞另外10天以使构建表达稳定，然后收集RNA（使用gDNA去除步骤），蛋白质和菌落形成测定。收集了四个重复项，并显示有效敲低和挽救的具有代表性的qRT-PCR和蛋白质印迹如图 2B-D所示。应该注意的是，DAF拯救的细胞未能形成 如图2E所示的集落，表明致癌转化受损。

在完成重复验证和表型测定后，RNA被提交给全国儿童医院的基因组医学研究所进行文库制备和下一代测序，并收集了约5000万个150-bp配对端读数。数据以 fastq.gz 文件的形式返回。使用TrimGalore从这些文件中删除低质量的读数，STAR用于将读数与人类基因组hg19对齐并计算每个基因的读数。hg19 用于与下游分析中使用的 EWS/FLI 的其他精选数据集兼容。这些读取计数被合并到所有样本的单个计数矩阵中，其中前6行如图 3所示。

计数最初通过DESeq2运行，没有批量归一化，但是，对样品到样品距离的目视检查显示了潜在的混杂批效应，如图4A中的红色箭头突出显示所示。这可能是由于培养物中细胞的通过和每批处理的差异而引入的生物变异性引起的。批处理效果的归一化是使用 ComBat 执行的，通常建议使用。批量归一化数据的样品到样品距离如图4B所示。在批量归一化之后，DESeq2用于生成相对于基线的三个结构（wtEF，Δ22和DAF）的转录谱。请注意，虽然"亲本"A673细胞（模拟敲低和模拟救援，此处称为"iLuc"）包括在差异分析中，但本实验的参考是EWS / FLI耗尽的细胞，称为iEF细胞。通过将iLuc样品与iEF进行比较，可以生成内源性蛋白质的转录谱，这可能对了解救援系统的工作原理感兴趣，但这不是此特定分析的目标。为突变体生成的转录谱包括iEF的正（wtEF）和阴性（Δ22）对照，因此这些应作为其他突变体的基准。这很重要，因为本例中的阳性对照没有完全概括内源性EWS / FLI的功能，如其他地方^7，23所讨论的那样。

图5中的主成分分析（PCA）表明，DAF的转录谱介于wtEF和Δ22之间，证实了部分功能。此外，样本中1000个最可变基因的分层聚类表明，DAF未能抑制EWS / FLI靶基因，仅部分保留了基因激活活性，如图6A和图S5所示。ToppGene分析表明，DAF激活的基因类别在功能上与DAF无功能的EWS / FLI激活靶标不同（图6B）。有趣的是，wtEF拯救的激活基因的功能，但不是DAF，似乎与转录控制和染色质调节有关。根据集落形成测定的结果，应进一步分析来自该核心基因特征的基因在EWS / FLI介导的肿瘤发生中的作用。EWS / FLI介导的基因抑制的重要性之前已经描述过¹⁷。

众所周知，EWS/FLI对GGAA-微卫星重复元素^19、22具有独特的结合亲和力，并且这些元素的结合驱动下游基因调控11、15、18、20、22。这些微卫星的特征在于与激活或抑制有关，并且要么靠近（<5 kb）TSS，要么远端到（>5 kb）TSS^25。此外，还有一些EWS / FLI调控的基因具有高亲和力（HA）ETS基序，与TSS²³近端。为了进一步分析DAF功能的特征以及DAF能够挽救哪些类型的EWS/FLI激活基因，分析了与这些不同类别相关的基因的差异表达。有趣的是，DAF最能够拯救GGAA-微卫星激活基因，但无法拯救HA位点附近的激活基因，如图7所示。从分层聚类中可以看出，DAF 无法拯救跨主题类的 EWS/FLI 介导的压制。这些数据表明，DAF保留了EWS的足够结构特征，可以与GGAA微卫星结合并从TSS的近端和远端激活。这可能是由于完整的SYGQ域被认为对GGAA重复的EWS / FLI活动很重要^。这些数据还表明，DAF中突变的特定酪氨酸在HA位点的EWS / FLI介导的基因调控以及基因抑制中起着重要作用，但知之甚少，这突出了进一步研究的一个重要领域。

图 1：工作流。描述通过转录组学执行结构-功能映射的分步过程。细胞首先准备表达结构 - 功能映射所需的结构套件。表达后，收获细胞的RNA和蛋白质，并测定相关表型。验证了结构的表达，并重复该过程3-4次以收集独立的生物学重复。然后将RNA提交用于下一代测序（NGS）。收到数据后，对数据进行质量修整、对齐，并计算每个成绩单的计数。使用DESeq2控制批处理效应，并确定转录组学特征和差异表达。可以合并分层聚类和下游分析，集成其他组学数据集和不同的路径或功能分析。请点击此处查看此图的放大版本。

图2：构建体表达和相关测定的验证。（A）示意图，描述了本例中测试的结构。（B）免疫印迹对内源性 EWS/FLI 的敲低和 3X-FLAG 标记构建体表达的验证。（C，D）通过qRT-PCR验证EWS/FLI（C）活化靶基因NR0B1和（D）抑制靶基因TGFBR2的构建活性。数据以平均 +/- 标准差表示。P值是用Tukey诚实显著性检验计算的。* p < 0.05， ** p < 0.01， *** p < 0.005 （E）用于评估构建体转化活性的软琼脂测定的菌落计数。P值是用Tukey诚实显著性检验计算的。* p < 0.05， ** p < 0.01， *** p < 0.005.此图改编自 Theisen 等人²³请单击此处查看此图的放大版本。

图 3：用于分析的最终整理计数数据。计数文件前6行的屏幕截图，其中包含要进行批量归一化和分析的所有样本的基因计数。请点击此处查看此图的放大版本。

图 4：样本到样本距离热图。（A）样本到样本距离图，显示原始计数数据的样本聚类。按批次和按样品聚类的样品用红色箭头表示。（B）使用 ComBat 进行批量归一化后的样品到样品距离图。此处，来自所有仿行的样本独立于批处理聚集在一起。请点击此处查看此图的放大版本。

图 5：差异表达分析的结果。（A）为所有样品生成的转录组学特征的主体成分分析（PCA）图显示了强烈的样品内聚类，并表明DAF在阳性（wtEF）和阴性（Δ22）对照之间是中间的。（B）火山图显示与每个构造中基因的 log2FoldChange 对图的 -log（p-值）。调整后 p 值< 0.05 且|log2（FoldChange）|> 1 被视为显著的，并以红色显示。面板5B改编自Theisen等人^，请点击此处查看此图的放大版本。

图6：用于识别基因类别的分层聚类。（A）所有构建体中前 1000 个最可变基因的分层聚类和基线 iEF 显示 DAF 部分挽救了 EWS/FLI 介导的基因激活。（B）来自ToppGene的基因本体（分子功能）结果显示了被DAF拯救或未获救的EWS/ FLI激活基因的功能富集。图6B改编自Theisen等人^，请点击此处查看此图的放大版本。

图7：对不同结构的不同转录因子响应元素的详细分析：（A）示意图，通过将其他可用数据集与此处的转录组学配置文件相结合，描述了用于生成面板（B）和（C）的数据处理。（B，C）汇编显示了对不同类别的直接EWS/FLI-（B）激活和（C）抑制目标的救援。纳入的基因仅是内源性EWS/FLI可检测差异表达的基因。在每个饼图中，灰色描绘了未被构建体拯救的基因部分。红色表示被差异激活的基因部分，蓝色表示被差异抑制的基因部分。此图改编自 Theisen 等人²³请单击此处查看此图的放大版本。

图 S1：将 fastq.gz 文件加载到 HPC 环境中，进行修整和对齐。请点击此处下载此图。

图 S2：整理样本中的读取计数并使用 ComBat 运行批处理规范化。请点击此处下载此图。

图 S3：运行 DESeq2 并提取差异表达分析的结果。请点击此处下载此图。

图 S4：分析输出。请点击此处下载此图。

图S5：用于识别基因类别的分层聚类： 所有构建体中前1000个最可变基因的分层聚类，基线iEF分类为 k 个聚类。在本例中 k=7，但此参数由用户设置，如图 S4D所示。请点击此处下载此图。

表S1：具有簇注释的基因列表（Ensembl基因ID）。请点击此处下载此表格。

Discussion

研究致癌转录因子的生化机制对于了解它们引起的疾病和设计新的治疗策略至关重要。在以染色体易位为特征的恶性肿瘤中尤其如此，导致融合转录因子。这些嵌合蛋白中包含的结构域可能与野生型蛋白质中存在的调节结构域缺乏有意义的相互作用，使在融合的背景下解释结构 - 功能信息的能力复杂^化26，27，28。此外，许多这些致癌融合的特征是低复杂性的内在无序结构域10，13，29，30。

EWS结构域是这种本质无序结构域的一个例子，该域涉及各种致癌融合^10。固有的无序性和重复性阻碍了理解EWS结构域所采用的分子机制的努力。先前研究结构 - 功能的努力在很大程度上诉诸于在报告基因测定的背景下或在细胞背景中使用不同的突变体，这些突变体无法概括相关的细胞背景，或者缺乏任何产生有意义的部分功能的结构变异11，17，25。此处介绍的方法解决了这些问题。在疾病相关细胞环境中进行结构-功能映射，下一代测序使转录组学谱分析能够在天然染色质的设置下评估转录因子功能。在EWS / FLI的DAF突变体的特定情况下，据报道DAF在使用分离的反应元件的报告基因测定中几乎没有活性，但在完整基因启动子的背景下显示活性，无论是在报告测定中还是在天然染色质中，都表明一个有趣的表型^23。使用这里描述的方法更直接地解决了基因组中哪种类型的调节元件在疾病环境中反应最灵敏的问题。通过同时在其天然染色质环境中测试所有候选靶基因，转录组学方法更有可能识别具有部分功能的构建体。

使用与疾病相关的细胞背景的固有强度可能是这种技术的最大局限性。最重要的因素之一是为这些实验选择合适的细胞系统。许多来自具有特征性转录因子的恶性肿瘤的细胞系不容易耐受该转录因子的敲低，并且在许多情况下，特别是对于儿科癌症，真正的起源细胞仍然存在争议，并且癌基因在其他细胞背景中的表达是令人望而却步的毒性^31，32 .在这些情况下，在不同的细胞背景中进行实验可能会有所帮助，只要研究人员在解释结果时要谨慎，并在更与疾病相关的细胞类型中适当地验证任何相关发现。

至关重要的是要仔细验证癌基因表达的稳定性和表型后果，并且只提交符合严格标准的测序样品。在这里，这包括用于确认敲低和挽救的蛋白质印迹，以及用于验证阳性对照的少量已知靶基因的qRT-PCR（图2）。同样重要的是，通过在每个批次中尽可能相似地仔细地进行细胞和RNA制备，尽可能减少批次变异性。

这里描述的方法在与其他类型的基因组数据配对时变得特别强大，这些数据与所研究的转录因子的全基因组功能有关。这种类型的结构功能分析的未来方向将扩展到包括ChIP-seq和ATAC-seq，以确定转录因子的结合以及染色质可及性的任何诱导变化。作为一套，这种类型的数据可以指出致癌转录因子的不同结构成分对功能的不同方面的贡献（即DNA结合与染色质修饰与共同调节剂招募）。总体而言，使用基于NGS的方法绘制融合转录因子的结构 - 功能关系可以揭示这些蛋白质致癌功能的生化决定因素的新见解。这对于进一步了解它们引起的疾病以及开发新的治疗策略非常重要。

Disclosures

SLL作为Salarius Pharmaceuticals的顾问委员会成员和股东宣布存在利益冲突。SLL也是美国专利号的上市发明人。US 7，393，253 B2，"用于诊断和治疗尤文氏肉瘤的方法和组合物"和US 8，557，532，"耐药尤文氏肉瘤的诊断和治疗"。这不会改变我们对JoVE共享数据和材料的政策的遵守。

Acknowledgments

这项研究得到了全国儿童医院阿比盖尔·韦克斯纳研究所的高性能计算设施的支持。这项工作得到了美国国立卫生研究院国家癌症研究所[U54 CA231641至SLL，R01 CA183776至SLL]的支持;亚历克斯的柠檬水摊位基金会[ERT青年研究员奖];佩洛托尼亚[ERT奖学金];和国家卫生与医学研究委员会CJ Martin海外生物医学奖学金[APP1111032至KIP]。

Materials

Name	Company	Catalog Number	Comments
Wet Lab Reagents
anti-FLI rabbit pAb	Abcam	ab15289	1:500
anti-lamin B1 rabbit pAb	Abcam	ab16048	1:2000
Cell-based system for introduction of mutant constructs			Determined by cell system used
Cryotubes			For viral aliquots
DMEM	Corning Cellgro	10-013-CV	For viral production
Fetal bovine serum	Gibco	16000-044	For viral production
G418	ThermoFisher	10131027	For viral production
HEK293-EBNAs	ATCC	CRL-10852	For viral production
HEPES	Gibco	15630106
Hygromycin B	ThermoFisher	10687010
M2 anti-FLAG mouse mAb	Sigma	F3165	1:2000
Near IR-secondary antibodies	Li-Cor
Optimem	Gibco	31985062	For viral production
Penicillin/Streptomycin/Glutamine	Gibco	10378-016	For viral production
Polybrene	Sigma	TR-1003-G	For viral transduction
Puromycin	Sigma	P8833	Stored at 2 mg/mL stock
RNeasy Plus kit	Qiagen	74136	Has gDNA removal columns
Selection reagents			As dictated by cell system used
Sodium Pyruvate	Gibco	11360-070	For viral production
Tissue culture media			Determined by cell system used
TransIT-LT1	Mirus	MIR 2304	For viral production

Software
Access to HPC environment
AnnotationDbi			1.38.2
Cairo			1.5-10
DESeq2			1.16.1
genefilter			1.58.1
ggbiplot			0.55
ggplot2			3.1.1
org.Hs.eg.db			3.4.1
pheatmap			1.0.12
PuTTY
R			3.4.0
RColorBrewer			1.1-2
reshape2			1.4.3
rgl			0.100.19
R-studio
STAR			Version 2.6 or later
sva			3.24.4
TrimGalore!
WinSCP