3' End Sequencing Library Preparation with A-seq2

Georges Martin; Ralf Schmidt; Andreas J. Gruber; Souvik Ghosh; Walter Keller; Mihaela Zavolan

doi:10.3791/56129

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biology

3' конца последовательности подготовки библиотека с A-seq2

Published: October 10, 2017

doi:

10.3791/56129

Georges Martin, Ralf Schmidt, Andreas J. Gruber, Souvik Ghosh, Walter Keller, Mihaela Zavolan²

¹Computational and Systems Biology, Biozentrum,University of Basel, ²Swiss Institute of Bioinformatics, Biozentrum,University of Basel

Summary

Этот протокол описывает метод для сопоставления пре мРНК 3′ конца обработки сайтов.

Abstract

Исследования в течение последнего десятилетия показали, сложной и динамичной разнообразие пре мРНК расщепления и сплайсингу реакций. мРНК с длиной 3′ untranslated регионами (необычных) генерируются в дифференцированных клеток, тогда как пролиферирующих клеток преференциально Экспресс стенограммы с короткой 3′ необычных. Мы описываем A-seq протокол, теперь в его второй версии, которая была разработана карта сплайсингу сайты генома общесистемной и изучить правила пре мРНК 3′ конца обработки. Также этот текущий протокол использует polyadenylate (poly(A)) хвосты, которые добавляются во время биогенеза наиболее mammalian mRNAs обогатить для полностью обработанный мРНК. ДНК адаптер с deoxyuracil на его четвертой позиции позволяет точное обработка мРНК 3′ конца фрагментов для виртуализации. Не включая культуры клеток и ночи перешнуровок протокол требует около 8 h практическое время. Наряду с этим предоставляется пакет простое в использовании программное обеспечение для анализа данных производного последовательности. A-seq2 и связанные анализ программного обеспечения обеспечивают эффективное и надежное решение для сопоставления пре мРНК 3′ заканчивается в широком диапазоне условий, от 10⁶ или меньше клеток.

Introduction

Захват и последовательность мРНК 3′ концы позволяет изучение обработки мРНК и количественная оценка экспрессии генов. Из-за их poly(A) хвосты эукариотические мРНК могут быть эффективно очищены от всего lysates клетки с шарик прикол oligo-deoxythymidine (oligo(dT)) молекулы, которые также могут воспламенить синтез cDNA. Однако этот подход имеет два недостатка. Во-первых тянется A являются внутренними для стенограммы можно также премьер синтеза cDNA, что приводит к ложным poly(A) сайтов. Во-вторых, однородной poly(A) тянется представляют конкретные проблемы для виртуализации, помимо не информативна для идентификации транскрипт. Были предложены различные подходы обойти эти ограничения, такие как обратная транскрипция через poly(A) хвосты, следуют H РНКазы пищеварения (3 P-seq ¹), использование пользовательской последовательность праймера, заканчивающийся в 20 Ts (2 P-seq ²), предыскания из Фрагменты РНК с poly(A) хвосты свыше 50 нуклеотидов с последующим H РНКазы пищеварения (3′ ЧИТАЕТ ³), а также использование праймера oligo-dT, содержащий 3′ адаптер в шпильку ( ⁴A-seq) грунт₄₅ У.Е.₅Т.

Недавно разработанный метод A-seq2 ⁵ стремится обойти последовательности через poly(A) и в то же время для сведения к минимуму долю димеры, которые генерируются самолигирование адаптеров, особенно происходит когда Молярная концентрация адаптеры перевешивает Вставка концентрации. Эта проблема может быть устранена, когда оба адаптеры лигируют и тот же тип полинуклеотид концы как A-seq2, где 3′ адаптеры лигируют к 5′ концу фрагменты РНК и адаптеры 5′ 5′ концы cDNAs после обратной транскрипции. Метод является более удобным, чем наши ранее предложенных A-seq – в котором последовательности был в 5′-к-3 «направление, потребовав точно контролируется РНК фрагментации-, сохраняя при этом высокую точность идентификации сайта poly(A). Около 80% последовательного читает в типичных образцов однозначно сопоставить генома и привести к идентификации более 20 000 poly(A) сайт кластеров, более 70% которых перекрывающихся с аннотированной 3′ необычных.

Короче говоря A-seq2 протокол начинается с мРНК фрагментации и перевязка реверс дополнение 3′ адаптеры на 5′ концы фрагменты РНК. Поли (А)-содержащие РНК затем обратной транскрипции с 25 нуклеотидов (nt) длиной oligo(dT) грунт, который содержит нуклеотидов якорь в конце 3′, dU в позиции 4 и биотина 5′ в конце, позволяя привязки cDNA магнитные стрептавидина бисером. Большая часть грунтовки, включая биотин, удаляется из cDNA путем расщепления на dU пользователя фермент смесь, содержащие урацила ДНК glycosylase (UDG) и VIII эндонуклеазы glycosylase лиазы ДНК. Эта реакция оставляет нетронутыми концы для перевязки адаптер 5′, и три слева Ts после расщепления по-прежнему отмечать местоположение poly(A) хвост. Потому что 5′ и 3′ адаптеры прикреплены перевязки для получателей 5′ концы, генерируются нет димеров адаптер. Четырех нуклеотидов случайных РВК представил в начале чтения позволяет кластера резолюции по последнему слову последовательности документов и может также служить уникальный идентификатор молекулярные (UMI) для обнаружения и удаления артефактов амплификации PCR. Размер UMI можно увеличить, как это сделано в других исследованиях ⁶. Протокол создает чтений, которые являются вспять дополнение к мРНК 3′ заканчивается, все начиная с рандомизированных Тетрамер следуют 3 ц. обработка чтений, которые имеют 3 диагностические Ts на их 5′ конца начинается с коррекции артефактов амплификации PCR Использование UMIs, удаление 3′ адаптер последовательностей и отменить дополнения. Читает, которые возможно, возникла из oligo(dT) грунтовки на внутренние узлы A-богатые люди также определены вычислительно и отбрасывается. Паразитные сайты, как правило, недостает одной из 18 хорошо изученных и сохраняется poly(A) сигналов, которые должны быть расположен ~ 21 нуклеотидов вверх по течению сайт очевидно расщепления ⁷.

Протокол требует около 8 h практическое время, не считая культуры клеток и ночи перешнуровок. Связанные прочитать анализ программного обеспечения позволяет идентификации сайта высокоточную poly(A). С сайта poly(A) кластеры созданы на основе 4 образцы, далее подчеркивается в этой рукописи (два биологических реплицирует Си HNRNPC-лечение клеток и управления siRNA) 84% совпадения с аннотированной гена и из них, 75% совпадения с 3′ УТР и 86% либо с 3′ УТР или терминала экзона. Коэффициент корреляции Пирсона выражения 3′ концы в реплицировать образцах-0,92, и значения из более 0,9 обычно получаются с помощью метода. Таким образом A-seq2 — удобный метод, который дает очень воспроизводимые результаты.

Protocol

1. клеточный рост и мРНК изоляции расти ~ 1 х 10 6 клеток на скважине на 80% слияния ячеек в зависимости от вашего экспериментальный дизайн в 6-ну пластин. Удалить среднего роста и промойте клетки раз фосфат буфер солевой. Прямо Лизируйте клетки на плите, добавив 1 мл буфера lysis из комплекта мРНК изоляции. Передача вязкой lysate в пластиковую трубку с кончиком пипетки 1 мл 15 мл. Используйте резиновый шпатель для полностью отделить клеточный материал от поверхности пластины. Ножницы lysate содержащий вязкий ДНК с 1 мл шприц, придаваемое иглой 23 G подкожных несколько энергичных движений плунжера вверх и вниз до тех пор, пока lysate больше не вязкой. Точку иглу шприца в центре нижней части, чтобы избежать извлечения lysate из трубки. Передачи lysate в 1,5 мл трубку с помощью шприца. Спина, 5 мин на 20000 x g и 4 ° C для удаления мусора. Использование ДНК низкой bind 1,5 мл флаконы по всему протоколу. Во время центрифуги, вымыть 300 мкл ресуспензированы oligo (dT) 25 магнитные бусы на магнитные стойки с 500 мкл буфера lysis. Смешайте трубы 2 – 3 раза на стойке. Удаление буфера, после того, как раствор не станет прозрачным. Собирать четкие супернатант от шага 1.4 и добавить в бисер. Ресуспензируйте и трубы на вращающееся колесо на 10 мин Место трубы на магнитные стойки. Прозрачная жидкость после 2 мин добавить 0,8 мл буфера A Удалите из комплекта мРНК изоляции. Поворачивайте трубку на 180° градусов на стойке, 2 – 3 раза. Повторите этот шаг Стиральная еще раз с буфером а. Мыть бусины 2 раза с 0,8 мл буфера B, как описано в шаге 1.6. Для элюировать привязанного мРНК из бисера, добавьте 33 мкл H 2 O и Ресуспензируйте бисер. Нагрейте до 75 ° C за 5 мин на блок с подогревом. Сразу же спин трубы для 1 s и место их на магнитные стойки. Супернатант передать новой трубки. Образцы можно хранить при температуре-80 ° C до дальнейшего использования. Добавить 66 мкл буфера щелочной гидролиз 33 мкл мРНК (шаг 1.8), смешать и тепла ровно 5 минут при 95 ° C на Отопление блока. Сразу же охладить трубы на льду Изолировать РНК, используя комплект для очистки РНК. Примечание: Подтвердить объем; Она должна быть 100 мкл. Добавить 350 мкл RLT буфер из комплекта и 250 мкл этанола. Нагрузка на столбец и спина для 30 s на 8000 x g при комнатной температуре (RT). Вымойте с 500 мкл НПП буфер из комплекта. Вымойте с 500 мкл 80% этанола. Спина за 5 минут на 20 000 x g для просушки в столбце. Добавьте столбец 36 мкл H 2 O и спина за 1 мин на 20000 x g. отменить столбца и сохранить элюата. 2. 5 ' конец фосфорилирования и DNase лечение Добавить 5 мкл полинуклеотид буфера, 5 мкл 10 мм АТФ, 1 мкл рибонуклеазы ингибитора киназы, 1 мкл DNase и 2 мкл полинуклеотид киназы для образцы и инкубировать при 37 ° C за 30 мин при необходимости подготовить мастер реакция смеси во всем протокол путем смешивания 1.1 томов x n (n = количество выборок) каждого компонента. Буфера и удалите АТФ на спин столбца для предотвращения poly(A) дополнение в следующем шаге. Prespin спин колонки в 735 x g за 1 мин передать новый 1,5 мл флаконы столбцы и загрузить киназы реакции на столбцы. Спин столбцов 2 мин в 735 x g. сбросить столбцы и поместите трубки с собранных реакций на льду или хранить на -80 ° C. 3. Блокирование 3 ' заканчивается кордицепин трифосфат Примечание: важно, чтобы блокировать 3 ' концы РНК фрагменты, чтобы избежать их concatemerization в последующей перевязкой реакций. 3 ' концы, которые уже не заблокированы () циклические) фосфат после гидролиза обрабатываются путем добавления 3 ' dATP (кордицепин трифосфат) нуклеотидов терминатор цепочки с помощью poly(A) полимеразы. Здесь полимераза poly(A) дрожжей (yPAP), которая была выражена и очищенный, как описано в 8 был использован на концентрации 0.5 мг/мл. Дрожжи или E. coli Пап оба имеют почти того же вида деятельности для добавления 3 ' dATP и могут быть приобретены коммерчески (см. таблицу материалы). Мкл 5 добавить 13,5 x концентрированные poly(A) полимеразной реакции буфера, 2 мкл 10 мм 3 ' dATP, АБС битор РНКазы 1 мкл и 1 мкл poly(A) полимеразной реакции от шаг 2.2.1. Mix и спин 1 s. инкубировать при 37 ° C на 30 мин добавить 32,5 мкл H 2 O для каждой реакции. Очищайте РНК как шаг 1.10.1. Элюировать РНК с 14 мкл H 2 O. 4. Лигирование обратный 3 ' адаптеры на 5 ' конец РНК фрагменты место реакции в вакуумной концентратор для 10 мин для уменьшения объема до 6 добавить 3 мкл мкл. 10 x T4 РНК лигирование буфера, 3 мкл 10 мм СПС , 15 мкл PEG-8000, АБС битор РНКазы 1 мкл, 1 мкл 0,1 мм обратный дополнение 3 ' адаптер " revRA3 " (см. таблицу материалы) и смешать 1 мкл высокой концентрации РНК лигаза 1,. Инкубировать реакции при 24 ° C для 16 h на смесителе с подогревом с прерывистой смешивания при 1000 об/мин. Добавить 70 мкл H 2 O каждой реакции и перемешать. Очищайте РНК как шаг 1.10.1. Элюировать РНК с 14 мкл H 2 O. образцы можно хранить при температуре-80 ° C на данный момент. 5. Обратный транскрипции (RT) место элюаты в вакуумной концентратор 3 мин для уменьшения объема до 11 реакции переноса мкл. до 200 мкл ПЦР пробирок. Добавить 1 мкл 0,05 мм рт грунт " био дю dT25 ". Тепло в течение 5 мин при 70 ° C в PCR циклователь и оставить на 5 мин на RT Добавить 1 мкл дНТФ 10 мм, 4 мкл 5 x обратной транскриптазы буфера, 1 мкл 0,1 М DTT, 1 АБС битор РНКазы мкл и 1 мкл обратной транскриптазы. Смешать и тепла реакции за 10 мин до 55 ° C и 10 мин до 80 ° C в PCR cycler. Держите на льду или на-80 ° C для более длительного хранения. 6. Пищеварение с урацила ДНК Glycosylase фермент смесь 100 Накапайте µL стрептавидина бусы в 1,5 мл во флаконе, Ресуспензируйте 800 мкл биотина привязки буфера и место на магнитные стойки. Инвертируйте трубы 2 – 3 раза. Удаление буфера, когда ясно. Повторите шаг стирки. Ресуспензируйте бисер в буфере привязки биотина 200 мкл. Добавить Обратная транскрипция реакции на решение бусины и инкубировать 20 мин при 4 ° C на вращающееся колесо. Вымыть, бусы, 2 x с привязкой биотина буфера в шаг 6.1 и 2 x с десяти буфера на магнитные стойки. Ресуспензируйте бисер в 50 мкл десять буфера, добавить 2 мкл урацила ДНК glycosylase фермент смесь и инкубировать 1 час при 37 ° C в миксере с прерывистой смешивания. Добавьте 50 мкл H 2 O, 11 H РНКазы мкл буфера и 1 мкл H РНКазы реакций. Инкубировать при 37 ° C для 20 минут место трубы на магнитные стойки и переноса жидкости, содержащие рассеченного cDNA к новой трубки очистить рассеченного cDNA. Добавить 550 мкл буфера PB от очистки комплект ПЦР в реакции расщепления. 10 мкл ацетат натрия 3 M, рН 5.2 снизить рН. Загрузить реакции на минимальной элюции спин столбцы и спина на 17.000 x g за 1 мин Добавить 750 мкл буфера PE столбцы и спина на 17.000 x g за 1 мин отбросить потока через. Спиновые столбцы в 17,000 x g 1 мин для просушки. Передать 1,5 мл флакон столбцы, добавьте 16 мкл H 2 O и спина на 17.000 x g за 1 мин место реакции в вакуумной концентратор на 8 минут, чтобы сосредоточиться на том 7 мкл. 7. Лигирование 5 ' адаптеры до 5 ' концов cDNA для изолированных cDNA, добавить 3 мкл 10 x T4 РНК лигаза 1 буфер, 3 мкл 10 мм АТФ, 15 мкл PEG-8000, 1 мкл 50 мкм " revDA5 " oligo и 1 мкл высокой концентрации РНК T4 лигаза 1. Инкубируйте на 24 ° C в течение 20 ч добавить 70 мкл H 2 O для каждой реакции. Образцы можно хранить при температуре от-20 ° C на данный момент. 8. Пилот ПЦР, усиление библиотек и выбор размера в экспериментальном реакции, определить оптимальное количество PCR циклов достичь библиотека амплификации в экспоненциальной фазе. Пипетки 25 мкл ДНК полимеразы микс, реакции перешнуровки 20 мкл, 2 мкл H 2 O, 1.5 мкл 10 мкм вперед PCR праймер (РП1) и 1,5 мкл 10 мкм обратного PCR индекс грунт в 200 мкл ПЦР-пробирку. Запуск cycler для следующих программ: 3 min 95 ° C, а затем 20 циклов 20 s 98 ° C, 20 s 67 ° C и 30 s 72 ° C. собирать 7 мкл аликвоты после 6, 8, 10, 12, 14, 16 и 18 циклов непосредственно из cycler. Добавьте 1 мкл 10 x загрузки буфера (50% глицерина, cyanol 0,05% ксилол). Примечание: Пожалуйста следуйте рекомендациям поставщика, если использовать мультиплексирование при объединении штрих. Отдельных продуктов в малых слотов на 2% гель агарозы в 1 x TBE буфер, содержащий 1:10, 00 разрежения флуоресцентный зеленый краситель. Аликвоты нагрузки на агарозе 2% гель и запустить гель 100 вольт на 15 мин миграции визуализация продуктов ПЦР на систему документации гель. Использовать количество циклов в начале экспоненциального амплификации в экспериментальном реакции для широкомасштабной реакции PCR с дважды томов используется для экспериментального реакции ( рис. 2). Для крупномасштабных ПЦР-реакции, сосредоточиться и опреснения реакции сначала с комплектом очистки ПЦР и отдельные продукты на широкий слотов на гелях агарозы 2% в 1 x TBE буфера. Вырезать кусочки гель, содержащий 200-350 nt ДНК продуктов. Расплава гель в буфере chaotropic на RT для до 30 мин. Извлечь ДНК из ломтиков геля с комплектом извлечения геля. Не нагревайте до 50 ° C для предотвращения смещения в привязке A-богатые ДНК 9. Отправить для секвенирования. Примечание: Как правило, 50 циклов сингл прочитал (SR50) достаточно (см., например, https://www.illumina.com/technology/next-generation-sequencing.html). 9. Обработка данных Примечание: полученные данные последовательности (в формате fastq) обрабатываются с программное обеспечение, доступное в хранилище gitlab (https://git.scicore.unibas.ch/zavolan_public/A-seq2-processing). Анализ включает в себя четыре основных этапа: (1) Загрузка git-репозиторий, (2) Установка виртуальной среды, (3) Установка определенных параметров в файле конфигурации и (4) запуск анализа через ‘ snakemake ’ 10. весь анализ, проведенный в шаге 4 требует только одной команды. Подробное пошаговое описание анализа можно найти в файле README в хранилище gitlab и краткое описание доступен ниже. Все этапы индивидуальной обработки путем выполнения публично доступных инструментов, либо из внешних источников или подготовлены собственными силами. Вычислительный конвейер зависит от python 3 виртуальной среды на основе Анаконда 11 с snakemake пакета доступны 10. Он работает на машинах с Unix подобной операционной системой и был испытан в среде Linux с установленной операционной системой CentOS 6.5 и 40 ГБ доступной оперативной памяти. Программные зависимости автоматически контролируются в виртуальной среде. Следующие общедоступные программные средства необходимы и тем самым устанавливается вместе с окружающей среды: snakemake (v3.9.1) 10, fastx toolkit (v0.0.14) 12, звезда (v2.5.2a) 13 , cutadapt (v1.12) 14, 14 , samtools (v1.3.1) 15, 16 , bedtools (v2.26.0) 17. Предварительной обработки данных от чтения cDNAs Примечание: глубина последовательности могут отличаться между запусками, и, в зависимости от инструмента, данные из одного образца можно разбить на несколько файлов в последовательности. Если это так, объединить файлы, которые соответствуют одной пробы в один входной файл, который используется в следующих шагах. Конвертировать файл из fastq в формат fasta. Экстракт читает с правильной структурой (3 thymidines в позиции 5, 6 и 7 читать). Примечание: Читать, что правильно приготовленная согласно экспериментальный протокол, описанные выше должны иметь структуру (от 5 ' конец): 4-нуклеотида штрих – 3 thymidines – отменить дополнения транскрипт 3 ' конце. Хранить информацию о начальной Тетрамер в строке описания последовательности. Примечание: Тетрамер служит уникальный идентификатор молекулярные (UMI), который облегчает коррекции артефактов амплификации позже в анализе. Удаление первых семи нуклеотидов от чтения ' s 5 ' конце. Исправление для усиления артефакты, сохраняя только одну копию читает с тем же вставки последовательность и UMI. Удалить часть 3 ' конец, который соответствует последовательности адаптер и затем обратный дополнением последовательность. Только продолжить чтение, которые имеют минимальную длину (по умолчанию: 15 nt). Примечание: в зависимости от длины оригинальный фрагмент мРНК и число циклов последовательности, 3 ' конце чтения может содержать часть 3 ' адаптер, который удаляется в этом шаге. Извлечь все операции чтения, которые удовлетворяют следующим критериям: максимум 2 неизвестных нуклеотидов (' N '), максимум 80% как и последний нуклеотидов чтения не а. Эти читает, считаются достаточно высокого качества для использования в анализе. Карта читает генома с инструментом, который обрабатывает сращивания считывает и создает выходной файл в формате BAM. Если звезда используется, создайте файл с индексом генома, к которому должны быть сопоставлены читает. Для генома человека, этот шаг требует 35 ГБ оперативной памяти (RAM). Карта читает генома. Примечание: (звезда специфические примечания) Soft отсечения отключено с целью заставить сопоставления 3 ' конце каждого чтения, как это нуклеотид немедленно вверх по течению на сайте расщепления. Конвертировать BAM в кровати файл. Если читать карты в несколько мест, сохранить только те, с низким изменить расстояние. Примечание: Копия количество чтения, сопоставленный в определенном месте используется как оценка. Читает, сопоставляемые с нескольких мест учитываются дробно в каждом месте с весом, равным 1/число мест, которые читать карты. Распада чтений, которые зависят от ошибка вероятно последовательности. Если два различных чтений карта в том же месте (позиции начала и конца сопоставления идентичны) и они разделяют же UMI, рассматривать их как дубликаты ПЦР и держать только один. Вывод всех индивидуальных пре мРНК 3 ' конец обработки сайтов. Примечание: Отдельные чтения предоставляет доказательства 3 ' заканчивается, когда ее последних четырех нуклеотидов, сопоставляются с геном без ошибок. Позиция, в которую 3 ' конце чтения карт хранится как расщепление сайта. Обнаружение 3 ' конец сайты, которые могли происходить от внутреннего грунтовки. Определить сайт как внутренние грунтование артефакт, когда 10 nt по течению расщепления сайта в геноме удовлетворить одно из следующих критериев: содержит более чем шести как, содержит шесть подряд как или начинается с одного из следующих тетрамера: AAAA, AGAA, AAGA, AAAG . Создать таблицу из отдельных 3 ' конец обработки сайтов в постели формате. Определить самостоятельно регулируется poly(A) сайте кластеры. Примечание: Шаги, описанные здесь следовать процедуре, которая была введена в предварительной публикации 5. Начать сбор отдельных 3 ' конец обработки сайты, которые были получены во всех пробах исследования. Аннотации известных poly(A) сигналы 7 в регионе -60 до + 10 нуклеотидов вокруг каждого индивидуального 3 ' конце обработки сайт. Определения poly(A) сайты изложенных выше фона в каждом образце следующим образом. Сортировать сайты по их сырье выражение в рамках текущего образца. Обходить список сайтов сверху вниз, связывая Нижняя рейтингом сайтов с выше рейтинг сайта, если они расположены в радиусе предопределенные в геноме (по умолчанию: 25 nt вверх – или ниже по течению) от высокопоставленных сайта. Примечание: Все сайты низкого ранга, связанное с узлом высокопоставленных определить кластер, выражением которого является количество считываний, документирования все эти сайты. Сортировать эти кластеры по выражению и обходить список кластеров от высоких низких выражение, определение порога выражение c, в которой процент кластеров с аннотированной poly(A) сигнала упадет ниже заранее установленного порогового значения ( по умолчанию: 90%). Удалить сайты из любого кластера ниже отсечки. Кластера близко расположенных 3 ' конец сайты, полученные через образцы. Примечание: Сортировка 3 ' конце обработки сайтов сначала на количество поддержки образцы, а затем на сумму нормированного читать фото (читает за миллион (RPM)) через образцы. Обход списка сверху донизу, связывая нижний рейтинг сайтов с выше рейтинг сайтов, когда их расстояние до высшего ранга сайта не больше, чем предопределенного предела (по умолчанию: 12 nt). Всякий раз, когда любой из составляющих 3 ' конце сайт перекрывается с аннотированной poly(A) сигнал или сигнал poly(A) прямо вниз по течению, соответствующий кластер помечен для дальнейшего осмотра для выявления внутренних грунтование. Объединения poly(A) сайте кластеры. Примечание: Когда кластер помечен как предполагаемые внутренние грунтование кандидата, она объединены в кластер ниже по течению, если две группы разделяют их poly(A) сигналы или сохранить, если наиболее течению узла в кластере имеет poly(A) сигнал находится как минимум Расстояние вверх по течению (по умолчанию: 15 nt). Наконец, близко расположенные кластеры объединяются, если: (i) они разделяют же poly(A) сигнал (сигналы), или (ii) промежуток результате кластера не превышает максимум (по умолчанию: 25 nt). Хранить кластеров в постели-формате с общей нормализации читать фото от всех 3 ' конец сайты в каждом кластере как оценка.

Representative Results

Поли (А)-содержащие РНК был изолирован от культивируемых клеток, раздробленной, щелочной гидролиз и cDNAs были сделаны по вспять транскрипции с oligo(dT) грунтовки. Результате cDNA была иммобилизованных на стрептавидина бусы, dU был расщепляется в реакции конкретных иссечение урацил, адаптеры были лигируют до 5′ и 3′ концы рассеченного фрагмент и вставки были упорядочены. Рисунок 1 изображает графического плана эксперимента. Для клеток HeLa и HEK293 106 клеток были достаточными для выявления poly(A) сайты для подавляющего большинства белков кодирование генов в конце процедуры. Однако для других типов клеток или тканей, которое может быть необходимо протестировать насыщенность в количество выявленных poly(A) сайтов как количество ячеек, которые используются в эксперименте увеличивается. Представитель результаты экспериментального ПЦР шаг и фрагмента ДНК анализ образца перед последовательности показаны на рисунке 2. Рисунок 3 показывает шаги предварительной обработки вычислений анализа, начиная от fastq файла, полученные от программы sequencer и заканчивая проверил качество, подстриженные адаптер чтений, которые готовы быть сопоставлены с геном. Рисунок 4 показывает шаги анализа, которые начинаются с сопоставлением читает соответствующий генома и конец с каталогом мРНК 3′ конца обработки сайты, которые определены в конкретной выборки. Когда анализируются несколько образцов, дополнительные шаги осуществляются матч 3′ конца обработки сайтов, которые были найдены в отдельных пробах и сообщать их обилие различных образцов. Эти шаги показаны на рисунке 5. Таким образом после того как образцы были упорядочены, анализ результирующей последовательности, читать файлы (в формате fastq) через конвейер обработки имеющихся проста. После добавления информации о образцы в файл конфигурации, выполнение конвейера приведет двух основных типов выходных файлов: 1) кровать файлов с все 3′ конца обработки объектов, определенных в отдельных пробах (например » «««sample1.3pSites.noIP.Bed.gz») и 2) кровати файл с всеми кластерами сайта poly(A) (clusters.merged.bed) во всех пробах исследования. Выход также включает в себя генома координаты для всех операций чтения из каждого индивидуального образца (например «sample1. STAR_out/ALIGNED.sortedByCoord.out.BAM»), позже может рассматриваться в браузере генома как IGV16. Визуальный осмотр чтения компаний обычно обеспечивает первое представление о распределении poly(A) сайтов в геноме и изменения, которые происходят после конкретных возмущений, которые были проведены в исследовании. Например на рисунке 6 показан ответ конкретных генов нокдаун HNRNPC белка. Резюме этих распределений генома общесистемной также предоставляются (Таблица 1). Частности, выходные файлы в папке «счетчики/annotation_overlap» содержат фракций сайтов, которые совпадают с особенностями аннотированный (gtf файла в качестве входного; Аннотированная являются: 3′ УТР, терминал экзона, экзона, Интрон, intergenic). Наконец для каждого образца, результаты обработки отдельных шагов также сохраняются (например «sample1.summary.tsv»). Это включает в себя количество: сырье читает в каждого образца, читает, которые имеют ожидаемой структурой ‘ конец 5, читает, которые остаются после рушится полный ПЦР дубликаты, высокое качество читает согласно критериям, определенным в шаге 9.2, читает что однозначно сопоставляются генома (после свертывания тех, которые в результате секвенирования ошибки, см. шаг 9.5), мульти сопоставления считывает (после свертывания тех, которые в результате секвенирования ошибки, см. шаг 9.5), сырье (не кластеризованный) 3′ конца обработки сайтов в каждой пробы, сырые 3′ конец обработки сайты без потенциальных внутренних грунтование кандидатов уникальный 3′ конца обработки сайтов от всех образцов без внутреннего грунтование кандидатов и окончательный набор poly(A) сайте кластеры. Рисунок 1: основные шаги A-seq2 протокола. На левой стороне фигуры указаны отдельные шаги. Вставить фрагменты РНК изображаются как зеленые линии, которые поворачивают красный для cDNA после обратная транскрипция; Адаптеры окрашены в светло-синий или оранжевый. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 2: пилот ПЦР и конечного продукта профиля. () аликвоты от реакции PCR были собраны в разных циклов и отделить на гелях агарозы 2%. Цифры слева указать размер в нуклеотиды соответствующих групп в ДНК лестнице. В этом эксперименте для больших масштабах реакции PCR были выбраны 12 циклов (*). (b) Пример образца после выбора размера на анализатор размер фрагмента, раскрывая средний размер около 280 нуклеотидов. Цифры слева [Фу] указывают интенсивность относительной сигнала. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 3: Структура предварительной обработки последовательности чтения. Fastq файлы с чтений, которые генерируются программного обеспечения инструмент связанные последовательности обрабатываются для выявления читает высокого качества, которые будут сопоставлены соответствующим генома. На рисунке показана спецификация ввода/вывода отдельных шагов в конвейере, со ссылками на отдельные этапы протокола, описанных в разделе «Обработка данных». Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 4: изложение последовательности читать обработки, от шага картирования генома к поколению отдельных 3′ конца обработки сайтов. На рисунке показана спецификация ввода/вывода отдельных шагов в конвейере, со ссылками на iндивидуальное шаги протокола, описанных в разделе «Обработка данных». Основной выходной файл, который доставляется пользователю помечается жирным шрифтом. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 5: изложение шагов, которые предпринимаются для создания кластеров совместно регулируемых 3′ конца последовательности сайтов. На рисунке показана спецификация ввода/вывода отдельных шагов в конвейере, со ссылками на отдельные этапы протокола, описанных в разделе «Обработка данных». Основной выходной файл помечается жирным шрифтом. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Рисунок 6: результаты примера профиля 3′ конца обработки читает вдоль терминала экзона гена NUP214, показана в браузере генома IGV 16 . A-seq2 чтений были подготовлены две пробы ГЭС 293 клеток, лечение управления siRNA либо с интерферирующей HNRNPC. Читает, задокументированные poly(A) сайтов, которые были аннотированный анализа трубопровода были сохранены в формате BAM, который был использован в качестве входных данных для IGV генома браузер. 3′ концы вершины чтения карта мРНК 3′ концы, аннотированные в Ensembl. Профили показывают увеличение использования длиной 3′ УТР изоформы после HNRNPC НОК Даун. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры. Си управления реплицировать 1 Си управления реплицировать 2 ID: 29765 ID: 32682 количество сырых чтений 44210258 68570640 количество допустимых читает после обрезки и фильтрация 14024538 21211793 количество однозначно сопоставления считывает 6953674 13946436 количество операций чтения, сопоставление нескольких локусов 2040646 2925839 количество индивидуальных 3’ конца обработки сайты 1107493 1710353 Таблица 1: пример вывода анализа трубопровода. Резюме чтения, которые были получены на отдельные этапы.

Discussion

Множество основных и вспомогательных факторов, которые участвуют в пре мРНК 3′ конца обработки отражается в пейзаже соответственно комплекс сплайсингу. Кроме того сплайсингу также реагировать на изменения в рамках других процессов, например транскрипции и сплайсинга. 3′ конца расщепления сайтов в пре мРНК обычно определяются на основании характерных poly(A) хвосты, которые добавляются к продукты расщепления 5′. Большинство методов использования грунтовки oligo(dT) переменной длины, которые позволяют конкретные преобразования поли (А)-содержащих mRNAs cDNAs в реакции обратной транскрипции. Общей проблемой этого подхода является внутренним грунтовки для A-богатые последовательности привело артефакты расщепления сайтов. Были предложены два метода, которые стремятся обойти этот артефакт на стадии подготовки проб. В 3P-seq метод ¹адаптеры специально лигируют концы poly(A) хвосты с помощью шины oligo последовали частичный RNase T1 пищеварение и обратной транскрипции с ТТП в реакции как только deoxynucleotide. Полученный heteroduplexes poly(A)-poly(dT) затем усваиваются с H РНКазы и изолированы, лигируют адаптерам и виртуализированных оставшиеся фрагменты РНК. Простой и элегантный способ, 2P-seq, который использует пользовательские последовательности грунт, пропуск, оставшихся oligo(dT) стрейч в последовательности реакции сообщили же авторы ². В связанный метод, 3′ ЧИТАЕТ ³, необычно длинные грунтовка 5 нас и 45 Ts, также содержащие биотин отжигом в разрозненных РНК, следуют строгим смывки для выбора для молекул РНК с хвостами poly(A) более 50 нуклеотидов. Хотя 3′ ЧИТАЕТ резко снижает частоту внутреннего грунтовки, он не полностью устраняет ее ³. Также были предложены протоколы для прямой последовательности РНК, но результирующая читает короткие и имеют высокий уровень ошибки и этот подход не был далее развитые ¹⁸^,^,¹⁹–²⁰. Поля-Seq и коммерциализированной протоколы Квант Seq сочетают грунтовки на основе oligo(dT) с шагом случайных грунтовки для синтеза cDNA второй стренги ²⁰. Использование шаблона переключателя обратной транскрипции реакции с обратной транскриптазы Молони мышиных вирус лейкемии (MMLV) приводит к генерации cDNAs с линкеры за один шаг и тем самым не адаптер димеры могут появляться в PAS-Seq и SAPAS методы ²¹ ^, ²².

A-seq2 метод здесь представлены выделяется в его использования горные нуклеотидов (dU) в пределах биотинилированным oligo(dT) грунт. Эта модификация сочетает в себе программу обогащения oligo(dT) гибридизированных, polyadenylated целей с удалением большей последовательности₂₅ oligo (dT) от изолированных фрагментов до библиотеки готовятся и сохранение трех Ts, который указывают на наличие предварительного poly(A) хвоста. Напротив методы, которые используют H РНКазы удалить poly(A) из молекул РНК случайно оставить несколько как. Поскольку в A-seq2, секвенирование делается из 3′ конца стренги анти чувство, расщепление сайты являются предсказал должен располагаться после NNNNTTT мотив в начале чтения необработанных последовательностях. Рандомизированные тетрамера служат не только для того, чтобы позволить базы, но и вызов в ликвидации артефактов амплификации PCR. Длиннее UMIs также могут быть размещены. Возможность внутренней грунтование остается в A-seq2 и адресован вычислительно, сначала путем отбрасывания 3′ заканчивается с genomically кодировке, А богатые течению последовательности, а затем путем отбрасывания 3′ конца кластеры, которые можно объяснить внутренними грунтовки на Сам сигнал A-богатых poly(A). Недавний анализ сайтов poly(A), однозначно выведено большое количество протоколов указывает сайты, которые являются уникальными для A-seq2 распределение ожидаемых нуклеотидов и расположение внутри генов, похож на другие 3′ конца последовательность протоколов.

Важнейшим шагом в A-seq2 является выбор polyadenylated РНК и удаление рибосомной РНК и различных малых РНК. Проще всего это делается путем мРНК изоляции комплект с олиго (dT)₂₅ магнитные бусы. В принципе общая РНК, изолированные с фенолом, содержащие решения также дает высокое качество РНК, которые могут далее подвергаться выбор мРНК изоляции комплект или oligo (dT) агарозы. Шаг, который может изменяться в A-seq2 это лечение с щелочной гидролиз, который может быть сокращен или продлен до получения РНК фрагменты разных размеров. Критической является также дополнение 3′ dATP 3′ концы фрагменты РНК, poly(A) полимеразы эффективным. В протоколе, описанные здесь это лечение применяется для всех РНК фрагменты, чтобы избежать concatemerization во время реакции перешнуровки. Наконец мы отмечаем, что, хотя РНК лигаза 1 обычно используется как РНК лигаза, он также ligates эффективно одного мель ДНК, как мы сделали здесь, чтобы перевязать адаптер к 5′ концу cDNA молекул.

Таким образом A-seq2 является эффективным и легко осуществить протокол для идентификации пре мРНК 3′ конца обработки сайтов. Будущие события могут включать дальнейшее сокращение сложности протокола и количество требуемых материалов. Связанный набор инструментов анализа вычислительных данных далее включить однородную обработку 3′ конца последовательности читает, полученные с широким спектром протоколов.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Авторы благодарят миссис Béatrice Димитриадес за помощь с клеточной культуры. Эта работа была поддержана Швейцарский Национальный научный фонд грантов #31003A_170216 и 51NF40_141735 (НКРС РНК & болезнь).

Materials

Materials
Agarose, ultra pure	Invitrogen	16500-500
2100 Bioanalyzer	Agilent	G2940CA
Cordycepin triphosphate (3’ dATP)	SIGMA	C9137
DNA low bind vials, 1.5 ml	Eppendorf	22431021
Dulbecco’s Phosphate Buffered Saline	SIGMA	D8637
Dynabeads mRNA-DIRECT Kit	Ambion	AM61012
GR-Green dye	Excellgen	EG-1071	use 1:10,000 dillution
HiSeq 2500 or NextSeq 500 next generation sequencers	Illumina	inquire with supplier
KAPA HiFi Hotstart DNA polymerase mix	KAPA/Roche	KK2602
Nuclease free water	Ambion	AM9937
Poly(A) polymerase, yeast	Thermo Fisher Scientific	74225Z25KU
Poly(A) polymerase, E.coli	New England Biolabs	M0276L
Polynucleotide kinase	Thermo Fisher Scientific	EK0032
QIAEX II Gel Extraction Kit	Qiagen	20021
QIAquick PCR Purification Kit	Qiagen	28104
QIAquick Gel Extraction Kit	Qiagen	28704
RNA ligase 1, high concentration	New England Biolabs	M0437M	includes PEG-8000
RNeasy MinElute RNA Cleanup kit	Qiagen	74204
RNase H	New England Biolabs	M0279
RNasin Plus, ribonuclease inhibitor	Promega	N2618
Superscript IV reverse transcriptase	Thermo Fisher Scientiific	18090050
Turbo DNase	Ambion	AM2238
USER enzyme mix	New England Biolabs	M5505
Dyna-Mag-2 magnetic rack	Thermo Fisher Scientific	12321D
Thermomixer C	Eppendorf	5382000015	Heated mixer with heated lid
MicroSpin columns	GE-Healthcare	27-5325-01
Name	Company	Catalog Number	Comments
Buffers
Alkaline hydrolysis buffer, 1.5 x			Mix 1 part 0.1 M Na2CO3 and 9 parts 0.1 M NaHCO3. Add EDTA to 1 mM. Adjust pH to 9.2. Store aliquots at -20 °C.
5x poly(A) polymerase buffer	Thermo Fisher Scientiific		100 mM Tris-HCl, pH 7.0, 3 mM MnCl2, 0.1 mM EDTA, 1 mM DTT, 0.5 mg/ml acetylated BSA, 50% glycerol
Biotin binding buffer			20 mM TrisCl pH 7.5, 2 M NaCl, 0.1% NP40
TEN buffer			10 mM TrisCl, pH 7.5, 1 mM EDTA, 0.02% NP40
Name	Company	Catalog Number	Sequence
Oligonucleotides according to Illumina TruSeq Small RNA Sample Prep Kits, for GA-IIx and Hiseq2000/2500 sequencers	Microsynth
revRA3 (RNA)	Microsynth		5’ amino CCUUGGCACCCGAGAAUUCCA 3’
revDA5	Microsynth		5’ amino GTTCAGAGTTCTACAGTCCGAC GATCNNNN-3’
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3' (V = G, A or C)
PCR primer forward, RP1	Microsynth		5' AATGATACGGCGACCACCGAGA TCTACACGTTCAGAGTTCTACAGTC CGA 3'
PCR primer reverse, RPI1, barcode in bold	Microsynth		5' CAAGCAGAAGACGGCATACGAGA TCGTGATGTGACTGGAGTTCCTTG GCACCCGAGAATTCCA 3'
Name	Company	Catalog Number	Comments
Oligonucleotides according to Illumina TruSeq HT-Small RNA Sample Prep Kits, for HiSeq2000/2500 and NextSeq500 sequencers
HT-rev3A (DNA/RNA)	Microsynth		5'-amino-GTGACTGGAGTTCAGACGTGTGCT CTTCCrGrAUrC-3'
HT-rev5A	Microsynth		5' amino-ACACTCTTTCCCTACACGACGCTCT TCCGATCTNNNN 3'
Bio-dU-dT25, RT primer	Microsynth		5' Biotin-TTTTTTTTTTTTTTTTTTTTTTTTTT-dU-TTTVN 3'
PCR primers forward (D501-506)	Microsynth or Illumina		5'-AATGATACGGCGACCACCGAGAT CTACAC[i5]ACACTCTTTCCCTACAC GACGCTCTTCCGATCT -3'
PCR primers reverse (D701-D712)	Microsynth or Illumina		5'-CAAGCAGAAGACGGCATACGAG A[i7]GTGACTGGAGTTCAGACGTG TGCTCTTCCGATC-3'
Documentation for Illumina multiplexing:	Illumina		https://support.illumina.com/content/dam/illumina-support/documents/documentation/chemistry_documentation/experiment-design/illumina-adapter-sequences_1000000002694-01.pdf

References

Jan, C. H., Friedman, R. C., Ruby, J. G., Bartel, D. P. Formation, regulation and evolution of Caenorhabditis elegans 3’UTRs. Nature. 469 (7328), 97-101 (2011).
Spies, N., Burge, C. B., Bartel, D. P. 3′ UTR-isoform choice has limited influence on the stability and translational efficiency of most mRNAs in mouse fibroblasts. Genome Res. 23 (12), 2078-2090 (2013).
Hoque, M., Ji, Z., et al. Analysis of alternative cleavage and polyadenylation by 3′ region extraction and deep sequencing. Nat. methods. 10 (2), 133-139 (2013).
Martin, G., Gruber, A. R., Keller, W., Zavolan, M. Genome-wide analysis of pre-mRNA 3’ end processing reveals a decisive role of human cleavage factor I in the regulation of 3′ UTR length. Cell Rep. 1 (6), 753-763 (2012).
Gruber, A. R., Martin, G., et al. Global 3′ UTR shortening has a limited effect on protein abundance in proliferating T cells. Nat. Commun. 5, 5465 (2014).
Kivioja, T., Vähärautio, A., et al. Counting absolute numbers of molecules using unique molecular identifiers. Nat. methods. 9 (1), 72-74 (2011).
Gruber, A. J., Schmidt, R., et al. A comprehensive analysis of 3′ end sequencing data sets reveals novel polyadenylation signals and the repressive role of heterogeneous ribonucleoprotein C on cleavage and polyadenylation. Genome Res. 26 (8), 1145-1159 (2016).
Lingner, J., Keller, W. 3′-end labeling of RNA with recombinant yeast poly(A) polymerase. Nucleic Acids Res. 21 (12), 2917-2920 (1993).
Quail, M. A., Kozarewa, I., et al. A large genome center’s improvements to the Illumina sequencing system. Nat. methods. 5 (12), 1005-1010 (2008).
Rahmann, S. Snakemake–a scalable bioinformatics workflow engine. Bioinformatics. 28 (19), 2520-2522 (2012).
. Anaconda Software Distribution Available from: https://continuum.io (2016)
Dobin, A., Davis, C. A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
Li, H., Handsaker, B., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
Robinson, J. T., Thorvaldsdóttir, H., et al. Integrative genomics viewer. Nat. Biotechnol. 29 (1), 24-26 (2011).
Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
Ozsolak, F., Platt, A. R., et al. Direct RNA sequencing. Nature. 461 (7265), 814-818 (2009).
Yao, C., Biesinger, J., et al. Transcriptome-wide analyses of CstF64-RNA interactions in global regulation of mRNA alternative polyadenylation. Proc. Natl. Acad. Sci. U. S. A. 109 (46), 18773-18778 (2012).
Lin, Y., Li, Z., et al. An in-depth map of polyadenylation sites in cancer. Nucleic Acids Res. 40 (17), 8460-8471 (2012).
Shepard, P. J., Choi, E. -. A., Lu, J., Flanagan, L. A., Hertel, K. J., Shi, Y. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. RNA. 17 (4), 761-772 (2011).
Fu, Y., Sun, Y., et al. Differential genome-wide profiling of tandem 3′ UTRs among human breast cancer and normal cells by high-throughput sequencing. Genome Res. 21 (5), 741-747 (2011).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Martin, G., Schmidt, R., Gruber, A. J., Ghosh, S., Keller, W., Zavolan, M. 3′ End Sequencing Library Preparation with A-seq2. J. Vis. Exp. (128), e56129, doi:10.3791/56129 (2017).

3' конца последовательности подготовки библиотека с A-seq2

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

3' конца последовательности подготовки библиотека с A-seq2

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below