РНК секвенирования следующего поколения и трубопровод биоинформатики для идентификации выраженных линий-1S на уровне Локус

Genetics
 

Summary

Здесь мы представляем биоинформатический подход и анализы, чтобы определить выражение линии-1 на определенном уровне локуса.

Cite this Article

Copy Citation | Download Citations

Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Длинные вкрапленные элементы-1 (линии/L1s) являются повторяющимися элементами, которые могут копировать и произвольно вставлять в геном, что приводит к нестабильности генома и мутагенеза. Понимание мимических паттернов на индивидуальном уровне придаст пониманию биологии этого мутагенном элемента. Этот автономный элемент составляет значительную часть генома человека с более чем 500 000 копиями, хотя 99% являются укороченным и дефектным. Однако, их обилие и доминантное количество дефектных копий делает его трудным определить достоверно выраженные L1s от связанных с ним последовательностей, выраженных как часть других генов. Также сложно определить, какой специфический Локус выражен в связи с повторяющимся характером элементов. Преодолевая эти трудности, мы представляем биоинформатический подход РНК-seq для определения экспрессии на уровне в локусе определенного уровня. Таким образом, мы собираем цитоплазматические РНК, выбрать для полиаденилированных стенограммы, и использовать пряди-специфические РНК-seq анализы однозначно карта читает до Л1 локусов в человеческой ссылкой генома. Мы визуально курируем каждый Локус с уникально сопоставлениями для подтверждения транскрипции от своего собственного промоутера и корректируем отображенных стенограммы читает для учета mappability каждого отдельного локуса. Этот подход был применен к линии клеток опухоли простаты, DU145, чтобы продемонстрировать способность этого протокола, чтобы обнаружить выражение из небольшого числа полноформатный.

Introduction

Ретротранспозоны являются повторяющимися элементами ДНК, которые могут "прыгать" в геноме в механизме копирования и вставки с помощью РНК-промежуточных соединений. Одно из подмножества ретротранспозонов известно как длинные вкрапленные элементы-1 (линии/L1s) и составляет шестую часть генома человека с более чем 500, 0000 копиями1. Несмотря на их изобилие, большинство из этих копий неисправны и усечены только оценочной 80-120 1 элементами, которые считаются активными2. Полноформатный 1-6 КБ в длину с 5 ' и 3 ' непереведенные регионы, внутренний промоутер и связанный анти-Sense промоутер, два не перекрывающихся рамы открытого чтения (ORFS), и сигнал и Polya хвост3,4,5 . В организме человека, L1s состоит из подсемейства отличаются эволюционным возрастом со взрослыми семьями, накопив более уникальных мутаций последовательности с течением времени по сравнению с самым молодым подсемейства, L1HS6,7. L1s являются единственными автономными, человеческими ретротранспозонами, а их Орфы кодируют обратную транскриптазы, эндонуклеазы и Рсот с РНК-обязательными и сопровождающая деятельность, необходимые для ретропереноса и вставки в геном в процессе, именуемый целевым грунтом Обратная транскрипция8,9,10,11,12.

Ретротранспозиция L1s, как сообщается, вызывает заболевания человека герминальных различными механизмами, включая инсертионал мутагенез, удалений целевого объекта, и перестановки13,14,15, 16. Недавно было предположение, что L1s может играть роль в онкогенезе и/или опухоли прогрессии, как увеличение экспрессии и вставки событий этого мутагенный элемент наблюдались в различных эпителиальных раков17,18 . Подсчитано, что есть одна новая Вставка В1 в каждые 200 рождений19. Поэтому необходимо лучше понять биологию активного выражения L1s. Повторяющаяся природа и обилие дефектных копий, найденных в транскриптах других генов, сделали этот уровень анализа сложным.

К счастью, с появлением высоких технологий секвенирования пропускной способности, были предприняты шаги, чтобы разобрать и определить достоверно выражать L1s на определенном уровне локуса. Существуют различные философии о том, как лучше определить выраженные L1s с использованием РНК следующего поколения секвенирования. Было предложено только два разумных подхода для отображения стенограмм на уровне локуса на специфическую. Один фокусируется только на потенциальной транскрипции, которая читает через сигнал Л1 полиаденилирования и в фланговые последовательности20. Наш подход использует небольшие различия последовательностей между 1-е элементами и только сопоставляет эти РНК-seq считывает, что однозначно карта к одному локуу21. Оба этих метода имеют ограничения в плане квантации уровней стенограммы. Квантация может быть улучшена потенциально путем добавления коррекции для «уникальной mappability» каждого локуса21, или с использованием более сложных алгоритмов, которые перераспределяют несколько сопоставленных считывает, которые не могут быть однозначно отображены на конкретный Локус22. Здесь мы будем подробно в шаг за шагом образом РНК экстракции и следующего поколения секвенирования и протокола Биоинформатика для идентификации выраженных уровней на уровне Локус-специфического. Наш подход имеет максимальное преимущество в знании биологии функциональных элементов. Это включает в себя знание того, что функциональные элементы, которые должны быть получены от промоутера, инициированного в начале «в», должны быть переведены в цитоплазму и их Транскрипты должны быть линейными с геном. Кратко, мы собираем свежие, цитоплазматические РНК, выбрать для полиаденилированных стенограммы, и использовать пряди-специфические РНК-seq анализы однозначно карта читает до Л1 локусов в человеческой ссылкой генома. Эти выровнены читает то по-прежнему требуют обширного ручного курации, чтобы определить, если Стенограмма читает исходят от а. а. промоутер до обозначения локус, как достоверно выраженное. Мы применяем этот подход на образец линии клеток опухоли предстательной железы DU145, чтобы продемонстрировать, как он идентифицирует относительно мало активно транскрибированные членов из массы неактивных копий.

Protocol

1. цитоплазматическая РНК экстракция

  1. Получить клетки через следующие методы.
    1. Собирают живые клетки от 2.75%-100% свободно, т-75 фляги.
      1. Промыть колбу 2 раза в 5 мл холодного PBS, а в последний мыть соскоблить клетки и передать 15 мл конической трубки. Центрифуга на 2 мин при 1 000 х г и 4 °c, и аккуратно удалите и выбросите супернатант (таблица материалов).
    2. Соберите клетки из образцов тканей.
      1. Подготовить ткань для цитоплазматической РНК экстракции в течение часа от расчлененных и всегда держать на льду. Для долгосрочного хранения используйте растворы РНК-ингибитора для хранения ткани на срок до 72 часов после вскрытия после протокола производителя (таблица материалов).
      2. Нарезать на 10 мкм3 образца и гомогенизации свежих образцов с 5 мл холодного PBS в стерильных dounce гомогенизатор, переход на 15 мл конической трубки, центрифуга для 2 мин при 1 000 x g при температуре 4 ° с, и осторожно удалите и отбросить супернатант (таблица материалов < /C8 >).
  2. Добавьте 2 мл буфера лизиса в клетчатую Пелле-смешайте и Инкубируйте на льду в течение 5 мин.
    1. Приготовьте новый буфер лизиса с 150 mM, 50 mM HEPES (pH 7,4) и 25 мкг/мл (таблица материалов).
    2. Поскольку минимальная концентрация дигонина в буфере лизиса, необходимая для проникновения в плазматическую мембрану, может варьироваться в зависимости от типа клеток, микроскопически подтверждается, что клетки, обработанные буфером лизиса, теряют плазматическую мембрану и сохраняют нетронутыми ядерную мембрану.
    3. Как раз перед использованием добавьте 1 000 ингибитор ннсз U/mL (таблица материалов).
  3. Центрифуга на 1 мин при 1 000 х г и 4 °c, и соберите супернатант.
  4. Добавьте супернатант в предварительно охлажденный 7,5 мл Трезола и 1,5 мл хлороформа. Все шаги, требующие хлороформа, должны быть сделаны внутри чистого химического колпака (таблица материалов).
  5. Центрифуга на 35 мин при 3 220 х г и 4 °c.
  6. Передача антенны (верхний слой) к свежей предварительно охлажденной 15 мл трубки.
  7. Добавьте 4,5 мл хлороформа и вихря.
  8. Центрифуга на 10 мин при 3 220 х г и 4 °c.
  9. Перенесите эту порцию в свежую, предварительно охлажденную трубку.
  10. Добавить 4,5 мл изопропанола, хорошо встряхнуть, и инкубировать на-80 °C ночь (таблица материалов).
  11. Центрифуга при 3 220 х г и 4 °c за 45 минут.
  12. Удалить изопропанол, добавить 15 мл 100% этанола (таблица материалов).
  13. Центрифуга на 3 220 x g в течение 10 мин.
  14. Удалите этанол, процедить и высушить примерно на 1 ч.
    1. Используйте стерильный ватный тампон, чтобы смыть остатки этанола (таблица материалов).
  15. Повторная приостановка образца в 100 – 200 МКН свободной воды в зависимости от размера гранул (таблица материалов).
  16. Фракционировать образцы с использованием электрофорез технологии для определения качества и концентрации образцов в соответствии с перевозками производителя23 (таблица материалов).
    1. Образцы квалифицируются для анализа РНК-Seq, если Рин > 824.

2. секвенирование нового поколения

  1. Отправьте цитоплазматические образцы РНК, чтобы секвенировать с помощью следующего поколения секвенирования платформы, направленной на создание по крайней мере 50 000 000 парных конец 100 BP читает.
  2. Выберите для поли-аденилированных РНК-и-специфическая последовательность нитей.

3. Создание аннотаций (по желанию, если имеется существующая Аннотация)

  1. Создайте полноформатный аннотацию или Скачайте аннотацию на полную длину (дополнительный файл 1A-b).
    1. Загрузите аннотации для строки-1 в браузере UCSC с помощью инструмента браузера таблицы (https://genome.ucsc.edu/cgi-bin/hgTables). Укажите млекопитающее clade, геном человека, агрегат hg19 (или hg38 для более обновленного генома), и фильтруйте для «LINE1» под именем типа. Загрузите файл и метку a. GTF в виде FL-L1-BLAST. GTF.
    2. Запустите локальный поиск BLAST первого 300 BP в L 1.3 полнометражного лв элемента, охватывающего промоутер области в геноме человека и добавить 6 000 BP вниз по течению, чтобы создать конец координат ЛI к аннотации файла. Сохранить в GTF файла и этикетки, как FL-L1-RM. GTF.
    3. Пересекается повторяющийся Аннотация и промоутер основе, аннотация с использованием инструментов, и ярлык, как FL-L1-BLAST_RM (программные пакеты).
      1. Используйте эту команду в терминале Linux: инструменты пересекаются-FL-L1-Blast. GTF-b FL-L1-RM. gtf > FL-L1-BLAST_RM. ТСТ.
    4. Отделить пересекаемые FL-Li аннотацию верхней и нижней нити.
      1. Скопируйте над FL-L1-BLAST_RM. ТСТ в таблицу программного обеспечения и сортировать по "минус" и "плюс" нить, а затем сортировать по местоположению хромосомы.
      2. Создайте два новых документа с таблицами, один из которых пересекается с координатами для полной длины L1s на минус цепи и один на нижней нити, и сохранить как FL-L1-BLAST_RM_minus. xls и FL-L1-BLAST_RM_plus. xls.
      3. Сохраните два новых документа в виде файлов.
    5. Используйте программу mac2unix, чтобы преобразовать файлы файлов в правильные файлы аннотации (программные пакеты).
      1. Используйте эту команду в терминале: Mac2unix.sh FL-L1-BLAST_RM_minus. GFF.
      2. Используйте эту команду в терминале: Mac2unix.sh FL-L1-BLAST_RM_plus. GFF.
      3. Сохраните новые файлы с расширением. GFF.
    6. Кроме того, используйте "Крик" для фильтрации строк, связанных с + и-Стрэнд.
      1. Используйте следующую команду, чтобы получить + нить: "Крик"/+/' FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_plus. GTF.
      2. Используйте следующую командную строку, чтобы получить-нить: Крик '/-/' FL-L1_BLAST_RM. gtf > FL-L1_BLAST_RM_minus. GTF.

4. Прочитайте выравнивание трубопровода для идентификации выраженных L1s

Параметр Описание
-p В этой детали количество потоков, которые компьютер должен использовать работает выравнивание. Большая Компьютерная память позволит более потоков и должны быть эмпирически d.
-м 1 Это говорит о том, что программа принимает только считывает, что есть один матч в геноме, что лучше, чем любой другой матч генома.
-y Это трюматно переключатель, который делает отображение поиска для всех возможных совпадений и не позволяют ему выйти после фиксированное количество матчей достигается.
-v 3 Это только позволяет программе использовать память для отображается считывает с 3 или меньше несоответствия генома.
– X 600 Это только позволяет паре читает, что карта в пределах 600 баз друг с другом. Это гарантирует, что чтение пар линейно в геноме и выбирает против s с участием обработанных молекул РНК.
-чункбс 8184 Эта команда назначает дополнительную память для обработки большого количества рядов, возможных для каждого прочиттого.

Таблица 1: варианты командной строки для Боути.

  1. Выполнить выравнивание парных конец секвенирования FASTQ файлы с РНК-seq образец интереса с помощью Боути.
    Примечание: Bowtie1 должны быть использованы и не Bowtie2, потому что параметры, необходимые для уникального выравнивания специально только найти в этой версии Боути (программные пакеты). Боути используется над сращивания известно, совмещения, как STAR в порядке оценки конкорданта, смежных читает более актуальными для биологии и выражения.
    1. Используйте эту командную линию в терминале Linux: Боути-р 10-м 1-S-y-v 3-X 600--чункбс 8184 хг_кс_и_м_индекс-1 hg_sample_1. FQ-2 hg_sample_2. FQ | SAMtools вид-hbuS-| SAMtools сортировать-хг_сампле_сортед. БАМ. См. таблицу 1 для описания вариантов командной строки для Боути.
  2. Стрэнд отделяет файл «выход БАМ» с помощью SAMtools (программных пакетов) и следующих команд Linux. Обратите внимание, что фактические значения флага могут отличаться, если не использовать стандартные протоколы секвенирования следующего поколения.
    1. Используйте эту командную линию, чтобы выбрать для верхней нити: SAMtools вид-h хг_сампле_сортед. Бам | "подонк" ($ 0, 1, 2) = = "@" | | $2 = = 83 | | | $2 = = 163 {печать} ' | SAMtools вид-BS-> хг_сампле_сортед_топстранд. БАМ.
    2. Используйте эту командную линию, чтобы выбрать для нижней нити: SAMtools вид-h хг_сампле_сортед. Бам | "подсак" ($ 0, 1, 1) = = "@" | | $2 = = 99 | | | $2 = = 147 {печать} ' | SAMtools вид-BS-> хг_сампле_сортед_боттомстранд. БАМ.
  3. Генерирования прочитаны рассчитывает на аннотации для С4 локусов, используя инструменты (программные пакеты).
    1. Используйте эту командную линию для генерации считавшных подсчитывает для L1s в направлении чувства на верхнем стренге: покрытие для бедного инструмента-abam FL-L1-BLAST_RM_plus. GFF-b хг_сампле_сортед_топстранд. бам > хг_сампле_сортед_бовтие_трихард_плус_топ.
    2. Используйте эту командную линию для генерации считавшных графов для L1s в направлении в смысле на нижней стренге: покрытие для кровати-abam FL-L1-BLAST_RM_minus. GFF-b хг_сампле_сортед_боттомстранд. бам > хг_сампле_сортед_бовтие_трихард_минус_боттом.
  4. Индекс БАМ файл из Step 5.1.1, чтобы сделать его видимым в интегративной геномике зрителя (IGV)25 (программные пакеты).
    1. Используйте эту командную строку: SAMtools индекс хг_сампле_сортед. БАМ
  5. Чтобы использовать пакетный режим, чтобы увеличить количество образцов РНК-Seq, перекачивать через за раз, используйте суперкомпьютер скрипт для завершения шага 4,1 под названием хуман_бовтие. sh, скрипт для завершения действия 4.2-4.3 был создан под названием human_L1_pipeline. sh, и скрипт для завершения Шаг 4,4 был создан называется бам_индекс. sh. Эти сценарии могут быть найдены в дополнительном файле 2 с связанными суперкомпьютером командами для запуска скриптов.

5. Ручное курирование

  1. Создайте таблицу для считывает отображается на каждом аннотированный Локус.
    1. Скопируйте хг_сампле_сортед_бовтие_трихард_минус_боттом, созданный в шаге 4.3.2 и странице метки как "минус-дно".
      1. Сортировать все столбцы, основанные на высочайшем и низком количестве считывает, найденных в столбце J.
    2. Скопируйте над хг_сампле_сортед_бовтие_трихард_плус_топ созданным в шаге 4.3.1 и ярлык как «верхний плюс» в другой таблице.
      1. Сортировать все столбцы, основанные на высочайшем и низком количестве считывает, найденных в столбце J.
    3. Создайте третью страницу, помеченные как «Объединенные», и добавьте все локусы с десятью или более считками из страниц «минус-дно» и «плюс-топ».
      1. Сортировать все столбцы, основанные на высочайшем и низком количестве считывает, найденных в столбце J.
    4. Загрузите следующие файлы в IGV25 (программные пакеты): 1) эталон генома интересов для визуализации аннотированных генов, 2) FL-L1-BLAST_RM. GFF визуализировать аннотацию, 3) хг_сампле_сортед. БАМ визуализировать сопоставленные стенограммы из Образец интереса, и 4) Хг_женомикдна_сортед. БАМ для оценки mappability геномных регионов.
    5. Удалите покрытие и строки соединения, связанные с каждым файлом БАМ.
    6. Сжимать хг_сампле_сортед. БАМ и Хг_женомикдна_сортед БАМ так что все треки IGV помещается на одном экране.
  2. Вручную курирую.
    1. Использование координат из локусов, перечисленных в таблице "комбинированные" страницы, просмотр называется локусов в IGV25 (программные пакеты).
    2. Курировать локус, чтобы быть достоверно выраженным с его собственной, если есть не читает вверх по течению в направлении с точки до 5 КБ.
      1. Маркировать строку зеленого цвета и обратите внимание, почему это достоверно выраженное.
        Примечание: исключение из этого правила существует, если область вверх по течению от, не является mappable. Если это так, маркировать строку красного цвета и обратите внимание, что выражение области вверх по течению от промоутера, не могут быть оценены и, следовательно, выражение L1's не может быть уверенно определены.
    3. Курировать локус, чтобы не быть достоверно выражена от собственного промоутера, если есть читает вверх по течению до 5 КБ.
      1. Маркировать строку красного цвета и обратите внимание, почему он не является достоверно выраженным.
      2. Курировать Локус как ложный, если он выражается в пределах внутригенного гена в том же направлении с считывание вверх по течению от ЛI, если оно находится ниже по течению от выраженных генов в том же направлении с считывает вверх по течению от ЛПО, или для неаннотированных шаблонов выражения с Re объявления вверх по течению от.
        Примечание: исключение из этого правила применяется, когда есть минимальное считывает непосредственно перекрывающихся на старт, промотор, но немного вверх по течению от. Если нет других считывает вверх по течению в случае, например, Маркировать строку зеленого цвета и обратите внимание, почему это достоверно выраженное.
    4. Викарий локус, скорее всего, будет ложным, если шаблон сопоставлений в Локус не коррелирует с конкретными L1's регионами mappability.
      Примечание: например, если Лодин является очень отображаемые, но только имеет накапливаться из считывает в конденсированных области в пределах сli, это менее вероятно, будут связаны с Лодин выражение от своего промоутера и, скорее всего, из ООН-аннотированных источников, таких как экзонов или lтрс. В таких случаях, как это, курировать локусы, как оранжевый и обратите внимание, почему местоопределения является подозрительным. Проверьте источники подозрительных свай-UPS, проверяя местоположение в АУЦ в браузере UCSC.
    5. Курировать локус, чтобы не быть достоверно выражена, если он находится в пределах геномной среды спорадически выраженные ООН-аннотированных регионов
      Примечание: например, читает может быть выражена 10 КБ вверх по течению от, но каждый 10 КБ или около того есть отображается считывает и некоторые из них читает согласовать с. Эти L1s имеют меньше шансов быть выражен покинуть свой промоутер, и больше шансов на карту читает из-за не-аннотированных моделей геномного выражения. В таких случаях, как это, курировать локусы, как оранжевый и обратите внимание, почему местоопределения является подозрительным.

6. Прочитайте стратегию согласования для того чтобы оценить mappability в справке генома (опционально если одно имеет existing выровнянные набор данных геномной ДНК)

  1. Скачать файлы последовательности ДНК всего генома и преобразовать в. FQ файлы
    1. Перейдите на веб-сайт NCBI, найденный здесь: https://www.ncbi.nlm.nih.gov/sra
    2. Введите WGS хелы парных конца.
    3. Выберите для гомо сапиенс по результатам Такон.
    4. Выберите образец который спаренный конец и читает с 100 или больше BP как following образец: https://www.ncbi.nlm.nih.gov/sra/ERX457838 [ACCN]
    5. Подтвердите длину чтения, выбрав Запуск и затем метаданные , показанные здесь: https://Trace.NCBI.nlm.nih.gov/traces/SRA/?Run=ERR492384
    6. Чтобы загрузить данные последовательности ДНК всего генома, введите эту команду в терминале Linux: sratoolkit. 2.9.2-mac64/бин/превыборка-X 100G ERR492384
      Примечание: функция предварительной выборки программы СУЖД загружает номер присоединения "ERR492384", найденный на сайте NCBI (программные пакеты). "100G" ограничивает количество загруженных данных до 100 гигабайт.
    7. Введите эту команду в терминале Linux: FASTQ-дампа-Сплит-файлы ERR492384
      Примечание: Это разбивает загруженный набор данных геномной ДНК на два файла FASTQ.
  2. Запустите выравнивание с использованием Боути.
    1. Используйте эту команду в Linux для выравнивания: Боути-p 10-м 1-S-y-v 3-X 600--чункбс 8184 хг_кс_и_м_индекс-1 hg_genomicDNA_1. FQ-2 hg_genomicDNA_2. FQ | SAMtools вид-hbuS-| SAMtools сортировать-хг_женомикдна_сортед. БАМ.
      1. Обратитесь к шагу 4,1, чтобы понять параметры, используемые в выравнивание Боути (программные пакеты).
      2. Скачать генной выровнены БАМ файл для оценки mappability доступны по запросу автора.
  3. Индекс БАМ файл из Step 4.2.1 с использованием SAMtools, чтобы сделать его видимым в IGV25 (пакеты программного обеспечения) для дальнейшего информирования ручной курации.
    1. Используйте эту командную линию в Linux: индекс SAMtools хг_женомикдна_сортед. БАМ
  4. Оцените способность каждого локусов
    1. Определите количество однозначно отображенных прочтений для локусов с помощью программы постных инструментов, аннотации FL-Li и выровненных данных геномной последовательности (пакетов программного обеспечения).
      1. Используйте эту командную линию в Linux: покрытие для постных инструментов-abam FL-L1-BLAST_RM. GTF-b хг_женомикдна_сортед. бам ≫ L1_Mappability_hg_genomicDNA. ТСТ.
    2. Назначить локус, чтобы иметь полное покрытие mappability, когда 400 уникальных читает приведены в соответствие с ним.
    3. Определить фактор, необходимый для масштабирования вверх или вниз геномной ДНК выровнены читает до 400 для каждого отдельного.
    4. Чтобы иметь масштабируется мера выражения в соответствии с индивидуальными mappability локус, умножить фактор определяется в шаге 6.4.3 к числу РНК стенограммы читает, что выравнивание достоверно выраженный L1s определяется в разделах 4-5.

Representative Results

Описанные выше шаги, описанные графически на рисунке 1 , были применены к клеточной линии опухоли ПРОСТАТЫ человека DU145. Образец РНК был цитоплазмного нацелен и был следующего поколения секвенирован в поли-A выбран, прядь конкретных, парной конце протокола. С помощью Боути, парные конец последовательности файлы были выровнены позволяет только уникальные матчи, в которых парный конец читать соответствием лучше одного генома местоположение по сравнению с любой другой геномной месте. DU145 последовательность файлов были приведены в соответствие с геном человека ссылкой создания БАМ файл, который доступен по запросу автора. Использование постных инструментов, данные были извлечены из DU145 прядь разделенных БАМ файлы на количество считывает, что отображается на полную длину L1s. Эти считывает были отсортированы в электронную таблицу от крупнейшего к наименьшему и вручную куратор путем изучения геномной среды вокруг каждого локуса 1 в IGV, чтобы подтвердить его подлинность (Дополнительная таблица 2). Если образец был куратором, чтобы быть достоверно выраженным, он был цветом зеленого цвета с объяснением его принятия в правой части колонки. Примеры "1" локусы, принятые в качестве достоверно выраженной следующие руководящие принципы, описанные в разделе методы показаны на рисунке 2a-b. Если образец был отклонен, чтобы быть достоверно выраженным, он был цветом как красный с основанием для отклонения на правой самой колонке. Примеры 1. локусов отклонил из-за выражения от промоутера, кроме своих собственных следующих руководящих принципов, описанных в разделе методы подробно описаны на рисунке 2c-e.

Здесь изучалась только полноформатный L1s с неповрежденным регионом-промоутером. Если это различие не сделано, вводится большой источник транскрипционного шума, возникая из усеченного L1s. Примеры усеченных L1s в DU145 показаны на рисунке 3a-b , где они были определены как имеющие однозначно отображается РНК-seq читает. В IGV, однако, очевидно, что эти стенограммы не были инициированы с усеченного В5, а от включения в последовательности в гене или ниже по течению от выраженных генов.

В целом в DU145, процент полнометражных локусов и считывает, которые отклоняются как достоверно выраженные L1s после ручного курации составляет приблизительно 50% (дополнительный таблица 2), демонстрируя высокий уровень на карте, в противном случае быть записаны как ложные срабатывания без ручного курации. В частности, в DU145 насчитывалось 114 полных полнометражных локусов, чтобы иметь однозначно отображаются читает в смысле направлении с общей сложности 3 152 читает, но там были только 60 локусов определены для выразили покинуть свои промоутер после ручного курации с 1 879 читает ( Дополнительная таблица 1). Это имеет место даже тогда, когда были предприняты шаги, чтобы уменьшить выражение не имеет отношения к биологии, выбрав для цитоплазматической мРНК. Обратите внимание, что Локус с наивысшим уровнем сопоставленных стенограмм в DU145 был отклонен, поскольку он не был достоверно выраженным (рис. 4). В целом количество сопоставленных транскриптов для конкретных локусов варьируется аналогично между принятыми и отклоненные локусы как достоверно выраженные после ручного курации (рис. 4).

После ручной курирования, количество считывает, что карта однозначно достоверно выраженные конкретные локусы в диапазоне DU145 от 175 читает произвольно выбранного минимального отрезать 10 читает (Рисунок 5). Такой подход идентификации однозначно отображенных стенограммы читает на L1s ограничивает возможность точного количественного выражения. Для учета этого был создан корректорный коэффициент для каждого локуса, основанный на его mappability. Для создания этого корректирующего фактора, первый постельное инструменты был использован для извлечения числа однозначно отображается из Неа геномной БАМ файл, который выравнивается для всех полноформатный ллокусов и графировал эти локусы от самого высокого до низкого отображается Стенограмма читает (справочная Рисунок 1). Оно было произвольно обозначено что L1s с 400 считывает имело полную mappability охвата. Количество считений, способных составить карту на локус в геномной последовательности Хела, было масштабируется по сравнению с 400 считывает и что масштабируемая цифра затем умножается на количество считывает, которые отображаются на каждый достоверно выраженный в DU145 (Дополнительная таблица 2) . Как и ожидалось, в 1 из более молодых подсемей, таких как L1PA2 (Дополнительная таблица 2), были приведены более крупные показатели коррекции для mappability. После того, как чтение было скорректировано для оценки mappability в каждом локусе, квантация для выражения для самых локусов увеличилась (Рисунок 6). Количество считывает, что отображается однозначно достоверно выраженные конкретные локусы с mappability корректировки в DU145 варьировались от 612 до 4 считывает и было повторное распоряжение от самого высокого до низкого выражения локусов (рис. 6).

Figure 1
Рисунок 1: схема документооборота.
Графически описаны шаги для идентификации выраженных L1s в человеческом образце. Обратите внимание, что шаги 1 и 2 не должны повторяться, если соответствующие файлы уже доступны. Эти соответствующие файлы могут быть загружены из дополнения файл 1A-b и дополнения файла 2. Ящики в красном показывают шаги, где программа покрытия постельное белье используется для подсчета количества считывает отображение на L1s в том же направлении смысле. Эти локусы с чувством ориентированных отображение читает являются L1s, которые должны быть вручную куратор. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенном варианте этой фигуры.

Figure 2
Рисунок 2: примеры курируемых локусов в DU145.
Загружено в IGV являются эталонных генома, в полный рост ЛВФ аннотации файл, соответствующий ссылкой генома версии (дополнение файл 1), DU145 БАМ файл, и, наконец, геномная Хела БАМ файл для оценки mappability, которые все имеющиеся на автора Запрос. Стрелки были добавлены, чтобы помочь в визуализации направления аннотированный. Стрелки и читает в красном ориентированы в последовательности справа налево. Стрелки и читает синим цветом ориентированы в последовательности слева направо. a) в IgV, этот локус, кажется, выражен от собственного промоутера, так как нет никаких считывает вверх по течению от В2 в смысле ориентация на более чем 5 КБ. Этот уровень имеет низкую mappability, он не находится в гене, и имеет доказательства ожидаемого антисмысловой промоутер деятельности26. b) в IgV, этот локус, кажется, выражен от собственного промоутера, так как нет никаких считывает вверх по течению в смысле ориентация на более чем 5 КБ. Этот уровень имеет низкую mappability и находится в пределах гена противоположного направления. c) в IgV, этот Локус был отклонен как выражен, так как есть вверх по течению читает в той же ориентации в пределах 5 КБ. Этот уровень в пределах гена того же направления, так что стенограмма читает, скорее всего, происходит от промоутера выражен гена. d) в IgV, этот Локус был отклонен как выражен, так как есть вверх по течению читает в той же ориентации в пределах 5 КБ. Это а. а. ниже по течению от высоко выраженный ген в том же направлении, так Стенограмма читает, скорее всего, происходящих из промоутер, что выраженный ген и выходит за рамки нормальных генов терминатора. е) в IgV, этот Локус был отклонен как выражен, так как есть выше по течению читает в той же ориентации в пределах 5 КБ. Этот уровень не находится в пределах или вблизи аннотированного гена в гене-референте, поэтому происхождение этих транскриптов внутри и вверх по течению от элемента в качестве указывает на неаннотированный промоутер. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенном варианте этой фигуры.

Figure 3
Рисунок 3: фоновый шум исходит от усеченного L1s, а также.
Наша Аннотация не включает в себя усеченные L1s, поскольку они являются основным источником фонового шума. Стрелки были добавлены, чтобы помочь в визуализации направления аннотированный. Стрелки и читает синим цветом ориентированы в последовательности слева направо. a) показал пример УСЕЧЕННОГО L1MB5 в семействе, что составляет 2706 БП. В IGV очевидно, что читает исходят из нисходящего расширения выраженный ген. b) показан еще один пример усеченного. Это L1PA11, что составляет 4767 БП долго. В IGV очевидно, что считывает картографирование уникально для В5 исходят из выраженных Экзон, который является в пределах. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенном варианте этой фигуры.

Figure 4
Рисунок 4: Стенограмма гласит, что карта однозначно для всех полноформатный нетронутыми L1s в геноме человека выражается в DU145 клеток опухоли простаты линии.
В черном являются конкретные локусы должны быть определены как достоверно выраженные после ручного курации и в красном являются конкретные локусы быть отклонены как достоверно выраженные читает после ручного курации. В серый являются локусов с менее чем десяти считывает отображение каждого. Поскольку эти локусы представляют собой небольшую часть стенограммы читает, они не были вручную курировать. X-оси отметьте метки обозначают каждые 100 полноформатный, неповрежденным L1s. приблизительно 4 500 локусов не графически показаны, поскольку они имели нулевое отображение считывает. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенном варианте этой фигуры.

Figure 5
Рисунок 5: Стенограмма гласит, что карта однозначно достоверно выразил полную длину нетронутыми L1s в DU145 линии клеток опухоли простаты.
Показаны числа стенограммы читает, что карта для конкретных локусов в клетках DU145 после ручного курации. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенном варианте этой фигуры.

Figure 6
Рисунок 6: считывает картографирование достоверно выраженным, когда он регулируется mappability.
Показаны числа стенограммы читает скорректированы локусов конкретных mappability баллов, что карта вручную куратор улв локусы в DU145 клеток. Пожалуйста, нажмите здесь, чтобы посмотреть увеличенном варианте этой фигуры.

Дополнительный файл 1: аннотации для полнометражного, нетронутыми человека L1s в соответствии с ориентацией. a) FL-L1-BLAST_RM_minus. GFF. б) FL-L1-BLAST_RM_plus. GFF. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 2: Суперкомпьютерные сценарии, используемые для автоматизации трубопровода в биоинформатике, подробно описаны в разделе 4. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительная диаграмма 1: образец геномной ДНК, используемый для определения емости.
На рисунке показано количество геномной стенограммы, считывает с образца клеточной линии Неа, что карта однозначно для всех 5 000 полнометражных локусов в геноме. Было обозначено, что на «один» имеет полное покрытие mappability, когда 400 считывает карту к. Пожалуйста, нажмите здесь, чтобы загрузить эту цифру.

Дополнительная таблица 1: ручное курирование L1s в DU145. Пожалуйста, нажмите здесь, чтобы загрузить эту таблицу.

Дополнительная таблица 2: куратор L1s в DU145 с регулировкой mappability. Пожалуйста, нажмите здесь, чтобы загрузить эту таблицу.

Discussion

Была показана активность, которая вызывает генетические повреждения и нестабильность, способствующий заболеванию27,28,29. Из приблизительно 5 000 полных длины 1-х копий лишь несколько десятков эволюционно-молодых L1s составляют основную часть ретротранспозиции2. Тем не менее, есть свидетельства, что даже некоторые старые, ретропрозрачные-incompentent L1s все еще в состоянии производить ДНК повреждающих белков30. Чтобы в полной мере оценить роль L1s в нестабильности геномной и болезни, необходимо понимать экспрессию на уровне на основе локуса. Однако высокий фон последовательностей, связанных с ВЛ, инкорпорированных в другие РНК, не относящиеся к ретротранзиции, представляет собой серьезную проблему при интерпретации подлинного выражения. Еще одна проблема в выявлении и, следовательно, понимание шаблонов выражения отдельных локусов имеет место из-за их повторяющегося характера, что не позволяет много коротких последовательности чтения, чтобы составить карту к одному уникальному локуу. Чтобы преодолеть эти трудности, мы разработали описанный выше подход в определении экспрессии отдельных локусов с использованием данных РНК-Seq.

Наш подход фильтрует высокий уровень (более 99%) транскрипционного шума, образующихся из последовательностей, не имеющих отношения к «и», с помощью ряда шагов. Первый шаг включает в себя подготовку цитоплазматической РНК. Выбрав для цитоплазматической РНК, ВН-родственных считывает обнаружены в пределах выраженной интранической мРНК в ядре значительно истощены. В последовательности подготовки библиотеки, еще один шаг, чтобы уменьшить транскрипционного шума, не связанных с L1s включают в себя отбор полиаденилированных стенограммы. Это устраняет шум стенограммы, связанные с, найденной в не-мРНК видов. Еще один шаг включает в себя цепь конкретных секвенирования для выявления и устранения антисмысловой, связанных стенограммы. Использование аннотации для полнометражных L1s с функциональными промоутером регионов при определении числа РНК-seq стенограммы, что карта L1s также устраняет фоновый шум, который в противном случае происходят из усеченных L1s. Наконец, последний критический шаг в устранении транскрипционного шума в последовательности 1-1, не связанный с ретротранспозицией, является ручным курирование полнометражных L1s, идентифицированных для картографирования РНК-seq стенограммы. Ручная Курация подразумевает визуализацию каждого биоинформативно идентифицированных-к-быть-выраженных-локуса в контексте окружающей его геномной среды для подтверждения того, что выражение происходит от промоутера. Этот подход применялся к DU145, линии клеток опухоли простаты. Даже при всех шагах, связанных с подготовкой к снижению фонового шума, приблизительно 50% локусов, идентифицированных биоинформативно в DU145, были отклонены как «лоз фоновый шум», возникая из других транскрипционных источников (рис. 4), подчеркивая строгость, необходимую для получения надежных результатов. Такой подход с помощью ручного курации является трудоемким, но необходимым в развитии этого трубопровода для оценки и понимания геномной среды, окружающей всю длину. Следующие шаги включают в себя сокращение объема необходимой ручной курации путем автоматизации некоторых правил курации, хотя из-за еще не полностью известной природы геномного выражения, неаннотированных источников экспрессии в эталонных геномов, регионов с низким способность и даже усложнение факторов, связанных со строительством эталонных генома, в настоящее время невозможно полностью автоматизировать.

Вторая задача в определении выражения отдельных локусов с секвенированием относится к картографированию повторяющихся стенограмм. В этой стратегии выравнивания, требуется, чтобы Стенограмма должен выровнять уникально и со-линейно к эталон генома, чтобы быть отображены. Выбрав для парных конец последовательности, что карта конкордично, количество стенограмм, что однозначно выровнять на-локусов, найденных в эталонных генома увеличивается. Эта уникальная картографическая стратегия обеспечивает уверенность в вызове считывает отображение специально для одного локуса, хотя он потенциально недооценивает количество экспрессии каждого идентифицировано-к-быть-достоверно выраженное, повторяющееся. Чтобы приблизительно исправить эту недооценку, был разработан и применен показатель "mappability" для каждого локуса на основе его mappability и применялся к количеству однозначно отображенных транскрипта (рис. 6). Следует отметить, что в идеале, mappability должен быть забит до полного охвата читает через всю длину, в соответствии с соответствием образца WGS. Здесь мы используем WGS клеток, чтобы определить mappability баллов каждого ЛПО локусов для того, чтобы раздуть или сдувать читает отображение на лвв локусы в DU145 клеточных линий опухоли простаты. Этот расчет mappability является сырой счет коррекции, но выбранный ' полный охват mappability ' из 400 читает был определен с динамическим характером линий опухолевых клеток в виду. Это можно наблюдать в дополнительном рисунке 1, что есть несколько локусов с Неа WGS с чрезвычайно высоким числом сопоставлений читает. Эти, вероятно, исходить от дублированных последовательностей хромосом в Хела, которые не в пределах генома, который является, почему эти локусы не были выбраны, чтобы быть представителем полного охвата mappability. Вместо этого было установлено, что в среднем 100% чтения охват происходит около 400 читает в соответствии с дополнительной фигурой 1 , а затем предположил, что это среднее ОТНОСИТСЯ к DU145 опухоли клетки простаты линии, а также.

Эта стратегия выравнивания с 100-200 BP читает из РНК-seq технология также преференциально выбирает для эволюционно старше L1s в пределах генома ссылки, как пожилые L1s накопили за время уникальных мутаций, которые делают их более mappable. Такой подход, таким образом, имеет ограниченную чувствительность, когда дело доходит до выявления младшего из L1s, а также несправочные, полиморфные L1s. Чтобы определить самый молодой из L1s, мы предлагаем использовать 5 ' RACE выбор, который делает транскрипты и секвенирование технологии, такие как PacBio, которые используют больше читает21. Это позволяет более уникально составлять карту и поэтому уверенно идентификация выраженное, молодое L1s. Использование РНК-seq и PacBio подходы вместе может привести к более полный список достоверно выраженных L1s. Чтобы определить достоверно выраженное полиморфное L1s, первые следующие шаги включают в себя строительство и включение полиморфной последовательности в эталон генома.

Биологические и технические проблемы при изучении повторных последовательностей велики, хотя с вышеуказанной строгой процедурой, чтобы удалить транскрипционный шум из-за последовательностей, связанных с ретротранспозированием, используя технологию РНК-секвенирования, мы начинаем Просеивать больших уровней транскрипционного фонового шума и в том, чтобы уверенно и строго идентифицировать модели экспрессии и количество выражений на индивидуальном уровне локуса.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

Мы хотели бы поблагодарить доктора Янь Донг для DU145 опухолевых клеток простаты. Мы хотели бы поблагодарить доктора Натана Унгерлейдера за его руководство и советы по созданию суперкомпьютерных сценариев. Некоторые из этих работ были профинансированы низ гранты R01 GM121812 для PD, R01 AG057597 к ВПБ, и 5TL1TR001418 ТЗ. Мы также хотели бы отметить поддержку от рака крестоносцев и Тулан онкологический центр биоинформатики Core.

Materials

Name Company Catalog Number Comments
1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

DOWNLOAD MATERIALS LIST

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100, (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254, (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10, (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21, (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8, (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17, (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106, (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21, (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87, (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254, (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72, (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113, (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28, (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33, (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345, (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25, (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45, (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31, (22), 3593-3599 (2015).
  23. Agilent RNA 6000 Nano Kit Guide. Agilent. (2017).
  24. Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. Agilent Technologies. (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21, (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1, (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141, (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26, (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42, (16), 10488-10502 (2014).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics