Genetics

Оптимизация для секвенирования и анализа деградированных образцов FFPE-РНК

Published: June 8, 2020 doi: 10.3791/61060

Yelena Levin*¹, Keyur Talsania*^1,2, Bao Tran¹, Jyoti Shetty¹, Yongmei Zhao^1,2, Monika Mehta¹

¹NCI CCR Sequencing Facility, Frederick National Laboratory for Cancer Research, ²Advanced Biomedical and Computational Sciences, Frederick National Laboratory for Cancer Research

* These authors contributed equally

Summary

Этот метод описывает шаги по улучшению качества и количества последовательности данных, которые могут быть получены из формалина фиксированной парафин-встроенных (FFPE) РНК образцов. Мы описываем методологию для более точной оценки качества образцов FFPE-РНК, подготовки библиотек секвенирования и анализа данных из образцов FFPE-РНК.

Abstract

Анализ экспрессии генов с помощью секвенирования РНК (РНК-сек) позволяет получить уникальную информацию о клинических образцах, которые потенциально могут привести к механистическое понимание основы различных заболеваний, а также механизмов резистентности и/или восприимчивости. Тем не менее, ткани FFPE, которые представляют собой наиболее распространенный метод сохранения морфологии тканей в клинических образцах, не являются лучшими источниками для анализа экспрессии генов. РНК, полученная из таких образцов, часто деградирует, фрагментируется и химически модифицируется, что приводит к неоптимальному секвенированию библиотек. В свою очередь, они генерируют данные о низкой последовательности качества, которые могут быть ненадежными для анализа экспрессии генов и обнаружения мутаций. Для того чтобы максимально получить максимальную отдачу от образцов FFPE и получить наилучшие данные из образцов низкого качества, важно принять определенные меры предосторожности при планировании экспериментального проектирования, подготовке библиотек секвенирования и при анализе данных. Это включает в себя использование соответствующих метрик для точного контроля качества выборки (КК), определение лучших методов для различных шагов во время генерации библиотеки последовательности, и тщательной библиотеки КК. Кроме того, применение правильных программных средств и параметров для анализа последовательности данных имеет решающее значение для выявления артефактов в данных RNA-seq, фильтрации загрязнения и низкого качества считывания, оценки единообразия генного покрытия и измерения воспроизводимости профилей экспрессии генов среди биологических репликаций. Эти шаги могут обеспечить высокую точность и воспроизводимость для профилирования очень неоднородных образцов РНК. Здесь мы описываем различные шаги для образца КК, подготовки библиотеки и КК, секвенирования и анализа данных, которые могут помочь увеличить объем полезных данных, полученных из низкокачественной РНК, таких как полученные из тканей FFPE-РНК.

Introduction

Использование подходов к секвенированию следующего поколения позволило нам получить большой объем информации из различных типов образцов. Однако старые и плохо сохранившиеся образцы остаются неработоспособными для широко используемых методов генерации данных о последовательности и часто требуют внесения изменений в устоявшиеся протоколы. Ткани FFPE представляют собой такой тип образца, который был широко использован для клинических образцов^1,^,^2,^,³. В то время как сохранение FFPE поддерживает морфологию тканей, нуклеиновые кислоты в тканях FFPE обычно обладают широким спектром повреждений и деградации, что затрудняет получение геномной информации, которая может привести к важным представлениям о молекулярных механизмах, лежащих в основе различных расстройств.

Данные экспрессии генов, генерируемые секвенированием РНК, часто играют важную роль в изучении механизмов болезни и резистентности и дополняют анализ мутаций ДНК. Тем не менее, РНК более восприимчива к деградации, что делает его более сложным для получения точных данных экспрессии генов из тканей FFPE. Кроме того, поскольку широкая доступность и доступность секвенирования относительно недавняя, старые образцы часто не хранились в условиях, необходимых для сохранения целостности РНК. Некоторые из вопросов для образцов FFPE включают деградацию РНК из-за встраивания в парафина, химическая модификация РНК, приводящая к фрагментации или огнеупорности к ферментативным процессам, необходимым для секвенирования, и потеря поли-хвостов, ограничение применимости олиго-дТ в качестве грунтовки для обратной транскриптазы⁴. Еще одной проблемой является обработка/хранение образцов FFPE в неоптимальных условиях, что может привести к дальнейшей деградации молекул лабиля, таких как РНК в тканях^5. Это особенно актуально для старых образцов, которые, возможно, были собраны в то время, когда анализ экспрессии генов путем секвенирования РНК не ожидался для образцов. Все это приводит к снижению качества и количества извлеченной РНК, доступных для генерации полезных данных последовательности. Низкая вероятность успеха, в сочетании с высокой стоимостью секвенирования, отговорила многих исследователей от попыток генерировать и анализировать данные экспрессии генов из потенциально полезных образцов FFPE. Некоторые исследования в последние годы продемонстрировали удобство использования тканей FFPE⁹для анализа экспрессии генов^2,^,^6,^,⁷^7,⁹^,хотя и для меньшего количества и/ или более поздних образцов.

В качестве технико-экономического обоснования, мы использовали РНК, извлеченные из образцов ткани опухоли FFPE из трех остаточных хранилищ ткани от наблюдения, эпидемиологии и конечных результатов (SEER) раковых регистров для секвенирования РНК и анализа экспрессии^{генов 10}. Закупленные в клинических патологических лабораториях, ткани FFPE из высококачественных серозных аденокарциномы яичников хранились от 7-32 лет в различных условиях до извлечения РНК. Поскольку в большинстве случаев эти блоки хранились в разных местах в течение многих лет, не ожидая какого-либо чувствительного генетического анализа в будущем, не было принято большого вуза для сохранения нуклеиновой кислоты. Таким образом, большинство образцов продемонстрировали низкое качество РНК, при этом большая доля образцов была загрязнена бактериями. Тем не менее, мы смогли выполнить генную количественную оценку, измерить единообразие и непрерывность генного покрытия, а также выполнить анализ корреляции Пирсона среди биологических репликантов для измерения воспроизводимости. Основываясь на наборе ключевой панели генов подписи, мы сравнили образцы в нашем исследовании с данными Атлас агеногов рака (TCGA) и подтвердили, что примерно 60% образцов имели сопоставимые профили экспрессии генов^11. Основываясь на корреляции между различными результатами КК и метаданными выборки, мы определили ключевые метрики КК, которые имеют хорошее прогностическое значение для определения образцов, которые с большей вероятностью генерируют пригодные для использования данные последовательности^11.

Здесь мы описываем методологию, используемую для оценки качества FFPE-РНК, генерацию библиотек секвенирования, начиная с извлеченных образцов РНК, и биоинформатический анализ данных секвенирования.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Оценка количества и качества РНК

Выберите образцы FFPE в соответствии с заранее определенными критериями и извлеките РНК с помощью соответствующего метода (например, комплект для извлечения кислоты FFPE,, Таблица материалов).
ПРИМЕЧАНИЕ: Есть несколько различных методов, доступных для экстракции FFPE-РНК, в том числе новые методы микродиссекции, которые могут работать с очень мало ткани и извлечь хорошее качество РНК¹²^,¹³^,¹⁴.
Необходимо позаботиться о сохранении целостности РНК на всех этапах. Это включает в себя работу с RNase свободной деионизированной воды, используя RNase бесплатно пластмассовые средства, и очистка всех инструментов, которые вступают в контакт с FFPE блоков с RNase обеззараживания реагентов.
РНК всегда должна обрабатываться тщательно и храниться во льду, если иное не указано, чтобы свести к минимуму деградацию при обработке.
Если имеется достаточно материала, извлеките РНК из более чем одного региона блока FFPE для генерации биологических репликаток из как можно большего числа образцов. Для некоторых образцов с достаточной выходом РНК разделите извлеченную РНК на две части для обработки в качестве технических репликатов.
Если это возможно, соберите небольшое количество образца отдельно после извлечения для КК (т.е. кК aliquot), чтобы избежать повторной обработки и замораживания оттепели циклов образца, что, вероятно, приведет к деградации РНК.
Проверьте качество РНК (желательно от кк aliquot) путем запуска его на систему РНК КК (например, Agilent Bioanalyzer системы с использованием RNA Nano чип, таблица материалов) в соответствии с инструкциями производителя.
Проанализируйте распределение фрагментов РНК в образцах (например, с помощью программного обеспечения Bioanalyzer 2100 Expert) путем расчета значений DV₂₀₀ и DV₁₀₀ в процентах от фрагментов размером более 200 nt (DV₂₀₀₎или 100 nt (DV₁₀₀₎в размерах.
Среди DV₂₀₀ и DV₁₀₀, определить метрику, которая имеет большее распространение значений для данного набора образцов, и выбрать, что для группировки образцов в соответствии с их степенью нетронутости.
ПРИМЕЧАНИЕ: Для образцов наборов с более нетронутыми молекул РНК (т.е., высокие значения DV_200, все или большинство с DV₂₀₀ йgt; 40%), DV_200, вероятно, будет полезным КК метрики. Тем не менее, для образцов наборов с более деградированных стенограмм (т.е. низкие значения DV_200, все или большинство с DV₂₀₀ lt; 40%), DV_100, скорее всего, будет полезным.
На основе метрик КК, определить образцы, которые имеют DV₁₀₀ злт; 40%. Поскольку эта степень деградации, скорее всего, не генерирует полезные данные по секвенированию^11,желательно избегать обработки таких образцов. Если замены для таких образцов имеются, их качество должно быть проверено, чтобы в идеале включать только образцы с DV₁₀₀

2. Подготовка библиотеки секвенирования

На основе качества образцов, оцененных в разделе 1, определить надлежащий метод для создания библиотек секвенирования.
1. Для наборов образцов с очень низкой деградацией и высокими значениями DV₂₀₀ используйте секвенирование мРНК (т.е. захват полиаденина), целевое секвенирование РНК (т.е., использование зондов захвата для конкретных генов, представляющих интерес), секвенирование ЭКЗома РНК (т.е. использование зондов захвата для обогащения для транскриптома кодирования), или общее секвенирование РНК (т.е. использование случайных грунтовок для обратной транскрипции для последовательности всей популяции РНК после удаления рибосомальной РНК из образцов). Однако важно отметить, что процесс фиксации может привести к смещению в извлеченной РНК. Таким образом, подходы к захвату могут не работать хорошо во всех случаях, даже при высоких значениях DV_200.
2. Если набор образцов включает образцы с высокой деградацией (DV₂₀₀ qlt; 30%), используйте общий метод подготовки библиотеки РНК, а не тот, который зависит от захвата конкретных областей стенограмм, потому что эти конкретные регионы могут отсутствовать в деградированных образцах. Использование случайных праймеров для генерации кДНК приводит к более высокому представлению пригодной для использования РНК в конечной библиотеке, и, следовательно, больше подходит для образцов FFPE-РНК.
3. Для рибосомального истощения РНК для образцов наборов с высокой деградацией используйте методы на основе RNaseH. Эти методы, где rRNA-специфических ДНК-зонды связываются с RRNA, двухцепочечные молекулы перевариваются RNaseH, и остатки зондов очищаются DNase (например, NEBNext rRNA истощения комплект, Таблица материалов). Эти методы работают лучше для деградированных образцов, чем некоторые другие методы⁸.
Для генерации библиотек секвенирования используйте более высокие объемы ввода (если это возможно) для образцов, которые имеют более деградированную РНК (DV₁₀₀ lt; 60%). В то время как образцы с достаточно хорошим качеством РНК (DV₁₀₀ может дать хорошие данные последовательности даже при более низких количествах ввода (самый низкий тест для этого протокола с FFPE-РНК был 20 нг), для более деградированных РНК (DV₁₀₀ lt; 60%), лучше начать с более высоких количеств входных данных (например,
ПРИМЕЧАНИЕ: Если достаточно (например, образец nogt;500 ng), желательно сохранить по крайней мере половину образца для повторения подготовки библиотеки, если это необходимо. Для образцов с низким уровнем ввода (например, lt;100 нг), как правило, лучше использовать всю сумму и генерировать библиотеку достаточного разнообразия.
После выбора подходящего комплекта подготовки библиотеки для генерации общей РНК seq библиотек из образцов с высокой деградацией (например, NEBNext Ultra II РНК Библиотека Prep Kit для Illumina, см. Таблица материалов), следуйте инструкциям производителя для создания библиотек.
ПРИМЕЧАНИЕ: Во время подготовки библиотеки, важно пропустить шаг фрагментации РНК для деградированных образцов и обеспечить использование случайных грунтовок для первого синтеза кДН.
Для повышения эффективности и скорости, особенно для образцов с низким уровнем ввода, используйте соответствующие магнитные стойки с сильными фиксированными магнитами для очистки бисовой части и шагов по выбору размеров (см. Таблица Материалов).
Для обогащения ПЦР адаптера ligated ДНК, настроить количество циклов усиления на основе количества входных ДНК, чтобы обеспечить максимальное представление, избегая при этом ненужного дублирования молекул библиотеки. Для низковлапочных образцов FFPE-РНК (Злт;100 нг) мы рекомендуем 16-18 циклов усиления, в то время как высокие входные образцы (1000 нг) обычно генерируют достаточное количество библиотек в 12-14 раундах усиления.
После усиления ПЦР и очистки в соответствии с инструкциями производителя, оценить качество библиотеки, анализируя концентрацию библиотеки и распределение молекул на соответствующей платформе (например, Agilent Bioanalyzer ДНК Чип, см. Таблица материалов). Для образцов с пиками грунтовки (80 bp) или пиками адаптер-димер (128 б.п.) повторите очистку, чтобы удалить эти пики.
Рассчитайте средний размер библиотеки для каждой библиотеки (например, с помощью программного обеспечения Bioanalyzer 2100 Expert).

3. Секвенирование библиотеки КК

После того, как было установлено, что библиотеки свободны от избыточных грунтовок и адаптер-димеров и имеют достаточную концентрацию для последующего секвенирования, квантикатит далее qPCR.
ПРИМЕЧАНИЕ: Из-за чувствительности кластерной генерации к концентрации библиотек, точная количественная оценка имеет жизненно важное значение для предотвращения дорогостоящего секвенирования от недоработок или перегрузки. Количественные методы ПЦР в реальном времени (qPCR) полезны для повышения плотности кластеров на платформах Illumina, не приводя к перекластеризации. Метод qPCR более точен и более чувствителен, чем методы, основанные на качественном и/или количественном анализе всех библиотечных молекул (например, Agilent Bioanalyzer), поскольку он измеряет шаблоны, которые имеют обе последовательности адаптера на обоих концах, которые будут образовывать кластеры на потоковой клетке. Однако размер библиотеки должен быть известен заранее, поскольку коррекция размера должна применяться ко всем образцам, чтобы результаты можно было сравнить со стандартной кривой.
ВНИМАНИЕ: Лабораторные пальто и перчатки всегда должны носиться при выполнении qPCR, а процедура должна быть выполнена в шкафу биобезопасности в соответствии с инструкциями производителя.
1. Настройка 96 хорошо пластины с тремя репликациями для каждого образца для предотвращения ошибок с помощью подходящего комплекта (например, KAPA SYBR FAST qPCR Master Mix для библиотек Illumina, часть библиотечного набора количественной оценки, см. Таблица материалов), наряду со стандартами, положительный контроль (например, Контроль PhiX, см. Таблица материалов), и без шаблона управления (NTC). NTC представляет собой смесь qPCR без библиотеки ДНК. Положительным элементом контроля может быть любая библиотека с известным и размером фрагмента.
  1. Подготовьте как минимум шесть разбавлений стандартов по протоколу поставщика.
2. После добавления всех компонентов (т.е. мастер-микс qPCR, библиотеки, стандарты), накройте пластину уплотнительной пленкой и используйте squeegee, чтобы обеспечить, чтобы пленка обеспечивала ровный и безопасный контакт с пластиной.
3. Vortex и спина вниз пластины на 1500 об/ ч, по крайней мере 1 мин. Визуально проверить пластину, чтобы убедиться, что Есть нет пузырьков воздуха на дне колодцев.
4. Настроите пластину на тепловом циклере (например, cfX96 Touch System, см. Таблица материалов)с помощью рекомендуемых настроек производителя.
5. Сохраните папку выполнения, где к ней можно получить доступ для анализа данных.
6. При анализе данных проверьте, что наклон находится в диапазоне от -3,1 до -3,6, эффективность от 90% до 110% и R² (коэффициент корреляции, полученный для стандартной кривой) не менее 0,98.
Объединение: После получения концентрации qPCR в секвенирующих готовых библиотеках, пул эквимолярных количеств каждой из библиотек, в зависимости от количества последовательности считывает, требуемого для образца, и вывода последовательности инструмента.
КК пулов: Количественное визг пулов библиотеки снова qPCR после того же протокола, как описано в шаге 3.1.

4. Секвенирование

В зависимости от параметров выполнения, потяните наборы реагентов последовательности и оттачивайте их в соответствии с руководством пользователя. Пожалуйста, проверьте веб-сайт Illumina для последних версий всех пользовательских руководств для секвенирования на инструментах Illumina.
Убедитесь, что реагенты полностью разморожены и поместите реагенты лоток на 4 кв. C. Запуск должен быть начат не позднее 2 ч после размораживания реагентов. Невыполнение этого неприятия может повлиять на качество результатов выполнения.
Перевернуть картридж 5x, чтобы смешать реагенты и аккуратно нажмите на скамейку, чтобы уменьшить пузырьки воздуха.
Установите незавернутый пакет ячейки потока в сторону при комнатной температуре в течение 30 минут.
Разверните пакет клеток потока и очистите стеклянную поверхность клетки потока с помощью безворсовой салфетки алкоголя. Высушите стекло низкой тканью лаборатории.
Откройте приложение Illumina "Experiment Manager. Выберите "Создать образец листа", а затем выбрать Sequencer и нажмите "Далее".
Создайте и загрузите образец на основе критериев секвенсора Illumina (например, illumina Experiment Manager, руководство по программному обеспечению).
На запросы, сканирование в наборе реагента штрих-код и введите запустить Set Up Параметры (например, для одного индексированного цикла PE 75, введите 76-8-76).
Денатурации и разбавить библиотечный пул на основе секвенсор рекомендации руководства пользователя (например, NextSeq 500 Системное руководство от Illumina, см. Таблица материалов).
Денатурировать и разбавить библиотеку управления PhiX (см. Таблицу Материалов)до соответствующей концентрации (например, 1,8 pM для NextSeq).
Смешайте библиотеку образцов и контроль PhiX, чтобы привести к соотношению 1% контроля PhiX.
Нагрузка денатурированный и разбавленный образец в картридж реагента в назначенном резервуаре.
Загрузите струйную клетку, буферный картридж и картридж реагента.
Выполните автоматизированную проверку и проверку, чтобы убедиться, что параметры выполнения проходят проверку системы.
Когда автоматизированная проверка будет завершена, выберите Начало, чтобы начать запуск последовательности.

5. Анализ данных и оценка качества

ПРИМЕЧАНИЕ: Типичный RNA-seq анализ данных рабочего процесса (Рисунок 1) включает в себя предварительную обработку и КК, выравнивание к гену и после выравнивания КК, ген и транскрипт количественной, анализ корреляции образца, дифференциальный анализ между различными группами образца, условия обработки, и ген набор обогащения и анализа пути.

Данные RNA-seq могут иметь проблемы с качеством, которые могут повлиять на точность профилирования генов и привести к ошибочным выводам. Таким образом, первоначальные проверки КК на качество секвенирования, загрязнение, смещение покрытия последовательности и другие источники артефактов очень важны. Применение конвейера RNA-Seq, аналогичного описанной здесь, рекомендуется для обнаружения артефактов и применения фильтрации или коррекции перед анализом ниже по течению.

Предварительной обработки
ПРИМЕЧАНИЕ: Это включает в себя демонксинг, оценка качества чтения последовательности, содержание GC, наличие адаптеров последовательности, перепредставленные k-mersи ПЦР, дублированные чтения. Эта информация помогает обнаружить ошибки секвенирования, артефакты ПЦР или загрязнение.
1. Секвенирование Demultiplex Illumina с использованием программного инструмента Illumina bcl2fastq2 для генерации необработанных файлов FAST для каждого образца, определенного в выборке листа. Разрешить одно несоответствие в штрих-кодах индекса образца терпеть ошибки секвенирования, если нет столкновения штрих-кодов.
2. Запустите программный инструмент FAST'C¹⁵ для выполнения проверки качества необработанных файлов FAST, чтобы обнаружить любое низкое качество или отклонения в последовательности.
3. Для обрезки адаптера и низкокачественной обрезки оснований обрезают адаптеры для секвенирования и низкое качество баз с помощью программных средств Cutadapt¹⁶ или Trimmomatic^17. Сохранить обрезанные чтения в файлах pair-end fastq.
4. Экран загрязнения
  1. Выполнить FASTQ_screen¹⁸ для обнаружения возможного перекрестного загрязнения с другими видами.
  2. Выполнить miniKraken Kraken2¹⁹ для выявления таксономий загрязняющих видов.
Выравнивание к эталону генома и пост выравнивания КК
1. Обрезанные считывание могут быть приведены в соответствие с референтной последовательностью генома (GRCh Build hg19 или hg38) с помощью выравнивателя STAR^20. Примените аннотацию Gencode GTF для руководства выравниванием сращивания транскрипта. Рекомендуется запустить STAR 2-pass для повышения чувствительности к новым сращиваниям. Во втором проходе, все читает будут remapped с помощью аннотированных генов и стенограммы и новые соединения с первого прохода.
2. Выполните пост-выравнивание КК.
  1. Выполнить^{Пикарда 21}MarkDuplicates для оценки сложности библиотеки, определяя количество уникальных или недублированных читает в образцах.
  2. Выполнить Picard в CollectRnaSeqMetrics программы для сбора картографических процентов по кодированию, интроновые, межгенные, UTR регионов, а также генного покрытия тела.
  3. Выполнить RSe'C^22, чтобы определить чтение пара внутреннее расстояние, читать распределение среди CDS экзонов, 5'UTR, 3'UTR, интрон, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, читать GC содержание, насыщение соединения, и библиотечной информации.
  4. Запустите мульти-КК²³ для создания агрегированного отчета в формате HTML.
Количественная количественная и коррекционная анализ
1. Выполнить RSEM^24, чтобы получить сырой кол, а также нормализованные читать рассчитывать на гены и стенограммы. Измерение количества считываемых данных, таких как RPKM (читает сяочную базу экзонной модели на миллион считывается), FPKM (фрагменты на килобазу экзон-модели на миллион отображенных считывает) и TPM (транскрипты на миллион) являются наиболее часто сообщаемыми значениями экспрессии гена РНК-сек. Гены, выраженные ниже шумного порога (например, TPM qlt; 1 или сырое количество lt;5), могут быть отфильтрованы.
2. Выполните количественную оценку транскрипта для агрегирования необработанных подсчетов отображений отображений к каждой последовательности стенограммы с помощью таких программ, как HTSeq-count или featureCounts.
3. Выполнить анализ основных компонентов (PCA) с помощью R-скрипта для определения пакетных эффектов и оценки карты качества данного набора данных^25. Анализ корреляции образцов может быть проведен с использованием корреляции Пирсона между различными метриками.
Анализ дифференциальной экспрессии генов
1. Выполните генный дифференциальный анализ между условиями образца с помощью программы edgeR^26,^,²⁷ и/или limma-Voom²⁸ и используйте методы нормализации, включая TPM, TMM, DESeq, или Верхний квартал.
2. Рекомендуется запустить по крайней мере два программного обеспечения для анализа дифференциального анализа, чтобы вызвать два набора списков DEGs для сравнения и получить окончательные DEGs для повышения чувствительности обнаружения и точности.
Генное обогащение и анализ путей
1. Выполните анализ обогащения генов (GSEA)²⁹^,³⁰ на основе ранжирования стенограмм в соответствии с измерением дифференциально выраженных генов (DEGs) список, чтобы определить, если DEGs показывают статистически значимые, соответствующие различия между биологическими условиями.
2. Выполняйте анализ функций с использованием таких ресурсов, как Gene Ontology³¹, DAVID^32,^,³³или другие доступные программные средства.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Упомянутая выше методология была применена к 67 пробам FFPE, которые хранились в различных условиях в течение 7–32 лет (средний срок хранения выборки составлял 17,5 лет). Данные и результаты анализа, представленные здесь, были ранее описаны и опубликованы в Чжао и др.¹¹. При проверке качества образца, как описано ранее (т.е. например, следы на рисунке 2),DV₁₀₀ оказался более полезным, чем DV_200, потому что он более чувствителен для точного измерения доли меньших размеров фрагментов для сильно деградированных образцов РНК.

В данном наборе выборки, менее 10% образцов (7 из 67) были выше DV 200 отрезаны_30%, как рекомендовано Illumina³⁴. Около 26% образцов (19 из 67) имели DV₁₀₀ 60% (т.е. более высокая вероятность генерации хороших данных последовательности), 40% (27 из 67) были в диапазоне 40%-60% для DV₁₀₀ (т.е. приемлемо, но с более низкой вероятностью генерации хороших данных последовательности), и около 10% (7 из 67) имели DV₁₀₀ из qlt;40% (т.е.). Для 14 из 67 образцов, программное обеспечение не смогло определить значения DV. В таблице 1 показана сводка метрик КК для образцов в различных категориях DV_100. Для получения подробного анализа КК и корреляции данных для¹¹всех 67 образцов, пожалуйста, см.

Учитывая высокую степень деградации в наборе образцов, был выбран метод подготовки библиотеки «тотальная РНК», и библиотеки секвенирования были подготовлены с помощью предваряющего комплекта библиотеки NEBNext Ultra II для Illumina(Таблица материалов). Для улучшения представленности библиотек секвенирования, несмотря на высокую степень деградации образцов, в качестве входных данных для подготовки библиотек использовалось максимально возможное количество РНК (1000 нг при наличии). Кроме того, высокая деградация образцов FFPE-РНК потребовала метода истощения РНК, поскольку деградированные транскрипты, вероятно, не имели поли-хвостов для улавливания мРНК. После истощения рибосомной РНК путем гибридизации к конкретным зондам и переваривания гибридизированных транскриптов с использованием RNaseH, остальные транскрипты были преобразованы в cDNA с помощью случайных грунтовок. Выбор размеров также был предотвращен для библиотек, подготовленных из более низких образцов ввода. Примерследование окончательных библиотек показаны на рисунке 3.

Высоко деградированные образцы FFPE представляют собой большую проблему для профилирования экспрессии генов в образцах опухолей. Таким образом, применение правильных методов анализа биоинформатики и программных средств имеет решающее значение для обнаружения артефактов или отклонений в наборах данных для обеспечения высокой точности и воспроизводимости количественной оценки генов. Программные средства, используемые в этом исследовании, перечислены в дополнительной таблице. В данном наборе образцов мы выполнили оценку последовательности и качества библиотеки, причем некоторые примеры показаны на рисунке 4. Обзор качества последовательности файлов fastq и содержимого адаптера образца представлены на рисунке 4A и рисунке 4Bсоответственно. Экран Fastqc может помочь обнаружить загрязнение, такое как бактериальное и мышиное загрязнение, в образцах, как показано на рисунке 4C. В данном наборе образцов 41 из 67 образцов имели бактериальное загрязнение на 5%-48%, а в шести образцах было заражение мышью на 4%-11%(рисунок 4C). Результаты выравнивания STAR(рисунок 4D) показали долю считываний, отображаемых к эталону генома, процент считываний, однозначно отображаемых к эталону генома, и пропорции считываний, которые не были отображены или отображены на нескольких локусах. Picard CollectRNAStatistics был использован для определения процента мРНК, интроники, инейские и межгенные базы, присутствующие в файлах выравнивания (Рисунок 4E). Для того, чтобы оценить единообразие читать охват генов и стенограмм, мы использовали программный инструмент Picard для создания участка покрытия тела гена, который измеряет процент читает, которые охватывают каждое нуклеотидное положение всех генов масштабируется в бункеры от 5 "UTR до 3" UTR. Рисунок 4F показывает, что некоторые деградированные библиотеки имели 3'уклон, где больше считываемых отображаются ближе к концу 3', чем к концу 5'.

Образцы FFPE обычно имеют большую изменчивость профилей экспрессии генов, которые могут возникнуть из-за переменной деградации при хранении образцов, извлечении РНК или обработке образцов. Важно использовать соответствующие статистические методы для выявления основных закономерностей и измерения вариаций и корреляции между образцами. Мы применили основной компонентный анализ (PCA) для шести пар биологических репликаток из подмножества 67 образцов FFPE. Сюжет PCA показал, что 26% от общего количества вариаций было захвачено первым основным компонентом и 19% от второго и третьего компонентов вместе взятых(рисунок 5). Среди шести пар репликатов две пары репликатов имели более высокие вариации (корреляции ниже 0,22), чем последние четыре образца (значения корреляции между 0,7–0,8) при сравнении значений экспрессии генов между парами репликации. Поскольку репликации были получены путем извлечения РНК из двух различных тканевых завитков, вырезанных из одних и тех же блоков FFPE, возраст тканей не был фактором более высокой дисперсии здесь, и это, вероятно, было вызвано разным количеством бактериального загрязнения (1%-55%) а также различное содержание мРНК (разница в 2-3 раза) между репликациями. Случайность деградации мРНК после извлечения может также способствовать более высокой дисперсии между образцами аналогичного происхождения.

Рисунок 1: Рабочий процесс анализа RNaseq. Диаграмма потока описывает шаги анализа для предварительной обработки, оценки качества, отображения ссылки, количественной оценки генов и дифференциального анализа между различными группами выборки. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.

Рисунок 2: Пример биоанализаторных следов шести различных образцов FFPE-РНК. Горизонтальная ось обозначает молекулярный вес (bp) и флуоресценции (FU), а вертикальная ось показывает концентрацию фрагментов разного размера. Номера целостности РНК (RIN), DV₂₀₀ (т.е. процент фрагментов, 200 bp) и DV₁₀₀ (т.е. процент фрагментов, которые указаны в каждом профиле). Пик 25 б.п. в каждом профиле указывает на маркер молекулярного веса. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.

Рисунок 3: Пример биоанализаторных следов окончательных библиотек, подготовленных из четырех различных образцов. Горизонтальная ось обозначает молекулярный вес (bp) и флуоресценции (FU) на вертикальной оси указывают на концентрацию фрагментов разного размера. Нижние (35 б.п. или 50 б.п.) и верхние (10 380 б.п.) маркерные пики помечены зеленым и фиолетовым цветами соответственно. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.

Рисунок 4: Пример многофункционального отчета для предварительной обработки результатов КК. (A) Диаграмма линии, показывающая проценты баз 30 евро от всех считывательных показаний в каждом образце. (B) Секвенирование адаптера содержимого в сырых файлов fastq. (C) Загрязнение экрана, чтобы проверить тесно совпадают видов. (D) Статистика картирования генома. (E) Распределение чтения на основе аннотации гена Gencode. (F) Гена тела / стенограмма покрытия Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.

Рисунок 5: Пример анализа PCA, чтобы показать согласованность образца группы. Анализ PCA для биологических репликатов. PCA участок с образцами построен в двух измерениях с использованием их проекции на первые два основных компонента. Биологические репликации отображаются в том же цвете. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.

	Количество образцов	Медианный вход для lib Prep (ng)	Медианный RIN	Медианный DV₂₀₀	Медианный DV₁₀₀	Средний размер Lib (bp)	Медианная доходность Lib (нг)	Медианная Молярити Lib (nM)	Среднее время хранения образцов (годы)	Медианное % загрязнение	Средний граф Джина
DV100 злт;40%	7	237.6	2.5	6	34	445	24.5	7	22	27.4	14,759
DV100 40-60%	27	1000	2.5	12	51	408	19.8	5.9	18	9.9	10,202
DV100	19	1000	2.3	26	73	355	84.9	24	13	3.2	9,993

Таблица 1: Резюме набора выборочных показателей КК. В таблице показаны метрики кК образцов, сгруппированные в соответствии с их значениями DV_100. Количество образцов в каждой группе перечислено, и отображаются средние значения для каждой метрики.

Дополнительная таблица: Анализ программных средств, параметров и ссылки на программное обеспечение. В таблице перечислены программные инструменты и параметры анализа, используемые на каждом этапе анализа RNA-seq. Ссылки на программные инструменты перечислены в таблице. Пожалуйста, нажмите здесь, чтобы загрузить эту таблицу.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Описанный здесь метод определяет основные шаги, необходимые для получения хороших данных о последовательности из образцов FFPE-РНК. Основными моментами, которые следует учитывать с помощью этого метода, являются: (1) Обеспечить, чтобы РНК сохранилась как можно лучше после извлечения путем минимизации циклов обработки образцов и замораживания и оттаивания. Отдельные аликоты КК очень полезны. (2) Используйте метрику КК, которая лучше всего подходит для данного набора образцов. Значения RIN и DV₂₀₀ часто не полезны для деградированных образцов, и DV₁₀₀ может быть метрикой выбора для оценки качества в данном наборе образцов. (3) Для более деградированных образцов, лучше всего использовать высокий вход образца. Более высокие объемы ввода приводят к лучшему разнообразию и снижению дублирования в окончательной библиотеке, что приводит к улучшению качества данных. Поскольку не все РНК в образцах FFPE-РНК можно угодиться из-за высокой деградации и огнеупорности к ферментативным процессам, эти эффекты более выражены в FFPE-РНК по сравнению со свежезамороженной РНК. (4) Используйте случайные грунтовки для обратного шага транскрипции, в отличие от использования олиго-dT или конкретных последовательностей в качестве грунтовки. Если набор конкретных зондов в состоянии охватить как можно больше последовательности, насколько это возможно для всех стенограмм интересов, случайные праймеры являются безопасной ставкой для обеспечения преобразования максимального количества стенограмм (или их фрагментов) в cDNA. Таким образом, общие методы подготовки к библиотеке РНК более полезны для деградированных образцов, чем методы мРНК, которые опираются на наличие поли-хвостов. (5) Точная количественная оценка библиотек по количественным ПЦР в реальном времени (qPCR) важна для того, чтобы избежать неудовлетворительной производительности или перегрузки секвенсоров. (6) Оценить потенциальное загрязнение РНК в рамках стандартного пост секвенирования ПРОТОКОЛов РНК-Сек КК. Бактериальное загрязнение и геномное загрязнение ДНК являются общими для образцов FFPE из-за условий хранения и процедур подготовки образцов. Образцы, загрязненные иностранными видами, могут отаскивать покрытие секвенирования в зависимости от степени загрязнения. Кроме того, внутреннее загрязнение может возникнуть в результате неполного истощения РНК, что приводит к высокому проценту считывания карт рРНК. Неэффективное удаление геномной ДНК во время пищеварения DNase может привести к ложноположительному обнаружению экспрессии стенограмм или ошибочному de novo сборке транскриптов. Загрязнение адаптера, введенное при подготовке библиотеки, также является общей проблемой для сильно деградированных РНК с очень короткими фрагментами РНК. Загрязнение может повлиять на точность профилирования гена и стенограммы и привести к ложному открытию. Поэтому важно точно определить источники загрязнения и, по возможности, удалить загрязнение во время этапов подготовки образца или библиотеки, или отфильтровать показания загрязняющих данных на этапе обработки данных. (7) Предварительная обработка и послевыравнивание контроля качества имеют важное значение для обнаружения плохого качества и низкого содержания мРНК образцов. Эти образцы должны быть исключены из дальнейшего анализа. Данные экспрессии генов из образцов, которые генерируют низкий уровень генов, плохой охват следует использовать с осторожностью. (8) Хорошо включить биологические репликации для измерения дисперсии и корреляции образцов для обеспечения воспроизводимости данных.

Образцы FFPE представляют собой очень ценный ресурс для большого числа заболеваний. Способность получать достоверную информацию о последовательности из таких образцов поможет много исследований, направленных на понимание молекулярных механизмов, лежащих в основе различных расстройств, сопротивление, и восприимчивость. Хотя ограничения, налагаемые часто неоптимальным качеством РНК, извлеченных из таких образцов, действительно препятствуют таким усилиям, описанные здесь шаги помогают в некоторой степени смягчить эти ограничения и позволяют нам максимально воспринимать FFPE-РНК для получения надежной информации о экспрессии генов.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Эта работа финансировалась Национальным институтом рака (НЦИ), Национальными институтами здравоохранения (НИЗ). Leidos Biomedical Research, Inc. является подрядчиком по эксплуатации и технической поддержке ВНеша. Несколько авторов (Y , MM, KT, YL, JS, BT) связаны с Leidos Biomedical Research, Inc., но все авторы полностью финансируются Национальным институтом рака, включая зарплаты авторов и исследовательские материалы. Компания Leidos Biomedical Research, Inc. не предоставила заработную плату авторам (Y, MM, KT, YL, JS, BT) или материалу для исследования, и не имела никакой роли в разработке, сборе данных, анализе, принятии решения о публикации или подготовке рукописи.

Acknowledgments

Мы благодарны доктору Даниэль Кэррик (Отдел по борьбе с раком и наук о народонаселении, Национальный институт рака) за постоянную помощь, особенно за инициирование этого исследования, предоставляя нам образцы, и за полезные предложения во время анализа данных. Мы искренне благодарим всех членов CCR секвенирования фонда в Фредерик Ской Национальной лаборатории онкологических исследований за их помощь во время подготовки образцов и последовательности, особенно Бренда Хо за помощь в образце КК, Оксана Герман для библиотеки КК, Татьяна Смирнова для запуска секвенсоров. Мы также хотели бы поблагодарить Цай-вэй Шэня и Эшли Уолтон из Sequencing Facility Bioinformatics Group за помощь в анализе данных и внедрении трубопровода РНК-сек. Мы также благодарим CCBR и NCBR за помощь в разработке анализа RNaseq и разработке передового опыта.

Materials

Name	Company	Catalog Number	Comments
2100 Bioanalyzer	Agilent	G2939BA
Agilent DNA 7500 Kit	Agilent	5067-1506
Agilent High Sensitivity DNA Kit	Agilent	5067-4626
Agilent RNA 6000 Nano Kit	Agilent	5067-1511
AllPrep DNA/RNA FFPE Kit	Qiagen	80234
CFX96 Touch System	Bio-Rad	1855195
Library Quantification kit v2-Illumina	KapaBiosystems	KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina	New England Biolabs	E7765S	https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat)	New England Biolabs	E6310L
NextSeq 500 Sequencing System	Illumina	SY-415-1001	NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit	Illumina	FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS)	Illumina	20024907
10X Genomics Magnetic Separator	10X Genomics	120250
Rotator Multimixer	VWR	13916-822
C1000 Touch Thermal Cycler	Bio-Rad	1851197
Sequencing reagent kit	Illumina	20024907
Flow cell package	Illumina	20024907
Buffer cartridge and the reagent cartridge	Illumina	20024907
Sodium hydroxide solution (0.2N)	Millipore Sigma	SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0	Fisher Scientific	50-151-871