Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Otimização para Sequenciamento e Análise de Amostras de RNA FFPE-RNA degradadas

Published: June 8, 2020 doi: 10.3791/61060
* These authors contributed equally

Summary

Este método descreve as etapas para melhorar a qualidade e a quantidade de dados sequenciais que podem ser obtidos a partir de amostras de RNA incorporadas à parafina fixa-formalina (FFPE). Descrevemos a metodologia para avaliar com mais precisão a qualidade das amostras de FFPE-RNA, preparar bibliotecas de sequenciamento e analisar os dados das amostras de FFPE-RNA.

Abstract

A análise da expressão genética pelo sequenciamento de RNA (RNA-seq) permite insights únicos em amostras clínicas que podem potencialmente levar à compreensão mecanicista da base de várias doenças, bem como mecanismos de resistência e/ou suscetibilidade. No entanto, os tecidos FFPE, que representam o método mais comum para preservar a morfologia tecidual em amostras clínicas, não são as melhores fontes para a análise de perfil de expressão genética. O RNA obtido a partir dessas amostras é muitas vezes degradado, fragmentado e quimicamente modificado, o que leva a bibliotecas de sequenciamento subótimo. Por sua vez, estes geram dados de sequência de baixa qualidade que podem não ser confiáveis para análise de expressão genética e descoberta de mutação. Para aproveitar ao máximo as amostras de FFPE e obter os melhores dados possíveis a partir de amostras de baixa qualidade, é importante tomar certas precauções enquanto planeja o projeto experimental, preparando bibliotecas de sequenciamento e durante a análise de dados. Isso inclui o uso de métricas apropriadas para controle preciso de qualidade de amostra (QC), identificando os melhores métodos para várias etapas durante a geração da biblioteca de sequenciamento e o QC cuidadoso da biblioteca. Além disso, a aplicação de ferramentas e parâmetros de software corretos para análise de dados de sequência é fundamental para identificar artefatos em dados RNA-seq, filtrar a contaminação e leituras de baixa qualidade, avaliar a uniformidade da cobertura genética e medir a reprodutibilidade dos perfis de expressão genética entre as réplicas biológicas. Essas etapas podem garantir alta precisão e reprodutibilidade para o perfil de amostras de RNA muito heterogêneas. Aqui descrevemos as várias etapas para a amostra QC, preparação da biblioteca e QC, sequenciamento e análise de dados que podem ajudar a aumentar a quantidade de dados úteis obtidos a partir de RNA de baixa qualidade, como o obtido a partir de tecidos FFPE-RNA.

Introduction

O uso de abordagens de sequenciamento de última geração nos permitiu obter uma riqueza de informações de vários tipos de amostras. No entanto, amostras antigas e mal preservadas permanecem inviáveis para os métodos comumente utilizados de geração de dados de sequência e muitas vezes requerem modificações em protocolos bem estabelecidos. Os tecidos FFPE representam um tipo de amostra que tem sido amplamente utilizado para as amostras clínicas1,,2,3. Enquanto a preservação do FFPE mantém a morfologia tecidual, os ácidos nucleicos nos tecidos FFPE geralmente exibem uma ampla gama de danos e degradação, dificultando a recuperação das informações genômicas que podem levar a importantes insights sobre mecanismos moleculares subjacentes a vários distúrbios.

Os dados de expressão genética gerados pelo sequenciamento de RNA são frequentemente fundamentais no estudo de mecanismos de doença e resistência e complementam a análise da mutação do DNA. No entanto, o RNA é mais suscetível à degradação, tornando mais desafiador gerar dados precisos de expressão genética a partir de tecidos FFPE. Além disso, como a ampla disponibilidade e a acessibilidade do sequenciamento são relativamente recentes, os espécimes mais antigos muitas vezes não eram armazenados em condições necessárias para preservar a integridade do RNA. Algumas das questões para amostras de FFPE incluem a degradação do RNA devido à incorporação em parafina, modificação química do RNA levando à fragmentação ou refractoridade a processos enzimáticos necessários para sequenciamento, e perda das caudas poli-A, limitando a aplicabilidade do oligo-dT como uma cartilha para transcrição reversa4. Outro desafio é o manuseio/armazenamento de amostras de FFPE em condições subótimas, o que pode levar a uma maior degradação de moléculas labile, como o RNA nos tecidos5. Isso é especialmente relevante para amostras mais antigas que podem ter sido coletadas em um momento em que a análise da expressão genética pelo sequenciamento de RNA não foi antecipada para as amostras. Tudo isso leva à diminuição da qualidade e quantidade do RNA extraído disponível para gerar dados de sequência úteis. A baixa probabilidade de sucesso, combinada com o alto custo do sequenciamento, dissuadiu muitos pesquisadores de tentar gerar e analisar dados de expressão genética a partir de amostras de FFPE potencialmente úteis. Alguns estudos nos últimos anos demonstraram a usabilidade dos tecidos FFPE para análise de expressão genética2,,6,,7,,8,9, embora para amostras menores e/ou mais recentes.

Como estudo de viabilidade, utilizamos o RNA extraído de amostras de tecido tumoral FFPE de três repositórios de tecido residual de registros de câncer de Vigilância, Epidemiologia e Resultados Finais (SEER) para sequenciamento de RNA e análise de expressão genética10. Obtidos a partir de laboratórios de patologia clínica, os tecidos FFPE de adenocarcinomas sêmulas ovarianas de alto grau foram armazenados de 7 a 32 anos em condições variadas antes da extração do RNA. Como na maioria dos casos esses blocos foram armazenados em diferentes locais durante anos sem a expectativa de qualquer análise genética sensível no futuro, pouco cuidado havia sido tomado para preservar os ácidos nucleicos. Assim, a maioria das amostras apresentava RNA de má qualidade, com grande proporção de amostras contaminadas com bactérias. No entanto, conseguimos realizar quantificação genética, medir a uniformidade e a continuidade da cobertura genética e realizar a análise de correlação de Pearson entre réplicas biológicas para medir a reprodutibilidade. Com base em um conjunto de painéis genéticos de assinatura chave, comparamos as amostras em nosso estudo com os dados do Atlas do Genoma do Câncer (TCGA) e confirmamos que aproximadamente 60% das amostras tinham perfis de expressão genética comparáveis11. Com base na correlação entre vários resultados de QC e metadados amostrais, identificamos métricas-chave de QC que têm bom valor preditivo para identificar amostras mais propensas a gerar dados de sequência utilizáveis11.

Descrevemos aqui a metodologia utilizada para avaliação da qualidade ffpe-RNA, geração de bibliotecas de sequenciamento a partir de amostras de RNA extraídas e análise bioinformática dos dados de sequenciamento.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Avaliação de quantidade e qualidade do RNA

  1. Selecione as amostras de FFPE de acordo com critérios predefinidos e extraia RNA utilizando um método apropriado (por exemplo, kit de extração de ácido FFPE-nuclei, Tabela de Materiais).
    NOTA: Existem vários métodos diferentes disponíveis para extração ffpe-RNA, incluindo os métodos mais novos de microdisseção que podem trabalhar com muito pouco tecido e extrair RNA de boa qualidade12,,13,14.
  2. O máximo de cuidado deve ser tomado para preservar a integridade do RNA em todas as etapas. Isso inclui trabalhar com água desionizada gratuita RNase, usar plásticos gratuitos RNase e limpar todos os instrumentos que entram em contato com os blocos FFPE com reagentes de descontaminação RNase.
  3. O RNA deve ser sempre manuseado com cuidado e mantido no gelo, a menos que especificado de outra forma para minimizar a degradação durante o manuseio.
  4. Se houver material suficiente disponível, extraia RNA de mais de uma região no bloco FFPE para gerar réplicas biológicas do maior número possível de amostras. Para algumas das amostras com amplo rendimento de RNA, divida o RNA extraído em dois para processar como réplicas técnicas.
  5. Se possível, colete uma pequena quantidade de amostra separadamente após a extração para QC (ou seja, uma alíquota de QC) para evitar ciclos repetidos de manuseio e congelamento da amostra que provavelmente levará à degradação do RNA.
  6. Verifique a qualidade do RNA (preferencialmente da alíquota QC) executando-o em um sistema RNA QC (por exemplo, sistema Agilent Bioanalyzer usando um chip RNA Nano, Tabela de Materiais) de acordo com as instruções do fabricante.
  7. Analise a distribuição de fragmentos de RNA nas amostras (por exemplo, utilizando o software Bioanalyzer 2100 Expert) calculando os valores DV200 e DV100 como a porcentagem de fragmentos maiores que 200 nt (DV200) ou 100 nt (DV100) em tamanho.
  8. Entre DV200 e DV100,identifique a métrica que tenha uma maior difusão de valores para o conjunto amostral dado, e escolha-a para agrupar as amostras de acordo com seu grau de intactidade.
    NOTA: Para conjuntos de amostras com moléculas de RNA mais intactas (ou seja, valores deDV 200 altos, todos ou a maioria com DV200 > 40%), DV200 provavelmente será uma métrica útil de QC. No entanto, para conjuntos de amostras com transcrições mais degradadas (ou seja, valores baixos deDV 200, todos ou a maioria com DV200 < 40%), DV100 é mais provável que seja útil.
  9. Com base nas métricas do QC, identifique as amostras que possuem DV100 < 40%. Como esse grau de degradação é altamente provável que não gere dados de sequenciamento úteis11,é aconselhável evitar o processamento dessas amostras. Se as substituições para tais amostras estiverem disponíveis, sua qualidade deve ser verificada, idealmente, incluindo apenas amostras com DV100 > 50%.

2. Preparação da biblioteca de sequenciamento

  1. Com base na qualidade das amostras avaliadas na seção 1, identifique um método adequado para gerar as bibliotecas de sequenciamento.
    1. Para conjuntos de amostras com degradação muito baixa e altos valores dv200, use sequenciamento mRNA (ou seja, captura de transcrições poliadeniladas), sequenciamento de RNA direcionado (ou seja, uso de sondas de captura para genes específicos de interesse), sequenciamento de exômome de RNA (ou seja, uso de sondas de captura para enriquecer para o transcriptome de codificação) ou sequenciamento total do RNA (ou seja, uso de primers aleatórios para transcrição reversa para sequência de toda a população de RNA depois de remover o RNA ribosomal das amostras). No entanto, é importante notar que o processo de fixação pode introduzir viés no RNA extraído. Assim, as abordagens de captura podem não funcionar bem em todos os casos, mesmo com altos valores de DV200.
    2. Se o conjunto amostral incluir amostras com alta degradação (DV200 < 30%), use um método total de preparação da biblioteca de RNA e não um que dependa da captura de regiões específicas das transcrições, porque essas regiões específicas podem estar faltando em amostras degradadas. O uso de primers aleatórios para geração de cDNA leva a uma maior representação do RNA utilizável na biblioteca final, e é, portanto, mais adequado para amostras de FFPE-RNA.
    3. Para esgotamento ribossômico do RNA para conjuntos de amostras com alta degradação, use métodos baseados em RNaseH. Estes são métodos em que as sondas de DNA específicas do rRNA se ligam ao rRNA, moléculas duplamente encalhadas são digeridas pelo RNaseH, e as sondas restantes são limpas por DNase (por exemplo, kit de esgotamento do rRNA NEBNext, Tabela de Materiais). Esses métodos funcionam melhor para amostras degradadas do que alguns outros métodos8.
  2. Para gerar bibliotecas de sequenciamento, utilize maiores quantidades de insumos (se possível) para amostras que tenham RNA mais degradado (DV100 < 60%). Enquanto amostras com RNA de qualidade razoavelmente boa (DV100 > 60%) pode produzir bons dados de sequência mesmo em menores quantidades de entrada (o menor testado para este protocolo com FFPE-RNA foi ~20 ng), para RNA mais degradado (DV100 < 60%), é melhor começar com maiores quantidades de entrada (por exemplo, >100 ng).
    NOTA: Se houver uma amostra suficiente (por exemplo, >500 ng), é aconselhável economizar pelo menos metade da amostra para repetir a preparação da biblioteca, se necessário. Para amostras de baixa entrada (por exemplo, <100 ng), geralmente é melhor usar toda a quantidade e gerar uma biblioteca de diversidade suficiente.
  3. Depois de selecionar um kit adequado de preparação da biblioteca para gerar bibliotecas totais de RNA seq a partir de amostras com alta degradação (por exemplo, NEBNext Ultra II RNA Library Prep Kit para Illumina, ver Tabela de Materiais), siga as instruções do fabricante para gerar as bibliotecas.
    NOTA: Durante a preparação da biblioteca, é importante pular a etapa de fragmentação do RNA para amostras degradadas e garantir o uso de primers aleatórios para a síntese de primeiro fio cDNA.
  4. Para melhorar a eficiência e a velocidade, especialmente para as amostras de baixa entrada, use racks magnéticos apropriados com ímãs fixos fortes para etapas de purificação e seleção de tamanho baseadas em contas (ver Tabela de Materiais).
  5. Para o enriquecimento pcr do DNA ligado adaptado do adaptador, ajuste o número de ciclos de amplificação com base na quantidade de DNA de entrada para garantir a máxima representação, evitando a duplicação desnecessária das moléculas da biblioteca. Para amostras de RNA de baixa entrada (<100 ng), recomendamos 16-18 ciclos de amplificação, enquanto as amostras de entrada alta (1.000 ng) geralmente geram quantidades suficientes de biblioteca em 12-14 rodadas de amplificação.
  6. Seguindo a amplificação e limpeza do PCR de acordo com as instruções do fabricante, avalie a qualidade da biblioteca analisando a concentração da biblioteca e a distribuição de moléculas em uma plataforma apropriada (por exemplo, Agilent Bioanalyzer DNA Chip, ver Tabela de Materiais). Para amostras com picos de primer (~80 bp) ou picos de adaptador-dimer (~128 bp), repita a limpeza para remover esses picos.
  7. Calcule o tamanho médio da biblioteca para cada biblioteca (por exemplo, usando o software Bioanalyzer 2100 Expert).

3. Biblioteca de sequenciamento QC

  1. Uma vez verificado que as bibliotecas estão livres de excesso de primer e adaptador-dimers e têm concentração suficiente para sequenciamento subsequente, quantitam ainda mais por qPCR.
    NOTA: Devido à sensibilidade da geração de clusters para a concentração da biblioteca, a quantificação precisa é vital para evitar que o sequenciamento dispendioso funcione de baixo desempenho ou sobrecarga. Os métodos quantitativos de PCR (qPCR) em tempo real são úteis para melhorar a densidade de clusters nas plataformas Delumina sem resultar em superaglomeração. O método qPCR é mais preciso e mais sensível do que os métodos baseados na análise qualitativa e/ou quantitativa de todas as moléculas de biblioteca (por exemplo, Agilent Bioanalyzer), pois mede os modelos que possuem ambas as sequências adaptadoras em ambas as extremidades que formarão clusters na célula de fluxo. O tamanho da biblioteca deve, no entanto, ser conhecido com antecedência, pois uma correção de tamanho deve ser aplicada a todas as amostras para que os resultados possam ser comparados com uma curva padrão.
    ATENÇÃO: Os jalecos e luvas devem ser sempre usados na execução do qPCR, e o procedimento deve ser realizado em um armário de biossegurança seguindo as instruções do fabricante.
    1. Configure uma placa de 96 poços com três réplicas para cada amostra para prevenção de erros usando um kit adequado (por exemplo, KAPA SYBR FAST qPCR Master Mix para bibliotecas de Illumina, uma parte do kit de Quantificação da Biblioteca, ver Tabela de Materiais), juntamente com as normas, um controle positivo (por exemplo, controle PhiX, ver Tabela de Materiais), e um controle sem modelo (NTC). O NTC é uma mistura qPCR sem biblioteca de DNA. O controle positivo pode ser qualquer biblioteca com concentração conhecida e tamanho do fragmento.
      1. Prepare um mínimo de seis diluições das normas seguindo o protocolo do fornecedor.
    2. Depois de adicionar todos os componentes (ou seja, mix mestre qPCR, bibliotecas, padrões), cubra a placa com filme de vedação e use um rodo para garantir que o filme faça contato uniforme e seguro com a placa.
    3. Vórtice e gire a 1.500 rpm por pelo menos 1 min. Inspecione visualmente a placa para ter certeza de que não há bolhas de ar na parte inferior dos poços.
    4. Configure a placa no ciclofaindo térmico (por exemplo, CFX96 Touch System, consulte Tabela de Materiais) utilizando as configurações recomendadas pelo fabricante.
    5. Salve a pasta de execução onde ela pode ser acessada para análise de dados.
    6. Durante a análise dos dados, verifique se a inclinação está na faixa de -3,1 a -3,6, eficiência de 90% a 110% e a R2 (coeficiente de correlação obtida para a curva padrão) nada menos que 0,98.
  2. Agrupamento: Uma vez obtida a concentração qPCR das bibliotecas prontas para sequenciamento, as quantidades equimolares de cada uma das bibliotecas, dependendo do número de leituras de sequenciamento exigidas por amostra e da saída de sequenciamento do instrumento.
  3. QC das piscinas: Quantita as piscinas da biblioteca novamente por qPCR seguindo o mesmo protocolo descrito na etapa 3.1.

4. Sequenciamento

  1. Dependendo dos parâmetros de execução, puxe os kits de reagente de sequenciamento e descongele-os seguindo o guia do usuário. Verifique no site da Illumina as versões mais recentes de todos os guias de usuário para sequenciamento nos instrumentos Illumina.
  2. Certifique-se de que os reagentes estão completamente descongelados e coloque a bandeja de reagentes a 4 °C. A corrida deve ser iniciada no máximo 2h depois que os reagentes forem descongelados. Não fazer isso pode afetar a qualidade dos resultados da corrida.
  3. Inverta o cartucho 5x para misturar reagentes e toque suavemente no banco para reduzir as bolhas de ar.
  4. Reserve o pacote de célula de fluxo desembrulhado à temperatura ambiente por 30 minutos.
  5. Desembrulhe a embalagem da célula de fluxo e limpe a superfície de vidro da célula de fluxo com um lenço de álcool sem fiapos. Seque o vidro com um tecido de laboratório de baixo fiapo.
  6. Abra o aplicativo"Gerenciador de Experimentos"da Illumina. Escolha "Criar folha de amostra",em seguida, escolha o Sequencer e clique em "Next".
  7. Crie e carregue a folha de amostra com base nos critérios do sequenciador de Illumina (por exemplo, Illumina Experiment Manager, guia de software).
  8. Nas instruções, digitalize o código de barras do kit reagente e digite os parâmetros de configuração de execução (por exemplo, para uma única corrida de ciclo PE 75 indexada, digite 76-8-76).
  9. Desnaturar e diluir o pool de biblioteca com base na recomendação do guia do usuário do sequenciador (por exemplo, guia do sistema NextSeq 500 da Illumina, consulte Tabela de Materiais).
  10. Desnaturar e diluir a biblioteca de controle PhiX (ver Tabela de Materiais) à concentração apropriada (por exemplo, 1,8 pM para NextSeq).
  11. Misture a biblioteca de amostras e o controle PhiX para resultar em uma relação de volume de controle PhiX de 1%.
  12. Carga desnaturada e diluída amostra no cartucho de reagente no reservatório designado.
  13. Carregue a célula de fluxo, o cartucho tampão e o cartucho do reagente.
  14. Realize uma verificação e revisão automatizadas para garantir que os parâmetros de execução passem pela verificação do sistema.
  15. Quando a verificação automatizada estiver concluída, selecione Iniciar para iniciar a execução de sequenciamento.

5. Análise de dados e avaliação da qualidade

NOTA: Um fluxo de trabalho típico de análise de dados RNA-seq (Figura 1) inclui pré-processamento e QC, alinhamento ao genoma e pós-alinhamento QC, quantificação de genes e transcrições, análise de correlação de amostras, análise diferencial entre diferentes grupos amostrais, condições de tratamento e enriquecimento de conjunto genético e análise de caminhos.

Os dados do RNA-seq podem ter problemas de qualidade que podem afetar a precisão do perfil genético e levar a conclusões errôneas. Portanto, verificações iniciais de QC para sequenciamento qualidade, contaminação, viés de cobertura de sequenciamento e outras fontes de artefatos são muito importantes. A aplicação de um pipeline RNA-Seq QC semelhante ao fluxo de trabalho descrito aqui é recomendada para detectar artefatos e aplicar filtragem ou correção antes da análise a jusante.

  1. Pré-processamento
    NOTA: Isso inclui desmultiplexação, avaliação da qualidade de leitura de sequência, conteúdo kGC, presença de adaptadores de sequenciamento, k-mers superrepresentados e leituras duplicadas do PCR. Essas informações ajudam a detectar erros de sequenciamento, artefatos PCR ou contaminação.
    1. O sequenciamento de illumina demultiplex é executado usando a ferramenta de software Illumina bcl2fastq2 para gerar arquivos FASTQ brutos para cada amostra definida na folha de amostra. Permita que uma incompatibilidade nos códigos de barras do índice de amostra tolere erros de sequenciamento se não houver colisão de código de barras.
    2. Execute a ferramenta de software FASTQC15 para realizar uma verificação de qualidade em arquivos FASTQ brutos para detectar qualquer má qualidade ou anormalidades em leituras de sequenciamento.
    3. Para aparamento de bases adaptadora e de baixa qualidade, corte os adaptadores de sequenciamento e bases de baixa qualidade usando ferramentas de software Cutadapt16 ou Trimmomatic17. Salve as leituras aparadas nos arquivos de fastq de fim de par.
    4. Tela de contaminação
      1. Corra FASTQ_screen18 para detectar possíveis contaminações cruzadas com outras espécies.
      2. Execute miniKraken de Kraken219 para identificar as taxonomias de espécies contaminantes.
  2. Alinhamento ao genoma de referência e QC pós-alinhamento
    1. As leituras aparadas podem ser alinhadas a uma sequência de genoma de referência (GRCh Build hg19 ou hg38) usando o alinhador STAR20. Aplique o arquivo GTF de anotação Gencode para orientar o alinhamento da transcrição emendada. Recomenda-se executar star 2-pass para aumentar a sensibilidade a novas junções de emendas. Na segunda passagem, todas as leituras serão remaplicadas usando gene anotado e transcrições e novas junções do primeiro passe.
    2. Realize o QC pós-alinhamento.
      1. Execute os21MarkDuplicates de Picard para avaliar a complexidade da biblioteca, determinando a quantidade de leituras únicas ou não enuplicadas nas amostras.
      2. Execute o programa CollectRnaSeqMetrics da Picard para coletar porcentagens de mapeamento sobre codificação, regiões intronic, intergênicas, UTR e cobertura do corpo genético.
      3. Execute rseQC22 para determinar a distância interna do par de leitura, leia a distribuição entre exons CDS, 5'UTR, 3'UTR, intron, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, ler conteúdo GC, saturação de junção e informações de fios de biblioteca.
      4. Execute multi-QC23 para gerar um relatório agregado em formato HTML.
  3. Análise de quantificação e correção de genes
    1. Execute o RSEM24 para obter a contagem bruta, bem como a contagem de leitura normalizada em genes e transcrições. A medição da contagem de leituras como RPKM (leituras por quilograma de modelo de exon por milhão de leituras), FPKM (fragmentos por quilobase de modelo de exon por milhão de leituras mapeadas) e TPM (transcrições por milhão) são os valores de expressão genética RNA-seq mais frequentemente relatados. Genes expressos abaixo de um limiar noised (como TPM < 1 ou contagem bruta <5) podem ser filtrados.
    2. Execute a quantificação da transcrição para agregar contagens brutas de leituras mapeadas a cada sequência de transcrição usando programas como contagem de HTSeq ou featureCounts.
    3. Execute a Análise de Componentes Principais (PCA) usando um script R para determinar os efeitos em lote e avalie um mapa de qualidade do conjunto de dados dado25. A análise de correlação amostral pode ser realizada utilizando-se a correlação de Pearson entre diferentes métricas.
  4. Análise diferencial da expressão genética
    1. Realize a análise diferencial genética entre as condições amostrais utilizando a borda do programaR26,,27 e/ou limma-Voom28 e use métodos de normalização, incluindo TPM, TMM, DESeqou UpperQuartile.
    2. Recomenda-se executar pelo menos duas ferramentas de software de análise diferencial, a fim de chamar dois conjuntos de listas DEGs para comparação e obter os DEGs finais para melhorar a sensibilidade e a precisão da detecção.
  5. Enriquecimento de conjunto genéticos e análise de caminhos
    1. Execute a Análise de Enriquecimento de Conjunto Genético (GSEA)29,30 com base no ranking de transcrições de acordo com uma medição da lista de genes expressos diferencialmente (DEGs) para determinar se os DEGs apresentam diferenças estatisticamente significativas e concordantes entre as condições biológicas.
    2. Realize a análise de funções usando recursos como Gene Ontology31, DAVID32,33ou outras ferramentas de software disponíveis.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

A metodologia descrita acima foi aplicada a 67 amostras de FFPE armazenadas sob uma variedade de condições diferentes durante 7-32 anos (o tempo médio de armazenamento amostral foi de 17,5 anos). Os resultados de conjunto de dados e análise aqui apresentados foram previamente descritos e publicados em Zhao et al.11. Ao verificar a qualidade da amostra descrita anteriormente (ou seja, traços de exemplo na Figura 2), o DV100 foi considerado mais útil do que o DV200 porque é mais sensível medir com precisão a proporção de tamanhos de fragmentos menores para amostras de RNA altamente degradadas.

No conjunto amostral dado, menos de 10% das amostras (7 de 67) estavam acima do DV200 cortado de 30%, conforme recomendado por Illumina34. Cerca de 26% das amostras (19 de 67) tinham DV100 > 60% (ou seja, maior probabilidade de gerar bons dados de sequência), 40% (27 de 67) estavam na faixa de 40%-60% para DV100 (ou seja, aceitável, mas com menor probabilidade de gerar bons dados de sequência), e cerca de 10% (7 de 67) tinham um DV100 de <40% (ou seja, probabilidade muito baixa de resultar em bons dados de sequência). Para 14 das 67 amostras, o software não foi capaz de determinar os valores de DV. A Tabela 1 mostra um resumo das métricas de QC para as amostras em diferentes categorias DV100. Para análise detalhada do QC e correlação de dados para todas as 67 amostras, consulte Zhao et al.11.

Dado o alto grau de degradação no conjunto amostral, foi escolhido um método de preparação da biblioteca 'total RNA' e as bibliotecas de sequenciamento foram preparadas usando o NebNext Ultra II RNA Library Prep Kit for Illumina (Tabela de Materiais). A fim de melhorar a representação das bibliotecas de sequenciamento, apesar do alto grau de degradação amostral, a quantidade máxima possível de RNA (1.000 ng quando disponível) foi utilizada como entrada para a preparação da biblioteca. Além disso, a alta degradação das amostras de FFPE-RNA exigiu o método de esgotamento do rRNA, porque as transcrições degradadas provavelmente não teriam as caudas poli-A para captura de mRNA. Após o esgotamento do RNA ribossômico por hibridização para sondas específicas e digestão das transcrições hibridizadas usando RNaseH, as transcrições restantes foram convertidas em cDNA usando primers aleatórios. A seleção de tamanho também foi evitada para bibliotecas preparadas a partir de amostras de entrada mais baixas. Exemplos de traços de bibliotecas finais são mostrados na Figura 3.

Amostras de FFPE altamente degradadas representam um grande desafio para o perfil da expressão genética em amostras de tumores. Assim, aplicar métodos corretos de análise de bioinformática e ferramentas de software é fundamental para detectar artefatos ou anormalidades nos conjuntos de dados para garantir alta precisão e reprodutibilidade da quantificação genética. As ferramentas de software utilizadas neste estudo estão listadas na Tabela Suplementar. No conjunto amostral dado, realizamos sequenciamento e avaliação da qualidade da biblioteca, com algumas métricas de exemplo mostradas na Figura 4. Uma visão geral da qualidade de sequenciamento de arquivos fastq bruto e conteúdo do adaptador de amostra são mostrados na Figura 4A e Figura 4B, respectivamente. A tela fastqc pode ajudar a detectar contaminação, como contaminação bacteriana e do rato, nas amostras, como mostrado na Figura 4C. No conjunto amostral dado, 41 das 67 amostras apresentaram contaminação bacteriana de 5% a 48%, e seis amostras apresentaram contaminação de 4%-11% do camundongo(Figura 4C). Os resultados de alinhamento estelar(Figura 4D) mostraram a proporção de leituras mapeadas para o genoma de referência, porcentagem de leituras mapeadas exclusivamente para o genoma de referência e proporção de leituras que não foram mapeadas ou mapeadas para vários loci. Picard CollectRNAStatistics foi usado para determinar a porcentagem de bases mRNA, intronic e intergênicas presentes nos arquivos de alinhamento(Figura 4E). Para avaliar a uniformidade da cobertura de leitura sobre genes e transcrições, utilizamos a ferramenta de software Picard para gerar um gráfico de cobertura do corpo genético, que mede a porcentagem de leituras que cobrem cada posição nucleotídea de todos os genes dimensionados em lixeiras de 5′ UTR a UTR de 3′. A Figura 4F mostra que algumas bibliotecas degradadas tinham viés de 3', onde mais leituras são mapeadas mais perto do final de 3' do que do final de 5'.

As amostras de FFPE geralmente têm grande variabilidade em perfis de expressão genética que podem surgir devido à degradação variável durante o armazenamento da amostra, extração de RNA ou processamento de amostras. É importante utilizar métodos estatísticos adequados para descobrir os padrões subjacentes e medir a variação e correlação entre as amostras. Aplicamos a Análise de Componentes Principais (PCA) para seis pares de réplicas biológicas de um subconjunto das 67 amostras de FFPE. Um gráfico pca mostrou que 26% da variação total foi captada pelo primeiro componente principal e 19% do segundo e terceiro componentes combinados(Figura 5). Entre os seis pares de réplicas, dois pares de réplicas apresentaram variações mais elevadas (correlações abaixo de 0,22) do que as quatro últimas (valores de correlação entre 0,7 e 0,8) ao comparar os valores de expressão genética entre os pares de réplica. Como as réplicas foram geradas pela extração de RNA de dois cachos de tecido diferentes cortados dos mesmos blocos de FFPE, a idade do tecido não foi um fator na maior variância aqui, e provavelmente foi causada pela quantidade diferente de contaminação bacteriana (1%-55%) bem como diferentes teor de mRNA (diferença de 2 a 3 vezes) entre as réplicas. A aleatoriedade da degradação do mRNA após a extração também poderia contribuir para a maior variância entre amostras de origem semelhante.

Figure 1
Figura 1: Fluxo de trabalho de análise RNaseq. O fluxograma descreve as etapas de análise para pré-processamento, avaliação de qualidade, mapeamento de referência, quantificação genética e análise diferencial entre diferentes grupos amostrais. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2: Exemplo Traços bioanalyzer de seis diferentes amostras de FFPE-RNA. O eixo horizontal denota as unidades de peso molecular (bp) e fluorescência (FU) e o eixo vertical mostra a concentração de diferentes fragmentos de tamanho. Os números de integridade do RNA (RIN), DV200 (ou seja, por cento dos fragmentos >200 bp) e DV100 (ou seja, por cento dos valores de fragmentos >100 bp) são indicados em cada perfil. Um pico de 25 bps em cada perfil indica o marcador de peso molecular. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3: Exemplo Traços bioanalyzer de bibliotecas finais preparados a partir de quatro amostras diferentes. O eixo horizontal denota o peso molecular (bp) e as unidades de fluorescência (FU) no eixo vertical indicam a concentração de diferentes fragmentos de tamanho. Os picos inferiores (35 bp ou 50 bp) e superior (10.380 bp) são rotulados em verde e roxo, respectivamente. Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4: Exemplo relatório multi-QC para pré-processamento de resultados QC. (A) Gráfico de linha mostrando as porcentagens das bases do Q30 de todas as leituras de sequenciamento em cada amostra. (B) Sequenciamento de conteúdo do adaptador em arquivos de fastq brutos. (C) Tela de contaminação para verificar de perto espécies combinadas. (D) Estatísticas de mapeamento de genomas. (E) Ler a distribuição com base na anotação do gene Gencode. (F) Cobertura de corpo/transcrição genética Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5: Exemplo de análise pca para mostrar concordância do grupo amostral. Análise de PCA para réplicas biológicas. Plotagem pca com amostras plotadas em duas dimensões usando suas projeções nos dois primeiros componentes principais. As réplicas biológicas são mostradas na mesma cor. Clique aqui para ver uma versão maior desta figura.

Número de amostras Entrada mediana para lib prep (ng) RIN mediano DV mediano200 DV mediano100 Tamanho médio da Lib (bp) Rendimento médio da Lib (ng) Molaridade de Lib Mediana (nM) Tempo médio de armazenamento de amostras (anos) Contaminação por % mediana Contagem de Genes Medianos
DV100 <40% 7 237.6 2.5 6 34 445 24.5 7 22 27.4 14,759
DV100 40-60% 27 1000 2.5 12 51 408 19.8 5.9 18 9.9 10,202
DV100 >60% 19 1000 2.3 26 73 355 84.9 24 13 3.2 9,993

Tabela 1: Resumo das métricas QC do conjunto de amostras. A tabela mostra as métricas QC das amostras, agrupadas de acordo com seus valores DV100. O número de amostras em cada grupo está listado e os valores medianos para cada métrica são mostrados.

Tabela Suplementar: Ferramentas de software de análise, parâmetros e referência de software. A tabela lista as ferramentas de software de análise e parâmetros utilizados em cada etapa da análise do RNA-seq. As referências da ferramenta de software estão listadas na tabela. Clique aqui para baixar esta tabela.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

O método descrito aqui descreve as principais etapas necessárias para obter bons dados de sequência de amostras de FFPE-RNA. Os principais pontos a serem considerados com este método são: (1) Certifique-se de que o RNA seja preservado da melhor forma possível após a extração, minimizando os ciclos de manuseio e congelamento e descongelamento da amostra. Alíquotas separadas do QC são muito úteis. (2) Use uma métrica QC que seja melhor para o conjunto amostral dado. Os valores rin e DV200 muitas vezes não são úteis para amostras degradadas, e o DV100 pode ser a métrica de escolha para avaliar a qualidade em um determinado conjunto de amostras. (3) Para amostras mais degradadas, é melhor usar uma entrada de amostra alta. Valores de entrada mais altos levam a uma melhor diversidade e menor duplicação na biblioteca final, levando a uma melhor qualidade dos dados. Como nem todos os RNAs em amostras de FFPE-RNA são utilizáveis devido à alta degradação e refractoridade aos processos enzimáticos, esses efeitos são mais acentuados no FFPE-RNA em comparação com o RNA congelado fresco. (4) Use priming aleatório para a etapa de transcrição reversa em oposição ao uso de oligo-dT ou sequências específicas como primers. A menos que o conjunto de sondas específicas seja capaz de cobrir o máximo de sequência possível para todas as transcrições de interesse, primers aleatórios são uma aposta segura para garantir a conversão de um número máximo de transcrições (ou fragmentos deles) em cDNA. Assim, os métodos totais de preparação da biblioteca de RNA são mais úteis para amostras degradadas do que os métodos mRNA, que dependem da presença de caudas poli-A. (5) A quantificação precisa das bibliotecas por PCR (qPCR) em tempo real quantitativo é importante para evitar o baixo desempenho ou a sobrecarga dos sequenciadores. (6) Avaliar a contaminação potencial do RNA como parte dos protocolos padrão pós-sequenciamento RNA-Seq QC. Contaminação bacteriana e contaminação genômica de DNA são comuns para amostras de FFPE devido a condições de armazenamento e procedimentos de preparação de amostras. Amostras contaminadas com espécies estrangeiras podem desperdiçar cobertura de sequenciamento, dependendo da extensão da contaminação. Além disso, a contaminação interna pode surgir do esgotamento incompleto do rRNA, levando a uma alta porcentagem de leituras de mapeamento para rRNAs. A remoção genômica ineficiente durante a digestão do DNase pode levar à falsa detecção positiva de transcrições ou ao errôneo de novo conjunto de transcrições. A contaminação do adaptador introduzida durante a preparação da biblioteca também é um problema comum para RNAs altamente degradados com fragmentos de RNA muito curtos. A contaminação pode afetar a precisão do perfil do gene e da transcrição e levar à falsa descoberta. Portanto, é importante identificar com precisão as fontes de contaminação e remover a contaminação, se possível, durante as etapas de preparação da amostra ou biblioteca, ou filtrar as leituras contaminantes durante a etapa de processamento de dados. (7) O controle de qualidade pré-processamento e pós-alinhamento são importantes para detectar amostras de conteúdo mRNA de má qualidade e baixa. Essas amostras devem ser eliminadas de análises posteriores. Dados de expressão genética de amostras que geram baixa contagem de genes, baixa cobertura deve ser usado com cautela. (8) É uma boa prática incluir réplicas biológicas para medir a variância e correlação das amostras para garantir a reprodutibilidade dos dados.

As amostras de FFPE representam um recurso muito valioso para um grande número de doenças. A capacidade de obter informações confiáveis de sequência de tais amostras ajudaria a uma série de estudos que visam compreender os mecanismos moleculares por trás de vários distúrbios, resistência e suscetibilidade. Embora as limitações impostas pela qualidade frequentemente subótimal do RNA extraído de tais amostras dificultem tais esforços, as etapas aqui descritas ajudam a mitigar essas limitações em certa medida e nos permitem aproveitar ao máximo o FFPE-RNA para obter informações confiáveis de expressão genética.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Esse trabalho foi financiado pelo Instituto Nacional do Câncer (NCI), Instituto Nacional de Saúde (NIH). Leidos Biomedical Research, Inc. é a empreiteira de operações e suporte técnico do Laboratório Nacional de Pesquisa do Câncer de Frederick, que é totalmente financiado pelo NIH. Vários autores (YZ, MM, KT, YL, JS, BT) são afiliados à Leidos Biomedical Research, Inc., mas todos os autores são totalmente financiados pelo Instituto Nacional do Câncer, incluindo salários de autores e materiais de pesquisa. Leidos Biomedical Research, Inc. não forneceu salário para os autores (YZ, MM, KT, YL, JS, BT) ou material para o estudo, nem teve qualquer papel no desenho do estudo, coleta de dados, análise, decisão de publicar ou preparar o manuscrito.

Acknowledgments

Somos gratos à Dra. Danielle Carrick (Divisão de Controle do Câncer e Ciências Populacionais do Instituto Nacional de Câncer) por ajuda contínua, especialmente por iniciar este estudo, fornecendo-nos as amostras e sugestões úteis durante a análise de dados. Agradecemos sinceramente a todos os membros do Centro de Sequenciamento da CCR no Laboratório Nacional de Pesquisa do Câncer de Frederick por sua ajuda durante a preparação e sequenciamento da amostra, especialmente Brenda Ho pela assistência na amostra QC, Oksana German para a biblioteca QC, Tatyana Smirnova para executar os sequenciadores. Também gostaríamos de agradecer a Tsai-wei Shen e Ashley Walton no Sequencing Facility Bioinformatics Group por ajudar na análise de dados e na implementação do pipeline RNA-seq. Agradecemos também à CCBR e à NCBR pela assistência com o pipeline de análise da RNaseq e o desenvolvimento de melhores práticas.

Materials

Name Company Catalog Number Comments
2100 Bioanalyzer Agilent G2939BA
Agilent DNA 7500 Kit Agilent 5067-1506
Agilent High Sensitivity DNA Kit Agilent 5067-4626
Agilent RNA 6000 Nano Kit Agilent 5067-1511
AllPrep DNA/RNA FFPE Kit Qiagen 80234
CFX96 Touch System Bio-Rad 1855195
Library Quantification kit v2-Illumina KapaBiosystems KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina New England Biolabs E7765S https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat) New England Biolabs E6310L
NextSeq 500 Sequencing System Illumina SY-415-1001 NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit Illumina FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS) Illumina 20024907
10X Genomics Magnetic Separator 10X Genomics 120250
Rotator Multimixer VWR 13916-822
C1000 Touch Thermal Cycler Bio-Rad 1851197
Sequencing reagent kit Illumina 20024907
Flow cell package Illumina 20024907
Buffer cartridge and the reagent cartridge Illumina 20024907
Sodium hydroxide solution (0.2N) Millipore Sigma SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0 Fisher Scientific 50-151-871

DOWNLOAD MATERIALS LIST

References

  1. Carrick, D. M., et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue. PLoS One. 10 (7), 0127353 (2015).
  2. Hedegaard, J., et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue. PLoS One. 9 (5), 98187 (2014).
  3. Zhang, P., Lehmann, B. D., Shyr, Y., Guo, Y. The Utilization of Formalin Fixed-Paraffin-Embedded Specimens in High Throughput Genomic Studies. International Journal of Genomics. 2017, 1926304 (2017).
  4. Srinivasan, M., Sedmak, D., Jewell, S. Effect of fixatives and tissue processing on the content and integrity of nucleic acids. American Journal of Pathology. 161 (6), 1961-1971 (2002).
  5. von Ahlfen, S., Missel, A., Bendrat, K., Schlumpberger, M. Determinants of RNA quality from FFPE samples. PLoS One. 2 (12), 1261 (2007).
  6. Esteve-Codina, A., et al. A Comparison of RNA-Seq Results from Paired Formalin-Fixed Paraffin-Embedded and Fresh-Frozen Glioblastoma Tissue Samples. PLoS One. 12 (1), 0170632 (2017).
  7. Vukmirovic, M., et al. Identification and validation of differentially expressed transcripts by RNA-sequencing of formalin-fixed, paraffin-embedded (FFPE) lung tissue from patients with Idiopathic Pulmonary Fibrosis. BMC Pulmonary Medicine. 17 (1), 15 (2017).
  8. Adiconis, X., et al. Comparative analysis of RNA sequencing methods for degraded or low-input samples. Nature Methods. 10 (7), 623-629 (2013).
  9. Sinicropi, D., et al. Whole transcriptome RNA-Seq analysis of breast cancer recurrence risk using formalin-fixed paraffin-embedded tumor tissue. PLoS One. 7 (7), 40092 (2012).
  10. Altekruse, S. F., et al. SEER cancer registry biospecimen research: yesterday and tomorrow. Cancer Epidemiology, Biomarkers & Prevention. 23 (12), 2681-2687 (2014).
  11. Zhao, Y., et al. Robustness of RNA sequencing on older formalin-fixed paraffin-embedded tissue from high-grade ovarian serous adenocarcinomas. PLoS One. 14 (5), 0216050 (2019).
  12. Amini, P., et al. An optimised protocol for isolation of RNA from small sections of laser-capture microdissected FFPE tissue amenable for next-generation sequencing. BMC Molecular Biology. 18 (1), 22 (2017).
  13. Amini, P., Nassiri, S., Ettlin, J., Malbon, A., Markkanen, E. Next-generation RNA sequencing of FFPE subsections reveals highly conserved stromal reprogramming between canine and human mammary carcinoma. Disease Models and Mechanisms. 12 (8), (2019).
  14. Wimmer, I., et al. Systematic evaluation of RNA quality, microarray data reliability and pathway analysis in fresh, fresh frozen and formalin-fixed paraffin-embedded tissue samples. Scientific Reports. 8 (1), 6351 (2018).
  15. Babraham Bioinformatics. , Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2019).
  16. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
  17. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  18. Babraham Bioinformatics. , Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/ (2019).
  19. Wood, D. E., Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology. 15 (3), 46 (2014).
  20. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  21. Broad Institute. , Available from: http://broadinstitute.github.io/picard/ (2019).
  22. Wang, L., Wang, S., Li, W. RSeQC: quality control of RNA-seq experiments. Bioinformatics. 28 (16), 2184-2185 (2012).
  23. Ewels, P., Magnusson, M., Lundin, S., Kaller, M. MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 32 (19), 3047-3048 (2016).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  25. Son, K., Yu, S., Shin, W., Han, K., Kang, K. A Simple Guideline to Assess the Characteristics of RNA-Seq Data. BioMed Research International. 2018, 2906292 (2018).
  26. McCarthy, D. J., Chen, Y., Smyth, G. K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation. Nucleic Acids Research. 40 (10), 4288-4297 (2012).
  27. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  28. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2015).
  29. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America U S A. 102 (43), 15545-15550 (2005).
  30. Mootha, V. K., et al. PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nature Genetics. 34 (3), 267-273 (2003).
  31. Ashburner, M., et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genetics. 25 (1), 25-29 (2000).
  32. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  33. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  34. Evaluating RNA Quality from FFPE Samples. Illumina. , Available from: https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/evaluating-rna-quality-from-ffpe-samples-technical-note-470-2014-001.pdf (2016).

Tags

Genética Edição 160 sequenciamento de RNA parafina fixa em formalina incorporada FFPE sequenciamento de próxima geração NGS análise RNA-seq
Otimização para Sequenciamento e Análise de Amostras de RNA FFPE-RNA degradadas
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Levin, Y., Talsania, K., Tran, B.,More

Levin, Y., Talsania, K., Tran, B., Shetty, J., Zhao, Y., Mehta, M. Optimization for Sequencing and Analysis of Degraded FFPE-RNA Samples. J. Vis. Exp. (160), e61060, doi:10.3791/61060 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter