Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Optimering til sekventering og analyse af forringede FFPE-RNA-prøver

Published: June 8, 2020 doi: 10.3791/61060
* These authors contributed equally

Summary

Denne metode beskriver de trin til at forbedre kvaliteten og kvantiteten af sekvensdata, der kan fås fra formalin-faste paraffin-indlejrede (FFPE) RNA-prøver. Vi beskriver metoden til mere præcist at vurdere kvaliteten af FFPE-RNA-prøver, udarbejde sekventeringsbiblioteker og analysere data fra FFPE-RNA-prøver.

Abstract

Genekspressionsanalyse ved RNA-sekventering (RNA-seq) giver unik indsigt i kliniske prøver, der potentielt kan føre til mekanistisk forståelse af grundlaget for forskellige sygdomme samt resistens- og/eller modtagelighedsmekanismer. FFPE-væv, som repræsenterer den mest almindelige metode til konservering af vævsmorfologi i kliniske prøver, er imidlertid ikke de bedste kilder til analyse af genekspressionsprofilering. RNA fremstillet af sådanne prøver er ofte nedbrudt, fragmenteret og kemisk modificeret, hvilket fører til suboptimale sekventering biblioteker. Til gengæld genererer disse sekvensdata af dårlig kvalitet, som måske ikke er pålidelige til genekspressionsanalyse og mutationsopdagelse. For at få mest muligt ud af FFPE-prøver og få de bedst mulige data fra prøver af lav kvalitet er det vigtigt at tage visse forholdsregler, mens man planlægger eksperimentelt design, forbereder sekventeringsbiblioteker og under dataanalyse. Dette omfatter brug af relevante målinger til præcis stikprøvekvalitetskontrol (QC), identificere de bedste metoder til forskellige trin under sekvensering bibliotek generation, og omhyggelig bibliotek QC. Desuden er det afgørende at anvende korrekte softwareværktøjer og parametre til sekvensdataanalyse for at identificere artefakter i RNA-seq-data, bortfiltrere forurening og lavkvalitetsaflæsninger, vurdere ensartetheden af gendækningen og måle reproducerbarheden af genekspressionsprofiler blandt biologiske replikater. Disse trin kan sikre høj nøjagtighed og reproducerbarhed til profilering af meget heterogene RNA-prøver. Her beskriver vi de forskellige trin til prøve QC, bibliotek forberedelse og QC, sekventering, og dataanalyse, der kan bidrage til at øge mængden af nyttige data fra lav kvalitet RNA, som den, der opnås fra FFPE-RNA væv.

Introduction

Brug af næste generations sekventeringsmetoder har gjort det muligt for os at indsamle et væld af oplysninger fra forskellige typer prøver. Gamle og dårligt bevarede prøver forbliver dog uigennemførlige for de almindeligt anvendte metoder til generering af sekvensdata og kræver ofte ændringer af veletablerede protokoller. FFPE-væv repræsenterer en sådan prøvetype , som er blevet anvendt i vid udstrækning til kliniske prøver1,2,3. Mens FFPE konservering fastholder væv morfologi, nukleinsyrer i FFPE væv normalt udviser en bred vifte af skader og nedbrydning, hvilket gør det vanskeligt at hente den genomiske oplysninger, der kan føre til vigtige indsigter om molekylære mekanismer, der ligger til grund for forskellige lidelser.

Genekspressionsdata genereret af RNA-sekvensering er ofte medvirkende til at studere sygdoms- og resistensmekanismer og supplerer DNA-mutationsanalyse. Men RNA er mere modtagelig for nedbrydning, hvilket gør det mere udfordrende at generere nøjagtige genekspressionsdata fra FFPE-væv. Da sekvensering er forholdsvis ny, blev ældre prøver desuden ofte ikke opbevaret under forhold, der var nødvendige for at bevare RNA-integriteten. Nogle af problemerne med FFPE-prøver omfatter nedbrydning af RNA på grund af indlejring i paraffin, kemisk modifikation af RNA, der fører til fragmentering eller refractoriness til enzymatiske processer, der kræves til sekventering, og tab af poly-A haler, begrænse anvendeligheden af oligo-dT som primer for omvendt transkription4. En anden udfordring er håndtering/opbevaring af FFPE-prøver under suboptimale forhold, hvilket kan føre til yderligere nedbrydning af labile molekyler som RNA i væv5. Dette er især relevant for ældre prøver, der kan være indsamlet på et tidspunkt, hvor der ikke blev forudset genekspressionsanalyse ved RNA-sekvensering for prøverne. Alle disse fører til nedsat kvalitet og kvantitet af det udtrukne RNA til rådighed til at generere nyttige sekvensdata. Den lave sandsynlighed for succes, kombineret med de høje omkostninger ved sekventering, har afskrækket mange forskere fra at forsøge at generere og analysere genekspressionsdata fra potentielt nyttige FFPE-prøver. Nogle undersøgelser i de senere år har vist, at FFPE-væv er anvendeligt til genekspressionsanalyse2,,6,7,8,9, om end for færre og/eller nyere prøver.

Som en forundersøgelse brugte vi RNA udvundet fra FFPE tumorvævsprøver fra tre residualvævslagre fra overvågning, epidemiologi og slutresultater (SEER) kræftregistre til RNA-sekventering og genekspressionsanalyse10. FFPE-væv fra højkvalitets ovarieserøse adenocarcinomer blev opbevaret fra 7-32 år under forskellige forhold før RNA-ekstraktion. Fordi disse blokke i de fleste tilfælde havde været opbevaret på forskellige steder i årevis uden forventning om nogen følsom genetisk analyse i fremtiden, var der ikke blevet taget megen hensyn til at bevare nukleinsyrerne. Således udviste de fleste prøver RNA af dårlig kvalitet, og en stor del af prøverne var forurenet med bakterier. Ikke desto mindre var vi i stand til at udføre gen kvantificering, måle ensartethed og kontinuitet i gendækning, og udføre Pearson korrelationsanalyse blandt biologiske replikater til at måle reproducerbarhed. Baseret på et sæt af centrale signatur gen panel, sammenlignede vi prøverne i vores undersøgelse med The Cancer Genome Atlas (TCGA) data og bekræftede, at ca 60% af prøverne havde sammenlignelige genekspression profiler11. Baseret på sammenhængen mellem forskellige QC-resultater og prøvemetadata identificerede vi vigtige QC-målinger, der har en god prædiktiv værdi til identifikation af prøver, der er mere tilbøjelige til at generere brugbare sekvensdata11.

Her beskriver vi den metode, der anvendes til FFPE-RNA-kvalitetsvurdering, generering af sekventeringsbiblioteker fra udvundet RNA-prøver og bioinformatikanalyse af sekventeringsdataene.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA-kvantitet og kvalitetsvurdering

  1. Udvælg FFPE-prøverne efter foruddefinerede kriterier, og ekstrakt RNA udeksembes ved hjælp af en passende metode (f.eks. FFPE-nukleinsyreekstraktionssæt, tabel over materialer).
    BEMÆRK: Der findes flere forskellige metoder til FFPE-RNA-ekstraktion, herunder de nyere mikrodissectionmetoder, der kan arbejde med meget lidt væv og udtrække RNA12,13,,14.
  2. Der bør udvises størst mulig omhu for at bevare RNA's integritet på alle stadier. Dette omfatter arbejde med RNase frit deioniseret vand, brug af RNase-frit plastikudstyr og rengøring af alle instrumenter, der kommer i kontakt med FFPE-blokkene med RNase dekontamineringsreagenser.
  3. RNA skal altid håndteres omhyggeligt og opbevares i is, medmindre andet er angivet for at minimere nedbrydning under håndtering.
  4. Hvis der er tilstrækkeligt materiale til rådighed, udtrækkes RNA fra mere end én region i FFPE-blokken for at generere biologiske replikater fra så mange prøver som muligt. For nogle af prøverne med rigeligt RNA-udbytte opdeles det ekstraherede RNA i to for at behandle dem som tekniske replikater.
  5. Hvis det er muligt, indsamles en lille mængde prøve separat efter ekstraktion for QC (dvs. en QC-aliquot) for at undgå gentagne håndterings- og frysetøcykler af prøven, som sandsynligvis vil føre til nedbrydning af RNA' et.
  6. Kontroller kvaliteten af RNA (helst fra QC aliquot) ved at køre det på et RNA QC-system (f.eks Agilent Bioanalyzer system ved hjælp af en RNA Nano chip, Tabel af Materialer) i henhold til producentens anvisninger.
  7. Analysere fordelingen af RNA-fragmenter i prøverne (f.eks. ved hjælp af Bioanalyzer 2100 Expert-softwaren) ved at beregne DV200- og DV100-værdierne som procentdelen af fragmenter, der er større end 200 nt (DV200) eller 100 nt (DV100) i størrelse.
  8. Blandt DV200 og DV100skal du identificere den metrikværdi, der har en større spredning af værdier for det givne prøvesæt, og vælge den til gruppering af prøverne efter deres grad af intakthed.
    BEMÆRK: For prøvesæt med mere intakte RNA-molekyler (dvs. høje DV200-værdier, alle eller de fleste med DV200 > 40%), dv200 vil sandsynligvis være en nyttig QC metrisk. Men for prøvesæt med mere forringede udskrifter (dvs. lave DV200-værdier, helt eller højst med DV200 < 40%), dv100 er mere tilbøjelige til at være nyttige.
  9. Baseret på QC-målingerne skal du identificere de prøver, der har DV100 < 40 %. Da denne nedbrydningsgrad med stor sandsynlighed ikke vil generere nyttige sekventeringsdata11, er det tilrådeligt at undgå behandling af sådanne prøver. Hvis der findes erstatninger for sådanne prøver, bør deres kvalitet kontrolleres, så de ideelt set kun omfatter prøver med DV100 > 50 %.

2. Forberedelse af sekvensering af bibliotek

  1. På grundlag af kvaliteten af prøverne som vurderet i afsnit 1 skal der identificeres en passende metode til generering af sekventeringsbibliotekerne.
    1. For prøvesæt med meget lav nedbrydning og høje DV200-værdier skal du bruge mRNA-sekvensering (dvs. opsamling af polyadenylerede transskripter), målrettet RNA-sekvensering (dvs. brug af opsamlingssonder til specifikke gener af interesse), RNA-exomesekventering (dvs. brug af opsamlingssonder til at berige til kodifikationstransskriptomet) eller total RNA-sekventering (dvs. brug af tilfældige primere til omvendt transskription til sekvens af hele RNA-populationen efter fjernelse af ribosomal RNA fra prøverne). Det er dog vigtigt at bemærke, at fikseringsprocessen kan indføre bias i det udtrukne RNA. Således kan capture tilgange ikke fungere godt i alle tilfælde, selv med høje DV200 værdier.
    2. Hvis prøvesættet indeholder prøver med høj nedbrydning (DV200 < 30 %), skal du bruge en samlet RNA-biblioteksforberedelsesmetode og ikke en metode, der afhænger af registreringen af bestemte områder af udskrifterne, da disse specifikke regioner kan mangle i nedbrudte prøver. Brugen af tilfældige primere til generation af cDNA fører til højere repræsentation af brugbart RNA i det endelige bibliotek og er derfor mere velegnet til FFPE-RNA-prøver.
    3. For ribosomal RNA-udtynding for prøvesæt med høj nedbrydning skal du bruge RNaseH-baserede metoder. Det er metoder, hvor rRNA-specifikke DNA-sonder binder sig til rRNA, dobbeltstrengede molekyler fordøjes af RNaseH, og sidestenssonder renses af DNase Table of Materials(f.eks. Disse metoder fungerer bedre for nedbrudte prøver end nogle andre metoder8.
  2. Brug højere inputmængder (hvis det er muligt) til prøver, der har mere nedbrudt RNA (DV100 < 60 %), til at generere sekvensbiblioteker. Mens prøver med rimelig god kvalitet RNA (DV100 > 60%) kan give gode sekvensdata selv ved lavere inputmængder (den laveste testede for denne protokol med FFPE-RNA var ~20 ng), for mere nedbrudt RNA (DV100 < 60%), er det bedre at starte med højere inputmængder (f.eks. >100 ng).
    BEMÆRK: Hvis der er nok (f.eks. >500 ng) prøven til rådighed, anbefales det at gemme mindst halvdelen af prøven til at gentage biblioteksforberedelsen, hvis det er nødvendigt. For prøver med lavt input (f.eks. <100 ng) er det normalt bedre at bruge hele beløbet og generere et bibliotek med tilstrækkelig mangfoldighed.
  3. Når du har valgt et egnet biblioteksforberedelsessæt til generering afsamlede RNA-seqbiblioteker fra prøver med høj nedbrydning (f.eks.
    BEMÆRK: Under biblioteksforberedelsen er det vigtigt at springe RNA-fragmenteringstrinnet over for nedbrudte prøver og sikre brugen af tilfældige primere til første streng cDNA-syntese.
  4. For at forbedre effektiviteten og hastigheden, især for de lavt input prøver, skal du bruge passende magnetiske stativer med stærke faste magneter til perle-baserede rensning og størrelse-udvælgelse trin (se Tabel af materialer).
  5. For PCR-berigelse af kondivf-dna skal antallet af forstærkningscyklusser justeres ud fra mængden af input-DNA for at sikre maksimal repræsentation, samtidig med at unødvendig overlapning af biblioteksmolekylerne undgås. For lav input FFPE-RNA prøver (<100 ng), anbefaler vi 16-18 forstærkning cykler, mens de høje input prøver (1.000 NG) normalt generere nok bibliotek beløb i 12-14 runder af forstærkning.
  6. Efter PCR-forstærkning og oprydning efter producentens anvisninger skal du vurdere bibliotekskvaliteten ved at analysere bibliotekskoncentrationog molekyledistribution på en passende platform (f.eks. Agilent Bioanalyzer DNA Chip, se Tabel over Materialer ). For prøver med primertoppe (~80 bp) eller adapter-dimertoppe (~128 bp) skal du gentage oprydningen for at fjerne disse toppe.
  7. Beregn den gennemsnitlige biblioteksstørrelse for hvert bibliotek (f.eks. ved hjælp af Bioanalyzer 2100 Expert-softwaren).

3. Sekventering bibliotek QC

  1. Når det er konstateret, at bibliotekerne er fri for overskydende primer og adapter-dimers og har tilstrækkelig koncentration til efterfølgende sekventering, kvantificere yderligere ved qPCR.
    BEMÆRK: På grund af klyngegenereringens følsomhed over for bibliotekskoncentration er nøjagtig kvantificering afgørende for at forhindre dyre sekvenseringskørsler fra underperformance eller overbelastning. Kvantitative PCR-metoder (real-time PCR) er nyttige til at forbedre klyngetætheden på Illumina-platforme uden at resultere i overclustering. QPCR-metoden er mere præcis og mere følsom end de metoder, der er baseret på kvalitativ og/eller kvantitativ analyse af alle biblioteksmolekyler (f.eks. Agilent Bioanalyzer), fordi den måler de skabeloner, der har begge adaptersekvenser i begge ender, der danner klynger på flowcellen. Bibliotekets størrelse skal dog på forhånd være kendt som en størrelseskorrektion, der skal anvendes på alle prøver, således at resultaterne kan sammenlignes med en standardkurve.
    FORSIGTIG: Laboratoriekitler og handsker skal altid bæres, når der udføres qPCR, og proceduren skal udføres i et biosikkerhedsskab efter producentens anvisninger.
    1. Opret en 96 brøndplade med tre replikater til hver prøve til fejlforebyggelse ved hjælp af et egnet sæt (f.eks. KAPA SYBR FAST qPCR Master Mix for Illumina-biblioteker, en del af Library Quantification kit, se Tabel over Materialer ) sammen med standarderne,en positiv kontrol (f.eks. PhiX-kontrol, se Tabel over Materialer) og en no template control (NTC). NTC er qPCR mix uden DNA-bibliotek. Den positive kontrol kan være ethvert bibliotek med kendt koncentration og fragment størrelse.
      1. Forbered mindst seks fortyndinger af standarderne efter leverandørprotokollen.
    2. Efter at have tilføjet alle komponenterne (dvs. qPCR master mix, biblioteker, standarder), dække pladen med forsegling film og bruge en squeegee at sikre filmen gør jævn og sikker kontakt med pladen.
    3. Vortex og drej pladen ned ved 1.500 omdrejninger i mindst 1 min. Kontroller pladen visuelt for at sikre, at der ikke er luftbobler i bunden af brøndene.
    4. Opsæt pladen på den termiske cykelr (f.eks CFX96 Touch System, se Tabel over Materialer) ved hjælp af producentens anbefalede indstillinger.
    5. Gem kørselsmappen, hvor der er adgang til den til dataanalyse.
    6. Under dataanalysen skal det kontrolleres, at hældningen ligger i intervallet -3,1 til -3,6, effektivitet fra 90% til 110% og R2 (korrelationskoefficient opnået for standardkurven) ikke mindre end 0,98.
  2. Pooling: Når qPCR-koncentrationen af sekvenseringsklare biblioteker er opnået, skal der samles lige store mængder af hvert af bibliotekerne, afhængigt af antallet af sekvensaflæsninger, der kræves pr. prøve, og instrumentets sekventeringsoutput.
  3. QC af puljer: Kvantificer biblioteket puljer igen ved qPCR efter den samme protokol som beskrevet i trin 3.1.

4. Sekventering

  1. Afhængigt af kørselsparametrene skal du trække i sekvenserende reagenssæt og tø dem op efter brugervejledningen. Tjek venligst Illumina hjemmeside for de nyeste versioner af alle brugervejledninger til sekventering på Illumina instrumenter.
  2. Sørg for, at reagenserne er helt optøede, og anbring reagensbakken ved 4 °C. Løbet skal påbegyndes senest 2 timer efter, at reagenserne er optøet. Hvis du ikke gør det, kan det påvirke kvaliteten af kørselsresultaterne.
  3. Vend patronen 5x for at blande reagenser og bank forsigtigt på bænken for at reducere luftbobler.
  4. Sæt den uindpakkede flowcellepakke til side ved stuetemperatur i 30 min.
  5. Pak flowcellepakken ud og rengør strømningscellens glasoverflade med en fnugfri alkoholserviet. Tør glasset med et lav-fnug laboratorievæv.
  6. Åbn programmet Illumina "Experiment Manager". Vælg "Opret eksempelark", vælg derefter Sequencer, og klik på "Næste".
  7. Opret og upload eksempelarket baseret på Illumina sequencer-kriterier (f.eks. Illumina Experiment Manager, softwareguide).
  8. Ved prompterne scannes i reagenssættets stregkode, og kør Opsæt parametre (f.eks. for en enkelt indekseret PE 75-cykluskørsel skal du indtaste 76-8-76).
  9. Denaturere og fortynde bibliotekspuljen baseret på anbefalingen af sequencerbrugervejledningen (f.eks. Table of Materials
  10. Denaturere og fortynde kontrolbiblioteket PhiX (se Tabel over Materialer) til den relevante koncentration (f.eks. 1,8 pM for NextSeq).
  11. Bland eksempelbibliotek og PhiX-kontrol for at resultere i et 1% PhiX-kontrollydstyrkeforhold.
  12. Belastning denatureret og fortyndet prøve i reagenspatronen i den udpegede beholder.
  13. Ilæg flowcellen, bufferpatronen og reagenspatronen.
  14. Udfør en automatisk kontrol og gennemgang for at sikre, at kørselsparametrene består systemkontrollen.
  15. Når den automatiske kontrol er fuldført, skal du vælge Start for at starte sekvenskørslen.

5. Dataanalyse og kvalitetsvurdering

BEMÆRK: En typisk RNA-seq dataanalyse workflow (Figur 1) omfatter forbehandling og QC, tilpasning til genom og post justering QC, gen og transskription kvantificering, prøve korrelationsanalyse, differentialanalyse mellem forskellige stikprøvegrupper, behandlingsbetingelser, og gen sæt berigelse og pathway analyse.

RNA-seq-dataene kan have kvalitetsproblemer, der kan påvirke nøjagtigheden af genprofilering og føre til fejlagtige konklusioner. Derfor indledende QC kontrol for sekventering kvalitet, forurening, sekventering dækning bias, og andre kilder til artefakter er meget vigtige. Det anbefales at anvende en RNA-Seq QC-pipeline svarende til den arbejdsgang, der er beskrevet her, for at registrere artefakter og anvende filtrering eller korrektion før downstream-analyse.

  1. Forbehandling
    BEMÆRK: Dette omfatter demultiplexing, vurdering af sekvenslæsekvalitet, GC-indhold, tilstedeværelse af sekventeringsadaptere, overrepræsenterede k-mers og PCR-duplikerede læsninger. Disse oplysninger hjælper med at registrere sekvensfejl, PCR-artefakter eller forurening.
    1. Demultiplex Illumina-sekvensering køres ved hjælp af Illumina-softwareværktøjet bcl2fastq2 for at generere rå FASTQ-filer for hver prøve, der er defineret i eksempelarket. Tillad, at der opstår en uoverensstemmelse i stregkoderne for eksempelindekset, for at tolerere sekvensfejl, hvis der ikke er nogen stregkodekollision.
    2. Kør FASTQC15 software værktøj til at udføre en kvalitetskontrol på rå FASTQ filer til at opdage eventuelle dårlig kvalitet eller abnormiteter i sekvensering læser.
    3. Til klipning af adaptere og baser af lav kvalitet skal du trimme sekvensadapterne og baserne i lav kvalitet ved hjælp af Cutadapt16- eller Trimmomatic17-softwareværktøjer. Gem de trimmede læsninger i par-end fastq filer.
    4. Forurening skærm
      1. Kør FASTQ_screen18 for at opdage mulig krydskontaminering med andre arter.
      2. Kør miniKraken af Kraken219 for at identificere taksonomier af forurenende arter.
  2. Tilpasning til referencegenom og postjustering QC
    1. De trimmede aflæsninger kan justeres til en referencegenomsekvens (GRCh Build hg19 eller hg38) ved hjælp af STAR aligner20. Anvend GTF-filen til genkodeanmærkning til at styre justeringen af den splejsede udskrift. Det anbefales at køre STAR 2-pass for at øge følsomheden over for nye splejsede vejkryds. I det andet gennemløb vil alle læsninger blive kortlagt ved hjælp af kommenterede gen og udskrifter og nye vejkryds fra første gennemløb.
    2. Udfør QC efter justering.
      1. Kør Picards21MarkDuplater for at evaluere bibliotekets kompleksitet ved at bestemme mængden af entydige eller ikke-neblerede læsninger i eksemplerne.
      2. Kør Picard's CollectRnaSeqMetrics program til at indsamle kortlægning procenter på kodning, intronic, intergene, UTR regioner, og gen organ dækning.
      3. Kør RSeQC22 for at bestemme læseparrets indre afstand, læse fordelingen mellem CDS-exons, 5'UTR, 3'UTR, intron, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, læse GC-indhold, vejkrydsmætning og oplysninger om biblioteksstrenge.
      4. Kør multi-QC23 for at generere en aggregeret rapport i HTML-format.
  3. Analyse af gendvantificering og korrektion
    1. Kør RSEM24 for at få rå tælle samt normaliseret læse regne med gener og udskrifter. Målingen af læsninger som RPKM (aflæsninger pr. kilobase af exon-model pr. million læser), FPKM (fragmenter pr. kilobase af exon-model pr. million kortlagte læsninger) og TPM (udskrifter pr. million) er de oftest rapporterede RNA-seq-genudtryksværdier. Gener udtrykt under en støjskel (f.eks.
    2. Udfør transskriptionsdvantificering til samlede rå optællinger af kortlagte læsninger til hver udskriftssekvens ved hjælp af programmer som HTSeq-count eller featureCounts.
    3. Kør PCA (Principal Components Analysis) ved hjælp af et R-script til at bestemme batcheffekter og vurdere en kvalitetskort over det angivne datasæt25. Stikprøvekorrelationsanalyse kan udføres ved hjælp af Pearson-korrelationen mellem forskellige målinger.
  4. Analyse af differentialeudtryksudtryk
    1. Gendifferentiel analyse mellem prøvebetingelserne ved hjælp af programmet edgeR26,27 og/eller limma-Voom28 og brug normaliseringsmetoder , herunder TPM, TMM, DESeqeller UpperQuartile.
    2. Det anbefales at køre mindst to differentialanalysesoftwareværktøjer for at kalde to sæt DEGs-lister til sammenligning og få de endelige DEG'er til at forbedre detektionsfølsomheden og nøjagtigheden.
  5. Gensætberigelse og vejanalyse
    1. Udfør Gene Set Enrichment Analysis (GSEA)29,30 baseret på rangorden af udskrifter i henhold til en måling af differentierede udtrykte gener (DEGs) liste for at afgøre, om DEGs viser statistisk signifikante, konkordans forskelle mellem biologiske forhold.
    2. Udfør funktionsanalyse ved hjælp af ressourcer som Gene Ontology31, DAVID32,,33eller andre tilgængelige softwareværktøjer.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Den ovenfor beskrevne metode blev anvendt på 67 FFPE-prøver, der havde været opbevaret under en række forskellige betingelser i 7-32 år (medianprøvelagringstiden var 17,5 år). De datasæt og analyseresultater, der præsenteres her , er tidligere beskrevet og offentliggjort i Zhao et al.11. Ved kontrol af prøvekvaliteten som beskrevet tidligere (dvs. eksempelspor i figur 2) blev DV100 anset for at være mere nyttig end DV200, fordi den er mere følsom over for nøjagtigt at måle andelen af mindre fragmentstørrelser for stærkt nedbrudte RNA-prøver.

I det givne prøvesæt lå under 10 % af prøverne (7 ud af 67) over DV200-afskæringen på 30 %, som anbefalet af Illumina34. Ca. 26 % af prøverne (19 ud af 67) havde en DV100 > 60% (dvs. højere sandsynlighed for at generere gode sekvensdata), 40% (27 ud af 67) var i intervallet 40%-60% for DV100 (dvs. acceptabel, men med en lavere sandsynlighed for at generere gode sekvensdata), og ca. 10% (7 af 67) havde en DV100 af <40% (dvs. meget lav sandsynlighed for at resultere i god sekvens data). For 14 af 67 prøver var softwaren ikke i stand til at bestemme DV-værdierne. Tabel 1 viser en oversigt over QC-målinger for prøverne i forskellige DV100-kategorier. For detaljeret QC-analyse og datakorrelation for alle 67 prøver henvises til Zhao et al.11.

I betragtning af den høje grad af nedbrydning i prøvesættet blev der valgt en »total RNA«-biblioteksforberedelsesmetode, og sekventeringsbibliotekerne blev udarbejdet ved hjælp af NEBNext Ultra II RNA Library Prep Kit til Illumina (Tabel over Materialer). For at forbedre repræsentationen af sekventeringsbibliotekerne på trods af den høje grad af prøvenedbrydning blev den maksimale mulige mængde RNA (1.000 ng, når de foreligger) anvendt som input til biblioteksforberedelse. Derudover nødvendiggjorde den høje nedbrydning af FFPE-RNA-prøverne rRNA-udtyndingsmetoden, fordi de nedbrudte udskrifter sandsynligvis ikke havde poly-A-halerne til mRNA-indfangning. Efter udtynding af ribosomal RNA ved hybridisering til specifikke sonder og fordøjelsen af hybridiserede udskrifter ved hjælp af RNaseH, blev de resterende udskrifter konverteret til cDNA ved hjælp af tilfældige primere. Størrelsesvalg blev også undgået for biblioteker, der var fremstillet af lavere inputeksempler. Eksempelspor af endelige biblioteker vises i figur 3.

Stærkt nedbrudte FFPE-prøver udgør en stor udfordring for genekspressionsprofilering i tumorprøver. Således anvender korrekte bioinformatik analysemetoder og software værktøjer er afgørende for at opdage artefakter eller abnormiteter i datasæt for at sikre høj nøjagtighed og reproducerbarhed af gen kvantificering. De softwareværktøjer, der anvendes i denne undersøgelse, er anført i den supplerende tabel. I det givne eksempelsæt udførte vi sekvensering og vurdering af bibliotekskvalitet med nogle eksempelmålinger vist i figur 4. En oversigt over rå fastq-filsekvenseringskvalitet og indhold af eksempelkort findes i henholdsvis figur 4A og Figur 4B. Fastqc-skærm kan hjælpe med at opdage kontaminering, såsom bakteriel og museforurening, i prøverne som vist i figur 4C. I det givne prøvesæt havde 41 ud af 67 prøver 5%-48% bakteriel kontaminering, og seks prøver havde 4%-11% museforurening (figur 4C). STAR-justeringsresultater (Figur 4D) viste andelen af læsninger, der er knyttet til referencegenomet, procentdel af læsninger, der er entydigt knyttet til referencegenomet, og andelen af læsninger, der ikke var kortlagt eller knyttet til flere loci. Picard CollectRNAStatistics blev brugt til at bestemme den procent mRNA, intronic, og intergene baser til stede i tilpasningen filer (Figur 4E). For at vurdere ensartetheden af læse dækning på gen og udskrifter, vi brugte Picard software værktøj til at generere et gen organ dækning plot, som måler den procentdel af læser, der dækker hver nukleotid position af alle gener skaleret i siloer fra 5 'UTR til 3' UTR. Figur 4F viser, at nogle forringede biblioteker havde 3 'bias, hvor flere læser er kortlagt tættere på 3 'ende end til 5 'ende.

FFPE-prøver har normalt stor variation i genekspressionsprofiler, der kan opstå som følge af variabel nedbrydning under prøvelagring, RNA-ekstraktion eller prøvebehandling. Det er vigtigt at anvende passende statistiske metoder til at afdække de underliggende mønstre og måle variationen og korrelationen mellem prøverne. Vi anvendte Principal Component Analysis (PCA) for seks par biologiske replikater fra en delmængde af de 67 FFPE prøver. Et PCA-plot viste, at 26 % af den samlede variation blev registreret af den første hovedkomponent og 19 % fra den anden og tredje del tilsammen (figur 5). Blandt de seks par replikater havde to par replikater højere variationer (korrelationer under 0,22) end de sidste fire prøver (korrelationsværdier mellem 0,7-0,8), når genekspressionværdier sammenlignes mellem replikatparret. Fordi replikater blev genereret ved at udvinde RNA fra to forskellige væv krøller skåret fra de samme FFPE blokke, væv alder var ikke en faktor i den højere varians her, og det var sandsynligvis forårsaget af den forskellige mængde bakteriel forurening (1%-55%) samt forskellige mRNA-indhold (2-3 gange forskel) mellem replikater. Tilfældigheden af mRNA-nedbrydning efter ekstraktion kan også bidrage til den højere varians mellem prøver af lignende oprindelse.

Figure 1
Figur 1: Arbejdsgang for RNaseq-analyse. Rutediagrammet beskriver analysetrinnene til forbehandling, kvalitetsvurdering, kortlægning til reference, gen kvantificering og differentialanalyse mellem forskellige stikprøvegrupper. Klik her for at se en større version af dette tal.

Figure 2
Figur 2: Eksempel på bioanalyzerspor af seks forskellige FFPE-RNA-prøver. Den vandrette akse angiver molekylvægten (bp) og fluorescensenhederne (FU), og den lodrette akse viser koncentrationen af fragmenter af forskellig størrelse. RNA Integrity Numbers (RIN), DV200 (dvs. procent af fragmenter >200 bp) og DV100 (dvs. procent af fragmenter >100 bp) værdier er angivet på hver profil. En top på 25 bp i hver profil angiver molekylvægtmarkøren. Klik her for at se en større version af dette tal.

Figure 3
Figur 3: Eksempel Bioanalyzer spor af endelige biblioteker udarbejdet af fire forskellige prøver. Den vandrette akse angiver molekylvægten (bp) og fluorescensenhederne (FU) på den lodrette akse angiver koncentrationen af fragmenter af forskellig størrelse. De nederste (35 bp eller 50 bp) og øvre (10.380 bp) markør toppe er mærket med grøn og lilla, henholdsvis. Klik her for at se en større version af dette tal.

Figure 4
Figur 4: Eksempel på rapport med flere QC-data for forbehandling af QC-resultater. (A) Kurvediagram, der viser procentdelen af Q30-baser for alle sekvenseringsaflæsninger i hver prøve. (B) Indhold af sekvensadapter i rå fastq-filer. (C) Forureningsskærm for at kontrollere tæt matchede arter. (D) Genom kortlægning statistik. (E) Læs distribution baseret på Gencode genanmærkning. (F) Gen krop / udskrift dækning Klik her for at se en større version af dette tal.

Figure 5
Figur 5: Eksempel på PCA-analyse for at vise overensstemmelse mellem prøvegrupper. PCA-analyse for biologiske replikater. PCA-plot med prøver afbildet i to dimensioner ved hjælp af deres projektioner på de to første hovedkomponenter. Biologiske replikater er vist i samme farve. Klik her for at se en større version af dette tal.

Antal prøver Medianinput til lib prep (ng) Median RIN Median DV200 Median DV100 Median Lib-størrelse (bp) Median Lib udbytte (ng) Median Lib Molarity (nM) Median prøveopbevaringstid (år) Median % kontaminering Median gentælling
DV100 <40% 7 237.6 2.5 6 34 445 24.5 7 22 27.4 14,759
DV100 40-60% 27 1000 2.5 12 51 408 19.8 5.9 18 9.9 10,202
DV100 >60% 19 1000 2.3 26 73 355 84.9 24 13 3.2 9,993

Tabel 1: Oversigt over qc-metrikværdier for stikprøvesæt. Tabellen viser QC-målingerne for prøverne, grupperet efter deres DV100-værdier. Antallet af prøver i hver gruppe vises, og medianværdier for hver metrikværdi vises.

Supplerende tabel: Analysesoftwareværktøjer, parametre og softwarereference. Tabellen viser de analysesoftwareværktøjer og parametre, der anvendes i hvert trin i RNA-seq-analysen. Referencerne til softwareværktøjet er angivet i tabellen. Klik her for at downloade denne tabel.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Den metode, der er beskrevet her, skitserer de vigtigste trin, der kræves for at opnå gode sekvensdata fra FFPE-RNA-prøver. De vigtigste punkter, der skal overvejes med denne metode, er: 1) Sørg for, at RNA'et bevares bedst muligt efter ekstraktionen ved at minimere prøvehåndteringen og fryse- og optøningscyklusserne. Separate QC aliquots er meget hjælpsomme. (2) Brug en QC-metrikværdi, der er bedst for det givne stikprøvesæt. RIN-værdier og DV200 er ofte ikke nyttige for nedbrudte prøver, og DV100 kan være det parameter, der vælger at vurdere kvaliteten i et givet stikprøvesæt. (3) For flere nedbrudte prøver er det bedst at anvende et højt prøveinput. Højere inputbeløb fører til bedre mangfoldighed og lavere dobbeltarbejde i det endelige bibliotek, hvilket fører til forbedret datakvalitet. Da ikke alle RNA-prøver i FFPE-RNA-prøver kan anvendes på grund af høj nedbrydning og refractoriness til enzymatiske processer, er disse virkninger mere udtalte i FFPE-RNA sammenlignet med frisk frossen RNA. (4) Brug tilfældig priming til det omvendte transskriptionstrin i modsætning til brugen af oligo-dT eller specifikke sekvenser som primere. Medmindre det sæt af specifikke sonder er i stand til at dække så meget sekvens som muligt for alle udskrifter af interesse, tilfældige primere er en sikker satsning for at sikre konvertering af et maksimalt antal udskrifter (eller fragmenter heraf) i cDNA. Således samlede RNA bibliotek prep metoder er mere nyttige for nedbrudte prøver end mRNA metoder, som er afhængige af tilstedeværelsen af poly-A haler. (5) Nøjagtig kvantificering af biblioteker efter kvantitative pcr (qPCR) i realtid er vigtig for at undgå underperformance eller overbelastning af sequencerne. (6) Vurdere potentiel kontaminering af RNA som en del af standard RNA-Seq QC-protokollerne efter sekvensering. Bakteriel kontaminering og genomisk DNA-kontaminering er almindelige for FFPE-prøver på grund af opbevaringsforhold og procedurer for forberedelse af prøver. Prøver, der er forurenet med fremmede arter, kan spilde sekventeringsdækningen, afhængigt af forureningens omfang. Desuden kan intern forurening opstå som følge af ufuldstændig rRNA-udtynding, hvilket fører til en høj procentdel af læserkortlægning til rRNAs. Ineffektiv genomisk DNA-fjernelse under DNase-fordøjelsen kan føre til falsk positiv detektion af transskripter eller fejlagtig de novo-samling af transskripter. Adapterforurening, der introduceres under biblioteksforberedelse, er også et fælles problem for stærkt nedbrudte RNA'er med meget korte RNA-fragmenter. Forurening kan påvirke genet og udskrift profilering nøjagtighed og føre til falsk opdagelse. Det er derfor vigtigt præcist at identificere forureningskilderne og fjerne forureningen, hvis det er muligt, under trinene til forberedelse af prøven eller biblioteket eller filtrere de forurenende aflæsninger under databehandlingstrinnet. (7) Forbehandling og kvalitetskontrol efter justering er vigtige for at opdage prøver af dårlig kvalitet og lavt mRNA-indhold. Disse prøver bør fjernes fra yderligere analyse. Genekspressionsdata fra prøver, der genererer lave gentællinger, bør dårlig dækning anvendes med forsigtighed. (8) Det er god praksis at medtage biologiske replikater med henblik på at måle varians og korrelation af prøver for at sikre datarelektrerelighed.

FFPE-prøver udgør en meget værdifuld ressource for en lang række sygdomme. Evnen til at opnå pålidelige sekvens oplysninger fra sådanne prøver ville støtte en masse undersøgelser med henblik på at forstå de molekylære mekanismer bag forskellige lidelser, resistens, og modtagelighed. Selv om de begrænsninger, som den ofte suboptimale kvalitet af RNA udvundet af sådanne prøver hæmmer en sådan indsats, de skridt, der er beskrevet her bidrage til at afbøde disse begrænsninger til en vis grad og gøre det muligt for os at få mest muligt ud af FFPE-RNA at opnå pålidelige genekspression oplysninger.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Dette arbejde blev finansieret af National Cancer Institute (NCI), National Institutes of Health (NIH). Leidos Biomedical Research, Inc. er de operationer og teknisk støtte entreprenør til Frederick National Laboratory for Cancer Research, som er fuldt finansieret af NIH. Flere forfattere (YZ, MM, KT, YL, JS, BT) er tilknyttet Leidos Biomedical Research, Inc., men alle forfatterne er fuldt finansieret af National Cancer Institute, herunder forfatternes lønninger og forskningsmateriale. Leidos Biomedical Research, Inc. gav ikke løn til forfatterne (YZ, MM, KT, YL, JS, BT) eller materiale til undersøgelsen, og det havde heller ingen rolle i undersøgelsens design, dataindsamling, analyse, beslutning om at offentliggøre eller forberedelse af manuskriptet.

Acknowledgments

Vi er taknemmelige for at Dr. Danielle Carrick (Division of Cancer Control og Befolkning Sciences, National Cancer Institute) for fortsat hjælp, især for at indlede denne undersøgelse, der giver os prøverne, og for nyttige forslag under dataanalyse. Vi oprigtigt takke alle medlemmer af CCR Sekventering Facility på Frederick National Laboratory for Cancer Research for deres hjælp under prøve forberedelse og sekventering, især Brenda Ho for bistand i prøve QC, Oksana tysk for biblioteket QC, Tatyana Smirnova for at køre sequencers. Vi vil også gerne takke Tsai-wei Shen og Ashley Walton på Sequencing Facility Bioinformatics Group for at hjælpe med dataanalyse og implementering af RNA-seq-rørledning. Vi takker også CCBR og NCBR for hjælp med RNaseq analyse pipeline og bedste praksis udvikling.

Materials

Name Company Catalog Number Comments
2100 Bioanalyzer Agilent G2939BA
Agilent DNA 7500 Kit Agilent 5067-1506
Agilent High Sensitivity DNA Kit Agilent 5067-4626
Agilent RNA 6000 Nano Kit Agilent 5067-1511
AllPrep DNA/RNA FFPE Kit Qiagen 80234
CFX96 Touch System Bio-Rad 1855195
Library Quantification kit v2-Illumina KapaBiosystems KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina New England Biolabs E7765S https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat) New England Biolabs E6310L
NextSeq 500 Sequencing System Illumina SY-415-1001 NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit Illumina FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS) Illumina 20024907
10X Genomics Magnetic Separator 10X Genomics 120250
Rotator Multimixer VWR 13916-822
C1000 Touch Thermal Cycler Bio-Rad 1851197
Sequencing reagent kit Illumina 20024907
Flow cell package Illumina 20024907
Buffer cartridge and the reagent cartridge Illumina 20024907
Sodium hydroxide solution (0.2N) Millipore Sigma SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0 Fisher Scientific 50-151-871

DOWNLOAD MATERIALS LIST

References

  1. Carrick, D. M., et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue. PLoS One. 10 (7), 0127353 (2015).
  2. Hedegaard, J., et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue. PLoS One. 9 (5), 98187 (2014).
  3. Zhang, P., Lehmann, B. D., Shyr, Y., Guo, Y. The Utilization of Formalin Fixed-Paraffin-Embedded Specimens in High Throughput Genomic Studies. International Journal of Genomics. 2017, 1926304 (2017).
  4. Srinivasan, M., Sedmak, D., Jewell, S. Effect of fixatives and tissue processing on the content and integrity of nucleic acids. American Journal of Pathology. 161 (6), 1961-1971 (2002).
  5. von Ahlfen, S., Missel, A., Bendrat, K., Schlumpberger, M. Determinants of RNA quality from FFPE samples. PLoS One. 2 (12), 1261 (2007).
  6. Esteve-Codina, A., et al. A Comparison of RNA-Seq Results from Paired Formalin-Fixed Paraffin-Embedded and Fresh-Frozen Glioblastoma Tissue Samples. PLoS One. 12 (1), 0170632 (2017).
  7. Vukmirovic, M., et al. Identification and validation of differentially expressed transcripts by RNA-sequencing of formalin-fixed, paraffin-embedded (FFPE) lung tissue from patients with Idiopathic Pulmonary Fibrosis. BMC Pulmonary Medicine. 17 (1), 15 (2017).
  8. Adiconis, X., et al. Comparative analysis of RNA sequencing methods for degraded or low-input samples. Nature Methods. 10 (7), 623-629 (2013).
  9. Sinicropi, D., et al. Whole transcriptome RNA-Seq analysis of breast cancer recurrence risk using formalin-fixed paraffin-embedded tumor tissue. PLoS One. 7 (7), 40092 (2012).
  10. Altekruse, S. F., et al. SEER cancer registry biospecimen research: yesterday and tomorrow. Cancer Epidemiology, Biomarkers & Prevention. 23 (12), 2681-2687 (2014).
  11. Zhao, Y., et al. Robustness of RNA sequencing on older formalin-fixed paraffin-embedded tissue from high-grade ovarian serous adenocarcinomas. PLoS One. 14 (5), 0216050 (2019).
  12. Amini, P., et al. An optimised protocol for isolation of RNA from small sections of laser-capture microdissected FFPE tissue amenable for next-generation sequencing. BMC Molecular Biology. 18 (1), 22 (2017).
  13. Amini, P., Nassiri, S., Ettlin, J., Malbon, A., Markkanen, E. Next-generation RNA sequencing of FFPE subsections reveals highly conserved stromal reprogramming between canine and human mammary carcinoma. Disease Models and Mechanisms. 12 (8), (2019).
  14. Wimmer, I., et al. Systematic evaluation of RNA quality, microarray data reliability and pathway analysis in fresh, fresh frozen and formalin-fixed paraffin-embedded tissue samples. Scientific Reports. 8 (1), 6351 (2018).
  15. Babraham Bioinformatics. , Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2019).
  16. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
  17. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  18. Babraham Bioinformatics. , Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/ (2019).
  19. Wood, D. E., Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology. 15 (3), 46 (2014).
  20. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  21. Broad Institute. , Available from: http://broadinstitute.github.io/picard/ (2019).
  22. Wang, L., Wang, S., Li, W. RSeQC: quality control of RNA-seq experiments. Bioinformatics. 28 (16), 2184-2185 (2012).
  23. Ewels, P., Magnusson, M., Lundin, S., Kaller, M. MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 32 (19), 3047-3048 (2016).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  25. Son, K., Yu, S., Shin, W., Han, K., Kang, K. A Simple Guideline to Assess the Characteristics of RNA-Seq Data. BioMed Research International. 2018, 2906292 (2018).
  26. McCarthy, D. J., Chen, Y., Smyth, G. K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation. Nucleic Acids Research. 40 (10), 4288-4297 (2012).
  27. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  28. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2015).
  29. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America U S A. 102 (43), 15545-15550 (2005).
  30. Mootha, V. K., et al. PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nature Genetics. 34 (3), 267-273 (2003).
  31. Ashburner, M., et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genetics. 25 (1), 25-29 (2000).
  32. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  33. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  34. Evaluating RNA Quality from FFPE Samples. Illumina. , Available from: https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/evaluating-rna-quality-from-ffpe-samples-technical-note-470-2014-001.pdf (2016).

Tags

Genetik RNA sekventering formalin-fast paraffin indlejret FFPE næste generation sekventering NGS RNA-seq analyse
Optimering til sekventering og analyse af forringede FFPE-RNA-prøver
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Levin, Y., Talsania, K., Tran, B.,More

Levin, Y., Talsania, K., Tran, B., Shetty, J., Zhao, Y., Mehta, M. Optimization for Sequencing and Analysis of Degraded FFPE-RNA Samples. J. Vis. Exp. (160), e61060, doi:10.3791/61060 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter