Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Optimering för sekvensering och analys av försämrade FFPE-RNA-prover

Published: June 8, 2020 doi: 10.3791/61060
* These authors contributed equally

Summary

Den här metoden beskriver stegen för att förbättra kvaliteten och kvantiteten av sekvensdata som kan erhållas från formalin-fixed paraffin-embedded (FFPE) RNA-prover. Vi beskriver metoden för att mer exakt bedöma kvaliteten på FFPE-RNA-prover, förbereda sekvensering bibliotek och analysera data från FFPE-RNA prover.

Abstract

Genuttrycksanalys genom RNA-sekvensering (RNA-seq) möjliggör unika insikter i kliniska prover som potentiellt kan leda till mekanistisk förståelse av grunden för olika sjukdomar samt resistens- och/eller känslighetsmekanismer. FFPE-vävnader, som representerar den vanligaste metoden för att bevara vävnadsmorfologi i kliniska prover, är dock inte de bästa källorna för genuttrycksprofileringsanalys. RNA som erhålls från sådana prover bryts ofta ned, fragmenteras och modifieras kemiskt, vilket leder till suboptimala sekvenseringsbibliotek. I sin tur genererar dessa sekvensdata av dålig kvalitet som kanske inte är tillförlitliga för genuttrycksanalys och mutationsupptäckt. För att få ut det mesta av FFPE-prover och få bästa möjliga data från prover av låg kvalitet är det viktigt att vidta vissa försiktighetsåtgärder när du planerar experimentell design, förbereder sekvenseringsbibliotek och under dataanalys. Detta inkluderar användning av lämpliga mått för exakt provkvalitetskontroll (QC), identifiera de bästa metoderna för olika steg under sekvensering bibliotek generation, och noggrant bibliotek QC. Dessutom är det viktigt att använda korrekta programvaruverktyg och parametrar för sekvensdataanalys för att identifiera artefakter i RNA-seq-data, filtrera bort föroreningar och läsa av låg kvalitet, bedöma enhetlig gentäckning och mäta reproducerbarheten hos genuttrycksprofiler bland biologiska replikat. Dessa steg kan säkerställa hög noggrannhet och reproducerbarhet för profilering av mycket heterogena RNA-prover. Här beskriver vi de olika stegen för prov QC, bibliotek förberedelse och QC, sekvensering och dataanalys som kan bidra till att öka mängden användbara data som erhållits från låg kvalitet RNA, såsom den som erhållits från FFPE-RNA vävnader.

Introduction

Användning av nästa generations sekvensering metoder har gjort det möjligt för oss att få fram en mängd information från olika typer av prover. Gamla och dåligt bevarade prover förblir dock ogenomförbara för de vanliga metoderna för att generera sekvensdata och kräver ofta ändringar av väletablerade protokoll. FFPE vävnader representerar en sådan provtyp som har använts i stor utsträckning för kliniska exemplar1,,2,3. Medan FFPE bevarande upprätthåller vävnad morfologi, nukleinsyrorna i FFPE vävnader uppvisar vanligtvis ett brett spektrum av skador och nedbrytning, vilket gör det svårt att hämta den genomiska information som kan leda till viktiga insikter om molekylära mekanismer som ligger till grund för olika sjukdomar.

Genuttrycksdata som genereras av RNA-sekvensering är ofta avgörande för att studera sjukdomar och resistensmekanismer och kompletterar DNA-mutationsanalys. RNA är dock mer mottagliga för nedbrytning, vilket gör det mer utmanande att generera korrekta genuttrycksdata från FFPE-vävnader. Eftersom den stora tillgängligheten och överkomligheten för sekvensering är relativt ny, lagrades dessutom äldre exemplar ofta inte under de förhållanden som krävs för att bevara RNA-integriteten. Några av de frågor för FFPE prover inkluderar nedbrytning av RNA på grund av inbäddning i paraffin, kemisk modifiering av RNA leder till fragmentering eller refractoriness till enzymatiska processer som krävs för sekvensering, och förlust av poly-A svansar, begränsa tillämpligheten av oligo-dT som en primer för omvänd transkriptas4. En annan utmaning är hantering/lagring av FFPE-prover under suboptimala förhållanden, vilket kan leda till ytterligare nedbrytning av labila molekyler som RNA i vävnaderna5. Detta är särskilt relevant för äldre prover som kan ha samlats in vid en tidpunkt då genuttrycksanalys av RNA-sekvensering inte förväntades för proverna. Alla dessa leder till minskad kvalitet och kvantitet av det extraherade RNA som är tillgängligt för att generera användbara sekvensdata. Den låga sannolikheten för framgång, i kombination med de höga kostnaderna för sekvensering, har avskräckt många forskare från att försöka generera och analysera genuttryck data från potentiellt användbara FFPE prover. Vissa studier under de senaste åren har visat användbarheten av FFPE vävnader för genuttryck analys2,6,7,8,9, om än för färre och/eller nyare prover.

Som en genomförbarhetsstudie använde vi RNA utvinns ur FFPE tumör vävnad exemplar från tre Residual Tissue Förråd från övervakning, epidemiologi, och slutresultat (SEER) cancer register för RNA sekvensering och genuttryck analys10. Upphandlas från kliniska patologi labs, FFPE vävnader från högvärdiga äggstockscancer serösa adenokarcinom lagrades från 7-32 år under olika förhållanden före RNA utvinning. Eftersom i de flesta fall dessa block hade lagrats på olika platser i flera år utan förväntningar på någon känslig genetisk analys i framtiden, inte mycket omsorg hade vidtagits för att bevara nukleinsyror. Således uppvisade de flesta av proverna dålig kvalitet RNA, med en stor andel av prover förorenade med bakterier. Ändå kunde vi utföra gen kvantifiering, mäta enhetlighet och kontinuitet gen täckning, och utföra Pearson korrelation analys bland biologiska replikerar för att mäta reproducerbarhet. Baserat på en uppsättning nyckel signatur genpanel, jämförde vi proverna i vår studie med Cancer Genome Atlas (TCGA) data och bekräftade att cirka 60% av proverna hade jämförbara genuttryck profiler11. Baserat på korrelationen mellan olika QC-resultat och exempelmetadata identifierade vi viktiga QC-mått som har bra prediktivt värde för att identifiera exempel som är mer benägna att generera användbara sekvensdata11.

Här beskriver vi den metod som används för FFPE-RNA kvalitetsbedömning, generering av sekvensering bibliotek från extraherade RNA prover, och bioinformatisk analys av sekvensering data.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. RNA-kvantitet och kvalitetsbedömning

  1. Välj FFPE-proverna enligt fördefinierade kriterier och extrahera RNA med en lämplig metod (t.ex. FFPE-nuclei acid extraction kit, Table of Materials).
    OBS: Det finns flera olika metoder för FFPE-RNA utvinning, inklusive nyare microdissection metoder som kan arbeta med mycket lite vävnad och extrahera god kvalitet RNA12,13,14.
  2. Största möjliga försiktighet bör iakttas för att bevara RNA:s integritet i alla skeden. Detta inkluderar att arbeta med RNase fritt avjoniserat vatten, med RNase gratis plastartiklar, och rengöring av alla instrument som kommer i kontakt med FFPE-blocken med RNase dekontamineringsreagenser.
  3. RNA ska alltid hanteras varsamt och förvaras i is om inte annat anges för att minimera nedbrytning vid hantering.
  4. Om tillräckligt med material finns tillgängligt, extrahera RNA från mer än en region i FFPE-blocket för att generera biologiska replikat från så många prover som möjligt. För några av de prover med riklig RNA-avkastning, dela upp extraherade RNA i två för att bearbeta som tekniska replikat.
  5. Om möjligt samla in en liten mängd prov separat efter extraktion för QC (dvs. en QC aliquot) för att undvika upprepad hantering och frysning-tö cykler av provet som sannolikt kommer att leda till nedbrytning av RNA.
  6. Kontrollera kvaliteten på RNA (helst från QC aliquot) genom att köra den på ett RNA QC-system (t.ex. Agilent Bioanalyzer system med hjälp av ett RNA Nano-chip, Tabell över material) enligt tillverkarens anvisningar.
  7. Analysera distributionen av RNA-fragment i proverna (t.ex. med hjälp av Bioanalyzer 2100 Expert programvara) genom att beräkna DV200 och DV100 värden som procent av fragment större än 200 nt (DV200) eller 100 nt (DV100) i storlek.
  8. Bland DV200 och DV100, identifiera det mått som har en större spridning av värden för den givna provuppsättningen, och plocka det för att gruppera proverna efter deras grad av intakthet.
    OBS: För provuppsättningar med mer intakta RNA-molekyler (dvs. höga DV200-värden, alla eller de flesta med DV200 > 40%), är DV200 sannolikt ett användbart QC-mått. För exempeluppsättningar med mer försämrade transkriptioner (dvs. låga DV200-värden, alla eller de flesta med DV200 < 40 %), är det mer sannolikt att DV100 är användbart.
  9. Baserat på QC-måtten identifierar du de exempel som har DV100 < 40 %. Eftersom denna grad av nedbrytning är mycket sannolikt att inte generera användbara sekvenseringsdata11,är det lämpligt att undvika att bearbeta sådana prover. Om det finns ersättningar för sådana prover bör deras kvalitet kontrolleras så att den helst endast omfattar prover med DV100 > 50 %.

2. Sekvensering bibliotek förberedelse

  1. På grundval av provernas kvalitet enligt avsnitt 1, identifiera en lämplig metod för att generera sekvenseringsbiblioteken.
    1. För provuppsättningar med mycket låg nedbrytning och höga DV200-värden, använd mRNA-sekvensering (dvs. avbildning av polyadenylaterade avskrifter), riktad RNA-sekvensering (dvs. användning av avskiljningssonder för specifika gener av intresse), RNA exomsekvensering (dvs. användning av avskiljande sonder för att berika för kodningsavskriptionen) eller total RNA-sekvensering (dvs. användning av slumpmässiga primers för omvänd transkription för att sekvensera hela RNA-populationen efter att ha tagit bort ribosomala RNA-prover). Det är dock viktigt att notera att fixeringsprocessen kan införa partiskhet i det extraherade RNA. Således kan fånga metoder inte fungerar bra i alla fall, även med höga DV200-värden.
    2. Om urvalsuppsättningen innehåller exempel med hög nedbrytning (DV200 < 30 %), använder du en total RNA-biblioteksförberedelsemetod och inte en som beror på hur specifika regioner i avskrifterna fångas upp, eftersom dessa specifika regioner kan saknas i skadade prover. Användningen av slumpmässiga primers för generering av cDNA leder till högre representation av användbart RNA i det slutliga biblioteket, och är därför mer lämpad för FFPE-RNA-prover.
    3. För ribosomal RNA-utarmning för provuppsättningar med hög nedbrytning, använd RNaseH-baserade metoder. Dessa är metoder där rRNA-specifika DNA-sonder binder till rRNA, dubbelsträngade molekyler rötas av RNaseH, och överblivna sonder rensas upp av DNase (t.ex. Table of Materials Dessa metoder fungerar bättre för skadade prover än vissa andra metoder8.
  2. För att generera sekvenseringsbibliotek använder du högre indatamängder (om möjligt) för exempel som har mer försämrat RNA (DV100 < 60%). Medan prover med någorlunda god kvalitet RNA (DV100 > 60%) kan ge bra sekvensdata även vid lägre indatamängder (den lägsta testade för detta protokoll med FFPE-RNA var ~20 ng), för mer degraderad RNA (DV100 < 60%), är det bättre att börja med högre insatsmängder (t.ex. > 100 ng).
    OBS: Om det finns tillräckligt (t.ex. >500 ng) är det lämpligt att spara minst hälften av provet för att upprepa biblioteksberedningen, om det behövs. För lågingångsprover (t.ex. <100 ng) är det oftast bättre att använda hela mängden och generera ett bibliotek med tillräcklig mångfald.
  3. Efter att ha valt ett lämpligt biblioteksförberedelsekit för att generera totala RNA-seq-bibliotek från prover med hög nedbrytning Table of Materials(t.ex.
    OBS: Under biblioteksberedningen är det viktigt att hoppa över RNA-fragmenteringssteget för försämrade prover och att säkerställa användningen av slumpmässiga grundfärger för första strängens cDNA-syntes.
  4. För att förbättra effektiviteten och hastigheten, särskilt för lågingångsprover, använd lämpliga magnetrack med starka fasta magneter för pärlbaserad rening och storleksval (se Tabell över material).
  5. För PCR-anrikning av adapter ligated DNA, justera antalet förstärkningscykler baserat på mängden indata-DNA för att säkerställa maximal representation samtidigt som man undviker onödig dubblering av biblioteksmolekylerna. För FFPE-RNA-prover med låg ingång (<100 ng) rekommenderar vi 16–18 förstärkningscykler, medan de höga inmatningsproverna (1 000 ng) vanligtvis genererar tillräckligt med biblioteksbelopp i 12–14 omgångar för förstärkning.
  6. Efter PCR-förstärkning och sanering enligt tillverkarens anvisningar, bedöma bibliotekets kvalitet genom att analysera bibliotekskoncentration och molekylfördelning på en lämplig plattform (t.ex. Agilent Bioanalyzer DNA Chip, se Tabell över material). För prover med primer toppar (~ 80 bp) eller adapter-dimer toppar (~ 128 bp), upprepa rensningen för att ta bort dessa toppar.
  7. Beräkna den genomsnittliga biblioteksstorleken för varje bibliotek (t.ex. med hjälp av Programvaran Bioanalyzer 2100 Expert).

3. Sekvensering bibliotek QC

  1. När det har konstaterats att biblioteken är fria från överskott primer och adapter-dimers och har tillräcklig koncentration för efterföljande sekvensering, kvantifiera ytterligare genom qPCR.
    OBS: På grund av känsligheten hos klustergenerering mot bibliotekskoncentration är korrekt kvantifiering avgörande för att förhindra att kostsamma sekvensering körs från underprestation eller överbelastning. Kvantitativa pcr-metoder (real-time PCR) är användbara för att förbättra klusterdensiteten på Illumina-plattformar utan att resultera i överklusande. QPCR-metoden är mer exakt och känsligare än de metoder som bygger på kvalitativ och/eller kvantitativ analys av alla biblioteksmolekyler (t.ex. Agilent Bioanalyzer), eftersom den mäter de mallar som har båda adaptersekvenserna i båda ändar som kommer att bilda kluster på flödescellen. Biblioteksstorleken måste dock i förväg vara känd som en storlekskorrigering måste tillämpas på alla exempel så att resultaten kan jämföras med en standardkurva.
    VARNING: Labbrockar och handskar måste alltid bäras när qPCR utförs, och proceduren måste utföras i ett biosäkerhetsskåp enligt tillverkarens anvisningar.
    1. Ställ in en 96-brunnsplatta med tre replikat för varje prov för felförebyggande med hjälp avett lämpligt kit (t.ex. Table of Materials NTC är qPCR mix utan DNA-bibliotek. Den positiva kontrollen kan vara alla bibliotek med känd koncentration och fragmentstorlek.
      1. Förbereda minst sex utspädningar av standarderna enligt leverantörsprotokollet.
    2. Efter att ha lagt till alla komponenter (dvs. qPCR master mix, bibliotek, standarder), täcka plattan med tätningsfilm och använda en squeegee för att säkerställa att filmen gör jämn och säker kontakt med plattan.
    3. Vortex och snurra ner plattan vid 1500 varv/min i minst 1 min. Inspektera plattan visuellt för att se till att det inte finns några luftbubblor längst ner i brunnarna.
    4. Ställ in plattan på värmecykeln (t.ex. Table of Materials
    5. Spara körningsmappen där den kan nås för dataanalys.
    6. Kontrollera att lutningen är i intervallet -3,1 till -3,6, verkningsgrad från 90 % till 110 % och R2 (korrelationskoefficienten som erhålls för standardkurvan) inte mindre än 0,98.
  2. Poolning: När qPCR-koncentrationen av sekvenseringen färdiga bibliotek erhålls, pool equimolar belopp av varje bibliotek, beroende på antalet sekvensering läsningar krävs per prov och sekvensering produktionen av instrumentet.
  3. QC av poolerna: Kvantifiera bibliotekspoolerna igen genom qPCR enligt samma protokoll som beskrivs i steg 3.1.

4. Sekvensering

  1. Beroende på körningsparametrarna, dra sekvensering reagens kit och tina dem efter bruksanvisningen. Kontrollera Illuminas webbplats för de senaste versionerna av alla användarhandböcker för sekvensering på Illumina-instrument.
  2. Se till att reagenserna är helt upptinad och placera reagensbrickan vid 4 °C. Körningen ska påbörjas senast 2 timmar efter att reagenserna har avfroats. Att inte göra det kan påverka kvaliteten på körningen resultat.
  3. Vänd in patronen 5x för att blanda reagenser och knacka försiktigt på bänken för att minska luftbubblorna.
  4. Ställ det oförpackade flödescellpaketet åt sidan i rumstemperatur i 30 min.
  5. Packa upp flödescellpaketet och rengör flödescellens glasyta med en luddfri alkoholrensning. Torka glaset med en låg ludd laboratorievävnad.
  6. Öppna programmet Illumina "Experiment Manager". Välj "Skapa exempelblad", välj sedan Sequencer och klicka på "Nästa".
  7. Skapa och ladda upp exempelbladet baserat på Illumina sequencer-kriterier (t.ex.
  8. Vid uppmaningarna skannar du i streckkoden för reagenssatsen och anger körningen Ställ in parametrar (t.ex. för en enda indexerad PE 75-cykelkörning, ange 76-8-76).
  9. Denaturera och späda bibliotekspoolen baserat på rekommendationen för sequencer-användarhandboken (t.ex. Table of Materials
  10. Denaturering och späda ut kontrollbiblioteket PhiX (se Materialtabell)till lämplig koncentration (t.ex. 1,8 pM för NextSeq).
  11. Blanda provbibliotek och PhiX-kontroll så att det resulterar i ett volymförhållande på 1 % PhiX-kontroll.
  12. Lastdenaturerat och utspädt prov i reagenspatronen i den avsedda behållaren.
  13. Fyll på flödescell, buffertpatron och reagenspatron.
  14. Utför en automatisk kontroll och granskning för att säkerställa att körningsparametrarna klarar systemkontrollen.
  15. När den automatiska kontrollen är klar väljer du Start för att påbörja sekvenseringskörningen.

5. Dataanalys och kvalitetsbedömning

OBS: Ett typiskt RNA-seq dataanalys arbetsflöde (figur 1) inkluderar förbearbetning och QC, anpassning till arvsmassa och efter justering QC, gen och transkription kvantifiering, prov korrelation analys, differentialanalys mellan olika provgrupper, behandlingstillstånd, och genuppsättning anrikning och väg analys.

RNA-seq-data kan ha kvalitetsproblem som kan påverka noggrannheten i genprofilering och leda till felaktiga slutsatser. Därför är inledande QC-kontroller för sekvensering kvalitet, kontaminering, sekvensering täckning bias, och andra källor till artefakter mycket viktiga. Att använda en RNA-Seq QC-pipeline som liknar det arbetsflöde som beskrivs här rekommenderas för att identifiera artefakter och tillämpa filtrering eller korrigering före nedströmsanalys.

  1. Förbehandling
    OBS: Detta inkluderar demultiplexing, bedömning av sekvenslädningskvalitet, GC-innehåll, förekomst av sekvenseringsadaptrar, överrepresenterade k-mersoch PCR duplicerade läsningar. Den här informationen hjälper till att identifiera sekvenseringsfel, PCR-artefakter eller kontaminering.
    1. Demultiplex Illumina sekvensering körs med hjälp av Illumina mjukvaruverktyg bcl2fastq2 att generera råa FASTQ filer för varje prov som definieras i provbladet. Tillåt att en obalans i exempelindexstreckkoderna tolererar sekvenseringsfel om det inte finns någon streckkodskollision.
    2. Kör FASTQC15 mjukvaruverktyg för att utföra en kvalitetskontroll på råa FASTQ-filer för att upptäcka dålig kvalitet eller avvikelser i sekvensering läser.
    3. För trimning av adaptrar och lågklassiga baser, trimma sekvenseringsadaptrarna och lågkvalitetsbaser med hjälp av Cutadapt16- eller Trimmomatic17-programvaruverktyg. Spara de trimmade läsningarna i fastq-filerna med parändelse.
    4. Kontaminering skärm
      1. Kör FASTQ_screen18 för att upptäcka eventuell korskontaminering med andra arter.
      2. Kör miniKraken av Kraken219 för att identifiera taxonomier av förorenande arter.
  2. Justering till referensgenom och efter justering QC
    1. De trimmade avläsningarna kan justeras mot en referensgenomsekvens (GRCh Build hg19 eller hg38) med STAR aligner20. Använd filen Gencode-anteckning GTF för att styra den skarvade avskriftsjusteringen. Det rekommenderas att köra STAR 2-pass för att öka känsligheten för nya skarv korsningar. I det andra passet kommer alla läsningar att mappas om med hjälp av kommenterad gen och avskrifter och nya korsningar från första passet.
    2. Utför QC efter justeringen.
      1. Kör Picards21MarkDuplicates för att utvärdera bibliotekets komplexitet genom att bestämma mängden unika eller icke-uppdyckliga läsningar i exemplen.
      2. Kör Picard's CollectRnaSeqMetrics program för att samla kartprocent på kodning, intronic, intergenic, UTR regioner och genkropp täckning.
      3. Kör RSeQC22 för att bestämma läsparets inre avstånd, läsdistributionen mellan CDS-exons, 5'UTR, 3'UTR, intron, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, läsa GC-innehåll, junction mättnad och information om biblioteksfält.
      4. Kör multi-QC23 för att generera en aggregerad rapport i HTML-format.
  3. Genkvantifiering och korrigeringsanalys
    1. Kör RSEM24 för att få råräkning samt normaliserad läsräkning på gener och transkriptioner. Läsräkningsmätningen som RPKM (läsningar per kilobase av exonmodell per miljon läsningar), FPKM (fragment per kilobase av exonmodell per miljon kartlagda läsningar) och TPM (transkriptioner per miljon) är de oftast rapporterade RNA-seq genuttrycksvärdena. Gener som uttrycks under en brusten tröskel (t.ex. TPM < 1 eller råantal <5) kan filtreras.
    2. Utför avskriftkvantifiering till aggregerade råantal kartlagda läsningar till varje transkriptionssekvens med hjälp av program som HTSeq-count eller featureCounts.
    3. Kör PRINCIPAL Components Analysis (PCA) med hjälp av ett R-skript för att fastställa batcheffekter och bedöma en kvalitetskarta över den angivna datauppsättningen25. Exempelkorrelationsanalys kan utföras med hjälp av Pearson-korrelationen mellan olika mått.
  4. Differentiell genuttrycksanalys
    1. Utför gendifferensanalys mellan provförhållanden med hjälp av programkantenR26,,27 och/eller limma-Voom28 och använd normaliseringsmetoder inklusive TPM, TMM, DESeqeller UpperQuartile.
    2. Det rekommenderas att köra minst två verktyg differentialanalys programvara för att ringa två uppsättning DEGs listor för jämförelse och få den slutliga DEGs att förbättra detektion känslighet och noggrannhet.
  5. Genuppsättningsanrikning och väganalys
    1. Utför Genuppsättningsanrikningsanalys (GSEA)29,30 baserat på rangordning av transkriptioner enligt en mätning av differentiellt uttryckta gener (DEGs) lista för att avgöra om DEGs visar statistiskt signifikanta, samstämmiga skillnader mellan biologiska förhållanden.
    2. Utför funktionsanalys med resurser som Gene Ontology31, DAVID32,33eller andra tillgängliga programvaruverktyg.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Den metod som beskrivs ovan tillämpades på 67 FFPE-prover som hade lagrats under en mängd olika förhållanden i 7–32 år (medianprovets lagringstid var 17,5 år). De dataset och analysresultat som presenteras här har tidigare beskrivits och publicerats i Zhao et al.11. Vid kontrollen av provkvaliteten enligt beskrivningen ovan (t.ex. spår i figur 2) konstaterades DV100 vara mer användbar än DV200, eftersom det är mer känsligt att exakt mäta andelen mindre fragmentstorlekar för mycket försämrade RNA-prover.

I det givna provset låg mindre än 10 % av proverna (7 av 67) över DV200-avskurna med 30 %, enligt illumina34. Omkring 26 % av proverna (19 av 67) hade en DV100 > 60 % (dvs. högre sannolikhet för att generera bra sekvensdata), 40% (27 av 67) var i 40%-60% intervall för DV100 (dvs. acceptabelt, men med en lägre sannolikhet att generera bra sekvens data), och ca 10% (7 av 67) hade en DV100 av < 40% (dvs. mycket låg sannolikhet för att resultera i bra sekvens data). För 14 av 67 exempel kunde programvaran inte fastställa DV-värdena. Tabell 1 visar en sammanfattning av QC-mått för exemplen i olika DV100-kategorier. För detaljerad QC-analys och datakorrelation för alla 67 prover, se Zhao et al.11.

Med tanke på den höga graden av nedbrytning i provuppsättningen valdes en "total RNA"-biblioteksberedningsmetod, och sekvenseringsbibliotek utarbetades med hjälp av NEBNext Ultra II RNA Library Prep Kit for Illumina (Table of Materials). För att förbättra representationen av sekvenseringsbiblioteken trots den höga graden av provförsämring användes den maximala möjliga mängden RNA (1 000 ng när det var tillgängligt) som indata för biblioteksberedning. Dessutom krävde den höga nedbrytningen av FFPE-RNA-proverna rRNA-utarmningsmetoden, eftersom de försämrade avskrifterna sannolikt inte hade poly-A-svansarna för mRNA-avskiljning. Efter utarmning av ribosomal RNA genom hybridisering till specifika sonder och matsmältningen av hybridiserade avskrifter med RNaseH, de återstående avskrifter omvandlades till cDNA med hjälp av slumpmässiga primers. Storleksval undveks också för bibliotek som utarbetats från lägre inmatningsprover. Exempel på spår av slutbibliotek visas i figur 3.

Mycket försämrade FFPE prover utgör en stor utmaning för genuttryck profilering i tumör prover. Således är tillämpningen av korrekta bioinformatik analysmetoder och mjukvaruverktyg avgörande för att upptäcka artefakter eller avvikelser i datamängder för att säkerställa hög noggrannhet och reproducerbarhet av genkvantifiering. De programvaruverktyg som används i denna studie finns med i tilläggstabellen. I den angivna provuppsättningen utförde vi sekvensering och bedömning av bibliotekets kvalitet, med några exempelmått som visas i figur 4. En översikt över rå snabbq fil sekvensering kvalitet och prov adapter innehåll visas i figur 4A och figur 4B, respektive. Fastqc-skärmen kan hjälpa till att upptäcka kontaminering, såsom bakteriell och muskontaminering, i de prover som visas i figur 4C. I det givna provet hade 41 av 67 prover 5–48 % bakteriell kontamination och sex prover hade 4–11 % muskontaminering (figur 4C). STAR-justeringsresultat (figur 4D) visade andelen läsningar mappade till referensgenomet, procentandelen läsningar som är unikt mappade till referensgenomet och andelen läsningar som inte mappades eller mappades till flera loci. Picard CollectRNAStatistics användes för att bestämma procent mRNA, intronic och intergenic baser som finns i anpassningen filer (Figur 4E). För att bedöma enhetligheten i läs-täckning på gen och avskrifter, använde vi Picard mjukvaruverktyg för att generera en gen kropp täckning tomt, som mäter andelen läsningar som täcker varje nukleotid position av alla gener skalas till soptunnor från 5 UTR till 3 UTR. Figur 4F visar att vissa förstörda bibliotek hade 3' bias, där fler läsningar kartläggs närmare 3' än till 5' slutet.

FFPE-prover har vanligtvis stora variationer i genuttrycksprofiler som kan uppstå på grund av variabel nedbrytning under provlagring, RNA-extraktion eller provbearbetning. Det är viktigt att använda lämpliga statistiska metoder för att upptäcka de underliggande mönstren och mäta variationen och korrelationen mellan proverna. Vi tillämpade Principal Component Analysis (PCA) för sex par biologiska replikerar från en delmängd av 67 FFPE prover. Ett partnerskaps- och samarbetsområde visade att 26 % av den totala variationen fångades upp av den första huvudkomponenten och 19 % från den andra och tredje komponenten tillsammans (figur 5). Bland de sex paren av replikat hade två par replikat högre variationer (korrelationer under 0,22) än de fyra senaste proverna (korrelationsvärden mellan 0,7–0,8) vid jämförelse av genuttrycksvärden mellan replikatparen. Eftersom replikaten genererades genom att extrahera RNA från två olika vävnadslockar som skars från samma FFPE-block, var vävnadsåldern inte en faktor i den högre variansen här, och det orsakades sannolikt av den olika mängden bakteriell kontaminering (1%–55%) samt olika mRNA-innehåll (2–3 viktskillnad) mellan replikaten. Slumpmässigheten av mRNA nedbrytning efter extraktion kan också bidra till den högre variansen mellan prover av liknande ursprung.

Figure 1
Bild 1: RNaseq-analysarbetsflöde. Flödesschemat beskriver analysstegen för förbearbetning, kvalitetsbedömning, kartläggning till referens, genkvantifiering och differentialanalys mellan olika urvalsgrupper. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2: Exempel bioanalyzer spår av sex olika FFPE-RNA prover. Den horisontella axeln betecknar molekylvikten (bp) och fluorescensenheterna (FU) och den vertikala axeln visar koncentrationen av fragment av olika storlek. RIN-nummer (RNA), DV200 (dvs. procent av fragment >200 bp) och DV100 (dvs. procent av fragment >100 bp) anges på varje profil. En topp på 25 bp i varje profil anger molekylviktsmarkören. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3: Exempel på Bioanalyzer-spår av slutbibliotek som framställts av fyra olika prover. Den horisontella axeln betecknar molekylvikten (bp) och fluorescensenheterna (FU) på den vertikala axeln anger koncentrationen av fragment av olika storlek. De lägre (35 bp eller 50 bp) och övre (10.380 bp) markör toppar är märkta i grönt och lila, respektive. Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4: Exempel på multi-QC-rapport för förbearbetning av QC-resultat. (A)Linjediagram som visar procentsatserna för Q30-baser för alla sekvenseringsavläsningar i varje prov. (B)Sekvensering adapterinnehåll i råa fastq-filer. (C)Kontaminationsskärm för att kontrollera väl matchade arter. (D)Genommappningsstatistik. (E) Läsfördelning baserad på genkodgenenteckning. (F)Gen kropp / avskrift täckning Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5: Exempel på PCA-analys för att visa provgruppskordans. PCA-analys för biologiska replikat. PCA-område med prover som ritats i två dimensioner med hjälp av deras projektioner på de två första huvudkomponenterna. Biologiska replikat visas i samma färg. Klicka här för att se en större version av denna siffra.

Antal prover Medianingång för lib prep (ng) Median RIN Median DV200 Median DV100 Median Lib-storlek (bp) Median-Lib-avkastning (ng) Medianlib molaritet (nM) Medianexemplarets lagringstid (år) Medianprocentig kontaminering Medianantal av gen
DV100 <40% 7 237.6 2.5 6 34 445 24.5 7 22 27.4 14,759
DV100 40-60% 27 1000 2.5 12 51 408 19.8 5.9 18 9.9 10,202
DV100 >60 % 19 1000 2.3 26 73 355 84.9 24 13 3.2 9,993

Tabell 1: Sammanfattning av exempeluppsättning QC-mått. Tabellen visar QC-måtten för exemplen, grupperade efter deras DV100-värden. Antalet exempel i varje grupp visas och medianvärden för varje mått visas.

Tilläggstabell: Analysprogramverktyg, parametrar och programvarureferens. Tabellen visar analysprogramvaruverktyg och parametrar som används i varje steg i RNA-seq-analysen. Referenserna till programvaruverktyget finns med i tabellen. Klicka här för att ladda ner denna tabell.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Den metod som beskrivs här beskriver de viktigaste stegen som krävs för att få bra sekvensdata från FFPE-RNA-exempel. De viktigaste punkterna att tänka på med denna metod är: (1) Se till att RNA bevaras så bra som möjligt efter extraktion genom att minimera provhanteringen och frysnings- och upptiningscyklerna. Separata QC alikvoter är till stor hjälp. (2) Använd ett QC-mått som är bäst för den angivna provuppsättningen. RIN-värden och DV200 är ofta inte användbara för skadade prover, och DV100 kan vara det mått som krävs för att bedöma kvaliteten i en viss provuppsättning. (3) För mer nedbrytnade prover är det bäst att använda en hög provtillförsel. Högre insatsmängder leder till bättre mångfald och lägre dubbelarbete i det slutliga biblioteket, vilket leder till förbättrad datakvalitet. Eftersom inte alla RNA i FFPE-RNA prover kan utnyttjas på grund av hög nedbrytning och eldfasthet till enzymatiska processer, dessa effekter är mer uttalad i FFPE-RNA jämfört med färska frysta RNA. (4) Använd slumpmässig grundning för det omvända transkriptionssteget i motsats till användning av oligo-dT eller specifika sekvenser som grundfärger. Om inte uppsättningen av specifika sonder kan täcka så mycket sekvens som möjligt för alla utskrifter av intresse, slumpmässiga primers är ett säkert kort för att säkerställa omvandling av ett maximalt antal utskrifter (eller fragment därav) till cDNA. Således är totala RNA-bibliotek prep metoder mer användbara för försämrade prover än mRNA-metoder, som förlitar sig på förekomsten av poly-A svansar. (5) Korrekt kvantifiering av biblioteken genom kvantitativ realtid PCR (qPCR) är viktigt för att undvika underprestation eller överbelastning av sequencers. (6) Bedöma potentiell kontaminering av RNA som en del av standarderna efter sekvensering RNA-Seq QC protokoll. Bakteriell kontaminering och genomisk DNA-kontaminering är vanliga för FFPE-prover på grund av lagringsförhållanden och provberedningsförfaranden. Prover som förorenats med främmande arter kan avfall sekvensering täckning, beroende på omfattningen av kontaminering. Dessutom kan intern kontaminering uppstå från ofullständig rRNA utarmning, vilket leder till en hög andel av läser kartläggning till rRNAs. Ineffektiv genomisk DNA-borttagning under DNase-matsmältningen kan leda till felaktigt positivt uttrycksdetektering av transkriptioner eller felaktig de novo-montering av avskrifter. Adapter kontaminering infördes under biblioteket beredning är också ett vanligt problem för mycket försämrade RNAs med mycket korta RNA fragment. Kontaminering kan påverka gen- och avskriftsprofileringsnoggrannheten och leda till falsk upptäckt. Därför är det viktigt att noggrant identifiera föroreningskällorna och ta bort kontamineringen, om möjligt, under prov- eller biblioteksberedningsstegen, eller filtrera de kontaminerande avläsningarna under databehandlingssteget. (7) Förbearbetning och kvalitetskontroll efter justering är viktiga för att upptäcka prover av dålig kvalitet och låg mRNA-innehåll. Dessa prover bör elimineras från ytterligare analys. Genuttrycksdata från prover som genererar låga genantal, dålig täckning bör användas med försiktighet. (8) Det är god praxis att inkludera biologiska replikat för att mäta variansen och korrelationen för att säkerställa reproducerbarhet av data.

FFPE prover utgör en mycket värdefull resurs för ett stort antal sjukdomar. Förmågan att få tillförlitlig sekvens information från sådana prover skulle hjälpa en hel del studier som syftar till att förstå de molekylära mekanismerna bakom olika sjukdomar, motstånd och känslighet. Även om de begränsningar som följer av den ofta suboptimala kvaliteten på RNA utvinns ur sådana prover hindrar sådana ansträngningar, de åtgärder som beskrivs här bidra till att mildra dessa begränsningar i viss utsträckning och gör det möjligt för oss att göra det mesta av FFPE-RNA för att få tillförlitlig genuttryck information.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Detta arbete finansierades av National Cancer Institute (NCI), National Institutes of Health (NIH). Leidos Biomedical Research, Inc. är drift och tekniskt stöd entreprenör för Frederick National Laboratory for Cancer Research som är fullt finansierad av NIH. Flera författare (YZ, MM, KT, YL, JS, BT) är anslutna till Leidos Biomedical Research, Inc., men alla författare är fullt finansierade av National Cancer Institute inklusive författarnas löner och forskningsmaterial. Leidos Biomedical Research, Inc. gav inte lön för författarna (YZ, MM, KT, YL, JS, BT) eller material för studien, inte heller hade någon roll i studiens utformning, datainsamling, analys, beslut att publicera eller utarbetande av manuskriptet.

Acknowledgments

Vi är tacksamma till Dr Danielle Carrick (Avdelningen för cancerkontroll och befolkningsvetenskap, National Cancer Institute) för fortsatt hjälp, särskilt för att inleda denna studie, ge oss prover, och för användbara förslag under dataanalys. Vi tackar uppriktigt alla medlemmar i CCR Sequencing Facility vid Frederick National Laboratory for Cancer Research för deras hjälp under provberedning och sekvensering, särskilt Brenda Ho för hjälp i prov QC, Oksana tyska för bibliotek QC, Tatyana Smirnova för att köra sequencers. Vi vill också tacka Tsai-wei Shen och Ashley Walton på Sequencing Facility Bioinformatics Group för att hjälpa till med dataanalys och RNA-seq pipeline genomförande. Vi tackar också CCBR och NCBR för hjälp med RNaseq analys pipeline och bästa praxis utveckling.

Materials

Name Company Catalog Number Comments
2100 Bioanalyzer Agilent G2939BA
Agilent DNA 7500 Kit Agilent 5067-1506
Agilent High Sensitivity DNA Kit Agilent 5067-4626
Agilent RNA 6000 Nano Kit Agilent 5067-1511
AllPrep DNA/RNA FFPE Kit Qiagen 80234
CFX96 Touch System Bio-Rad 1855195
Library Quantification kit v2-Illumina KapaBiosystems KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina New England Biolabs E7765S https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat) New England Biolabs E6310L
NextSeq 500 Sequencing System Illumina SY-415-1001 NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit Illumina FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS) Illumina 20024907
10X Genomics Magnetic Separator 10X Genomics 120250
Rotator Multimixer VWR 13916-822
C1000 Touch Thermal Cycler Bio-Rad 1851197
Sequencing reagent kit Illumina 20024907
Flow cell package Illumina 20024907
Buffer cartridge and the reagent cartridge Illumina 20024907
Sodium hydroxide solution (0.2N) Millipore Sigma SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0 Fisher Scientific 50-151-871

DOWNLOAD MATERIALS LIST

References

  1. Carrick, D. M., et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue. PLoS One. 10 (7), 0127353 (2015).
  2. Hedegaard, J., et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue. PLoS One. 9 (5), 98187 (2014).
  3. Zhang, P., Lehmann, B. D., Shyr, Y., Guo, Y. The Utilization of Formalin Fixed-Paraffin-Embedded Specimens in High Throughput Genomic Studies. International Journal of Genomics. 2017, 1926304 (2017).
  4. Srinivasan, M., Sedmak, D., Jewell, S. Effect of fixatives and tissue processing on the content and integrity of nucleic acids. American Journal of Pathology. 161 (6), 1961-1971 (2002).
  5. von Ahlfen, S., Missel, A., Bendrat, K., Schlumpberger, M. Determinants of RNA quality from FFPE samples. PLoS One. 2 (12), 1261 (2007).
  6. Esteve-Codina, A., et al. A Comparison of RNA-Seq Results from Paired Formalin-Fixed Paraffin-Embedded and Fresh-Frozen Glioblastoma Tissue Samples. PLoS One. 12 (1), 0170632 (2017).
  7. Vukmirovic, M., et al. Identification and validation of differentially expressed transcripts by RNA-sequencing of formalin-fixed, paraffin-embedded (FFPE) lung tissue from patients with Idiopathic Pulmonary Fibrosis. BMC Pulmonary Medicine. 17 (1), 15 (2017).
  8. Adiconis, X., et al. Comparative analysis of RNA sequencing methods for degraded or low-input samples. Nature Methods. 10 (7), 623-629 (2013).
  9. Sinicropi, D., et al. Whole transcriptome RNA-Seq analysis of breast cancer recurrence risk using formalin-fixed paraffin-embedded tumor tissue. PLoS One. 7 (7), 40092 (2012).
  10. Altekruse, S. F., et al. SEER cancer registry biospecimen research: yesterday and tomorrow. Cancer Epidemiology, Biomarkers & Prevention. 23 (12), 2681-2687 (2014).
  11. Zhao, Y., et al. Robustness of RNA sequencing on older formalin-fixed paraffin-embedded tissue from high-grade ovarian serous adenocarcinomas. PLoS One. 14 (5), 0216050 (2019).
  12. Amini, P., et al. An optimised protocol for isolation of RNA from small sections of laser-capture microdissected FFPE tissue amenable for next-generation sequencing. BMC Molecular Biology. 18 (1), 22 (2017).
  13. Amini, P., Nassiri, S., Ettlin, J., Malbon, A., Markkanen, E. Next-generation RNA sequencing of FFPE subsections reveals highly conserved stromal reprogramming between canine and human mammary carcinoma. Disease Models and Mechanisms. 12 (8), (2019).
  14. Wimmer, I., et al. Systematic evaluation of RNA quality, microarray data reliability and pathway analysis in fresh, fresh frozen and formalin-fixed paraffin-embedded tissue samples. Scientific Reports. 8 (1), 6351 (2018).
  15. Babraham Bioinformatics. , Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2019).
  16. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
  17. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  18. Babraham Bioinformatics. , Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/ (2019).
  19. Wood, D. E., Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology. 15 (3), 46 (2014).
  20. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  21. Broad Institute. , Available from: http://broadinstitute.github.io/picard/ (2019).
  22. Wang, L., Wang, S., Li, W. RSeQC: quality control of RNA-seq experiments. Bioinformatics. 28 (16), 2184-2185 (2012).
  23. Ewels, P., Magnusson, M., Lundin, S., Kaller, M. MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 32 (19), 3047-3048 (2016).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  25. Son, K., Yu, S., Shin, W., Han, K., Kang, K. A Simple Guideline to Assess the Characteristics of RNA-Seq Data. BioMed Research International. 2018, 2906292 (2018).
  26. McCarthy, D. J., Chen, Y., Smyth, G. K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation. Nucleic Acids Research. 40 (10), 4288-4297 (2012).
  27. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  28. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2015).
  29. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America U S A. 102 (43), 15545-15550 (2005).
  30. Mootha, V. K., et al. PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nature Genetics. 34 (3), 267-273 (2003).
  31. Ashburner, M., et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genetics. 25 (1), 25-29 (2000).
  32. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  33. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  34. Evaluating RNA Quality from FFPE Samples. Illumina. , Available from: https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/evaluating-rna-quality-from-ffpe-samples-technical-note-470-2014-001.pdf (2016).

Tags

Genetik utgåva 160 RNA-sekvensering formalin-fast paraffin inbäddade FFPE nästa generations sekvensering NGS RNA-seq analys
Optimering för sekvensering och analys av försämrade FFPE-RNA-prover
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Levin, Y., Talsania, K., Tran, B.,More

Levin, Y., Talsania, K., Tran, B., Shetty, J., Zhao, Y., Mehta, M. Optimization for Sequencing and Analysis of Degraded FFPE-RNA Samples. J. Vis. Exp. (160), e61060, doi:10.3791/61060 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter