Waiting
Procesando inicio de sesión ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

En bioinformatikrørledning til undersøgelse af molekylær udvikling og genekspression ved hjælp af RNA-seq

Published: May 28, 2021 doi: 10.3791/61633

Summary

Formålet med denne protokol er at undersøge udviklingen og ekspressionen af kandidatgener ved hjælp af RNA-sekventeringsdata.

Abstract

Destillering og rapportering af store datasæt, såsom hele genom- eller transskriptionsdata, er ofte en skræmmende opgave. En måde at nedbryde resultater er at fokusere på en eller flere genfamilier, der er vigtige for organismen og undersøgelsen. I denne protokol skitserer vi bioinformatiske trin til at generere en fylogeni og kvantificere ekspressionen af gener af interesse. Fylogenetiske træer kan give indsigt i, hvordan gener udvikler sig inden for og mellem arter samt afsløre orthology. Disse resultater kan forbedres ved hjælp af RNA-seq data til at sammenligne udtrykket af disse gener i forskellige individer eller væv. Undersøgelser af molekylær evolution og udtryk kan afsløre former for evolution og bevarelse af genfunktion mellem arter. Karakteriseringen af en genfamilie kan tjene som springbræt til fremtidige undersøgelser og kan fremhæve en vigtig genfamilie i et nyt genom eller transskriberingspapir.

Introduction

Fremskridt inden for sekventeringsteknologier har lettet rækkefølgen af genomer og transskriptioner af ikke-modelorganismer. Ud over den øgede gennemførlighed af sekventering af DNA og RNA fra mange organismer er en overflod af data offentligt tilgængelig til undersøgelse af gener af interesse. Formålet med denne protokol er at tilvejebringe bioinformatiske trin til at undersøge den molekylære udvikling og ekspression af gener, der kan spille en vigtig rolle i den pågældende organisme.

Undersøgelse af udviklingen af et gen eller gen familie kan give indsigt i udviklingen af biologiske systemer. Medlemmer af en genfamilie bestemmes typisk ved at identificere bevarede motiver eller homologe gensekvenser. Genfamiliens udvikling blev tidligere undersøgt ved hjælp af genomer fra fjernt beslægtede modelorganismer1. En begrænsning af denne tilgang er, at det ikke er klart, hvordan disse genfamilier udvikler sig i nært beslægtede arter og den rolle, som forskellige miljømæssige selektive pres. I denne protokol inkluderer vi en søgning efter homologer i nært beslægtede arter. Ved at generere en fylogeni på et phylum-niveau kan vi bemærke tendenser i genfamiliens udvikling, såsom konserverede gener eller afstamningsspecifikke dobbeltarbejde. På dette niveau kan vi også undersøge, om gener er orthologs eller paraloger. Mens mange homologer sandsynligvis fungerer på samme måde som hinanden, er det ikke nødvendigvis tilfældet2. Indarbejde fylogenetiske træer i disse undersøgelser er vigtigt at afgøre, om disse homologe gener er orthologs eller ej. I eukaryoter bevarer mange orthologer lignende funktioner i cellen som det fremgår af pattedyrproteinernes evne til at genoprette funktionen af gær orthologs3. Der er dog tilfælde, hvor et ikke-ortologt gen udfører en karakteriseret funktion4.

Fylogenetiske træer begynder at afgrænse forholdet mellem gener og arter, men funktion kan ikke tildeles udelukkende baseret på genetiske relationer. Genekspressionsundersøgelser kombineret med funktionelle anmærkninger og berigelsesanalyse giver stærk støtte til genfunktion. Tilfælde, hvor genekspression kan kvantificeres og sammenlignes på tværs af enkeltpersoner eller vævstyper, kan være mere sigende for potentiel funktion. Følgende protokol følger metoder, der anvendes til at undersøge opsin gener i Hydra vulgaris7, men de kan anvendes på enhver art og enhver genfamilie. Resultaterne af sådanne undersøgelser danner grundlag for yderligere undersøgelser af genfunktion og gennetværk i organismer uden model. Som et eksempel giver undersøgelsen af opsins fylogeni, som er proteiner, der indleder fototransduktionskaskaden, kontekst til udviklingen af øjne og lysdetektion8,9,10,11. I dette tilfælde kan ikke-model organismer især basale dyrearter som cnidarians eller ctenophores belyse bevarelse eller ændringer i phototransduktion kaskade og vision på tværs af clades12,13,14. På samme måde vil fastsættelsen af fylogeni, udtryk og netværk af andre genfamilier informere os om de molekylære mekanismer, der ligger til grund for tilpasninger.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Denne protokol følger UC Irvine dyrepleje retningslinjer.

1. RNA-seq bibliotek forberedelse

  1. Isoler RNA ved hjælp af følgende metoder.
    1. Indsamle prøver. Hvis RNA skal udvindes på et senere tidspunkt, skal prøven eller anbringes i RNA-opbevaringsopløsning15 (Materialetabel).
    2. Aflive og dissekere organismen til separate væv af interesse.
    3. Ekstrakter det samlede RNA ved hjælp af et ekstraktionssæt, og purer RNA'et ved hjælp af et RNA-rensesæt (Tabel over materialer)
      BEMÆRK: Der er protokoller og kits, der kan fungere bedre for forskellige arter og vævstyper16,17. Vi har udvundet RNA fra forskellige kropsvæv af en sommerfugl18 og en gelatineagtig Hydra19 (se diskussion).
    4. Koncentrationen og kvaliteten af RNA'et for hver prøve (Materialetabel). Brug eksempler med RIN (RNA integrity numbers) højere end 8, ideelt tættere på 920, til at konstruere cDNA-biblioteker.
  2. Opret cDNA bibliotek og sekvens som følger.
    1. Opbyg cDNA-biblioteker i henhold til bibliotekets brugsanvisning (se diskussion).
    2. Determine cDNA koncentration og kvalitet (Tabel over materialer).
    3. Multiplex bibliotekerne og sekvens dem.

2. Få adgang til en computerklynge

BEMÆRK: RNA-seq analyse kræver manipulation af store filer og gøres bedst på en computerklynge (Tabel over materialer).

  1. Log på computerklyngekontoen ved hjælp af kommandos username@clusterlocation på et terminal- (Mac) eller PuTTY-programvindue (Windows).

3. Få RNA-seq læser

  1. Få RNA-seq-læsninger fra rækkefølgefaciliteten eller, for data genereret i en publikation, fra det datalager, hvor det blev deponeret (3.2 eller 3.3).
  2. Hvis du vil hente data fra lagre som ArrayExpress, skal du gøre følgende:
    1. Søg på webstedet ved hjælp af tiltrædelsesnummeret.
    2. Find hyperlinket for at hente dataene, venstreklik og vælg Kopier link.
    3. Skriv wget i terminalvinduet, og vælg Indsæt kæde for at kopiere dataene til mappen til analyse.
  3. Følg disse alternative trin for at downloade SRA-data (Short Read Archive) i NCBI Short Read Archive:
    1. På terminalen download SRA Toolkit v. 2.8.1 ved hjælp af wget.
      BEMÆRK: Hentning og installation af programmer til computerklyngen kan kræve root-adgang.
    2. Afslut installationen af programmet ved at skrive tjære -xvf $TARGZFILE.
    3. Søg NCBI for SRA tiltrædelsesnummer for de prøver, du ønsker at downloade, bør det have formatet SRRXXXXXX.
    4. Hent RNA-seq-dataene ved at skrive [sratoolkit location]/bin/prefetch SRRXXXXXXXX i terminalvinduet.
    5. For parrede filer type [sratoolkit placering]/bin/fastq-dump --split-files SRRXXXXXX at få to fastq filer (SRRXXXXXX_1.FASTQ og SRRXXXXXX_2.FASTQ).
      BEMÆRK: Hvis du vil udføre en Trinity de novo-samling, skal du bruge kommandoen [sratoolkit location]/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRRXXXXXXXX

4. Trim adaptere og læsekvalitet af lav kvalitet (valgfrit)

  1. Installer eller indlæs Trimmomatic21 v. 0.35 på computerklyngen.
  2. I den mappe, hvor RNA-seq-datafilerne er placeret, skal du skrive en kommando, der omfatter placeringen af trimmomatic jar-filen, input FASTQ-filerne, OUTPUT FASTQ-filer og valgfrie parametre som læselængde og kvalitet.
    BEMÆRK: Kommandoen vil variere efter den rå og ønskede kvalitet og længde af læser. For Illumina 43 bp læser med Nextera primere, brugte vi: java-jar / data / apps / trimmomatic/0.35/trimmomatic-0.35.jar PE $READ 1. FASTQ $READ 2. FASTQ paired_READ1. FASTQ unpaired_READ1. FASTQ paired_READ2. FASTQ unpaired_READ2. FASTQ ILLUMINACLIP:adaptere.fa:2:30:10 SKYDNING:20 EFTERFØLGENDE:20 GLIDENDEWINDOW:4:17 MINLEN:30.

5. Hent referencesamling

  1. Søg på google, EnsemblGenomes og NCBI Genomer og Nukleotid TSA (Transcriptome Shotgun Assembly) efter et referencegenom eller samlet transskription for de pågældende arter (Figur 1).
    BEMÆRK: Hvis et referencegenom eller transskribering ikke er tilgængeligt eller af lav kvalitet, skal du gå videre til TRIN 6 for at generere en de novo-samling.
  2. Hvis der findes et referencegenom eller en samlet transskription, skal du hente det som en fasta-fil, hvor analysen udføres efter nedenstående trin.
    1. Find linket for at downloade genomet, venstreklik og Kopier link.
    2. Skriv wget i terminalvinduet, og indsæt linkadressen. Hvis den er tilgængelig, skal du også kopiere GTF-filen og protein FASTA-filen til referencegenomet.

6. Generer en de novo-samling (alternativ til trin 5)

  1. Kombiner RNA-seq READ1 og READ2 fastq filer til alle prøver ved at skrive kat * READ1. FASTQ > $all_READ1. FASTQ og kat * LÆS2. FASTQ > all_READ2. FASTQ på terminalvinduet.
  2. Installer eller indlæs Trinity22 v.2.8.5 på computerklyngen.
  3. Generer og kommander ved at skrive på terminalen: Trinity --seqType fq --max_memory 20G --left $all_READ1. FASTQ - højre $all_READ2. FASTQ.

7. Kort læser til genomet (7,1) eller de novo transcriptome (7,2)

  1. Kortet læser referencegenomet ved hjælp af STAR23 v. 2.6.0c og RSEM24 v. 1.3.0.
    1. Installer eller indlæs STAR v. 2.6.0c. og RSEM v. 1.3.0 til computerklyngen.
    2. Indekser genomet ved at skrive rsem-prepare-reference --gtf $GENOME. GTF - stjerne -p 16 $GENOME. FASTA $OUTPUT.
    3. Tilknyt læser og beregner udtryk for hvert eksempel ved at skrive rsem-calculate-expression -p 16 --star --paired-end $READ 1. FASTQ $READ 2. FASTQ $INDEX $OUTPUT.
    4. Omdøb resultatfilen til noget beskrivende ved hjælp af mv RSEM.genes.results $sample.genes.results.
    5. Generer en matrix over alle optællinger ved at skrive rsem-generate-data-matrix *[genes/isoforms.results] > $OUTPUT.
  2. Kort RNA-seq til Trinity de novo samling ved hjælp af RSEM og bowtie.
    1. Installer eller indlæs Trinity22 v.2.8.5, Bowtie25 v. 1.0.0 og RSEM v. 1.3.0.
    2. Tilknyt læser og beregner udtryk for hvert eksempel ved at skrive [trinity_location]/align_and_estimate_abundance.pl --prep-reference --transskriptioner $TRINITY. FASTA --seqType fq --venstre $READ 1. FASTQ - højre $READ 2. FASTQ - est_method RSEM - aln_method bowtie - trinity_mode - output_dir $OUTPUT.
    3. Omdøb resultatfilen til noget beskrivende ved hjælp af mv RSEM.genes.results $sample.genes.results.
    4. Generér en matrix over alle optællinger ved at skrive [trinity_location]/abundance_estimates_to_matrix.pl --est_method RSEM *[gener/isoformer].results

8. Identificer gener af interesse

BEMÆRK: Følgende trin kan udføres med nukleotid- eller protein FASTA-filer, men fungerer bedst og er mere ligetil med proteinsekvenser. BLAST søger ved hjælp af protein til protein er mere tilbøjelige til at give resultater, når de søger mellem forskellige arter.

  1. For et referencegenom skal du bruge proteinet FASTA-fil fra TRIN 5.2.2 eller se Supplerende Materialer for at generere en brugerdefineret genfunktion GTF.
  2. For en de novo transskription, generere et protein FASTA ved hjælp af TransDecoder.
    1. Installer eller indlæs TransDecoder v. 5.5.0 på computer cluser.
    2. Find den længste åbne læseramme og forudsagte peptidsekvens ved at skrive [Transdecoder location]/TransDecoder.LongOrfs -t $TRINITY. Fasta.
  3. Søg NCBI Genbank for homologer i nært beslægtede arter.
    1. Åbn et internetbrowservindue, og gå til https://www.ncbi.nlm.nih.gov/genbank/.
    2. På søgefeltet skal du skrive navnet på det pågældende gen og navnet på nært beslægtede arter, der er blevet sekventeret eller slægten eller phylum. Til venstre for søgefeltet skal du vælge protein og derefter klikke på søg.
    3. Udtræk sekvenser ved at klikke på Send til, og vælg derefter Filer. Vælg FASTA under Formatér, og klik derefter på Opret fil.
    4. Flyt FASTA-filen med homologer til computerklyngen ved at skrive scp $FASTA username@clusterlocation:/$DIR i et lokalt terminalvindue, eller brug FileZilla til at overføre filer til og fra computer og klynge.
  4. Søg efter kandidatgener ved hjælp af BLAST+26.
    1. Installer eller indlæs BLAST+ v. 2.8.1 på computerklyngen.
    2. På computerklyngen skal du oprette en BLAST-database fra genomet eller transskriptionsoversat protein FASTA ved at skrive [BLAST+ placering]/makeblastdb -in $PEP. FASTA -dbtype prot -out $OUTPUT
    3. BLAST de homologe gensekvenser fra NCBI til databasen over de arter af interesse ved at skrive [BLAST + placering]/blastp -db $DATABASE-forespørgsel $FASTA -evalue 1e-10 -outfmt 6 -max_target_seqs 1 -out $OUTPUT.
    4. Få vist outputfilen ved hjælp af kommandoen mere. Kopier entydige gen-id'er fra de arter, der er af interesse, til en ny tekstfil.
    5. Uddrag sekvenserne af kandidatgener ved at skrive perl -ne 'if(/^>(\S+)/){$c=$i{$1}}$c?print:chomp;$i{$_}=1, hvis @ARGV' $gene_id.txt $PEP. FASTA > $OUTPUT.
  5. Bekræft genanmærkning ved hjælp af gensidig BLAST.
    1. På internettet browser gå til https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    2. Vælg tblastn, indsæt derefter kandidatsekvenserne, vælg databasen med ikke-redundante proteinsekvenser , og klik på BLAST.
  6. Identificer yderligere gener ved at kommentere alle gener i genomet eller transskription med go-termer (gene ontology) (se diskussion).
    1. Overfør proteinet FASTA til den lokale computer.
    2. Hent og installer Blast2GO27,28,29 v. 5.2, på den lokale computer.
    3. Åbn Blast2GO, klik på Filer, gå til Indlæs, gå til Indlæs sekvenser, klik på Indlæs Fasta-fil (fasta). Marker FASTA-filen, og klik på Indlæs.
    4. Klik på Blast , vælg NCBI Blast, og klik på Næste. Rediger parametre, eller klik på Næste, rediger parametre, og klik på Kør for at finde den mest lignende genbeskrivelse.
    5. Klik på tilknytning, og klik derefter på Kør for at søge i Gene Ontology-anmærkninger efter lignende proteiner.
    6. Klik derefter på interpro, vælg EMBL-EBI InterPro, og klik på Næste. Rediger parametre , eller klik på Næste, og klik på Kør for at søge efter signaturer for kendte genfamilier og domæner.
    7. Eksporter anmærkningerne ved at klikke på Filer, vælg Eksporter, klik på Eksporter tabel. Klik på Gennemse, navngiv filen, klik på Gem, klik på Eksporter.
    8. Søg i anmærkningstabellen efter GO-interessevilkår for at identificere yderligere kandidatgener. Uddrag sekvenserne fra FASTA-filen (TRIN 8.4.5)

9. Fylogenetiske træer

  1. Hent og installer MEGA30 v. 7.0.26 på den lokale computer.
  2. Åbn MEGA , klik på Juster, klik på Rediger/opret justering, vælg Opret en ny justering klik på OK, vælg Protein.
  3. Når justeringsvinduet åbnes, skal du klikke på Rediger, klikke på Indsæt sekvenser fra filen og vælge FASTA med proteinsekvenser af kandidatgener og sandsynlige homologer.
  4. Vælg alle sekvenser. Find armsymbolet og hold markøren over det. Det skal sige Juster sekvenser ved hjælp af MUSCLE31 algoritme. Klik på armsymbolet, og klik derefter på Juster protein for at justere sekvenserne. Rediger parametre, eller klik på OK for at justere ved hjælp af standardparametre.
  5. Undersøg og foretag eventuelle manuelle ændringer, og gem og luk derefter justeringsvinduet.
  6. I hovedvinduet MEGA skal du klikke på Modeller, klikke på Find de bedste DNA/proteinmodeller (ML), vælge justeringsfilen og vælge tilsvarende parametre som: Analyse: Modelvalg (ML), Træ, der skal bruges: Automatisk (nabo-sammenføjningstræ), Statistisk metode: Maksimal sandsynlighed, Substitutionstype: Aminosyre, Gap / manglende databehandling: Brug alle websteder, Branch site filter: Ingen.
  7. Når den bedste model for dataene er bestemt, skal du gå til hovedvinduet MEGA. Klik på Fylogeni, klik på Contruct/Test Maximum Likelihood Tree, og vælg derefter justeringen, hvis det er nødvendigt. Vælg de relevante parametre for træet: Statistisk metode: Maksimal sandsynlighed, Test af fylogeni: Bootstrap-metode med 100 replikater, substitutionstype: aminosyre, model: LG med Freqs. (+F), satser blandt steder: gamma fordelt (G) med 5 diskrete gammakategorier, gap/missing data treatment: brug alle steder, ML heuristisk metode: Nearest-Neighbor-Interchange (NNI).

10. Visualiser genekspression ved hjælp af TPM

  1. For Trinity skal du på computerklyngen gå til den mappe, hvor abundance_estimates_to_matrix.pl blev kørt, og en af outputtet skal være matrix. TPM.not_cross_norm. Overfør denne fil til den lokale computer.
    BEMÆRK: Se Supplerende materialer til krydsprøvenormalisering.
  2. For TPM'er fra en genomanalyse skal du følge nedenstående trin.
    1. Gå til RSEM-installationsplaceringen i computerklyngen. Kopier rsem-generate-data-matrix ved at skrive scp rsem-generate-data-matrix rsem-generate-TPM-matrix. Brug nano til at redigere den nye fil og ændre "min $offsite = 4" fra 4 til 5 for TPM, bør det nu læse "min $offsite = 5".
  3. Gå til den mappe, hvor RSEM-outputfilerne .genes.results er, og brug nu rsem-generate-TPM-matrix *[gener/isoforms.results] > $OUTPUT til at generere en TPM-matrix. Overføre resultater til en lokal computer.
  4. Visualiser resultaterne i ggplot2.
    1. Hent R mod 4.0.0 og RStudio v. 1.2.1335 til en lokal computer.
    2. Åbn RStudio til højre på skærmen gå til fanen Pakker , og klik på Installer. Skriv ggplot2, og klik på installer.
    3. I R-scriptvinduet læses i TPM-tabellen ved at skrive data<-read.table("$tpm.txt",header = T)
    4. For søjlediagrammer, der ligner figur 4, skal du skrive noget<- ggplot() + geom_bar(aes(y=TPM, x=Symbol, fill=Tissue), data=data, stat="identity")
      fill<-c("#d7191c","#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
      p<-p+scale_fill_manual(værdier=fyld)
      p + tema(axis.text.x = element_text(vinkel = 90))

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Ovennævnte metoder er sammenfattet i figur 1 og blev anvendt på et datasæt af Hydra vulgaris-væv. H. vulgaris er et ferskvands hvirvelløse dyr, der tilhører phylum Cnidaria, som også omfatter koraller, vandmænd og havanemoner. H. vulgaris kan reproducere a seksuelt ved spirende, og de kan regenerere deres hoved og fod, når gennemskåret. I denne undersøgelse sigtede vi mod at undersøge udviklingen og ekspressionen af opsingener i Hydra7. Mens Hydra mangler øjne, udviser de lysafhængig adfærd32. Opsin gener indkode proteiner, der er vigtige i synet for at opdage forskellige bølgelængder af lys og begynde phototransduction kaskade. Undersøgelse af den molekylære udvikling og udtryk for denne genfamilie i en basal art kan give indsigt i udviklingen af øjne og lysdetektion hos dyr.

Vi genererede en guidet samling ved hjælp af Hydra 2.033-referencegenomet og offentligt tilgængelige RNA-seq-data (GEO-tiltrædelse GSE127279) Figur 1. Dette skridt tog cirka 3 dage. Selvom vi ikke genererede en de novo-transskription i dette tilfælde, kan en Trinity-samling tage op til 1 uge at generere, og hvert bibliotek kan tage et par timer til læsekortlægning afhængigt af mapperen. Den fusionerede Hydra-samling (~50.000 udskrifter) blev kommenteret ved hjælp af Blast2GO, som tog ca. 1 uge Figur 1. Sekvenser for opsin-relaterede gener blev udvundet i en fasta fil. Sekvenser for opsin gener fra andre arter blev også udvundet fra NCBI GenBank. Vi brugte opsins fra cnidarians Podocoryna carnea, Cladonema radiatum, Tripedelia cystophoraog Nematostella vectensis, og vi inkluderede også outgroups Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster og Homo sapiens. Opsin gener blev justeret i MEGA7 Figur 2. Ved at se justeringen var vi i stand til at identificere Hydra opsiner, der manglede en bevaret lysin aminosyre, der var nødvendig for at binde et lysfølsomt molekyle. Efter visuel inspektion, fastslog vi den bedste model ved at gøre en model udvælgelse analyse. Vi genererede et maksimalt sandsynlighedstræ ved hjælp af modellen LG + G + F med bootstrap-værdi på 100 Figur 3. For 149 opsin gener, træet var færdig i cirka 3 dage. Fylogeni tyder opsin gener udvikler sig ved afstamning-specifikke duplikationer i cnidarians og potentielt ved tandem dobbeltarbejde i H. vulgaris7.

Vi udførte en differentialudtryksanalyse i edgeR og så på absolut udtryk for opsingener. Vi hypotese, at en eller flere opsiner ville blive upregulated i hovedet (hypostome) og udført par-kloge sammenligninger af hypostome versus kroppen kolonne, spirende zone, fod og tentakler. Som et eksempel på en parvis sammenligning blev 1.774 udskrifter forskelligt udtrykt mellem hypostome og kropskolonne. Vi bestemte de gener, der blev reguleret på tværs af flere sammenligninger og gjorde en funktionel berigelse i Blast2GO Tabel 1. Gruppering af G-protein koblet receptor aktivitet omfattede opsin gener. Endelig så vi på det absolutte udtryk for opsin gener i forskellige væv, under spirende og under regenerering ved at plotte deres TPM værdier ved hjælp af ggplot Figur 4. Ved hjælp af de metoder, der er skitseret her, identificerede vi 2 opsingener, der ikke grupperede med de andre opsiner i fylogeni, fandt en opsin, der blev udtrykt næsten 200 gange mere end andre, og vi fandt et par opsingener, der var udtrykt sammen med fototransduktionsgener, der kan bruges til lysdetektion.

Figure 1
Figur 1: Skematisk arbejdsproces. Programmer, der bruges til at analysere data på computerklyngen, er i blåt, i magenta er dem, vi brugte på en lokal computer og i orange er et webbaseret program. (1) Trim RNA-seq læser ved hjælp af trimmomatic v. 0,35. Hvis der findes et genom, men der mangler genmodeller, skal du generere en styret samling ved hjælp af STAR v. 2.6.0c og StringTie v. 1.3.4d. (Valgfrit se Supplerende materialer) (2) Uden referencegenom skal der anvendes trimmede aflæsninger til fremstilling af en de novo-samling ved hjælp af Trinity v 2.8.5. (3) For at kvantificere genekspressionen ved hjælp af et referencegenom læser kortet ved hjælp af STAR og kvantificerer ved hjælp af RSEM v. 1.3.1. Udtræk TPM'er ved hjælp af RSEM, og visualiser dem i RStudio. (4) Bowtie og RSEM kan bruges til at kortlægge og kvantificere læser kortlagt til en treenighed transcriptome. Et Trinity-script kan bruges til at generere en TPM-matrix til at visualisere antal i RStudio. (5) Brug webbaseret NCBI BLAST og kommandolinjen BLAST+ til at søge efter homologe sekvenser og bekræfte ved hjælp af gensidig BLAST. Anmærke gener yderligere ved hjælp af Blast2GO. Brug MEGA til at justere gener og generere et fylogenetisk træ ved hjælp af den bedst egnede model. Klik her for at se en større version af dette tal.

Figure 2
Figur 2: Eksempel på justerede gener. Snapshot viser en del af Hydra opsin gener justeret ved hjælp af MUSCLE. Pilen angiver placeringen af en nethindebinding bevaret lysin. Klik her for at se en større version af dette tal.

Figure 3
Figur 3: Cnidarian opsin fylogenetisk træ. Maksimalt sandsynlighed træ genereret i MEGA7 ved hjælp af opsin sekvenser fra Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster og Homo sapiens. Klik her for at se en større version af dette tal.

Figure 4
Figur 4: Ekspression af Opsin-gener i Hydra vulgaris(A) Udtryk i udskrifter per million (TPM) af Hydra vulgaris opsin gener i kroppen kolonne, spirende zone, fod, hypostome og tentakler. (B) Ekspression af opsingener i forskellige stadier af Hydra spirende. (C) Udtryk for opsin gener af Hydra hypostome i forskellige tidspunkter for regenerering. Klik her for at se en større version af dette tal.

GO-ID GO-navn GO-kategori Fdr
GO:0004930 G-protein koblet receptoraktivitet MOLEKYLÆR FUNKTION 0.0000000000704
GO:0007186 G-protein koblet receptor signalering vej BIOLOGISK PROCES 0.00000000103
GO:0016055 Wnt signalvej BIOLOGISK PROCES 0.0000358
GO:0051260 proteinhomoligomerisering BIOLOGISK PROCES 0.000376
GO:0004222 metalloendopeptidase aktivitet MOLEKYLÆR FUNKTION 0.000467
Go:0008076 spænding-gated kalium kanal kompleks CELLEKOMPONENT 0.000642
GO:0005249 aktivitet for spændingsbegrænset kaliumkanal MOLEKYLÆR FUNKTION 0.00213495
GO:0007275 udvikling af multicellulære organismer BIOLOGISK PROCES 0.00565048
GO:0006813 kalium ion transport BIOLOGISK PROCES 0.01228182
GO:0018108 peptidyl-tyrosinphorylering BIOLOGISK PROCES 0.02679662

Tabel 1: Funktionel berigelse af gener, der er reguleret i hypostomen

Supplerende materialer. Klik her for at downloade disse materialer.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Formålet med denne protokol er at give en oversigt over trinene til at karakterisere en genfamilie ved hjælp af RNA-seq-data. Disse metoder har vist sig at virke for en række arter og datasæt4,34,35. Den rørledning, der er etableret her, er blevet forenklet og bør være let nok til at blive efterfulgt af en nybegynder inden for bioinformatik. Betydningen af protokollen er, at den skitserer alle trin og nødvendige programmer til at fuldføre en publicerbar analyse. Et afgørende skridt i protokollen er at have korrekt samlet fuld længde udskrifter, dette kommer fra høj kvalitet genomer eller transcriptomes. For at opnå ordentlig udskrifter, man har brug for høj kvalitet RNA og / eller DNA og gode anmærkninger diskuteret nedenfor.

Til RNA-seq biblioteksforberedelse inkluderer vi listesæt, der fungerede for små kropsdele af Hydra19 og sommerfugle18 (Tabel over materialer). Vi bemærker, at vi ved lav input RNA brugte en ændret protokoltilgang36. Metoder til RNA-ekstraktion er blevet sammenlignet i flere prøvetyper, herunder gærceller17, neuroblastoma37, planter38og insektlarver16 for at nævne nogle få. Vi anbefaler, at læseren får en protokol, der fungerer for deres eventuelle interessearter, eller fejlfinding ved hjælp af almindeligt kommercielt tilgængelige sæt til at starte. For korrekt genkvantificering anbefaler vi at behandle RNA-prøven med DNase. Tilstedeværelsen af DNA vil påvirke korrekt genkvantificering. Vi anbefaler også at bruge et cDNA-biblioteksforberedelsessæt, der indeholder et polyA-halevalg for at vælge til moden mRNA. Mens rRNA udtømning resulterer i mere læse dybde, den procentdel af exon dækning er meget lavere end exon dækning af RNA ved hjælp af polyA + udvælgelse39. Endelig, når det er muligt er det bedst at bruge parret ende og strandede40,41. I protokollen over læsetilknytningskommandoerne skal ændres, når der bruges single end-læsninger.

Som nævnt ovenfor er det vigtigt at kunne identificere gener af interesse og også at skelne mellem nylige genduplikationer, alternativ splejsning og haplotyper i sekventering. I nogle tilfælde kan det at have et referencegenom hjælpe ved at bestemme, hvor gener og exoner er placeret i forhold til hinanden. En ting at bemærke er, at hvis en transskription er opnået fra en offentlig database og ikke er af høj kvalitet, kan det være bedst at generere ved hjælp af Trinity42 og kombinere RNA-seq biblioteker fra væv af interesse. Ligeledes, hvis en reference genom ikke har gode genmodeller, RNA-seq biblioteker kan bruges til at generere nye GTF'er ved hjælp af StringTie43 (se Supplerende Materialer). Derudover kan gener i tilfælde, hvor gener er ufuldstændige, og der er adgang til et genom, redigeres manuelt ved hjælp af homologsekvenser og derefter tilpasses genomet ved hjælp af tblastn. BLAST-outputtet kan bruges til at bestemme den faktiske sekvens, som kan være forskellig fra den korrektion, der udføres ved hjælp af homologer. Hvis der ikke er nogen match, skal du lade sekvensen være, som den oprindeligt var. Ved kontrol af output skal du være opmærksom på genomkoordinaterne for at sikre, at den manglende exon faktisk er en del af genet.

Selvom vi fokuserer på software og programmer, som vi brugte, findes der ændringer af denne protokol på grund af mange tilgængelige programmer, som kan fungere bedre for forskellige datasæt. Som et eksempel viser vi kommandoer til kortlægning af læsninger til transskriptionen ved hjælp af bowtie og RSEM, men Trinity har nu mulighed for meget hurtigere aligners som kallisto44 og laks45. På samme måde beskriver vi anmærkninger ved hjælp af Blast2GO (nu OmicsBox), men der er andre mapper-værktøjer, der kan findes gratis og online. Nogle, som vi har prøvet omfatter: GO FEAT46, eggNOG-mapper47,48, og en meget hurtig aligner PANNZER249. For at bruge disse web-baserede anmærkning værktøjer blot uploade peptid FASTA og indsende. Enkeltstående versioner af PANNZER og eggNOG-mapper kan også downloades til computerklyngen. En anden ændring er, at vi brugte MEGA og R på en lokal computer og brugte online NCBI BLAST værktøj til at gøre gensidig BLASTs dog alle disse programmer kan bruges på computeren klynge ved at downloade de nødvendige programmer og databaser. Ligeledes kan aligners kallisto og laks bruges på en lokal computer, så længe en bruger har nok RAM og opbevaring. FASTQ- og FASTA-filer har dog en tendens til at være meget store, og vi anbefaler stærkt at bruge en computerklynge for nemheds skyld. Derudover, mens vi giver instruktioner og links til at downloade programmer fra deres udviklere, kan mange af dem installeres fra bioconda: https://anaconda.org/bioconda.

Et fælles problem, når du laver bioinformatiske analyser, er, at shellscripts svigter. Dette kan skyldes en række forskellige årsager. Hvis der oprettes en fejlfil, skal denne fejlfil kontrolleres, før der foretages fejlfinding. Et par almindelige årsager til en fejl er slåfejl, manglende nøgleparametre og kompatibilitetsproblemer mellem softwareversioner. I denne protokol inkluderer vi parametre for dataene, men softwaremanualer kan give mere detaljerede retningslinjer for individuelle parametre. Generelt er det bedst at bruge de mest opdaterede versioner af software og se den vejledning, der svarer til den pågældende version.

Forbedringer af denne protokol omfatter at udføre en transskriberingsanalyse med forskellige udtryk og funktionel berigelsesanalyse. Vi anbefaler edgeR50 til differentialudtryksanalyse en pakke, der er tilgængelig i Bioconductor. Til funktionel berigelsesanalyse har vi brugt Blast2GO29 og webbaseret DAVID51,52. Vi anbefaler også yderligere redigering af fylogeni ved at udtrække det som en newick fil og ved hjælp af web-baseret iTOL53. Desuden, mens denne protokol vil undersøge den molekylære udvikling og udtryksmønstre af gener, yderligere eksperimenter kan bruges til at validere gen eller protein steder og funktioner. mRNA-udtryk kan bekræftes af RT-qPCR eller in situ-hybridisering. Proteiner kan lokaliseres ved hjælp af immunohistochemistry. Afhængigt af arten kan knockout-eksperimenter bruges til at bekræfte genfunktionen. Denne protokol kan bruges til en række forskellige mål, herunder, som vist ovenfor, at udforske en genfamilie, der typisk er forbundet med fotoreception i en basal art7. En anden anvendelse af disse metoder er at identificere ændringer i en bevaret vej under forskellige selektive pres. Som et eksempel blev disse metoder brugt til at opdage variation i udtrykket af synstransientreceptorpotentialekanaler mellem døgnsommerfugle og natlige møller34.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Vi takker Adriana Briscoe, Gil Smith, Rabi Murad og Aline G. Rangel for råd og vejledning i at indarbejde nogle af disse trin i vores arbejdsgang. Vi er også taknemmelige for Katherine Williams, Elisabeth Rebboah og Natasha Picciani for kommentarer til manuskriptet. Dette arbejde blev delvist støttet af en George E. Hewitt Foundation for Medical forskningsstipendium til A.M.M.

Materials

Name Company Catalog Number Comments
Bioanalyzer-DNA kit Agilent 5067-4626 wet lab materials
Bioanalyzer-RNA kit Agilent 5067-1513 wet lab materials
BLAST+ v. 2.8.1 On computer cluster*
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC) On local computer
https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0 On computer cluster
Bowtie v. 1.0.0 On computer cluster
https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended) NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1 On computer cluster
edgeR v. 3.26.8 (in R) In Rstudio
https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0 On computer cluster
Java v. 11.0.2 On computer cluster
MEGA7 (on your PC) On local computer
https://www.megasoftware.net
MEGAX v. 0.1 On local computer
https://www.megasoftware.net
NucleoSpin RNA II kit Macherey-Nagel 740955.5 wet lab materials
perl 5.30.3 On computer cluster
python On computer cluster
Qubit 2.0 Fluorometer ThermoFisher Q32866 wet lab materials
R v.4.0.0 On computer cluster
https://cran.r-project.org/src/base/R-4/
RNAlater ThermoFisher AM7021 wet lab materials
RNeasy kit Qiagen 74104 wet lab materials
RSEM v. 1.3.0 Computer software
https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335 On local computer
https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3 Computer software
SRA Toolkit v. 2.8.1 On computer cluster
https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c On computer cluster
https://github.com/alexdobin/STAR
StringTie v. 1.3.4d On computer cluster
https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0 On computer cluster
https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35 On computer cluster
http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5 On computer cluster
https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol ThermoFisher 15596018 wet lab materials
TruSeq RNA Library Prep Kit v2 Illumina RS-122-2001 wet lab materials
TURBO DNA-free Kit ThermoFisher AM1907 wet lab materials
*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

DOWNLOAD MATERIALS LIST

References

  1. Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
  2. Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
  3. Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
  4. Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
  5. Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
  6. Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
  7. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
  8. Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
  9. Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
  10. Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
  11. Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
  12. Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
  13. Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
  14. Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
  15. Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
  16. Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
  17. Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
  18. Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
  19. Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
  20. Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Trinity. RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
  23. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
  26. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  27. Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
  28. Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  29. Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
  30. Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
  31. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
  32. Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
  33. Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
  34. Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
  35. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
  36. Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
  37. Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
  38. Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
  39. Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
  40. Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
  41. Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
  42. Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
  43. Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
  44. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
  45. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
  46. Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
  47. Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
  48. Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
  49. Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
  50. Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
  51. Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  52. Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  53. Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Tags

Biologi bioinformatik genudvidelser BLAST transskription genom MEGA
En bioinformatikrørledning til undersøgelse af molekylær udvikling og genekspression ved hjælp af RNA-seq
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Macias-Muñoz, A., Mortazavi, A. More

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter