Biology

Omfattende arbeidsflyten for genomet-identifikasjon og uttrykk Meta-analyse av ATL E3 Ubiquitin Ligase Gene familien i Grapevine

Published: December 22, 2017 doi: 10.3791/56626

Pietro Ariani*¹, Elodie Vandelle*¹, Darren Wong², Alejandro Giorgetti¹, Andrea Porceddu³, Salvatore Camiolo³, Annalisa Polverari¹

¹Dipartimento di Biotecnologie, Università degli Studi di Verona, ²Ecology and Evolution, Research School of Biology, The Australian National University, ³Dipartimento di Agraria, SACEG, Università degli Studi di Sassari

* These authors contributed equally

Summary

Denne artikkelen beskriver fremgangsmåten for identifikasjon og karakterisering av en genet familie i grapevine brukt av Arabidopsis Tóxicos i Levadura (ATL) E3 ubiquitin ligases.

Abstract

Klassifisering og nomenklatur av gener i en kan betydelig grad bidra til beskrivelsen av mangfoldet av kodet proteiner og prediksjon av familien funksjoner basert på flere funksjoner, slik som tilstedeværelsen av sekvens motiver eller spesielt områder for post-translasjonell modifikasjon og profilen for expression av familiemedlemmer i ulike forhold. Dette verket beskriver en detaljert protokoll for genet familie karakterisering. Her brukes fremgangsmåten karakterisering av Arabidopsis Tóxicos i Levadura (ATL) E3 ubiquitin ligase familien i grapevine. Metodene omfatter den genomet-identifikasjonen av familiemedlemmer, karakterisering av genet lokalisering, strukturen og duplisering, analyse av bevarte protein motiver, prediksjon av protein lokalisering og fosforylering områder som Gene expression profilering over familien i forskjellige datasets. Slike prosedyre, som kan utvides til videre analyser avhengig av eksperimentelle formål, kan brukes til alle genet familie i noen plantearter som genomic data er tilgjengelig, og det gir verdifull informasjon for å identifisere interessante kandidater for funksjonelle studier, gir innsikt i molekylære mekanismer av anlegget tilpasning til miljøet.

Introduction

I løpet av det siste tiåret, har mye forskning utført i grapevine genomics. Grapevine er en anerkjent økonomisk relevante avling, som har blitt en modell for forskning på frukt utvikling og svar av woody planter biotiske og abiotiske påkjenninger. I denne sammenheng førte utgivelsen av Vitis vinifera cv. PN40024 genomet i 2007¹ og oppdatert versjon i 2011² en rask akkumulering av "Omics"-skalaen data og et utbrudd av høy gjennomstrømming studier. Basert på publiserte sekvens, av en gitt genet familie (vanligvis består av proteiner deling bevarte motiver, strukturelle og/eller funksjonelle likheter og evolusjonære relasjonene), kan nå utføres for å avdekke sin molekylær funksjoner, utviklingen og gene uttrykket profiler. Disse analysene kan bidra til å forstå hvordan genet familier kontrollere fysiologiske prosesser på en genomet globalt.

Mange aspekter av livssyklusen til anlegg er regulert av ubiquitin-mediert nedbrytning av viktige proteiner, som krever en finjustert omsetning å sikre vanlige cellulære prosesser. Viktige komponenter av ubiquitin-mediert fornedrelse er E3 ubiquitin ligases, som er ansvarlig for systemet fleksibilitet, takket være rekruttering av konkrete mål³. Følgelig representerer disse enzymene en stor genet familie, med rundt 1400 E3 ligase-koding gener spådde i Arabidopsis thaliana genomet⁴, hver E3 ubiquitin ligase fungerer for ubiquitination av bestemt mål proteiner. Til tross for betydningen av underlaget-spesifikke ubiquitination i mobilnettet regulering i planter, lite er kjent om hvordan ubiquitination veien er regulert og målet proteiner er blitt identifisert bare i noen tilfeller. Å tyde av slike spesifisitet og regulering mekanismer avhengig først identifikasjon og karakterisering av de ulike komponentene i systemet, spesielt E3-ligases. Blant ubiquitin ligases, er ATL og preget av 91 medlemmer i A. thaliana viser en RING-H2 finger domene⁵^,⁶, noen av dem spiller en rolle i forsvar og hormon svar⁷.

Første avgjørende skritt for å definere medlemmene av en ny gen-familie er de nyeste trendene i familien funksjoner, for eksempel konsensus motiver, viktige domener og protein sekvens egenskaper. Faktisk krever pålitelig henting av alle genet familiemedlemmer basert på BLAST analyse noen obligatorisk sekvens egenskaper, i spesielle proteinet domener ansvarlig for protein funksjon/aktivitet, som protein signatur. Dette kan være tilrettelagt av tidligere karakteristikk av samme genet familie i andre plantearter eller oppnådd ved å analysere ulike gener åpenbart tilhører samme familie i forskjellige plantearter, isolere vanlige rekkefølger. Familiemedlemmer kan deretter individuelt navngis etter felles regler avgjort av internasjonale konsortier for en gitt plantearter. I grapevine, for eksempel er slik prosedyre utsatt for anbefalingene fra super nomenklatur komiteen for drue Gene merknad (sNCGGa), etablering av et stamtre inkludert V. vinifera og A. thaliana gene familiemedlemmer tillate genet merknad basert på nukleotid sekvenser⁸.

Kromosom lokalisering av familiemedlemmer og gene duplisering undersøkelse kan merke tilstedeværelsen av hele-genome eller tandem duplisert gener. Slik informasjon vises nyttig å rakne antatte genet funksjoner, siden det kan vise funksjonelle redundans eller vise ulike situasjoner, dvs., ikke-functionalization, neo-functionalization eller sub functionalization⁹. Begge neo - og sub - functionalization er viktige hendelser som oppretter genetisk nyhet, gir nye cellulære komponenter for plante tilpasning til skiftende omgivelser¹⁰. Særlig duplikasjoner av forfedrenes gener og produksjon av nye gener var svært hyppig under utviklingen av grapevine genomet og nydannede gener fra proksimale og tandem duplikasjoner i grapevine var mer sannsynlig å produsere nye funksjoner¹¹.

En annen viktig faktor i å avkode gen familie funksjon er transcriptomic profilen. Tilgjengeligheten av offentlige databaser gir tilgang til en enorm mengde transcriptomic data kan dermed utnyttes for å tilordne antatte funksjoner til genet familiemedlemmer bruke store i sili uttrykk analyser. Faktisk, særegne uttrykk for noen gener i bestemte anlegget organer eller som svar på bestemte stress kan gi noen hint om mulige rollene tilsvarende proteiner i definerte forhold, og gi støtte til hypoteser om mulig sub functionalization av dupliserte gener svare på ulike utfordringer. For dette formålet, er det viktig å vurdere flere datasett: disse kan allerede tilgjengelig gene expression matriser, som genomet hele transcriptomic atlas av grapevine organer og utviklingsstadier¹², eller kan bygges adhoc av henter transcriptomic datasett for bestemt plantearter utsatt for definerte påkjenninger. Videre, en enkel tilnærming ved hjelp av to matriser, en parvis likheten data og den andre med parvis co uttrykk koeffisienter kan brukes for å vurdere relasjonene mellom sekvens likhet og uttrykk mønstre innen en genet.

Formålet med dette arbeidet er å gi en global tilnærming, definere genet struktur, konservert protein motiver, chromosomal plassering, gene duplikasjoner og uttrykk mønstre, som vel prediksjon av protein lokalisering og fosforylering nettsteder, oppnå en uttømmende karakterisering av en genet familie i planter. En slik omfattende tilnærming brukes her karakterisering av ATL E3 ubiquitin ligase familien i grapevine. Ifølge den nye rollen til ATL gruppe medlemmer i å regulere cellular nøkkelprosesser⁷, dette arbeidet kan også hjelpe identifisering av sterke kandidater for funksjonell studier, og til slutt greie de molekylære mekanismene som styrer den tilpasning av denne viktige beskjære omgivelsene.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identifikasjon av antatte ATL Gene familie medlemmer

PSI-BLAST web-versjonen
1. Åpne BLAST webside¹³ og klikk på protein BLAST delen.
2. I feltet "Enter spørringen sequence" Angi aminosyresekvens av protein (her VIT_05s0077g01970) som skal brukes som sonden for å identifisere andre familiemedlemmer.
  Merk: En god representant protein skal brukes (en protein viser alle de viktigste funksjonene som kjennetegner familien).
3. I feltet "Velg Søk sett" Velg "Referanse protein" databasen (refseq_protein) og organismen rundt (V. vinifera - taxid:29760).
4. I feltet "programmet valg", Velg PSI-BLAST algoritme og klikk BLAST for å kjøre analyser.
  Merk: Ved å klikke på "algoritmen parametere" er det mulig å justere noen avanserte parametere (Max målet sekvenser, Scoring matrix, PSI-BLAST terskel, etc.).
5. Den første EKSPLOSJONEN runde henter alle sekvensene vise relevante samsvarer med spørringen (e-verdi over valgte terskelen - standard 0.005; 0,001 i dette eksperimentet). Fjern merking av alle poster, som åpenbart ikke tilhører familien under eksamen ved å klikke på haken i kolonnen "Velg for PSI-BLAST" og kjøre den andre PSI-BLAST iterasjonen ved å klikke BLAST som i trinn 1.1.4.
6. Nylig identifisert sekvenser utheves i gult. Uegennyttig tydelig feil Hentet treff og avdekke flere gjentakelser som beskrevet i trinn 1.1.5.
7. Fortsette med gjentakelser til algoritmen ikke finner noen aktuelle oppføringen eller den når konvergens (ingen nye oppføringer er funnet). Last ned listen over mulige genet familiemedlemmer for videre analyser. Visuelt inspisere Hentet treff i hver syklus å unngå tilstedeværelsen av falske positiver.
PSI-BLAST frittstående versjon
1. Last ned den frittstående versjonen av BLAST ved å klikke på "Last ned BLAST" på BLAST hjemmesiden¹³.
  Merk: Frittstående BLAST programvaren er en kommandere line versjon av webgrensesnittet beskrevet før. Muliggjør kjøring av PSI-BLAST søket mot en tilpasset lokal eller ekstern database. Dessuten muliggjør det søker med en pre-definerte plasseringen bestemt Score Matrix (PSSM).

2. manuell inspeksjon av familiemedlemmene PSI-BLAST-identifiserte

Flere justering
1. Samle amino surt sekvensene tidligere identifisert i en FASTA-formatert fil og laste den inn MEGA programvare¹⁴ for å fortsette med flere justeringen.
2. Åpne MEGA programvare, klikke "Juster", klikk "Rediger/bygge justering", klikk "Lag en ny justering", klikk "Protein".
3. Klikk "Rediger" fra menyen og "Sett inn sekvens fra fil". Bla gjennom filen FASTA opprettet før og bekrefte opplasting av alle undersøkte sekvenser.
4. Klikk "Justering" fra menyen og "Justere av muskler". Bruk standardparametere, klikk "Beregne", og vente på fullføringen av flere justeringen.
5. Visuelt inspisere flere justeringen for å utelukke feil spådd familiemedlemmer. Det kanoniske CxxC (13 x) PxCxHxxHxxCxxxW (7 x) CxxCW motivet, (spesielt tilstedeværelsen av proline rester før den tredje cystein), er de viktigste funksjonen kreves for å definere ATL familiemedlemmer.
Analyse av bestemt LOGO
1. Send the definitive liste over familiemedlemmer (96 grapevine sekvenser oppfylle kravene å bli vurdert ATL) på flere EM motiv Elicitation (MEME)¹⁵ definere bevarte motiver over familien.
2. Klikk "MEME" MEME hjem-siden og fullføre "Underkastelse dataskjemaet" med bestemt informasjon om familien av interesse.
3. Bruke MEME analyse for å bekrefte tilstedeværelse av de to forventede motivene i grapevine ATL familiemedlemmer, dvs, RING-H2 og de GLD motivene.
Eventuelt utføre trinn 2.1 og 2.2 samtidig bruker bioinformatikk programvare suite (se Tabell for materiale).
1. FASTA filopplasting (se trinn 2.1.1) i suiten. Velg "Fil" i menyen og deretter "Import" og klikk "fra fil". Bla FASTA filen og klikk "Åpne".
2. Velg alle importerte sekvenser i listen og klikker på "Juster/sette"-knappen og deretter "Parvis flere justering". Velg "Muskel justering" og klikk "OK" for å starte justeringen ved hjelp av standardparametere.
3. Visualisere logoen til justeringen, klikk på "Grafer" → "options" og velg "Sekvens Logo".

3. analyse av Protein fysisk parameterene og domener

Som definisjonen av ulike fysiske parameterne for undersøkte familiemedlemmer er viktig å ha en omfattende beskrivelse av familien, sende listen over familiemedlemmer til bestemte web-verktøy.
1. Bruk ProtParam verktøyet¹⁶ på webområdet Expasy med standardparametere for isoelectric punkt (pI) og molekylvekt (kDa).
2. For protein subcellular lokalisering, bruke ulike verktøy for å få en sikrere forutsigelse som ngLOC v1.0¹⁷ med standardinnstillingene, targetP v1.1¹⁸ med standardinnstillinger og protein prowler subcellular lokalisering v1.2¹⁹med et cut-off av sannsynligheten til 0,5. For fosforylering områder, kan du bruke MUsite v1.0 web verktøyet²⁰ med standardparametere.
Undersøke ytterligere protein domener i slekt medlemmer.
1. Åpne Pfam databasen webside²¹, velg "Sekvens søk", sende protein sekvenser i for spørringen, og klikk "Gå" kjøre analysen.
  Merk: Hver protein sekvensen er analysert individuelt. En e-verdi på 1,0 i standardinnstillingen tillater forskjellsbehandle betydelig og ikke betydning treff.
2. Åpne TMHMM Server²² fra senter for biologisk Sequence Analysis undersøke tilstedeværelsen av antatte transmembrane regioner.

Lime inn alle protein sekvenser samtidig i for spørringen (eller alternativt sende en tekst arkiv inkludert alle protein sekvenser i FASTA format) og klikk "Send" for å kjøre analyser.

Analysere proteiner mangler spådd transmembrane domener, ifølge TMHMM (trinn 3.2.2), med ProtScale verktøyet å identifisere mulige hydrofobe regioner. Åpne ProtScale webside²³. Lim hver protein sekvens i for spørringen og velger "Hphob. / Kyte & Doolittle "som aminosyre skala. Klikk "Send" for å kjøre analyser.

4. chromosomal distribusjon, duplikasjoner og ekson-intron organisasjon

Tilordne ATL familiemedlemmer på kromosomene basert på informasjon Hentet fra Grapevine genomet CRIBI Biotech Center nettsted²⁴.
1. Bla gjennom på PhenoGram nettsted hjemmeside²⁵. Skrive den "Input fil" som en tabulatordelt tekstfil med bestemte funksjoner i genene som skal tilordnes på kromosomene, ifølge uttømmende retningslinjer og eksempler om sammenstillingen av den leverte filen etter banen "Phenogram" → " Dokumentasjon"→"Alternativer"→"Input fil".
2. Skrive "Tittel" av arbeidet. Velg genomet skal trekkes. For genomer ikke er implementert i programvare, for eksempel grapevine genomet, velger du "andre" i det miste-ned menyen. Skrive genomet filen i henhold til retningslinjer og eksemplene, etter banen "Phenogram" → "Dokumentasjon" → "Alternativer" → "Genome", og laste den.
3. Bruk standardparametere av "Fenotypen mellomrom", "Fenotypen farge", "Image format" eller velge alternativer i respektive menyene, og klikk "Plott" å få effekten av genene på kromosomene.
Definere duplisering delstaten familiemedlemmer med MCScanX programvare²⁶.
1. Last ned og pakk ut en kopi av MCscanX på en lokal maskin kjøre kommandolinjer 1 (supplerende fil 1). Angi mappen MCscanX og opprette den nødvendige kjørbare kjøre kommandolinjer 2 (supplerende fil 1).
  Merk: Installasjon av MCscanX kalles mislykkes på noen Linux 64-bit maskiner på grunn av et problem om funksjonen chdir. Hvis feilmeldingen returneres knyttet til denne funksjonen på gjør kommandoen kjøres, kommandolinjene 3 (supplerende fil 1) skal kjøres og kommandoen "lag" bør forsøkes etterpå.
2. Last ned V. vinifera proteiner og merknadsfilen kjøre kommandolinjer 4 (supplerende fil 1).
  Merk: Grapevine merknad filen må være pakket og enkelt kromosomene informasjon katten i en unik fil ved å kjøre kommandolinjer 5 (supplerende fil 1).
3. Kjør en "alle mot alle" blastp Søk bruker filen V. vinifera protein som både spørringen og emnet.
4. Opprette en søkbar blast database bruke V. vinifera protein filen kjøre kommandolinjer 6 (supplerende fil 1). Utføre blastp søk ved hjelp av filen V. vinifera proteiner som en spørring mot databasen opprettet tidligere ved å kjøre kommandolinjer 7 (supplerende fil 1).
5. Konvertere merknadsfilen i et egnet format for MCScanX. Kjøre kommandolinjer 8supplerende fil 1laste ned egendefinerte perl script parseMSCanXgff.pl. Utføre analyse kjøre kommandolinjer 9 (supplerende fil 1).
  Merk: En fil vitis.gff genereres som inneholder genet koordinater i følgende format:
  SP # genet startposisjon sluttposisjon
  hvor "bl" er en kode på to bokstaver for arten (Vv for grapevine) mens "#" er navnet på skafottet. Merk at den angitte egendefinerte perl-skriften er egnet for de fleste konvertering, selv om noen kode endring kan være nødvendig i noen spesielle tilfeller på grunn av mangfoldet av informasjonen i merknadsfilen tilgjengelig.
6. Starte MCScanX kjøre kommandolinjer 10 (supplerende fil 1).
  Merk: "vitis" er prefikset for både merknaden og blast utdatafilen. Dette representerer et obligatorisk krav for programvaren kjøre.
7. Analysere MCScanX resultater. MCScanX produserer en tekstfil "vitis.collinearity", som inneholder kollineare blokker. Slik fil kan bli kontrollert av et tekstredigeringsprogram (se eksempel utgang 1 supplerende fil 1).
  Merk: En "mcscaxOutput.html" katalog genereres som inneholder html-filer med flere justeringer av kollineare blokker mot hver referanse kromosom. Disse filene kan kontrolleres via en webleser.
8. Klassifisere paralogous gener basert på deres relative posisjoner i kromosomene kjøre kommandolinjer 11 (supplerende fil 1).
  Merk: Paralogous gene klassifisering omtales i Supplerende tabell II. Genererte utdatafilen "vitis.gene_type" inneholder alle opprinnelsen informasjon med et enkelt tabulatordelt format.
9. Utføre berikelse analyse for å vurdere om genet familien prevalently stammer ved en bestemt ordning kjøre kommandolinjer 12 (supplerende fil 1).
  Merk: "Vitis.gene_type" genereres på trinn 4.2.8, mens filen "gene_family_file" representerer en én linje tekstfil der navnet på familien (f.eksATL_genes) er fulgt av locus navnene på alle genene tilhører familien atskilt med en fane. Anvendt statistisk test for anriking er en Fisher eksakt test og p-verdier av ulike opphav lagres i filen "outputFile.txt".
Visualisere ekson-intron organiseringen av gener med interaktive Tree Of Life (iTOL)²⁷, en online verktøyet for visning, merknader og forvaltning av Fylogenetiske trær.
1. Last opp et stamtre i "Last opp"-delen av webområdet for iTOL. Treet er bygget i henhold til paragraf 5 nedenfor. For hvert familiemedlem genet, hente genet struktur prediksjon fra V1 merknaden i grapevine genomet (CRIBI nettstedet nevnt ovenfor). Beregn lengden (i bp) av antatte exons introns og uoversatt regioner (UTRs).
2. Bruk "Protein domener" datasettet for grafisk visualisering av ekson-intron mønster.

Skriv en tekstfil inkludert beregnet lengder i henhold til spesifikasjonene gitt følgende bane "Hjelp" → "hjelpesider" → "Datasett typer" → "Protein domener" i iTOL nettside²⁷. Bruker "Protein domener" dataset, representerer "rektangel (RE)" og "rektangel gap (GP)" figurene ekson og UTRs, henholdsvis.

5. Fylogenetiske analyser og nomenklatur

Analysere forholdet mellom ATL familiemedlemmer gjennom byggingen av en høy kvalitet stamtre og definisjonen av en familie nomenklaturen.
1. For en vinranke genet familie, følge reglene etablert av Grapevine Super nomenklatur komiteen⁸.
2. Hente A. thaliana ATL sekvenser, kreves som referanse for grapevine genet nomenklatur⁸, fra UniProt database²⁸ .
3. Skrive en FASTA fil inkludert alle nukleotid sekvenser av druer og A. thaliana gene familiemedlemmer i fylogenetisk analyse. Nukleotid sekvenser gir maksimal variasjon familiemedlemmer (sammenlignet med protein sekvenser).
Stamtre
Merk: Bruk av Phylogeny.fr ²⁹ rørledningen er anbefalt å få en høy kvalitet stamtre, men ikke obligatorisk.
1. Bla gjennom Phylogeny.fr hjemmeside²⁹, og velg "Fylogeni analyse" rørledningen.
  Merk: "Ett klikk" passer i de fleste tilfeller, men hvis det er mulig å velge bestemte innstillinger ("Avansert") eller med en fullt tilpasset analyse (se trinn 5.2.5 "a la Carte";).
2. Skrive "Navn av analyse", laste opp FASTA filen opprettet tidligere (trinn 5.2.1 Oppgi og klikk "Send" for å kjøre analyser.
3. Alternativt, hvis prosedyren beskrevet ovenfor (trinn 5.2.1 Oppgi, 5.2.2) resulterer i en feilmelding, fullføre hvert trinn i rørledningen fylogeni suite individuelt, som følger.
  1. Den muskel programvare hjemmeside³⁰, laste opp filen FASTA i "Trinn 1", velg "Pearson/FASTA" som "Output format" i "Trinn 2" og klikk "Send" i "Trinn 3" justere spørringen sekvenser.
  2. Klikk "Download justering fil" og lagre som FASTA fil for videre skritt.
  3. Prosessen justering FASTA filen å eliminere dårlig justert posisjoner med Gblocks Server verktøyet³¹. Laste opp filen justering FASTA, velg "DNA" som "Type av" og valgte alternativene av stringens som passer med analyse (f.eksfor grapevine ATL genet familie Velg alle tre alternativer foreslått for "mindre strenge utvalg" fordi høy sekvens divergens). Klikk "Få blokker" å kjøre analysen.
  4. Klikk "Noe som resulterte justering" nederst på siden utdata og lagre resultatene som en ny FASTA fil.
  5. Phylogeny.fr hjemmeside²⁹, velg "A la Carte" som "Fylogeni analyse" rørledning. Deretter fjerner du merket for "Flere justering" og "Justering konservering". Klikk "Opprett arbeidsflyt", laste opp filen Gblocks-kuratert FASTA (trinn 5.2.5.4), velg "Bootstrapping prosedyre" med standardparametere i "Innstillinger" og klikk "Send" for å kjøre analyser.
4. Skjul dårlig støttes grener (dvs., bootstrap verdier < 70%) ved å klikke "Kollaps grener" under "Velg og handling" og Last ned de endelige resultatene i Newick format til videre analyser.
Tilordne et gen navn basert på fylogeni.
1. Gjennom stamtre for å evaluere påliteligheten av trestrukturen av laster den inn iTOL suiten nevnt ovenfor (inndelingen 4.3).
2. Tilordne manuelt et gen navn til hvert familiemedlem. Ved en orthologues, tilordne Arabidopsis-som navn (f.eksAtATL3 → VviATL3). Skille grapevine gener (to eller flere) avledet fra en enkelt Arabidopsis homolog med den samme Fylogenetiske avstand med tall eller bokstaver hvis Arabidopsis genet slutter med et tall (f.eksAtATL23 → VviATL23a, VviATL23b).
3. I en-til-mange eller mange-til-mange orthologues, tilordne et nytt genet navn består av Arabidopsis-som navnet (her, «ATL») sammen med et tall høyere enn det høyeste antallet allerede brukt for både V. vinifera og Arabidopsis (f.eks., VviATL83).
4. Fullføre nomenklaturen av nylig definerte familien ned fra toppen til bunnen av stamtre.

6. grapevine orgel og scenen Expression profilering

Generere arbeider data matrise som inneholder uttrykket dataene for familiemedlemmer.
1. Last ned den V. vinifera cv. Corvina gene expression Atlas datamatrix fra koblingen fordelt på ResearchGate plattform³². Denne filen inneholder RMA normalisert uttrykk verdiene som skal brukes i følgende trinn.
2. Ekstra uttrykk verdiene for hver familie genet fra Atlas datamatrix og skrive en "arbeider datamatrix" som inneholder samme overskriftsraden som Atlas datamatrix. Lagre "arbeider datamatrix" som en tabulatordelt tekstfil.
Utføre hierarkisk bi-sektorgrupperte analyse bruker flere eksperiment seer (MeV) programvare.
1. Dataoverføre og installere MeV programvare³³.
2. Laste opp "arbeider datamatrix" (trinn 6.1.2) etter banen "Fil" → "Last Data" → "Browse" og velg tekstfilen. Velg "én farge Array" og fjerne haken fra "Load Annotation" når automatisk merknad ikke finnes. Velge øverst til venstre uttrykk uttrykk forhåndsvisningstabellen og klikk på "Load"-knappen.
3. Justere dataene bruker Log2 transformasjon ("Justere Data" → "Logg transformasjoner" → "Log2 Transform") og Gene/rad normalisering ("Justere Data" → "Gene/rad justeringer" → "Median Center Gene/rad"). Angi riktig skala grensen ("Vis" → "angi farge skala grenser").
4. Beregne den hierarkiske klynging etter banen "Analyse" → "Klynger" → "HCL".

Velg "Optimalisere Gene blad orden" og "Optimalisere eksempel blad orden" i "Bestilling optimalisering feltet", "Pearson sammenheng" i feltet "Avstand Matrix valg", og "Gjennomsnittlig sammenhengen klynger" i feltet "Lenkeforbindelse metoden valg". Klikk deretter "OK" for å kjøre analyser.

Vis resultatene i "Analyseresultater" → "HCL"-menyen på venstre side i vinduet. Eksporter varmekartet ved å klikke "Lagre bilde" i "Fil"-menyen.

7. expression profilering svar biotiske og abiotiske understreker

Gjenta trinn 6.1 med GSE tiltredelse ID respektive publikasjoner og studier undersøker biotiske og abiotiske stress på grapevine. Eksperimenter gir transcriptome profilen grapevine bær infisert med sopp patogen Botrytis cinerea med NimbleGen drue hele-genomet microarray kan for eksempel vises med GSE IDen GSE52586. Gjenta trinn 6.1.1 og 6.1.2.
Søk NCBI sekvens leser arkivet³⁴ med SRA/BioProject ID (f.eksSRP055458 eller PRJNA275778 for "grapevine blomst skyggeleggingen" eksperimenter) og laste ned alle tilknyttede rå sekvens leser. RNA-seq datasett fra mange forskjellige studier behandles ved hjelp av en enkelt rørledning for konsistens.
1. Kort, trim rå sekvens FASTQ leser (enkelt - og par-end) og filtrere kvalitet med Trimmomatic³⁵. Bruk en AVGQUAL og MINLEN filter på 20 og 40, henholdsvis og alle parametere standard.
2. Index 12 X grapevine referanse genomet¹ bruker Bowtie2³⁶. Last ned 12 X grapevine referanse genomet (f.eks, bowtie2-bygge) før du kjører bowtie2 kommandoen.
3. Få antall tabellene med htseq-count³⁷ med grapevine V1 genet modell (GFF/GTF) merknadsfilen.
Utføre differensial gene expression (re-) analyse i R³⁸ limma³⁹ biblioteker for RMA-normalisert matriser og DESeq2⁴⁰ biblioteker for antall tabellene innhentet fra trinn 7.1.1 og 7.2.1 Oppgi, henholdsvis.
1. Utføre en standard "to-gruppen" sammenligning (dvs, "behandling" / "kontroll"). Kontroller at design matrise/grupperinger av "kontrollerer" og "behandling" er riktig angitt.
  Merk: En typisk design for microarray differensial uttrykk analyse (GSE52586) å sammenligne EL-33 bær infisert med Botrytis cinerea mot kontroll (sunn) bær på samme utvikling scenen med limma kjøre kommandolinjer 13 vises i supplerende fil 1. En typisk design for RNA-seq differensial uttrykk analyse (SRP055458 eller PRJNA275778) å sammenligne blomst (på 7 dager etter cap) under skyggen behandling mot kontrollen med DESeq2 kjøre kommandolinjer 14 vises i supplerende fil 1 .
2. Få listen over ulikt uttrykt gener (gr) hver derimot for limma, bruker den funksjoner lmFit(), etterfulgt av eBayes(), og deretter topTable() funksjoner, mens for DESeq2, bruke i DESeqDataSetFromMatrix(), DESeq()og results() funksjoner. Nedenfor, en typisk arbeidsflyt følges.
  1. Hvis microarray differensial uttrykk analyse, kan du se kommandolinjer 15 (supplerende fil 1). Se kommandolinjer 16 (supplerende fil 1) RNA-seq differensial uttrykk analyse. Gjenta trinnene ovenfor for alle andre kontraster med ulike riktig design skjemaet (se eksempler i trinn 7.3.1)
Fra listen over DEGs generert, pakke alle rader som ikke samsvarer med ATL V1 tiltredelse, beholde kolonner som inneholder log2 brett endringen (behandling/kontroll) > | 0,5 | og justert p-verdier (FDR) < 0,05 og flett dem deretter inn i en matrix-tabell, om en studie faller i "abiotiske" eller "biotiske/patogen samspill" kompendier.
Konstruere den hierarkisk gruppert heatmaps (abiotiske og biotiske kompendier) i R med biblioteker gplots.
Merk: Ringer funksjonen heatmap.2 konstruerer heatmap sammen med rad dendrograms fra de respektive tabellene. Flere argumenter bruker cellnote funksjonen bidrar til å skille ulikt uttrykt (log2FC > 0,5, FDR < 0,05) ATL gener i hver sammenligning over et stort utvalg av eksperimentelle forhold av en * symbolet. Bruke typiske arbeidsflyten i R kjøre kommandolinjer 17 (supplerende fil 1) eller eventuelt Gjenta trinn 6.2.2 å 6.2.5 å konstruere heatmaps MeV programmvre.

8. analyse av forholdet mellom Paralogous sekvens divergens og co genuttrykk

Konstruere matrisen som inneholder parvis likheten. Elementene i matrisen likheten er verdiene i sekvens likheten beregnet fra parvis protein justeringer.
1. Bruke RELIEFF nål web server⁴¹ med standardinnstillinger å gjøre parvis sekvens justeringer og lagre som tekstfil. Åpne tekstfilen utdata og fjerne alle merknadslinjer, sammen med kolonne- og navn til å generere en fil som heter "similarityTable.txt".
  Merk: Slik en tabell har en linje for hver ATL genet rapportering likheten verdiene beregnes i hver av parvis justeringen. Rekkefølgen på loci i rader og kolonner er den samme slik at en symmetric matrise genereres med hensyn til diagonale verdiene.
Konstruere matrisen med co uttrykk data ved å beregne den Pearson korrelasjonskoeffisienten. Denne fremgangsmåten krever R og perl-modul PDL.
1. Last ned uttrykket verdiene for 96 ATL genene kjøre kommandolinjer 18 (supplerende fil 1) i en terminal. Utføre en co uttrykk analyse ved hjelp av en egendefinert perl-skript som kan lastes ned ved å kjøre kommandolinjer 19 (supplerende fil 1). Slike script beregner den Pearson korrelasjonskoeffisienten mellom par av ATL loci som tidligere rapportert.
2. Starte skriptet kjøre kommandolinjer 20 (supplerende fil 1) og følg instruksjonene for utdata.

Skriptet vil produsere en utdatafil (nemlig "coexpressionTable.txt") som inneholder en co uttrykk matrise med samme locus navn rekkefølge av matrix fikk i trinn 8.1 (denne rekkefølgen er viktig å kjøre Mantel test, se nedenfor).

Utfør en Mantel mellom data matriser fikk i trinn 8.1 og 8.2. Etter innstigning R miljøet (kjøre kommandoen "R" fra en terminal), laste ade4 bibliotek ved hjelp av følgende kommando: library(ade4)

Kjøre Mantel testen ved lasting av to matriser og utføre statistiske kjøre kommandolinjer 21 (supplerende fil 1), med "nrep" som representerer antallet permutasjoner. Testen består av beregning av sammenhengen mellom elementene i disse matriser, permuting matriser og deretter samme test statistikken igjen.
Merk: Alle fått verdier av statistikk testen brukes til å bygge en referanse distribusjon flygninger test, som vil bli brukt til å beregne en p-verdien du vil teste for betydning. Antallet permutasjoner definerer presisjonen som p-verdien kan hentes.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

VIT_05s0077g01970 genet, identifisert som den mest ligner A. thaliana ATL2 (At3g16720) gjennom et BLASTp søk, ble brukt som sonden for å kartlegge ATL familiemedlemmer i grapevine genomet (V. vinifera cv Pinot Noir PN40024). PSI-BLAST analyse konvergerte etter noen sykluser avsløre en liste over mulige gener grapevine ATL genet gultrefamilien (figur 1A). Tilstedeværelsen av kanoniske RING-H2 domenet for hver kandidat ble evaluert av visuell inspeksjon av muskel justeringen av alle postene i analysen (figur 1B). Bare de genene som inneholder riktig avstand bevarte aminosyrer, to histidin rester, samt proline rester før den tredje cystein ble ansett som ATLs etter originale ATL i Arabidopsis⁵. Totalt 96 grapevine gener oppfylt kravene og ble vurdert for ytterligere karakterisering. Hvert ATL familiemedlem ble analysert for å definere Karakteristika av genet og tilsvarende kodet protein, dvstilstedeværelsen av andre kjente domener i tillegg til RING-H2, transmembrane eller hydrofobe rike regioner, subcellular lokalisering og antatte fosforylering områder (tabell 1 og tabell 2).

Figur 1: PSI-BLAST undersøkelse og justering av antatte grapevine ATLs. (A) skjermbilde av de 10 beste treff første PSI-BLAST gjentakelse Søk bruker protein rekkefølgen VIT_05s0077g01970 som agn. (B) del av justeringen av 96 valgte grapevine antatte ATLs viser RING-H2 domenet og tilsvarende logoen får en rekke molekylærbiologi (se Tabell for materiale). Gjengitt fra Ariani et al. lisensiert under en Creative Commons Attribution 4.0 International License⁴².Klikk her for å se en større versjon av dette tallet.

navn	Gene ID	Gene lengde (bp)	Intron nummer	UniProt-ID	Protein lengde (aa)	RING-H2 motiv	TM/H domene nummer	Andre domener
VviATL3	VIT_09s0002g00220	1245	0	F6HXK6	304	PxC	1
VviATL4 [VviRHX1A]	VIT_15s0021g00890	1827	3	D7SM36	203	PxC	0
VviATL18	VIT_11s0118g00780	1113	2	F6HCI8	193	PC	0
VviATL23a	VIT_18s0001g01060	935	0	F6H0E4	114	PxC	0,5
VviATL23b	VIT_18s0001g01050	399	0	E0CQX3	132	PxC	1
VviATL24	VIT_17s0000g06460	4466	4	D7SI89	217	PxC	1
VviATL27	VIT_00s0264g00020	2554	4	D7T1R5	235	PxC	1
VviATL43	VIT_11s0052g00530	1576	2	D7SQD9	457	PxC	3
VviATL54a	VIT_18s0001g06640	3221	1	F6H0Y5	405	PxC	1
VviATL54b	VIT_03s0017g00670	2774	1	F6HTI0	427	PxC	1
VviATL55 [VviRING1]	VIT_07s0191g00230	1844	0	F6HRP9	372	PxC	1
VviATL63	VIT_06s0004g06930	804	0	D7SJU6	267	PxC	1
VviATL65	VIT_03s0063g01890	2068	0	F6HQI8	396	PxC	1
VviATL82	VIT_01s0026g02540	820	0	F6HPQ9	233	PC	0,5
VviATL83	VIT_17s0000g08400	1887	0	F6GSQ4	143	PC	0
VviATL84	VIT_06s0004g00120	1853	0	F6GUP5	368	PC	0,5	ZF-RING_3
VviATL85	VIT_12s0034g01400	786	0	F6H965	261	PC	0,5
VviATL86	VIT_12s0034g01390	1434	1	D7T016	451	PC	0,5
VviATL87	VIT_18s0001g03270	1002	0	F6H0T2	333	PC	0,5	ZF-RING_3
VviATL88	VIT_08s0040g00590	1320	0	F6HQR2	314	PC	0	ZF-RING_3

Tabell 1: første 20 VviATL gener og sekvens kjennetegner tilhørende proteiner. TM: transmembrane; H: hydrofobe; 0,5 angir at ett eller flere hydrofobe områder. Gjengitt fra Ariani et al. lisensiert under en Creative Commons Attribution 4.0 International License⁴².

Table 2
Tabell 2: detaljer om de første 20 VviATL Gene posisjon i V. vinifera genom, duplisering tilstand, og ATL protein fysikalsk-kjemiske egenskaper og plassering. (en) antallet fosforylering spådd av Musite; (b) lignende spådommer med minst to programvare utheves fet; ngLOC ble brukt med standardinnstillingene, mens TargetP v1.1 og Protein Prowler Subcellular lokalisering ble brukt med et cut-off av sannsynligheten til 0,5. NUC, kjernen; MIT, mitokondrier; CHL, chloroplast; PLA, plasma membran; S, sekretoriske pathway (tilstedeværelsen av et signal peptid); M, mitokondrier; C, chloroplast; O eller -, andre steder; nd, ikke bestemt (dvs., verdi under terskelen). Gjengitt fra Ariani et al. lisensiert under en Creative Commons Attribution 4.0 International License⁴². Klikk her for å laste ned denne filen.

En fylogenetisk analyse inkludert nukleotid sekvenser av identifiserte grapevine ATL-koding gener med sekvenser av referanse A. thaliana ATL genet familien ble brukt for grapevine ATL nomenklaturen, i henhold til retningslinjene for sNCGGa⁸. 96 og 83 nukleotid sekvenser fra V. vinifera og A. thaliana, henholdsvis, ble utsatt for rørledningen Phylogeny.fr å få en pålitelig stamtre.Den sistnevnte sekvenser ble senere brukt å kommentere og navnet grapevine gener basert på solide relasjoner (figur 2). Etter denne metoden mottatt 13 av 96 grapevine ATLs en bestemt type vurderer deres en orthology med en A. thaliana ATL. Navnene på andre 83 genene ble tildelt basert på stamtre, med en progressiv nummerering fra topp til bunn, fra en ATL genet tall høyere enn den høyeste tall brukt i A. thaliana.

Figur 2: Stamtre av V. vinifera og A. thaliana ATL E3 ubiquitin ligase-koding gener. Unrooted treet ble generert av Phylogeny.fr-pakken (V. vinifera (i grønt) og 83 ATL genene for A. thaliana rapportert i UniProt databasen (i gul). Gren støtte verdier Hentet fra 100 bootstrap gjentak. Den røde stjerner viser tilstedeværelse av en BCA2 sink finger (BZF) domene i tilhørende proteiner. Gjengitt fra Ariani et al. lisensiert under en Creative Commons Attribution 4.0 International License⁴². Klikk her for å se en større versjon av dette tallet.

Tilordne ATL-koding gener til grapevine kromosomene viste en bred distribusjon gjennom genomet, tyder hele-genome duplisering som den store evolusjonære kraften i utvidelsen av ATL genet familie i grapevine. Faktisk ble 31 ATLs funnet i homologe chromosomal regioner potensielt stammer fra Segmentinformasjon eller hele genomet duplisering hendelser. Videre, den samme analysen uthevet 13 tandemly duplisert gener, en proksimale kopi og 51 spredt duplikater (Figur 3). Vurderer stort antall dupliserte gener i ATL familien utført vi en berikelse test (Fishers pressepenger test) for å sjekke fortrinnsrett oppbevaring av dupliserte genene i genomet-fraksjoneres. Med en p-verdien < 0,001, denne testen bekreftet hypotesen at duplisert ATL gener beholdes mer enn tilfeldig forventet, antyder en rolle for ATL genet familien under grapevine tilpasning og utvikling.

Figur 3: Grapevine ATL-koding genet distribusjon på V. vinifera kromosomene og duplisering stat. 96 grapevine ATL genene nøyaktig chromosomal informasjon tilgjengelig i databasen ble tilordnet 19 V. vinifera kromosomene. Fargene angir hendelsen opprinnelige duplisering. Loddrette linjene i svart og rød identifisere par avledet fra tandem duplications og hele genomet duplikasjoner, henholdsvis. Gjengitt fra Ariani et al. lisensiert under en Creative Commons Attribution 4.0 International License⁴². Klikk her for å se en større versjon av dette tallet.

For ytterligere å undersøke mulige biologisk funksjonene til ATLs i grapevine, ble en meta-analyse gjennomført på V. vinifera cv. Corvina globale genuttrykk Atlas¹². Datasettet inkluderer hele-genome uttrykk verdier av 54 ulike grapevine organer og utviklingsstadier og ble brukt til å utføre en hierarkisk bi-sektorgrupperte analyse. Resultatene ikke bare bekreftet at alle de 96 ATLs ble uttrykt i minst en av de 54 vev/scenene, men også påpekt tilstedeværelsen av fem viktigste klynger av uttrykket profiler (figur 4A). Kort, klynger A og E viste overfor atferd, spesielt først er preget av en generell downregulation av ATL gener i juvenile prøver, inkludert tidligfasen berry, små blad, tentakler, sitter og de fleste bud etappene. På den annen side, i den samme sektorgruppen A, modne prøver som bær på modning og post-Harvest visne stadier, woody vev og slutten stadier av frø utvikling ATL gener viste en dominerende oppregulering. Gener i klyngen C var hovedsakelig downregulated i de fleste av eksemplene, mens ATL gener i klynge D var ofte upregulated på slutten stadier av berry utvikling. Til slutt, klynge B ikke vise alle relevante varianter i uttrykket profiler.

En lignende fremgangsmåte ble brukt for å studere uttrykk for grapevine ATL familiemedlemmer svar biotiske og abiotiske påkjenninger, bruker bestemt datasett bygget for dette formålet. En enorm mengde uttrykk data avledet fra microarray og RNA-seq eksperimenter er tilgjengelige fra offentlig tilgang databaser som Gene Expression Omnibus (geografisk) og ArrayExpress. Når samlet og beleilig normalisert, utnyttes informasjonen for ytterligere innsikt i potensielle funksjon ATLs plante som svar på stress. Analysere uttrykket profiler av grapevine ATLs svar på biotiske påkjenninger avslørt at 62 av 96 transkripsjoner viste en betydelig modulering (log2 fold-endring (FC) > | 0,5 |) i minst to forhold, med en false oppdagelsen rate (FDR) < 0,05 ( Figur 4B). Nummeret øker til 81 vurderer bare FDR terskelen i én enkelt betingelse. Disse resultatene foreslo sterkt en direkte involvering av ATL genet familien i svaret til patogener i grapevine. Spesielt en gruppe av 12 gener (VviATL3-27-54b-55-90-97-123-144-148-149-156) var sterkt upregulated svar på de fleste patogener, inkludert biotrophic og necrotrophic sopp og planteetere, og derfor fortjener oppmerksomhet for ytterligere funksjonelle analyser.

Figur 4: hierarkisk clusteringof ATL-genuttrykk grapevine Atlas og grapevine biotiske stress-relaterte dataset. (A) Logg forvandlet uttrykket verdiene i grapevine ATL gener i grapevine Atlas¹² ble brukt for hierarkisk klynge analyse basert på Pearsons avstand beregningen. Det farge skala representerer høyere (rød) eller lavere (grønn) uttrykket nivåer med hensyn til median transkripsjon overflod av hver genet over alle prøvene. Bokstavene A til E på høyre side viser forskjellige klynger identifisert.AB: etter burst; B: burst; bud-W: vinter bud; F: blomstrende; FB: blomstrende begynner. FS: frukt satt; G: grønne; MR: midt-modning; PFS: etter frukt sett; PHWI-II-III: post høste visne 1, 2 og 3 måneder; R: modning; S: senescent; Stem-W: woody stammen; V: veraison; WD: godt utviklet; Y: unge. (B) fargen representerer økt (rød) eller redusert (blå) fold endringer av grapevine ATL genuttrykk i infiserte prøver sammenlignet med kontroller for hver tilstand. Stjernene angir betydelig differensial uttrykket (FDR < 0,05) av hver ATL under tilsvarende betingelser. Gjengitt fra Ariani et al. lisensiert under en Creative Commons Attribution 4.0 International License⁴². Klikk her for å se en større versjon av dette tallet.

Supplerende tabell 1: ATL gener kandidater for alternativ skjøting. (en) ATL genet ID i henhold til V1 drue genet prediksjon og merknaden, (b) ATL genet ID etter den V2 drue genet prediksjon og merknader⁴³, (c) antall mulige ATL alternativ skjøting varianter, (d) informasjon om koding sekvens av hver antatte ATL-varianten. Klikk her for å laste ned denne filen.

Supplerende tabell 2: Klikk her for å laste ned denne filen.

Supplerende filen 1: Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

I genomisk era, har mange genet familier vært dypt preget i flere plantearter. Denne informasjonen er foreløpig funksjonelle studier og gir en ramme for å undersøke videre rollen annerledes medlemmer i en familie. I denne sammenheng finnes det også et behov for en nomenklatur som til å identifisere hvert medlem i familien, unngå redundans og forvirring som kan oppstå når navn er tildelt uavhengig ulike gener av forskjellige forskningsgrupper.

Etter gjennomtenkt vurdering, grapevine vitenskapelige samfunnet å navnet grapevine gener i en familie basert på likheter med Arabidopsis gener og etablert en rekke regler som må brukes for å beskrive nye genet familier i grapevine, i utgangspunktet starter fra Fylogenetiske sammenligning av nukleotid sekvenser mellom grapevine og Arabidopsis familiemedlemmer⁸. Derfor kan bare gener som allerede kommentert og navngitt riktig i Arabidopsis brukes i grapevine nomenklaturen. Fremgangsmåten som brukes til å identifisere grapevine ATL orthologues i Arabidopsis beskrevet her ble derfor gjennomført utelukkende for å oppfylle kravet til tilordne riktig grapevine genet familie nomenklaturen. Likevel, for andre plantearter, alternative tilnærminger kan være et alternativ. For eksempel orthology kan utledes ved hjelp av en toveis BLAST treff (BBH), der orthologues er definert som par gener i to arter som er mer lik (dvs.med highscore justering) til hverandre enn til noen andre gene i den andre arter⁴⁴. Men kan denne metoden savner mange orthologues i høy grad av genet duplisering, som i planter og dyr⁴⁵. Videre i ATL-koding gener, BBH kan hente gener mangler presis ATL-type RING-H2 strukturen (inkludert proline rester) eller gener som ikke kommentert og navngitt som ATLs i Arabidopsis. Selv om fra et evolusjonært perspektiv dette søket kan være relevant, ville henting av orthologues som ikke er kommentert ikke har oppfylt grapevine ATL genet familie Merknad og nomenklatur og orthologues som ikke er merket som ATLs kan ikke brukes til navnet grapevine familiemedlemmer. En annen mulighet er å antyde orthology basert på aminosyre i stedet for nukleotid sekvenser med InParanoid⁴⁶eller den siste Hieranoid 2⁴⁷, men slike arbeidsflyter ikke anbefales uttrykkelig av det vitenskapelige samfunnet.

Uttrykket meta-analyse, som kan defineres som en systematisk tilnærming til å studere og kombinere forskjellige offentlig tilgjengelige dataset repositories uttrykk data, kan fremheve delt og ulike molekylære mekanismer i en rekke forhold. Dermed integrasjon av gene expression informasjon fra flere store transcriptomic eksperimenter kan forbedre karakterisering av en genet familie, ved å definere uttrykket profiler av familiemedlemmer over eksperimenter, således minimere den virkningen av eksperimentet-spesifikke faktorer og støtte en mer robust antagelse av antatte gen funksjon i bestemte prosesser. Imidlertid krever bruk av microarray data integrering av uttrykk innhentet med forskjellige vurderer sine egne begrensninger. For eksempel i grapevine Nimblegen microarray plattformen, en betydelig andel av probesets for tilsvarende gener representert i matrisen (~ 13 000 gener) har potensielt kryss-hybridisering problemer⁴⁸. I grapevine ATL familien, kan 15 gener påvirkes av slike fenomen. Likevel, som diskuteres av Cramer et al. ⁴⁸, cross-identifikasjon av svært lignende genet familiemedlemmer av samme sonden kan gi interessant informasjon om uttrykket i bestemte betingelser, ikke bare ett gen men av to til flere gener deling høy sekvens likheter, og dermed potensielt deling mål og funksjoner. Et annet potensielt problem med relatert til microarray datasett er uttrykket oppdagelsen grensen av microarray plattformer, som ikke er veldig følsom. Løse begge angår, dvs., cross-hybridisering og signal følsomhet, en mulig løsning kan være å bare RNAseq uttrykk datasett. Men meta-analyse av RNAseq data for svært store datasett fra mange forskjellige studier kan bli svært tidkrevende og krever mange beregningsressurser og høy kompetanse.

Om tilnærming presenteres her å være uttømmende, kan det være helt sikkert komplementert med andre analyser. Først for å oppnå ytterligere innsikt i molekylær evolusjon og Fylogenetiske forhold mellom genet familiemedlemmer i planter, kan fylogenetisk analyse utvides bygge et stamtre bruker flere sekvens justeringer av familiemedlemmer fra flere plantearter. Det er også mulig å beregne evolusjonær tid for familie gener, en vurdering av deres synonymt og ikke-synonymt Substitusjons priser under utvikling, ved å bestemme verdiene Ks (antall synonymt erstatninger per synonymt område i en gitt periode av tid) og Ka (antall nonsynonymous erstatninger per ikke-synonymt område i samme periode). Ka/Ks forholdet brukes til å antyde mekanismer av genet duplisering hendelser etter avvik fra deres forfedre. Verdien Ka/Ks = 1 antyder nøytral utvalg, Ka/Ks verdien < 1 antyder rensende utvalg og Ka/Ks verdien > 1 antyder positiv utvalg⁴⁹. Videre, hvis genet Strukturanalyse viser tilstedeværelse av introns, gene familie karakterisering kan fremme utbygget til deteksjon av alternativ skjøting varianter. Faktisk, basert på en dyp undersøkelse av RNA-seq data fra forskjellige vev, stress forhold og genotyper⁴³, 21 (av 96) ATLs er sterke kandidater for alternativ skjøting hendelser med potensielle antall isoformene varierer fra 2 til 16 for disse ATLs (se Supplerende tabell 1). Alternative transkripsjoner produsere ofte protein isoformene som varierer i amino acid sekvenser og endringene kan endre egenskapene mobilnettet proteiner og kan forårsake endringer fra subtile modulering tap av funksjon av gene produktet. Derfor har alternativ skjøting hendelser vært involvert i viktige anlegget funksjoner, inkludert stressrespons, sykdomsresistens, fotosyntese og blomstrende⁵⁰^,⁵¹.Integrasjon av ATL genet formidler informasjon som inneholder antatte cis-regulatoriske elementer⁵² eller finne molekyler (f.eks, microRNA og lenge ikke-koding RNA) potensielt målretting ATLs⁵³ kan også suppleres til avsløre systemet innsikt i komplekse molekylær regulering og samhandling i grapevine ATLs.

Avslutningsvis drevet valg av analysene som skal utføres samt prosedyrer brukes for å beskrive en ny gen familie i en plantearter hovedsakelig av vitenskapelige samfunnet reglene samt omfanget av genet familie identifikasjon. Det er viktig å huske på punktene mulig påfølgende undersøkelser, som vil utnytte informasjonssettet, blant som inkluderer genet evolusjonen blant plantearter, genomet struktur beskrivelse eller pålitelig kandidater for valg i funksjonelle studier.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne ikke avsløre.

Acknowledgments

Arbeidet ble støttet av universitetet i Verona innenfor rammen av felles prosjekt 2014 (karakterisering av ATL genet familien i grapevine og sitt engasjement i motstand mot Plasmopara viticola).

Materials

Name	Company	Catalog Number	Comments
Personal computer
Basic Local Alignment Search Tool (BLAST)			https://blast.ncbi.nlm.nih.gov/Blast.cgi
Molecular Evolutionary Genetics Analysis (MEGA)			http://www.megasoftware.net/
Motif-based sequence analysis tools (MEME)			http://meme-suite.org/
Geneious	Biomatters Limited		http://www.geneious.com/
ProtParam Tool			http://web.expasy.org/protparam/
ngLOC			http://genome.unmc.edu/ngLOC/index.html
TargetP v1.1 Server			http://www.cbs.dtu.dk/services/TargetP/
Protein Prowler			http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/
MUsite			http://musite.sourceforge.net/
Pfam			http://pfam.xfam.org/
TMHMM Server v. 2.0			http://www.cbs.dtu.dk/services/TMHMM/
ProtScale			http://web.expasy.org/protscale/
Grape Genome Database (CRIBI)			http://genomes.cribi.unipd.it/grape/
PhenoGram			http://visualization.ritchielab.psu.edu/phenograms/plot
MCScanX			http://chibba.pgml.uga.edu/mcscan2/
Interactive Tree Of Life (iTOL)			http://itol.embl.de/
UniProt			http://www.uniprot.org/
Phylogeny.fr			http://www.phylogeny.fr/index.cgi
MUSCLE			http://www.ebi.ac.uk/Tools/msa/muscle/
Gblocks Server			http://molevol.cmima.csic.es/castresana/Gblocks_server.html
Vitis vinifera cv. Corvina gene expression Atlas datamatrix			https://www.researchgate.net/publication/273383414_54sample_ datamatrix_geneIDs_Fasoli2012
Multi Experiment Viewer (MeV)			http://mev.tm4.org/#/welcome
Sequence Read Archive (SRA)			https://www.ncbi.nlm.nih.gov/sra
R			https://www.r-project.org/
EMBOSS Needle (EMBL-EBI)			http://www.ebi.ac.uk/Tools/psa/emboss_needle/

DOWNLOAD MATERIALS LIST

References

Jaillon, O., et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. 449 (7161), 463-467 (2007).
Adam-Blondon, A. -F., et al. Genetics, Genomics, and Breeding of Grapes. , Science Publishers. 211-234 (2011).
Chen, L., Hellmann, H. Plant E3 Ligases: Flexible Enzymes in a Sessile World. Mol. Plant. 6 (5), 1388-1404 (2013).
Vierstra, R. D. The ubiquitin-26S proteasome system at the nexus of plant biology. Nat. Rev. Mol. Cell Biol. 10 (6), 385-397 (2009).
Serrano, M., Parra, S., Alcaraz, L. D., Guzmán, P. The ATL Gene Family from Arabidopsis thaliana and Oryza sativa Comprises a Large Number of Putative Ubiquitin Ligases of the RING-H2 Type. J. Mol. Evol. 62 (4), 434-445 (2006).
Aguilar-Hernández, V., Aguilar-Henonin, L., Guzmán, P. Diversity in the Architecture of ATLs, a Family of Plant Ubiquitin-Ligases, Leads to Recognition and Targeting of Substrates in Different Cellular Environments. PLoS One. 6 (8), e23934 (2011).
Guzmán, P. The prolific ATL family of RING-H2 ubiquitin ligases. Plant Signal Behav. 7 (8), 1014-1021 (2012).
Grimplet, J., et al. The grapevine gene nomenclature system. BMC Genomics. 15, 1077 (2014).
Prince, V. E., Pickett, F. B. Splitting pairs: the diverging fates of duplicated genes. Nat. Rev. Genet. 3 (11), 827-837 (2002).
Magadum, S., Nerjee, U., Murugan, P., Gangapur, D., Ravikesavan, R. Gene duplication as a major force in evolution. J. Gen. 92 (1), 155-161 (2013).
Wang, N. Patterns of Gene Duplication and Their Contribution to Expansion of Gene Families in Grapevine. Plant Mol. Biol. Rep. 31 (4), 852-861 (2013).
Fasoli, M. The Grapevine Expression Atlas Reveals a Deep Transcriptome Shift Driving the Entire Plant into a Maturation Program. Plant Cell. 24 (9), 3489-3505 (2012).
BLAST. BLAST2.6.0. , Available from: https://blast.ncbi.nlm.nih.gov/Blast.cgi (2016).
MEGA. MEGA7.0.25 build 7170412. , Available from: http://www.megasoftware.net/ (2017).
MEME. MEME Suite Version 4.11.4. , Available from: http://meme-suite.org/ (2017).
ProtParam. ExPASy Server. , Available from: http://web.expasy.org/protparam/ (2005).
ngLOC v1.0. , Available from: http://genome.unmc.edu/ngLOC/index.html (2007).
TargetP v1.1 Server. , Available from: http://www.cbs.dtu.dk/services/TargetP/ (2000).
Prowler v1.2. , Available from: http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/ (2005).
MuSite v1.0. , Available from: http://musite.sourceforge.net/ (2010).
Pfam. Pfam version 31.0. , Available from: http://pfam.xfam.org/ (2016).
TMHMM v2.0c. , Available from: http://www.cbs.dtu.dk/services/TMHMM/ (2007).
ExPASy. ProtScale. , Available from: http://web.expasy.org/protscale/ (2005).
CRIBI. Grape genome database. , Available from: http://genomes.cribi.unipd.it/grape/ (2012).
PhenoGram. , Available from: http://visualization.ritchielab.psu.edu/phenograms/plot (2012).
ScanX v0.8. , Available from: http://chibba.pgml.uga.edu/mcscan2/ (2013).
Interactive Tree Of Life (iTOL). Version3.5.3. , Available from: http://itol.embl.de/ (2016).
UniProt. , Available from: http://www.uniprot.org/ (2016).
Phylogeny.fr. , Available from: http://www.phylogeny.fr/index.cgi (2008).
MUSCLE. , Available from: http://www.ebi.ac.uk/Tools/msa/muscle/ (2017).
Gblocks Server. Version 0.91b. , Available from: http://molevol.cmima.csic.es/castresana/Gblocks_server.html (2002).
Vitis vinifera cv. Corvina gene expression Atlas. , Available from: https://www.researchgate.net/publication/273383414_54sample_datamatrix_geneIDs_Fasoli2012 (2015).
Multiple Experiment Viewer (MeV). Version 4.8.1. , Available from: http://mev.tm4.org/ (2017).
Sequence Read Archive (SRA). , Available from: https://www.ncbi.nlm.nih.gov/sra (2017).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat Meth. 9 (4), 357-359 (2012).
Anders, S., Pyl, P. T., Huber, W. HTSeq-a Python framework to work with high-throughput sequencing data. Bioinformatics. 31 (2), 166-169 (2015).
R. Version 3.4.1. , Available from: https://www.r-project.org/ (2017).
Ritchie, M. E. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47 (2015).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
EMBL-EBI. EMBOSS Needle. , Available from: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ (2017).
Ariani, P. Genome-wide characterisation and expression profile of the grapevine ATL ubiquitin ligase family reveal biotic and abiotic stress-responsive and development-related members. Sci. Rep. 6, 38260 (2016).
Vitulo, N., et al. A deep survey of alternative splicing in grape reveals changes in the splicing machinery related to tissue, stress condition and genotype. BMC Plant Biol. 14 (1), 99 (2014).
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA. 96 (6), 2896-2901 (1999).
Dalquen, D. A., Dessimoz, C. Bidirectional Best Hits Miss Many Orthologs in Duplication-Rich Clades such as Plants and Animals. Genome Biol. Evol. 5 (10), 1800-1806 (2013).
Remm, M., Storm, C. E. V., Sonnhammer, E. L. L. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons1. J. Mol. Biol. 314 (5), 1041-1052 (2001).
Kaduk, M., Sonnhammer, E. Improved orthology inference with Hieranoid 2. Bioinformatics. 33 (8), (2017).
Cramer, G. R., et al. Transcriptomic analysis of the late stages of grapevine (Vitis vinifera cv. Cabernet Sauvignon) berry ripening reveals significant induction of ethylene signaling and flavor pathways in the skin. BMC Plant Biol. 14, 370 (2014).
Juretic, N., Hoen, D. R., Huynh, M. L., Harrison, P. M., Bureau, T. E. The evolutionary fate of MULE-mediated duplications of host gene fragments in rice. Genome Res. 15 (9), 1292-1297 (2005).
Filichkin, S. A. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. Genome Res. 20 (1), 45-58 (2010).
Quesada, V., Macknight, R., Dean, C., Simpson, G. G. Autoregulation of FCA pre-mRNA processing controls Arabidopsis flowering time. EMBO J. 22 (12), 3142-3152 (2003).
Wong, D. C. J., Gutierrez, R. L., Gambetta, G. A., Castellarin, S. D. Genome-wide analysis of cis-regulatory element structure and discovery of motif-driven gene co-expression networks in grapevine. DNA Res. 24 (3), 311-326 (2017).
Wong, D. C. J., Matus, J. T. Constructing Integrated Networks for Identifying New Secondary Metabolic Pathway Regulators in Grapevine: Recent Applications and Future Opportunities. Front. Plant Sci. 8, 505 (2017).

Biology

Omfattende arbeidsflyten for genomet-identifikasjon og uttrykk Meta-analyse av ATL E3 Ubiquitin Ligase Gene familien i Grapevine

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.