Biology

Omfattende arbejdsgang for Genome-wide identifikation og udtryk Meta-analyse af ATL E3 Ubiquitin Ligase gen familie i Grapevine

Published: December 22, 2017 doi: 10.3791/56626

Pietro Ariani*¹, Elodie Vandelle*¹, Darren Wong², Alejandro Giorgetti¹, Andrea Porceddu³, Salvatore Camiolo³, Annalisa Polverari¹

¹Dipartimento di Biotecnologie, Università degli Studi di Verona, ²Ecology and Evolution, Research School of Biology, The Australian National University, ³Dipartimento di Agraria, SACEG, Università degli Studi di Sassari

* These authors contributed equally

Summary

I denne artikel beskrives fremgangsmåden for identifikation og karakterisering af et gen familie i grapevine anvendes til familien af Arabidopsis Tóxicos i Levadura (ATL) E3 ubiquitin ligases.

Abstract

Klassificering og nomenklatur af gener i en familie kan bidrage væsentligt til beskrivelsen af mangfoldigheden af kodede proteiner og forudsigelse af familien fungerer på basis af flere funktioner, såsom tilstedeværelsen af sekvens motiver eller af særlig websteder for posttranslationel modifikation og udtryk profil af familiemedlemmer i forskellige betingelser. Dette arbejde beskriver en detaljeret protokol for gen familie karakterisering. Her, anvendes proceduren, der til karakterisering af Arabidopsis Tóxicos i Levadura (ATL) E3 ubiquitin ligase familie i grapevine. Metoderne omfatter genome-wide identifikation af familiemedlemmer, karakterisering af genet lokalisering, struktur og dobbeltarbejde, analyse af bevarede protein motiver, forudsigelse af protein lokalisering og fosforylering websteder samt gen expression profilering på tværs af familien i forskellige DataSet. En sådan procedure, som kunne udvides til at omfatte yderligere analyser afhængig af forsøgsformål, kunne anvendes på enhver gen familie i enhver plantearter som genomisk data er tilgængelige, og det giver værdifulde oplysninger til at identificere interessante kandidater funktionelle studier, giver indsigt i de molekylære mekanismer af vegetabilsk tilpasning til deres miljø.

Introduction

I det sidste tiår, har megen forskning foretaget i grapevine genomforskning. Grapevine er en anerkendt økonomisk relevante afgrøde, som er blevet en model for forskning på frugt udvikling og svar af træagtige planter til biotiske og abiotiske understreger. I denne forbindelse, frigivelse af Vitis vinifera cv. PN40024 genom i 2007¹ og dens opdateret gengivelse i 2011² førte til en hurtig ophobning af "omik"-skala data og en byge af høj overførselshastighed undersøgelser. Baseret på offentliggjorte sekvens data, den omfattende analyse af et givent gen familie (generelt består af proteiner dele bevarede motiver, strukturelle og/eller funktionelle ligheder og evolutionære relationer), kan nu udføres for at afdække sin molekylære funktioner, evolution og gen expression profiler. Disse analyser kan bidrage til forståelsen af hvordan gen familier styrer fysiologiske processer på en genome-wide plan.

Mange aspekter af plante livscyklus er reguleret af ubiquitin-medieret nedbrydning af vigtige proteiner, der kræver en finjusteret omsætning for at sikre regelmæssig cellulære processer. Vigtige komponenter i ubiquitin-medieret nedbrydning-processen er E3 ubiquitin ligases, der er ansvarlig for systemet fleksibilitet, takket være rekruttering af specifikke mål³. Derfor, disse enzymer repræsenterer en enorm gen familie, med omkring 1.400 E3 ligase-kodning gener forudsagt i Arabidopsis thaliana genom⁴, hver E3 ubiquitin ligase handler for ubiquitination af specifikke mål proteiner. Trods vigtigheden af substrat-specifikke ubiquitination i cellulære regulering i planter, lidt om hvordan ubiquitination vej er reguleret og kun i et par tilfælde konstateret target proteiner. Afkodningen af sådanne mekanismer, specificitet og forordning bygger på identifikation og karakterisering af de forskellige komponenter i systemet, navnlig første E3 ligases. Blandt ubiquitin ligases, er ATL underfamilie karakteriseret ved 91 medlemmer identificeret i A. thaliana viser en RING-H2 finger domæne⁵^,⁶, nogle af dem spiller en rolle i forsvaret og hormon svar⁷.

Det første afgørende skridt til at definere en ny gen familiemedlemmer er en præcis definition af de familie funktioner, såsom konsensus motiver, centrale domæner og protein sekvens karakteristika. Faktisk kræver pålidelige hentning af alle gen familiemedlemmer baseret på BLAST analyse nogle obligatoriske sekvens karakteristika, i bestemt protein domæner ansvarlig for protein funktion/aktivitet, der tjener som protein signatur. Dette kan lettes ved tidligere karakterisering af samme gen familie i andre plantearter eller opnået ved at analysere forskellige gener derfor tilhører den samme familie i forskellige plantearter, at isolere fælles sekvenser. Familiemedlemmer kan derefter individuelt navngives efter fælles regler afgjort af internationale konsortier for en given planteart. I grapevine, eksempelvis er en sådan procedure udsat for anbefalingerne fra den super-Nomenklaturudvalget for druemost gen Annotation (sNCGGa), om oprettelse af opførelsen af en Fylogenetisk træ herunder V. vinifera og A. thaliana gen familiemedlemmer til at tillade gen anmærkning baseret på nukleotid-sekvenser⁸.

Kromosom lokalisering af familiemedlemmer og gen dobbeltarbejde undersøgelse tillade fremhæve tilstedeværelsen af hele-genom eller tandem duplikerede gener. Disse oplysninger vises nyttige at trævle formodede genet funktioner, da det kan vise funktionel redundans eller afsløre forskellige situationer, dvs., ikke-functionalization, neo-functionalization eller sub functionalization⁹. Begge neo - og sub - functionalization er vigtige begivenheder, der skaber genetiske nyhed, om anlægget tilpasning til skiftende miljøer¹⁰nye cellulære komponenter. Især overlapning af forfædres gener og produktion af nye gener var meget hyppig under udviklingen i grapevine genome og nydannede gener med oprindelse fra proksimale og tandem gengangere i grapevine var mere tilbøjelige til at producere nye funktioner¹¹.

En anden vigtig faktor i afkodningen genfunktion familie er transkriptom profil. Tilgængeligheden af offentlige databaser giver adgang til en enorm mængde af transkriptom data kan således udnyttes til at tildele formodede funktioner til gen familiemedlemmer ved hjælp af storstilet i siliciummangan udtryk analyser. Faktisk, den særegne udtryk for nogle gener i specifikke anlæg organer eller som svar på visse understreger kan give nogle gode råd med hensyn til de formodede roller i de tilsvarende proteiner i definerede betingelser, og give støtte til hypoteser om mulige sub functionalization af duplikerede gener til at reagere på forskellige udfordringer. Til dette formål, er det vigtigt at overveje flere datasæt: disse kan være allerede tilgængelige gen expression matrixer, såsom genome-wide transkriptom atlas over grapevine organer og udviklingsstadier¹², eller kan bygges ad hoc- af hentning af transkriptom datasæt for de særlige plantearter underkastes definerede understreger. En simpel tilgang ved hjælp af to matrixer, kan en med parvise lighed data og den anden med parvise Co udtryk koefficienter desuden anvendes til at vurdere forholdet mellem sekvens lighed og udtryk mønstre inden for en gen familie.

Formålet med dette arbejde er at give en global tilgang, definere gen struktur, bevarede protein motiver, kromosomale placering, gen gengangere og udtryk mønstre, som godt forudsigelse af protein lokalisering og fosforylering sites, at opnå en udtømmende karakterisering af et gen familie i planter. Sådan en omfattende tilgang er anvendt her til karakterisering af ATL E3 ubiquitin ligase familie i grapevine. Ifølge ATL underfamilie medlemmer i at regulere cellulære nøgleprocesser⁷nye rolle, kan dette arbejde godt identificeringen af stærke kandidater til funktionelle studier, og til sidst optrævle de molekylære mekanismer, der regulerer de tilpasning af dette vigtige afgrøder til sine omgivelser.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identifikation af formodede ATL gen familie medlem(mer)

PSI-BLAST webversion
1. Åbn BLAST web side¹³ og klik på afsnittet protein BLAST.
2. I feltet "Enter forespørgsel sekvens" angive aminosyresekvens protein (her VIT_05s0077g01970), der skal bruges som sonden til at identificere de andre familiemedlemmer.
  Bemærk: En god repræsentant protein skal være brugt (et protein, der viser alle de vigtige funktioner, der karakteriserer familien).
3. I feltet "Vælg Søg sæt", Vælg "Reference protein"-databasen (refseq_protein) og organisme af interesse (V. vinifera - taxid:29760).
4. Vælg PSI-BLAST algoritme i felt "-Program valg", og klik på knappen BLAST at køre analysen.
  Bemærk: Ved at klikke på "algoritme parametre" er det muligt at justere nogle avancerede parametre (Max mål sekvenser, Scoring matrix, PSI-BLAST tærskel, osv.).
5. Den første BLAST round henter alle de sekvenser, der viser relevante kampe med forespørgslen (e-værdi over den valgte grænse - som standard 0,005; 0,001 i dette eksperiment). Fravælge alle de poster, som klart ikke tilhører familien under undersøgelse ved at klikke på kryds i kolonnen "Vælg for PSI-BLAST" og køre den anden PSI-BLAST iteration ved at klikke på knappen BLAST som i trin 1.1.4.
6. Nyligt identificerede sekvenser er fremhævet med gult. Uegennyttig de klart forkerte hentet hits og afdække yderligere gentagelser som beskrevet i trin 1.1.5.
7. Fortsætte med gentagelser indtil algoritmen, der ikke finder nogen relevante post eller den når konvergens (ingen nye poster er fundet). Hent listen over formodede gen familiemedlemmer til yderligere analyser. Visuelt inspicere de hentede hits i hver iteration at undgå tilstedeværelsen af falske positiver.
PSI-BLAST standalone version
1. Download den enkeltstående version af BLAST ved at klikke på knappen "download BLAST" på BLAST hjem side¹³.
  Bemærk: Standalone BLAST software er en command line version af web-interface beskrevet før. Det gør det muligt for udførelse af PSI-BLAST søgning mod en brugertilpasset database til lokal- eller fjerncomputere. Desuden gør det muligt at søge med en pre-definerede Position specifikke Score Matrix (PSSM).

2. manuel kontrol familiemedlemmernes PSI-BLAST-identificerede

Flere justering
1. Indsamle de amino sure sekvenser tidligere identificeret i en FASTA-formateret fil og uploade den til MEGA software¹⁴ at gå videre med flere justeringen.
2. Åbne MEGA-softwaren, skal du klikke på knappen "Juster", klik på "Rediger/Build justering", klik på "Opret en ny justering", klik på "Protein".
3. Klik på "Rediger" justering i menuen og "Indsæt sekvens fra fil". Søg efter filen FASTA oprettet før og bekræfte upload af alle de adspurgte sekvenser.
4. Klik på "Justering" justering i menuen og "Tilpasning af muskel". Bruge standardparametre, klik på "Beregne" knappen og vente på afslutningen af flere justeringen.
5. Inspicér visuelt flere justeringen for at udelukke forkert forudsagte familiemedlemmer. Den kanoniske CxxC (13 x) PxCxHxxHxxCxxxW (7 x) CxxCW motiv, (navnlig tilstedeværelsen af prolin rester før den tredje cystein) er hovedaksen, krævede at definere ATL familiemedlemmer.
Analyse af særlige LOGO
1. Forelægge den endelige liste over familiemedlemmer (96 grapevine sekvenser opfylde kravene til at blive betragtet som ATL) i flere Em for motiv udvikling (MEME)¹⁵ at definere bevarede motiver i hele familien.
2. Klik på knappen "TESEN" fra startsiden MEME, og komplet "Data indsendelse Form" med særlige oplysninger om familien af interesse.
3. Bruge MEME analyse til at bekræfte tilstedeværelsen af de to forventede blomstermotiver i grapevine ATL familiemedlemmer, dvs, RING-H2 og GLD motiver.
Alternativt, skal du udføre trin 2.1 og 2.2 samtidigt ved hjælp af Bioinformatik software suite (Se Tabel af materialer).
1. Uploade FASTA fil (Se trin 2.1.1) i suiten. Vælg "Fil" menu, og derefter "Import" og klik "fra fil". Gennemse filen FASTA og klik på "Åbn".
2. Vælg alle de importerede sekvenser i listen og klik på "Juster/samle" knap i værktøjslinjen, og klik derefter "Parvis flere justering". Vælg "Muskel justering" og klik "OK" for at starte justering ved hjælp af standardparametre.
3. At visualisere logoet for justeringen, skal du klikke på "Grafer" → "indstillinger" og vælge "Sekvens Logo".

3. analyse af Protein fysiske parametre og domæner

Definitionen af de forskellige fysiske parametre af de adspurgte familiemedlemmer er vigtigt at have en omfattende beskrivelse af familien, forelægge listen over familiemedlemmer til specifikke Webværktøjer.
1. For isoelektriske punkt (pI) og molekylvægt (kDa), så brug ProtParam værktøj¹⁶ Expasy hjemmeside med standardparametre.
2. For protein subcellulært lokalisering, bruge forskellige værktøjer til at opnå en mere pålidelig forudsigelse som ngLOC v1.0¹⁷ med standardindstillingerne, targetP v1.1¹⁸ med standardindstillingerne, og protein prowler subcellulært lokalisering v1.2¹⁹med en cut-off af sandsynlighed i 0,5. For fosforylering websteder, skal du bruge MUsite v1.0 web værktøj²⁰ med standardparametre.
Undersøge ekstra protein domæner i familiemedlemmer.
1. Åbne Pfam database webside²¹, Vælg "sekvens søgeværktøj", indsende protein sekvenser i boksen forespørgsel, og klik på "Go" til at køre analysen.
  Bemærk: Hvert protein sekvens er analyseres individuelt. En e-værdi på 1,0 i standardindstillingen giver skelner mellem væsentlige og ikke-væsentlig hits.
2. Åbn TMHMM Server²² fra Center for biologisk Sekvensanalyse at undersøge forekomsten af formodede transmembrane regioner.

Indsæt alle protein sekvenser samtidigt i boksen forespørgsel (eller alternativt uploade et tekstfil, herunder alle protein sekvenser i FASTA format) og klik på "Send" for at køre analysen.

Analysere proteiner mangler forventede transmembrane domæner, ifølge TMHMM (trin 3.2.2), med ProtScale værktøj til at identificere formodede hydrofobe regioner. Åben ProtScale webside²³. Indsæt hvert protein sekvens i boksen forespørgsel, og vælg "Hphob. / Kyte & Doolittle "som aminosyre skala. Klik på "Send" for at køre analysen.

4. kromosomale Distribution, gengangere og Exon-intron organisation

Kort ATL familiemedlemmer på kromosomerne bygger på oplysninger hentet fra Grapevine Genome CRIBI Biotech Center hjemmeside²⁴.
1. Gennemse PhenoGram hjemmeside hjemmeside²⁵. Skrive "Input-fil" som en tabulatorsepareret tekstfil med de specifikke funktioner i generne, der kan kortlægges på kromosomerne, efter den udtømmende retningslinjer og eksempler vedrørende udarbejdelsen af den angivne fil efter stien "Phenogram" → " Dokumentation"→"Indstillinger"→"inputfil".
2. Skrive "Titel" af arbejdet. Vælg genom skal tegnes. For genomer ikke implementeret i software, såsom grapevine genome, skal du vælge "andet" i drop-down menuen. Skrive filen genom retningslinjer og eksemplerne, efter stien "Phenogram" → "Dokumentation" → "Indstillinger" → "Genom", og uploade den.
3. Bruge standardparametre "Fænotype afstand", "Fænotype farve", "billedformat" eller vælge alternativer i de respektive menuer, og klik på "Plot" at få visualisering af gener på på kromosomer.
Definere tilstanden dobbeltarbejde familiemedlemmernes ved hjælp af MCScanX software²⁶.
1. Download og unzip en kopi af MCscanX på en lokal maskine kører kommandolinjer 1 (supplerende fil 1). Angiv mappen MCscanX og skabe den nødvendige eksekverbare kører kommandolinjer 2 (supplerende fil 1).
  Bemærk: Installation af MCscanX er kendt for at mislykkes på nogle Linux 64-bit computere på grund af et problem med hensyn til funktion chdir. Hvis en fejlmeddelelse returneres relateret til denne funktion ved at gøre kommandoudførelse, kommandolinjer 3 (supplerende fil 1) skal køres og kommandoen "make" bør forsøges bagefter.
2. Download V. vinifera proteiner og filen anmærkning kører kommandolinjer 4 (supplerende fil 1).
  Bemærk: Grapevine anmærkning fil behov at være unzipped og enkelt kromosomer oplysninger kat i en unik fil ved at køre kommandoen linjer 5 (supplerende fil 1).
3. Kør en "alle mod alle" blastp søge ved hjælp af filen V. vinifera protein som både forespørgslen og emnet.
4. Oprette en søgbar blast database ved hjælp af V. vinifera protein filen kører kommandolinjer 6 (supplerende fil 1). Foretage blastp søgning ved hjælp af filen V. vinifera proteiner som en forespørgsel mod den database oprettet tidligere ved at køre kommandoen linjer 7 (supplerende fil 1).
5. Konvertere filen anmærkning i et passende format for MCScanX. Køre kommandolinjer 8 (supplerende fil 1) til at hente brugerdefinerede perl script parseMSCanXgff.pl. Udføre analyse kører kommandolinjer 9 (supplerende fil 1).
  Bemærk: En fil vitis.gff genereres der holder gen koordinater i følgende format:
  SP # gen startpositionen slutpositionen
  hvor "sp" er en to-bogstavskode for arter (Vv for grapevine) "#" er navnet på skafottet. Bemærk, at den angivne brugerdefinerede perl script er velegnet til de fleste konvertering, selvom nogle kode ændring kan være påkrævet i nogle særlige tilfælde på grund af mangfoldigheden af oplysningerne i filen tilgængelig anmærkning.
6. Lancere MCScanX kører kommandolinjer 10 (supplerende fil 1).
  Bemærk: "vitis" er præfikset for både anmærkningen og blast output-fil. Dette repræsenterer et obligatorisk krav for software til at køre.
7. Analysere MCScanX resultater. MCScanX producerer en tekstfil "vitis.collinearity", som indeholder kolineære blokke. Sådan en fil kan kontrolleres af enhver teksteditor (se eksempel output 1 supplerende fil 1).
  Bemærk: En "mcscaxOutput.html" mappe genereres der indeholder HTML-filer med flere tilpasninger af kolineære blokke mod hver reference kromosom. Disse filer kan inspiceres via en webbrowser.
8. Klassificere paralogous gener baseret på deres relative positioner i kromosomer kører kommandolinjer 11 (supplerende fil 1).
  Bemærk: Paralogous gen klassificering er beskrevet i Supplerende tabel II. Den genererede outputfil "vitis.gene_type" indeholder alle oprindelsesoplysninger med en simpel tabulatorsepareret format.
9. Udføre berigelse analyse til at vurdere, om familien gen har mest stammer fra en bestemt mekanisme kører kommandolinjer 12 (supplerende fil 1).
  Bemærk: Filen "vitis.gene_type" er genereret på trin 4.2.8, mens filen "gene_family_file" repræsenterer en én linje tekstfil hvori navnet på familien (f.eks.ATL_genes) er efterfulgt af locus navne for de alle de gener, der tilhører familien adskilt af en tabulator. De anvendte statistiske test for berigelse er en Fisher eksakt test og p-værdier af forskellige oprindelser gemmes i filen "outputFile.txt".
Visualisere exon-intron organisationen i gener ved hjælp af interaktive Tree Of Life (iTOL)²⁷, en on-line værktøj for display, Kommentering og forvaltning af evolutionstræer.
1. Uploade en Fylogenetisk træ i afsnittet "Upload" på iTOL hjemmeside. Træet er bygget i henhold til punkt 5 nedenfor. For hvert familiemedlem gen, skal du hente gen struktur forudsigelse fra V1 anmærkning for grapevine genome (CRIBI hjemmeside citeret ovenfor). Beregn længden (i bp) af formodede exons, introner og utranslaterede regioner (UTRs).
2. Brug "Protein domæner" datasæt for grafisk visualisering af exon-intron mønster.

Skrive en almindelig tekstfil herunder beregnede længder efter specifikationerne efter stien "Hjælpe" → "hjælpesider" → "Datasæt typer" → "Protein domæner" i iTOL hjemmeside²⁷. "Protein domæner" datasæt, "rektangel (RE)" og "rektangel hul (GP)" figurer, der repræsenterer exon og UTRs, henholdsvis.

5. Fylogenetisk analyse og nomenklatur

Analysere forholdet mellem ATL familiemedlemmer gennem opførelse af en høj kvalitet Fylogenetisk træ og definitionen af en familie nomenklatur.
1. For en grapevine gen familien, Følg reglerne fastsat Grapevine Super Nomenklaturudvalget⁸.
2. Hente A. thaliana ATL sekvenser, der kræves som reference for grapevine gen nomenklatur⁸, fra UniProt database²⁸ .
3. Skrive en FASTA fil herunder alle nukleotidsekvenser grapevine og A. thaliana gen familiemedlemmer skal indgå i den Fylogenetisk analyse. Nukleotidsekvenser tillade maksimalt variation blandt familiemedlemmer (i forhold til protein sekvenser).
Fylogenetisk træ
Bemærk: Brug af Phylogeny.fr ²⁹ rørledningen er anbefalet at få en høj kvalitet Fylogenetisk træ, men ikke obligatorisk.
1. Gennemse Phylogeny.fr hjemmeside²⁹, og vælg "Fylogeni analyse" pipeline.
  Bemærk: "Ét klik" er velegnet i de fleste tilfælde, men hvis behov det er muligt at vælge bestemte avancerede indstillinger ("Avanceret") eller endda en fuldt tilpassede analyse ("a la Carte"; Se trin 5.2.5).
2. Skrive "Navnet på analysen", uploade FASTA-fil oprettet tidligere (trin 5.2.1, og klik på "Send" for at køre analysen.
3. Alternativt, hvis proceduren beskrevet ovenfor (trin 5.2.1, 5.2.2) resulterer i en fejlmeddelelse, komplet hvert trin af fylogeni suite pipeline individuelt, som følger.
  1. MUSKEL software hjemmeside³⁰Vælg upload filen FASTA i "Trin 1", "Pearson/FASTA" som "Outputformat" i "Trin 2", og klik på "Send" i "Trin 3" for at justere forespørgslen sekvenser.
  2. Klik på "Download justering fil" og gemme som FASTA fil for yderligere skridt.
  3. Processen justering FASTA fil hen til eliminere dårligt justeret positioner ved hjælp af Gblocks Server værktøj³¹. Upload filen justering FASTA, vælger "DNA" som"sekvens" og valgte indstillingerne af strenghed, der passer bedst til analyse (f.eks.for grapevine ATL gen familie Vælg alle tre muligheder foreslået for "mindre strenge selection" fordi af høj sekvens divergens). Klik på "Få blokke" at køre analysen.
  4. Klik på "Resulterende justering" nederst på siden output og gemme resultaterne som en ny FASTA.
  5. Phylogeny.fr hjemmeside²⁹, Vælg "A la Carte" som "Fylogeni analyse" pipeline. Fravælg "Flere justering" og "Justering datasikring". Klik på "Opret arbejdsgang", uploade filen Gblocks-kurateret FASTA (trin 5.2.5.4), Vælg "Bootstrapping procedure" med standardparametre i "Indstillinger" og klik "Send" for at køre analysen.
4. Sammenbrud dårligt støttet grene (dvs., bootstrap værdier < 70%) ved at klikke på "Skjule grene" i afsnittet "Vælg og handling" og hente de endelige resultater i formatet Newick til yderligere analyser.
Tildele et gen navn baseret på fylogeni.
1. Anmeld den Fylogenetisk træ for at evaluere pålideligheden af træstrukturen ved at uploade det i den iTOL suite dommen (afsnit 4.3).
2. Tildele manuelt et gen navn til hvert familiemedlem. For en til en-orthologues, tildele Arabidopsis-ligesom navn (f.eks.AtATL3 → VviATL3). Differentiere grapevine gener (to eller flere) der hidrører fra en enkelt Arabidopsis homolog med den samme fylogenetiske afstand med numre, bogstaverne eller hvis Arabidopsis gen slutter med et tal (f.eks.AtATL23 → VviATL23a, VviATL23b).
3. For en-til-mange eller mange-til-mange orthologues, tildele et nyt gen navn består af Arabidopsis-ligesom navnet (her, "ATL") parret med et nummer højere end det højeste antal allerede bruges til både V. vinifera og Arabidopsis (fx., VviATL83).
4. Komplet nomenklatur af familien nydefinerede faldende fra toppen til bunden af den Fylogenetisk træ.

6. grapevine orgel og fase udtryk profilering

Generere arbejder data matrix indeholdende udtryk data for familiemedlemmer.
1. Download V. vinifera cv. Corvina gene expression Atlas datamatrix fra linket fordelt på ResearchGate platform³². Denne fil indeholder RMA normaliseret udtryk værdier skal bruges i næste foranstaltninger.
2. Uddrag udtryk værdier for hver familie gen fra Atlas datamatrix og skrive et "arbejdende datamatrix" indeholdende samme overskriftsrækken som Atlas datamatrix. Gemme "arbejdende datamatrix" som en tabulatorsepareret tekstfil.
Udføre den hierarkiske bi-grupperet analyse ved hjælp af Multi eksperiment Viewer (MeV) software.
1. Hent og Installer MeV software³³.
2. Uploade "arbejdende datamatrix" (trin 6.1.2) efter stien "Fil" → "Indlæs Data" → "Gennemse" og vælg tekstfilen. Vælg "Single-color matrix" og fjerne kryds fra "Load Annotation", når en automatisk anmærkning ikke er fastsat. Vælg øverst til venstre udtryk værdien af eksempeltabellen udtryk og klik på knappen "Belastning".
3. Justere data anvender Log2 transformation ("Justere Data" → "Log transformationer" → "Log2 Transform") og gen/række normalisering ("Justere Data" → "Gen/række justeringer" → "Median Center gen/række"). Indstillet korrekt skala grænse ("Vise" → "angive farve skala grænser").
4. Beregne den hierarkiske klyngedannelse efter stien "Analyse" → "Klyngeopbygning" → "HCL".

Vælg "Optimere gen blad orden" og "Optimere prøve blad orden" i "Bestilling optimering felt", "Pearson korrelation" i "Afstand Matrix valgfelt", og "Gennemsnitlige kobling clustering" i feltet "Linkage metode udvalg". Klik derefter på "OK" for at køre analysen.

Se resultaterne i "Analyseresultater" → "HCL" menuen på panelet til venstre i vinduet. Eksportere varmekort ved at klikke på "Gem billede" i menuen "Filer".

7. udtrykket profilering i svar til biotiske og abiotiske understreger

Gentag trin 6.1 med GSE tiltrædelse ID fremstillet af publikationer og undersøgelser undersøger biotiske og abiotiske stress på grapevine. For eksempel, kan eksperimenter giver transkriptom profil grapevine bær inficeret med svampe patogen Botrytis cinerea ved hjælp af NimbleGen drue Whole-genome microarray gennemses med GSE ID for GSE52586. Gentag trin 6.1.1 og 6.1.2.
Søg NCBI sekvens læser arkiv³⁴ med SRA/BioProject ID (f.eks.SRP055458 eller PRJNA275778 for "grapevine blomst skygge" eksperimenter) og hente alle tilknyttede rå sekvens læser. RNA-seq datasæt fra mange forskellige undersøgelser behandles ved hjælp af en enkelt rørledning til konsistens.
1. Kort, trim rå sekvens FASTQ læser (enkelt - og par-ende) og filtrere kvalitet med Trimmomatic³⁵. Brug en AVGQUAL og MINLEN filter på 20 og 40, henholdsvis og alle parametre standard.
2. Indeksere 12 X grapevine reference genom¹ ved hjælp af Bowtie2³⁶. Download den 12 X grapevine reference genom (fx, bowtie2-build) før du kører bowtie2 kommando.
3. Få count matrix tabeller med htseq-count³⁷ ved hjælp af filen grapevine V1 gen model annotation (GFF/GTF).
Udføre differential gen udtryk (re-) analyse i R³⁸ med limma³⁹ biblioteker for RMA-normaliseret matricer og DESeq2⁴⁰ biblioteker for Grev matrix tabeller fremstillet af trin 7.1.1 og 7.2.1, henholdsvis.
1. Udføre en standard "to-gruppe" sammenligning (dvs., "behandling" / "kontrol"). Sikre, at design matrix/grupperinger af "kontrol" og "behandling" betingelser angives korrekt.
  NOTE: Et typisk design for microarray differential udtryk analyse (GSE52586) at sammenligne EL-33 bær inficeret med Botrytis cinerea mod kontrol (sund) bær under samme udvikling med limma kører kommandolinjer 13 er vist i supplerende fil 1. En typisk design for RNA-seq differential udtryk analyse (SRP055458 eller PRJNA275778) til at sammenligne blomst (på 7 dage efter cap-fall) under skyggen behandling mod kontrol med DESeq2 kører kommandolinjer 14 er vist i supplerende fil 1 .
2. Få lister af varierende udtrykte gener (DEG) i hver kontrast, for limma, brug de funktioner lmFit(), efterfulgt af eBayes(), og derefter af topTable() funktioner, mens det for DESeq2, Brug DESeqDataSetFromMatrix(), DESeq()og results() funktioner. Nedenfor, en typisk arbejdsproces skal følges.
  1. For microarray differential udtryk analyse, se kommandolinjer 15 (supplerende fil 1). RNA-seq differential udtryk analyse finder kommandolinjer 16 (supplerende fil 1). Gentag trinene ovenfor for alle andre kontraster med forskellige passende design skema (se eksempler i trin 7.3.1)
Fra lister over DEGs genereres uddrag alle rækker, der ikke svarer til ATL V1 tiltrædelse, bevare kolonner, der indeholder log2 Fold ændringer (behandling/kontrol) > | 0,5 | og justeret p-værdier (FDR) < 0,05, og Flet dem derfor til en tabel, matrix, hvorvidt en undersøgelse falder ind under "abiotiske" eller "biotiske/patogen interaktion" kompendier.
Konstruere den hierarkiske grupperet heatmaps (abiotiske og biotiske kompendier) i R ved hjælp af biblioteker gplots.
Bemærk: At kalde funktionen heatmap.2 konstruerer heatmap sammen med række dendrograms fra de respektive matrix tabeller. Yderligere argumenter bruger cellnote funktion hjælper med at skelne varierende udtrykt (log2FC > 0,5, FDR < 0,05) ATL gener i hver sammenligning på tværs af en lang række eksperimentelle betingelser ved en * symbol. Anvendelse af typiske arbejdsprocessen i R kører kommandolinjer 17 (supplerende fil 1) eller alternativt, Gentag trin 6.2.2 til 6.2.5 for at konstruere heatmaps bruger MeV software.

8. analyse af forholdet mellem Paralogous sekvens divergens og genekspression Co

Konstruere den matrix, der indeholder parvise lighed. Elementerne i matrixen lighed er værdier af sekvens lighed beregnet ud fra de parvise protein tilpasninger.
1. Bruge PRÆGNING nål web server⁴¹ med standardindstillingerne til at foretage parvis sekvens alignments og gemme som tekstfil. Åbn filen output tekst og fjerne alle bemærkningslinjer sammen med kolonne og række navne til at generere en fil kaldet "similarityTable.txt".
  Bemærk: Sådan en tabel indeholder en linje for hver ATL gen rapportering med lighed værdierne beregnet i hver af de parvis alignment. Rækkefølgen af loci i rækker og kolonner er den samme, så at en symmetrisk matrix er genereret med respekt af de diagonale værdier.
Konstruere matrix med co udtryk data ved beregning af Pearson korrelationskoefficienten. Følgende fremgangsmåde kræver Rasmussen og perl modul PDL.
1. Download udtryk værdierne for de 96 ATL gener kører kommandolinjer 18 (supplerende fil 1) i en terminal. Udføre en co udtryk analyse ved hjælp af en brugerdefineret perl-script, der kan downloades ved at køre kommandoen linjer 19 (supplerende fil 1). Sådan script vil beregne Pearson korrelationskoefficienten mellem to af ATL loci som tidligere rapporteret.
2. Start scriptet kører kommandolinjer 20 (supplerende fil 1) og følg instruktionerne output.

Scriptet vil producere en output-fil (nemlig "coexpressionTable.txt") som indeholder en fælles udtryk matrix byder på samme locus navne rækkefølgen af matrix fremstillet i trin 8,1 (denne bestilling er afgørende for at køre Mantel test, se nedenfor).

Udføre en Mantel test mellem data matricer er fremstillet i trin 8.1 og 8.2. Efter indtastning R miljøet (køre kommandoen "R" fra en terminal), indlæse biblioteket ade4 ved hjælp af følgende kommando: library(ade4)

Køre Mantel test ved at indlæse to data matricer og udføre statistik kører kommandolinjer 21 (supplerende fil 1), med "nrep" der repræsenterer antallet af permutationer. Testen består af beregne korrelationen mellem elementer af disse matricer, permuting matricer og derefter beregning af samme prøvningsstatistikken igen.
Bemærk: Alle de opnåede værdier af statistik test bruges til at opbygge en reference distribution af statistik test, som vil blive brugt til at beregne en p-værdi til at teste for betydning. Antallet af permutationer definerer præcision som p-værdi kan opnås.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

VIT_05s0077g01970 gen, identificeret som den mest svarende til A. thaliana ATL2 (At3g16720) gennem en BLASTp søgning, blev brugt som sonden til undersøgelse ATL familiemedlemmer i grapevine genome (V. vinifera cv Pinot Noir PN40024). PSI-BLAST analyse konvergeret efter et par cykler afslører en listen over formodede gener tilhører grapevine ATL gen familien (figur 1A). Tilstedeværelsen af de kanoniske RING-H2 domæne for hver kandidat blev evalueret ved besigtigelse af muskel justeringen af alle poster, der er identificeret i analysen (figur 1B). Kun de gener, der indeholder de korrekt afstand bevarede aminosyrer samt de to histidinrester og prolin rester før den tredje cystein blev betragtet som ATLs efter den oprindelige ATL definition i Arabidopsis⁵. Ialt 96 grapevine gener opfyldt kravene og blev anset for yderligere karakterisering. Hver ATL familiemedlem blev analyseret for at definere de særlige karakteristika ved genet og den tilsvarende kodet protein, dvs., tilstedeværelsen af andre kendte domæner ud over RING-H2, transmembrane eller hydrofobe rige regioner, subcellulært lokalisering og formodede fosforylering websteder (tabel 1 og tabel 2).

Figur 1: PSI-BLAST undersøgelse og tilpasning af formodede grapevine ATLs. (A) Screenshot af top 10 hits fra den første PSI-BLAST iteration søgning ved hjælp af protein sekvens VIT_05s0077g01970 som madding. (B) del af tilpasningen af de 96 valgte grapevine formodede ATLs viser deres RING-H2 domæne og den tilsvarende LOGO fremstillet ved hjælp af en suite af molekylær biologi (Se Tabel af materialer). Gengivet fra Ariani et al. licenseret under en Creative Commons Attribution 4.0 International licens⁴².Venligst klik her for at se en større version af dette tal.

Navn	Gen-ID	Genet længde (bp)	Intron antallet	UniProt-ID	Protein længde (aa)	RING-H2 motiv	TM/H domæne antallet	Andre domæner
VviATL3	VIT_09s0002g00220	1245	0	F6HXK6	304	PxC	1
VviATL4 [VviRHX1A]	VIT_15s0021g00890	1827	3	D7SM36	203	PxC	0
VviATL18	VIT_11s0118g00780	1113	2	F6HCI8	193	PC	0
VviATL23a	VIT_18s0001g01060	935	0	F6H0E4	114	PxC	0,5
VviATL23b	VIT_18s0001g01050	399	0	E0CQX3	132	PxC	1
VviATL24	VIT_17s0000g06460	4466	4	D7SI89	217	PxC	1
VviATL27	VIT_00s0264g00020	2554	4	D7T1R5	235	PxC	1
VviATL43	VIT_11s0052g00530	1576	2	D7SQD9	457	PxC	3
VviATL54a	VIT_18s0001g06640	3221	1	F6H0Y5	405	PxC	1
VviATL54b	VIT_03s0017g00670	2774	1	F6HTI0	427	PxC	1
VviATL55 [VviRING1]	VIT_07s0191g00230	1844	0	F6HRP9	372	PxC	1
VviATL63	VIT_06s0004g06930	804	0	D7SJU6	267	PxC	1
VviATL65	VIT_03s0063g01890	2068	0	F6HQI8	396	PxC	1
VviATL82	VIT_01s0026g02540	820	0	F6HPQ9	233	PC	0,5
VviATL83	VIT_17s0000g08400	1887	0	F6GSQ4	143	PC	0
VviATL84	VIT_06s0004g00120	1853	0	F6GUP5	368	PC	0,5	ZF-RING_3
VviATL85	VIT_12s0034g01400	786	0	F6H965	261	PC	0,5
VviATL86	VIT_12s0034g01390	1434	1	D7T016	451	PC	0,5
VviATL87	VIT_18s0001g03270	1002	0	F6H0T2	333	PC	0,5	ZF-RING_3
VviATL88	VIT_08s0040g00590	1320	0	F6HQR2	314	PC	0	ZF-RING_3

Tabel 1: første 20 VviATL gener og sekvens Karakteristik af de tilsvarende proteiner. TM: transmembrane; H: hydrofobe; 0.5 indikerer tilstedeværelsen af en eller flere hydrofobe regioner. Gengivet fra Ariani et al. licenseret under en Creative Commons Attribution 4.0 International licens⁴².

Table 2
Tabel 2: detaljer på de første 20 VviATL gen position i V. vinifera genom, dobbeltarbejde stat, og ATL protein fysisk-kemiske egenskaber og placering. (en) antallet af fosforylering sites forudsagt af Musite; (b) lignende forudsigelser fremstillet med mindst to software er fremhævet i fed; ngLOC blev brugt med standardindstillingerne, hvorimod TargetP v1.1 og Protein Prowler subcellulært lokalisering blev brugt med en cut-off af sandsynlighed i 0,5. NUK, kernen; MIT, mitokondrier; CHL, grønkorn; PLA, plasma membran; Sørensen, sekretorisk pathway (tilstedeværelse af en signal-peptid); Møller, mitokondrier; C, grønkorn; O - eller, andre steder; nd, ikke fastlægges (dvs., værdi under tærsklen). Gengivet fra Ariani et al. licenseret under en Creative Commons Attribution 4.0 International licens⁴². Venligst klik her for at downloade denne fil.

En Fylogenetisk analyse herunder nukleotidsekvenser af identificerede grapevine ATL-kodning gener med sekvenser af reference A. thaliana ATL gen familie blev brugt til grapevine ATL nomenklatur, ifølge retningslinjerne fra sNCGGa⁸. Seksoghalvfems og 83 nukleotidsekvenser fra V. vinifera og A. thaliana, henholdsvis, blev udsat for Phylogeny.fr rørledning til at opnå en pålidelig Fylogenetisk træ.De sidstnævnte sekvenser blev senere brugt til at anmærke og navngive grapevine gener på grundlag af solide relationer (figur 2). 13 ud af 96 grapevine ATLs modtaget efter denne tilgang, et bestemt id, i betragtning af deres individuelle orthology med en A. thaliana ATL. Navnene på de andre 83 gener blev tildelt baseret på Fylogenetisk træ, med en progressiv nummerering fra top til bund, start fra en ATL gen nummer højere end det højeste antal anvendte i A. thaliana.

Figur 2: Fylogenetisk træ af V. vinifera og A. thaliana ATL E3 ubiquitin ligase-kodning gener. Urodede træet blev genereret med Phylogeny.fr suite (V. vinifera (med grønt) og 83 ATL gener af A. thaliana rapporteret i UniProt database (i gult). Gren støtte værdier blev indhentet fra 100 bootstrap replikater. De røde stjerner angiver tilstedeværelsen af en BCA2 zink finger (BZF) domæne i de tilsvarende proteiner. Gengivet fra Ariani et al. licenseret under en Creative Commons Attribution 4.0 International licens⁴². Venligst klik her for at se en større version af dette tal.

Kortlægning ATL-kodning gener til grapevine kromosomer viste en bred distribution i hele genom, antyder hele-genome dobbeltarbejde som den store evolutionære kraft i udbygningen af ATL gen familie i grapevine. Faktisk blev 31 ATLs fundet i homologe kromosomale områder potentielt stammer fra segmental eller hele genome dobbeltarbejde begivenheder. Desuden, den samme analyse fremhævet 13 tandemly duplikerede gener, en proksimal dublet og 51 spredte dubletter (figur 3). I betragtning af det meget store antal duplikerede gener i familien ATL udført vi en berigelse test (Fisher eksakt test) for at kontrollere den præferentielle fastholdelse af de duplikerede gener i genomet fraktionering. Med en p-værdi < 0,001, denne test bekræftede den hypotese, at duplikeres ATL gener blev tilbageholdt mere end tilfældigt forventet, hvilket tyder på en rolle for familien ATL gen under grapevine tilpasning og udvikling.

Figur 3: Grapevine ATL-kodning gen distribution på V. vinifera kromosomer og dobbeltarbejde tilstand. 96 grapevine ATL gener med nøjagtige kromosomale oplysninger tilgængelige i databasen var tilknyttet de 19 V. vinifera kromosomer. Farverne angiver hændelsen oprindelige dobbeltarbejde. Lodrette sorte streger og røde linjer identificere par stammer fra tandem gengangere og hele genome dobbeltarbejde, henholdsvis. Gengivet fra Ariani et al. licenseret under en Creative Commons Attribution 4.0 International licens⁴². Venligst klik her for at se en større version af dette tal.

For at yderligere for at undersøge de formodede biologiske funktioner af ATLs i grapevine, blev en meta-analyse udført på V. vinifera cv. Corvina globale genekspression Atlas¹². Datasættet omfatter hele-genom udtryk værdier af 54 forskellige grapevine organer og udviklingsstadier og blev brugt til at udføre en hierarkisk bi-grupperet analyse. Resultater ikke kun bekræftet at alle 96 ATLs blev udtrykt i mindst én af de 54 væv/faser, men også påpeget tilstedeværelsen af fem vigtigste klynger af udtrykket profiler (figur 4A). Kort, klynger A og E viste overfor adfærd, især først er kendetegnet ved en generel downregulation af ATL gener i juvenile prøver, herunder berry vorden, unge blade, slyngtråde, Blomsterstanden og de fleste af bud faser. På den anden side i den samme klynge A, modne prøver som bær på modning og efter høst visnesyge stadier, woody væv og sene stadier af frø udvikling ATL gener viste en fremherskende Opregulering. Gener i klynge C var hovedsagelig downregulated i de fleste af prøverne, mens ATL gener i klynge D var ofte upregulated i sene faser af berry udvikling. Endelig, klynge B ikke udviste nogen relevante variation i udtrykket profiler.

En lignende fremgangsmåde blev anvendt til at studere udtryk for grapevine ATL familie medlemmer i svar til biotiske og abiotiske understreger, ved hjælp af specifikke datasæt bygget til dette formål. En enorm mængde af udtryk data fra microarray og RNA-seq eksperimenter er tilgængelige fra offentlig adgang databaser såsom gen Expression Omnibus (GEO) og ArrayExpress. Når indsamlet og bekvemt normaliseret, blev oplysninger udnyttet til yderligere indsigt i den potentielle funktion af ATLs plante svar på understreger. Analysere udtrykket profiler af grapevine ATLs svar på biotiske understreger afslørede, at 62 ud af 96 udskrifter viste en betydelig graduering (log2 fold-change (FC) > | 0,5 |) i mindst to betingelser, med en falsk opdagelse sats (FDR) < () 0,05 Figur 4B). Antallet øges til 81 overvejer kun FDR tærsklen i en enkelt betingelse. Disse resultater antydet kraftigt en direkte inddragelse af familien ATL gen i svaret til patogener også i grapevine. Navnlig en gruppe af 12 gener (VviATL3-27-54b-55-90-97-123-144-148-149-156) var stærkt upregulated som svar på de fleste patogener, herunder biotrophic og necrotrophic svampe og planteædere, og således fortjener opmærksomhed for yderligere funktionelle analyser.

Figur 4: hierarkiske clusteringof ATL genekspression i grapevine Atlas og i grapevine biotiske stress-relaterede datasæt. (A) log omdannet udtrykket værdier af grapevine ATL gener i grapevine Atlas¹² blev brugt til hierarkisk cluster analyse baseret på Pearsons afstand metriske. Farve skala repræsenterer højere (rød) eller nederste (grøn) udtryk niveauer med hensyn til den mediane udskrift overflod af hvert gen på tværs af alle prøver. Bogstaverne A til E til højre viser de forskellige klynger identificeres.AB: efter brast; B: brast; bud-W: vinter bud; F: blomstrende; FB: blomstringen begynder; FS: frugt sæt; G: grøn; Hr.: mid-modning; PFS: efter frugt sæt; PHWI-II-III: efter høst visnesyge 1, 2 og 3 måneder; R: modning; S: senescent; stilk-W: træagtige stængel; V: veraison; WD: veludviklet; Y: unge. (B) farven skala repræsenterer øget (rød) eller faldt (blå) fold ændringer af grapevine ATL genekspression i inficerede prøver i forhold til kontrol for hver betingelse. Stjerner angiver den betydelige differential udtryk (FDR < 0,05) af hver ATL på tilsvarende betingelser. Gengivet fra Ariani et al. licenseret under en Creative Commons Attribution 4.0 International licens⁴². Venligst klik her for at se en større version af dette tal.

Supplerende tabel 1: ATL gener kandidater til alternativ splicing. (en) ATL gen ID V1 drue gen forudsigelse og kommentering, (b) ATL gen ID ifølge den V2 drue gen forudsigelse og annotation⁴³, (c) antal formodede ATL alternative splejsning varianter, (d) oplysninger om kodende sekvens af hver formodede ATL variant. Venligst klik her for at downloade denne fil.

Supplerende tabel 2: Venligst klik her for at downloade denne fil.

Supplerende fil 1: Venligst klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

I genomisk æra, har mange gen familier været dybt præget i flere plantearter. Denne information er forud funktionelle studier og giver en ramme for at undersøge yderligere rolle på forskellige medlemmer i en familie. I denne forbindelse er der også behov for en nomenklatur system giver mulighed for entydigt at identificere hver medlem i en familie og at undgå redundans og forvirring, der kan opstå, når navne er tildelt uafhængigt forskellige gener af forskellige forskergrupper.

Efter tankevækkende overvejelser, grapevine videnskabelige samfund aftales navn grapevine gener i en familie, der er baseret på ligheder med Arabidopsis gener og fastlægges en række regler, der skal anvendes til at beskrive nye gen familier i grapevine, Dybest set med udgangspunkt i den fylogenetiske sammenligning af nukleotidsekvenser mellem grapevine og Arabidopsis familiemedlemmer⁸. Derfor kan kun gener, der er allerede kommenteret og navngivet korrekt i Arabidopsis bruges i grapevine nomenklatur. Den procedure, der anvendes til identifikation af grapevine ATL orthologues i Arabidopsis beskrevet her var derfor foretages udelukkende for at opfylde kravet om at tildele den korrekte grapevine gen familie nomenklatur. Ikke desto mindre for andre plantearter, kunne alternative tilgange være en mulighed. Eksempelvis orthology kunne udledes ved hjælp af en tovejs BLAST hits (BBH), hvor orthologues defineres som par af gener hos to arter, der ligner hinanden mere (dvs.med højeste alignment score) til en anden end nogen andre gen i den anden arter⁴⁴. Men denne metode kunne gå glip af mange orthologues ved høj rate af genet dobbeltarbejde, som i planter og dyr⁴⁵. Desuden, i tilfælde af ATL-kodning gener, BBH kan hente gener mangler præcise ATL-type RING-H2 struktur (herunder prolin resten) eller gener, der ikke er kommenteret og navngivet som ATLs i Arabidopsis. Fra et evolutionært perspektiv denne søgning er relevante, ville hentning af orthologues, der ikke er annoteret ikke have opfyldt anvendelsesområde grapevine ATL gen familie annotation og nomenklatur og orthologues, der ikke er kommenteret som ATLs kan ikke bruges til navnet grapevine familiemedlemmer. En anden mulighed er at udlede orthology baseret på aminosyre i stedet for nukleotidsekvenser ved hjælp af InParanoid⁴⁶, eller den seneste Hieranoid 2⁴⁷, omend disse arbejdsprocesser, ikke anbefales udtrykkeligt af det videnskabelige samfund.

Udtrykket meta-analyse, som kan defineres som en systematisk tilgang til at studere og kombinere forskellige offentligt tilgængelige datasæt repositories udtryk data, tillader fremhæve delte og forskellige molekylære mekanismer i en række betingelser. Således, integration af gen expression information fra flere storstilede transkriptom eksperimenter kan forbedre karakterisering af et gen familie, ved at definere udtrykket profiler af familiemedlemmerne på tværs af eksperimenter, hvilket minimerer den virkningen af eksperiment-specifikke faktorer og støtte en mere robust antagelse af formodede genfunktion i særlige processer. Men brugen af microarray data kræver integration af udtryk data indhentet med forskellige platforme, i betragtning af deres egne begrænsninger. For eksempel, i grapevine Nimblegen microarray platform, en betydelig del af probesets for tilsvarende gener repræsenteret på arrayet (~ 13.000 gener) har potentielt cross-hybridisering spørgsmål⁴⁸. For familien grapevine ATL kan 15 gener påvirkes af sådanne fænomen. Dog, som omtalt af Cramer et al. ⁴⁸, cross-identifikation af meget lignende gen familiemedlemmer af samme sonden kunne give interessante oplysninger om udtryk, i specifikke betingelser, ikke kun af et enkelt gen, men af to til flere gener deling høj sekvens ligheder, og dermed potentielt sharing mål og funktioner. En anden potentiel spørgsmål relateret til microarray datasæt er expression detektionsgrænsen af microarray platforme, som ikke er meget følsomme. At løse begge vedrører, dvs., cross-hybridisering og signal følsomhed, en mulig løsning kunne være at overveje kun RNAseq udtryk datasæt. Men metaanalyse af RNAseq data af meget store datamængder fra mange forskellige undersøgelser kan blive meget tidskrævende og kan kræve mange it-ressourcer og høj ekspertise.

Selvom tilgangen præsenteres her sigter mod at være udtømmende, kan det være sikkert yderligere suppleret med andre analyser. Først, for at opnå yderligere indsigt i molekylær evolution og fylogenetiske relationer blandt gen familiemedlemmer i planter, den Fylogenetisk analyse kunne udvides bygning en Fylogenetisk træ ved hjælp af flere sekvens alignments af familiemedlemmer fra flere plantearter. Det er også muligt at beregne den evolutionære tid af familiens gener, en vurdering af deres synonyme og ikke-synonym substitution priser under udviklingen, ved at bestemme værdierne Ks (antallet af synonymt udskiftninger pr. synonymt websted i en given periode af tid) og Ka (antal nonsynonymous udskiftninger pr. ikke-synonym sted i samme periode). Ka/Ks forholdet bruges til at udlede mekanismerne af genet dobbeltarbejde begivenheder efter afvigelse fra deres forfædre. En værdi af Ka/Ks = 1 antyder neutral udvalg, en Ka/Ks værdi af < 1 antyder rensende udvælgelse, og en Ka/Ks værdi af > 1 tyder på positiv markering⁴⁹. Desuden, hvis genet struktur analyse afslører tilstedeværelsen af introns, gen familie karakterisering kan udvides til påvisning af alternativ splicing varianter. Faktisk, baseret på en dyb undersøgelse af RNA-seq data fra forskellige væv, stressforhold og genotyper⁴³, 21 (af 96) ATLs er stærke kandidater til alternative splejsning begivenheder, med potentielle antal isoformer spænder fra 2 til 16 for disse ATLs (jf. Supplerende tabel 1). Alternative udskrifter producere ofte protein isoformer, der varierer i aminosyresekvenser og disse ændringer kan ændre egenskaberne cellulære proteiner og kan forårsage ændringer fra subtile graduering til tab af funktion af gen-produkt. Derfor har alternative splejsning begivenheder været involveret i vigtig plante funktioner, herunder stressrespons, sygdomsresistens, fotosyntese og blomstrende⁵⁰^,⁵¹.Integration af ATL gen promotor oplysninger, der indeholder formodede cis-regulerende elementer⁵² eller finde molekyler (fx, mikroRNA og længe ikke-kodende RNA) potentielt målretning ATLs⁵³ kan også suppleres til afsløre system indsigt i komplekse molekylære forordning og samspillet mellem grapevine ATLs.

Afslutningsvis, er valg af analyserne skal udføres samt procedurerne, der anvendes til at karakterisere en ny gen familie i en planteart primært drevet af videnskabelige samfund regler samt af omfanget af gen familie identifikation. Det er vigtigt at huske trinene muligt efterfølgende undersøgelse, som vil udnytte sæt oplysninger, blandt som omfatter gen evolution blandt plantearter, genom struktur beskrivelse eller pålidelige kandidater til valg i funktionelle undersøgelser.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ikke noget at oplyse.

Acknowledgments

Arbejdet var støttet af universitetet i Verona inden for rammen af fælles projekt 2014 (karakterisering af familien ATL gen i grapevine og af sin deltagelse i modstanden mod Plasmopara viticola).

Materials

Name	Company	Catalog Number	Comments
Personal computer
Basic Local Alignment Search Tool (BLAST)			https://blast.ncbi.nlm.nih.gov/Blast.cgi
Molecular Evolutionary Genetics Analysis (MEGA)			http://www.megasoftware.net/
Motif-based sequence analysis tools (MEME)			http://meme-suite.org/
Geneious	Biomatters Limited		http://www.geneious.com/
ProtParam Tool			http://web.expasy.org/protparam/
ngLOC			http://genome.unmc.edu/ngLOC/index.html
TargetP v1.1 Server			http://www.cbs.dtu.dk/services/TargetP/
Protein Prowler			http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/
MUsite			http://musite.sourceforge.net/
Pfam			http://pfam.xfam.org/
TMHMM Server v. 2.0			http://www.cbs.dtu.dk/services/TMHMM/
ProtScale			http://web.expasy.org/protscale/
Grape Genome Database (CRIBI)			http://genomes.cribi.unipd.it/grape/
PhenoGram			http://visualization.ritchielab.psu.edu/phenograms/plot
MCScanX			http://chibba.pgml.uga.edu/mcscan2/
Interactive Tree Of Life (iTOL)			http://itol.embl.de/
UniProt			http://www.uniprot.org/
Phylogeny.fr			http://www.phylogeny.fr/index.cgi
MUSCLE			http://www.ebi.ac.uk/Tools/msa/muscle/
Gblocks Server			http://molevol.cmima.csic.es/castresana/Gblocks_server.html
Vitis vinifera cv. Corvina gene expression Atlas datamatrix			https://www.researchgate.net/publication/273383414_54sample_ datamatrix_geneIDs_Fasoli2012
Multi Experiment Viewer (MeV)			http://mev.tm4.org/#/welcome
Sequence Read Archive (SRA)			https://www.ncbi.nlm.nih.gov/sra
R			https://www.r-project.org/
EMBOSS Needle (EMBL-EBI)			http://www.ebi.ac.uk/Tools/psa/emboss_needle/

DOWNLOAD MATERIALS LIST

References

Jaillon, O., et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. 449 (7161), 463-467 (2007).
Adam-Blondon, A. -F., et al. Genetics, Genomics, and Breeding of Grapes. , Science Publishers. 211-234 (2011).
Chen, L., Hellmann, H. Plant E3 Ligases: Flexible Enzymes in a Sessile World. Mol. Plant. 6 (5), 1388-1404 (2013).
Vierstra, R. D. The ubiquitin-26S proteasome system at the nexus of plant biology. Nat. Rev. Mol. Cell Biol. 10 (6), 385-397 (2009).
Serrano, M., Parra, S., Alcaraz, L. D., Guzmán, P. The ATL Gene Family from Arabidopsis thaliana and Oryza sativa Comprises a Large Number of Putative Ubiquitin Ligases of the RING-H2 Type. J. Mol. Evol. 62 (4), 434-445 (2006).
Aguilar-Hernández, V., Aguilar-Henonin, L., Guzmán, P. Diversity in the Architecture of ATLs, a Family of Plant Ubiquitin-Ligases, Leads to Recognition and Targeting of Substrates in Different Cellular Environments. PLoS One. 6 (8), e23934 (2011).
Guzmán, P. The prolific ATL family of RING-H2 ubiquitin ligases. Plant Signal Behav. 7 (8), 1014-1021 (2012).
Grimplet, J., et al. The grapevine gene nomenclature system. BMC Genomics. 15, 1077 (2014).
Prince, V. E., Pickett, F. B. Splitting pairs: the diverging fates of duplicated genes. Nat. Rev. Genet. 3 (11), 827-837 (2002).
Magadum, S., Nerjee, U., Murugan, P., Gangapur, D., Ravikesavan, R. Gene duplication as a major force in evolution. J. Gen. 92 (1), 155-161 (2013).
Wang, N. Patterns of Gene Duplication and Their Contribution to Expansion of Gene Families in Grapevine. Plant Mol. Biol. Rep. 31 (4), 852-861 (2013).
Fasoli, M. The Grapevine Expression Atlas Reveals a Deep Transcriptome Shift Driving the Entire Plant into a Maturation Program. Plant Cell. 24 (9), 3489-3505 (2012).
BLAST. BLAST2.6.0. , Available from: https://blast.ncbi.nlm.nih.gov/Blast.cgi (2016).
MEGA. MEGA7.0.25 build 7170412. , Available from: http://www.megasoftware.net/ (2017).
MEME. MEME Suite Version 4.11.4. , Available from: http://meme-suite.org/ (2017).
ProtParam. ExPASy Server. , Available from: http://web.expasy.org/protparam/ (2005).
ngLOC v1.0. , Available from: http://genome.unmc.edu/ngLOC/index.html (2007).
TargetP v1.1 Server. , Available from: http://www.cbs.dtu.dk/services/TargetP/ (2000).
Prowler v1.2. , Available from: http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/ (2005).
MuSite v1.0. , Available from: http://musite.sourceforge.net/ (2010).
Pfam. Pfam version 31.0. , Available from: http://pfam.xfam.org/ (2016).
TMHMM v2.0c. , Available from: http://www.cbs.dtu.dk/services/TMHMM/ (2007).
ExPASy. ProtScale. , Available from: http://web.expasy.org/protscale/ (2005).
CRIBI. Grape genome database. , Available from: http://genomes.cribi.unipd.it/grape/ (2012).
PhenoGram. , Available from: http://visualization.ritchielab.psu.edu/phenograms/plot (2012).
ScanX v0.8. , Available from: http://chibba.pgml.uga.edu/mcscan2/ (2013).
Interactive Tree Of Life (iTOL). Version3.5.3. , Available from: http://itol.embl.de/ (2016).
UniProt. , Available from: http://www.uniprot.org/ (2016).
Phylogeny.fr. , Available from: http://www.phylogeny.fr/index.cgi (2008).
MUSCLE. , Available from: http://www.ebi.ac.uk/Tools/msa/muscle/ (2017).
Gblocks Server. Version 0.91b. , Available from: http://molevol.cmima.csic.es/castresana/Gblocks_server.html (2002).
Vitis vinifera cv. Corvina gene expression Atlas. , Available from: https://www.researchgate.net/publication/273383414_54sample_datamatrix_geneIDs_Fasoli2012 (2015).
Multiple Experiment Viewer (MeV). Version 4.8.1. , Available from: http://mev.tm4.org/ (2017).
Sequence Read Archive (SRA). , Available from: https://www.ncbi.nlm.nih.gov/sra (2017).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat Meth. 9 (4), 357-359 (2012).
Anders, S., Pyl, P. T., Huber, W. HTSeq-a Python framework to work with high-throughput sequencing data. Bioinformatics. 31 (2), 166-169 (2015).
R. Version 3.4.1. , Available from: https://www.r-project.org/ (2017).
Ritchie, M. E. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47 (2015).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
EMBL-EBI. EMBOSS Needle. , Available from: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ (2017).
Ariani, P. Genome-wide characterisation and expression profile of the grapevine ATL ubiquitin ligase family reveal biotic and abiotic stress-responsive and development-related members. Sci. Rep. 6, 38260 (2016).
Vitulo, N., et al. A deep survey of alternative splicing in grape reveals changes in the splicing machinery related to tissue, stress condition and genotype. BMC Plant Biol. 14 (1), 99 (2014).
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA. 96 (6), 2896-2901 (1999).
Dalquen, D. A., Dessimoz, C. Bidirectional Best Hits Miss Many Orthologs in Duplication-Rich Clades such as Plants and Animals. Genome Biol. Evol. 5 (10), 1800-1806 (2013).
Remm, M., Storm, C. E. V., Sonnhammer, E. L. L. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons1. J. Mol. Biol. 314 (5), 1041-1052 (2001).
Kaduk, M., Sonnhammer, E. Improved orthology inference with Hieranoid 2. Bioinformatics. 33 (8), (2017).
Cramer, G. R., et al. Transcriptomic analysis of the late stages of grapevine (Vitis vinifera cv. Cabernet Sauvignon) berry ripening reveals significant induction of ethylene signaling and flavor pathways in the skin. BMC Plant Biol. 14, 370 (2014).
Juretic, N., Hoen, D. R., Huynh, M. L., Harrison, P. M., Bureau, T. E. The evolutionary fate of MULE-mediated duplications of host gene fragments in rice. Genome Res. 15 (9), 1292-1297 (2005).
Filichkin, S. A. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. Genome Res. 20 (1), 45-58 (2010).
Quesada, V., Macknight, R., Dean, C., Simpson, G. G. Autoregulation of FCA pre-mRNA processing controls Arabidopsis flowering time. EMBO J. 22 (12), 3142-3152 (2003).
Wong, D. C. J., Gutierrez, R. L., Gambetta, G. A., Castellarin, S. D. Genome-wide analysis of cis-regulatory element structure and discovery of motif-driven gene co-expression networks in grapevine. DNA Res. 24 (3), 311-326 (2017).
Wong, D. C. J., Matus, J. T. Constructing Integrated Networks for Identifying New Secondary Metabolic Pathway Regulators in Grapevine: Recent Applications and Future Opportunities. Front. Plant Sci. 8, 505 (2017).

Biology

Omfattende arbejdsgang for Genome-wide identifikation og udtryk Meta-analyse af ATL E3 Ubiquitin Ligase gen familie i Grapevine

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.