Biology

Heltäckande arbetsflöde för Genome-wide identifiering och uttryck Meta-analys av ATL E3 Ubiquitin Ligase gen familjen i Grapevine

Published: December 22, 2017 doi: 10.3791/56626

Pietro Ariani*¹, Elodie Vandelle*¹, Darren Wong², Alejandro Giorgetti¹, Andrea Porceddu³, Salvatore Camiolo³, Annalisa Polverari¹

¹Dipartimento di Biotecnologie, Università degli Studi di Verona, ²Ecology and Evolution, Research School of Biology, The Australian National University, ³Dipartimento di Agraria, SACEG, Università degli Studi di Sassari

* These authors contributed equally

Summary

Denna artikel beskriver förfarandet för identifiering och karakterisering av en gen familj i grapevine tillämpas till familjen av Arabidopsis Tóxicos i Levadura (ATL) E3 ubiquitin ligases.

Abstract

Klassificering och nomenklatur av gener i en familj kan avsevärt bidra till beskrivningen av mångfalden av kodade proteiner och förutsägelse av familjens funktioner baserat på flera funktioner, såsom närvaro av sekvens motiv eller av särskilt platser för posttranslationella modifieringen och uttryck profilen av familjemedlemmar i olika förhållanden. Detta arbete beskriver ett detaljerat protokoll för gen familj karakterisering. Förfarandet tillämpas här, att karakterisering av familjen Arabidopsis Tóxicos i Levadura (ATL) E3 ubiquitin ligase i grapevine. Metoderna omfattar genome-wide identifiering av familjemedlemmar, karakterisering av genen lokalisering, struktur och dubbelarbete, analys av bevarat protein motiv, förutsägelse av protein lokalisering och fosforylering platser samt gen uttryck profilering hela familjen i olika DataSet. Sådant förfarande, som skulle kunna utvidgas till ytterligare analyser beroende på försöksändamål, kan tillämpas på någon gen familj i några växtarter som genomisk data finns, och det ger värdefull information för att identifiera intressanta kandidater för funktionella studier, ger insikter om molekylära mekanismer för växt anpassning till sin omgivning.

Introduction

Under det senaste decenniet, har mycket forskning genomförts i grapevine genomik. Grapevine är en erkänd ekonomiskt relevant gröda, som har blivit en modell för forskning om frukt utveckling och svaren från vedartade växter för biotiska och abiotiska påfrestningar. I detta sammanhang frigivningen av Vitis vinifera cv. PN40024 genomet i 2007¹ och sin uppdaterade version i 2011² ledde till en snabb ackumulation av ”Omics”-skala data och till en explosion av hög genomströmning studier. Baserat på den publicerade sekvensdata, den omfattande analysen av en viss gen familj (allmänhet bestående av proteiner som delar bevarade motiv, strukturella eller funktionella likheter och evolutionära relationer), kan nu utföras för att avslöja dess Molekylär funktioner, evolution och gen uttryck profiler. Dessa analyser kan bidra till förståelse hur genen familjer styra fysiologiska processer på genome-wide nivå.

Många aspekter av växten livscykel regleras av ubiquitinmedierad nedbrytning av viktiga proteiner, som kräver en finjusterad omsättning att säkerställa regelbundna cellulära processer. Viktiga komponenter i den ubiquitinmedierad nedbrytningsprocessen är de E3 ubiquitin ligases, som ansvarar för systemflexibilitet, tack vare rekrytering av specifika mål³. Följaktligen utgör dessa enzymer en enorm gen familj, med cirka 1 400 E3 ligase-encoding gener förutspådde i Arabidopsis thaliana genomet⁴, varje E3 ubiquitin ligase agerar för ubikvitinering av specifika proteiner. Trots betydelsen av substrat-specifika ubikvitinering i cellulär reglering i växter, lite är känt om hur ubikvitinering vägen regleras målproteiner har identifierats och endast i ett fåtal fall. Dechiffrera av sådana specificitet och förordning mekanismer beroende först identifiering och karakterisering av de olika komponenterna i systemet, i synnerhet de E3 ligases. Bland ubiquitin ligases kännetecknas ATL underfamiljen av 91 medlemmar identifieras i A. thaliana visar en RING-H2 finger domän⁵^,⁶, några av dem spelar en roll i försvar och hormon Svaren⁷.

Det första viktiga steget att definiera en ny gen familjemedlemmar är den exakta definitionen av familj funktioner, som konsensus motiv, viktiga domäner och protein sequence egenskaper. Faktiskt, pålitlig hämtning av alla gen familjemedlemmar utifrån BLAST analys kräver några obligatoriska sekvens kännetecken, i visst protein domäner ansvarar för protein funktion/aktivitet, tjänstgör som protein signatur. Detta kan underlättas genom tidigare karakterisering av samma gen familj i andra växtarter eller uppnås genom att analysera olika gener förment tillhör samma familj i olika växtarter, att isolera gemensamma sekvenser. Familjemedlemmar kan sedan individuellt namnges efter gemensamma regler fast av internationella konsortier för en viss art. I grapevine, till exempel utsätts sådant förfarande för rekommendationerna i Super nomenklaturkommittén för druvan gen Annotation (sNCGGa), om inrättande av byggandet av ett fylogenetiskt träd inklusive V. vinifera och A. thaliana gen familjemedlemmar att tillåta gen annotation baserat på nucleotide sekvenser⁸.

Kromosom lokalisering av familjemedlemmar och gen dubbelarbete undersökning kan belysa förekomsten av helgenom- eller tandem duplicerade gener. Sådan information visas användbar nysta förmodad gen funktioner, eftersom det kan visa funktionella redundans eller avslöja olika situationer, dvs., icke-funktionalisering, neo-funktionalisering eller sub funktionalisering⁹. Både neo - och sub - functionalization är viktiga händelser som skapar genetiska nyhet, som ger nya cellulära komponenter för växt anpassning till förändrade miljöer¹⁰. I synnerhet dubletter av nedärvda gener och produktion av nya gener var mycket täta under utvecklingen av grapevine genomet och nybildade gener med ursprung från proximal och tandem dubletter i grapevine var mer benägna att producera nya funktioner¹¹.

En annan viktig faktor i dechiffrera genfunktion familj är den transcriptomic profilen. Tillgången till offentliga databaser ger tillgång till en enorm mängd transcriptomic data kan således utnyttjas för att tilldela förmodad funktioner till genen familjemedlemmar med storskaliga i silico uttryck analyser. Faktiskt kan egendomlig uttrycket av vissa gener i särskilda växt organ eller som svar på vissa betonar ge några tips angående motsvarande proteiner förmodad roller i definierade villkor och ge stöd till hypoteser om möjliga sub funktionalisering av duplicerade gener att svara på olika utmaningar. För detta ändamål är det viktigt att överväga flera datamängder: dessa kan vara redan tillgängliga gen uttryck matriser, såsom genome-wide transcriptomic atlas av grapevine organ och utvecklingsstadier¹², eller kan byggas ad hoc- av hämtar transcriptomic datamängder för de särskilda växtarter som utsätts för definierade påfrestningar. Dessutom kan en enkel metod med två matriser, en med parvisa likheten data och den andra med parvisa samtidig uttryck koefficienter tillämpas för att utvärdera relationerna mellan sekvens likheten och uttryck mönster inom en gen familj.

Syftet med detta arbete är att ge en helhetssyn, definiera genstruktur, bevarat protein motiv, kromosomala läge, gen dubletter och uttrycksmönster, som väl förutsägelse av protein lokalisering och fosforylering webbplatser, att uppnå en uttömmande karakterisering av en gen familj i växter. En sådan omfattande strategi tillämpas här karakterisering av familjen ATL E3 ubiquitin ligase i grapevine. Enligt ATL underfamilj medlemmar i reglerar viktiga cellulära processer⁷framväxande roll, detta arbete kan väl hjälpa identifiering av starka kandidater för funktionella studier, och så småningom nysta de molekylära mekanismer som styr den anpassning av detta viktig gröda till sin miljö.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identifiering av förmodad ATL gen familj medlem(mar)

PSI-BLAST webbversionen
1. Öppna den BLAST webbsida¹³ och klicka på avsnittet protein BLAST.
2. Ange den amino syra ordnar av protein (här VIT_05s0077g01970) som ska användas som sonden för att identifiera de andra familjemedlemmarna i fältet ”ange fråga sekvens”.
  Obs: En bra representant protein bör vara används (ett protein som visar alla viktiga funktioner som kännetecknar familjen).
3. I fältet ”Välj Sök set”, Välj ”referens protein” databasen (refseq_protein) och organismen av intresse (V. vinifera - taxid:29760).
4. I fältet ”programval”, Välj PSI-BLAST algoritm och klicka på knappen SKITKUL att köra analysen.
  Obs: Genom att klicka på parametrarna ”algoritm” det är möjligt att justera några avancerade parametrar (Max mål sekvenser, Scoring matris, PSI-BLAST tröskel, etc.).
5. Första SMÄLLEN runda hämtar alla de sekvenser som visar relevanta matcher med frågan (e-värde över det valda tröskelvärdet - standard 0,005; 0,001 i detta experiment). Avmarkera alla poster, som tydligt inte tillhör familjen under undersökning genom att klicka på fästingen i kolumnen ”Välj för PSI-BLAST” och kör den andra PSI-BLAST iterationen genom att klicka på knappen BLAST som i steg 1.1.4.
6. Nyligen identifierade sekvenser markeras i gult. Avmarkera de helt klart fel Hämtad hitsna och avslöja ytterligare iterationer som beskrivs i steg 1.1.5.
7. Fortsätta med iterationer tills algoritmen inte hittar någon relevant post eller det når konvergens (inga nya poster hittas). Ladda ner listan med förmodad gen familjemedlemmar för ytterligare analyser. Inspektera visuellt Hämtad träffar i varje iteration att undvika förekomsten av falska positiva.
PSI-BLAST fristående version
1. Hämta den fristående versionen av BLAST genom att klicka på knappen ”Hämta BLAST” på BLAST hem sida¹³.
  Obs: Programvaran fristående BLAST är en kommandoradsversion av webbgränssnittet beskrivs innan. Det gör att PSI-BLAST sökningen mot en anpassad databas för lokala eller fjärranslutna kördes. Dessutom tillåter det söka med en fördefinierad Position specifika Poäng matris (PSSM).

2. manuell inspektion av PSI-BLAST-identifierade familjemedlemmar

Flera justering
1. Samla de amino sura sekvenser som tidigare identifierats i en FASTA-formaterad fil och lägga upp det i den MEGA programvara¹⁴ att fortsätta med flera anpassningen.
2. Öppna programvaran MEGA, klicka på knappen ”Justera”, klicka ”redigera/bygga justering”, klicka på ”skapa en ny justering”, ”Protein”.
3. Klicka på ”Redigera” från menyn justering och ”infoga sekvens från fil”. Bläddra efter FASTA filen skapats före och bekräfta överföringen av alla de tillfrågade sekvenserna.
4. Klicka på ”justering” från menyn justering och ”justera av muskel”. Använd standardparametrar, klicka på ”beräkna” knappen och vänta på slutförande av flera anpassningen.
5. Inspektera visuellt flera anpassningen för att utesluta felaktigt förutspådde familjemedlemmar. Kanoniska CxxC (13 x) PxCxHxxHxxCxxxW (7 x) CxxCW motivet, (i synnerhet förekomsten av prolin rester innan den tredje cystein), är den viktigaste funktionen som behövs för att definiera ATL familjemedlemmar.
Analys av specifika logotyp
1. Den definitiva listan av familjemedlemmar (96 grapevine sekvenser uppfylla kraven för att anses vara ATL) förelägga den flera Em för motiv elicitering (MEME)¹⁵ att definiera bevarade motiv över familjen.
2. Klicka på knappen ”MEME” från startsidan MEME och slutför ”Data Submission Form” med viss information angående familjen av intresse.
3. Använda MEME analys för att bekräfta närvaron av de två beräknade motiv inom grapevine ATL familjemedlemmar, dvs, den RING-H2 och GLD motiven.
Alternativt, utför steg 2.1 och 2.2 samtidigt använda bioinformatik software suite (se Tabell för material).
1. Ladda upp FASTA fil (se steg 2.1.1) in i sviten. Välj ”fil” från menyn och sedan ”importera” och klicka ”från fil”. Bläddra i FASTA-fil och klicka på ”öppna”.
2. Markera alla importerade sekvenser i listan och klicka på ”Justera/montera” knappen i verktygsfältet, klicka på ”Pairwise flera justering”. Välj ”muskel justering” och klicka ”OK” för att starta justeringen som standardparametrar.
3. Att visualisera logotypen för justeringen, klicka på ”diagram” → ”alternativ” och välj ”sekvens logotyp”.

3. analys av Protein fysikaliska parametrar och domäner

Definitionen av de olika fysiska parametrarna för de undersökta familjemedlemmarna är viktigt att ha en heltäckande beskrivning av familjen, överlämna förteckningen över familjemedlemmar till särskilda webbverktyg.
1. Använd de ProtParam verktyg¹⁶ på webbplatsen Expasy med standardparametrar för isoelektrisk punkt (pI) och molekylvikt (kDa).
2. För protein subcellulär lokalisering, använda olika verktyg för att få en mer tillförlitlig prognos såsom ngLOC v1.0¹⁷ med standardinställningarna, targetP v1.1¹⁸ med standardinställningar och protein prowler subcellulär lokalisering v1.2¹⁹med en cut-off om sannolikhet för 0,5. För fosforylering webbplatser, använda MUsite v1.0 web verktyg²⁰ med standardparametrar.
Undersöka ytterligare protein domäner i familjemedlemmar.
1. Öppna Pfam databas webbsida²¹, Välj ”sekvens sökning” verktyget, lämna proteinsekvenser i rutan fråga och klicka på ”Go” att köra analysen.
  Obs: Varje proteinsekvens analyseras individuellt. En e-värde på 1.0 i standardinställningen kan diskriminera mellan betydande och icke-betydande träffar.
2. Öppna den TMHMM Server²² från centrum för biologisk sekvensanalys att undersöka förekomsten av förmodad transmembrana regioner.

Klistra in alla proteinsekvenser samtidigt i rutan fråga (eller alternativt ladda upp en textfil, inklusive alla proteinsekvenser i FASTA format) och klicka på ”Skicka” för att köra analysen.

Analysera proteiner saknas förutspådda transmembrana domänerna, enligt TMHMM (steg 3.2.2), med ProtScale verktyg att identifiera förmodad hydrofoba regioner. Öppna ProtScale webbsida²³. Klistra in varje proteinsekvens i rutan fråga och välj ”Hphob. / Kyte & Doolittle ”som aminosyran skala. Klicka på ”Skicka” för att köra analysen.

4. kromosomala Distribution, dubletter och Exon-intron organisation

Karta ATL familjemedlemmar i kromosomerna baserat på information Hämtad från Grapevine genomet CRIBI Biotech Center webbplats²⁴.
1. Bläddra i PhenoGram hemsida hemsida²⁵. Skriva ”Input filen” som en tabbavgränsad textfil med särdragen i generna ska mappas i kromosomerna, enligt den uttömmande riktlinjer och exempel på sammanställning av den medföljande filen efter sökvägen ”Phenogram” → ” Dokumentation ”→” alternativ ”→” Input file ”.
2. Skriva i ”titel” av arbetet. Välj genomet kan dras. För arvsmassan inte implementerats i programvara, till exempel grapevine genomet, Välj ”annat” i den nedrullningsbara menyn. Skriva genomet filen enligt riktlinjer och exemplen, efter väg ”Phenogram” → ”dokumentation” → ”alternativ” → ”genomet”, och ladda upp den.
3. Standardparametrar för ”fenotyp avstånd”, ”fenotyp färg”, ”bildformat” eller Välj alternativ i respektive menyer och klicka på ”Rita” att få visualisering av generna i kromosomerna.
Definiera det dubbelarbete tillståndet för familjemedlemmar använder MCScanX programvara²⁶.
1. Hämta och packa upp en kopia av MCscanX på en lokal dator med kommandorader 1 (kompletterande fil 1). Ange mappen MCscanX och skapa den nödvändiga körbara filer Kör Kommandorader 2 (kompletterande fil 1).
  Obs: Installation av MCscanX är känt för att misslyckas på vissa Linux 64 bitarsmaskiner på grund av en fråga angående den funktionen chdir. Om ett felmeddelande returneras relaterade till den här funktionen gör upon kommandokörning, kommandorader 3 (kompletterande fil 1) ska köras och kommandot ”make” bör utföras efteråt.
2. Hämta V. vinifera proteinerna och annotering filen Kör Kommandorader 4 (kompletterande fil 1).
  Obs: Grapevine annotation fil behov att få uppackade och enda kromosomer information katten i en unik fil genom att köra kommandorader 5 (kompletterande fil 1).
3. Kör en ”alla mot alla” blastp söka använda filen V. vinifera protein både frågan och föremål.
4. Skapa en sökbar blast databas med hjälp av V. vinifera protein filen Kör Kommandorader 6 (kompletterande fil 1). Utföra blastp sökningen med hjälp av V. vinifera proteiner filen som en fråga mot den databas som skapats tidigare genom att köra kommandorader 7 (kompletterande fil 1).
5. Konvertera filen anteckning i ett lämpligt format för MCScanX. Kör kommandot linjer 8 (kompletterande fil 1) för att hämta de anpassade perl script parseMSCanXgff.pl. Utför analysen Kör Kommandorader 9 (kompletterande fil 1).
  Obs: En fil vitis.gff skapas som innehåller genen koordinater i följande format:
  SP # gen startposition slutposition
  där ”sp” är en kod med två bokstäver för arten (Vv för grapevine) ”#” är namnet på schavotten. Observera att den angivna anpassade perl-skriften är lämplig för de flesta konvertering, även om vissa kod modifiering kan krävas i vissa fall på grund av mångfalden av informationen i filen tillgänglig anteckning.
6. Starta MCScanX Kör Kommandorader 10 (kompletterande fil 1).
  Obs: Den ”vitis” är prefixet för både anteckningen och blast utdatafilen. Detta utgör ett obligatoriskt krav för programvaran att köras.
7. Analysera MCScanX resultat. MCScanX producerar en textfil ”vitis.collinearity”, som innehåller collinear block. En sådan fil kan inspekteras av någon text redaktör (se exempel utgång 1 kompletterande fil 1).
  Obs: En ”mcscaxOutput.html” katalog genereras som innehåller HTML-filer med flera anpassningar av collinear block mot varje referens kromosom. Dessa filer kan kontrolleras via en webbläsare.
8. Klassificera paralogous gener baserat på deras relativa lägen i kromosomer Kör Kommandorader 11 (kompletterande fil 1).
  Obs: Paralogous gen klassificering beskrivs i Kompletterande tabell II. Genererade utdatafilen ”vitis.gene_type” innehåller alla information om ursprung med en enkel tabbavgränsad format.
9. Utföra anrikning analys att utvärdera huruvida familjen genen har prevalently härrör från en specifik mekanism som kör kommandorader 12 (kompletterande fil 1).
  Obs: Filen ”vitis.gene_type” genereras vid steg 4.2.8, fil ”gene_family_file” utgör en en rad textfil där är namnet på familjen (t.ex., ATL_genes) följt av locus namnen för de alla de gener som tillhör familjen åtskilda av en flik. Tillämpad statistisk testet för berikning är en Fisher exakta test och p-värden för olika ursprung lagras i filen ”outputFile.txt”.
Visualisera exon-intron organisationen av de gener som använder interaktiva Tree Of Life (iTOL)²⁷, ett online-verktyg för visning, annotering och hantering av fylogenetiska träd.
1. Ladda upp ett fylogenetiskt träd i avsnittet ”Ladda upp” i webbplatsen iTOL. Trädet är byggd enligt avsnitt 5 nedan. För varje familjemedlem gen, Hämta gen struktur förutsägelse från V1 annotering av grapevine genomet (CRIBI hemsida ovan). Beräkna längden (i bp) förmodade exoner och introner oöversatta regioner (utr).
2. Använd ”Protein domäner” datamängden för grafisk visualisering av exon-intron mönster.

Skriva en fil med oformaterad text inklusive beräknade längder enligt de specifikationer som anges efter den sökväg ”hjälp” → ”hjälpsidor” → ”datamängd typer” → ”Protein domäner” i iTOL webbplats²⁷. Använder ”Protein domäner” datamängd, representerar ”rektangeln (RE)” och ”rektangel gap (GP)” formerna exon utr, respektive.

5. fylogenetisk analys och nomenklatur

Analysera förhållandet mellan ATL familjemedlemmar genom byggandet av en hög kvalitet fylogenetiska träd och definitionen av en familj nomenklatur.
1. För en grapevine gen familj, Följ de regler som fastställts av den Grapevine Super nomenklaturkommittén⁸.
2. Hämta A. thaliana ATL sekvenser, krävs som referens för grapevine gen nomenklaturen⁸, från UniProt databas²⁸ .
3. Skriva en FASTA fil inklusive alla nukleotidsekvenser grapevine och A. thaliana gen familjemedlemmar som ska inkluderas i den phylogenetic analysen. Nukleotidsekvenser tillåta högst variationsrikedomen bland familjemedlemmar (jämfört med proteinsekvenser).
Fylogenetiskt träd
Obs: Användningen av den Phylogeny.fr ²⁹ rörledningen är rekommenderad att få en hög kvalitet fylogenetiska träd, men inte obligatoriskt.
1. Bläddra Phylogeny.fr hemsida²⁹och välj rörledningen ”fylogeni analys”.
  Obs: ”En klick” är lämplig i de flesta fall, men om det är möjligt att välja specifika avancerade inställningar (”avancerat”) eller ens en helt skräddarsydd analys (”a la Carte”; se steg 5.2.5).
2. Skriv ”namnet analys”, ladda upp den FASTA fil som skapats tidigare (steg 5.2.1 och klicka ”skicka” för att köra analysen.
3. Alternativt, om förfaranden som beskrivs ovan (steg 5.2.1, 5.2.2) resulterar i ett felmeddelande, slutföra varje steg i rörledningen fylogeni suite individuellt, enligt följande.
  1. Från muskel programvara hemsida³⁰Välj Ladda upp FASTA filen i ”steg 1”, ”Pearson/FASTA” som ”utdataformat” i ”steg 2” och klicka ”skicka” i ”steg 3” för att anpassa frågan sekvenser.
  2. Klicka på ”Hämta justering filen” och Spara som FASTA-fil för ytterligare åtgärder.
  3. Processen filen justering FASTA att eliminera dåligt justerad positioner använder Gblocks Server verktyg³¹. Ladda upp anpassningen FASTA filen och välj ”DNA” som ”typ av sekvens” valde alternativen med stränghet som bäst passar med analys (t.ex., för grapevine ATL gen familj väljer alla tre alternativ som föreslås för ”mindre stränga urval” eftersom av hög sekvens avvikelse). Klicka på ”få block” att köra analysen.
  4. Klicka på ”resulterande justering” längst ned på sidan utdata och spara resultaten som en nya FASTA-fil.
  5. Den Phylogeny.fr hemsida²⁹, Välj ”A la Carte” som ”fylogeni analys” pipeline. Sedan, avmarkera ”flera justering” och ”justering curation”. Klicka på ”Skapa arbetsflöde”, ladda upp filen Gblocks-utvalda FASTA (steg 5.2.5.4), Välj ”Bootstrapping procedur” med standardparametrar i ”inställningar” och klicka på ”Skicka” för att köra analysen.
4. Kollaps dåligt stöds grenar (dvs, bootstrap värden < 70%) genom att klicka på ”kollaps grenar” i avsnittet ”Välj och åtgärder” och hämta de slutliga resultaten i formatet Newick till ytterligare analyser.
Tilldela ett gen namn baserat på fylogenin.
1. Granska det fylogenetiska trädet för att utvärdera tillförlitligheten i trädstrukturen genom att överföra det till iTOL sviten ovannämnda (punkt 4.3).
2. Tilldela manuellt gen namn till varje familjemedlem. I fråga om one-to-one orthologues, tilldela den Arabidopsis-liknande namn (t.ex., AtATL3 → VviATL3). Differentiera grapevine gener (två eller fler) som härrör från en enda Arabidopsis homolog med samma fylogenetiska avstånd med siffror eller bokstäver om genen Arabidopsis slutar med ett nummer (t.ex., AtATL23 → VviATL23a, VviATL23b).
3. I fråga om en-till-flera eller många-till-många orthologues, tilldela en ny gen namn består av den Arabidopsis-som namn (här, ”ATL”) paras ihop med ett tal som är högre än det högsta numret som redan använts för både V. vinifera och Arabidopsis (t.ex., VviATL83).
4. Komplett nomenklaturen för familjen nydefinierade fallande från toppen till botten av det fylogenetiska trädet.

6. grapevine orgel och scenen uttryck profilering

Generera arbetande data matrix som innehåller uttrycket data för familjemedlemmar.
1. Hämta den V. vinifera cv. Corvina gene expression Atlas datamatrix från länken distribueras på ResearchGate plattform³². Den här filen innehåller RMA normaliserade uttryckets värden ska användas i följande steg.
2. Extrahera uttryckets värden för varje familj gen från den Atlas datamatrix och skriva en ”arbetande datamatrix” som innehåller samma rubrikraden som den Atlas datamatrix. Spara den ”arbetande datamatrix” som en tabbavgränsad textfil.
Utföra den hierarkiska bi-klustrade analys med Multi Experiment Viewer (MeV) programvara.
1. Hämta och installera MeV programvara³³.
2. Ladda upp den ”arbetande datamatrix” (steg 6.1.2) efter sökvägen ”fil” → ”Load Data” → ”Bläddra” och välj textfilen. Välj ”enfärgad Array” och ta bort fästingen från ”Load anteckning” när en automatisk anteckning inte tillhandahålls. Välj översta vänstra uttrycksvärdet av uttrycket tabell preview och klicka på knappen ”Load”.
3. Justera data tillämpning Log2 omvandling (”justera Data” → ”Log omvandlingar” → ”Log2 Transform”) och Gene/rad normalisering (”justera Data” → ”genen/rad justeringar” → ”Median Center gen/rad”). Ställa in rätt skala gräns (”Display” → ”Ange färg skala begränsningar”).
4. Beräkna den hierarkisk klustring efter sökvägen ”analys” → ”kluster” → ”HCL”.

Välj ”optimera gen Leaf Order” och ”optimera prov blad för” i ”beställa optimering fält”, ”Pearson korrelation” i ”avstånd Matrix” urvalsfältet och ”genomsnittliga länkage klustring” i fältet ”Linkage metod urval”. Klicka sedan ”OK” för att köra analysen.

Visa resultaten i menyn ”analysresultat” → ”HCL” på den vänstra panelen i fönstret. Exportera stresskartan genom att klicka på ”Spara bild” i menyn ”Arkiv”.

7. uttrycket profilering som svar på biotiska och abiotiska betonar

Upprepa steg 6.1 med GSE anslutning ID erhålls från respektive publikationer och studier som undersöker biotiska och abiotiska stress på grapevine. Till exempel kan experiment som tillhandahåller transkriptom profilen av grapevine bär infekterade med svamp patogenen Botrytis cinerea med hjälp av den NimbleGen druvan helgenom-microarray bläddra med GSE-ID för GSE52586. Upprepa steg 6.1.1 och 6.1.2.
Sök den NCBI sekvensen läser arkiv³⁴ med SRA/BioProject ID (t.ex., SRP055458 eller PRJNA275778 för ”grapevine blomma skuggning” experiment) och ladda ner alla associerade raw sekvens läsningar. RNA-seq datamängder från många olika studier bearbetas med en enda rörledning för konsekvens.
1. Kortfattat, trimma raw sekvens FASTQ läsningar (singel - och par-end) och filtrera kvalitet med Trimmomatic³⁵. Använd en AVGQUAL och MINLEN filter av 20 och 40, respektive och alla parametrar standard.
2. Index på 12 X grapevine referens genomet¹ med Bowtie2³⁶. Ladda ner 12 X grapevine referens genomet (t.ex., bowtie2-build) innan du kör bowtie2 kommandot.
3. Få räkna matrix tabeller med htseq-räkna³⁷ använder grapevine V1 gen modellfilen annotation (GFF/GTF).
Utföra differential gen uttryck (re-) analys i R³⁸ med limma³⁹ bibliotek för RMA-normaliserade matriser och DESeq2⁴⁰ bibliotek för greve matrix tabeller erhållits från steg 7.1.1 och 7.2.1, respektive.
1. Utföra en standard ”två-gruppen” jämförelse (dvs, ”behandling” / ”kontroll”). Se till att design matris/grupperingar av ”kontrollerar” och ”behandling” villkor specificeras ordentligt.
  Obs: En typisk design för microarray differentiell uttryck analys (GSE52586) att jämföra EL-33 Bären angripits Botrytis cinerea mot kontroll (friska) bär på samma utvecklingsstadiet med limma Kör Kommandorader 13 visas i kompletterande fil 1. En typisk design för RNA-seq differentiell uttryck analys (SRP055458 eller PRJNA275778) för att jämföra blomma (på 7 dagar efter cap-fall) under skugga behandling mot kontroll med DESeq2 Kör Kommandorader 14 visas i kompletterande fil 1 .
2. Få förteckningar över Differentiellt uttryckta gener (DEG) i varje kontrasten, limma, använda de funktioner lmFit(), följt av eBayes(), och sedan av topTable() funktion, medan det för DESeq2, använda DESeqDataSetFromMatrix(), DESeq()och results() funktioner. Nedan, ett typiskt arbetsflöde ska följas.
  1. För microarray differentiell uttryck analys, se kommandorader 15 (kompletterande fil 1). För RNA-seq differentiell uttryck analys se kommandorader 16 (kompletterande fil 1). Upprepa ovanstående steg för alla andra kontraster med annan lämplig design schema (se exempel i steg 7.3.1)
Från förteckningarna över DEGs genereras, extrahera alla rader som inte motsvarar ATL V1 anslutning, behålla kolumner som innehåller log2 vik ändringen (behandling/Control) > | 0,5 | och justerat p-värden (FDR) < 0,05 och sammanfoga dem till en matris tabell, om en studie omfattas följaktligen in ”abiotiska” eller ”biotiska/pathogen interaction” kompendier.
Konstruera den hierarkiska klustrade heatmaps (abiotiska och biotiska kompendier) i R med hjälp av bibliotek gplots.
Obs: Att anropa funktionen heatmap.2 konstruerar heatmap tillsammans med raden dendrograms från tabellerna respektive matris. Ytterligare argument använder cellnote funktionen hjälper till att skilja differentially uttryckt (log2FC > 0,5, FDR < 0,05) ATL gener i varje jämförelse över ett flertal olika experimentella betingelser av en * symbol. Gäller det typiska arbetsflödet i R Kör Kommandorader 17 (kompletterande fil 1) eller alternativt Upprepa steg 6.2.2 till 6.2.5 att konstruera den heatmaps använder MeV programvara.

8. analys av sambanden mellan Paralogous sekvens divergens och samtidig genuttryck

Konstruera matrisen som innehåller parvisa likheten. Delarna av matrisen likheten är värdena för sekvens likheten beräknas från de parvisa protein linjeföring.
1. Använd de Relief nål web server⁴¹ med standardinställningarna parvisa sekvens linjeföring och Spara som textfil. Öppna text utdatafilen och ta bort alla kommentarrader, tillsammans med kolumn- och namn att generera en fil som heter ”similarityTable.txt”.
  Obs: Sådan tabell har en rad för varje ATL gen rapportering likheten värdena beräknas i varje parvisa justeringen. Ordningen på loci i rader och kolumner är samma så att en symmetrisk matris genereras med respekt av diagonal värden.
Konstruera matrisen med samtidig uttrycket data genom att beräkna korrelationskoefficienten till Pearsons. Följande procedur kräver R och perl modulen PDL.
1. Hämta uttryckets värden för 96 ATL generna Kör Kommandorader 18 (kompletterande fil 1) inom en terminal. Utföra en samtidig uttryck analys med hjälp av en anpassad perl-skript som kan laddas genom att köra kommandorader 19 (kompletterande fil 1). Dessa skript kommer att beräkna korrelationskoefficienten till Pearsons mellan par av ATL loci som tidigare rapporterats.
2. Starta skriptet Kör Kommandorader 20 (kompletterande fil 1) och följ instruktionerna utdata.

Skriptet kommer att producera en utdatafil (nämligen ”coexpressionTable.txt”) som innehåller en samtidig uttryck matris med samma locus namn ordning av matris som erhölls i steg 8,1 (denna beställning är viktigt att köra testet Mantel, se nedan).

Utföra en Mantel test mellan data matriserna erhålls i steg 8.1 och 8.2. Efter att R miljön (köra kommandot ”R” från en terminal), Ladda ade4 biblioteket med följande kommando: library(ade4)

Köra testet Mantel av lastning två data matriserna och utför statistiken Kör Kommandorader 21 (kompletterande fil 1), med ”nrep” som representerar antalet permutationer. Provet består av beräkning av korrelationen mellan elementen i dessa matriser, permuting matriserna och sedan beräkna samma provutfallets igen.
Obs: Alla erhållna värden av statistik testet används för att bygga en referens distribution statistik test, som används för att beräkna ett p-värde för provning av betydelse. Antalet permutationer definierar noggrannheten med vilken p-värde kan erhållas.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Den VIT_05s0077g01970 genen, identifierats som den mest liknar A. thaliana ATL2 (At3g16720) via en BLASTp-sökning, användes som sonden för att kartlägga ATL familjemedlemmar i grapevine genomet (V. vinifera cv Pinot Noir PN40024). PSI-BLAST analys konvergerat efter några cykler avslöjar en lista av förmodad gener tillhörande familjen grapevine ATL genen (figur 1A). Förekomsten av den kanoniska RING-H2-domänen för varje kandidat utvärderades genom visuell inspektion av muskel anpassningen av alla poster identifieras i analysen (figur 1B). Bara de gener som innehåller korrekt fördelade bevarade aminosyror, de två histidin restsubstanser, samt proline rester innan den tredje cystein ansågs vårdnivå enligt den ursprungliga ATL definitionen i Arabidopsis⁵. Totalt 96 grapevine gener uppfyllt kraven och ansågs för ytterligare karakterisering. Varje ATL familjemedlem analyserades för att fastställa de specifika egenskaperna hos genen och motsvarande kodade proteinet, dvs, förekomsten av andra kända domän(er) utöver den RING-H2, transmembrana eller hydrofoba rika regioner, subcellulär lokalisering och förmodad fosforylering platser (tabell 1 och tabell 2).

Figur 1: PSI-BLAST undersökning och anpassning av förmodad grapevine vårdnivå. (A) skärmdump av de topp 10 hits av den första PSI-BLAST iteration sökningen använder protein sekvensen VIT_05s0077g01970 som bete. (B) del av anpassningen av 96 valda ryktesvägen förmodad vårdnivå visar sin RING-H2 domän och motsvarande logotypen erhålls med en svit av molekylär biologi (se Tabell för material). Återgivits från Ariani et al. licensierat under en Creative Commons Erkännande 4.0 internationell licens⁴².Klicka här för att visa en större version av denna siffra.

Namn	Gen-ID	Genen längd (bp)	Intron nummer	UniProt ID	Protein längd (aa)	RING-H2 motiv	TM/H domän nummer	Andra domäner
VviATL3	VIT_09s0002g00220	1245	0	F6HXK6	304	PxC	1
VviATL4 [VviRHX1A]	VIT_15s0021g00890	1827	3	D7SM36	203	PxC	0
VviATL18	VIT_11s0118g00780	1113	2	F6HCI8	193	PC	0
VviATL23a	VIT_18s0001g01060	935	0	F6H0E4	114	PxC	0,5
VviATL23b	VIT_18s0001g01050	399	0	E0CQX3	132	PxC	1
VviATL24	VIT_17s0000g06460	4466	4	D7SI89	217	PxC	1
VviATL27	VIT_00s0264g00020	2554	4	D7T1R5	235	PxC	1
VviATL43	VIT_11s0052g00530	1576	2	D7SQD9	457	PxC	3
VviATL54a	VIT_18s0001g06640	3221	1	F6H0Y5	405	PxC	1
VviATL54b	VIT_03s0017g00670	2774	1	F6HTI0	427	PxC	1
VviATL55 [VviRING1]	VIT_07s0191g00230	1844	0	F6HRP9	372	PxC	1
VviATL63	VIT_06s0004g06930	804	0	D7SJU6	267	PxC	1
VviATL65	VIT_03s0063g01890	2068	0	F6HQI8	396	PxC	1
VviATL82	VIT_01s0026g02540	820	0	F6HPQ9	233	PC	0,5
VviATL83	VIT_17s0000g08400	1887	0	F6GSQ4	143	PC	0
VviATL84	VIT_06s0004g00120	1853	0	F6GUP5	368	PC	0,5	ZF-RING_3
VviATL85	VIT_12s0034g01400	786	0	F6H965	261	PC	0,5
VviATL86	VIT_12s0034g01390	1434	1	D7T016	451	PC	0,5
VviATL87	VIT_18s0001g03270	1002	0	F6H0T2	333	PC	0,5	ZF-RING_3
VviATL88	VIT_08s0040g00590	1320	0	F6HQR2	314	PC	0	ZF-RING_3

Tabell 1: första 20 VviATL gener och sekvens kännetecken för motsvarande proteiner. TM: transmembrana; H: hydrofoba; 0,5 indikerar förekomst av en eller flera hydrofoba regioner. Återgivits från Ariani et al. licensierat under en Creative Commons Erkännande 4.0 internationell licens⁴².

Table 2
Tabell 2: Detaljer på de första 20 VviATL gen position i V. vinifera genomet, dubbelarbete stat, och ATL protein fysikalisk-kemiska egenskaper och läge. (en) antal fosforylering platser som förutsägs av Musite; (b) liknande förutsägelser erhålls med minst två programvara är markerade i fetstil; ngLOC användes med standardinställningarna, medan TargetP v1.1 och Protein Prowler subcellulär lokalisering användes med en cut-off om sannolikhet för 0,5. NUC, kärna; MIT, mitokondrierna; CHL, kloroplast; PLA, plasmamembranet; S, Utsöndringsvägarna (förekomst av en signal peptid). M, mitokondrierna; C, kloroplast; O eller -, andra platser; nd, ej fastställt (dvs., värde under tröskelvärdet). Återgivits från Ariani et al. licensierat under en Creative Commons Erkännande 4.0 internationell licens⁴². Vänligen klicka här för att hämta den här filen.

En fylogenetisk analys inklusive nukleotidsekvenser identifierade grapevine ATL-encoding gener tillsammans med sekvenserna av familjen referens A. thaliana ATL gen användes för grapevine ATL nomenklatur, enligt riktlinjerna för den sNCGGa⁸. Nittiosex och 83 nukleotidsekvenser från V. vinifera och A. thaliana, respektive, utsattes för rörledningen Phylogeny.fr att erhålla en tillförlitlig fylogenetiskt träd.De senare sekvenserna användes senare för att kommentera och namnge grapevine gener på grundval av solida relationer (figur 2). Efter detta synsätt mottog 13 av 96 grapevine vårdnivå ett visst ID med tanke på deras one-to-one ortologiprediktion med en A. thaliana ATL. Namnen på andra 83 gener tilldelades baserat på fylogenetiska trädet, med en progressiv numrering från topp till botten, börjar en ATL gen siffran högre än det högsta numret används i A. thaliana.

Figur 2: Phylogenetic tree av V. vinifera och A. thaliana ATL E3 ubiquitin ligase-encoding gener. Orotad trädet genererades med Phylogeny.fr suite (V. vinifera (i grönt) och 83 ATL generna av A. thaliana rapporterade i databasen UniProt (i gult). Gren stöd värden erhölls från 100 bootstrap replikat. De röda stjärnorna indikera närvaron av en BCA2 zink finger (BZF) domän i motsvarande proteiner. Återgivits från Ariani et al. licensierat under en Creative Commons Erkännande 4.0 internationell licens⁴². Klicka här för att se en större version av denna siffra.

Mappning av ATL-encoding gener till grapevine kromosomerna visade en bred distribution i hela genomet, vilket tyder på helgenom-dubbelarbete som den stora evolutionära kraften i utbyggnaden av ATL gen familj i grapevine. Faktiskt fanns 31 vårdnivå i homologa kromosomala regioner potentiellt med ursprung från segmentell eller hela genomet dubbelarbete händelser. Dessutom markeras samma analys 13 tandemly duplicerade gener, en proximal dubblett och 51 spridda dubbletter (figur 3). Med tanke på det mycket stora antalet duplicerade gener i familjen ATL utförde vi ett berikande test (Fishers exakta test) för att kontrollera förmånliga bibehållandet av de duplicerade generna under den genomet fraktioneringen. Med ett p-värde < 0,001, detta test bekräftade hypotesen att dupliceras ATL gener behölls mer än slumpmässigt förväntat, vilket tyder på en roll för ATL gen familjen under grapevine anpassning och evolution.

Figur 3: Grapevine ATL-encoding gen distribution på V. vinifera kromosomer och dubbelarbete stat. De 96 grapevine ATL generna med exakta kromosomala information tillgänglig i databasen karterades till 19 V. vinifera kromosomerna. Färgerna anger den ursprungliga dubbelarbete-händelsen. Identifierar par härrör från tandem överlappningar och hela genomet dubbelanslutna personer, respektive vertikala svarta linjer och röda linjer. Återgivits från Ariani et al. licensierat under en Creative Commons Erkännande 4.0 internationell licens⁴². Klicka här för att se en större version av denna siffra.

För att ytterligare undersöka de förmodade biologiska funktionerna av vårdnivå i grapevine, genomfördes en meta-analys på den V. vinifera cv. Corvina globala genuttryck Atlas¹². Datamängden innehåller helgenom-uttryckets värden av 54 olika grapevine organ och utvecklingsstadier och användes för att utföra en hierarkisk bi-klustrade analys. Resultaten bekräftade inte bara att alla de 96 vårdnivå var uttryckt i minst ett av de 54 vävnader/stadierna, men också pekat på förekomsten av fem huvudsakliga kluster av uttrycket profiler (figur 4A). Kort, kluster A och E visade mittemot beteenden, särskilt först kännetecknas av en allmän nedreglering av ATL gener i juvenil prover, inklusive tidiga berry stadier, unga blad, rankor, blomställning och de flesta av de bud stadierna. Däremot, i samma kluster A, Mogen prover som bär på mognad och efter skörd vissnande stadier, woody vävnader och sena stadier av utsäde utveckling ATL gener visade en dominerande uppreglering. Gener i kluster C var främst nedreglerade i de flesta av proverna, medan ATL gener i kluster D var ofta uppreglerad i sena skeden av berry utveckling. Kluster B visade slutligen inte någon relevant variant i uttrycket profiler.

Ett liknande tillvägagångssätt tillämpades för att studera uttrycket av grapevine ATL familjemedlemmar som svar på biotiska och abiotiska betonar, med specifika datamängder byggda för detta ändamål. En stor mängd uttryck data som härrör från microarray och RNA-seq experiment finns tillgängliga från public access-databaser såsom Gene Expression Omnibus (GEO) och ArrayExpress. När samlas in och bekvämt normaliserade, var informationen utnyttjas för ytterligare insikter om potentiella funktionen av vårdnivå i växten svar för påfrestningar. Analysera uttryck profiler av grapevine vårdnivå som svar på biotiska betonar avslöjade att 62 av 96 avskrifter visade en betydande modulering (log2 (FC)-faldig förändring > | 0,5 |) i minst två villkor, med en falsk upptäckten hastighet (FDR) < () 0,05 Figur 4B). Numret ökar till 81 överväger endast FDR tröskeln i ett enda villkor. Dessa resultat antydde starkt en direkt inblandning av familjen ATL genen i svaret till patogener också i grapevine. Särskilt en grupp av 12 gener (VviATL3-27-54b-55-90-97-123-144-148-149-156) var starkt uppreglerad svar på de flesta patogener, inklusive biotrophic och necrotrophic svampar och växtätare, och därför förtjänar uppmärksamhet för ytterligare funktionella analyser.

Figur 4: hierarkisk clusteringof ATL genuttryck i grapevine Atlas och i grapevine biotiska stressrelaterade datamängd. (A) log förvandlas uttrycket värden av grapevine ATL gener i grapevine Atlas¹² användes för hierarkiska klusteranalys baserat på Pearsons avstånd metriska. Det färg skala representerar högre (röd) eller lägre (grön) uttrycket nivåer med respekt till median avskrift överflödet av varje gen över alla prover. Bokstäverna A – E på höger sida visar de olika kluster identifierats.AB: efter sprack; B: brast; knopp-W: vintern bud; F: blommande; FB: blommande börjar; FS: frukt ställa; G: grön; Herr: mid-mognadsår, PFS: efter frukt set; PHWI-II-III: efter skörd vissnande 1, 2 och 3 månader. R: mognadsår, S: senescent; Stem-W: träig stam; V: veraison; WD: välutvecklad; Y: ung. (B), färg skala representerar ökad (röd) eller minskat (blå) vik förändringar av grapevine ATL genuttryck i infekterade prover jämfört med kontroller för varje villkor. Asteriskerna visar betydande differentiell uttrycket (FDR < 0,05) av varje ATL på motsvarande villkor. Återgivits från Ariani et al. licensierat under en Creative Commons Erkännande 4.0 internationell licens⁴². Klicka här för att se en större version av denna siffra.

Kompletterande Tabell1: ATL gener kandidater för alternativ splitsning. (en) ATL gen-ID enligt V1 druva gen förutsägelsen och annotering, (b), ATL gen ID enligt V2 druva gen förutsägelse och annotering⁴³, (c) antal förmodade ATL alternativ splitsning varianter, (d) information om kodande sekvens av varje förmodad ATL-variant. Vänligen klicka här för att hämta den här filen.

Kompletterande tabell 2: Vänligen klicka här för att hämta den här filen.

Kompletterande fil 1: Vänligen klicka här för att hämta den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

I genomisk eran, har många gen familjer karaktäriserats djupt i flera växtarter. Denna information är preliminär funktionella studier och tillhandahålla en ram för att ytterligare undersöka rollen av olika medlemmar i en familj. I detta sammanhang finns det också ett behov av en nomenklatur system som möjliggör att unikt identifiera varje medlem i en familj, att undvika redundans och förvirring som kan uppstå när namnen tilldelas självständigt olika gener av olika forskargrupper.

Efter tankeväckande övervägande grapevine forskarsamhället enats om att namnet grapevine gener i en familj baserat på likheter med Arabidopsis gener och etablerade en rad regler som måste tillämpas för att beskriva nya gen familjer i grapevine, i princip start från fylogenetiska jämförelse av nukleotidsekvenser mellan grapevine och Arabidopsis familjemedlemmar⁸. Bara gener som redan kommenterad och heter ordentligt i Arabidopsis kan därför användas i grapevine nomenklaturen. Det förfarande som används för identifiering av grapevine ATL orthologues i Arabidopsis beskrivs här genomfördes därför enbart för att uppfylla behovet av att tilldela rätt grapevine gen familj nomenklaturen. Ändå, för andra växtarter, alternativa metoder kunde vara ett alternativ. Exempelvis ortologiprediktion kunde härledas med hjälp av en dubbelriktad BLAST träffar (BBH), där orthologues definieras som par av gener i två arter som är mer lik (dvs.med högsta justering Poäng) till en annan än att någon annan gen i den andra arter⁴⁴. Denna metod kunde dock missa många orthologues när det gäller höga andelen gen dubbelarbete, såsom i växter och djur⁴⁵. Dessutom när det gäller ATL-encoding gener, BBH kan hämta gener saknas precisa ATL-typen RING-H2 struktur (inklusive proline återstoden) eller gener som inte är kommenterad och benämn så vårdnivå i Arabidopsis. Även ur ett evolutionärt perspektiv denna sökning kan vara relevanta, skulle hämtning av orthologues som inte är kommenterad inte ha uppfyllt omfattningen av grapevine ATL gen familj annotering och nomenklaturen, och orthologues som inte är kommenterad som vårdnivå kan inte användas till namnet grapevine familjemedlemmar. En annan möjlighet är att härleda ortologiprediktion baserat på aminosyran i stället för nukleotidsekvenser via InParanoid⁴⁶, eller de senaste Hieranoid 2⁴⁷, om än sådana arbetsflöden inte rekommenderas uttryckligen av det vetenskapliga samfundet.

Uttryck meta-analys, som kan definieras som en systematisk metod att studera och kombinera olika offentligt tillgängliga datamängden databaser för uttrycket data, kan belysa delade och olika molekylära mekanismer i en mängd olika förhållanden. Således, integrationen av gen uttryck information från flera storskaliga transcriptomic experiment kan förbättra karakterisering av en gen familj, genom att definiera uttrycket profiler av familjemedlemmar över experiment, sålunda minimizing den inverkan av experiment-specifika faktorer och stödja ett mer robust antagande av förmodad geners funktion i särskilda processer. Dock förutsätter microarray data integration av uttrycket data som erhållits med olika plattformar, med tanke på sina egna begränsningar. Exempelvis i grapevine Nimblegen microarray-plattformen en betydande andel av probesets för motsvarande gener representerade på matrisen (~ 13 000 gener) har potentiellt cross-hybridisering frågor⁴⁸. När det gäller familjen grapevine ATL, kan 15 gener påverkas av sådana fenomen. Dock som diskuteras av Cramer et al. ⁴⁸, cross-identifiering av mycket liknande gen familjemedlemmar av samma sonden kunde ge intressant information angående uttrycket, i specifika villkor, inte bara av en enda gen utan två till fler gener delar hög sekvens likheter, och därmed potentiellt dela mål och funktioner. En annan potentiell problem relaterat till microarray datamängder är uttrycket detektionsgränsen microarray plattformar, vilket inte är mycket känsliga. Att lösa både avser, dvs., cross-hybridisering och signal känslighet, en möjlig lösning kan vara att överväga endast RNAseq uttryck datamängder. Dock meta-analys av RNAseq uppgifter av mycket stora datamängder från många olika studier kan bli mycket tidskrävande och kan kräva många resurser och hög kompetens.

Även om metoden presenteras här syftar till att vara uttömmande, kan man säkerligen ytterligare kompletteras med andra analyser. Först, för att uppnå ytterligare insikter i Molekylär evolution och fylogenetiska förhållandet mellan gen familjemedlemmar i växter, fylogenetisk analys skulle kunna utvidgas bygga ett fylogenetiskt träd med flera följd anpassningar av familjemedlemmar från flera växtarter. Det är också möjligt att beräkna den evolutionära tid av familjen gener, en uppskattning av deras synonymt och icke-synonymt substitution priser under evolutionen, genom att fastställa värdena Ks (antal synonymt substitutioner per synonymt webbplats i en given under en tid) och Ka (antal nonsynonymous substitutioner per icke-synonymt webbplats i samma period). Ka/Ks förhållandet används för att härleda mekanismerna av genen dubbelarbete händelser efter avvikelser från deras förfäder. Ka/Ks värdet = 1 antyder neutrala urval, Ka/Ks värdet < 1 antyder renande urval och Ka/Ks värdet > 1 föreslår positiva urval⁴⁹. Dessutom om gen strukturanalys avslöjar förekomsten av introner, kan gen familj karakterisering förlängas ytterligare till upptäckt av alternativ splitsning varianter. Baserat på en djupgående undersökning av RNA-seq data från olika vävnader, stress villkor och genotyper⁴³, 21 (av 96) är vårdnivå verkligen starka kandidater för alternativ splitsning händelser, med potentiella antal isoformer som är allt från 2 till 16 för dessa vårdnivå (se Kompletterande tabell 1). Alternativa avskrifter producera ofta protein isoformer som varierar i amino syra ordnar och dessa förändringar kan påverka proteiners cellulära egenskaper och kan orsaka förändringar från subtila modulering förlust för gen funktion. Av den anledningen har alternativ splitsning händelser varit inblandade i viktiga växt funktioner, inklusive stressreaktion, motståndskraft mot sjukdomar, fotosyntes och blommande⁵⁰^,⁵¹.Integrering av ATL gen arrangören information som innehåller förmodad cis-reglerande element⁵² eller att hitta molekyler (t.ex., mikroRNA och långa icke-kodande RNA) potentiellt inriktning vårdnivå⁵³ kan också kompletteras till avslöja system insikter i komplexa molekylära reglering och interaktion av grapevine vårdnivå.

Sammanfattningsvis drivs främst valet av analyserna som skall utföras samt förfarandena som skall tillämpas för att karakterisera en ny gen familj i en växtarter av forskarsamhället regler samt omfattningen av gen familj identifiering. Det är viktigt att komma ihåg eventuella efterföljande undersökning steg, som kommer att utnyttja uppsättningen information bland som innefattar gen evolution bland växtarter, genomets struktur beskrivning eller tillförlitlig kandidater för val i funktionella studier.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har något att avslöja.

Acknowledgments

Arbetet stöds av universitetet i Verona inom ramen för gemensamma projektet 2014 (karakterisering av familjen ATL genen i grapevine och dess engagemang i motstånd mot Plasmopara viticola).

Materials

Name	Company	Catalog Number	Comments
Personal computer
Basic Local Alignment Search Tool (BLAST)			https://blast.ncbi.nlm.nih.gov/Blast.cgi
Molecular Evolutionary Genetics Analysis (MEGA)			http://www.megasoftware.net/
Motif-based sequence analysis tools (MEME)			http://meme-suite.org/
Geneious	Biomatters Limited		http://www.geneious.com/
ProtParam Tool			http://web.expasy.org/protparam/
ngLOC			http://genome.unmc.edu/ngLOC/index.html
TargetP v1.1 Server			http://www.cbs.dtu.dk/services/TargetP/
Protein Prowler			http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/
MUsite			http://musite.sourceforge.net/
Pfam			http://pfam.xfam.org/
TMHMM Server v. 2.0			http://www.cbs.dtu.dk/services/TMHMM/
ProtScale			http://web.expasy.org/protscale/
Grape Genome Database (CRIBI)			http://genomes.cribi.unipd.it/grape/
PhenoGram			http://visualization.ritchielab.psu.edu/phenograms/plot
MCScanX			http://chibba.pgml.uga.edu/mcscan2/
Interactive Tree Of Life (iTOL)			http://itol.embl.de/
UniProt			http://www.uniprot.org/
Phylogeny.fr			http://www.phylogeny.fr/index.cgi
MUSCLE			http://www.ebi.ac.uk/Tools/msa/muscle/
Gblocks Server			http://molevol.cmima.csic.es/castresana/Gblocks_server.html
Vitis vinifera cv. Corvina gene expression Atlas datamatrix			https://www.researchgate.net/publication/273383414_54sample_ datamatrix_geneIDs_Fasoli2012
Multi Experiment Viewer (MeV)			http://mev.tm4.org/#/welcome
Sequence Read Archive (SRA)			https://www.ncbi.nlm.nih.gov/sra
R			https://www.r-project.org/
EMBOSS Needle (EMBL-EBI)			http://www.ebi.ac.uk/Tools/psa/emboss_needle/

DOWNLOAD MATERIALS LIST

References

Jaillon, O., et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. 449 (7161), 463-467 (2007).
Adam-Blondon, A. -F., et al. Genetics, Genomics, and Breeding of Grapes. , Science Publishers. 211-234 (2011).
Chen, L., Hellmann, H. Plant E3 Ligases: Flexible Enzymes in a Sessile World. Mol. Plant. 6 (5), 1388-1404 (2013).
Vierstra, R. D. The ubiquitin-26S proteasome system at the nexus of plant biology. Nat. Rev. Mol. Cell Biol. 10 (6), 385-397 (2009).
Serrano, M., Parra, S., Alcaraz, L. D., Guzmán, P. The ATL Gene Family from Arabidopsis thaliana and Oryza sativa Comprises a Large Number of Putative Ubiquitin Ligases of the RING-H2 Type. J. Mol. Evol. 62 (4), 434-445 (2006).
Aguilar-Hernández, V., Aguilar-Henonin, L., Guzmán, P. Diversity in the Architecture of ATLs, a Family of Plant Ubiquitin-Ligases, Leads to Recognition and Targeting of Substrates in Different Cellular Environments. PLoS One. 6 (8), e23934 (2011).
Guzmán, P. The prolific ATL family of RING-H2 ubiquitin ligases. Plant Signal Behav. 7 (8), 1014-1021 (2012).
Grimplet, J., et al. The grapevine gene nomenclature system. BMC Genomics. 15, 1077 (2014).
Prince, V. E., Pickett, F. B. Splitting pairs: the diverging fates of duplicated genes. Nat. Rev. Genet. 3 (11), 827-837 (2002).
Magadum, S., Nerjee, U., Murugan, P., Gangapur, D., Ravikesavan, R. Gene duplication as a major force in evolution. J. Gen. 92 (1), 155-161 (2013).
Wang, N. Patterns of Gene Duplication and Their Contribution to Expansion of Gene Families in Grapevine. Plant Mol. Biol. Rep. 31 (4), 852-861 (2013).
Fasoli, M. The Grapevine Expression Atlas Reveals a Deep Transcriptome Shift Driving the Entire Plant into a Maturation Program. Plant Cell. 24 (9), 3489-3505 (2012).
BLAST. BLAST2.6.0. , Available from: https://blast.ncbi.nlm.nih.gov/Blast.cgi (2016).
MEGA. MEGA7.0.25 build 7170412. , Available from: http://www.megasoftware.net/ (2017).
MEME. MEME Suite Version 4.11.4. , Available from: http://meme-suite.org/ (2017).
ProtParam. ExPASy Server. , Available from: http://web.expasy.org/protparam/ (2005).
ngLOC v1.0. , Available from: http://genome.unmc.edu/ngLOC/index.html (2007).
TargetP v1.1 Server. , Available from: http://www.cbs.dtu.dk/services/TargetP/ (2000).
Prowler v1.2. , Available from: http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/ (2005).
MuSite v1.0. , Available from: http://musite.sourceforge.net/ (2010).
Pfam. Pfam version 31.0. , Available from: http://pfam.xfam.org/ (2016).
TMHMM v2.0c. , Available from: http://www.cbs.dtu.dk/services/TMHMM/ (2007).
ExPASy. ProtScale. , Available from: http://web.expasy.org/protscale/ (2005).
CRIBI. Grape genome database. , Available from: http://genomes.cribi.unipd.it/grape/ (2012).
PhenoGram. , Available from: http://visualization.ritchielab.psu.edu/phenograms/plot (2012).
ScanX v0.8. , Available from: http://chibba.pgml.uga.edu/mcscan2/ (2013).
Interactive Tree Of Life (iTOL). Version3.5.3. , Available from: http://itol.embl.de/ (2016).
UniProt. , Available from: http://www.uniprot.org/ (2016).
Phylogeny.fr. , Available from: http://www.phylogeny.fr/index.cgi (2008).
MUSCLE. , Available from: http://www.ebi.ac.uk/Tools/msa/muscle/ (2017).
Gblocks Server. Version 0.91b. , Available from: http://molevol.cmima.csic.es/castresana/Gblocks_server.html (2002).
Vitis vinifera cv. Corvina gene expression Atlas. , Available from: https://www.researchgate.net/publication/273383414_54sample_datamatrix_geneIDs_Fasoli2012 (2015).
Multiple Experiment Viewer (MeV). Version 4.8.1. , Available from: http://mev.tm4.org/ (2017).
Sequence Read Archive (SRA). , Available from: https://www.ncbi.nlm.nih.gov/sra (2017).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat Meth. 9 (4), 357-359 (2012).
Anders, S., Pyl, P. T., Huber, W. HTSeq-a Python framework to work with high-throughput sequencing data. Bioinformatics. 31 (2), 166-169 (2015).
R. Version 3.4.1. , Available from: https://www.r-project.org/ (2017).
Ritchie, M. E. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47 (2015).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
EMBL-EBI. EMBOSS Needle. , Available from: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ (2017).
Ariani, P. Genome-wide characterisation and expression profile of the grapevine ATL ubiquitin ligase family reveal biotic and abiotic stress-responsive and development-related members. Sci. Rep. 6, 38260 (2016).
Vitulo, N., et al. A deep survey of alternative splicing in grape reveals changes in the splicing machinery related to tissue, stress condition and genotype. BMC Plant Biol. 14 (1), 99 (2014).
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA. 96 (6), 2896-2901 (1999).
Dalquen, D. A., Dessimoz, C. Bidirectional Best Hits Miss Many Orthologs in Duplication-Rich Clades such as Plants and Animals. Genome Biol. Evol. 5 (10), 1800-1806 (2013).
Remm, M., Storm, C. E. V., Sonnhammer, E. L. L. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons1. J. Mol. Biol. 314 (5), 1041-1052 (2001).
Kaduk, M., Sonnhammer, E. Improved orthology inference with Hieranoid 2. Bioinformatics. 33 (8), (2017).
Cramer, G. R., et al. Transcriptomic analysis of the late stages of grapevine (Vitis vinifera cv. Cabernet Sauvignon) berry ripening reveals significant induction of ethylene signaling and flavor pathways in the skin. BMC Plant Biol. 14, 370 (2014).
Juretic, N., Hoen, D. R., Huynh, M. L., Harrison, P. M., Bureau, T. E. The evolutionary fate of MULE-mediated duplications of host gene fragments in rice. Genome Res. 15 (9), 1292-1297 (2005).
Filichkin, S. A. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. Genome Res. 20 (1), 45-58 (2010).
Quesada, V., Macknight, R., Dean, C., Simpson, G. G. Autoregulation of FCA pre-mRNA processing controls Arabidopsis flowering time. EMBO J. 22 (12), 3142-3152 (2003).
Wong, D. C. J., Gutierrez, R. L., Gambetta, G. A., Castellarin, S. D. Genome-wide analysis of cis-regulatory element structure and discovery of motif-driven gene co-expression networks in grapevine. DNA Res. 24 (3), 311-326 (2017).
Wong, D. C. J., Matus, J. T. Constructing Integrated Networks for Identifying New Secondary Metabolic Pathway Regulators in Grapevine: Recent Applications and Future Opportunities. Front. Plant Sci. 8, 505 (2017).

Biology

Heltäckande arbetsflöde för Genome-wide identifiering och uttryck Meta-analys av ATL E3 Ubiquitin Ligase gen familjen i Grapevine

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.