Biology

Flusso di lavoro globale per l'identificazione del genoma e la Meta-analisi di espressione della famiglia genica ATL E3 ubiquitina ligasi a Grapevine

Published: December 22, 2017 doi: 10.3791/56626

Pietro Ariani*¹, Elodie Vandelle*¹, Darren Wong², Alejandro Giorgetti¹, Andrea Porceddu³, Salvatore Camiolo³, Annalisa Polverari¹

¹Dipartimento di Biotecnologie, Università degli Studi di Verona, ²Ecology and Evolution, Research School of Biology, The Australian National University, ³Dipartimento di Agraria, SACEG, Università degli Studi di Sassari

* These authors contributed equally

Summary

Questo articolo descrive la procedura per l'identificazione e la caratterizzazione di una famiglia di geni a grapevine applicato alla famiglia di Arabidopsis Tóxicos in Levadura (ATL) E3 ubiquitina ligasi.

Abstract

Classificazione e nomenclatura dei geni in una famiglia può contribuire significativamente alla descrizione della diversità delle proteine codificate e alla previsione delle funzioni di famiglia basato su diverse funzionalità, come la presenza di motivi di sequenza o di particolare siti per modificazione post-traduzionale e il profilo di espressione dei membri della famiglia in condizioni diverse. Questo lavoro descrive un protocollo dettagliato per la caratterizzazione dei geni familiari. Qui, la procedura viene applicata per la caratterizzazione della famiglia Arabidopsis Tóxicos in Levadura (ATL) E3 ubiquitina ligasi a grapevine. I metodi includono l'identificazione del genoma di membri della famiglia, la caratterizzazione del gene localizzazione, struttura e duplicazione, l'analisi dei motivi della proteina conservata, la previsione dei siti di localizzazione e la fosforilazione delle proteine, nonché espressione genica in tutta la famiglia in diversi set di dati. Tale procedura, che potrebbe essere esteso a ulteriori analisi a seconda gli scopi sperimentali, potrebbe essere applicato a qualsiasi famiglia genica in qualsiasi specie di piante per i quali sono disponibili dati genomici e fornisce informazioni utili per identificare i candidati interessanti per gli studi funzionali, dando comprensioni nei meccanismi molecolari dell'adattamento della pianta al loro ambiente.

Introduction

Durante l'ultimo decennio, molta ricerca è stata effettuata in grapevine genomica. Vigna è una coltura economicamente rilevante riconosciuta, che è diventato un modello per la ricerca sullo sviluppo di frutta e sulle risposte delle piante legnose agli stress biotici e abiotici. In questo contesto, il rilascio del genoma di Vitis vinifera c.v. PN40024 nel 2007¹ e la sua versione aggiornata nel 2011² ha portato a un rapido accumulo di dati "Omics"-scala e a una raffica di studi di alto-rendimento. Base ai dati pubblicati sequenza, l'analisi completa di una famiglia di dato gene (generalmente composta da proteine condividono motivi conservati, somiglianze strutturali e/o funzionali e rapporti evolutivi), possono ora essere eseguite per scoprire la funzioni molecolari, evoluzione e profili di espressione genica. Queste analisi possono contribuire alla comprensione di come le famiglie geniche controllano processi fisiologici a livello del genoma.

Molti aspetti del ciclo di vita della pianta sono regolati dalla degradazione ubiquitina-mediata di proteine chiave, che richiedono un fatturato fine-tuned per garantire regolari processi cellulari. Importanti componenti del processo di degradazione ubiquitina-dipendente sono la ligasi di ubiquitin E3, che sono responsabili della flessibilità del sistema, grazie all'assunzione di specifici obiettivi³. Di conseguenza, questi enzimi rappresentano una famiglia di geni enorme, con circa 1.400 E3 ligasi-codifica geni preveduti in Arabidopsis thaliana genoma⁴, ogni E3 ubiquitina ligasi che agiscono per l'ubiquitinazione delle proteine target specifici. Nonostante l'importanza del substrato specifico ubiquitinazione nella regolazione cellulare nelle piante, piccolo è conosciuto circa come è regolato il pathway di ubiquitinazione e solo in pochi casi sono state identificate proteine bersaglio. La decifrazione di tali meccanismi di specificità e regolamento si basa innanzitutto sull'identificazione e la caratterizzazione delle diverse componenti del sistema, in particolare la ligasi E3. Tra ubiquitin-ligasi, sottofamiglia ATL è caratterizzata da 91 membri identificati in a. thaliana visualizzati un anello-H2 dito dominio⁵^,⁶, alcuni di loro un ruolo in difesa e ormone risposte⁷.

Il primo passo cruciale per definire i membri di una nuova famiglia genica è la definizione precisa delle caratteristiche familiari, quali motivi di consenso, settori chiave e le caratteristiche di sequenza della proteina. Infatti, il recupero affidabile di tutti i membri della famiglia genica basato su analisi BLAST richiede alcune caratteristiche di sequenza obbligatoria, nei domini di particolare proteina responsabile di funzione/attività della proteina, che funge da firma di proteina. Questo può essere facilitato dalla caratterizzazione precedente della famiglia del gene stesso in altre specie vegetali o ottenuto analizzando diversi geni putativamente appartenendo alla stessa famiglia in specie di piante diverse, per isolare sequenze comuni. I membri della famiglia possono singolarmente denominati seguendo regole comuni che si stabilì di consorzi internazionali per una determinata specie. A grapevine, per esempio, tale procedura è sottoposta alle raccomandazioni del Comitato Super-nomenclatura per l'annotazione del Gene dell'uva (sNCGGa), che stabilisce la costruzione di un albero filogenetico tra cui V. vinifera e a. thaliana membri della famiglia genica per consentire l'annotazione del gene basato su sequenze di nucleotidi⁸.

Localizzazione del cromosoma dei membri della famiglia e indagine di duplicazione genica consentire evidenziando la presenza di geni duplicati intero genoma o tandem. Tali informazioni appaiono utile per svelare le funzioni del gene presunto, poiché esso potrebbe mostrare ridondanza funzionale o rivelare situazioni differenti, cioè, non-funzionalizzazione, neo-funzionalizzazione o Sub-funzionalizzazione⁹. Entrambi neo - e sub - functionalization sono eventi importanti che creano novità genetica, fornendo nuove componenti cellulari per adattamento della pianta alle mutevoli ambienti¹⁰. In particolare, le duplicazioni dei geni ancestrali e produzione di nuovi geni erano molto frequenti nel corso dell'evoluzione del genoma della vite e neonate geni provenienti dalle duplicazioni prossimali e tandem a grapevine erano più probabili produrre nuovo funzioni¹¹.

Un altro fattore chiave nel decifrare la funzione della famiglia genica è il profilo di trascrittomica. La disponibilità di banche dati pubbliche, dando accesso a un'enorme quantità di dati di trascrittomica può essere così sfruttata per assegnare funzioni putative ai membri della famiglia genica utilizzando su larga scala in silico analisi di espressione. Infatti, la peculiare espressione di alcuni geni negli organi vegetali specifiche o in risposta a determinate sollecitazioni possa dare alcuni suggerimenti per quanto riguarda i presunti ruoli delle proteine corrispondenti in condizioni definite e dare sostegno alle ipotesi sulle possibili Sub-funzionalizzazione dei geni duplicati per rispondere alle diverse sfide. A tale scopo, è importante prendere in considerazione diversi set di dati: questi possono essere già disponibili gene matrici di espressione, come l'Atlante di trascrittomica genoma della vite organi e fasi di sviluppo¹², o possono essere costruiti ad hoc di recupero di trascrittomica DataSet per la specie di pianta particolare definito sollecitato. Inoltre, un approccio semplice utilizzando due matrici, una con dati pairwise somiglianza e l'altra con coefficienti pairwise co-espressione può essere applicati per valutare le relazioni tra modelli di somiglianza ed espressione di sequenza all'interno di una famiglia di geni.

Lo scopo di questo lavoro è quello di fornire un approccio globale, definizione di struttura del gene, conservato proteina motivi, posizione cromosomica, duplicazioni del gene e modelli di espressione, come anche la previsione di siti di localizzazione e fosforilazione di proteine, per raggiungere un esauriente caratterizzazione di una famiglia di geni in piante. Un tale approccio globale viene applicato qui alla caratterizzazione della famiglia ATL E3 ubiquitina ligasi a grapevine. Secondo il ruolo emergente dei membri sottofamiglia ATL nella regolazione dei processi cellulari chiave⁷, questo lavoro può anche aiutare l'identificazione dei forti candidati per studi funzionali e finalmente svelare i meccanismi molecolari che regolano la adattamento di questa coltura importante al suo ambiente.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. identificazione dei membri di famiglia di geni putativi ATL

Versione web di PSI-BLAST
1. Aprire la pagina web BLAST¹³ e clicca sulla sezione BLAST della proteina.
2. Nel campo "Enter Query sequence", immettere la sequenza aminoacidica della proteina (qui VIT_05s0077g01970) che verrà utilizzata come la sonda per identificare altri membri della famiglia.
  Nota: Una buona proteina rappresentativa deve essere utilizzato (una proteina visualizzati tutte le caratteristiche importanti che caratterizzano la famiglia).
3. Nel campo "Scegli set di ricerca", selezionare il database "Della proteina di riferimento" (refseq_protein) e l'organismo di interesse (V. vinifera - taxid:29760).
4. Nel campo "programma selezione", selezionare l'algoritmo di PSI-BLAST e fare clic sul pulsante BLAST per eseguire l'analisi.
  Nota: Cliccando su "i parametri dell'algoritmo" è possibile regolare alcuni parametri avanzati (Max sequenze bersaglio, Scoring matrix, soglia PSI-BLAST, ecc.).
5. La prima esplosione rotonda recupera tutte le sequenze di visualizzare corrispondenze pertinenti con le query (e-valore superiore alla soglia selezionata - per impostazione predefinita 0,005; 0.001 in questo esperimento). Deseleziona tutte le voci, che chiaramente non appartengono alla famiglia sotto esame facendo clic sul segno di spunta nella colonna "select per PSI-BLAST" ed eseguire la seconda iterazione di PSI-BLAST facendo clic sul pulsante BLAST come descritto al punto 1.1.4.
6. Recentemente identificate sequenze sono evidenziati in giallo. Deseleziona i successi chiaramente sbagliati estratto e scoprire ulteriori iterazioni come descritto al punto 1.1.5.
7. Continuare con le iterazioni fino a quando l'algoritmo non trova alcuna voce pertinente o raggiunge convergenza (nessun nuove voci si trovano). Scarica l'elenco dei membri della famiglia gene presunto per ulteriori analisi. Ispezionare visivamente i colpi Estratto in ogni iterazione per evitare la presenza di falsi positivi.
Versione standalone PSI-BLAST
1. Scarica la versione standalone di BLAST facendo clic sul pulsante "Scarica BLAST" il BLAST home pagina¹³.
  Nota: Il software BLAST standalone è una versione a riga di comando dell'interfaccia web descritto prima. Esso consente di eseguire la ricerca di PSI-BLAST contro un database locale o remoto personalizzato. Inoltre, esso consente la ricerca con un pre-definito posizione specifico punteggio Matrix (PSSM).

2. manuale ispezione dei membri della famiglia PSI-BLAST-identificati

Allineamento multiplo
1. Raccogliere le sequenze di acide amminici precedentemente identificate in un file di formato FASTA e caricarlo in MEGA software¹⁴ al procedere con l'allineamento multiplo.
2. Aprire il software MEGA, fare clic sul pulsante "Allinea", fare clic su "Modifica/Build allineamento", clicca su "Crea un nuovo allineamento", fare clic su "Proteine".
3. Fare clic su "Modifica" dal menu di allineamento e "Inserisci sequenza da File". Cercare il file FASTA creato prima e confermare il caricamento di tutte le sequenze di intervistati.
4. Fare clic su "Allineamento" dal menu di allineamento e "Allineare di muscolo". Utilizzare i parametri predefiniti, fare clic sul pulsante "Calcola" e attendere il completamento dell'allineamento multiple.
5. Ispezionare visivamente l'allineamento multiplo per escludere i membri della famiglia in modo non corretto previsti. Il canonico CxxC (13x) PxCxHxxHxxCxxxW (7x) CxxCW motivo, (in particolare la presenza di residui di prolina prima la terza cisteina), è la caratteristica chiave necessaria per definire i membri della famiglia ATL.
Analisi di specifico LOGO
1. Inviare l'elenco definitivo dei membri della famiglia (96 sequenze di grapevine soddisfano i requisiti per essere considerato ATL) al Em multipli per Motif elicitazione (MEME)¹⁵ per definire motivi conservati in tutta la famiglia.
2. Dalla home page di MEME, fare clic sul pulsante "MEME" e compilare il "dati invio modulo" con informazioni particolari per quanto riguarda la famiglia di interesse.
3. Utilizzare l'analisi MEME per confermare la presenza dei due motivi previsti all'interno i membri della famiglia ATL grapevine, cioè, l'anello-H2 e i motivi GLD.
In alternativa, eseguire i passaggi 2.1 e 2.2 contemporaneamente utilizzando la suite di software di bioinformatica (Vedi Tabella materiali).
1. Caricare file FASTA (Vedi punto 2.1.1) nella suite. Selezionare "File" dal menu, poi "Importa" e fai clic su "da file". Individuare il file. FASTA e fare clic su "Apri".
2. Selezionare tutte le sequenze di importati nell'elenco e fare clic sul pulsante "Allinea/assemblare" nella barra degli strumenti, quindi fare clic su "Pairwise allineamento multiplo". Selezionare "Allineamento muscolo" e fare clic su "OK" per avviare l'allineamento utilizzando i parametri predefiniti.
3. Per visualizzare il LOGO dell'allineamento, fare clic su "Grafici" → "Opzioni" e selezionare "Sequenza Logo".

3. analisi dei parametri fisici della proteina e domini

Come la definizione dei diversi parametri fisici dei membri della famiglia intervistati è importante avere una descrizione completa della famiglia, presentare l'elenco dei membri della famiglia di strumenti web specifico.
1. Per punto isoelettrico (pI) e peso molecolare (kDa), è possibile utilizzare il ProtParam strumento¹⁶ sul sito Expasy con parametri predefiniti.
2. Per localizzazione sottocellulare della proteina, utilizzare diversi strumenti per ottenere una stima più affidabile come ngLOC v 1.0¹⁷ con le impostazioni predefinite, targetP v 1.1¹⁸ con impostazioni predefinite e proteina prowler localizzazione subcellulare v 1.2¹⁹con un cut-off di probabilità pari a 0.5. Per siti di fosforilazione, è possibile utilizzare il MUsite v 1.0 web strumento²⁰ con i parametri predefiniti.
Indagare su domini supplementari della proteina nei membri di famiglia.
1. Aprire la pagina Web di database Pfam²¹, selezionare strumento di "Ricerca di sequenza", presentare sequenze proteiche nella finestra query e fare clic su "Go" per eseguire l'analisi.
  Nota: Ogni sequenza della proteina è analizzata individualmente. Un e-valore di 1.0 nell'impostazione predefinita permette di discriminare tra colpi significativi e non significativi.
2. Aprire il Server TMHMM²² dal centro per l'analisi di sequenza biologica indagare la presenza di putative transmembrane regioni.

Incollare tutte le sequenze proteiche simultaneamente nella finestra query (o in alternativa caricare un file di testo tra cui tutte le sequenze proteiche in formato FASTA) e fare clic su "Invia" per eseguire l'analisi.

Analizzare le proteine carente predetti domini transmembrana, secondo TMHMM (punto 3.2.2), con ProtScale strumento per identificare regioni idrofobiche putative. Aprire la pagina Web di ProtScale²³. Incollare ogni sequenza proteica nella finestra query e selezionare "Hphob. / Kyte & Doolittle "come scala dell'amminoacido. Fare clic su "Invia" per eseguire l'analisi.

4. cromosomica distribuzione, duplicazioni e organizzazione dell'esone-introne

Mappa i membri della famiglia ATL sui cromosomi basati sulle informazioni recuperate dal sito Grapevine Genome CRIBI Biotech Center²⁴.
1. Sfoglia il PhenoGram sito Web Home Page²⁵. Scrivere il "File di Input" come file di testo delimitato da tabulazioni con le caratteristiche specifiche dei geni essere mappati sui cromosomi, secondo le linee guida esaustive ed esempi per quanto riguarda la compilazione del file fornito seguendo il percorso "Phenogram" → " Documentazione"→"Opzioni"→"Input file".
2. Scrivere il "titolo" del lavoro. Selezionare il genoma deve essere disegnato. Per genomi non implementati nel software, come il genoma della vite, selezionare "altro" nel menu a discesa. Scrivere il file di genoma secondo le linee guida e gli esempi forniti, seguendo il percorso "Phenogram" → "Documentazione" → "Opzioni" → "Genoma" e caricarlo.
3. Utilizzare i parametri predefiniti di "Spaziatura fenotipo", "Fenotipo colore", "Formato immagine" o selezionare alternative nei rispettivi menu e scegliere "Complotto" per ottenere la visualizzazione dei geni sui cromosomi.
Definire lo stato di duplicazione dei membri della famiglia utilizzando il software MCScanX²⁶.
1. Scaricare e decomprimere una copia del MCscanX su una macchina locale con righe di comando 1 (complementare File 1). Entrare nella cartella MCscanX e creare i necessari file eseguibili in esecuzione di righe di comando 2 (complementare File 1).
  Nota: Installazione di MCscanX è conosciuto per avere esito negativo su alcune macchine di Linux a 64 bit a causa di un problema per quanto riguarda la funzione chdir. Se viene restituito un messaggio di errore correlato a questa funzione al momento la rendono l'esecuzione del comando, le righe di comando 3 (complementare File 1) deve essere eseguite e il comando "make" dovrebbe essere tentato in seguito.
2. Scarica le proteine di V. vinifera e il file di annotazione in esecuzione di righe di comando 4 (complementare File 1).
  Nota: La vite annotazione del file deve essere decompresso e il gatto di informazioni di singoli cromosomi in un unico file eseguendo il comando linee 5 (complementare File 1).
3. Esegui un "tutti contro tutti" blastp ricerca utilizzando il file di proteina di V. vinifera come la query e il soggetto.
4. Creare un database ricercabile blast utilizzando il file V. vinifera proteina in esecuzione comando linee 6 (complementare File 1). Eseguire la ricerca di blastp utilizzando il file di proteine V. vinifera come una query sul database creato in precedenza tramite l'esecuzione di righe di comando 7 (complementare File 1).
5. Convertire il file di annotazione in un formato adatto per MCScanX. Eseguire righe di comando 8 (complementare File 1) per scaricare il parseMSCanXgff.pl di script perl personalizzati. Eseguire l'analisi in esecuzione di righe di comando 9 (complementare File 1).
  Nota: Un file vitis.gff viene generato che contiene il gene coordinate nel formato seguente:
  SP # gene posizione ending posizione iniziale
  dove "sp" è un codice di due lettere per la specie (Vv su grapevine) mentre "#" è il nome dell'impalcatura. Si noti che lo script perl personalizzato fornito è adatto per la conversione la maggior parte, anche se alcune modifiche di codice può essere richiesto in alcuni casi specifici a causa della diversità delle informazioni fornite nel file di annotazione disponibili.
6. Lancio MCScanX in esecuzione comando linee 10 (complementare File 1).
  Nota: Il "vitis" è il prefisso di annotazione e il file di output di blast. Questo rappresenta un requisito obbligatorio per il software per l'esecuzione.
7. Analizzare i risultati MCScanX. MCScanX produce un file di testo "vitis.collinearity", che contiene blocchi collineari. Tale file può essere controllato da qualsiasi editor di testo (vedere esempio uscita 1 supplementare File 1).
  Nota: Una directory "mcscaxOutput.html" viene generata che contiene i file html con allineamenti multipli di collineari blocchi contro ogni cromosoma di riferimento. Questi file possono essere controllati attraverso un browser web.
8. Classificare i geni paraloghi basati sulle loro posizioni relative in cromosomi in esecuzione comando linee 11 (complementare File 1).
  Nota: Classificazione di Paralogous gene è descritto nel Supplementare tabella II. Il file di output generato "vitis.gene_type" contiene tutte le informazioni di origine con un formato di semplice delimitato da tabulazioni.
9. Eseguire analisi di arricchimento per valutare se la famiglia genica prevalentemente ha provenuto da un meccanismo specifico in esecuzione comando linee 12 (complementare File 1).
  Nota: File "vitis.gene_type" viene generato al passaggio 4.2.8, considerando che il file "gene_family_file" rappresenta un file di testo di una riga in cui il nome della famiglia (ad esempio, ATL_genes) è seguito dai nomi di luogo per tutti i geni appartenenti alla famiglia separati da una tabulazione. Il test statistico applicato per arricchimento è un test esatto di Fisher e il p-valori delle diverse origini sono memorizzati nel file "txt outputfile. txt".
Visualizzare l'organizzazione di esone-introne dei geni utilizzando Interactive Tree Of Life (iTOL)²⁷, uno strumento online per la visualizzazione, annotazione e gestione degli alberi filogenetici.
1. Caricare un albero filogenetico nella sezione "Upload" del sito Web iTOL. L'albero è costruito secondo sezione 5 qui sotto. Per ogni gene di membro della famiglia, recuperare la previsione della struttura genica da V1 annotazione del genoma grapevine (sito CRIBI citata.). Calcolare la lunghezza (in bp) del presunti esoni, introni e regioni non tradotte (UTR).
2. Utilizzare il dataset "Domini proteici" per la visualizzazione grafica del modello esone-introne.

Scrivere un file di testo tra cui lunghezze calcolate secondo le specifiche fornite seguendo il percorso "Aiutare" → "pagine della Guida" → "Tipi di Dataset" → "Domini proteici" nell'iTOL sito²⁷. Utilizzando dataset "Domini proteici", il "rettangolo (RE)" e le forme di "divario di rettangolo (GP)" rappresentano l'esone e UTR, rispettivamente.

5. nomenclatura e analisi filogenetica

Analizzare le relazioni tra i membri della famiglia ATL attraverso la costruzione di un albero filogenetico di alta qualità e la definizione di una nomenclatura familiare.
1. Per una famiglia di geni di grapevine, seguire le regole stabilite dal Comitato della nomenclatura di Grapevine Super⁸.
2. Recuperare le sequenze di a. thaliana ATL, necessarie come riferimento per vite gene nomenclatura⁸, dal database UniProt²⁸ .
3. Scrivere un file FASTA compreso tutte le sequenze del nucleotide della vite e membri della famiglia genica a. thaliana per essere inclusi nell'analisi filogenetica. Le sequenze nucleotidiche consentono il massimo della variabilità tra membri della famiglia (rispetto alle sequenze proteiche).
Albero filogenetico
Nota: L'utilizzo della pipeline ²⁹ Phylogeny.fr è consigliato per ottenere un albero filogenetico di alta qualità, ma non obbligatorio.
1. Esplora la homepage di Phylogeny.fr²⁹e selezionare la pipeline "Analisi Phylogeny".
  Nota: "One Click" è adatto nella maggior parte dei casi, ma se necessario è possibile selezionare Impostazioni avanzate specifiche ("Advanced") o anche un'analisi completamente personalizzata ("alla Carte"; Vedi punto 5.2.5).
2. Scrivere il "nome dell'analisi", caricare il file FASTA creato in precedenza (punto 5.2.1 e fare clic su "Invia" per eseguire l'analisi.
3. In alternativa, se la procedura descritta sopra (punti 5.2.1, 5.2.2) risultati in un messaggio di errore, completare ogni passaggio della pipeline Phylogeny suite singolarmente, come segue.
  1. Dal muscolo software homepage³⁰, caricare il file FASTA in "STEP 1", selezionare "Pearson/FASTA" come "Formato di uscita" in "STEP 2" e fare clic su "Invia" in "STEP 3" per allineare sequenze di query.
  2. Fare clic su "Scarica file di allineamento" e salvare come file FASTA per ulteriori passi.
  3. Processo il file FASTA di allineamento per eliminare mal allineato posizioni utilizzando Gblocks Server strumento³¹. Caricare il file FASTA di allineamento, selezionare "DNA" come "Tipo di sequenza" e ha scelto le opzioni di rigore che meglio si accorda con l'analisi (ad es., per vite ATL gene famiglia selezionare tutte le tre opzioni proposte per "meno rigorosa selezione" perché di divergenza di sequenza alta). Fare clic su "blocchi" per eseguire l'analisi.
  4. Fare clic su "Allineamento risultante" nella parte inferiore della pagina output e salvare i risultati come un nuovo file FASTA.
  5. La homepage di Phylogeny.fr²⁹, selezionare "A la Carte" come pipeline "Analisi Phylogeny". Quindi, deseleziona "Allineamento multiplo" e "Allineamento curation". Fare clic su "Creare il flusso di lavoro", caricare il file FASTA a cura di Gblocks (passo 5.2.5.4), selezionare "Bootstrapping procedura" con i parametri predefiniti in "Impostazioni" e clicca su "Invia" per eseguire l'analisi.
4. Rami di collasso scarsamente supportato (cioè, i valori di bootstrap < 70%) facendo clic su "Comprimere i rami" nella sezione "Selezionare e azione" e scaricare i risultati finali nel formato Newick per ulteriori analisi.
Assegnare un nome del gene basato sulla filogenesi.
1. Esaminare l'albero filogenetico per valutare l'affidabilità della struttura dell'albero caricandolo nella suite iTOL citata sopra (vedere paragrafo 4.3).
2. Assegnare manualmente un nome del gene a ogni membro della famiglia. Nel caso di uno a uno ortologhi, assegnare l' Arabidopsis-come il nome (ad es., AtATL3 → VviATL3). Differenziare i geni grapevine (due o più) derivante da un singolo Arabidopsis omologo con la stessa distanza filogenetica utilizzando numeri o lettere se il gene di Arabidopsis termina con un numero (ad es., AtATL23 → VviATL23a, VviATL23b).
3. Nel caso di uno-a-molti o molti-a-molti ortologhi, assegnare un nuovo nome di gene composto di Arabidopsis-come nome (qui, "ATL") accoppiato con un numero superiore al numero più alto già utilizzato per V. vinifera e Arabidopsis (ad es., VviATL83).
4. Completare la nomenclatura della famiglia appena definita decrescente dall'alto verso il basso dell'albero filogenetico.

6. grapevine organo e fase delineamento di espressione

Generare i dati di espressione contenenti lavoro dati matrice per i membri della famiglia.
1. Scarica la V. vinifera c.v. Corvina gene expression Atlas datamatrix dal link distribuiti su piattaforma ResearchGate³². Questo file contiene i valori di espressione RMA normalizzato per essere utilizzato nei seguenti passaggi.
2. Estrarre i valori di espressione per ogni gene di famiglia dal datamatrix Atlas e scrivere un "lavoro datamatrix" contenente la stessa riga di intestazione come il datamatrix Atlas. Salvare il datamatrix"lavoro" come un file di testo delimitato da tabulazioni.
Eseguire l'analisi di bi-cluster gerarchica utilizzando software Multi esperimento Viewer (MeV).
1. Scaricare e installare software di MeV³³.
2. Caricare il datamatrix"lavoro" (punto 6.1.2) seguendo il percorso "File" → "Caricamento dati" → "Sfoglia" e selezionare il file di testo. Selezionare "colore singolo Array" e togliere la spunta da "Annotazione di carico" quando un'annotazione automatica non è disponibile. Selezionare il valore dell'espressione superiore sinistra dell'Anteprima tabella espressione e fare clic sul pulsante "Load".
3. Regolare i dati applicando la trasformazione Log2 ("Dati di regolare" → "Log trasformazioni" → "Log2 trasformare") e la normalizzazione di Gene/riga ("Dati regolare" → "Gene/riga regolazioni" → "Median centro Gene/Row"). Impostare il limite di scala adeguata ("Display" → "impostare colore scala limiti").
4. Calcolare il Clustering gerarchico seguendo il percorso "Analisi" → "Clustering" → "HCL".

Selezionare "Ottimizzare Gene foglia ordine" e "Ottimizzare ordine foglia del campione" nel campo di ottimizzazione di ordinazione del"", "Correlazione di Pearson" nel campo "Distanza Matrix selezione" e "Media sollevatore clustering" nel campo "Selezione del metodo di collegamento". Quindi, fare clic su "OK" per eseguire l'analisi.

Visualizzare i risultati nel menu di "HCL" → "I risultati dell'analisi" sul pannello di sinistra della finestra. Esportare la mappa termica facendo clic su "Salva immagine" nel menu "File".

7. espressione genica in risposta a stress biotici e abiotici

Ripetere il passaggio 6.1 con l'ID di adesione GSE ottenuto dalle rispettive pubblicazioni e studi che studiano lo stress biotico e abiotico sulla vigna. Per esempio, esperimenti fornendo il profilo del trascrittoma di bacche di vite infettati con l'agente patogeno fungoso Botrytis cinerea usando il microarray NimbleGen uva intero genoma possono essere sfogliati con GSE ID di GSE52586. Ripeti punti 6.1.1 e 6.1.2.
Cercare il NCBI sequenza legge archivio³⁴ con la SRA/BioProject ID (ad esempio, SRP055458 o PRJNA275778 per gli esperimenti "ombreggiatura fiore di vigna") e scaricare tutti i prime sequenze letture. RNA-seq DataSet da diversi studi sono trattati con una singola pipeline per coerenza.
1. Brevemente, trim letture di prime sequenze FASTQ (single - e coppia-end) e filtro di qualità con Trimmomatic³⁵. Utilizzare che un AVGQUAL e MINLEN filtro rispettivamente di 20 e 40 e tutti i parametri default.
2. Indice i 12 X vite riferimento genoma¹ utilizzando Bowtie2³⁶. Scarica il genoma di riferimento (ad es., bowtie2-build) al vite X 12 prima di eseguire il comando bowtie2 .
3. Ottenere il conteggio matrice tabelle con htseq-conteggio³⁷ utilizzando il file di annotazione (GFF/GTF) modello di vite V1 gene.
Eseguire analisi di espressione (ri-) genica differenziale in R³⁸ con limma³⁹ librerie per matrici RMA-normalizzati e DESeq2⁴⁰ librerie per le tabelle di matrice totali ottenute da passaggi 7.1.1 e 7.2.1, rispettivamente.
1. Eseguire un confronto "due-gruppo" standard (cioè, "trattamento" / "controllo"). Garantire che il progettazione matrice/raggruppamenti delle condizioni "controlla" e "trattamento" siano specificati correttamente.
  Nota: Un design tipico per l'analisi di espressione differenziale di microarray (GSE52586) per confrontare le bacche di EL-33 infettate da Botrytis cinerea contro bacche (sano) controllo nella stessa fase di sviluppo con limma in esecuzione di righe di comando 13 è mostrato in 1 File supplementari. Un design tipico per l'analisi di espressione differenziale di RNA-seq (SRP055458 o PRJNA275778) per confrontare il fiore (a 7 giorni dopo PAC-caduta) nell'ambito del trattamento di ombra contro il controllo con DESeq2 in esecuzione di righe di comando 14 è mostrato in supplementari File 1 .
2. Ottenere gli elenchi dei geni differenzialmente espressi (DEG) in ogni contrasto, per limma, utilizzare le funzioni lmFit(), seguita da eBayes()e quindi da topTable() funzioni, mentre per DESeq2, utilizzare il DESeqDataSetFromMatrix(), DESeq()e funzioni di results . Di seguito, un tipico flusso di lavoro da seguire.
  1. Per analisi di espressione differenziale di microarray, vedere righe di comando 15 (complementare File 1). Per l'analisi di espressione differenziale di RNA-seq vedere righe di comando 16 (complementare File 1). Ripetere i passaggi precedenti per tutti gli altri contrasti con schema di progettazione appropriati diversi (vedere esempi nel passaggio 7.3.1)
Dagli elenchi di DEGs generato, estrarre tutte le righe che non corrispondono a ATL V1 adesione, mantenere le colonne contenenti il cambiamento di piegare log2 (trattamento/controllo) > | 0,5 | e regolato p-valori (FDR) < 0,05 e Unione loro conseguenza in una tabella di matrice, se uno studio cade in "abiotici" o compendi "interazione biotica/patogeno".
Costruire il heatmaps cluster gerarchica (compendi abiotici e biotici) in R utilizzando le librerie gplots.
Nota: Chiamata alla funzione heatmap.2 costruisce l'heatmap insieme a riga dendrogrammi dalle tabelle rispettiva matrice. Argomenti aggiuntivi utilizzando cellnote funzionano contribuisce a differenziare differenzialmente espressi (log2FC > 0,5, FDR < 0.05) geni ATL in ogni confronto attraverso una vasta gamma di condizioni sperimentali di un * simbolo. Applicare il flusso di lavoro tipico in R in esecuzione di righe di comando 17 (1 File complementare) o in alternativa, ripetere i passaggi 6.2.2 6.2.5 per costruire il heatmaps utilizzando software MeV.

8. analisi dei rapporti tra sequenza paraloghi divergenza e co-espressione genica

Costruire la matrice contenente pairwise somiglianza. Gli elementi della matrice di similarità sono i valori di somiglianza di sequenza calcolata dagli allineamenti della proteina pairwise.
1. Utilizzare il rilievo dell'ago web server⁴¹ con le impostazioni predefinite per fare allineamenti di sequenza pairwise e salvare come file di testo. Aprire il file di testo di output e rimuovere tutte le righe di commento, insieme ai nomi di colonna e riga per generare un file chiamato "similarityTable.txt".
  Nota: Tale tabella dispone di una linea per ogni gene ATL segnalazione i valori di somiglianza calcolati in ognuna dell'allineamento al paio. L'ordine dei loci in righe e colonne è lo stesso modo che una matrice simmetrica è generata con il rispetto dei valori di diagonale.
Costruire la matrice con i dati di co-espressione calcolando il coefficiente di correlazione di Pearson. La procedura seguente richiede il modulo perl PDL e R.
1. Scaricare i valori di espressione per i 96 geni ATL in esecuzione comando linee 18 (complementare File 1) all'interno di un terminale. Eseguire un'analisi di co-espressione utilizzando uno script perl personalizzati che possa essere scaricato tramite l'esecuzione di righe di comando 19 (complementare File 1). Tale script calcola il coefficiente di correlazione di Pearson tra coppie di loci ATL come precedentemente segnalati.
2. Lanciare lo script in esecuzione di righe di comando 20 (1 File supplementari) e seguire le istruzioni di uscita.

Lo script genererà un file di output (vale a dire "coexpressionTable.txt") contenente una matrice di co-espressione con lo stesso ordine di nomi di luogo di matrice ottenuta nel passaggio 8.1 (questo ordinamento è essenziale per eseguire il test di Mantel, vedi sotto).

Eseguire un test di Mantel tra le matrici di dati ottenuti ai punti 8.1 e 8.2. Dopo aver inserito l'ambiente R (eseguita il comando "R" all'interno di un terminale), caricare la libreria di ade4 utilizzando il seguente comando: library(ade4)

Eseguire il test di Mantel le matrici di due dati di caricamento ed eseguendo le statistiche in esecuzione comando linee 21 (1 File supplementari), con "nrep" che rappresenta il numero di permutazioni. Il test è costituito da calcolare la correlazione tra gli elementi di queste matrici, permutando le matrici e quindi calcolando la stessa statistica test nuovamente.
Nota: Tutti i valori ottenuti della prova statistica vengono utilizzati per costruire una distribuzione di riferimento della prova di statistica, che verrà utilizzata per calcolare un p-valore da testare per il significato. Il numero delle permutazioni definisce la precisione con cui il p-valore può essere ottenuto.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Il gene VIT_05s0077g01970, identificato come il più simile a a. thaliana ATL2 (At3g16720) attraverso una ricerca di BLASTp, fu usato come sonda per rilevare i membri della famiglia ATL del genoma della vite (V. vinifera cv Pinot Noir PN40024). L'analisi di PSI-BLAST convergenti dopo alcuni cicli rivelando una lista di geni putativi appartenendo alla famiglia del gene ATL grapevine (Figura 1A). La presenza del dominio canonico anello-H2 per ogni candidato è stata valutata mediante ispezione visiva dell'allineamento muscolo di tutte le voci risultanti dall'analisi (Figura 1B). Solo quei geni che contengono gli aminoacidi conservati correttamente distanziati, i due residui di istidina, così come i residui di prolina prima la terza cisteina sono stati considerati come ATLs secondo la definizione originale di ATL in Arabidopsis⁵. Un totale di 96 grapevine geni soddisfatto le esigenze e sono stati considerati per ulteriore caratterizzazione. Ogni membro della famiglia ATL è stata analizzata per definire le caratteristiche specifiche del gene e la proteina codificata corrispondente, cioè, la presenza di altri domini noti oltre l'anello-H2, transmembrane o idrofobiche regioni ricche, subcellulare localizzazione e siti di fosforilazione putativo (tabella 1 e tabella 2).

Figura 1: indagine PSI-BLAST e allineamento della vite putativo ATLs. (A) Screenshot della top 10 hits della prima ricerca PSI-BLAST iterazione usando la sequenza della proteina VIT_05s0077g01970 come esca. (B) parte dell'allineamento della vite 96 selezionato putativo ATLs mostrando loro dominio RING-H2 e il LOGO corrispondente ottenuto utilizzando una suite di biologia molecolare (Vedi Tabella materiali). Tratto da Ariani et al. , concesso in licenza sotto una licenza Creative Commons Attribution 4.0 International⁴².Clicca qui per visualizzare una versione più grande di questa figura.

Nome	Identificazione del gene	Lunghezza del gene (bp)	Numero dell'introne	UniProt ID	Lunghezza della proteina (aa)	Motivo di anello-H2	Numero di dominio TM/H	Altri domini
VviATL3	VIT_09s0002g00220	1245	0	F6HXK6	304	PxC	1
VviATL4 [VviRHX1A]	VIT_15s0021g00890	1827	3	D7SM36	203	PxC	0
VviATL18	VIT_11s0118g00780	1113	2	F6HCI8	193	PC	0
VviATL23a	VIT_18s0001g01060	935	0	F6H0E4	114	PxC	0,5
VviATL23b	VIT_18s0001g01050	399	0	E0CQX3	132	PxC	1
VviATL24	VIT_17s0000g06460	4466	4	D7SI89	217	PxC	1
VviATL27	VIT_00s0264g00020	2554	4	D7T1R5	235	PxC	1
VviATL43	VIT_11s0052g00530	1576	2	D7SQD9	457	PxC	3
VviATL54a	VIT_18s0001g06640	3221	1	F6H0Y5	405	PxC	1
VviATL54b	VIT_03s0017g00670	2774	1	F6HTI0	427	PxC	1
VviATL55 [VviRING1]	VIT_07s0191g00230	1844	0	F6HRP9	372	PxC	1
VviATL63	VIT_06s0004g06930	804	0	D7SJU6	267	PxC	1
VviATL65	VIT_03s0063g01890	2068	0	F6HQI8	396	PxC	1
VviATL82	VIT_01s0026g02540	820	0	F6HPQ9	233	PC	0,5
VviATL83	VIT_17s0000g08400	1887	0	F6GSQ4	143	PC	0
VviATL84	VIT_06s0004g00120	1853	0	F6GUP5	368	PC	0,5	ZF-RING_3
VviATL85	VIT_12s0034g01400	786	0	F6H965	261	PC	0,5
VviATL86	VIT_12s0034g01390	1434	1	D7T016	451	PC	0,5
VviATL87	VIT_18s0001g03270	1002	0	F6H0T2	333	PC	0,5	ZF-RING_3
VviATL88	VIT_08s0040g00590	1320	0	F6HQR2	314	PC	0	ZF-RING_3

Tabella 1: primo 20 VviATL geni e le caratteristiche di sequenza delle proteine corrispondenti. TM: transmembrana; H: idrofobo; 0,5 indica la presenza di una o più regioni idrofobiche. Tratto da Ariani et al. , concesso in licenza sotto una licenza Creative Commons Attribution 4.0 International⁴².

Table 2
Tabella 2: dettagli sui primi 20 VviATL posizione di gene in V. vinifera genoma, stato di duplicazione e caratteristiche fisico-chimiche della proteina ATL e percorso. (a) numero di siti di fosforilazione predetto di Musite; (b) previsioni simili ottenute con almeno due software sono evidenziate in grassetto; ngLOC è stato utilizzato con le impostazioni predefinite, mentre TargetP v 1.1 e localizzazione sottocellulare della proteina Prowler sono stati usati con un cut-off di probabilità pari a 0.5. NUC, nucleo; MIT, mitocondri; CHL, cloroplasto; PLA, membrana plasmatica; S, via secretiva (presenza di un peptide di segnale); M, mitocondri; C, cloroplasto; O o -, altre posizioni; ND, non determinato (cioè, valore inferiore alla soglia). Tratto da Ariani et al. , concesso in licenza sotto una licenza Creative Commons Attribution 4.0 International⁴². Per favore clicca qui per scaricare questo file.

Un'analisi filogenetica del nucleotide sequenze di geni codificanti ATL di grapevine identificate insieme le sequenze della famiglia del gene di riferimento a. thaliana ATL è stata utilizzata per la nomenclatura ATL di vite, secondo le indicazioni del il sNCGGa⁸. Novantasei e 83 sequenze nucleotidiche da V. vinifera e a. thaliana, rispettivamente, sono stati sottoposti alla pipeline di Phylogeny.fr per ottenere un albero filogenetico affidabile.Le sequenze di quest'ultime più successivamente sono state utilizzate per annotare e il nome di geni di vite sulla base di solide relazioni (Figura 2). Seguendo questo approccio, 13 su 96 grapevine ATLs ha ricevuto un identificatore specifico considerando loro ortologhe uno a uno con un a. thaliana ATL I nomi di altri 83 geni sono stati assegnati basato sull'albero filogenetico, con una progressiva numerazione dall'alto verso il basso, a partire da un numero di gene ATL superiore il più alto numero usato in a. thaliana.

Figura 2: Albero filogenetico di V. vinifera e a. thaliana ATL E3 ubiquitina ligasi-codifica geni. L'albero unrooted è stata generata con la suite di Phylogeny.fr (V. vinifera (in verde) ed i geni ATL 83 di a. thaliana riportati nel database UniProt (in giallo). I valori di supporto del ramo sono stati ottenuti da 100 repliche bootstrap. Le stelle rosse indicano la presenza di un dominio di dito (BZE) di zinco BCA2 delle proteine corrispondenti. Tratto da Ariani et al. , concesso in licenza sotto una licenza Creative Commons Attribution 4.0 International⁴². Clicca qui per visualizzare una versione più grande di questa figura.

Mappatura di geni codificanti ATL ai cromosomi grapevine ha mostrato un'ampia distribuzione in tutto il genoma, suggerendo la duplicazione di intero genoma come la forza evolutiva importante nell'espansione della famiglia genica ATL a grapevine. Infatti, sono stati trovati 31 ATLs in regioni cromosomiche omologhe potenzialmente provenienti da eventi di duplicazione del genoma intero o segmentale. Inoltre, la stessa analisi evidenziato 13 geni tandemly duplicati, una duplicazione prossimale e 51 dispersi duplicati (Figura 3). Considerando il grande numero di geni duplicati nella famiglia ATL, abbiamo effettuato un test di arricchimento (test esatto di Fisher) per controllare la ritenzione preferenziale dei geni duplicati durante il frazionamento del genoma. Con un p-valore < 0.001, questo test ha confermato l'ipotesi che duplicato geni ATL sono stati mantenuti più di casualmente previsto, suggerendo un ruolo per la famiglia del gene ATL durante grapevine adattamento e l'evoluzione.

Figura 3: Distribuzione di gene Grapevine ATL-codifica nel V. vinifera cromosomi e duplicazione stato. I geni ATL 96 grapevine con esatte cromosomiche informazioni disponibili nel database sono stati mappati ai 19 V. vinifera cromosomi. I colori indicano l'originale evento di duplicazione. Linee nere verticali e linee rosse identificano le coppie derivate da tandem sovrapposizioni e duplicazioni di intero genoma, rispettivamente. Tratto da Ariani et al. , concesso in licenza sotto una licenza Creative Commons Attribution 4.0 International⁴². Clicca qui per visualizzare una versione più grande di questa figura.

Per indagare ulteriormente le funzioni biologiche putative di ATLs a grapevine, una meta-analisi è stata effettuata sulla V. vinifera c.v. espressione genica globale Corvina Atlas¹². Il set di dati include i valori di espressione intero genoma di 54 vite differenti organi e fasi di sviluppo ed è stato utilizzato per eseguire un'analisi bi-cluster gerarchica. Risultati non solo confermato che tutti i 96 ATLs erano espressi in almeno una delle 54 tessuti/tappe, ma ha anche sottolineato la presenza di cinque gruppi principali dei profili di espressione (Figura 4A). Brevemente, i cluster A ed E ha mostrato di fronte i comportamenti, in particolare la prima è caratterizzata da un generale downregulation dei geni ATL in campioni giovanili, comprese le fasi iniziali di bacca, foglia giovane, viticci, infiorescenza e la maggior parte delle fasi bud. D'altra parte, nel mazzo stesso A, maturi campioni quali le bacche a maturazione e post-raccolta appassimento fasi, tessuti legnosi e fasi ritardate di seme sviluppo ATL geni hanno mostrati un upregulation predominante. Geni in Cluster C erano principalmente downregulated nella maggior parte dei campioni, mentre geni ATL cluster D erano spesso sovraregolati alle ultime fasi di sviluppo di bacca. Infine, cluster B non ha mostrato alcuna variazione rilevante nei profili di espressione.

Un approccio simile è stato applicato per studiare l'espressione di grapevine ATL familiari in risposta agli stress biotici e abiotici, utilizzando set di dati specifici costruito per questo scopo. Una quantità enorme di dati di espressione derivanti da esperimenti di RNA-seq e microarray sono disponibili dal database di pubblico accesso quali Gene Expression Omnibus (GEO) e ArrayExpress. Una volta raccolti e convenientemente normalizzato, le informazioni è state sfruttate per ulteriori approfondimenti la potenziale funzione di ATLs nella risposta della pianta agli stress. Analizzando i profili di espressione della vite ATLs in risposta a stress biotici ha rivelato che le trascrizioni 62 su 96 ha mostrato una significativa modulazione (log2 piega-cambiamento (FC) > | 0,5 |) in almeno due circostanze, con un tasso di falsi scoperta (FDR) < (0,05 Figura 4B). Il numero aumenta a 81 considerando solo la soglia di FDR in una singola condizione. Questi risultati hanno suggerito forte un coinvolgimento diretto della famiglia del gene ATL nella risposta agli agenti patogeni anche a grapevine. In particolare, un gruppo di 12 geni (VviATL3-27-54b-55-90-97-123-144-148-149-156) erano fortemente upregulated in risposta alla maggior parte dei agenti patogeni, compreso biotrophic e funghi necrotrofi ed erbivori e così, meritano attenzione per ulteriormente funzionale analisi.

Figura 4: l'espressione genica ATL clusteringof gerarchica a grapevine Atlas e nel dataset correlati allo stress biotici in grapevine. (A) l'espressione di registro trasformato valori dei geni ATL vite a vite Atlas¹² sono stati utilizzati per analisi dei cluster gerarchica basata su metriche di distanza di Pearson. Il colore scala rappresenta superiore (rosso) o inferiore (verde) espressione livelli rispetto all'abbondanza di trascrizione mediano di ogni gene in tutti i campioni. Lettere da A E sul lato destro indicano i diversi cluster identificati.AB: dopo scoppio; B: scoppiare; germoglio del germoglio-w: inverno; F: fioritura; FB: fioritura comincia; FS: allegagione; G: verde; MR: metà-maturazione; PFS: post-allegagione; PHWI-II-III: postraccolta appassimento 1, 2 e 3 mesi; R: maturazione; S: senescente; staminali-w: fusto legnoso; V: invaiatura; WD: ben sviluppato; Y: giovane. (B) il colore scala rappresenta il maggiore (rosso) o diminuito (blu) piega cambiamenti dell'espressione genica di grapevine ATL nei campioni infetti rispetto ai controlli per ogni condizione. Gli asterischi indicano l'espressione differenziale significativa (FDR < 0,05) di ogni ATL nelle condizioni corrispondenti. Tratto da Ariani et al. , concesso in licenza sotto una licenza Creative Commons Attribution 4.0 International⁴². Clicca qui per visualizzare una versione più grande di questa figura.

Complementare tabella 1: ATL geni candidati per splicing alternativo. (un) ATL gene ID secondo la predizione genica dell'uva V1 e annotazione, identificazione del gene (b), ATL secondo il V2 uva gene pronostico e annotazione⁴³, (c) numero di presunti varianti alternative d'impionbatura di ATL, (d) informazioni sulla sequenza di ogni variante ATL putativo di codifica. Per favore clicca qui per scaricare questo file.

Complementare tabella 2: Per favore clicca qui per scaricare questo file.

File supplementari 1: Per favore clicca qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Nell'era genomica, molte famiglie geniche sono state profondamente caratterizzate in diverse specie di piante. Queste informazioni sono preliminari studi funzionali e forniscono una cornice per studiare ulteriormente il ruolo di diversi membri di una famiglia. In questo contesto, c'è anche un'esigenza di un sistema di nomenclatura che permette di identificare in modo univoco ogni membro di una famiglia, evitando la ridondanza e le confusioni che possono sorgere quando i nomi vengono assegnati in modo indipendente per diversi geni di diversi gruppi di ricerca.

Dopo considerazione premurosa, la comunità scientifica di vite ha accettato di nome grapevine geni in una famiglia sulla base di somiglianze con geni di Arabidopsis e stabilito una serie di regole che devono essere applicate per descrivere nuove famiglie geniche a grapevine, fondamentalmente a partire dal confronto filogenetico delle sequenze nucleotidiche tra vite e Arabidopsis i membri della famiglia⁸. Pertanto, soli geni che si trovano già annotati e denominati correttamente in Arabidopsis possono essere utilizzati nella nomenclatura grapevine. La procedura applicata per l'identificazione di grapevine ATL ortologhi in Arabidopsis descritto qui è stato pertanto effettuata esclusivamente per soddisfare i requisiti di assegnazione la nomenclatura di famiglia del gene corretto grapevine. Tuttavia, per altre specie di piante, approcci alternativi potrebbero essere un'opzione. Per esempio, potrebbe essere arguito ortologhe utilizzando un hits BLAST bidirezionale (BBH), dove ortologhi sono definiti come coppie di geni in due specie che sono più simili (cioè, con punteggio più alto di allineamento) tra loro rispetto a qualsiasi altro gene in altro specie⁴⁴. Tuttavia, questo metodo potrebbe perdere molti ortologhi in caso di elevato tasso di duplicazione genica, come in piante e animali⁴⁵. Inoltre, nel caso di geni codificanti ATL, BBH può recuperare geni carente la struttura precisa di ATL-tipo anello-H2 (compresi i residui di prolina) o geni che non sono annotati e nominati come ATLs in Arabidopsis. Anche se da una prospettiva evoluzionistica questa ricerca può essere rilevante, il recupero di ortologhi non annotati non avrebbe compiuto l'ambito di annotazione famiglia del gene di grapevine ATL e nomenclatura ortologhi non annotati come ATLs non può essere utilizzato per membri della famiglia di nome grapevine. Un'altra possibilità è di dedurre ortologhe basato su aminoacido invece di sequenze nucleotidiche utilizzando InParanoid⁴⁶, o il più recente Hieranoid 2⁴⁷, anche se tali flussi di lavoro non sono espressamente raccomandati dalla comunità scientifica.

Meta-analisi di espressione, che possono essere definito come un approccio sistematico per studiare e combinare diversi set di dati pubblicamente disponibili repository di dati di espressione, permettono di evidenziare condivise e differenti meccanismi molecolari in una varietà di condizioni. Quindi, l'integrazione di informazioni di espressione del gene da esperimenti su larga scala Transcrittomica multipli possa migliorare la caratterizzazione di una famiglia di geni, definendo i profili di espressione dei membri della famiglia attraverso esperimenti, riducendo così al minimo il impatto di fattori specifici all'esperimento e sostenere un presupposto più robusto della funzione del gene presunto in particolari processi. Tuttavia, l'uso dei dati microarray richiede l'integrazione dei dati di espressione ottenuti con diverse piattaforme, considerando i propri limiti. Per esempio, nella piattaforma microarray Nimblegen grapevine, una percentuale significativa di probesets per geni corrispondenti rappresentati sulla matrice (~ 13.000 geni) hanno problemi potenzialmente cross-ibridazione⁴⁸. Nel caso della famiglia ATL grapevine, 15 geni possono dipendere da tale fenomeno. Tuttavia, come discusso da Cramer et al. ⁴⁸, la croce-identificazione dei membri della famiglia genica altamente simili dalla sonda stessa potrebbe fornire informazioni interessanti riguardanti l'espressione, in condizioni specifiche, non solo di un singolo gene, ma di due o più geni condivisione alta sequenza somiglianze e quindi potenzialmente condivisione obiettivi e funzioni. Un altro potenziale problema relazionato ai microarray DataSet è il limite di rilevamento di espressione delle piattaforme microarray, che non sono molto sensibili. Per risolvere entrambi riguarda, vale a dire., cross-ibridazione e segnale di sensibilità, una possibile soluzione potrebbe essere considerare solo RNAseq espressione set di dati. Tuttavia, la meta-analisi di RNAseq dati del set di dati molto grandi da diversi studi può diventare estremamente che richiede tempo e può richiedere molte risorse computazionali e alto livello di esperienza.

Sebbene l'approccio qui presentato intende essere esaustivo, esso può essere certamente ulteriormente completata con altre analisi. In primo luogo, per ottenere ulteriori approfondimenti in evoluzione molecolare e le relazioni filogenetiche tra i membri della famiglia genica in piante, l'analisi filogenetica potrebbe essere esteso edificio un albero filogenetico usando allineamenti multipli di sequenza dei membri della famiglia da diverse specie di piante. È anche possibile calcolare il tempo evolutivo dei geni della famiglia, una stima dei loro tassi di sostituzione sinonima e non sinonimo nel corso dell'evoluzione, determinando i valori Ks (numero di sostituzioni sinonima per ogni sito sinonimo in un determinato periodo di tempo) e Ka (numero di sostituzioni nonsynonymous per ogni sito non sinonimo nello stesso periodo). Il rapporto di Ka/Ks viene utilizzato per inferire i meccanismi degli eventi di duplicazione genica dopo divergenza dai loro antenati. Un valore di Ka/Ks = 1 suggerisce neutro selezione, un valore di Ka/Ks di < 1 suggerisce purificante selezione e un valore di Ka/Ks di > 1 suggerisce selezione positiva⁴⁹. Inoltre, se l'analisi del gene struttura rivela la presenza di introni, la caratterizzazione di famiglia genica può essere ulteriormente esteso al rilevamento delle varianti di splicing alternativo. Infatti, basato su un'indagine profonda di RNA-seq dati da diversi tessuti, condizioni di stress e genotipi⁴³, 21 (del 96) ATLs sono ottimi candidati per gli eventi di splicing alternativi, con numero potenziale di isoforme che vanno da 2 a 16 per questi ATLs (Vedi Complementare tabella 1). Trascritti alternativi producono frequentemente isoforme della proteina che variano nelle sequenze dell'amminoacido e questi cambiamenti possono alterare le proprietà delle proteine cellulari e possono causare alterazioni da sottile modulazione alla perdita della funzione del prodotto genico. Per questo motivo, gli eventi di splicing alternativi sono stati coinvolti nelle funzioni di pianta importante, compreso la risposta allo stress, resistenza alle malattie, fotosintesi e fioritura⁵⁰^,⁵¹.Integrazione di informazioni di promotore del gene ATL contenente putativo cis-elementi regolatori⁵² o trovare molecole (ad es., microRNA e RNA lunghi non codificanti) potenzialmente targeting ATLs⁵³ possono anche essere completati a rivelano intuizioni sistema la complessa regolazione molecolare e l'interazione della vite ATLs.

In conclusione, la scelta delle analisi da eseguire, nonché le procedure da applicare per caratterizzare una nuova famiglia di geni in una specie di pianta principalmente sono guidate dalle regole della comunità scientifica, così come nel campo di applicazione del trascrittoma di famiglia. È importante tenere a mente i passaggi possibili successive indagini, che sfrutteranno l'insieme di informazioni, fra che comprende evoluzione tra le specie vegetali, descrizione della struttura del genoma o affidabili candidati per la selezione in funzionale studi.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla a rivelare.

Acknowledgments

Il lavoro è stato supportato dall'Università di Verona all'interno della cornice del comune progetto 2014 (caratterizzazione della famiglia del gene ATL a grapevine e del suo coinvolgimento nella resistenza alla peronospora della vite).

Materials

Name	Company	Catalog Number	Comments
Personal computer
Basic Local Alignment Search Tool (BLAST)			https://blast.ncbi.nlm.nih.gov/Blast.cgi
Molecular Evolutionary Genetics Analysis (MEGA)			http://www.megasoftware.net/
Motif-based sequence analysis tools (MEME)			http://meme-suite.org/
Geneious	Biomatters Limited		http://www.geneious.com/
ProtParam Tool			http://web.expasy.org/protparam/
ngLOC			http://genome.unmc.edu/ngLOC/index.html
TargetP v1.1 Server			http://www.cbs.dtu.dk/services/TargetP/
Protein Prowler			http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/
MUsite			http://musite.sourceforge.net/
Pfam			http://pfam.xfam.org/
TMHMM Server v. 2.0			http://www.cbs.dtu.dk/services/TMHMM/
ProtScale			http://web.expasy.org/protscale/
Grape Genome Database (CRIBI)			http://genomes.cribi.unipd.it/grape/
PhenoGram			http://visualization.ritchielab.psu.edu/phenograms/plot
MCScanX			http://chibba.pgml.uga.edu/mcscan2/
Interactive Tree Of Life (iTOL)			http://itol.embl.de/
UniProt			http://www.uniprot.org/
Phylogeny.fr			http://www.phylogeny.fr/index.cgi
MUSCLE			http://www.ebi.ac.uk/Tools/msa/muscle/
Gblocks Server			http://molevol.cmima.csic.es/castresana/Gblocks_server.html
Vitis vinifera cv. Corvina gene expression Atlas datamatrix			https://www.researchgate.net/publication/273383414_54sample_ datamatrix_geneIDs_Fasoli2012
Multi Experiment Viewer (MeV)			http://mev.tm4.org/#/welcome
Sequence Read Archive (SRA)			https://www.ncbi.nlm.nih.gov/sra
R			https://www.r-project.org/
EMBOSS Needle (EMBL-EBI)			http://www.ebi.ac.uk/Tools/psa/emboss_needle/

DOWNLOAD MATERIALS LIST

References

Jaillon, O., et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. 449 (7161), 463-467 (2007).
Adam-Blondon, A. -F., et al. Genetics, Genomics, and Breeding of Grapes. , Science Publishers. 211-234 (2011).
Chen, L., Hellmann, H. Plant E3 Ligases: Flexible Enzymes in a Sessile World. Mol. Plant. 6 (5), 1388-1404 (2013).
Vierstra, R. D. The ubiquitin-26S proteasome system at the nexus of plant biology. Nat. Rev. Mol. Cell Biol. 10 (6), 385-397 (2009).
Serrano, M., Parra, S., Alcaraz, L. D., Guzmán, P. The ATL Gene Family from Arabidopsis thaliana and Oryza sativa Comprises a Large Number of Putative Ubiquitin Ligases of the RING-H2 Type. J. Mol. Evol. 62 (4), 434-445 (2006).
Aguilar-Hernández, V., Aguilar-Henonin, L., Guzmán, P. Diversity in the Architecture of ATLs, a Family of Plant Ubiquitin-Ligases, Leads to Recognition and Targeting of Substrates in Different Cellular Environments. PLoS One. 6 (8), e23934 (2011).
Guzmán, P. The prolific ATL family of RING-H2 ubiquitin ligases. Plant Signal Behav. 7 (8), 1014-1021 (2012).
Grimplet, J., et al. The grapevine gene nomenclature system. BMC Genomics. 15, 1077 (2014).
Prince, V. E., Pickett, F. B. Splitting pairs: the diverging fates of duplicated genes. Nat. Rev. Genet. 3 (11), 827-837 (2002).
Magadum, S., Nerjee, U., Murugan, P., Gangapur, D., Ravikesavan, R. Gene duplication as a major force in evolution. J. Gen. 92 (1), 155-161 (2013).
Wang, N. Patterns of Gene Duplication and Their Contribution to Expansion of Gene Families in Grapevine. Plant Mol. Biol. Rep. 31 (4), 852-861 (2013).
Fasoli, M. The Grapevine Expression Atlas Reveals a Deep Transcriptome Shift Driving the Entire Plant into a Maturation Program. Plant Cell. 24 (9), 3489-3505 (2012).
BLAST. BLAST2.6.0. , Available from: https://blast.ncbi.nlm.nih.gov/Blast.cgi (2016).
MEGA. MEGA7.0.25 build 7170412. , Available from: http://www.megasoftware.net/ (2017).
MEME. MEME Suite Version 4.11.4. , Available from: http://meme-suite.org/ (2017).
ProtParam. ExPASy Server. , Available from: http://web.expasy.org/protparam/ (2005).
ngLOC v1.0. , Available from: http://genome.unmc.edu/ngLOC/index.html (2007).
TargetP v1.1 Server. , Available from: http://www.cbs.dtu.dk/services/TargetP/ (2000).
Prowler v1.2. , Available from: http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/ (2005).
MuSite v1.0. , Available from: http://musite.sourceforge.net/ (2010).
Pfam. Pfam version 31.0. , Available from: http://pfam.xfam.org/ (2016).
TMHMM v2.0c. , Available from: http://www.cbs.dtu.dk/services/TMHMM/ (2007).
ExPASy. ProtScale. , Available from: http://web.expasy.org/protscale/ (2005).
CRIBI. Grape genome database. , Available from: http://genomes.cribi.unipd.it/grape/ (2012).
PhenoGram. , Available from: http://visualization.ritchielab.psu.edu/phenograms/plot (2012).
ScanX v0.8. , Available from: http://chibba.pgml.uga.edu/mcscan2/ (2013).
Interactive Tree Of Life (iTOL). Version3.5.3. , Available from: http://itol.embl.de/ (2016).
UniProt. , Available from: http://www.uniprot.org/ (2016).
Phylogeny.fr. , Available from: http://www.phylogeny.fr/index.cgi (2008).
MUSCLE. , Available from: http://www.ebi.ac.uk/Tools/msa/muscle/ (2017).
Gblocks Server. Version 0.91b. , Available from: http://molevol.cmima.csic.es/castresana/Gblocks_server.html (2002).
Vitis vinifera cv. Corvina gene expression Atlas. , Available from: https://www.researchgate.net/publication/273383414_54sample_datamatrix_geneIDs_Fasoli2012 (2015).
Multiple Experiment Viewer (MeV). Version 4.8.1. , Available from: http://mev.tm4.org/ (2017).
Sequence Read Archive (SRA). , Available from: https://www.ncbi.nlm.nih.gov/sra (2017).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat Meth. 9 (4), 357-359 (2012).
Anders, S., Pyl, P. T., Huber, W. HTSeq-a Python framework to work with high-throughput sequencing data. Bioinformatics. 31 (2), 166-169 (2015).
R. Version 3.4.1. , Available from: https://www.r-project.org/ (2017).
Ritchie, M. E. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47 (2015).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
EMBL-EBI. EMBOSS Needle. , Available from: http://www.ebi.ac.uk/Tools/psa/emboss_needle/ (2017).
Ariani, P. Genome-wide characterisation and expression profile of the grapevine ATL ubiquitin ligase family reveal biotic and abiotic stress-responsive and development-related members. Sci. Rep. 6, 38260 (2016).
Vitulo, N., et al. A deep survey of alternative splicing in grape reveals changes in the splicing machinery related to tissue, stress condition and genotype. BMC Plant Biol. 14 (1), 99 (2014).
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA. 96 (6), 2896-2901 (1999).
Dalquen, D. A., Dessimoz, C. Bidirectional Best Hits Miss Many Orthologs in Duplication-Rich Clades such as Plants and Animals. Genome Biol. Evol. 5 (10), 1800-1806 (2013).
Remm, M., Storm, C. E. V., Sonnhammer, E. L. L. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons1. J. Mol. Biol. 314 (5), 1041-1052 (2001).
Kaduk, M., Sonnhammer, E. Improved orthology inference with Hieranoid 2. Bioinformatics. 33 (8), (2017).
Cramer, G. R., et al. Transcriptomic analysis of the late stages of grapevine (Vitis vinifera cv. Cabernet Sauvignon) berry ripening reveals significant induction of ethylene signaling and flavor pathways in the skin. BMC Plant Biol. 14, 370 (2014).
Juretic, N., Hoen, D. R., Huynh, M. L., Harrison, P. M., Bureau, T. E. The evolutionary fate of MULE-mediated duplications of host gene fragments in rice. Genome Res. 15 (9), 1292-1297 (2005).
Filichkin, S. A. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. Genome Res. 20 (1), 45-58 (2010).
Quesada, V., Macknight, R., Dean, C., Simpson, G. G. Autoregulation of FCA pre-mRNA processing controls Arabidopsis flowering time. EMBO J. 22 (12), 3142-3152 (2003).
Wong, D. C. J., Gutierrez, R. L., Gambetta, G. A., Castellarin, S. D. Genome-wide analysis of cis-regulatory element structure and discovery of motif-driven gene co-expression networks in grapevine. DNA Res. 24 (3), 311-326 (2017).
Wong, D. C. J., Matus, J. T. Constructing Integrated Networks for Identifying New Secondary Metabolic Pathway Regulators in Grapevine: Recent Applications and Future Opportunities. Front. Plant Sci. 8, 505 (2017).

Biology

Flusso di lavoro globale per l'identificazione del genoma e la Meta-analisi di espressione della famiglia genica ATL E3 ubiquitina ligasi a Grapevine

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.