Immunology and Infection

Utilizzando l'analisi filogenetica di indagare l'origine genica negli eucarioti

Published: August 14, 2018 doi: 10.3791/56684

Dechun Zhang*¹, Xianzhao Kan*², Sarah Elizabeth Huss³, Lan Jiang², Li-Qing Chen³, Yibing Hu⁴

¹Key Laboratory of Three Gorges Regional Plant Genetics and Germplasm Enhancement (CTGU)/Biotechnology Research Center, China Three Gorges University, ²The Institute of Bioinformatics, College of Life Sciences, Anhui Normal University, ³Department of Plant Biology, University of Illinois at Urbana-Champaign, ⁴College of Resources & Environmental Sciences, Nanjing Agricultural University

* These authors contributed equally

Summary

È descritto un metodo per costruire un albero filogenetico basato su omologia di sequenza di dolci da eucarioti e SemiSWEETs da procarioti. L'analisi filogenetica è uno strumento utile per spiegare la parentela evolutiva tra proteine omologhe o geni da gruppi di organismi diversi.

Abstract

L'analisi filogenetica utilizza del nucleotide o sequenze aminoacidiche o altri parametri, quali sequenze di dominio e struttura tridimensionale, per costruire un albero per mostrare le relazioni evolutive tra diversi taxa (unità di classificazione) presso il molecolare livello. L'analisi filogenetica può essere utilizzata anche per indagare le relazioni di dominio nell'ambito di un singolo taxon, particolarmente per organismi che hanno subito un sostanziale cambiamento nella morfologia e fisiologia, ma per cui i ricercatori mancano prove fossili a causa della degli organismi lunga storia evolutiva o scarsità di fossilizzazione.

In questo testo, un protocollo dettagliato è descritto con il metodo filogenetico, compreso l'allineamento di sequenza dell'amminoacido usando la costruzione albero filogenetico successive utilizzando entrambi probabilità massima (ML) di genetica molecolare evolutiva e Clustal Omega Analisi (MEGA) e inferenza bayesiana tramite MrBayes. Per indagare l'origine di geni eucariotici Zuccheri sarà alla fine essere esportati i trasportatori (dolce), 228 dolci tra cui 35 dolce da eucarioti unicellulari e semidolce 57 proteine da procarioti sono stati analizzati. Interessante, SemiSWEETs sono stati trovati nei procarioti, ma dolci sono stati trovati negli eucarioti. Due alberi filogenetici costruiti utilizzando metodi teoricamente distinti costantemente hanno suggerito che il primo gene eucariotico dolce potrebbe derivano dalla fusione di un gene batterico semidolce e un gene semidolce degli Archaea. Vale la pena notare che uno dovrebbe essere prudente per trarre una conclusione basata esclusivamente sull'analisi filogenetica, anche se è utile spiegare il rapporto sottostante tra taxa diversi, che è difficile o addirittura impossibile discernere attraverso mezzi sperimentali .

Introduction

Sequenze di DNA o RNA trasportano informazioni genetiche per i fenotipi sottostanti che può essere analizzato attraverso metodi fisiologici e biochimici o osservato attraverso prove morfologiche e fossili. In un certo senso, è più affidabile di valutazione esterni fenotipi perché il primo è la base per quest'ultima informazione genetica. In studio evolutivo, prova fossile è molto diretta e convincente. Tuttavia, molti organismi, quali microrganismi, hanno poche possibilità di formare un fossile durante Età geologiche lungo. Pertanto, informazioni molecolari quali sequenze nucleotidiche e sequenze dell'amminoacido da organismi esistenti correlati sono di valore per esplorare relazioni evolutive¹. Nello studio presente, è stata fornita una semplice introduzione di conoscenza di base filogenetica protocollo facile da imparare per i nuovi arrivati che hanno bisogno di costruire un albero filogenetico in proprio.

Sia DNA (nucleotidi) e sequenze di proteine (aminoacidi) possono essere utilizzati per dedurre le relazioni filogenetiche tra geni omologhi, organelli o anche organismi². Sequenze di DNA sono maggiori probabile di essere colpiti dai cambiamenti nel corso dell'evoluzione. Al contrario, sequenze dell'amminoacido sono molto più stabili, dato che sinonima mutazioni nelle sequenze nucleotidiche non causano mutazioni nelle sequenze dell'amminoacido. Di conseguenza, sequenze di DNA sono utili per il confronto di geni omologhi da organismi strettamente correlati, mentre sequenze dell'amminoacido sono appropriati per geni omologhi da organismi lontanamente correlati³.

Un'analisi filogenetica inizia con l'allineamento dell'amminoacido o nucleotide sequenze⁴ Estratto da un genoma con annotazioni sequenziamento database⁵ elencati in formato FASTA, vale a dire, proteina espressa o presunta sequenze, sequenze di RNA , o sequenze di DNA. Vale la pena notare che è fondamentale per raccogliere sequenze di alta qualità per l'analisi, e sequenze omologhe solo possono essere utilizzati per analizzare le relazioni filogenetiche. Molte piattaforme diverse come Clustal W, Clustal X, muscolo, T-caffè, MAFFT, può essere utilizzato per l'allineamento di sequenza. Il più ampiamente usato è Clustal Omega⁶^,⁷ (http://www.ebi.ac.uk/Tools/msa/clustalo/), che può essere utilizzato online o può essere scaricato gratuitamente gratuitamente. Lo strumento di allineamento ha molti parametri che l'utente può regolare prima di iniziare l'allineamento, ma i parametri di default funzionano bene nella maggior parte dei casi. Dopo il processo è completo, le sequenze allineate devono essere salvate nel formato corretto per il passaggio successivo. Essi devono quindi essere modificati o tagliati utilizzando un software di editing, come ad esempio BioEdit, perché la costruzione di alberi filogenetici da MEGA richiede le sequenze per essere di uguale lunghezza (inclusi sia dell'amminoacido abbreviazioni e trattini. Nella sequenza allineata, qualsiasi posizione senza un amminoacido o nucleotide è rappresentato da un trattino "-"). In generale, tutte le sporgenti aminoacidi o nucleotidi alle due estremità dell'allineamento dovrebbe essere rimosso. Inoltre, le colonne che contengono le sequenze scarsamente allineate nell'allineamento possono essere eliminate perché trasmettere poche preziose informazioni e a volte può dare confusione o false informazioni³. Le colonne contenenti uno o più trattini possono essere eliminate in questo momento o nella successiva fase di costruzione di albero. In alternativa, sono utilizzabili per il calcolo filogenetica. Al termine della sequenza di allineamento e di rifilatura, le sequenze allineate devono essere salvate in formato FASTA, o il formato desiderato, per un uso successivo.

Molte piattaforme di software forniscono funzioni di costruzione albero utilizzando diversi metodi o algoritmi. In generale, i metodi possono essere classificati come metodi di matrice di distanza o metodi di dati discreti. Metodi di matrice di distanza sono semplici e veloci per calcolare, mentre i metodi di dati discreti sono complicati e che richiede tempo. Per taxa strettamente correlate con un alto grado di condivisione dell'identità di sequenza dell'amminoacido o nucleotide, un metodo di matrice di distanza (Neighbor unendo: NJ; Metodo di gruppo coppia non ponderata con media aritmetica: UPGMA) è appropriato; lontanamente correlate taxa, un metodo di dati discreti (metodo della massima verosimiglianza: ML; Massima parsimonia: MP; Inferenza bayesiana) è ottimale³^,⁸. In questo studio, i metodi di ML in MEGA (6.0.6) e inferenza bayesiana (MrBayes 3.2) sono stati applicati per costruire alberi filogenetici⁹. Idealmente, quando vengono utilizzati i parametri e il modello adeguato, i risultati derivati da diversi metodi possono essere coerenti, e sono dunque più affidabile e convincente.

Per un albero filogenetico di ML costruito utilizzando MEGA¹⁰, il file di sequenza allineata in formato FASTA deve essere caricato nel programma. Il primo passo è quindi di selezionare il modello di sostituzione ottimale per i dati caricati. Tutti i modelli di sostituzione disponibili vengono confrontati in base sulle sequenze caricate, e loro punteggi finali verranno mostrati in una tabella di risultati. Selezionare il modello con il Punteggio di criterio BIC (Bayesian Information) più piccolo (elencato per primo nella tabella), impostare i parametri di ML secondo il modello raccomandato e avviare il calcolo. Il tempo di calcolo varia da alcuni minuti a diversi giorni, a seconda della complessità dei dati caricati (lunghezza delle sequenze e numero di taxa) e le prestazioni del computer su cui vengono eseguiti i programmi. Quando il calcolo è finito, un albero filogenetico appare in una nuova finestra. Salvare il file come "FileName.mat". Dopo aver impostato i parametri per specificare l'aspetto dell'albero, salvare ancora una volta. Utilizzando questo metodo, MEGA è in grado di generare figure di pubblicazione grado albero filogenetico.

Per la costruzione di albero con MrBayes¹¹, il primo passo è quello di trasformare la sequenza allineata, che di solito è elencata in formato FASTA, in formato nexus (NEX come tipo di file). Trasformazione di file FASTA in nexus formato possono essere elaborati in MEGA. Successivamente, la sequenza allineata nel nexus formato possa essere caricata in MrBayes. Quando il file viene caricato correttamente, è necessario specificare i parametri dettagliati per il calcolo dell'albero. Questi parametri includono dettagli come modello di sostituzione dell'amminoacido, tassi di variazione, numero catena-catena di Markov Monte Carlo (MCMC) accoppiamento, numero ngen, media deviazione standard delle frequenze di Spalato e così via. Dopo questi parametri sono stati specificati, è possibile avviare il calcolo. Alla fine, due figure di albero in ASC II codice, un visualizzando clade credibilità e le altre lunghezze del ramo visualizzando, verrà visualizzato sullo schermo.

Il risultato di albero verrà salvato automaticamente come "FileName.nex.con". Questo file di albero può essere aperto e modificato da FigTree, e la cifra in FigTree può essere modificata ulteriormente per renderlo più adatto per la pubblicazione.

In questo studio, 228 proteine dolci, tra cui 35 dolci da eucarioti unicellulari e 57 SemiSWEETs da procarioti, sono stati analizzati come un esempio. I dolci e il SemiSWEETs sono stati caratterizzati come glucosio, fruttosio o saccarosio trasportatori attraverso membrane¹²^,¹³. L'analisi filogenetica suggerisce che i due domini MtN3/saliva contenente dolci potrebbero essere derivati da una fusione evolutiva di un passato batterica e di un archaeon¹⁴.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. sequenza di allineamento

Raccogliere le sequenze dell'amminoacido di dolce eucariotici e procariotico passato in documenti separati e li elenco in formato FASTA. Scaricare sequenze dal centro nazionale per Biotechnology Information (NCBI), European Molecular Biology Laboratory (EMBL) e la banca dati del DNA dei database Japan (DDBJ) ricerca di similitudine con lo strumento di base locale allineamento Cerca strumento (BLAST).
1. Nei file d'esempio, raccogliere 228 sequenze della proteina presunta dolce che possiede due domini MtN3/saliva (7 eliche transmembrane) di 57 sequenze di proteine semidolce che possiedono un singolo dominio di MtN3/saliva (3 eliche transmembrane) dei procarioti ed eucarioti ¹³.
2. Per semplificare il processo, è necessario selezionare 35 proteine dolci candidato da organismi unicellulari eucariotici tra i 228 dolci putativi per costruzione di alberi filogenetici. Queste sequenze sono fissate in modo che il lettore può praticare su un vero set di dati.
Allineare le sequenze dolce 35 inserendo le loro in Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
1. Copiare e incollare le sequenze aminoacidiche in formato FASTA nella casella di input o caricare un file di sequenza in formato FASTA. Specificare che essi sono sequenza aminoacidica facendo clic sull'icona sotto menu pull-down nella sezione 'Passaggio 1'.
2. Specificare il formato di output e altri parametri nella sezione 'Passaggio 2', se necessario. Per questo studio, impostare il formato di output come "clustal w/o numero" e lasciare gli altri parametri sulle impostazioni predefinite. Nella maggior parte dei casi, i parametri di default funzionano bene senza alcuna specifica.
Inviare ed eseguire l'allineamento nella sezione 'Passaggio 3'. Ovunque potrebbe richiedere da alcuni secondi a minuti fino a quando l'allineamento è finito. Nel pannello "Riassunto dei risultati", pulsante destro del mouse sul collegamento sotto il "allineamento in formato CLUSTAL" e salvare le sequenze allineate come "35.clustal" (Figura 1).
Aprire il file di risultati di allineamento in BioEdit.
1. Il pannello principale di BioEdit, "Sequenza" e selezionare "Modificare Mood" nel primo menu a discesa, scegliere "Edit residui" nel sottomenu (Figura 2).
2. Selezionare le sequenze che sporge sul lato sinistro dell'allineamento con il cursore (la sequenza selezionata verrà visualizzata in nero) e fare clic sull'icona "Elimina" sotto il menu "Edit" per rimuovere le sequenze selezionate (Figura 3).
3. Selezionare Elimina le sequenze che sporge sul lato destro del primo dominio MtN3/saliva e salvare le sequenze di dominio MtN3/saliva prime profilate come 35-I.fas (Figura 4). Allo stesso modo, eliminare il lato sinistro e destro sporgente sequenze del secondo dominio MtN3/saliva e salvarlo come 35-II.fas. Il primo e il seconda sequenze di dominio MtN3/saliva possono essere previsto in anticipo con ritmo (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) o TMHMM (http://www.cbs.dtu.dk/services/TMHMM/).
Aprire il file 35-I.fas con MEGA e fare clic su "allineare" quando richiesto. Sotto il menu "Modifica", scegliere "Seleziona tutto", quindi fare clic su "Selezionare sequenze"; saranno selezionati i nomi e le sequenze dei taxa in nero (Figura 5).
1. Scegliere "Copia" dal menu "Edit" per copiare le sequenze negli Appunti e quindi incollare le sequenze copiate in un file doc.
2. Nel file doc, sostituire tutte le "#" con ">" e quindi eliminare eventuali caratteri indipendenti per convertirli in formato FASTA. Aggiungere "-io" alla fine del nome di ogni taxon di contrassegnarli come le prime sequenze di dominio MtN3/saliva. La seconda sequenza del dominio MtN3/saliva seguendo lo stesso metodo di processo e aggiungere "-II" dopo il nome di ogni taxon.
Combinare la prime e la seconda MtN3/saliva dominio sequenze in formato FASTA in un file doc.
1. Caricare nuovamente le sequenze combinate in Clustal Omega e allineare le sequenze come descritto sopra. Salvare il risultato come "35 realigned.clustal".
2. Aprire il file "35 realigned.clustal" in BioEdit, eliminare i residui dell'amminoacido (sporgente) irregolare alle estremità delle sequenze allineate e quindi salvare le sequenze come "35 realigned.fas". Fare clic su "Sì" quando ha avvertito che alcuni caratteri non standard non possono essere salvati.

2. calcolo dell'albero filogenetico

Aprire "35 realigned.fas" in MEGA.
1. Fare clic sul menu "Dati" e scegliere "Esporta allineamento" e salvare l'allineamento in formato microscopio (nexus) come "35.nex" per un uso successivo in MrBayes (Figura 6).
2. Nel frattempo, fare clic sull'icona di "Modelli" sul pannello principale del MEGA, scegliere "trovare migliori modelli di DNA/Protein (ML)" e fare clic su "OK" sulla finestra a comparsa. Fare clic su "Calcola" per iniziare il modello di processo (Figura 7) di ricerca. Si aprirà un nuovo pannello di progresso; Questo processo dura diversi minuti a diversi giorni, a seconda della complessità delle sequenze caricate e le prestazioni del computer.
  Nota: Una tabella indicante che i risultati apriranno al termine il processo di ricerca del modello ( Figura 8). Il più piccolo Punteggio BIC sarà elencato in primo luogo, seguito da una serie di diversi modelli con gradualmente aumentando i punteggi di BIC. Il primo modello "LG + G + F" con il Punteggio di BIC più piccolo è il modello consigliato per ML albero basato sul file "35 realigned.fas".
Fare clic sull'icona "Filogenesi" sul pannello principale del MEGA, fare clic su "Costrutto/Test the massima probabilità Tree" e quindi fare clic su "Sì" il pannello a comparsa. Una nuova finestra si aprirà mostrando diversi parametri che devono essere specificati (Figura 9).
1. In primo luogo, impostare il valore di bootstrap nel test della finestra di filogenesi; 500 o 1.000 è adeguata nella maggior parte dei casi. Sotto il modello di sostituzione, scegliere "aminoacido" come il tipo di sostituzione. Lo scopo di scegliere un modello di sostituzione è quello di stimare la vera differenza tra sequenze in base alle loro attuali stati³.
2. Selezionare "LG con Freqs. (+F) modello "(LG + F) nella casella modello/metodo. Nella casella modello e tariffe, selezionare "Gamma distribuita" (G) per descrivere le variazioni di tasso tra i siti, i. e., dare più peso alle modifiche in lenta evoluzione siti³. Nella casella sottoinsieme di dati, selezionare "Completare eliminazione" per rimuovere tutte le colonne che contengono trattini.
3. Tenere tutti gli altri parametri negli stati predefiniti (Figura 9). Dopo specifica di questi parametri, fare clic sull'icona "Compute" per avviare il calcolo.

3. presentazione dell'albero filogenetico

Nota: Un albero filogenetico di ML sarà presentato quando è finito il calcolo utilizzando MEGA (Figura 10).

Sotto menu pull-down dell'icona sul pannello albero "File", scegliere "Salva sessione corrente" per salvare il risultato (. Mas è il tipo di file predefinito). Nello studio presente, il risultato è stato salvato come "35.mas". Il pannello di albero, molti parametri tra cui la durata del clade, albero stile, topologia albero, tipo di carattere del taxon nome, dimensione e colore, vengono visualizzati e può essere impostata su diverse opzioni.
Salvare il file dell'albero finale facendo clic sull'icona di immagine e salvare la figura in diversi formati o copiare l'immagine come origine per fotoritocco.

4. analisi del rapporto tra dolci e SemiSWEETs utilizzando l'allineamento di sequenza

Nota: Questo passaggio potrebbe non essere necessaria in analisi di sequenza ordinaria.

Allineare i 228 dolci eucariotici e procariotiche 57 SemiSWEETs in Clustal Omega come descritto sopra. I risultati di allineamento possono essere mostrati in Jalview, che è integrato in Clustal Omega e copiato per salvare in un editor di foto (Figura 11).
Nota: L'allineamento di esempio, alcuni SemiSWEETs da α-Proteobacteria sono allineati con il primo dominio di MtN3/saliva delle sequenze dolce, considerando che SemiSWEETs da Metanobatteri (archaea) sono allineati con il secondo dominio MtN3/saliva delle sequenze di dolce.

5. phylogenetic Tree costruzione con MrBayes

Per l'inferenza bayesiana con MrBayes, aprire il file eseguibile di MrBayes e un'interfaccia DOS arrivi in una nuova finestra. Il primo passo è quello di leggere il ﬁle di dati di nexus. Ingresso "eseguire 35.nex" dopo il prompt (ricordatevi di salvare il file di nex 35. nella stessa directory del file eseguibile MrBayes, o indicare il percorso del file prima di caricarlo). Apparirà un messaggio di "successo matrice lettura" successivi all'ultimo dei taxa elencati (Figura 12). Il file di nex 35. è già stato preparato e salvato in MEGA (vedere precedente punto 2.1).
Impostare il modello evolutivo.
1. Dopo il prompt, digitare "prset aamodelpr = fixed(lg); LSet tariffe = g ". La "lg" e "g" corrispondono al modello "LG" e "G" che si trova nel MEGA. Dopo aver impostato correttamente il modello, digitare "mcmc nchains = 4 ngen = 5.000.000" dopo il prompt. Utilizzare il "nchains = 4" voce indica un numero totale di una catena del freddo e calde tre catene per accoppiamento di Metropolis. "ngen = 5.000.000" significa eseguire generazioni 5.000.000 di accoppiamento di Metropolis per la convergenza delle catene calde e fredde. In questo studio, scarto quadratico medio di Spalato frequenze inferiori a 0,01 è stato considerato come convergenza delle catene di piatti calde e fredde.
2. Si noti che il numero di ngen non può essere previsto con precisione all'inizio del processo e di solito deve essere regolata basata sul cambiamento nella deviazione standard media delle frequenze di Spalato. Inoltre, il numero di ngen per convergenza può essere diverso ogni volta quando in esecuzione il programma basato sugli stessi dati.
Eseguire l'analisi: Questa fase dura da alcuni minuti a diversi giorni, a seconda della complessità dei dati di input e le prestazioni del computer. Dopo aver completato il calcolo predefinito, verrà richiesto "Continuare con analisi (sì/no)?" Se "no" viene digitato dopo il prompt, il computing si fermerà (Figura 13), altrimenti continuerà a calcolare dopo il numero di ulteriori generazioni è inserito. Quando è finito il calcolo (con una deviazione standard media di Spalato frequenze < 0.01 o 0,05), interrompere il calcolo digitando "n" dopo il prompt di richiesta.
Nota: 0,01 è un criterio rigoroso, 0.05 è moderata e di solito adeguato.
Riassumere i campioni: Digitare "pozzetto" dopo il prompt per riepilogare i campioni dei parametri del modello (Figura 14). Quindi digitare "Bibola relburnin = yes burninfrac = 0.25" dopo il prompt per riepilogare i campioni dell'albero. Informazioni dettagliate sulla costruzione di alberi filogenetici verranno visualizzati come in Figura 15, seguita da due figure di albero che appariranno nel codice ASC II su schermo, un mostrando clade credibilità e le altre lunghezze del ramo visualizzando. Allo stesso tempo, un file di albero con il nome di "35.nex.con" verrà salvato automaticamente.
Per una migliore presentazione dell'albero filogenetico, aprire il file di albero "35.nex.con" con lo strumento FigTree (http://tree.bio.ed.ac.uk/software/figtree/), selezionare uno stile o un formato per visualizzare il risultato (Figura 16) o anche modificarlo in un editor di foto per renderlo più facile lettura.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Alberi filogenetici mostrano che tutti i domini di MtN3/saliva primi delle sequenze dolce 35 cluster come un clade e i domini di MtN3/saliva secondo delle sequenze dolce cluster come un altro clade. Inoltre, risultati di allineamento delle dolci e SemiSWEETs mostrano che alcuni SemiSWEETs da α-Proteobacteria allineato con il primo dominio di MtN3/saliva delle sequenze dolce, considerando che SemiSWEETs da Metanobatteri (archaea) allineato con la seconda MtN3/saliva dominio delle sequenze di dolce. Insieme, questi risultati suggeriscono che i due domini MtN3/saliva contenente dolci potrebbero essere derivati da una fusione evolutiva di un passato batterica e di un archaeon¹⁴.

Figura 1 : Salvare le sequenze allineate dei 35 dolci eucariotiche putativi come "35.clustal" tramite Clustal Omega. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2 : Seleziona il percorso in BioEdit per tagliare le sequenze allineate di "35.clustal", che è stato preparato in Clustal Omega. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3 : Selezionare ed eliminare le sequenze irregolari sul lato sinistro delle sequenze di dominio MtN3/saliva prime dei 35 dolci eucariotiche putativi in BioEdit. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4 : Le sequenze tagliate del primo dominio MtN3/saliva dei 35 dolci eucariotici putativi in BioEdit. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 5 : Selezionare e copiare le prime sequenze di dominio MtN3/saliva dei 35 dolci eucariotiche putativi in MEGA. Le sequenze copiate verranno incollate in un file doc per l'editing. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 6 : Convertire "35 realigned.fas" in "35.nex" (formato microscopio) per inferenza bayesiana ulterioramente. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 7 : Ricerca per il modello di sostituzione più appropriato da MEGA per la costruzione di alberi filogenetici di probabilità massima (ML) basato sul file "35 realigned.fas". Clicca qui per visualizzare una versione più grande di questa figura.

Figura 8 : Una tabella del modello più appropriato di sostituzione calcolati per ML albero basato sul file "35 realigned.fas". Clicca qui per visualizzare una versione più grande di questa figura.

Figura 9 : Specificare i parametri per il calcolo di albero ML sulla base del modello di sostituzione più adatto per "35 realigned.fas" in MEGA. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 10 : Un albero di ML originale costruito da MEGA basato su "35 realigned.fas". In questa fase, molte opzioni per figura stile, dimensione, colore, ecc., sono disponibile. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 11 : Allineamento di 228 dolci eucariotici e procariotici 57 SemiSWEETs da Clustal Omega. I risultati sono stati mostrati in Jalview, integrato in Clustal Omega. Nell'allineamento, alcuni SemiSWEETs da α-Proteobacteria sono stati allineati con il primo dominio di MtN3/saliva delle sequenze di dolce, mentre SemiSWEETs da Metanobatteri (archaea) sono stati allineati con il secondo dominio MtN3/saliva delle sequenze di dolce. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 12 : Caricare il file "35.nex" in MrBayes nella finestra DOS. Al fine di mostrare i risultati complessivi, contenuto che era simile è stato eliminato per ridurre la lunghezza di figura. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 13 : Informazioni visualizzate sullo schermo dopo il calcolo del file "35.nex" utilizzando MrBayes. Per visualizzare i risultati complessivi, contenuto che era simile è stato eliminato per ridurre la lunghezza di figura. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 14 : Riassunti esempi di parametri di modello per il file "35.nex". Clicca qui per visualizzare una versione più grande di questa figura. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 15 : Riassunti esempi di struttura ad albero del file "35.nex". Per visualizzare i risultati complessivi, contenuto che era simile è stato eliminato per ridurre la lunghezza di figura. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 16 : L'albero filogenetico di "35.nex.con" visualizzato da FigTree. Clicca qui per visualizzare una versione più grande di questa figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Sta diventando sempre più popolare nella ricerca biologica per fare un albero filogenetico basato su nucleotide o dell'amminoacido sequenze⁸. In generale, ci sono tre fasi critiche della pratica compreso l'allineamento di sequenza, valutazione delle sequenze allineate con l'algoritmo o il metodo corretto e la visualizzazione del risultato computazionale come un albero filogenetico. Nello studio presentato, sono state condotte tre turni di allineamento di sequenza: in primo luogo, le sequenze di proteine dolci, tra cui il dominio di MtN3/saliva di primo e secondo, sono stati state allineate; in secondo luogo, ciascuna delle singole sequenze di dominio MtN3/saliva dei dolci come un taxon indipendenti sono stati riuniti e allineati insieme; e infine, sequenze di semidolce e dolce congiuntamente sono stati stati allineati. Solo un giro di allineamento di sequenza è solitamente necessario per la costruzione dell'albero filogenetico.

Nella fase preliminare, sequenze omologhe possono essere scaricati da NCBI o altri database. Queste sequenze scaricate potrebbero essere necessario essere proiettato se non vengono ben annotati. In fase di prima e seconda, non può essere avviati se il formato di sequenza è corretto allineamento e calcolo. Ad esempio, Clustal Omega rifiuterà qualsiasi partenza dal formato FASTA nel file sequenza. In fase di calcolo, si noti che le lunghezze di sequenza compresi sia gli aminoacidi o nucleotidi e trattini sono tenute a corrispondere prima di essere valutato da MEGA.

Nonostante la ricchezza di metodi e modelli per la costruzione di albero che sono disponibili, nessuno di loro è infallibile. Robusti e convincenti risultati sono quelli che sono coerenti con l'altro quando diversi algoritmi o modelli vengono utilizzati per valutare i dati stesso¹⁵. Nel metodo ML, l'affidabilità della topologia albero dipende in larga misura il valore di bootstrap di ogni clade; un valore di bootstrap di 70 o maggiore è considerare generalmente come affidabile. Nello studio presente, tutte le sequenze di dominio MtN3/saliva prime di cluster come un ampio clade con un valore di bootstrap di 83. Il valore di altri clade contenente tutte le seconda sequenze dominio di MtN3/saliva, tuttavia, era solo 6 (Figura 10). Per verificare l'architettura di albero, MrBayes, che impiega un metodo completamente diverso¹⁶ di ML, è stato utilizzato per analizzare la relazione dei taxa. La probabilità a posteriori¹⁶ dei cladi di dominio prima e la seconda ottenuta da MrBayes erano 100 e 68, rispettivamente (Figura 16).

Un'altra limitazione di ML ed il calcolo di MrBayes è che entrambi sono che richiede tempo per l'esecuzione. Utilizzando un computer con processori multi-core e unità di elaborazione grafica (GPU) è utile per migliorare le prestazioni computazionali e velocità¹⁷^,¹⁸. Per il funzionamento del MrBayes, un computer con una scheda grafica discreta e i driver CUDA appropriati può accelerare notevolmente i calcoli di probabilità¹¹.

Scegliere il modello corretto per calcolo albero filogenetico è difficile per quelli con poca esperienza. A questo proposito, MEGA fornisce un modo semplice per trovare il miglior modello confrontando i punteggi BIC di modelli candidati. Inoltre, il recentemente aggiornato MEGA 6.0 integra diversi strumenti di allineamento sequenza come muscolo e Clustal W¹⁰, che sono molto comodi da usare. Fornisce inoltre una sequenza di editing e alla funzione di costruzione di alberi filogenetici. Queste caratteristiche spiegano in parte perché questo software è così popolare nel campo di evoluzione molecolare computazionale. Per quanto riguarda MrBayes, un notevole vantaggio di questo strumento è che è possibile elaborare i tipi di dati misti insieme (ad es., dati morfologici e molecolari)¹¹e così i risultati sono più completi.

In conclusione, lo studio presente fornisce un metodo per analizzare l'origine molecolare di geni codificanti proteine che hanno subito variazioni complesse quali la fusione dopo la duplicazione o il trasferimento genico orizzontale (HGT) durante l'evoluzione. Si spera, saranno rivelati più risultati con un'ampia applicazione di analisi filogenetica nel campo della ricerca evolutiva.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla a rivelare.

Acknowledgments

Questo lavoro è stato supportato da National Natural Science Foundation of China (31371596), centro di ricerca Bio-tecnologia, Università di Cina tre gole (2016KBC04) e la Fondazione di scienze naturali della provincia di Jiangsu, Cina (BK20151424).

Materials

Name	Company	Catalog Number	Comments
Adobe Illustration			a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit			a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega			a package for making multiple sequence alignments of amino acid or nucleotide sequences. http://www.clustal.org/
CorelDRAW			a graphic design software. Copyright © 2017 Corel Corporation
FigTree			a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA			MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes			an Bayesian phylogenetic inference tool
NVIDIA			a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP			Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop			a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM			a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM			a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter			4 GB memory, Core 2 or above CPU. Windows 7, Windows 10