Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin

Dechun Zhang; Xianzhao Kan; Sarah Elizabeth Huss; Lan Jiang; Li-Qing Chen; Yibing Hu

doi:10.3791/56684

JoVE Journal > Immunology and Infection

Immunology and Infection

Ved hjælp af Fylogenetisk analyse at undersøge eukaryote gen oprindelse

Published: August 14, 2018

doi:

10.3791/56684

Dechun Zhang*¹, Xianzhao Kan*², Sarah Elizabeth Huss, Lan Jiang, Li-Qing Chen, Yibing Hu

¹Key Laboratory of Three Gorges Regional Plant Genetics and Germplasm Enhancement (CTGU)/Biotechnology Research Center,China Three Gorges University, ²The Institute of Bioinformatics, College of Life Sciences,Anhui Normal University, ³Department of Plant Biology,University of Illinois at Urbana-Champaign, ⁴College of Resources & Environmental Sciences,Nanjing Agricultural University

Summary

En metode til at konstruere et Fylogenetisk træ baseret på sekvensen homologi af slik fra eukaryoter og SemiSWEETs fra prokaryoter er beskrevet. Fylogenetisk analyse er et nyttigt redskab til at forklare den evolutionære slægtskab mellem homologt proteiner eller gener fra anden organisme grupper.

Abstract

Fylogenetisk analyse bruger nukleotid eller aminosyre-sekvenser eller andre parametre, såsom domæne sekvenser og tre-dimensionelle struktur, for at konstruere et træ for at vise den evolutionære relationer mellem forskellige taxa (klassificering enheder) på den molekylære niveau. Fylogenetisk analyse kan også bruges til undersøgelse domænet forholdet inden for en individuel taxon, især for organismer, der har undergået betydelige ændre i morfologi og fysiologi, men for hvilke forskere mangler fossile bevis skyldes den organismer lang evolutionær historie eller knaphed på Fossiliseringen.

I denne tekst, er en detaljeret protokol beskrevet for anvendelse af det fylogenetiske metode, herunder aminosyre sekvens justering ved hjælp af Clustal Omega, og efterfølgende Fylogenetisk træ konstruktion med både maksimale sandsynligheden (ML) af molekylære evolutionær genetik Analyse (MEGA) og Bayesiansk inferens via MrBayes. For at undersøge oprindelsen af eukaryote Sukker vil efterhånden blive eksporteret transportører (sød) gener, blev 228 slik herunder 35 sød proteiner fra encellede eukaryoter og 57 halvsød proteiner fra prokaryoter analyseret. Det er interessant, SemiSWEETs blev fundet i prokaryoter, men slik blev fundet i eukaryoter. To evolutionstræer konstrueret ved hjælp af teoretisk forskellige metoder har konsekvent foreslog, at den første eukaryote søde gen måske stammer fra fusion af et bakterielt halvsød gen og en archaeask halvsød genet. Det er værd at bemærke, at man bør være forsigtige for at drage en konklusion baseret kun på Fylogenetisk analyse, selv om det er nyttigt at forklare det underliggende forholdet mellem forskellige taxa, som er vanskeligt eller endog umuligt at skelne gennem eksperimentelle metoder .

Introduction

DNA eller RNA sekvenser bære genetiske oplysninger for underliggende fænotyper, der kan analyseres gennem fysiologiske og biokemiske metoder eller observeret gennem morfologiske og fossile bevis. I en vis forstand er genetiske oplysninger mere pålidelige end evaluering eksterne fænotyper, fordi førstnævnte er grundlaget for sidstnævnte. I evolutionær undersøgelse er fossile bevis meget direkte og overbevisende. Men mange organismer, såsom mikroorganismer, har ringe chance for at danne en fossil under lange geologiske aldre. Derfor, Molekylær information såsom nukleotidsekvenser og amino acid sekvenser fra relaterede bevarede organismer er af værdi for at udforske evolutionære relationer¹. I den foreliggende undersøgelse, var en simpel introduktion om fylogenetiske grundviden og en nem-at-lære protokol fastsatte tilflyttere, der har brug for at konstruere et Fylogenetisk træ på egen hånd.

Både DNA (nukleotid) og protein (aminosyre) sekvenser kan bruges til at udlede fylogenetiske relationer mellem homologe gener, organeller eller endog organismer². DNA-sekvenser er mere tilbøjelige til at blive påvirket af ændringer i udviklingen. Derimod er aminosyresekvenser langt mere stabil da synonymt mutationer i nukleotidsekvenser ikke forårsager mutationer i aminosyresekvenser. Som et resultat, er DNA-sekvenser nyttig til sammenligning af homologe gener fra nærtbeslægtede organismer, aminosyresekvenser er passende for homologe gener fra fjernt beslægtede organismer³.

En Fylogenetisk analyse begynder med justeringen af aminosyre eller nukleotid-sekvenser⁴ hentet fra en kommenteret genome sequencing database⁵ , der er anført i FASTA format, dvs., formodede eller udtrykt protein sekvenser, RNA sekvenser , eller DNA-sekvenser. Det er værd at bemærke, at det er afgørende at indsamle høj kvalitet sekvenser for analysen, og kun homologe sekvenser kan bruges til at analysere fylogenetiske relationer. Mange forskellige platforme som Clustal W, Clustal X, muskel, T-kaffe, MAFFT, kan anvendes for sequence alignment. Den mest udbredte er Clustal Omega⁶^,,⁷ (http://www.ebi.ac.uk/Tools/msa/clustalo/), som kan bruges online eller kan downloades gratis til rådighed. Værktøjet justering har mange parametre, som brugeren kan justere før du starter justeringen, men standardparametrene fungerer godt i de fleste tilfælde. Når processen er fuldført, skal de justerede sekvenser gemmes i det korrekte format til det næste trin. De skal derefter redigeres eller garnerede ved hjælp af en software til videoredigering, som BioEdit, fordi Fylogenetisk træ konstruktion af MEGA kræver sekvenser til at være lige lange (herunder både aminosyre forkortelser og bindestreger. I den justerede sekvens, enhver stilling uden en aminosyre eller nukleotid er repræsenteret ved en bindestreg “-“). Generelt, alle de fremspringende aminosyrer eller nukleotider i begge ender af justeringen bør fjernes. Kolonner, der indeholder dårligt tilpasset sekvenser i justeringen kan desuden slettes, fordi de formidler megen værdifuld information, og kan nogle gange give forvirrende eller forkerte oplysninger³. De kolonner, der indeholder en eller flere bindestreger kan slettes, på dette tidspunkt eller i træ konstruktion senere. Alternativt kan de bruges om fylogenetiske beregning. Når sekvensen justering og trimning er færdig, bør de justerede sekvenser gemmes i FASTA format, eller det ønskede format, til senere brug.

Mange software-platforme giver træ konstruktion funktioner ved hjælp af forskellige metoder eller algoritmer. Generelt er kan metoderne, der klassificeres som enten afstand matrix metoder eller diskrete data metoder. Afstand matrix metoder er enkel og hurtig til at beregne, mens diskrete data metoder er kompliceret og tidskrævende. For meget nært beslægtede taxa med en høj grad af deling af aminosyre eller nucleotide sequence identitet, en afstand matrix metode (nabo at deltage: NJ; Oejeblikkelige par gruppe metode med middelværdien: UPGMA) er passende; for fjernt beslægtede taxa, en diskret data metode (maksimal sandsynlighed: ML; Maksimale Parsimony: MP; Bayesiansk inferens) er optimal³^,⁸. I denne undersøgelse, blev ML metoder i MEGA (6.0.6) og Bayesiansk inferens (MrBayes 3.2) anvendt til at konstruere evolutionstræer⁹. Ideelt, når der anvendes korrekt model og parametre, resultaterne stammer fra forskellige metoder kan være konsekvent, og de er dermed mere pålidelige og overbevisende.

For en ML Fylogenetisk træ opbygget ved hjælp af MEGA¹⁰, skal blive uploadet filen justeret sekvens i FASTA format i programmet. Det første skridt er at vælge den optimale substitution model for de overførte data. Alle tilgængelige substitution modeller sammenlignes baseret på de overførte sekvenser, og deres endelige score vil blive vist i en resultater tabel. Vælg modellen med den mindste Bayesian oplysninger kriterium (BIC) score (vises først i tabellen), indstille ML parametre efter den anbefalede model og starte beregningen. Beregningen tid varierer fra nogle minutter til flere dage, afhængigt af kompleksiteten af de indlæste data (længde sekvenser og antal taxa) og udførelsen af den computer, som programmer køres. Når beregningen er færdig, vises en Fylogenetisk træ i et nyt vindue. Gem filen som “FileName.mat”. Efter indstilling af parametre for at angive udseendet af træet, gemme en gang mere. Brug denne metode, kan MEGA generere publikation grade Fylogenetisk træ tal.

For træ konstruktion med MrBayes¹¹er det første skridt at omdanne den justeret sekvens, som er normalt angivet i FASTA format, i nexus format (.nex som filtype). Omdanne FASTA filer til nexus format kan behandles i MEGA. Næste, den justeret sekvens i nexus format kan blive uploadet til MrBayes. Når filen er overført, angive detaljerede parametre for træ beregning. Disse parametre omfatter detaljer som aminosyre substitution model, variant priser, kæde nummer til Markov kæde Monte Carlo (MCMC) kobling, ngen nummer, gennemsnit standardafvigelse af split frekvenser, og så videre. Når disse parametre er blevet angivet, start beregningen. I sidste ende vises to træ tal i ASC II-kode, der viser clade troværdighed og anden viser gren længder, på skærmen.

Træ resultatet vil blive gemt automatisk som “FileName.nex.con”. Træ filen kan åbnes og redigeres af figentræ, og det tal vises i figentræ kan ændres yderligere for at gøre det mere velegnet til offentliggørelse.

I denne undersøgelse, blev 228 søde proteiner, herunder 35 slik fra encellede eukaryoter og 57 SemiSWEETs fra prokaryoter, analyseret som eksempel. Både slik og SemiSWEETs blev karakteriseret som glukose, fruktose eller saccharose transportvirksomheder på tværs af membraner¹²^,¹³. Fylogenetisk analyse tyder på, at de to MtN3/spyt domæner der indeholder slik kan være afledt af en evolutionær fusion af en bakteriel SemiSWEET og en archaeon¹⁴.

Protocol

1. sekvens justering Indsamle aminosyresekvenser af eukaryote søde og prokaryote SemiSWEET i separate dokumenter og liste dem i FASTA format. Download sekvenser fra National Center for bioteknologi oplysninger (NCBI), europæiske molekylærbiologiske laboratorium (EMBL) og DNA Data Bank of Japan (DDBJ) databaser af ligheden søgning med værktøjet grundlæggende lokale justering søgning værktøj (BLAST). I eksempel filer, indsamle 228 formodede søde protein sekvenser besidder to…

Representative Results

Evolutionstræer viser, at alle de første MtN3/spyt domæner af de 35 sød sekvenser grupperet som én clade og de anden MtN3/spyt domæner af de søde sekvenser grupperet som en anden clade. Derudover viser justering resultaterne af slik og SemiSWEETs, at nogle SemiSWEETs fra α-proteobakterier justeret med den første MtN3/spyt domæne af de søde sekvenser, der henviser til, at SemiSWEETs fra Methanobacteria (archaea) på linje med den anden MtN3/spyt domænet for de søde sekvenser. …

Discussion

Det bliver stadig mere populære i biologiske forskning at gøre et Fylogenetisk træ baseret på nukleotidsekvens eller amino acid sekvenser⁸. Generelt er der tre kritiske faser af den praksis, herunder sekvensen justering, evaluering af de justerede sekvenser med den rette metode eller algoritme, og visualisering af det beregningsmæssige resultatet som en Fylogenetisk træ. I undersøgelsen der præsenteres, tre runder af sekvens justering blev gennemført: først, søde protein-sekvenser, heru…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev støttet af National Natural Science Foundation of China (31371596), Bio-teknologi Research Center, Kina Tre Slugters Universitet (2016KBC04) og Natural Science Foundation i Jiangsu-provinsen, Kina (BK20151424).

Materials

Adobe Illustration			a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit			a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega			a package for making multiple sequence alignments of amino acid or nucleotide sequences. http://www.clustal.org/
CorelDRAW			a graphic design software. Copyright © 2017 Corel Corporation
FigTree			a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA			MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes			an Bayesian phylogenetic inference tool
NVIDIA			a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP			Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop			a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM			a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM			a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter			4GB memory, Core 2 or above CPU. Windows 7, Windows 10

References

Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

Ved hjælp af Fylogenetisk analyse at undersøge eukaryote gen oprindelse

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Ved hjælp af Fylogenetisk analyse at undersøge eukaryote gen oprindelse

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below