Immunology and Infection

Ved hjælp af Fylogenetisk analyse at undersøge eukaryote gen oprindelse

Published: August 14, 2018 doi: 10.3791/56684

Dechun Zhang*¹, Xianzhao Kan*², Sarah Elizabeth Huss³, Lan Jiang², Li-Qing Chen³, Yibing Hu⁴

¹Key Laboratory of Three Gorges Regional Plant Genetics and Germplasm Enhancement (CTGU)/Biotechnology Research Center, China Three Gorges University, ²The Institute of Bioinformatics, College of Life Sciences, Anhui Normal University, ³Department of Plant Biology, University of Illinois at Urbana-Champaign, ⁴College of Resources & Environmental Sciences, Nanjing Agricultural University

* These authors contributed equally

Summary

En metode til at konstruere et Fylogenetisk træ baseret på sekvensen homologi af slik fra eukaryoter og SemiSWEETs fra prokaryoter er beskrevet. Fylogenetisk analyse er et nyttigt redskab til at forklare den evolutionære slægtskab mellem homologt proteiner eller gener fra anden organisme grupper.

Abstract

Fylogenetisk analyse bruger nukleotid eller aminosyre-sekvenser eller andre parametre, såsom domæne sekvenser og tre-dimensionelle struktur, for at konstruere et træ for at vise den evolutionære relationer mellem forskellige taxa (klassificering enheder) på den molekylære niveau. Fylogenetisk analyse kan også bruges til undersøgelse domænet forholdet inden for en individuel taxon, især for organismer, der har undergået betydelige ændre i morfologi og fysiologi, men for hvilke forskere mangler fossile bevis skyldes den organismer lang evolutionær historie eller knaphed på Fossiliseringen.

I denne tekst, er en detaljeret protokol beskrevet for anvendelse af det fylogenetiske metode, herunder aminosyre sekvens justering ved hjælp af Clustal Omega, og efterfølgende Fylogenetisk træ konstruktion med både maksimale sandsynligheden (ML) af molekylære evolutionær genetik Analyse (MEGA) og Bayesiansk inferens via MrBayes. For at undersøge oprindelsen af eukaryote Sukker vil efterhånden blive eksporteret transportører (sød) gener, blev 228 slik herunder 35 sød proteiner fra encellede eukaryoter og 57 halvsød proteiner fra prokaryoter analyseret. Det er interessant, SemiSWEETs blev fundet i prokaryoter, men slik blev fundet i eukaryoter. To evolutionstræer konstrueret ved hjælp af teoretisk forskellige metoder har konsekvent foreslog, at den første eukaryote søde gen måske stammer fra fusion af et bakterielt halvsød gen og en archaeask halvsød genet. Det er værd at bemærke, at man bør være forsigtige for at drage en konklusion baseret kun på Fylogenetisk analyse, selv om det er nyttigt at forklare det underliggende forholdet mellem forskellige taxa, som er vanskeligt eller endog umuligt at skelne gennem eksperimentelle metoder .

Introduction

DNA eller RNA sekvenser bære genetiske oplysninger for underliggende fænotyper, der kan analyseres gennem fysiologiske og biokemiske metoder eller observeret gennem morfologiske og fossile bevis. I en vis forstand er genetiske oplysninger mere pålidelige end evaluering eksterne fænotyper, fordi førstnævnte er grundlaget for sidstnævnte. I evolutionær undersøgelse er fossile bevis meget direkte og overbevisende. Men mange organismer, såsom mikroorganismer, har ringe chance for at danne en fossil under lange geologiske aldre. Derfor, Molekylær information såsom nukleotidsekvenser og amino acid sekvenser fra relaterede bevarede organismer er af værdi for at udforske evolutionære relationer¹. I den foreliggende undersøgelse, var en simpel introduktion om fylogenetiske grundviden og en nem-at-lære protokol fastsatte tilflyttere, der har brug for at konstruere et Fylogenetisk træ på egen hånd.

Både DNA (nukleotid) og protein (aminosyre) sekvenser kan bruges til at udlede fylogenetiske relationer mellem homologe gener, organeller eller endog organismer². DNA-sekvenser er mere tilbøjelige til at blive påvirket af ændringer i udviklingen. Derimod er aminosyresekvenser langt mere stabil da synonymt mutationer i nukleotidsekvenser ikke forårsager mutationer i aminosyresekvenser. Som et resultat, er DNA-sekvenser nyttig til sammenligning af homologe gener fra nærtbeslægtede organismer, aminosyresekvenser er passende for homologe gener fra fjernt beslægtede organismer³.

En Fylogenetisk analyse begynder med justeringen af aminosyre eller nukleotid-sekvenser⁴ hentet fra en kommenteret genome sequencing database⁵ , der er anført i FASTA format, dvs., formodede eller udtrykt protein sekvenser, RNA sekvenser , eller DNA-sekvenser. Det er værd at bemærke, at det er afgørende at indsamle høj kvalitet sekvenser for analysen, og kun homologe sekvenser kan bruges til at analysere fylogenetiske relationer. Mange forskellige platforme som Clustal W, Clustal X, muskel, T-kaffe, MAFFT, kan anvendes for sequence alignment. Den mest udbredte er Clustal Omega⁶^,,⁷ (http://www.ebi.ac.uk/Tools/msa/clustalo/), som kan bruges online eller kan downloades gratis til rådighed. Værktøjet justering har mange parametre, som brugeren kan justere før du starter justeringen, men standardparametrene fungerer godt i de fleste tilfælde. Når processen er fuldført, skal de justerede sekvenser gemmes i det korrekte format til det næste trin. De skal derefter redigeres eller garnerede ved hjælp af en software til videoredigering, som BioEdit, fordi Fylogenetisk træ konstruktion af MEGA kræver sekvenser til at være lige lange (herunder både aminosyre forkortelser og bindestreger. I den justerede sekvens, enhver stilling uden en aminosyre eller nukleotid er repræsenteret ved en bindestreg "-"). Generelt, alle de fremspringende aminosyrer eller nukleotider i begge ender af justeringen bør fjernes. Kolonner, der indeholder dårligt tilpasset sekvenser i justeringen kan desuden slettes, fordi de formidler megen værdifuld information, og kan nogle gange give forvirrende eller forkerte oplysninger³. De kolonner, der indeholder en eller flere bindestreger kan slettes, på dette tidspunkt eller i træ konstruktion senere. Alternativt kan de bruges om fylogenetiske beregning. Når sekvensen justering og trimning er færdig, bør de justerede sekvenser gemmes i FASTA format, eller det ønskede format, til senere brug.

Mange software-platforme giver træ konstruktion funktioner ved hjælp af forskellige metoder eller algoritmer. Generelt er kan metoderne, der klassificeres som enten afstand matrix metoder eller diskrete data metoder. Afstand matrix metoder er enkel og hurtig til at beregne, mens diskrete data metoder er kompliceret og tidskrævende. For meget nært beslægtede taxa med en høj grad af deling af aminosyre eller nucleotide sequence identitet, en afstand matrix metode (nabo at deltage: NJ; Oejeblikkelige par gruppe metode med middelværdien: UPGMA) er passende; for fjernt beslægtede taxa, en diskret data metode (maksimal sandsynlighed: ML; Maksimale Parsimony: MP; Bayesiansk inferens) er optimal³^,⁸. I denne undersøgelse, blev ML metoder i MEGA (6.0.6) og Bayesiansk inferens (MrBayes 3.2) anvendt til at konstruere evolutionstræer⁹. Ideelt, når der anvendes korrekt model og parametre, resultaterne stammer fra forskellige metoder kan være konsekvent, og de er dermed mere pålidelige og overbevisende.

For en ML Fylogenetisk træ opbygget ved hjælp af MEGA¹⁰, skal blive uploadet filen justeret sekvens i FASTA format i programmet. Det første skridt er at vælge den optimale substitution model for de overførte data. Alle tilgængelige substitution modeller sammenlignes baseret på de overførte sekvenser, og deres endelige score vil blive vist i en resultater tabel. Vælg modellen med den mindste Bayesian oplysninger kriterium (BIC) score (vises først i tabellen), indstille ML parametre efter den anbefalede model og starte beregningen. Beregningen tid varierer fra nogle minutter til flere dage, afhængigt af kompleksiteten af de indlæste data (længde sekvenser og antal taxa) og udførelsen af den computer, som programmer køres. Når beregningen er færdig, vises en Fylogenetisk træ i et nyt vindue. Gem filen som "FileName.mat". Efter indstilling af parametre for at angive udseendet af træet, gemme en gang mere. Brug denne metode, kan MEGA generere publikation grade Fylogenetisk træ tal.

For træ konstruktion med MrBayes¹¹er det første skridt at omdanne den justeret sekvens, som er normalt angivet i FASTA format, i nexus format (.nex som filtype). Omdanne FASTA filer til nexus format kan behandles i MEGA. Næste, den justeret sekvens i nexus format kan blive uploadet til MrBayes. Når filen er overført, angive detaljerede parametre for træ beregning. Disse parametre omfatter detaljer som aminosyre substitution model, variant priser, kæde nummer til Markov kæde Monte Carlo (MCMC) kobling, ngen nummer, gennemsnit standardafvigelse af split frekvenser, og så videre. Når disse parametre er blevet angivet, start beregningen. I sidste ende vises to træ tal i ASC II-kode, der viser clade troværdighed og anden viser gren længder, på skærmen.

Træ resultatet vil blive gemt automatisk som "FileName.nex.con". Træ filen kan åbnes og redigeres af figentræ, og det tal vises i figentræ kan ændres yderligere for at gøre det mere velegnet til offentliggørelse.

I denne undersøgelse, blev 228 søde proteiner, herunder 35 slik fra encellede eukaryoter og 57 SemiSWEETs fra prokaryoter, analyseret som eksempel. Både slik og SemiSWEETs blev karakteriseret som glukose, fruktose eller saccharose transportvirksomheder på tværs af membraner¹²^,¹³. Fylogenetisk analyse tyder på, at de to MtN3/spyt domæner der indeholder slik kan være afledt af en evolutionær fusion af en bakteriel SemiSWEET og en archaeon¹⁴.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. sekvens justering

Indsamle aminosyresekvenser af eukaryote søde og prokaryote SemiSWEET i separate dokumenter og liste dem i FASTA format. Download sekvenser fra National Center for bioteknologi oplysninger (NCBI), europæiske molekylærbiologiske laboratorium (EMBL) og DNA Data Bank of Japan (DDBJ) databaser af ligheden søgning med værktøjet grundlæggende lokale justering søgning værktøj (BLAST).
1. I eksempel filer, indsamle 228 formodede søde protein sekvenser besidder to MtN3/spyt domæner (7 transmembrane helices) af 57 halvsød protein sekvenser besidder en enkelt MtN3/spyt domæne (3 transmembrane helices) i prokaryoter og eukaryoter ¹³.
2. For at forenkle processen, skal du vælge 35 kandidat søde proteiner fra encellede Eukaryote organismer blandt de 228 formodede slik for Fylogenetisk træ konstruktion. Disse sekvenser er knyttet, så læseren kan øve på en reel datasæt.
Juster de 35 sød sekvenser ved at indtaste dem i Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
1. Kopiere og indsætte protein-sekvenser i FASTA format i indtastningsfeltet eller uploade en sekvens fil i FASTA format. Angiv, at de er aminosyresekvensen ved at klikke på ikonet under rullemenuen i afsnittet 'Trin 1'.
2. Angives outputformat og andre parametre i afsnittet 'Trin 2', hvis det er nødvendigt. For denne undersøgelse, indstille output-format som "clustal antal" og lade de andre parametre på standardindstillingerne. I de fleste tilfælde arbejder standardparametrene godt uden nogen specifikation.
Sende og køre justeringen i afsnittet 'Trin 3'. Det kan tage alt fra flere sekunder til minutter før justeringen er afsluttet. Højreklik på linket under "Justering i CLUSTAL format" i panelet "Resultat Resumé" og gemme de justerede sekvenser som "35.clustal" (figur 1).
Åbn filen justering resultatet i BioEdit.
1. På de vigtigste panel af BioEdit, klik på "Sekvens" og vælg "Rediger humør" i den første rullemenu, og klik derefter "Rediger rester" i undermenuen (figur 2).
2. Vælg de fremspringende sekvenser på venstre side af justeringen med markøren (den valgte sekvens vil blive vist i sort) og klik på ikonet "Slet" under menuen "Rediger" til at fjerne de valgte sekvenser (figur 3).
3. Vælge og slette de fremspringende sekvenser i højre side af domænet første MtN3/spyt, og gemme de klippede første MtN3/spyt domæne sekvenser som 35-I.fas (figur 4). Ligeledes, fjerne den venstre og højre side fremspringende sekvenser af domænet andet MtN3/spyt og gemme det som 35-II.fas. Først og de anden MtN3/spyt domæne sekvenser kan forudsiges med RYTME (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) eller TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) på forhånd.
Åbn filen 35-I.fas med MEGA, og klik på "Juster" når du bliver spurgt. Klik på "Vælg alle" under menuen "Rediger" og derefter klikke på "Vælg sekvens(er)"; navne og sekvenser af ordenerne vælges i sort (figur 5).
1. Vælg "Copy" i menuen "Redigere" kopiere sekvenser til udklipsholderen og derefter indsætte de kopierede sekvenser i en doc-fil.
2. Erstat alle "#" i doc-fil med ">", og derefter slette alle ikke-forretningsmæssigt forbundne tegn for at konvertere dem til FASTA format. Tilføj "-jeg" ved udgangen af hvert taxon navn at markere dem som de første MtN3/spyt domæne sekvenser. Behandle den anden MtN3/spyt domæne rækkefølge efter samme metode og tilføje "-II" efter hver taxon navn.
Kombiner de første og anden MtN3/spyt domæne sekvenser i FASTA format i en doc-fil.
1. Indlæse de kombinerede sekvenser i Clustal Omega igen og justere sekvenserne, som beskrevet ovenfor. Gemme resultatet som "35 realigned.clustal".
2. Åbn filen "35 realigned.clustal" i BioEdit, slette de ujævne (fremspringende) aminosyrerester i begge ender af de justerede sekvenser, og derefter gemme sekvenserne som "35 realigned.fas". Klik på "Ja" når advaret om, at nogle ikke-standard betalingsnumre tegn ikke kan gemmes.

2. beregning af den Fylogenetisk træ

Åbn "35 realigned.fas" i MEGA.
1. Klik på menuen "Data" og vælge "Eksporter justering", og Gem justeringen i PAUP format (nexus) som "35.nex" til senere brug i MrBayes (figur 6).
2. I mellemtiden, skal du klikke på ikonet "Modeller" på de vigtigste panel af MEGA, vælge "Find bedste DNA/Protein modeller (ML)", og klik på "OK" i pop op-vinduet. Klik på "Beregne" for at begynde den model søgning proces (figur 7). Der åbnes et nyt fremskridt panel; denne proces tager flere minutter til flere dage, afhængigt af kompleksiteten af de indlæste sekvenser og computerens ydeevne.
  Bemærk: En tabel, der viser resultaterne vil åbne efter model indgående oparbejde er færdig ( figur 8). Den mindste BIC score vil blive opført først, efterfulgt af en række forskellige modeller med gradvist stigende BIC scores. Den første model "LG + G + F" med den mindste BIC score er den anbefalede model for ML tree baseret på filen "35 realigned.fas".
Klik på ikonet "Fylogeni" på de vigtigste panel af MEGA, klik på "Construct/Test den maksimale sandsynligheden træ", og klik derefter på "Ja" i pop op-panelet. Et nyt vindue vil åbne viser forskellige parametre, der skal være angivet (figur 9).
1. Først, skal vÃ¦rdien bootstrap i test af boksen fylogeni; 500 eller 1.000 er tilstrækkelig i de fleste tilfælde. Under substitution model, skal du vælge "aminosyre" som substitution. Formålet med at vælge en substitution model er at beregne den sande forskellen mellem sekvenser baseret på deres nuværende stater³.
2. Vælg "LG med Freqs. (+F) model "(LG + F) i boksen model/metode. I feltet priser og mønster, skal du vælge "Gamma distribueret" (G) til at beskrive sats variationer på tværs af websteder, dvs., at give mere vægt til ændringer på langsomt udviklende websteder³. Vælg i boksen undersæt "Fuldføre sletning" at fjerne alle de kolonner, der indeholder bindestreger.
3. Holde alle andre parametre i deres standardtilstande (figur 9). Efter specifikation af disse parametre, skal du klikke på "Beregn" ikonet for at starte beregningen.

3. præsentation af Fylogenetisk træ

Bemærk: En Fylogenetisk ML træ vil blive præsenteret, når beregningen bruger MEGA er færdig (figur 10).

Vælg "Gem aktuelle Session" gemme resultatet under den pull-down menu af "Fil" ikonet på panelet træ, (.mas er standardfiltypen). I den nuværende undersøgelse, blev resultatet gemt som "35.mas". På panelet træ mange parametre, herunder længden af clade, træ stil, træ topologi, skrifttype af systematisk navn, størrelse og farve, der vises og kan indstilles til forskellige muligheder.
Gem filen endelige træ ved at klikke på billedikonet og gemme tallet i forskellige formater eller kopiere billedet som kilde til fotoredigering.

4. analyse af forholdet mellem slik og SemiSWEETs ved hjælp af sekvens justering

Bemærk: Dette trin kan ikke være nødvendig i almindelige Sekvensanalyse.

Juster 228 eukaryote slik og 57 prokaryote SemiSWEETs Clustal Omega som beskrevet ovenfor. Justering resultater kan være vist i Jalview, som er integreret i Clustal Omega, og kopierede hen til opspare i en Fotoeditor (Figur 11).
Bemærk: I eksempel justeringen, nogle SemiSWEETs fra α-proteobakterier er justeret med den første MtN3/spyt domæne af de søde sekvenser, der henviser til, at SemiSWEETs fra Methanobacteria (archaea) er på linje med den anden MtN3/spyt domæne af de søde sekvenser.

5. Fylogenetisk træ konstruktion med MrBayes

Bayesian slutninger med MrBayes, åbne MrBayes eksekverbar fil og en DOS interface kommer op i et nyt vindue. Det første skridt er at læse nexus data ﬁl. Input "udføre 35.nex" efter lynhurtig (Husk at gemme 35. nex fil i den samme mappe på den eksekverbare fil, MrBayes, eller påpege stien til fil før du uploader det). En "vellykket Læs matrix" besked bliver vist efter sidst af de børsnoterede taxa (figur 12). 35. nex fil er allerede forberedt og gemt i MEGA (Se 2.1 ovenfor).
Angiv den evolutionære model.
1. Efter lynhurtig, skrive "prset aamodelpr = fixed(lg); LSet priser = g ". "Lg" og "g" svarer til "LG" og "G" modellen, som er fastsat i MEGA. Efter med held at modellen, skal du skrive "mcmc nchains = 4 ngen = 5.000.000" efter lynhurtig. Brug af den "nchains = 4" post betyder et samlet antal en kold kæde og tre hot kæder til Metropol kobling. "ngen = 5.000.000" betyder at køre 5.000.000 generationer af Metropol kobling for konvergens i de kolde og varme kæder. I denne undersøgelse, blev gennemsnitlige standardafvigelse af split frekvenser under 0,01 betragtet som konvergens af varme og kolde kæder.
2. Bemærk, at ngen antallet ikke kan forudsiges nøjagtigt ved begyndelsen af processen, og normalt skal justeres baseret på ændringen i den gennemsnitlige standardafvigelse af split frekvenser. Derudover ngen tallet for konvergens kan være forskelligt hver gang, når kører programmet baseret på de samme data.
Køre analysen: Dette trin varer fra flere minutter til flere dage, afhængigt af kompleksiteten af input-data og udførelsen af computeren. Efter færdiggører den forudindstillede beregning, beder en prompt "Fortsat med analyse (ja/nej)?" Hvis "nogen" er skrevet efter lynhurtig, vil i computing vil stoppe (Figur 13), ellers det fortsætte med at beregne efter antallet af yderligere generationer er input. Når beregningen er færdig (med en gennemsnitlig standardafvigelsen af split frekvenser < 0,01 eller 0,05), stop beregning ved at skrive "nej" efter undersøgelse lynhurtig.
Bemærk: 0,01 er en strenge kriterium, 0,05 er moderat og normalt tilstrækkelig.
Opsummere prøverne: Skriv "bundkar" efter den lynhurtig til at opsummere prøver af model parametre (Figur 14). Skriv derefter "Jeanets relburnin = ja burninfrac = 0,25" efter bliver bedt om at opsummere træ prøver. Detaljerede oplysninger om fylogenetiske træ konstruktion vil blive vist i Figur 15, efterfulgt af to træ tal, der vises i ASC II kode på skærmen, der viser clade troværdighed og andre viser gren længder. På samme tid, vil en træ fil med navnet "35.nex.con" blive gemt automatisk.
For en bedre præsentation af Fylogenetisk træ, Åbn filen "35.nex.con" træ med værktøjet figentræ (http://tree.bio.ed.ac.uk/software/figtree/), Vælg en stil eller størrelse til at vise resultat (Figur 16), eller endda redigere det i et Fotoeditor til at gøre det mere læservenlige.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Evolutionstræer viser, at alle de første MtN3/spyt domæner af de 35 sød sekvenser grupperet som én clade og de anden MtN3/spyt domæner af de søde sekvenser grupperet som en anden clade. Derudover viser justering resultaterne af slik og SemiSWEETs, at nogle SemiSWEETs fra α-proteobakterier justeret med den første MtN3/spyt domæne af de søde sekvenser, der henviser til, at SemiSWEETs fra Methanobacteria (archaea) på linje med den anden MtN3/spyt domænet for de søde sekvenser. Disse resultater tyder sammen, at de to MtN3/spyt domæner der indeholder slik kan være afledt af en evolutionær fusion af en bakteriel SemiSWEET og en archaeon¹⁴.

Figur 1 : Gemme de justerede sekvenser af 35 formodede eukaryote slik som "35.clustal" via Clustal Omega. Venligst klik her for at se en større version af dette tal.

Figur 2 : Vælg sti i BioEdit at trimme de justeret sekvenser af "35.clustal", som blev udarbejdet i Clustal Omega. Venligst klik her for at se en større version af dette tal.

Figur 3 : Marker og slet de ujævne sekvenser på venstre side af de første MtN3/spyt domæne sekvenser af de 35 formodede eukaryote slik i BioEdit. Venligst klik her for at se en større version af dette tal.

Figur 4 : De klippede sekvenser af den første MtN3/spyt domæne af de 35 formodede eukaryote slik i BioEdit. Venligst klik her for at se en større version af dette tal.

Figur 5 : Markere og kopiere de første MtN3/spyt domæne sekvenser af 35 formodede eukaryote slik i MEGA. De kopierede sekvenser vil blive indsat i en doc-fil til redigering. Venligst klik her for at se en større version af dette tal.

Figur 6 : Konvertere "35 realigned.fas" til "35.nex" (PAUP format) for Bayesiansk inferens på et senere tidspunkt. Venligst klik her for at se en større version af dette tal.

Figur 7 : Søg efter Best-fit substitution model af MEGA for maksimal sandsynligheden (ML) Fylogenetisk træ konstruktion baseret på "35 realigned.fas" fil. Venligst klik her for at se en større version af dette tal.

Figur 8 : En tabel over Best-fit substitution model beregnet for ML tree baseret på "35 realigned.fas" fil. Venligst klik her for at se en større version af dette tal.

Figur 9 : Angive parametrene for ML træ beregning baseret på Best-fit substitution model for "35 realigned.fas" i MEGA. Venligst klik her for at se en større version af dette tal.

Figur 10 : En original ML træ bygget af MEGA baseret på "35 realigned.fas". På dette stadium, mange muligheder for figur stil, størrelse, farve, osv., er tilgængelige. Venligst klik her for at se en større version af dette tal.

Figur 11 : Justering af 228 eukaryote slik og 57 prokaryote SemiSWEETs af Clustal Omega. Resultaterne blev vist i Jalview, integreret i Clustal Omega. I justeringen, blev nogle SemiSWEETs fra α-proteobakterier justeret med den første MtN3/spyt domæne af de søde sekvenser, der henviser til, at SemiSWEETs fra Methanobacteria (archaea) var afstemt med den anden MtN3/spyt domæne af de søde sekvenser. Venligst klik her for at se en større version af dette tal.

Figur 12 : Indlæse filen "35.nex" i MrBayes i vinduet DOS. For at vise de samlede resultater, blev indhold, der var lignende slettet for at reducere figur længde. Venligst klik her for at se en større version af dette tal.

Figur 13 : Oplysninger, der vises på skærmen efter beregning af "35.nex" filen ved hjælp af MrBayes. For at vise de samlede resultater, blev indhold, der var lignende slettet for at reducere figur længde. Venligst klik her for at se en større version af dette tal.

Figur 14 : Opsummeret prøver af model parametre for "35.nex" fil. Venligst klik her for at se en større version af dette tal. Venligst klik her for at se en større version af dette tal.

Figur 15 : Opsummeret træ prøver af "35.nex" fil. For at vise de samlede resultater, blev indhold, der var lignende slettet for at reducere figur længde. Venligst klik her for at se en større version af dette tal.

Figur 16 : "35.nex.con" vises ved figentræ Fylogenetisk træ. Venligst klik her for at se en større version af dette tal.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Det bliver stadig mere populære i biologiske forskning at gøre et Fylogenetisk træ baseret på nukleotidsekvens eller amino acid sekvenser⁸. Generelt er der tre kritiske faser af den praksis, herunder sekvensen justering, evaluering af de justerede sekvenser med den rette metode eller algoritme, og visualisering af det beregningsmæssige resultatet som en Fylogenetisk træ. I undersøgelsen der præsenteres, tre runder af sekvens justering blev gennemført: først, søde protein-sekvenser, herunder domænet første og anden MtN3/spyt blev justeret; andet, hver af de enkelte MtN3/spyt domæne sekvenser af slik som en uafhængig taxon blev indsamlet og tilpasset sammen; og endelig, halvsød sekvenser og søde sekvenser blev i fællesskab justeret. Kun én runde af sekvens justering er normalt nødvendige for phylogenic træ konstruktion.

I den indledende fase, kan homologe sekvenser downloades fra NCBI eller andre databaser. Disse downloadede sekvenser skal screenes, hvis de ikke er godt kommenteret. I den første og anden fase, tilpasning og beregning kan ikke startes, hvis formatet sekvens er forkert. For eksempel vil Clustal Omega afviser enhver afvigelse fra FASTA format i filen sekvens. I den beregningsmæssige fase, Bemærk at sekvens længder herunder både aminosyrer eller nukleotider og bindestreger skal være lige før at blive evalueret af MEGA.

Trods rigdommen af metoder og modeller for træ konstruktion, der er tilgængelige, er ingen af dem idiotsikker. Robust og overbevisende resultater er dem, der er i overensstemmelse med hinanden når forskellige algoritmer eller modeller bruges til at evaluere de samme data¹⁵. I metoden ML afhænger pålideligheden af træ topologi i høj grad af bootstrap værdien af hver clade; en bootstrap værdi på 70 eller derover er generelt betragtes som pålidelige. I nuværende undersøgelse, alle af de første MtN3/spyt domæne sekvenser grupperet som en stor clade med en bootstrap værdi af 83. Værdien af de andre clade, som indeholder alle de anden MtN3/spyt domæne sekvenser, men var kun 6 (figur 10). Du kan kontrollere træ-arkitektur, blev MrBayes, som beskæftiger en helt anden metode¹⁶ end ML, brugt til at analysere forholdet mellem taxa. Posterior sandsynligheder¹⁶ i første og andet domæne klader fremstillet af MrBayes blev 100 og 68, henholdsvis (Figur 16).

En anden begrænsning af ML og MrBayes beregning er både tidskrævende at køre. Ved hjælp af en computer med multi core-processorer og grafiske forarbejdningsenheder (GPU) er nyttigt at forbedre beregningsmæssige ydeevne og hastighed¹⁷^,¹⁸. En computer med en diskret grafikkort og de relevante CUDA drivere kan væsentligt fremskynde sandsynligheden beregninger¹¹for drift af MrBayes.

At vælge den rigtige model for Fylogenetisk træ beregning er svært for dem med lidt erfaring. I denne henseende giver MEGA en nem måde at finde den bedste model ved at sammenligne BIC snesevis af kandidat modeller. Desuden, integrerer den nyligt opgraderede MEGA 6.0 flere sekvens-justering værktøjer som muskel og Clustal W¹⁰, som er meget nem at bruge. Det giver også både en sekvens redigering og Fylogenetisk træ konstruktion funktion. Disse funktioner forklare dels, hvorfor denne software er så populære i feltet beregningsmæssige molekylær evolution. MrBayes, en væsentlig fordel ved dette værktøj er at det kan behandle blandede datatyper sammen (fx., morfologiske og molekylære data)¹¹, og dermed resultaterne er mere omfattende.

Til sidst, giver den nuværende undersøgelse en metode til at analysere den molekylære oprindelsen af protein-kodning gener, der har undergået kompleks variation som fusion efter kopiering eller horisontal genoverførsel (HGT) under udvikling. Forhåbentlig vil blive afsløret flere resultater med bred anvendelse af Fylogenetisk analyse i den evolutionære forskningsfelt.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ikke noget at oplyse.

Acknowledgments

Dette arbejde blev støttet af National Natural Science Foundation of China (31371596), Bio-teknologi Research Center, Kina Tre Slugters Universitet (2016KBC04) og Natural Science Foundation i Jiangsu-provinsen, Kina (BK20151424).

Materials

Name	Company	Catalog Number	Comments
Adobe Illustration			a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit			a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega			a package for making multiple sequence alignments of amino acid or nucleotide sequences. http://www.clustal.org/
CorelDRAW			a graphic design software. Copyright © 2017 Corel Corporation
FigTree			a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA			MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes			an Bayesian phylogenetic inference tool
NVIDIA			a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP			Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop			a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM			a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM			a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter			4 GB memory, Core 2 or above CPU. Windows 7, Windows 10