Bruke fylogenetisk analyse å undersøke eukaryote Gene opprinnelse

* These authors contributed equally
Immunology and Infection

Your institution must subscribe to JoVE's Immunology and Infection section to access this content.

Fill out the form below to receive a free trial or learn more about access:

 

Summary

En metode for å bygge et stamtre basert på sekvens homologi søtsaker fra eukaryoter og SemiSWEETs fra prokaryoter er beskrevet. Fylogenetiske analyser er et nyttig verktøy for å forklare den evolusjonære relatedness mellom homologe proteiner eller gener fra forskjellige organisme grupper.

Cite this Article

Copy Citation | Download Citations | Reprints and Permissions

Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L. Q., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Fylogenetiske analyser bruker nukleotid eller amino acid sekvenser eller andre parametere, for eksempel domene sekvenser og tredimensjonal struktur, for å konstruere et tre for å vise evolusjonære forholdet mellom forskjellige taxa (klassifisering enheter) på den molekylære nivå. Fylogenetiske analyser kan også brukes til å undersøke domene relasjoner innenfor en enkelt gruppe (biologi), spesielt for organismer som har gjennomgått betydelige endre i morfologi og fysiologi, men som forskere mangler fossil bevis skyldes den organismer lang evolusjonær historie eller mangel på fossilization.

En detaljert protokoll er beskrevet i denne teksten, for å bruke metoden Fylogenetiske, inkludert aminosyre sekvens justering Clustal Omega og påfølgende stamtre konstruksjon med både Maksimal sannsynlighet (ML) av molekylære evolusjonær genetikk Analyse (MEGA) og Bayesisk slutning via MrBayes. For å undersøke opprinnelsen til eukaryote Sukker vil etterhvert bli eksportert transportører (søt) gener, ble 228 søtsaker inkludert 35 søt proteiner fra encellede eukaryoter og 57 SemiSWEET proteiner fra prokaryoter analysert. Interessant, SemiSWEETs ble funnet i prokaryoter, men søtsaker ble funnet i eukaryoter. To Fylogenetiske trær konstruert med teoretisk forskjellige metoder har konsekvent antydet at første eukaryote søt genet kan stamme fra fusjon av en bakteriell SemiSWEET gene og en archaeal SemiSWEET genet. Det er verdt å merke seg at man bør være forsiktige å trekke en konklusjon basert på fylogenetisk analyse, selv om det er nyttig å forklare underliggende forholdet mellom forskjellige taxa, som er vanskelig eller umulig å skjelne gjennom eksperimentell .

Introduction

DNA eller RNA sekvenser bære genetisk informasjon for underliggende fenotyper som kan analyseres gjennom fysiologiske og biokjemiske metoder eller observert gjennom morfologiske og fossile bevis. I en forstand er genetisk informasjon mer pålitelig enn vurdere eksterne fenotyper fordi den førstnevnte er grunnlaget for sistnevnte. I evolusjonære studie er fossil bevis meget direkte og overbevisende. Men har mange organismer, som mikroorganismer, liten sjanse til å danne en fossil under lange geologiske aldre. Derfor molekylære informasjonen som nukleotid sekvenser og amino acid sekvenser fra relaterte bevarte organismer er av verdi for å utforske evolusjonære relasjonene1. Studien, ble en enkel innføring av grunnleggende Fylogenetiske kunnskap og en lett å lære-protokollen levert for nykommere som må lage en stamtre på egenhånd.

Både DNA (nukleotid) og protein (aminosyre) sekvenser kan brukes å antyde phylogenetic relasjoner mellom homologe gener, organeller eller organismer2. DNA-sekvenser er mer sannsynlig å bli påvirket av endringer i løpet av utviklingen. Derimot er amino acid sekvenser mye mer stabile gitt at synonymt mutasjoner i nukleotid sekvenser ikke forårsaker mutasjoner i amino acid sekvenser. Derfor er DNA-sekvenser nyttige for sammenligning av homologe gener fra nært beslektede organismer, mens amino acid sekvenser er passer for homologe gener fra fjernt beslektede organismer3.

En fylogenetisk analyse begynner med justeringen av aminosyre eller nukleotid sekvenser4 Hentet fra en annotert genomet sekvensering databasen5 i FASTA format, dvs, antatte eller uttrykt protein sekvenser, RNA sekvenser , eller DNA-sekvenser. Det er verdt å merke seg at det er viktig å samle høykvalitets sekvenser for analyse, og bare homologe sekvenser kan brukes til å analysere phylogenetic relasjoner. Mange forskjellige plattformer som Clustal W, Clustal X, muskel, T-kaffe, MAFFT, kan brukes for sekvensen justering. De mest brukte er Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), hvilke kan brukes online eller kan lastes ned gratis av avgift. Justering verktøyet har mange parametere som brukeren kan justere før du begynner justeringen, men standardparametere fungere godt i de fleste tilfeller. Når prosessen er fullført, skal den justerte sekvenser lagres riktig format for neste trinn. De skal deretter redigeres eller beskåret benytter en redigering programvare, som BioEdit, fordi stamtre bygging av MEGA krever sekvensene som skal være like lange (inkludert både aminosyre forkortelser og bindestreker. Justert sekvensen, enhver posisjon uten aminosyre eller nukleotid er representert med bindestrek "-"). Vanligvis bør alle utstående aminosyrer eller nukleotider i hver ende av justeringen fjernes. Kolonner som inneholder dårlig tilpasset sekvenser i justeringen kan i tillegg slettes fordi de formidle lite verdifull informasjon, og kan noen ganger gi forvirrende eller usann informasjon3. Kolonnene som inneholder én eller flere bindestreker kan slettes nå eller senere treet bygging scenen. Alternativt kan de brukes til phylogenetic beregning. Når sekvensen justering og trimming er ferdig, skal justert sekvenser lagres i FASTA format, eller det ønskede filformatet, for senere bruk.

Mange programvareplattformer gir treet bygging funksjoner ved hjelp av forskjellige metoder eller algoritmer. Generelt, kan metodene klassifiseres som enten avstand matrix metoder eller av data metoder. Avstand matrix metoder er enkelt og raskt å beregne, mens av data metoder er komplisert og tidkrevende. For svært nært beslektede taxa med en høy grad av deling av aminosyre eller nukleotid sekvens identitet, en avstand matrix metode (nabo begynte: NJ; Unweighted par gruppe metoden med aritmetiske gjennomsnittet: UPGMA) er aktuelle; for fjernt beslektede taxa, en diskret datametode (Maksimal sannsynlighet: ML; Maksimal Parsimony: MP; Bayesisk slutning) er optimale3,8. I denne studien ble ML metodene i MEGA (6.0.6) og Bayesisk inferens (MrBayes 3,2) brukt til å konstruere Fylogenetiske trær9. Ideelt når riktig modellen og parametere brukes, resultatene fra forskjellige metoder kan være konsekvent, og de er dermed mer pålitelig og overbevisende.

For en ML stamtre bygget ved hjelp av MEGA10, må filen justert sekvens i FASTA format lastes inn i programmet. Det første trinnet er å velge den optimale substitusjon modellen for opplastede. Alle tilgjengelige substitusjon modeller sammenlignes basert på den opplastede sekvenser, og deres sluttresultater vises i en resultater-tabell. Velg modellen med minste Bayesisk informasjon kriterium (BIC) score (oppført først i tabellen), angi ML parametere ifølge anbefalte modellen og starte beregningen. Beregning tid varierer fra flere minutter til flere dager, avhengig av kompleksiteten i lastet dataene (lengde sekvenser og antall taxa) og ytelsen til datamaskinen som programmene kjøres. Når beregningen er ferdig, vises en stamtre i et nytt vindu. Lagre filen som "FileName.mat". Når parametere for å angi utseendet på treet, lagre igjen. Bruker denne metoden, kan MEGA generere publikasjonen klasse stamtre tall.

For tre konstruksjon med MrBayes11er det første trinnet å transformere justert rekkefølgen, som vanligvis vises i FASTA format, i nexus format (.nex filtype). Overføre FASTA filer til nexus format kan behandles i MEGA. Deretter kan justert rekkefølgen nexus format lastes inn i MrBayes. Når filen er lastet, kan du angi detaljerte parametere i treet beregningen. Disse parameterne Inkluder detaljer som aminosyre Substitusjonsmodell, variant priser, kjeden tall for Markov kjeden Monte Carlo (MCMC) kopling, ngen nummer, gjennomsnittlig standardavvik delt frekvenser, og så videre. Når disse parameterne er angitt, start beregningen. Slutt vises to tre tall i ASC II koden, som viser nyeste troverdighet og de andre viser grenen lengdene, på skjermen.

Tre resultatet lagres automatisk som "FileName.nex.con". Tre filen kan åpnes og redigeres av FigTree, og figuren vises i FigTree kan endres videre for å gjøre det mer egnet for publikasjonen.

I denne studien ble 228 søt proteiner, inkludert 35 godteri fra encellede eukaryoter og 57 SemiSWEETs fra prokaryoter, analysert som et eksempel. Både søtsaker og SemiSWEETs ble karakterisert som glukose og fruktose, sukrose transportører over membraner12,13. Fylogenetiske analyser antyder at de to MtN3/spytt domenene som inneholder søtsaker kan utledes fra en evolusjonær fusjon av en bakteriell SemiSWEET og en archaeon14.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. sekvens justering

  1. Samle amino acid sekvenser av SØTE eukaryote og prokaryote SemiSWEET i separate dokumenter og vise dem i FASTA format. Dataoverføre sekvenser fra National Center for bioteknologi informasjon (NCBI), European Molecular Biology Laboratory (EMBL) og DNA Data Bank of Japan (DDBJ) databaser av likhet med grunnleggende lokale justering Søk verktøyet (BLAST) verktøyet.
    1. Eksempel filer, samle 228 antatte søt protein sekvenser har to MtN3/spytt domener (7 transmembrane helikser) eukaryoter og 57 SemiSWEET protein sekvenser besitter et enkelt MtN3/spytt domene (3 transmembrane helikser) av prokaryoter 13.
    2. For å forenkle prosessen, Velg 35 kandidat søt proteiner fra encellede eukaryote organismer blant 228 antatte søtsaker stamtre bygging. Disse sekvensene er koblet slik at leseren kan øve på et ekte datasett.
  2. Justere 35 søt sekvenser ved å legge dem inn i Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
    1. Kopier og lim inn protein sekvenser i FASTA format i input-boksen eller laster opp en bildesekvensfil i FASTA format. Angi at de er aminosyresekvens ved å klikke ikonet under rullegardinmenyen i delen "Trinn 1".
    2. Angi utdataformat og andre parametere i delen 'Trinn 2' eventuelt. Angi utdataformatet som "clustal uten tall" denne studien, og la de andre parameterne på standardinnstillingene. I de fleste tilfeller fungerer standardparametere bra uten noen spesifikasjon.
  3. Sende og kjøre justeringen i delen 'Trinn 3'. Det kan ta alt fra noen sekunder til minutter før justeringen er ferdig. I "Sammendraget"-panelet høyreklikker koblingen under "Justering i CLUSTAL-format" og lagre den justerte sekvenser som "35.clustal" (figur 1).
  4. Åpne resultatfilen justering i BioEdit.
    1. På hovedpanelet i BioEdit, "Sequence" og velge "Rediger Mood" i den første rullegardinmenyen, klikk "Rediger rester" i undermenyen (figur 2).
    2. Velg den utstikkende sekvenser på venstre side av justeringen med markøren (valgt forløp vil bli vist i svart) og klikk på "Slett"-ikonet under menyen "Rediger" å fjerne den valgte sekvenser (Figur 3).
    3. Velg Slett den utstikkende sekvenser på høyre side av første MtN3/spytt domenet og lagre trimmet første MtN3/spytt domene sekvensene som 35-I.fas (Figur 4). Likeledes, slette venstre og høyre stikker sekvenser av andre MtN3/spytt domenet og lagre den som 35-II.fas. Først og den andre MtN3/spytt domene sekvenser kan forutsies med RYTME (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) eller TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) på forhånd.
  5. Åpne filen 35-I.fas med MEGA, og klikk "justere" når du blir spurt. På "Rediger"-menyen, klikk "Select All" og deretter "Velg Sequence(s)"; navn og sekvenser av taxa velges i svart (figur 5).
    1. Velg "Kopier" menyen "Rediger" kopiere sekvenser til utklippstavlen, og deretter lime inn den kopierte sekvenser i en doc-fil.
    2. I filen doc, erstatte alle "#" med ">", og deretter slette urelaterte tegn for å konvertere dem til FASTA format. Legg til "-jeg" på slutten av hver gruppe (biologi) merke dem som den første MtN3/spytt domene sekvenser. Behandle andre MtN3/spytt domene sekvensen etter samme metode og legge til "-II" etter hver gruppe (biologi)-navnet.
  6. Kombinere første og andre MtN3/spytt domene sekvenser i FASTA format i en doc-fil.
    1. Legg de kombinerte sekvensene i Clustal Omega igjen og Juster sekvensene som beskrevet ovenfor. Lagre resultatet som "35 realigned.clustal".
    2. Åpne filen "35 realigned.clustal" i BioEdit, slette ujevn (stikker) aminosyre rester i hver ende av den justerte sekvenser og lagre sekvensene som "35 realigned.fas". Klikk "Ja" når advart at enkelte ikke-standard tegn ikke kan lagres.

2. beregning av stamtre

  1. Åpne "35 realigned.fas" i MEGA.
    1. Klikk "Data"-menyen og velge "Eksporter justering", og lagre justeringen i PAUP-format (nexus) som "35.nex" for senere bruk i MrBayes (figur 6).
    2. I mellomtiden klikker ikonet "Modeller" på hovedpanelet på MEGA, velg "finne beste DNA/Protein modeller (ML)" og klikk "OK" i popup-vindu. Klikk "Beregne" for å begynne modellen søkeprosessen (figur 7). En ny fremgang panel åpnes. Denne prosessen varer flere minutter til flere dager, avhengig av kompleksiteten av lastet sekvenser og datamaskinens ytelse.
      Merk: En tabell som viser resultatene åpnes etter modell søkeprosessen er ferdig ( Figur 8). Minste BIC score vil vises først, etterfulgt av en rekke ulike modeller med gradvis økende BIC score. Den første modellen "LG + G + F" med minste BIC score er den anbefalte modellen ML treet basert på "35 realigned.fas"-filen.
  2. Klikk ikonet "Fylogeni" på hovedpanelet på MEGA, klikk "Konstruere/Test the Maksimal sannsynlighet Tree" og klikk "Ja" på hurtigpanelet. Et nytt vindu vil åpnes og vise ulike parametere som må være angitt (figur 9).
    1. Først angir du bootstrap verdien i testen av boksen fylogeni. 500 eller 1000 er tilstrekkelig i de fleste tilfeller. Under Substitusjonsmodell, velger du "amino acid" som substitusjon. Formålet med å velge en Substitusjonsmodell er å beregne sanne forskjellen mellom sekvenser basert på deres nåværende stater3.
    2. Velg "LG med Freqs. (+F) modell "(LG + F) i boksen modell/metode. I priser og mønster-boksen, velg "Gamma distribuert" (G) å beskrive rate variasjoner på tvers av områder, dvs., gi mer vekt til endringer i sakte utvikling nettsteder3. I boksen delsett, velg "Fullstendig sletting" å fjerne alle kolonnene som inneholder bindestreker.
    3. Holde alle andre parametere i standardtilstanden (figur 9). Etter angivelse av disse parameterne, klikk på "Beregn" ikonet for å starte beregningen.

3. presentasjon av stamtre

Merk: En ML stamtre vises når beregningen bruker MEGA er ferdig (Figur 10).

  1. Under rullegardinmenyen for ikonet "Fil" i tre-panelet velger du "Lagre gjeldende Session" lagre resultatet (.mas er standard filtype). Studien, ble resultatet lagret som "35.mas". På tre panel, mange parametere inkludert lengden på nyeste, tree stil, tree topologien, skriften av gruppe (biologi) navn, størrelse og farge vises, og du kan angi ulike alternativer.
  2. Lagre filen siste treet ved å klikke på bildeikonet, og lagre figuren i ulike formater eller kopiere bildet som kilde for bilderedigering.

4. analyse av forholdet mellom søtsaker og SemiSWEETs bruker sekvens justering

Merk: Dette trinnet kan ikke være nødvendig i vanlige sekvensen analyse.

  1. Juster 228 eukaryote søtsaker og 57 prokaryote SemiSWEETs i Clustal Omega som beskrevet ovenfor. Justering resultatene kan vises i Jalview, som er integrert i Clustal Omega, og kopierte for å lagre i et bilderedigeringsprogram (Figur 11).
    Merk: Ved eksempel justering, noen SemiSWEETs fra α-Proteobacteria er på linje med første MtN3/spytt domenet søt sekvenser, mens SemiSWEETs fra Methanobacteria (archaea) er på linje med andre MtN3/spytt domenet til den SØTE sekvenser.

5. stamtre konstruksjon med MrBayes

  1. For Bayesisk slutninger med MrBayes, åpne filen MrBayes kjørbar og en DOS-grensesnittet vil komme opp i et nytt vindu. Det første trinnet er å lese nexus data file. Input "kjøre 35.nex" etter ledeteksten (Husk å lagre 35. nex filen i samme mappe på den kjørbare filen MrBayes, eller peke ut veien til filen før du laster det). En "vellykket Les matrix"-melding vises etter sist av de oppførte taxa (Figur 12). 35. nex filen allerede er forberedt og lagret i MEGA (se 2.1 ovenfor).
  2. Angi evolusjonære modellen.
    1. Etter ledeteksten skriver du inn "prset aamodelpr = fixed(lg); LSet priser = g ". "Lg" og "g" tilsvarer "LG" og "G" modellen som er angitt i MEGA. Når du lykkes modellen, skriver du inn "mcmc nchains = 4 ngen = 5,000,000" etter ledeteksten. Bruk av det "nchains = 4" oppføring betyr totalt en kalde kjeden og tre varme kjeder for Metropolis kopling. "ngen = 5,000,000" betyr å kjøre 5.000.000 generasjoner av Metropolis kopling for konvergens av kalde og varme kjedene. I denne studien ble gjennomsnittlig standardavvik delt frekvenser under 0.01 ansett som konvergens av varme og kalde kjedene.
    2. Merk som ngen nummeret ikke kan forutses nøyaktig i begynnelsen av prosessen, og vanligvis må justeres basert på endre i gjennomsnittlige standardavviket for delt frekvenser. I tillegg kan ngen nummeret for konvergens være forskjellig hver gang når du kjører programmet basert på de samme dataene.
  3. Kjøre analyse: Dette trinnet varer fra flere minutter til flere dager, avhengig av kompleksiteten av inndata og ytelsen til datamaskinen. Etter endt forhåndsinnstilte beregning, spør et spørsmål "Fortsette med analyse (ja/nei)?" Hvis "nei" er skrevet etter ledeteksten, vil den databehandling stopper (figur 13), ellers fortsette å beregne etter antall ytterligere generasjoner er input. Når beregningen er ferdig (med en gjennomsnittlig standardavvik delt frekvensbånd < 0,01 eller 0,05), stoppe beregning ved å skrive "nei" etter forespørsel ledeteksten.
    Merk: 0.01 er et strenge vilkår, 0,05 moderat og vanligvis tilstrekkelig.
  4. Oppsummere prøvene: Skriv inn "sump" etter ledeteksten summere prøver av modellen parametere (figur 14). Skriv "sumt relburnin = Ja burninfrac = 0,25" etter ledeteksten summere treet prøver. Detaljert informasjon om stamtre bygging vises i Figur 15, etterfulgt av to tre tall som vises i ASC II koden på skjermen, som viser nyeste troverdighet og andre viser grenen lengder. Samtidig, blir en tre-fil med navnet "35.nex.con" lagret automatisk.
  5. For en bedre presentasjon av stamtre, åpne filen "35.nex.con" treet med FigTree verktøyet (http://tree.bio.ed.ac.uk/software/figtree/), velger du en stil eller størrelse for å vise resultatet (Figur 16) eller selv redigere det i et bilderedigeringsprogram til å gjøre det flere bruker-vennlig.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fylogenetiske trær viser at alle første MtN3/spytt domenene av 35 søt sekvensene gruppert som en kladen og andre MtN3/spytt domener av søt sekvensene gruppert som en annen nyeste. Justering resultatene av søtsaker og SemiSWEETs viser i tillegg at noen SemiSWEETs fra α-Proteobacteria på linje med første MtN3/spytt domenet søt sekvenser, mens SemiSWEETs fra Methanobacteria (archaea) på linje med andre MtN3/spytt domenet til SØTE sekvenser. Disse resultatene tyder sammen at de to MtN3/spytt domenene som inneholder søtsaker kan utledes fra en evolusjonær fusjon av en bakteriell SemiSWEET og en archaeon14.

Figure 1
Figur 1 : Lagre den justerte sekvenser av 35 antatte eukaryote søtsaker som "35.clustal" via Clustal Omega. Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2 : Velg banen i BioEdit å trimme den justerte sekvenser av "35.clustal", som ble utarbeidet i Clustal Omega. Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3 : Velg og slett ujevn sekvenser på venstre side av den første MtN3/spytt domene sekvenser av 35 antatte eukaryote søtsaker i BioEdit. Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4 : Trimmet sekvenser av 35 antatte eukaryote søtsaker i BioEdit første MtN3/spytt domenet. Klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5 : Merke og kopiere den første MtN3/spytt domene sekvenser av 35 antatte eukaryote søtsaker i MEGA. Den kopierte sekvenser vil limes inn i en doc-fil for redigering. Klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6 : Konvertere "35 realigned.fas" i "35.nex" (PAUP-format) for Bayesisk slutning senere. Klikk her for å se en større versjon av dette tallet.

Figure 7
Figur 7 : Søk etter regresjonslinje Substitusjonsmodell av MEGA for maksimal sannsynlighet (ML) stamtre bygging basert på "35 realigned.fas"-filen. Klikk her for å se en større versjon av dette tallet.

Figure 8
Figur 8 : En tabell med tilpasset Substitusjonsmodell beregnet for ML treet basert på "35 realigned.fas"-filen. Klikk her for å se en større versjon av dette tallet.

Figure 9
Figur 9 : Angi parametere for ML treet beregning basert på tilpasset Substitusjonsmodell for "35 realigned.fas" i MEGA. Klikk her for å se en større versjon av dette tallet.

Figure 10
Figur 10 : En original ML treet konstruert av MEGA basert på "35 realigned.fas". På dette stadiet, mange alternativer for figur stil, størrelse, farge, osv., er tilgjengelige. Klikk her for å se en større versjon av dette tallet.

Figure 11
Figur 11 : Justering av 228 eukaryote søtsaker og 57 prokaryote SemiSWEETs av Clustal Omega. Resultatene ble vist i Jalview, integrert i Clustal Omega. Ved justering, var noen SemiSWEETs fra α-Proteobacteria på linje med første MtN3/spytt domenet søt sekvenser, mens SemiSWEETs fra Methanobacteria (archaea) ble justert med andre MtN3/spytt domenet til den SØTE sekvenser. Klikk her for å se en større versjon av dette tallet.

Figure 12
Figur 12 : Laste inn filen "35.nex" i MrBayes i vinduet DOS. For å vise de samlede resultatene, ble innhold som lignet slettet for å forkorte figur. Klikk her for å se en større versjon av dette tallet.

Figure 13
Figur 13 : Informasjon som vises på skjermen etter beregning av "35.nex" filen bruker MrBayes. Slik viser de samlede resultatene, ble innhold som lignet slettet for å forkorte figur. Klikk her for å se en større versjon av dette tallet.

Figure 14
Figur 14 : Oppsummert prøver av modellen parametere for "35.nex"-filen. Klikk her for å se en større versjon av dette tallet. Klikk her for å se en større versjon av dette tallet.

Figure 15
Figur 15 : Oppsummert tre eksempler på "35.nex" filen. Slik viser de samlede resultatene, ble innhold som lignet slettet for å forkorte figur. Klikk her for å se en større versjon av dette tallet.

Figure 16
Figur 16 : Stamtre av "35.nex.con" vises ved FigTree. Klikk her for å se en større versjon av dette tallet.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Det blir stadig mer populært i biologisk forskning å lage en stamtre basert på nukleotid eller amino acid sekvenser8. Vanligvis er det tre kritiske stadier av praksis inkludert sekvens justering, evaluering av justert sekvenser med riktig metode eller algoritme og visualisering av beregningsorientert resultatet som et stamtre. I presentert studien, tre runder med sekvensen justeringen ble utført: først søt protein sekvenser, inkludert første og andre MtN3/spytt domenet, ble justert; andre, hver av de individuelle MtN3/spytt domene sekvensene av søtsaker som en uavhengig gruppe (biologi) var samlet og justert sammen; og til slutt SemiSWEET sekvenser og søt sekvenser ble fellesskap justert. Bare en runde med sekvensen justering er vanligvis nødvendig for phylogenic treet bygging.

I det foreløpige stadiet kan homologe sekvenser lastes ned fra NCBI eller andre databaser. Disse nedlastede sekvensene må bli vist hvis de ikke er godt kommentert. I første og andre scenen, kan ikke justering og beregning startes hvis sekvens formatet er feil. For eksempel vil Clustal Omega avvise alle avvik fra FASTA formatet filen sekvens. I beregningsorientert scenen, oppmerksom på at rekkefølgen lengder aminosyrer eller nukleotider og bindestreker inkludert må være like før evaluering av MEGA.

Til tross for vell av metoder og modeller for treet bygging som er tilgjengelige, er ingen av dem idiotsikker. Robust og overbevisende resultatene er de som stemmer overens med hverandre når forskjellige algoritmer eller modeller brukes til å evaluere de samme data15. Metoden ML avhenger pålitelighet tree topologien i stor grad av bootstrap verdien av hver kladen; bootstrap verdien 70 eller større er betraktet som pålitelig. I denne studien, alle første MtN3/spytt domene sekvensene gruppert som en stor kladen med bootstrap verdien 83. Verdien av den andre nyeste som inneholder alle de andre MtN3/spytt domene sekvensene, men var bare 6 (Figur 10). For å bekrefte arkitekturen treet, ble MrBayes, som sysselsetter en helt annen metode16 enn ML, brukt til å analysere forholdet mellom taxa. De bakre sannsynligheter16 av de første og andre klader fra MrBayes var 100 og 68, henholdsvis (Figur 16).

En annen begrensning i ML og MrBayes beregning er at begge er tidkrevende å kjøre. Bruker en datamaskin med flerkjerneprosessorer og grafiske prosesseringsenheter (GPU) er nyttig å forbedre databehandlingsytelse og hastighet17,18. For driften av MrBayes, kan en datamaskin med en diskret grafikkort og CUDA driverne betydelig raskere sannsynligheten beregninger11.

Det er vanskelig for de med liten erfaring å velge riktig modell for stamtre beregning. I denne forbindelse gir MEGA en enkel måte å finne den beste modellen ved å sammenligne BIC scorene til kandidaten modeller. I tillegg integrerer til nylig oppgradert MEGA 6.0 flere sekvens justering verktøy som muskel og Clustal W10, som er svært praktisk å bruke. Det gir også både sekvens redigering og stamtre bygging funksjon. Disse funksjonene forklare delvis hvorfor denne programvaren er så populær i feltet beregningsorientert molekylær evolusjon. Som for MrBayes, en betydelig fordel av dette verktøyet er at det kan behandle blandede datatyper sammen (f.eks., morfologiske og molekylære data)11, og dermed resultatene er mer omfattende.

Avslutningsvis gir studien en metode for å analysere molekylær opprinnelsen av protein-koding gener som har gjennomgått komplekse variasjon som fusion etter duplisering eller vannrett genoverføring (HGT) under utviklingen. Forhåpentligvis vil flere funn bli avslørt med bred anvendelse av Fylogenetiske analyser i feltet evolusjonære forskning.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne ikke avsløre.

Acknowledgments

Dette arbeidet ble støttet av den nasjonale Natural Science Foundation i Kina (31371596), forskningssenteret Bio-teknologi, Kina tre Gorges University (2016KBC04) og naturvitenskap grunnvoll Jiangsu-provinsen, Kina (BK20151424).

Materials

Name Company Catalog Number Comments
Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4 GB memory, Core 2 or above CPU. Windows 7, Windows 10

DOWNLOAD MATERIALS LIST

References

  1. Nei, M., Kumar, S. Molecular Evolution and Phylogenetics. Oxford University Press. Oxford. (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics