Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Använda fylogenetisk analys för att undersöka eukaryota gen ursprung

Published: August 14, 2018 doi: 10.3791/56684
* These authors contributed equally

Summary

En metod för att konstruera ett fylogenetiskt träd baserat på sekvenshomologi sötsaker från Eukaryoter och SemiSWEETs från prokaryoter beskrivs. Fylogenetisk analys är ett användbart verktyg för att förklara den evolutionära släktskap mellan homologa proteiner eller gener från olika organismgrupper.

Abstract

Fylogenetisk analys använder nukleotid eller amino syra ordnar eller andra parametrar, såsom domän sekvenser och tredimensionella struktur, för att konstruera ett träd för att visa evolutionära förhållandet mellan olika taxa (klassificering enheter) på molekylära nivå. Fylogenetisk analys kan också användas att undersöka domän relationer inom en enskild taxon, bestämt för organismer som har genomgått betydande ändra i morfologi och fysiologi, men för vilka forskare saknar fossila bevis på grund av organismers långa evolutionära historia eller brist på fossiliseras.

I denna text beskrivs ett detaljerat protokoll för fylogenetiska metoden, inklusive aminosyra sekvens justering med hjälp av Clustal Omega och efterföljande fylogenetiska träd konstruktion använder båda högsta sannolikheten (ML) av molekylär Evolutionär genetik Analys (MEGA) och Bayesiansk inferens via MrBayes. För att undersöka ursprunget för eukaryota Sockerarter kommer så småningom vara exporteras transportörer (SWEET) gener, analyserades 228 godis inklusive 35 söta proteiner från encelliga eukaryoter och 57 SemiSWEET proteiner från prokaryoter. Intressant SemiSWEETs hittades i prokaryoter, men godis hittades i Eukaryoter. Två fylogenetiska träd byggda med teoretiskt skilda metoder har genomgående föreslagit att den första eukaryota söta genen kan stamceller från fusionen av en bakteriell SemiSWEET och genen en archaeal SemiSWEET. Det är värt att notera att man bör vara försiktig att dra en slutsats baserat endast på fylogenetisk analys, även om det är användbart att förklara det underliggande förhållandet mellan olika taxa, som är svårt eller omöjligt att urskilja genom experimentella metoder .

Introduction

DNA eller RNA sekvenser bär genetisk information för underliggande fenotyper som kan analyseras genom fysiologiska och biokemiska metoder eller observerat genom morfologiska och fossila bevis. I en mening är genetiska information mer tillförlitliga än utvärdera externa fenotyper eftersom den förstnämnda är grunden för den senare. I evolutionär studie är fossila bevis mycket direkt och övertygande. Många organismer, såsom mikroorganismer, har dock små möjligheter att bilda en fossil under långa geologiska åldrar. Molekylär information såsom nukleotidsekvenser och amino syra ordnar från relaterade bevarade organismer är därför av värde för att utforska evolutionära relationer1. I den aktuella studien, var en enkel introduktion av fylogenetiska baskunskaper och ett lätt att lära-protokollet föreskrivs nykomlingar som behöver konstruera ett fylogenetiskt träd på egen hand.

Både DNA (nukleotid) och (aminosyror) proteinsekvenser kan användas för att härleda släktskapsförhållanden mellan homologa gener, organeller, eller ens organismer2. DNA-sekvenser är mer benägna att påverkas av förändringar under evolutionen. Amino syra ordnar är däremot mycket mer stabil med tanke på att synonymt mutationer i nukleotidsekvenser inte orsakar mutationer i amino syra ordnar. Som ett resultat, är DNA-sekvenser användbara för jämförelse av homologa gener från närbesläktade organismer, medan amino syra ordnar är lämpliga för homologa gener från avlägset besläktade organismer3.

En fylogenetisk analys börjar med anpassningen av aminosyra eller nukleotid sekvenser4 Hämtad från en kommenterad genome sequencing databasen5 som anges i FASTA format, dvs, förmodad eller uttryckta protein sekvenser, RNA-sekvenser , eller DNA-sekvenser. Det är värt att notera att det är viktigt att samla högkvalitativa sekvenser för analys, och endast homologa sekvenser kan användas för att analysera släktskapsförhållanden. Många olika plattformar såsom Clustal W, Clustal X, muskel, T-coffee, MAFFT, kan användas för sekvens justering. De mest använda är Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), som kan användas online eller kan laddas ner gratis kostnadsfritt. Linjeringsverktyget har många parametrar som användaren kan justera innan justeringen, men standardparametrarna fungerar bra i de flesta fall. När processen är klar, ska de arrangera i rak linje sekvenserna sparas i rätt format för nästa steg. De ska sedan redigeras eller trimmas med hjälp av ett redigeringsprogram, till exempel BioEdit, eftersom fylogenetiska träd konstruktion av MEGA kräver sekvenserna vara lika långa (inklusive både aminosyra förkortningar och bindestreck. I den justerade sekvensen, någon position utan en aminosyra eller nukleotid representeras av ett bindestreck ”-”). Generellt bör alla utskjutande aminosyror och nukleotider i vardera änden av justeringen tas bort. Kolumner som innehåller dåligt justerad sekvenser i justeringen kan dessutom tas bort eftersom de förmedla lite värdefull information, och kan ibland ge förvirrande eller felaktig information3. De kolumner som innehåller en eller flera bindestreck kan tas bort vid denna tid eller i senare träd konstruktion scenen. Alternativt kan de användas för fylogenetiska uträkning. När sekvensen justering och trimning är klar ska de arrangera i rak linje sekvenserna sparas i FASTA format eller önskat format, för senare användning.

Många mjukvaruplattformar ge träd konstruktion funktioner med hjälp av olika metoder eller algoritmer. Metoderna kan i allmänhet klassificeras som antingen avstånd matrismetoder eller diskreta datametoder. Avstånd matrismetoder är enkel och snabb att beräkna, medan diskreta datametoder är komplicerade och tidskrävande. För mycket närbesläktade taxa med en hög grad av utbyte av aminosyra eller nucleotide sequence identitet, en avstånd matrix metod (granne att gå: NJ; Ovägda par grupp metod med aritmetiska medelvärdet: UPGMA) är lämpligt. för avlägset besläktade taxa, en diskret datametod (Maximum Likelihood: ML; Maximala snålhet: MP; Bayesiansk inferens) är optimal3,8. I denna studie användes ML metoderna i MEGA (6.0.6) och Bayesiansk inferens (MrBayes 3.2) för att konstruera fylogenetiska träd9. Helst när korrekt modell och parametrar används, resultaten härrör från olika metoder kan vara konsekvent och de är således mer tillförlitliga och övertygande.

För en ML fylogenetiska träd konstruerade med MEGA10, måste justerad sekvens filen i FASTA format laddas in i programmet. Det första steget är då att välja den optimala substitution modellen för överförda data. Alla tillgängliga substitution modeller jämförs utifrån de uppladdade sekvenserna och deras slutliga poäng kommer att visas i en resultat-tabell. Välj modellen med minsta Bayesian Information kriterium (BIC) poäng (anges först i tabellen), ange ML parametrar enligt rekommenderade modellen och starta uträkningen. Beräkningstiden varierar från några minuter till flera dagar, beroende på komplexiteten i den inlästa data (längd av sekvenser och antal taxa) och prestanda för datorn som programmen körs. När beräkningen är klar, visas ett fylogenetiskt träd i ett nytt fönster. Spara filen som ”FileName.mat”. Efter inställning parametrar för att ange utseendet på trädet, spara en gång till. Med den här metoden kan MEGA generera publikation grade fylogenetiskt träd siffror.

För träd konstruktion med MrBayes11är det första steget att omvandla sekvensen arrangera i rak linje, som vanligtvis anges i FASTA format, till nexus format (.nex som filtyp). Omvandla FASTA filer till nexus format kan bearbetas i MEGA. Nästa, justerad sekvensen i nexus-format kan laddas in MrBayes. När filen har överförts, ange detaljerade parametrar för träd uträkningen. Dessa parametrar innehålla till exempel aminosyra substitution modell, variant priser, kedja nummer för Markov chain Monte Carlo (MCMC) koppling, ngen nummer, genomsnittlig standardavvikelse av split frekvenser och så vidare. När dessa parametrar har angetts, starta uträkningen. Till slut visas två träd figurer i ASC II kod, en visar klad trovärdighet och de andra visar gren längderna, på skärmen.

Träd resultatet sparas automatiskt som ”FileName.nex.con”. Denna tree fil kan öppnas och redigeras av FigTree, och siffran visas i Nacka kan ändras ytterligare för att göra den mer lämplig för publicering.

I denna studie analyserades 228 söta proteiner, inklusive 35 godis från encelliga eukaryoter och 57 SemiSWEETs från prokaryoter, som ett exempel. Både godis och SemiSWEETs karakteriserades som glukos, fruktos och sackaros transportörer över membran12,13. Fylogenetisk analys tyder på att de två MtN3/saliv domäner som innehåller godis kan härledas från en evolutionär fusion av en bakteriell SemiSWEET och ett archaeon14.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. sequence Alignment

  1. Samla aminosyresekvenser eukaryota söta och prokaryota SemiSWEET i separata dokument och lista dem i FASTA format. Hämta sekvenser från National Center för Biotechnology Information (NCBI), Europeiska Molecular Biology Laboratory (EMBL) och DNA Data Bank of Japan (DDBJ) databaser genom likheten Sök med verktyget grundläggande lokala Alignment Search Tool (BLAST).
    1. I exempelfiler, samla 228 förmodad söta proteinsekvenser som har två MtN3/saliv domäner (7 transmembrana spiraler) av eukaryotes och 57 SemiSWEET proteinsekvenser som har en enda MtN3/saliv domän (3 transmembrana spiraler) av prokaryoter 13.
    2. För att förenkla processen, Välj 35 kandidat söta proteiner från encelliga eukaryota organismer bland 228 förmodad godis för fylogenetiska träd konstruktion. Dessa sekvenser är kopplade så att läsaren kan öva på en verklig datamängd.
  2. Justera de 35 söta sekvenserna genom att mata in dem i Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
    1. Kopiera och klistra in proteinsekvenser i FASTA format i inmatningsrutan eller ladda upp en sequence fil i FASTA format. Ange att de är aminosyrasekvens genom att klicka på ikonen under den nedrullningsbara menyn i avsnittet 'Steg 1'.
    2. Ange utdataformat och andra parametrar i avsnittet 'Steg 2' vid behov. För denna studie, ange utdataformat som ”clustal utan nummer”, och lämnar de andra parametrarna på standardinställningarna. I de flesta fall fungerar den förvalda parametrar bra utan någon specifikation.
  3. Lämna in och kör justeringen i avsnittet 'Steg 3'. Det kan ta allt från några sekunder till minuter tills anpassningen är klar. I panelen ”resultatet sammanfattning”, högerklicka på länken under ”anpassningen i CLUSTAL format” och spara den anpassade sekvenser som ”35.clustal” (figur 1).
  4. Öppna filen justering resultat i BioEdit.
    1. På huvudpanelen i BioEdit, klicka på ”sekvens” och välja ”Redigera Mood” i den första rullgardinsmenyn, klicka ”redigera restprodukter” i undermenyn (figur 2).
    2. Välj den utskjutande sekvenser på vänster sida av justeringen med markören (den valda sekvensen visas i svart) och klicka på ikonen ”Ta bort” under menyn ”Redigera” för att ta bort den valda sekvenser (figur 3).
    3. Välj bort de utstickande sekvenserna på höger sida av den första MtN3/saliv-domänen och spara de trimmade första MtN3/saliv domän sekvenserna som 35-I.fas (figur 4). Jämväl, ta bort till vänster och höger utskjutande sekvenser av den andra MtN3/saliv-domänen och spara den som 35-II.fas. Först och andra MtN3/saliv domän sekvenser kan förutsägas med rytm (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) eller TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) i förväg.
  5. Öppna den fil 35-I.fas med MEGA och klicka på ”Justera” när du uppmanas. Under menyn ”Redigera”, ”markera alla” Klicka på ”Välj sekvens”; namn och sekvenser av taxa kommer att väljas i svart (figur 5).
    1. Välj ”Kopiera” från menyn ”Redigera” för att kopiera sekvenserna till Urklipp och sedan klistra in den Kopiera sekvenser i en doc-fil.
    2. I i doc-fil, ersätter alla ”#” med ”>”, och ta sedan bort några orelaterade tecken för att konvertera dem till FASTA format. Lägg till ”-jag” i slutet av varje taxon namn att markera dem som den första MtN3/saliv domän sekvenser. Behandla andra MtN3/saliv domän sekvensen efter samma metod och lägga till ”-II” efter varje taxon namn.
  6. Kombinera den första och andra MtN3/saliv domän sekvenser i FASTA format i en doc-fil.
    1. Läsa in den kombinera sekvenser i Clustal Omega igen och justera sekvenserna som beskrivs ovan. Spara resultatet som ”35 realigned.clustal”.
    2. Öppna filen ”35 realigned.clustal” i BioEdit, ta bort ojämn (utskjutande) aminosyra rester i vardera änden av justerad sekvenser och sedan spara sekvenser som ”35 realigned.fas”. Klicka ”Ja” när varnade att vissa icke-standardiserade tecken inte kan sparas.

2. beräkning av fylogenetiska träd

  1. Öppna ”35 realigned.fas” i MEGA.
    1. Klicka på menyn ”Data” och välj ”Exportera justering” spara anpassningen i PAUP format (nexus) som ”35.nex” för senare användning i MrBayes (figur 6).
    2. Under tiden, klicka på ikonen ”modeller” på huvudpanelen av MEGA, Välj ”hitta bästa DNA och Protein modeller (ML)” och klicka ”OK” i popup-fönstret. Klicka på ”beräkna” för att påbörja den modell du söker processen (figur 7). En ny framsteg panel öppnas; denna process tar flera minuter till flera dagar, beroende på komplexiteten i de inlästa sekvenserna och datorns prestanda.
      Obs: En tabell som visar resultaten kommer att öppna efter modell sökprocessen är klar ( figur 8). Den minsta BIC-poängen kommer att visas först, följt av en rad olika modeller med gradvis ökande BIC noter. Den första modellen ”LG + G + F” med minsta BIC Poäng är den rekommenderade modellen för ML träd baserat på filen ”35 realigned.fas”.
  2. Klicka på ikonen ”fylogeni” på huvudpanelen av MEGA, klicka på ”konstruera/Test the högsta sannolikheten Tree” och klicka på ”Ja” på popup-panelen. Ett nytt fönster öppnas visar olika parametrar som måste anges (figur 9).
    1. Det första värdet bootstrap i testet av rutan fylogeni. 500 eller 1000 är tillräcklig i de flesta fall. Under substitution modell, väljer du ”aminosyror” som typ av substitution. Syftet med att välja substitution modell är att uppskatta den verkliga skillnaden mellan sekvenser baserat på deras nuvarande staterna3.
    2. Välj ”LG med Freqs. (+F) modell ”(LG + F) i rutan modell/metod. I priser och mönstret rutan, Välj ”Gamma distribuerad” (G) att beskriva rate variationer över platser, dvs., ger mer vikt till förändringar på långsamt utvecklas platser3. I rutan delmängd, Välj ”Complete radering” ta bort alla kolumner som innehåller bindestreck.
    3. Hålla alla andra parametrar i sina standardtillstånd (figur 9). Efter specifikation av dessa parametrar, klicka på ”beräkna” ikonen för att starta beräkningen.

3. presentation av fylogenetiska träd

Obs: Ett fylogenetiskt ML träd kommer att presenteras när uträkningen använder MEGA är klar (figur 10).

  1. Under den nedrullningsbara menyn på ”fil” ikonen på trädet panelen, väljer du ”Spara aktuell Session” för att spara resultatet (.mas är standardfiltypen). I den aktuella studien, var resultatet sparas som ”35.mas”. På panelen träd, många parametrar inklusive längd av kladen, träd stil, träd topologi, teckensnitt av taxon namn, storlek och färg, visas och kan ställas in på olika alternativ.
  2. Spara filen slutliga trädet genom att klicka på bildikonen, och spara bilden i olika format eller kopiera bilden som källa för fotoredigering.

4. analys av förhållandet mellan godis och SemiSWEETs använder Sequence Alignment

Obs: Detta steg kan inte behövas i vanliga sekvensanalys.

  1. Justera 228 eukaryota godis och 57 prokaryota SemiSWEETs i Clustal Omega som beskrivs ovan. Resultatet av uppriktningen kan visas i Jalview, som är integrerad i Clustal Omega, och kopierat för att spara i ett foto redaktör (figur 11).
    Obs: I exempel justeringen, några SemiSWEETs från α-Proteobacteria är i linje med den första MtN3/saliv domänen av söta sekvenser, medan SemiSWEETs från Methanobacteria (arkéer) är i linje med den andra MtN3/saliv domänen av söta sekvenser.

5. fylogenetiska träd konstruktion med MrBayes

  1. För Bayesian slutsatser med MrBayes, öppna MrBayes körbara filen och en DOS-gränssnitt kommer att komma upp i ett nytt fönster. Det första steget är att läsa nexus data filen. Ingång ”köra 35.nex” efter prompten (kom ihåg att spara 35. nex filen i samma katalog för MrBayes körbara fil, eller peka ut vägen av filen innan du laddar upp det). En ”framgångsrik Läs matrix”-meddelande visas efter sist av de börsnoterade taxa (figur 12). 35. nex filen har redan upprättats och Sparad i MEGA (se 2.1 ovan).
  2. Ange den evolutionära modellen.
    1. Efter kommandotolken skriver du ”prset aamodelpr = fixed(lg); LSet priser = g ”. De ”lg” och ”g” motsvarar ”LG” och ”G” modellen som är satt i MEGA. Efter framgångsrikt ställa modellen, typ ”mcmc nchains = 4 ngen = 5.000.000” efter prompten. Användning av den ”nchains = 4” posten betecknar det totala antalet en kylkedjan och tre heta kedjor för Metropolis koppling. ”ngen = 5.000.000” innebär att köra 5.000.000 generationer av Metropolis koppling för konvergens av kalla och varma kedjor. I denna studie ansågs genomsnittliga standardavvikelsen för split frekvenser under 0,01 konvergens av de varma och kalla kedjorna.
    2. Observera att antalet ngen kan inte förutsägas exakt i början av processen, och oftast behöver justeras utifrån förändringen i de genomsnittliga standardavvikelsen för split frekvenser. Dessutom kan antalet ngen för konvergens vara olika varje gång när du kör programmet baserat på samma data.
  3. Köra analysen: Detta steg varar från några minuter till flera dagar, beroende på komplexiteten av dataunderlag och prestanda av datorn. Efter avslutad förinställda uträkningen, frågar Kommandotolken ”fortsätta med analys (Ja/Nej)”? Om ”nej” skrivs efter prompten, kommer att beräkningar kommer sluta (figur 13), annars fortsätta att beräkna efter antalet ytterligare generationer är input. När beräkningen är klar (med en genomsnittlig standardavvikelse av split frekvenser < 0,01 eller 0,05), stoppa uträkningen genom att skriva ”nej” efter förfrågan prompten.
    Obs: 0,01 är ett strikt kriterium, 0,05 är måttlig och oftast tillräcklig.
  4. Sammanfatta proverna: Skriv ”sumpen” efter uppmaningen att sammanfatta prover av modellparametrar (figur 14). Skriv sedan ”Max relburnin = Ja burninfrac = 0,25” efter uppmaningen att sammanfatta tree prover. Detaljerad information om fylogenetiska träd konstruktion kommer att visas som i figur 15, följt av två träd siffror som visas i ASC II kod på skärmen, en visar klad trovärdighet och de andra visar gren längderna. På samma gång, kommer en tree fil med namnet på ”35.nex.con” att sparas automatiskt.
  5. För en bättre presentation av fylogenetiska träd, öppna filen ”35.nex.con” träd med verktyget FigTree (http://tree.bio.ed.ac.uk/software/figtree/), Välj en stil eller storlek för att visa resultatet (figur 16) eller även redigera det i ett foto editor för att göra det mer läsvänliga.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fylogenetiska träd visar att alla första MtN3/saliv domäner av de 35 söta sekvenserna klustrade som en klad och andra MtN3/saliv domäner av de söta sekvenser klustrade som en annan klad. Dessutom visar justering resultaten av sötsaker och SemiSWEETs att vissa SemiSWEETs från α-Proteobacteria i linje med den första MtN3/saliv domänen av söta sekvenser, medan SemiSWEETs från Methanobacteria (arkéer) i linje med andra MtN3/saliv domänen för söta sekvenser. Tillsammans tyder dessa resultat på att de två MtN3/saliv domäner som innehåller godis kan härledas från en evolutionär fusion av en bakteriell SemiSWEET och ett archaeon14.

Figure 1
Figur 1 : Spara den anpassade sekvenser av 35 förmodad eukaryota godis som ”35.clustal” via Clustal Omega. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2 : Välj sökvägen i BioEdit att trimma den arrangera i rak linje sekvenser av ”35.clustal”, som utarbetades i Clustal Omega. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3 : Markera och ta bort ojämn sekvenser på vänster sida av den första MtN3/saliv domän sekvenser av 35 förmodad eukaryota godis i BioEdit. Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4 : Den trimmade sekvenser av den första MtN3/saliv domänen av 35 förmodad eukaryota godis i BioEdit. Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5 : Markera och kopiera den första MtN3/saliv domän sekvenser av 35 förmodad eukaryota godis i MEGA. De kopiera sekvenserna kommer att klistras in i en doc-fil för redigering. Klicka här för att se en större version av denna siffra.

Figure 6
Figur 6 : Konvertera ”35 realigned.fas” till ”35.nex” (PAUP format) för Bayesiansk inferens i ett senare skede. Klicka här för att se en större version av denna siffra.

Figure 7
Figur 7 : Sök för bästa passning substitution modell av MEGA för högsta sannolikheten (ML) fylogenetiska träd konstruktion baserat på ”35 realigned.fas” filen. Klicka här för att se en större version av denna siffra.

Figure 8
Figur 8 : En tabell av bästa passning substitution modell som beräknats för ML träd baserat på ”35 realigned.fas” filen. Klicka här för att se en större version av denna siffra.

Figure 9
Figur 9 : Ange parametrar för ML träd uträkning utifrån den bäst anpassade substitution modellen för ”35 realigned.fas” i MEGA. Klicka här för att se en större version av denna siffra.

Figure 10
Figur 10 : Ett ursprungliga ML-träd som konstruerats av MEGA baserat på ”35 realigned.fas”. På detta stadium, många alternativ för figur stil, storlek, färg, etc., är tillgängliga. Klicka här för att se en större version av denna siffra.

Figure 11
Figur 11 : Justering av 228 eukaryota sötsaker och 57 prokaryota SemiSWEETs Clustal Omega. Resultatet visades i Jalview, integrerade i Clustal Omega. I justeringen, var några SemiSWEETs från α-Proteobacteria i linje med den första MtN3/saliv domänen av söta sekvenser, medan SemiSWEETs från Methanobacteria (arkéer) var i linje med den andra MtN3/saliv domänen av söta sekvenser. Klicka här för att se en större version av denna siffra.

Figure 12
Figur 12 : Läsa in filen ”35.nex” i MrBayes i DOS fönstret. För att Visa helhetsresultat, ströks innehåll som var liknande för att minska figur längd. Klicka här för att se en större version av denna siffra.

Figure 13
Figur 13 : Information visas på skärmen efter uträkning av ”35.nex” filen med MrBayes. För att Visa helhetsresultat, ströks innehåll som var liknande för att minska figur längd. Klicka här för att se en större version av denna siffra.

Figure 14
Figur 14 : Sammanfattas prover av modellparametrar för ”35.nex” filen. Klicka här för att visa en större version av denna siffra. Klicka här för att se en större version av denna siffra.

Figure 15
Figur 15 : Sammanfattas tree prover av filen ”35.nex”. För att Visa helhetsresultat, ströks innehåll som var liknande för att minska figur längd. Klicka här för att se en större version av denna siffra.

Figure 16
Figur 16 : ”35.nex.con” visas av FigTree fylogenetiska träd. Klicka här för att se en större version av denna siffra.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Det blir allt populärare i biologisk forskning att göra ett fylogenetiskt träd baserat på nucleotide eller amino syra ordnar8. Generellt finns det tre kritiska stadier av praxis inklusive sekvens justering, utvärdering av justerad sekvenser med lämplig metod eller algoritm och visualisering av computational resultatet som ett fylogenetiskt träd. I den presenterade studien genomfördes tre rundor av sekvens justering: först, de söta proteinsekvenser, inklusive domänen första och andra MtN3/saliv, anpassades; för det andra, vart och ett av de enskilda MtN3/saliv domän sekvenserna av godis som en oberoende taxon samlades ihop och justerad tillsammans; och slutligen, SemiSWEET sekvenser och söta sekvenser anpassades gemensamt. Endast en omgång sekvens justering behövs vanligen för fylogenetiska träd konstruktion.

I det preliminära skedet kan homologa sekvenser hämtas från NCBI eller andra databaser. Dessa nedladdade sekvenser kan behöva kontrolleras om de inte är väl kommenterad. I den första och andra etappen, kan inte justering och uträkningen startas om formatet sekvens är felaktig. Exempelvis avvisar Clustal Omega varje avvikelse från det FASTA formatet i filen sekvens. Observera att sekvensen längderna inklusive både aminosyror och nukleotider som bindestreck måste vara lika innan utvärderas av MEGA i computational scenen.

Trots rikedomen av metoder och modeller för träd konstruktion som finns, är ingen av dem idiotsäker. Robust och övertygande resultat är de som är förenliga med varandra när olika algoritmer eller modeller används för att utvärdera de samma data15. I metoden ML beror tillförlitligheten i trädet topologi på bootstrap värdet av varje klad; bootstrap värdet 70 eller större är allmänt betraktas som tillförlitlig. I denna studie, alla första MtN3/saliv domän sekvenser klustrade som en stor klad med 83 bootstrap värdet. Värdet av den andra kladen innehållande alla de andra MtN3/saliv domän sekvenserna, var dock endast 6 (figur 10). Kontrollera träd arkitekturen genom användes MrBayes, som sysselsätter en helt annan metod16 än ML, för att analysera förhållandet mellan taxa. Den bakre sannolikheter16 de första och andra domän-kladerna som erhållits från MrBayes var 100 respektive 68, (figur 16).

En annan begränsning i ML och MrBayes uträkningen är att båda är tidskrävande att köra. Det är användbart att förbättra beräkningsprestanda och snabba17,18att använda en dator med processorer med flera kärnor och grafisk bearbetning enheter (GPU). För drift av MrBayes, kan en dator med ett separat grafikkort och lämpliga CUDA drivrutiner avsevärt påskynda sannolikheten beräkningar11.

Att välja rätt modell för fylogenetiskt träd uträkningen är svårt för dem med liten erfarenhet. I detta avseende ger MEGA ett enkelt sätt att hitta den bästa modellen genom att jämföra BIC värderingar för kandidat modeller. Den nyligen uppgraderade MEGA 6.0 integrerar dessutom flera följd justering verktyg såsom muskel och Clustal W10, som är mycket bekväm att använda. Det ger också både en sekvens redigering och fylogenetiska träd konstruktion funktion. Dessa funktioner förklara delvis varför denna programvara är så populär i fältet computational molecular evolution. När det gäller MrBayes, en betydande fördel med detta verktyg är att det kan bearbeta blandade datatyper tillsammans (t.ex., morfologiska och molekylära data)11, och därmed resultaten är mer omfattande.

Sammanfattningsvis, ger föreliggande studie en metod för att analysera molekylär beskärningen av protein-encoding gener som har genomgått komplex variation t.ex fusion efter kopiering eller horisontell genöverföring (HGT) under evolutionen. Förhoppningsvis kommer fler fynd att avslöjas med bred tillämpning av fylogenetisk analys i forskningsfältet evolutionär.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har något att avslöja.

Acknowledgments

Detta arbete stöds av den nationella naturvetenskap Foundation i Kina (31371596), Bio-technology Research Center, Kina tre raviner universitet (2016KBC04) och stiftelsen naturvetenskap i Jiangsu-provinsen, Kina (BK20151424).

Materials

Name Company Catalog Number Comments
Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4 GB memory, Core 2 or above CPU. Windows 7, Windows 10

DOWNLOAD MATERIALS LIST

References

  1. Nei, M., Kumar, S. Molecular Evolution and Phylogenetics. , Oxford University Press. Oxford. (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Tags

Immunologi och infektion fråga 138 justering Clustal Omega MEGA MrBayes Phylogenetic tree proteinsekvens
Använda fylogenetisk analys för att undersöka eukaryota gen ursprung
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zhang, D., Kan, X., Huss, S. E.,More

Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L. Q., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter