Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Met behulp van fylogenetische analyse te onderzoeken van eukaryotische Gene oorsprong

Published: August 14, 2018 doi: 10.3791/56684
* These authors contributed equally

Summary

Een methode van de bouw van een fylogenetische boom op basis van volgorde homologie van snoepjes van eukaryoten en SemiSWEETs van prokaryoten wordt beschreven. Fylogenetische analyse is een nuttig instrument voor het verklaren van de evolutionaire verwantschap tussen homologe proteïnen of genen uit verschillende organisme groepen.

Abstract

Fylogenetische analyse nucleotide of aminozuur sequenties of andere parameters, zoals domein sequenties en driedimensionale structuur, gebruikt voor de bouw van een boom om te laten zien van de evolutionaire relatie tussen verschillende taxa (classificatie eenheden) op de moleculaire niveau. Fylogenetische analyse kan ook worden gebruikt om te onderzoeken domein verhoudingen binnen een afzonderlijke taxon, met name voor organismen die ondergaan hebben aanzienlijke wijzigen in de morfologie en fysiologie, maar voor welke onderzoekers gebrek aan fossiele bewijsmateriaal wijten aan de organismen lange evolutionaire geschiedenis of schaarste van fossilization.

In deze tekst wordt een gedetailleerd protocol beschreven volgens de fylogenetische methode, met inbegrip van aminozuur sequentie alignering gebruiken Clustal Omega, en de bouw van de latere fylogenetische boom met behulp van beide Maximum waarschijnlijkheid (ML) van moleculaire en evolutionaire genetica Analyse (MEGA) en Bayesian gevolgtrekking via MrBayes. Om te onderzoeken de oorsprong van eukaryotische Suikers zal uiteindelijk worden geëxporteerd vervoerders (zoet) genen, werden 228 snoepjes met inbegrip van 35 zoete eiwitten van eencellige eukaryoten en 57 SemiSWEET eiwitten van prokaryoten geanalyseerd. Interessant, SemiSWEETs werden gevonden in prokaryoten, maar snoep werden gevonden in eukaryoten. Twee fylogenetische bomen gebouwd met behulp van theoretisch verschillende methoden hebben consequent voorgesteld dat het eerste eukaryotische zoete gen vloeien uit de fusie van een bacteriële SemiSWEET gen en een archaeële SemiSWEET gen voort kan. Het is vermeldenswaard dat men moet voorzichtig zijn om te trekken van een conclusie alleen gebaseerd op fylogenetische analyse, hoewel het nuttig is om uit te leggen van de onderliggende relatie tussen verschillende taxa, die is moeilijk of zelfs onmogelijk te onderscheiden door middel van experimentele middelen .

Introduction

DNA of RNA-sequenties dragen genetische informatie voor onderliggende fenotypen die kunnen worden geanalyseerd door middel van fysiologische en biochemische methoden of waargenomen door morfologische en fossiele bewijsmateriaal. In een zin is genetische informatie betrouwbaarder dan de evaluatie van externe fenotypen, omdat de eerstgenoemde de basis voor de laatste is. In de studie van het evolutionaire is fossiele bewijsmateriaal zeer direct en overtuigend. Veel organismen, zoals micro-organismen, hebben echter weinig kans om te vormen van een fossiele tijdens lange geologische leeftijden. Daarom, moleculaire informatie zoals nucleotidesequenties en aminozuur-sequenties van verwante extant organismen zijn van waarde voor het verkennen van de evolutionaire relaties1. In de huidige studie, was een eenvoudige inleiding van fylogenetische basiskennis en een easy-to-learn protocol voorzien door nieuwkomers die moeten opbouwen van een fylogenetische boom op hun eigen.

Zowel DNA (nucleotide) en eiwit (aminozuur) sequenties kunnen afleiden van de fylogenetische relaties tussen homologe genen, organellen of zelfs organismen2worden gebruikt. DNA-sequenties zijn meer kans om te worden beïnvloed door veranderingen tijdens de evolutie. Aminozuur sequenties zijn daarentegen veel stabieler, gezien het feit dat synoniem mutaties in nucleotidesequenties geen mutaties in aminozuur sequenties veroorzaken. Dientengevolge, zijn DNA-sequenties nuttig voor vergelijking van homologe genen van nauw verwante organismen, terwijl aminozuur sequenties geschikt voor homologe genen van verte verwante organismen3 zijn.

Een fylogenetische analyse begint met de uitlijning van aminozuur of nucleotide sequences4 ontvangen van een geannoteerde genoom sequencing database5 vermeld in FASTA formaat, dat wil zeggen, vermeende of uitgedrukt proteïne sequenties, RNA-sequenties , of DNA-sequenties. Het is vermeldenswaard dat het is van cruciaal belang voor het verzamelen van kwalitatief hoogwaardige sequenties voor de analyse, en alleen homologe reeksen kunnen worden gebruikt voor het analyseren van verwantschappen. Veel verschillende platforms zoals Clustal W, Clustal X, spier, T-coffee, MAFFT, kan worden gebruikt voor de sequentie alignering. De meest gebruikte Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), die kunnen online worden gebruikt of kan gratis gedownload worden is kosteloos. De uitlijning tool heeft veel parameters die de gebruiker kan aanpassen voordat u de uitlijning, maar de standaardparameters werken goed in de meeste gevallen. Nadat het proces voltooid is, moeten de sequenties die zijn uitgelijnd worden opgeslagen in de juiste indeling voor de volgende stap. Ze moeten vervolgens worden bewerkt of ingekort met behulp van een software voor videobewerking, zoals BioEdit, omdat de fylogenetische boom constructie door MEGA vergt de sequenties van gelijke lengte (met inbegrip van zowel aminozuur afkortingen en afbreekstreepjes. In de gebonden reeks, elke positie zonder een aminozuur of nucleotide wordt vertegenwoordigd door een koppelteken "-"). In het algemeen, alle uitstekende aminozuren of nucleotiden aan weerszijden van de uitlijning moet worden verwijderd. Kolommen met slecht uitgelijnde sequenties in de uitlijning kunnen bovendien worden verwijderd omdat ze weinig waardevolle informatie overbrengen, en soms verwarrend of valse informatie3kunnen geven. Op dit moment of in de latere fase van de boom bouw, kunnen de kolommen met een of meer afbreekstreepjes worden verwijderd. Als alternatief, ze kunnen worden gebruikt voor fylogenetische berekening. Wanneer de sequentie alignering en trimmen is voltooid, moeten de sequenties die zijn uitgelijnd worden opgeslagen in FASTA, en het gewenste formaat, voor later gebruik.

Veel softwareplatformen bieden boom bouw functies met behulp van verschillende methoden of algoritmen. In het algemeen, kunnen de methoden worden geclassificeerd als afstand matrix methoden of discrete gegevens methoden. Afstand matrix methoden zijn eenvoudig en snel te berekenen, terwijl de afzonderlijke methoden zijn ingewikkeld en tijdrovend. Voor zeer nauw verwante taxa met een hoge mate van delen van aminozuur of nucleotide sequentie identiteit, een afstand matrix methode (Neighbor toetreden: NJ; Ongewogen paar methode met rekenkundig gemiddelde Group: UPGMA) van toepassing is; voor zijdelings verwante taxa, een discrete data, methode (Maximum Likelihood: ML; Maximale spaarzaamheid: MP; Bayesian gevolgtrekking) is optimale3,8. In deze studie werden de ML-methoden van MEGA (6.0.6) en Bayesian gevolgtrekking (MrBayes 3.2) toegepast voor de bouw van de fylogenetische bomen9. Ideaal, wanneer het juiste model en de parameters worden gebruikt, de resultaten afgeleid van verschillende methoden kunnen worden consistent, en ze zijn dus betrouwbaarder en overtuigend.

Voor een ML fylogenetische boom gebouwd met behulp van MEGA10, moet het bestand van de gebonden reeks in FASTA indeling worden geüpload in het programma. De eerste stap is dan om te selecteren van het model van de optimale vervanging voor de geüploade gegevens. Alle beschikbare vervanging modellen worden vergeleken op basis van de geüploade sequenties, en hun definitieve scores worden getoond in een tabel van de resultaten. Selecteer het model met de kleinste Bayesian informatie criterium (BIC) score (als eerste vermeld in de tabel), ML parameters volgens de aanbevolen model instellen en beginnen met de berekening. De rekentijd varieert van enkele minuten tot enkele dagen, afhankelijk van de complexiteit van de geladen gegevens (lengte van de sequenties en aantal taxa) en de prestaties van de computer waarop de programma's worden uitgevoerd. Wanneer de berekening is voltooid, wordt een fylogenetische boom getoond in een nieuw venster. Sla het bestand op als "FileName.mat". Na het instellen van parameters om op te geven van het uiterlijk van de boom, sla nogmaals. Met deze methode, kunt MEGA genereren publicatie rang fylogenetische boom cijfers.

Voor de bouw van de boom met MrBayes11is de eerste stap om de uitgelijnde reeks, die meestal is vermeld in FASTA formaat, transformeren naar nexus-indeling (.nex als het bestandstype). FASTA bestanden omzetten naar nexus-indeling kan worden verwerkt in de MEGA. De volgorde van de uitgelijnd in nexus formaat kan vervolgens worden geüpload in MrBayes. Wanneer het bestand is geüpload, geeft gedetailleerde parameters voor de berekening van de boom. Deze parameters omvatten gegevens zoals aminozuur vervanging model, variatie tarieven, ketting nummer voor Markov chain Monte Carlo (MCMC), koppeling, ngen nummer, gemiddelde standaardafwijking van frequenties van het split, enzovoort. Nadat deze parameters zijn opgegeven, start de berekening. Op het einde, wordt twee cijfers van de boom in de code van de ASC II, één weergegeven: clade geloofwaardigheid en de andere weergegeven: tak lengtes, getoond op het scherm.

Het resultaat van de boom zal automatisch worden opgeslagen als "FileName.nex.con". Deze boom-bestand kan worden geopend en bewerkt door FigTree, en de figuur weergegeven in FigTree verder om het te maken meer geschikt voor publicatie kan worden gewijzigd.

In deze studie werden 228 zoete eiwitten, met inbegrip van 35 snoep van eencellige eukaryoten en 57 SemiSWEETs van prokaryoten, geanalyseerd als voorbeeld. Zowel de snoep en SemiSWEETs werden gekenmerkt als glucose, fructose of sacharose vervoerders over membranen12,13. Fylogenetische analyse blijkt dat de twee MtN3/speeksel domeinen met snoep op een evolutionaire samensmelting van een bacteriële SemiSWEET en een archaeon14kunnen worden ontleend.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. sequentie alignering

  1. Aminozuur sequenties van eukaryotische SWEET en prokaryote SemiSWEET in afzonderlijke documenten verzamelen en hen een lijst maken in FASTA formaat. Download sequenties van het National Center voor biotechnologie informatie (NCBI), Europees laboratorium voor moleculaire biologie (EMBL) en de DNA-databank van Japan (DDBJ) databases door gelijkaardigheidsonderzoek met het gereedschap Basic lokale Alignment Search Tool (BLAST).
    1. In de voorbeeldbestanden, het verzamelen van 228 putatief zoete proteïne sequenties bezitten twee MtN3/speeksel domeinen (7 transmembraan helices) van eukaryoten en 57 SemiSWEET proteïne sequenties één MtN3/speeksel domein (3 transmembraan helices) van prokaryoten bezitten 13.
    2. Om het proces te vereenvoudigen, door 35 kandidaat-zoete eiwitten te selecteren door eencellige eukaryote organismen onder de 228 putatief snoepjes voor fylogenetische boom bouw. Deze sequenties zijn gekoppeld, zodat de lezer op een echte gegevensset oefenen kan.
  2. De 35 zoete sequenties uitlijnen door het invoeren van hen in Clustal Omega (http://www.ebi.ac.uk/Tools/msa/clustalo/).
    1. Kopieer en plak de proteïne sequenties in FASTA formaat in het invoervak of uploaden van een bestand van de reeks in FASTA indeling. Opgeven dat zij aminozuur volgorde door te klikken op het pictogram onder het pull-down menu in de sectie 'Stap 1'.
    2. Geef uitvoerindeling en andere parameters in de sectie 'Stap 2' indien nodig. Voor deze studie, uitvoerindeling instellen als "clustal w/o nummer", en laat de andere parameters op de standaardinstellingen. In de meeste gevallen werken de standaardparameters goed zonder een specificatie.
  3. Indienen en de uitlijning in de sectie 'Stap 3' uitgevoerd. Het kan overal enkele seconden tot minuten duren totdat de uitlijning is voltooid. In het deelvenster 'Resultaat Samenvatting' met de rechtermuisknop op de link onder de "uitlijning in CLUSTAL formaat" en sla de uitgelijnde reeksen als "35.clustal" (Figuur 1).
  4. De uitlijning resultaat bestand openen in BioEdit.
    1. In het belangrijkste venster van BioEdit, "Sequence" en selecteer "Mood bewerken" in het eerste pull-down menu, klik op "Bewerken residuen" in het submenu te openen (Figuur 2).
    2. Selecteer de vooruitstekende sequenties aan de linkerzijde van de uitlijning met de cursor (de geselecteerde sequentie zal getoond worden in zwart-wit) en klikt u op het pictogram "Verwijderen" onder het menu "Bewerken" te verwijderen van de geselecteerde reeksen (Figuur 3).
    3. Selecteer de vooruitstekende sequenties aan de rechterkant van het eerste MtN3/speeksel-domein en de bijgesneden eerste MtN3/speeksel domein sequenties opslaan als 35-I.fas (Figuur 4). Ook de linker- en rechterkant uitsteekt sequenties van het tweede MtN3/speeksel domein verwijderen en opslaan als 35-II.fas. De eerste en de tweede MtN3/speeksel domein sequenties kunnen worden voorspeld met ritme (http://proteinformatics.charite.de/rhythm/inndex.php?site=helix) of TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) van tevoren.
  5. Open het bestand 35-I.fas met MEGA en klik op "align" wanneer daarom wordt gevraagd. Onder het menu "Bewerken", "Alles selecteren" Klik op "Selecteer Sequence(s)"; de namen en de sequenties van de taxa zullen worden geselecteerd in het zwart (Figuur 5).
    1. Kies "Kopiëren" in het menu "Bewerken" om te kopiëren van de sequenties op het Klembord en plak de gekopieerde sequenties in een doc-bestand.
    2. In het doc-bestand, vervangt alle "#" met ">", en vervolgens verwijdert u alle niet-verwante tekens converteren ze naar FASTA formaat. Toevoegen "-ik" aan het einde van elke taxon naam ter gelegenheid van hen als de eerste MtN3/speeksel domein sequenties. Verwerken van de tweede MtN3/speeksel domein volgorde na dezelfde methode en toevoegen "-II" na elke taxon naam.
  6. Het combineren van de eerste en tweede MtN3/speeksel domein sequenties in FASTA indeling in een doc-bestand.
    1. De gecombineerde sequenties in Clustal Omega opnieuw laden en uitlijnen van de sequenties, zoals hierboven beschreven. Sla het resultaat op als "35-realigned.clustal".
    2. Open het bestand "35 realigned.clustal" in BioEdit, verwijderen van de ongelijke (uitstekende) aminozuurresidu's aan weerszijden van de sequenties die zijn uitgelijnd en sla de reeksen als "35-realigned.fas". Klik op "Ja" toen waarschuwde dat sommige niet-standaard tekens kunnen niet worden opgeslagen.

2. berekening van de fylogenetische boom

  1. Open "35 realigned.fas" in MEGA.
    1. Klik op het menu "Data" en kies "Export uitlijning", en de uitlijning in PAUP formaat (nexus) opslaan als "35.nex" voor later gebruik in MrBayes (Figuur 6).
    2. Ondertussen, klik op het pictogram "Modellen" op het hoofdpaneel van MEGA, kies "vinden beste DNA/proteïne modellen (ML)" en klik op "OK" in het pop-upvenster. Klik op "Berekenen" om te beginnen het model zoeken proces (Figuur 7). Een nieuw deelvenster van de vooruitgang wordt geopend; Dit proces duurt enkele minuten tot meerdere dagen, afhankelijk van de complexiteit van de sequenties die zijn geladen en prestaties van de computer.
      Opmerking: Een tabel met dat de resultaten wordt geopend nadat het model zoeken proces is voltooid ( Figuur 8). De kleinste BIC score zal worden eerst vermeld, gevolgd door een reeks van verschillende modellen met geleidelijk toenemende BIC scores. Het eerste model "LG + G + F" met de kleinste BIC-score is het aanbevolen model voor ML boom op basis van de "35 realigned.fas"-bestand.
  2. Klik op het pictogram "Fylogenie" op het hoofdpaneel van MEGA, klik op "Construct/Test the Maximum waarschijnlijkheid Tree", en klik vervolgens op "Yes" in het pop-updeelvenster. Een nieuw venster wordt geopend waarin verschillende parameters die moeten worden opgegeven (Figuur 9).
    1. Stel eerst de bootstrap waarde in de test van de fylogenie vak; 500 of 1.000 volstaat in de meeste gevallen. Kies onder de vervanging model, "amino acid" als het type van de vervanging. Het doel van het kiezen van een substitutie-model is te schatten van het echte verschil tussen reeksen op basis van hun huidige staten3.
    2. Selecteer "LG met Freqs. (+F) model "(LG + F) in het vak model/methode. In de tarieven en het vak patroon, selecteer "Gamma verdeeld" (G) te beschrijven tarief variaties op sites, dwz.,3meer gewicht te geven aan veranderingen op langzaam veranderende sites. Selecteer in het vak Deelverzameling "Verwijderen voltooid" om alle van de kolommen met afbreekstreepjes te verwijderen.
    3. Houd alle andere parameters in hun standaard Staten (Figuur 9). Na de specificatie van deze parameters, klikt u op het pictogram "Berekenen" om te beginnen met de berekening.

3. presentatie van de fylogenetische boom

Opmerking: Een fylogenetische boom ML zal worden gepresenteerd als de berekening met behulp van MEGA klaar is (Figuur 10).

  1. Onder het pull-down menu van het "File"-pictogram op de boom paneel, kies "Sla huidige sessie" op te slaan van het resultaat (.mas is het standaardbestandstype). In de huidige studie, was het resultaat opgeslagen als "35.mas". Op de boom paneel, veel parameters, met inbegrip van de lengte van de klade, stijl van de boom, boom topologie, lettertype van het taxon naam, grootte en kleur, worden weergegeven en kan worden ingesteld op de verschillende opties.
  2. Sla het laatste boom-bestand door te klikken op het pictogram afbeelding, en de afbeelding opslaan in verschillende formaten of kopieer de afbeelding als bron voor het bewerken van foto's.

4. analyse van de relatie van snoep en SemiSWEETs met behulp van sequentie alignering

Opmerking: Deze stap niet nodig kan zijn in gewone sequentieanalyse.

  1. Aanpassing van de 228 eukaryotische snoepjes en 57 prokaryote SemiSWEETs in Clustal Omega zoals hierboven beschreven. De resultaten van de uitlijning kunnen worden aangetoond in Jalview, die is geïntegreerd in Clustal Omega en gekopieerd om op te slaan in een foto-editor (Figuur 11).
    Opmerking: In de voorbeeld-uitlijning, sommige SemiSWEETs van α-de Proteobacteria worden uitgelijnd met de eerste MtN3/speeksel-domein van de zoete sequences, overwegende dat de SemiSWEETs van Methanobacteria (archaea) zijn afgestemd op het domein van de tweede MtN3/speeksel van de zoete sequences.

5. de fylogenetische boom constructie met MrBayes

  1. Voor Bayesian gevolgtrekkingen met MrBayes, opent u het uitvoerbare bestand van MrBayes en een DOS-interface zal komen in een nieuw venster. De eerste stap is om te lezen van de nexus gegevens file. Input "uitvoeren 35.nex" na de prompt (onthoud naar de 35. nex-bestand opslaan in dezelfde map van het uitvoerbare bestand van MrBayes, of wijzen op het pad van het bestand voordat u het uploadt). Een "succesvolle Lees matrix" bericht getoond na de laatste van de beursgenoteerde taxa (Figuur 12). De 35. nex bestand al is voorbereid en opgeslagen in MEGA (zie 2.1 hierboven).
  2. Stel de evolutionaire model.
    1. Typ achter de prompt "preset aamodelpr = fixed(lg); LSET tarieven = g ". De "lg" en "g" overeenkomen met het model van "LG" en "G", die is ingesteld in MEGA. Na het met succes het instellen van het model, typt u "mcmc-nchains = 4 ngen = 5.000.000" na de prompt. Gebruik van de "nchains = 4" post geeft een totaal aantal van een koude keten en drie hete kettingen voor RO-koppeling Metropolis. "ngen = 5.000.000" betekent uitvoeren van 5.000.000 generaties van Metropolis koppeling voor convergentie van de warme en koude ketens. In deze studie, werd gemiddelde standaardafwijking van frequenties van het split onder 0.01 beschouwd als de convergentie van de warme en koude ketens.
    2. Merk op dat het aantal ngen kan niet nauwkeurig worden voorspeld aan het begin van het proces, en meestal moet worden aangepast op basis van de verandering in de gemiddelde standaardafwijking van frequenties van het split. Bovendien, kan het nummer van de ngen voor convergentie afwijken telkens wanneer u het programma uitvoert op basis van dezelfde gegevens.
  3. De analyse uitvoeren: Deze stap duurt enkele minuten tot enkele dagen, afhankelijk van de complexiteit van de invoergegevens en de prestaties van de computer. Na het voltooien van de vooraf ingestelde berekening, vraagt een prompt "Doorgaan met analyse (Ja/Nee)?" Als "nee" wordt getypt na de prompt, blijft dat de computing stopt (Figuur 13), anders om te berekenen nadat het aantal verdere generaties wordt ingevoerd. Wanneer de berekening is voltooid (met een gemiddelde standaardafwijking van frequenties van het split < 0,01 of 0.05), stopt de berekening door te typen "neen" na de aanwijzing voor het onderzoek.
    Opmerking: 0.01 is een strikt criterium, 0.05 is gematigd en meestal voldoende.
  4. De monsters samenvatten: Typ "Carter" na de prompt om samen te vatten van monsters van de parameters van het model (Figuur 14). Typ vervolgens "sumt relburnin ja burninfrac = 0,25 =" na de prompt om samen te vatten boom monsters. Gedetailleerde informatie over de bouw van de fylogenetische boom wordt getoond in Figuur 15, gevolgd door twee cijfers van de boom die in ASC II-code op het scherm, één weergegeven: clade geloofwaardigheid en de andere weergegeven: tak lengtes verschijnt. Op hetzelfde moment, zal een boom-bestand met de naam van "35.nex.con" automatisch worden opgeslagen.
  5. Voor een betere presentatie van de fylogenetische boom, open het bestand "35.nex.con" boom met het FigTree gereedschap (http://tree.bio.ed.ac.uk/software/figtree/), selecteer een stijl of de grootte weer te geven van het resultaat (Figuur 16) of zelfs bewerken in een foto-editor te maken meer lezersvriendelijke.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fylogenetische bomen vertonen dat alle van de eerste MtN3/speeksel domeinen van de 35 zoete sequenties geclusterd als een clade en de tweede MtN3/speeksel domeinen van de zoete sequences geclusterd als een ander clade. Bovendien, blijkt uitlijning van de snoep en SemiSWEETs dat sommige SemiSWEETs van α-de Proteobacteria uitgelijnd met het eerste MtN3/speeksel-domein van de zoete sequenties, overwegende dat SemiSWEETs van Methanobacteria (archaea) afgestemd op de tweede MtN3/speeksel domein van de zoete sequences. Deze resultaten stellen samen voor dat de twee MtN3/speeksel domeinen met snoep op een evolutionaire samensmelting van een bacteriële SemiSWEET en een archaeon14kunnen worden ontleend.

Figure 1
Figuur 1 : De uitgelijnde sequenties van de 35 putatief eukaryotische snoepjes opslaan als "35.clustal" via Clustal Omega. Klik hier voor een grotere versie van dit cijfer.

Figure 2
Figuur 2 : Selecteer pad in BioEdit voor het bijsnijden van het uitgelijnde sequenties van "35.clustal," die bereid was in Clustal Omega. Klik hier voor een grotere versie van dit cijfer.

Figure 3
Figuur 3 : Selecteer en verwijder de ongelijke sequenties aan de linker kant van de eerste MtN3/speeksel domein sequenties van de 35 putatief eukaryotische snoepjes in BioEdit. Klik hier voor een grotere versie van dit cijfer.

Figure 4
Figuur 4 : De bijgesneden sequenties van het eerste MtN3/speeksel-domein van de 35 putatief eukaryotische snoepjes in BioEdit. Klik hier voor een grotere versie van dit cijfer.

Figure 5
Figuur 5 : Selecteer en kopieer de eerste MtN3/speeksel domein sequenties van de 35 putatief eukaryotische snoepjes in MEGA. De gekopieerde sequenties zal worden geplakt in een doc-bestand voor de bewerking. Klik hier voor een grotere versie van dit cijfer.

Figure 6
Figuur 6 : Converteren naar "35 realigned.fas" "35.nex" (PAUP formaat) voor Bayesian gevolgtrekking in een later stadium. Klik hier voor een grotere versie van dit cijfer.

Figure 7
Figuur 7 : Zoeken naar het model van de best-fit vervanging door MEGA voor Maximum waarschijnlijkheid (ML) fylogenetische boom bouw op basis van het bestand "35 realigned.fas". Klik hier voor een grotere versie van dit cijfer.

Figure 8
Figuur 8 : Een tabel van de best-fit vervanging model berekend voor ML boom gebaseerd op het bestand "35 realigned.fas". Klik hier voor een grotere versie van dit cijfer.

Figure 9
Figuur 9 : Geef de parameters voor ML boom berekening gebaseerd op het model van de best-fit vervanging voor "35 realigned.fas" in MEGA. Klik hier voor een grotere versie van dit cijfer.

Figure 10
Figuur 10 : Een originele ML boom gebouwd door MEGA gebaseerd op "35 realigned.fas". In dit stadium, vele opties voor figuur stijl, grootte, kleur, enz., zijn beschikbaar. Klik hier voor een grotere versie van dit cijfer.

Figure 11
Figuur 11 : Uitlijning van 228 eukaryotische snoep en 57 prokaryote SemiSWEETs door Clustal Omega. De resultaten werden vertoond in Jalview, Clustal Omega geïntegreerd. In de uitlijning, waren sommige SemiSWEETs van α-de Proteobacteria uitgelijnd met het eerste MtN3/speeksel-domein van de zoete sequenties, overwegende dat de SemiSWEETs van Methanobacteria (archaea) waren afgestemd op het domein van de tweede MtN3/speeksel van de zoete sequences. Klik hier voor een grotere versie van dit cijfer.

Figure 12
Figuur 12 : Het "35.nex" bestand in MrBayes in het DOS-venster geladen. Om aan te tonen de algemene resultaten, was inhoud die vergelijkbaar was verwijderd ter vermindering van de lengte van de figuur. Klik hier voor een grotere versie van dit cijfer.

Figure 13
Figuur 13 : Informatie die wordt weergegeven op het scherm na berekening van de "35.nex"-bestand met behulp van MrBayes. Om weer te geven van het eindresultaat, was inhoud die vergelijkbaar was verwijderd ter vermindering van de lengte van de figuur. Klik hier voor een grotere versie van dit cijfer.

Figure 14
Figuur 14 : Samengevat monsters van model parameters voor het bestand "35.nex". Klik hier voor een grotere versie van dit cijfer. Klik hier voor een grotere versie van dit cijfer.

Figure 15
Figuur 15 : Samengevat boom monsters van het bestand "35.nex". Om weer te geven van het eindresultaat, was inhoud die vergelijkbaar was verwijderd ter vermindering van de lengte van de figuur. Klik hier voor een grotere versie van dit cijfer.

Figure 16
Figuur 16 : De fylogenetische boom van "35.nex.con" weergegeven door FigTree. Klik hier voor een grotere versie van dit cijfer.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Het wordt steeds populairder in biologisch onderzoek om een fylogenetische boom op basis van nucleotide of aminozuur sequenties8. In het algemeen zijn er drie kritische fasen van de praktijk, met inbegrip van de sequentie alignering, evaluatie van de sequenties die zijn uitgelijnd met de juiste methode of algoritme en visualisatie van het rekenkundige resultaat als een fylogenetische boom. In de gepresenteerde studie, drie rondes van sequentie alignering werden uitgevoerd: eerst de zoete proteïne sequenties, met inbegrip van het eerste en tweede MtN3/speeksel domein, werden gebracht; Ten tweede, elk van de individuele MtN3/speeksel domein sequenties van de snoepjes als een onafhankelijke taxon werden verzameld en uitgelijnd samen; en ten slotte SemiSWEET sequenties en zoete sequenties werden gezamenlijk uitgelijnd. Slechts één ronde van sequentie alignering is meestal nodig voor phylogenetic tree bouw.

In de voorbereidende fase, kunnen homologe reeksen worden gedownload van NCBI of andere databases. Deze gedownloade sequenties kunnen moeten worden gescreend als ze niet goed zijn geannoteerd. Worden in de eerste en de tweede fase, uitlijning en berekening kunnen niet gestart als de volgorde-indeling onjuist is. Bijvoorbeeld, zal Clustal Omega verwerpen elke afwijking van de FASTA indeling in het bestand van de reeks. In de computationele fase, er rekening mee dat de lengtes van de reeks met inbegrip van aminozuren of nucleotiden zowel afbreekstreepjes nodig zijn voordat het wordt geëvalueerd door MEGA gelijkgesteld.

Ondanks de rijkdom van methoden en modellen voor de bouw van de boom die beschikbaar zijn, is geen van hen waterdicht. Robuust en overtuigende resultaten zijn die met elkaar stroken wanneer verschillende algoritmen of modellen worden gebruikt voor het evalueren van de dezelfde gegevens15. In de ML-methode hangt de betrouwbaarheid van de topologie van de boom grotendeels de bootstrap waarde van elke clade; een bootstrap waarde van 70 of hoger wordt algemeen beschouwd als betrouwbaar. In de huidige studie, alle van de eerste MtN3/speeksel domein sequences geclusterd als een grote clade met een bootstrap waarde van 83. De waarde van de andere clade die met alle de tweede MtN3/speeksel domein sequenties, echter, was slechts 6 (Figuur 10). Om te controleren of de boom architectuur, werd MrBayes, waarbij een volledig andere methode16 dan ML in dienst, gebruikt voor het analyseren van de relatie van de taxa. De achterste waarschijnlijkheden16 van de eerste en tweede domein clades verkregen MrBayes respectievelijk 100 en 68, (Figuur 16).

Een andere beperking van de ML en de MrBayes berekening is dat beide tijdrovend om uit te voeren. Met behulp van een computer met multicore-processors en grafische verwerkingseenheden (GPU) is nuttig om computationele prestaties verbeteren en versnellen van de17,18. Voor de werking van MrBayes, kan een computer met een aparte grafische kaart en de juiste CUDA-drivers aanzienlijk de kans op berekeningen11versnellen.

Het selecteren van het juiste model voor de berekening van de fylogenetische boom is moeilijk voor mensen met weinig ervaring. In dit opzicht biedt MEGA een makkelijke manier om te vinden van het beste model door het vergelijken van de BIC-scores van kandidaat-modellen. Bovendien, integreert de onlangs bijgewerkte MEGA 6.0 verschillende volgorde uitlijning tools zoals spier- en Clustal W10, die erg handig zijn in gebruik. Het biedt ook zowel een reeks bewerkings- en fylogenetische boom bouw functie. Deze functies verklaren deels waarom deze software is zo populair op het gebied van de computationele moleculaire evolutie. Wat betreft MrBayes, een belangrijk voordeel van dit hulpmiddel is dat het gemengde datatypes samen kan verwerken (bv., morfologische en moleculaire gegevens)11, en dus de resultaten zijn uitgebreider.

Kortom, biedt de huidige studie een methode voor het analyseren van de moleculaire oorsprong van eiwit-encoding genen die complexe variatie zoals fusion na duplicatie of horizontale genoverdracht (HGT) tijdens de evolutie hebben ondergaan. Hopelijk, zal meer bevindingen met brede toepassing van fylogenetische analyse op het gebied van de evolutionaire onderzoek worden onthuld.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd gesteund door de nationale Natural Science Foundation van China (31371596), het onderzoekscentrum van de Bio-technologie, China drie kloven University (2016KBC04) en de Stichting van de natuurwetenschappen van de oostelijke provincie Jiangsu, China (BK20151424).

Materials

Name Company Catalog Number Comments
Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4 GB memory, Core 2 or above CPU. Windows 7, Windows 10

DOWNLOAD MATERIALS LIST

References

  1. Nei, M., Kumar, S. Molecular Evolution and Phylogenetics. , Oxford University Press. Oxford. (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Tags

Immunologie en infecties probleem 138 uitlijning Clustal Omega MEGA MrBayes fylogenetische boom eiwit sequentie
Met behulp van fylogenetische analyse te onderzoeken van eukaryotische Gene oorsprong
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zhang, D., Kan, X., Huss, S. E.,More

Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L. Q., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter