Biology

A Practical Guide to Phylogenetics für Nichtexperten

Published: February 5, 2014 doi: 10.3791/50975

¹Department of Biological Sciences and Institute for Neuroscience, The George Washington University

Summary

Hier beschreiben wir eine Schritt-für-Schritt-Pipeline zum Erzeugen von zuverlässigen Phylogenien von Nukleotid-oder Aminosäuresequenz Datensätze. Dieser Leitfaden soll den Forschern oder Studenten neue phylogenetische Analyse dienen.

Abstract

Viele Forscher, auf unglaublich vielfältige Schwerpunkte sind die Anwendung phylogenetics, ihre Forschungs Frage (n). Allerdings sind viele Forscher neu in diesem Thema und so präsentiert sie inhärente Probleme. Hier erstellen wir eine praktische Einführung in phylogenetics für Nichtexperten. Wir skizzieren in einer Schritt-für-Schritt-Weise, eine Pipeline für die Erzeugung zuverlässiger Phylogenien Gensequenz von Datensätzen. Wir beginnen mit einem Benutzer-Leitfaden für Ähnlichkeitssuche über Online-Tools, Schnittstellen sowie lokale ausführbare Dateien. Weiter, wir Programme zur Erzeugung von multiplen Sequenz-Alignments, gefolgt von Protokollen für die Verwendung von Software, um Best-Fit-Modelle der Evolution bestimmen, zu erkunden. Wir skizzieren dann Protokolle für die Rekonstruktion phylogenetischen Beziehungen über Maximum-Likelihood-und Bayes-Kriterien zu beschreiben und schließlich Werkzeuge zur Visualisierung von Stammbäumen. Zwar ist dies keineswegs eine erschöpfende Beschreibung der phylogenetischen Ansätze, tut es dem Leser praktische Start informatIonen auf die wichtigsten Software-Anwendungen häufig von phylogeneticists genutzt. Die Vision für diesen Artikel wäre, dass es könnte als praktisches Trainingsgerät für Forscher sie sich auf phylogenetische Studien dienen und dienen auch als pädagogische Ressource, die in einem Klassenzimmer oder Lehrlabor aufgenommen werden könnte.

Introduction

Um zu verstehen, wie sich zwei (oder mehr) Spezies entwickelt, ist es zunächst erforderlich, Sequenz oder morphologische Daten von jeder Probe zu erhalten, diese Daten darstellen Mengen, die wir nutzen können, um ihre Beziehung durch evolutionäre Raum zu messen. Genau wie bei der Messung der Luftlinie, mit mehr Daten zur Verfügung (z. B. Meilen, Zoll, Mikrometer) wird zu einer genaueren Messung gleichzusetzen. Ergo, die Genauigkeit, mit der ein Forscher kann evolutionäre Distanz abzuleiten ist stark durch das Volumen der informativen Daten, um Beziehungen zu messen beeinflusst. Darüber hinaus, weil verschiedene Proben mit unterschiedlichen Geschwindigkeiten und durch unterschiedliche Mechanismen zu entwickeln, die Methode, die wir verwenden, um die Beziehung zwischen zwei Taxa messen auch direkten Einfluss auf die Richtigkeit der Evolutionsmessungen. Dadurch, dass evolutionären Beziehungen sind nicht direkt beobachtet, sondern aus Sequenz oder morphologischen Daten, das Problem der Ableitung evolutionären extrapoliertBeziehungen zu einem der Statistik. Phylogenetics ist der Zweig der mit der Anwendung statistischer Modelle, Muster der Evolution, um optimal zu rekonstruieren, die evolutionäre Geschichte zwischen Taxa betroffenen Biologie. Diese Rekonstruktion zwischen Taxa wird als der Taxa der Stammesgeschichte bezeichnet.

Um zu helfen, die Lücke im Fachwissen zwischen Molekularbiologen und Evolutionsbiologen beschreiben wir hier eine Schritt für Schritt-Pipeline zur Ableitung Phylogenien aus einer Menge von Sequenzen. Erstens haben wir ausführlich die Schritte im Datenbankabfrage, die Basic Local Alignment Search Tool ^{(BLAST-1)-Algorithmus} über die Web-basierte Schnittstelle und auch mit lokalen Executables beteiligt, dies ist oft der erste Schritt bei der Erlangung einer Liste von ähnlichen Sequenzen an einen unbekannten Abfrage, obwohl einige Forscher vielleicht auch an der Sammlung von Daten für eine einzelne Gruppe über Web-Schnittstellen wie Phylota (http://www.phylota.net/). BLAST ist ein Algorithmus für comparing primären Aminosäure-oder Nukleotid-Sequenzdaten mit einer Datenbank von Sequenzen für "Hits", der die Abfragesequenz ähneln suchen. Das BLAST-Programm wurde von Stephen Altschul et al ausgelegt. an der National Institutes of Health (NIH) ^ein. Die BLAST-Server besteht aus einer Reihe verschiedener Programme, und hier ist eine Liste von einigen der häufigsten BLAST-Programme:

i) Nukleotid-Nukleotid-BLAST (blastn): Dieses Programm erfordert eine DNA-Sequenz-Eingang und gibt die meisten ähnliche DNA-Sequenzen aus der DNA-Datenbank, die der Benutzer angibt (z. B. für einen bestimmten Organismus).

ii) Protein-Protein-BLAST (blastp): Hier gibt der Benutzer eine Proteinsequenz und das Programm kehrt die ähnlichsten Proteinsequenzen aus der Proteindatenbank, die der Benutzer angibt.

iii) Position-Specific Iterative BLAST (PSI-BLAST) (blastpgp): Die Benutzereingabe ist ein protein Sequenz, die eine Reihe von eng verwandten Proteinen gibt, und aus diesem Datensatz eine konservierte Profil erzeugt. Als nächstes wird eine neue Abfrage wird unter Verwendung nur dieser konservierten "Motive", die verwendet wird, um ein Protein-Datenbank abzufragen erzeugt und dieses liefert eine größere Gruppe von Proteinen aus dem ein neuer Satz von konservierten "Motive" extrahiert und dann verwendet, um ein Protein-Datenbank abzufragen, bis eine noch größere Reihe von Proteinen werden erneut abgestimmt und ein anderes Profil erzeugt wird, und der Vorgang wiederholt. Indem verwandten Proteinen in der Abfrage in jedem Schritt dieses Programm ermöglicht dem Benutzer, die mehr divergierenden Sequenzen zu identifizieren.

iv) Nukleotid-6-Frame-Übersetzung-Protein (blastx): Hier stellt der Benutzer eine Nukleotid-Sequenz-Eingang, der in die sechs-konzeptionellen Rahmen Translationsprodukte (dh umgewandelt wird, beide Stränge) gegen eine Proteinsequenz-Datenbank..

v) 6-Nucleotid-Nucleotid-Frame-Übersetzung6-Raster-Translation (tblastx): Dieses Programm nimmt eine DNA Nukleotidsequenz Eingang und wandelt die Eingabe in allen sechs Rahmen Translation der Produkte, die sie gegen die sechs-Rahmen-Übersetzung einer Nukleotidsequenz-Datenbank vergleicht.

vi) Protein-Nukleotid-6-Raster-Translation (tblastn): Dieses Programm verwendet eine Proteinsequenz Eingangs gegen alle sechs Leseraster einer Nukleotidsequenz-Datenbank zu vergleichen.

Weiter beschreiben wir häufig verwendete Programme zur Erzeugung eines Multiple Sequenz Alignment (MSA) aus einer Sequenz-Datensatz, und dies wird durch eine Benutzerführung, um Programme, die die Best-Fit-Modelle der Evolution für eine Sequenz-Datensatz zu bestimmen gefolgt. Die phylogenetische Rekonstruktion ist ein statistisches Problem, und aus diesem Grund, müssen phylogenetischen Methoden, um einen statistischen Rahmen zu integrieren. Diese statistischen Rahmen wird ein Evolutionsmodell, das Sequenzänderung innerhalb des Datasets enthält. Dieser evolutionäre model ist aus einer Reihe von Annahmen über den Prozess der Nukleotid-oder Aminosäure-Substitutionen umfasst und die Best-Fit-Modell für eine bestimmte Datenmenge kann durch statistische Tests ausgewählt werden. Die Anpassung an die Daten der verschiedenen Modelle können über Likelihood Ratio Tests (LRT) oder Informationskriterien, um die Best-Fit-Modell innerhalb einer Reihe von möglichen zu wählen verglichen werden. Zwei gemeinsame Informationskriterien sind das Akaike Informationskriterium (AIC) ² und die Bayes-Informationskriterium (BIC) ^3. Sobald eine optimale Ausrichtung erzeugt wird, gibt es viele verschiedene Methoden, um eine phylogeny aus den ausgerichteten Daten. Es gibt zahlreiche Methoden zur Ableitung evolutionären Beziehungen; breit sind, können sie in zwei Kategorien unterteilt werden: abstandsbasierten Verfahren und sequenzbasierte Methoden. Distanz-basierte Methoden berechnen paarweisen Abstände von Sequenzen, und verwenden Sie diese Abstände, um den Baum zu erhalten, dann. Sequenz-basierte Methoden verwenden das Sequenz-Alignment direkt, und in der Regel suchen die tree Raum mit einem Optimalitätskriterium. Wir skizzieren zwei Sequenz-basierte Methoden zur Rekonstruktion von Verwandtschaftsbeziehungen: das sind PhyML ^4, die das Maximum-Likelihood-Framework implementiert und mrbayes ^5, die Bayes-Markov-Chain-Monte-Carlo-Inferenz verwendet. Wahrscheinlichkeit und Bayes-Methoden liefern eine statistischen Rahmen für phylogenetische Rekonstruktion. Durch die Bereitstellung von Informationen über Benutzer häufig verwendete Baum-Gebäude-Tools, führen wir den Leser auf die notwendigen Daten erforderlich, um Verwandtschaftsverhältnisse zu schließen.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Grund Local Alignment Search Tool (BLAST): Online-Schnittstelle

Klicken Sie auf diesen Link, um den BLAST ^ein Web-Server am National Center for Biotechnology Information (NCBI) zu besuchen. - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Abbildung 1).
Geben Sie einen formatierten Text FASTA Sequenz (siehe Abbildung 2 zum Beispiel) in das Suchfeld.
Klicken Sie auf den entsprechenden BLAST-Programms und entsprechende Datenbank oder einzelne Spezies von Interesse, bei der Suche zu verwenden und dann auf "BLAST".
Hinweis: FASTA formatierte Sequenz beginnt mit einem durch ein ">"-Zeichen angegeben Beschreibungszeile. Die Beschreibung muss unmittelbar nach dem Zeichen ">", der Folge (dh. Nukleotide oder Aminosäuren), folgen Sie der Beschreibung auf der nächsten Zeile zu folgen. Die Ausgabe aus dem BLAST-Suche als HTML, Text, XML, oder schlagen ta angesehenBles (Text-oder CSV) mit der Standard-HTML-Set (Abbildung 3).

2. Grund Local Alignment Search Tool (BLAST): Lokale Executables

Laden Sie die neuesten BLAST-Befehlszeile ausführbaren BLAST über diesen Link:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
em> Für PC-Nutzer: Doppelklicken Sie auf die neueste Hoch win32.exe Datei und die Lizenzvereinbarung akzeptieren und klicken Sie auf installieren.
Hinweis: Das Standardinstallationsverzeichnis ist C: ncbi-blast-2.2.27 +.
Konfigurieren Sie den PC-Umgebungsvariable wie folgt:
1. Klicken Sie auf die PC-Schaltfläche "Start", und dann rechts auf "Computer",
2. Klicken Sie auf "Eigenschaften" und im Pop-up klicken Sie auf die Registerkarte "Erweitert"
3. Klicken Sie auf die "Schaltfläche Umgebungsvariablen", und in der neuen Pop-up klicken Sie auf die Schaltfläche "Neu" unter the "Benutzervariablen für den Benutzer" Abschnitt
4. In dem Pop-up hinzufügen den Namen der Variablen "Path" und variablen Wert "C: ncbi-blast-2.2.27 + bin.
  Hinweis: Das Verzeichnis bin enthält die ausführbare Datei (dh blastp etc.)..
em> Für Mac-Anwender: Öffnen Sie das Terminal-Programm (dieses nur geöffnet "Finder" zu tun und suchen "Terminal" und dies wird die "Terminal"-Symbol angezeigt). In das Terminal-Fenster-Typ:
> Ftp ftp.ncbi.nih.gov
Hinweis: kann auch die URL oben im Beispiel für PC
Um die NCBI FTP-Site-Typ "anonym" für Name und Kennwort ein, und geben Sie dann zuzugreifen:
> Cd Explosion / ausführbare Dateien / AKTUELL
Listen Sie die ausführbaren Dateien durch Eingabe von:
> Ls
Holen Sie sich die neueste Version durch Eingabe des folgenden (oder was auch immer die neueste Version aktuell ist):
2; bekommen ncbi-blast-2.2.7-macosx.tar.gz
Beenden Sie die FTP-Server NCBI Website durch Eingabe von "exit".
Entpacken Sie die heruntergeladenen Dateien durch Eingabe von:
> Tar-xzf ncbi-blast-2.2.7-macosx.tar.gz
Fügen Sie den Speicherort der Binärdateien für den Hoch ausführbare Datei, um Ihren Weg, so dass die Schale durch dieses Verzeichnis, wenn man für Befehle, indem Sie suchen:
> PATH = $ PATH: new_folder_location
Prüfen Sie, ob dieser Mehr die Lage, Ihren Weg durch Eingabe von:
> Echo $ PATH
Laden Sie eine vorformatierte BLAST-Datenbanken (die täglich aktualisiert werden), indem Sie hier klicken:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Legen Sie die Datenbank in den "db"-Ordner.
em> Auf einem PC: Öffnen Sie eine MS-DOS-Eingabeaufforderung und wechseln Sie in das Verzeichnis der NCBI Blast-Ordner, indem Sie (um diese auf "Start" und geben Sie "cmd" in die Suchleiste zu tun):
C: Users> cd .. [bewegtbis einem Ordner]
C: > cd ncbi-blast-2.2.27 +
Damit wird das Verzeichnis zu ändern:
C: ncbi-blast-2.2.27 +>
Erstellen Sie die Datenbank mit dem folgenden Befehl "makedb":
> Makedb-in db / briggsae.fasta-dbtype prot-out db / briggsae
Anmerkung: In dem folgenden Beispiel (Fig. 4) wird die Datenbank "briggsae" genannt und besteht aus einer Verbindungsgruppe aus dem Organismus Caenorhabditis briggsae besteht.
Erstellen Sie eine Abfrage Proteinsequenz namens "test" durch Einsetzen einer FASTA formatierten Text Protein-Sequenz in das "db"-Ordner.
Fragen Sie die Datenbank über eine blastp Suche, indem Sie den folgenden Befehl ein:
> Blastp-query db / test.txt-db db / briggsae-out text.txt
em> Auf einem Mac: Laden Sie eine Datenbank für lokale BLAST-Suchen durch Zugriff auf den FTP-NCBI-Website nach den Anweisungen oben (Schritt 2.4) und dien-Typ:
> Lcd .. / Datenbanken /
Laden Sie die Genom-Sequenz von Interesse oder durch Eingabe von:
> Bekommen NC_ [Accession #]. Fna
Anmerkung: ". Fna" bezieht sich auf die FASTA formatierte Nucleotidsequenz und "FAA." Bezieht sich auf den FASTA formaAminosäureSequenzen.
Geben Sie "Beenden", um die FTP-Site zu verlassen.
Stellen Sie die Datenbank durch Eingabe von:
> Makeblastdb-in db / mouse.faa-out-Maus-dbtype prot
Legen Sie eine formatierte FAST Abfrage-Sequenz in den Ordner "bin" und befragen Sie die Datenbank mit dem folgenden Befehl:
> Blastp-Abfrage "Ihr query.fasta"-db "Datenbank"-out results.txt

3. Generieren Multiple Sequence Alignments

Klicken Sie auf diese Links, um häufig verwendete Multiple Sequenz Alignment (MSA) Programme zugreifen:
ClustalW ⁶ http://www.clustal.org/
Kalign ⁷ http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT ^8,9 http://mafft.cbrc.jp/alignment/software/
MUSCLE ¹⁰ http://www.drive5.com/muscle/
T-Coffee ¹¹ http://www.tcoffee.org/Projects/tcoffee/
Probcons ¹² http://toolkit.tuebingen.mpg.de/probcons
Klicken Sie auf diesen Link - http://tcoffee.crg.cat/apps/tcoffee/do:regular - und Eingabe FASTA formatierten Sequenzdaten in das Suchfeld
Hinweis: Die Ausgabe von T-Kaffee kann in Fig. 5 gesehen werden kann, sind ähnliche Rückstände Farbe codiert.
Laden Sie die Clustal MSA als Kommandozeilenversion (ClustalW) oder einer grafischen version (ClustalX), indem Sie auf diesen Link: http://www.clustal.org/clustal2/ - dann klicken Sie auf die entsprechende ausführbare (dh Win, Linux, Mac OS X).
Daten hochladen, wie FASTA formatierte Textfolge und ausrichten (Abbildung 6).

4. Bestimmen Best-Fit-Modelle Evolution

Klicken Sie hier, um die ProtTest ¹³ Programm herunterladen:
http://darwin.uvigo.es/our-software/
Sobald ProtTest heruntergeladen ist, doppelklicken Sie auf die Datei ProtTest.jar
Sobald ProtTest gestartet wird, klicken Sie auf "Datei auswählen" und laden Sie die Sequenzdaten (Abbildung 7).
Dann klicken Sie auf "Start" und das Programm wird (Abbildung 8) beginnen.
Hinweis: Nach Beendigung der Lauf (Abbildung 8), wird das Programm das beste Modell, basierend auf Kriterien angeben zB "Beste Modell nach AIC: WAG + I + G"

5. Herleitung Sequence Based Phylogenien von Maximum-Likelihood-oder Bayes-Inferenz

Heruntergeladene PhyML ⁴ hier:
https://code.google.com/p/phyml/
Starten Sie die ausführbare durch Doppelklick auf die entsprechende Anwendung (dh phyml Windows phyml Linux, etc.) Und die Schnittstelle Fenster öffnet sich (Abbildung 9).
Laden Sie die Eingangssequenz als PHYLIP formatiert Sequenz durch Eingabe von:
> "Dateiname". Phy
Hinweis: Um zwischen Sequenzformate zu konvertieren, benutzen Sie die "Readseq" Web-Programm zur Verfügung - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
Starten Sie das Programm durch Eingabe von "Y".
Laden Sie mrbayes ⁵ hier:
rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
Um das Programm, klicken Sie auf die ausführbare Datei starten und NEXUS formatiert Sequenzdaten lesen, in das Programm durch Eingabe von:
> Execute "Dateiname". Nex
Stellen Sie die Evolutionsmodell.
Wählen Sie die Anzahl der Generationen, die von der Eingabe ausgeführt wird:
> Mcmcp ngen = 1000000 [Dies legt die Anzahl der Generationen, 1000000]
> Sumpf Burnin = 10000 [dies wird die Burnin 10000]
Speichern Sie die Zweiglängen in der Ergebnisdatei, indem Sie:
> Mcmcp savebrlens = yes
Führen Sie die Analyse durch Eingabe von:
> Mcmc
Fassen Sie die Bäume mit dem Befehl "SUMT".

6. Visualisierung Phylogenien

Sehen Sie sich eine Liste der Baum-Viewer-Programme hier:
http://www.treedyn.org/overview/editors.html
Laden Sie die TreeView ¹⁴ progrbin hier:
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die Suche nach Ähnlichkeiten zu einer Abfrage ermöglicht es den Forschern, um eine mögliche Identität, neue Sequenzen zuschreiben und auch schließen, Beziehungen zwischen Sequenzen. Die Datei Eingangstyp für BLAST ist ^ein FASTA formatierten Text-Sequenz oder GenBank-Zugangsnummer. FASTA formatierte Sequenz beginnt mit einem durch ein ">"-Zeichen (Abbildung 2) angegeben Beschreibungszeile. Die Beschreibung muss unmittelbar nach dem Zeichen ">", der Folge (dh. Nukleotide oder Aminosäuren), folgen Sie der Beschreibung auf der nächsten Zeile zu folgen. Beim Speichern und Bearbeiten von Sequenzdateien, ist es am besten, einen Text-Editor wie "Notepad" auf dem PC oder TextWrangler (verwenden Sie http://www.barebones.com/products/textwrangler/ ) für Mac. Der BLAST-Algorithmus führt "lokalen" Ausrichtungen, die für kurze Strecken von Sequenzähnlichkeit sucht. Nach der Algorithmus hat alle möglichen "stretche sahs "aus der Abfrage-Sequenz und maximal ausge diese Sequenzen, dann versammelt Ausrichtungen für jede Abfrage Sequenzpaar. Dann ist es wichtig zu verstehen, wie gut diese Spiele sind, und so gilt BLAST Statistiken zu jedem Treffer, die einen erwarten Wert (E) umfassen und eine Bit-Score. Der E-Wert gibt einen Hinweis auf die statistische Signifikanz für ein Spiel. Je niedriger der E-Wert, desto signifikanter der Hit, beispielsweise ein Sequenz-Alignment mit einem E-Wert von 0,05 bedeutet, dass die Wahrscheinlichkeit dafür Spiel allein durch Zufall auftreten, ist in 5 100. Das Bit-Score verwendet eine spezielle Bewertungsmatrix, um einen Hinweis, wie gut die Ausrichtung. Je höher die Bit-Score, die Ausrichtung. Ähnlich wie bei der Online-Version des BLAST, es gibt, desto besser stellen eine Reihe von Parametern, die über Befehle mit Hilfe des lokalen BLAST ausführbaren Datei festgelegt werden können, eine umfassende Ressource Beschreibung dieser Befehle finden Sie hier -. http://www.ncbi.nlm.nih.gov/books/ NBK1762 /. Der Ausgang des lokalen Suche ist eine Textdatei wie der Ausgang von dem Online-BLAST-Schnittstelle (Fig. 4).

Ein multiples Sequenz-Alignment (MSA) ist ein Sequenz-Alignment von drei oder mehr Primärsequenzen von Aminosäuren, DNA oder RNA besteht. ClustalW ⁶ im Jahr 1994 veröffentlicht wurde, ist eine der beliebtesten MSA-Tools für Biologen. - Eine benutzerfreundliche Online-Schnittstelle, die One-Stop-Zugang zu mehreren beliebten MSA bietet Werkzeuge können an der EMBL-EBI-Server finden Sie hier http://www.ebi.ac.uk/Tools/msa . Der Eingang kann für jedes Programm FASTA formatiert werden Sequenzdaten (siehe Abbildung 2), obwohl viele verschiedene Formate werden auch akzeptiert, und vielen Spiegel für jeden online gefunden werden kann. Zahlreiche Parameter wie Lückenstrafen und Ausgangsformate können leicht ausgewählt werden. Die Ausgabe aus der MSA-T-Kaffee kann in Fig. 5, wobei ähnliche Reste zusammen gesehen werdenlor codiert. In einigen Fällen kann das Werkzeug auch MSA heruntergeladen und lokal ausgeführt werden. - Clustal kann als Kommandozeilenversion (ClustalW) oder eine grafische Version (ClustalX) von dieser Website heruntergeladen werden http://www.clustal.org/clustal2/ . Zum Download klicken Sie einfach auf die entsprechende ausführbare (dh. Win, Linux, Mac OS X). Für Windows die ausführbare Programmdatei wird heruntergeladen und ein Pop-up-Menü wird der Benutzer bei auf "Ausführen", und die Installation beginnt. Das Programm ist sehr intuitiv, können Sequenzen aus einer Textdatei, die Sequenzen als NBRF / PIR, FASTA, EMBL / Swiss-Prot, Clustal, GCC / MSF, GCG9 RSF und GDE formatiert geladen werden. Die Sequenzen werden durch Klicken auf "vollständige Angleichung nicht" aus dem Menü "Ausrichtung" ausgerichtet ist. Eine Probe Ausrichtung sechs Proteinsequenzen mit ClustalX ausgerichtet ist in Abbildung 6 zu sehen. Verschiedene Parameter wie Schriftgröße und Farbe kann leicht geändert werden, und editing von Sequenzen, indem Sie auf das Menü "Bearbeiten" getan. Manuelles verfeinert Ausrichtungen sind oft besser als voll automatisierte Methoden und aus diesem Grund, ist MSA Tool-Entwicklung ein sehr aktives Forschungsgebiet. Einige gemeinsame Ausrichtung Editoren können unter den folgenden Links zu finden: - Se-Al http://tree.bio.ed.ac.uk/software/seal/ ; BSEdit - http://www.bsedit.org/ ; JalView - http://www.jalview.org/ ; SeaView - http://pbil.univ-lyon1.fr/software/seaview.html .

Für Aminosäure-Alignments ProtTest das Programm ¹³ verwendet wird, um die Auswahl des am besten passenden Modelle Aminosäureaustausche innerhalb der Daten zu bestimmen. ProtTest wird diese Auswahl von der Suche nach dem Modell aus der Liste der Kandidaten mit der kleinsten Modelle Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC)-Score, oder Entscheidungstheorie Criterion (DT). Die neueste Version von ProtTest (Version 3.2) enthält 15 verschiedene Rate Matrizen, die in 120 verschiedenen Modellen führen. Der Benutzer muss Java Runtime auf ihrem System zu ProtTest laufen. Java Runtime ist hier frei verfügbar - http://www.java.com/en/download/chrome.jsp . Die Sequenzen werden als PHYLIP oder NEXUS-Format eingegeben. Um zwischen Sequenzformate zu konvertieren, benutzen Sie die "Readseq" Web-Programm zur Verfügung - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi . Klicken Sie auf "Datei auswählen" und laden Sie die Sequenzdaten. Dann klicken Sie auf "Start", und das Programm beginnt. Um die Anzahl der ausgewählten Modelle zu ändern, können Sie auf die "Modelle"-Taste. Sobald das Programm beginnt, dauert es einen Fortschrittsbalken am unteren Rand angezeigt und die Liste der Modelle, wie sie analysiert werden (Abbildung 8 https://code.google.com/p/prottest3/wiki/Background . Es gibt auch einen Online-Web-Schnittstelle für ProtTest die genau wie der Download-Version, außer dass es nur eine begrenzte Anzahl von Sequenzen verarbeiten fungiert. - Das Web-Interface kann hier abgerufen werden http://darwin.uvigo.es/software/prottest2_server.html . Für Nukleotid-Datensätze das Programm jModelTest ¹⁵ verwendet wird, um die statistische Auswahl der Best-Fit-Modelle von Nukleotid-Substitutionen durch die Umsetzung der AIC, BIC, und DT oben genannten Kriterien und auch hierarchische und dynamische Wahrscheinlichkeit Ration Test skizziert untersuchens (hLRT und dLRT). jModelTest ist für Mac OS X. Für die Eingabe optimiert werden mehrere Formate erlaubt. Eine klare Schritt-für-Schritt-Anleitung ist von den Entwicklern hier - http://computing.bio.cam.ac.uk/local/doc/jmodeltest.pdf

PhyML ist ein Programm, das Maximum-Likelihood-Schätzungen Phylogenien Ausrichtungen der Nukleotid-oder Aminosäuresequenzen. PhyML wird eine große Anzahl von Substitutionsmodelle verschiedene Optionen Baumtopologie gekoppelt sind, um Raum (10) zu suchen integrieren. Das Programm wird in zwei Ergebnisse Textdateien zu speichern. Die erste Datei wird die ML-Baum in Newick Format, das leicht mit einem Baum-Viewer (siehe Protokoll 6) angesehen werden können, enthalten, und die andere Datei wird die Statistik enthalten (Dateiname, Modell, Log-Likelihood-Scores, etc.) Der Analyse . Alle Parameter sind sehr leicht, indem Sie die Menüpunkte gesetzt. Detailliertere Beschreibungen der einzelnen Menü op- tion werden in der PhyML Anleitung auf der Download-Seite verfügbar PhyML erklärt https://code.google.com/p/phyml/downloads/list . Mrbayes ⁵ ist ein Programm, das Bayes-Inferenz MCMC in einer Reihe von Entwicklungsmodellen, um Verwandtschaftsverhältnisse rekonstruieren nutzt. Das Programm verhält sich auf allen Plattformen und einmal heruntergeladen wird der Installer die ausführbare Datei zu installieren. Um das Programm zu starten, klicken Sie einfach auf die ausführbare Datei. Es gibt zahlreiche Modelle, die eingestellt werden können, und Details der einzelnen Modelle und deren Befehle können hier gefunden werden - http://mrbayes.sourceforge.net/wiki/index.php/Tutorial . Eine weitere Möglichkeit ist die Hilfe "Hilfe LSet" geben - dies wird Ihnen Informationen über Model-Einstellung. Zum Beispiel "pRSET aamodelpr = mixed" wird gemischt Modellierung oder erlauben "pRSET aamodelpr = Fest (WAG)" wird die Aminosäure-Modell auf den WA eingestellt G-Modell. Ein Fremdgruppe kann leicht durch die Angabe der Anzahl Taxon "Fremdgruppe 30" eingestellt werden, listet das Programm automatisch die Sequenzen / Taxa nach Anzahl. Wenn ein Fremdgruppe nicht angegeben wird der Baum unbewurzelte sein. Sobald das Programm (Abbildung 11) läuft der Fortschritt in bestimmten Abständen, die mit dem Befehl "printfreq = X" eingestellt werden können, betrachtet werden. Weitere Details auf, wenn sie (. Dh wie viele Generationen für ausgeführt) die Analyse kann in der Bedienungsanleitung zu finden stoppen. Clade Werte auf einer cladogram in den Ergebnissen neben einem Phylogramm die auch in Newick Format bereitgestellt, das leicht mit einem Baum-Viewer (siehe Protokoll 6) angesehen werden kann.

Sobald ein phylogenetischer Baum erzeugt wird, muss die Topologie zu visualisieren. Es gibt viele Online-Tools und Anwendungen zum Herunterladen zur Baumtopologien zu visualisieren. Eine teilweise Liste der beliebtesten Programme können hier eingesehen werden -ylogenetic_tree_visualization_software">http://en.wikipedia.org/wiki/List_of_phylogenetic_tree_visualization_software , und eine umfassendere Liste kann hier gefunden werden - http://www.treedyn.org/overview/editors.html . TreeView ¹⁴ und ¹⁶ TreeDyn sind zwei beliebte Möglichkeiten. Beide sind sehr benutzerfreundlich und einfach, sich mit den verschiedenen Optionen vertraut. TreeView läuft auf Mac und Windows, mit fast identischen Schnittstellen. Der Eingang kann eine von mehreren Formaten, einschließlich NEXUS, PHYLIP, Hennig86, MEGA und ClustalW / X. TreeView (Abbildung 12) enthält auch eine Baum-Editor, der es dem Benutzer, Äste bewegen sich, reroot Bäumen, und ordnen Sie das Aussehen des Baumes ermöglicht.

Figur 1
Fig. 1 ist. > NCBI BLAST-Web-Seite. Der BLAST-Web-Server enthält eine Reihe von BLAST-Programmen und wird von der National Center for Biotechnology Information (NCBI) gehostet. Klicken Sie hier für eine größere Ansicht.

Figur 2
2. FASTA formatierten Reihenfolge. FASTA-Format beginnt mit einem durch ein ">" gekennzeichnet Beschreibungszeile. Die Beschreibung muss unmittelbar nach dem Zeichen ">", der Folge (dh. Nukleotide oder Aminosäuren), folgen Sie der Beschreibung auf der nächsten Zeile zu folgen. Klicken Sie hier für eine größere Ansicht.

nt "fo: keep-together.within-page =" always "> Fig. 3

Abbildung 3. HTML-Ausgabe von einer BLAST-Suche. Die Ausgabe aus dem BLAST-Suche zeigt die Bereiche der Identität innerhalb der Abfragesequenz und bietet auch Bit-Werte erwarten Werte und paarweise Alignments mit jedem Spiel. Klicken Sie hier für eine größere Ansicht.

Fig. 4
Abbildung 4. Die Ausgabe von einer lokalen ausführbaren BLAST-Suche. Der Ausgang dieser Suche ist eine Textdatei, wie die Ausgabe von dem Online-BLAST-Schnittstelle, dass sind die Wert-und Bit-erwarten-Score, sowie Match Beschreibung. Klicken Sie hier für eine größere Ansicht.

Figur 5
Abbildung 5. Ausgabe eines MSA mit T-Coffee. Der Ausgang hebt ähnlichen Websites und Gewichte das Spiel von Farbe. Lücken werden als eingelegt "-" Zeichen und der Rückstand oder Nukleotid-Position wird für jedes Taxon erhalten. Klicken Sie hier für eine größere Ansicht.

ig6.jpg "/>
Abbildung 6. Eine Probe Ausrichtung mit ClustalX. Ähnliche Spiele sind farbcodiert und Lücken werden als eingelegt "-" Zeichen. Die Menüleiste ist in der oberen linken gesehen. Klicken Sie hier für eine größere Ansicht.

Fig. 7
Abbildung 7. ProtTest Die Programmoberfläche. Klicken Sie hier für eine größere Ansicht.

Fig. 8
Figure 8. ProtTest Die Konsole. ProtTest Konsole während der Ausführung einer Analyse. Der Fortschrittsbalken zeigt an, wie viele Modelle abgeschlossen sind, und das Hauptfenster wird der Log-Likelihood-Punktzahl für jedes Modell. Klicken Sie hier für eine größere Ansicht.

Fig. 9
Abbildung 9. Die PhyML Schnittstelle. Klicken Sie hier für eine größere Ansicht.

Abbildung 10. Das Interface-Menü PhyML. Sobald Sequenzen werden in PhyML geladen das erste Menü angezeigt wird, die durch die Eingabe der Buchstaben oder ein Symbol in der eckigen Klammer navigiert werden kann. Untermenüs können durch Eingabe des "+"-Zeichen erreicht werden. Klicken Sie hier für eine größere Ansicht.

Abbildung 11. Mrbayes Schnittstelle. Wenn mrbayes wird den Fortschritt startete in bestimmten Abständen betrachtet werden gesetzt mit dem "printfreq = X"-Befehl. Obwohl das Programm nicht während einer Fahrt gestoppt werden, nachdem die festgelegte Anzahl von Generationen berechnet wird der Benutzer gefragt, ob sie zu mehr Generationen ausführen möchten.www.jove.com/files/ftp_upload/50975/50975fig11highres.jpg "target =" _blank "> Klicken Sie hier für eine größere Ansicht.

Abbildung 12. Das TreeView-Schnittstelle. In dieser Abbildung zeigt das TreeView Fenster ein Probebaum von Proteinen aus FlyBase (http://flybase.org/). Die Dateien werden durch Klicken auf die Option "Öffnen", und wählen Sie das entsprechende Dateiformat (zB. Newick-Format) importiert. Klicken Sie hier für eine größere Ansicht.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Unsere Hoffnung für diesen Artikel ist, dass es als Ausgangspunkt dienen, um Forscher und Studenten, die neu für phylogenetics sind zu führen. Genomsequenzierungsprojekte sind günstiger geworden in den letzten Jahren und in der Folge die Nachfrage der Nutzer nach dieser Technologie nimmt zu, und jetzt ist die Produktion von großen Datenmengen Sequenz ist alltäglich in kleinen Labors. Diese Datensätze bieten oft Forscher mit Gruppen von Genen, die eine phylogenetische Rahmen benötigen, um zu beginnen, um ihre Funktion zu verstehen. Darüber hinaus, weil phylogenetics wird die Suche nach einem Haus in einer ständig wachsenden Zahl von Forschungslabors haben wir auch für diesen Artikel vor, als Bildungseinrichtung für Studenten im Großen und Ganzen in der biologischen Forschung dienen. Durch die Bereitstellung von Benutzerinformationen auf dem "warum", "wie" und "wo" für häufig verwendete Baum-Gebäude-Tools, bieten wir einen Rahmen für den Leser fangen an, sich mit diesen Anwendungen vertraut zu machen und wie sie funktionieren. However, raten wir dem Leser zu spielen, um mit allen Einstellungen innerhalb jedes Werkzeug in einem Versuch zu verstehen, wie die verschiedenen Parameter können ihre Sequenzdaten zu beeinflussen und um die Kompatibilität zwischen der Plattform und Software in jedem Fall zu gewährleisten. Die Analyse oben beschrieben wurde mit einem Dell Optiplex 990 mit Intel Core i7 Prozessor und ein MacBook Laptop mit einem Intel Core 2 Duo Prozessor berechnet wird, jedoch die Geschwindigkeit der Analyse und auch die spezifische Binärdateien (zB. 32 Bit oder 64 Bit) wird davon abhängen, auf der Plattform des Benutzers.

Eine Herausforderung bei der Erstellung einer Anleitung wie diese für die Phylogenie, ist, dass das Gebiet der Phylogenie und Bioinformatik als Ganzes, ist ein schnell wachsender Bereich der Forschung, die ständig neue Software-Releases auf eine bessere Ausrichtungen Ähnlichkeit Vorhersagen oder Stammbäumen gerichtet . Um dieses Problem zu mildern, haben wir versucht, auf Programme, die sich für eine Reihe von Jahren waren und sind noch immer sehr beliebt wegen o konzentrierenf, wie gut sie funktionieren. Das heißt, wir weisen darauf hin, dass es viele andere zur Verfügung, um die Probleme, die wir in diesem Artikel beschrieben, und so den Leser zu ermutigen, dies zu nutzen und zu integrieren mehrere Anwendungen in ihre Analysen Gerätwerkzeuge möchten.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Wir haben nichts zu offenbaren.

Acknowledgments

Wir danken Mitglieder der O'Halloran Labor für Kommentare zum Manuskript. Wir danken der George Washington University Department of Biological Sciences und Columbian College of Arts and Sciences für die Finanzierung der Maßnahmen D. O'Halloran.

Materials

Name	Company	Catalog Number	Comments
BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

DOWNLOAD MATERIALS LIST

References

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Biology

A Practical Guide to Phylogenetics für Nichtexperten

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.