Behavior

Erstellen und anwenden von einen Verweis zur Erleichterung der Diskussion und Klassifikation der Proteine in eine bunt gemischte Gruppe

Published: August 16, 2017 doi: 10.3791/56107

¹Department of Microbiology and Immunology, Arizona College of Osteopathic Medicine, Midwestern University

Summary

Das Ziel dieses Protokolls ist es, eine Referenz für unterschiedliche Proteine in einer Gruppe zu entwickeln, die kohärente Kriterien für Nomenklatur und Klassifizierung fehlt. Dieser Verweis erleichtert die Analyse und Diskussion der Gruppe als Ganzes und kann neben etablierten Namen verwendet werden.

Abstract

Verwandte Proteine, die in verschiedenen Labors mit unterschiedlichen Organismen untersucht wurden, fehlen möglicherweise ein einheitliches System der Nomenklatur und Klassifizierung, macht es schwierig, die Gruppe als Ganzes zu diskutieren und neue Sequenzen in den entsprechenden Kontext zu platzieren. Eine Referenz, die wichtige Reihenfolge Funktionen priorisiert die Entwicklung im Zusammenhang mit Struktur und/oder Aktivität kann neben etablierten Namen hinzufügen einige Kohärenz zu einer vielfältigen Gruppe von Proteinen verwendet werden. Dieses Papier verwendet die Cystein-stabilisierten Alpha-Helix (CS-αβ) Überfamilie als Beispiel um zu zeigen, wie eine Referenz in Tabellenkalkulations-Software erzeugt kann klären Beziehungen zwischen vorhandenen Proteine in der Superfamilie, sowie erleichtern die Zugabe von neu Sequenzen. Es zeigt auch, wie die Referenz zur Sequenz Ausrichtungen erzeugt häufig verwendete Software, was Auswirkungen auf die Gültigkeit der phylogenetische Analysen zu verfeinern beitragen kann. Die Verwendung eines Verweises werden wahrscheinlich am hilfreichsten für Protein-Gruppen, die stark divergierende Sequenzen aus einem breiten Spektrum von Taxa mit Features enthalten, die nicht ausreichend durch molekulare Analysen erfasst werden.

Introduction

Ein Protein namens sollte widerspiegeln, ist Eigenschaften und Beziehungen zu anderen Proteinen. Leider Namen werden in der Regel zum Zeitpunkt der Entdeckung und Forschung geht weiter, das Verständnis von den größeren Kontext kann sich ändern. Dies kann zu mehreren Namen führen, wenn ein Protein unabhängig von mehr als ein Labor, Änderungen in der Nomenklatur oder in den Eigenschaften dachte, endgültig zu sein, wenn der Name zuweisen und den Namen nicht mehr ausreichend differenziert das Protein identifiziert wurde von den anderen.

Wirbellosen Defensine sind ein gutes Beispiel der Degeneration in Nomenklatur und Klassifizierung. Die ersten Wirbellosen Defensine wurden von Insekten gemeldet, und der Name "Insekt defensin" wurde anhand der wahrgenommenen Homologie zu Säugetieren Defensine¹^,²vorgeschlagen. Der Begriff defensin wird noch verwendet, obwohl es ist nun klar, dass Wirbellosen und Säugetieren Defensine teilen keinen gemeinsamen Vorfahren³^,⁴. Je nach Tierart möglicherweise ein Wirbellosen "defensin" sechs oder acht Cysteine (, die drei oder vier Disulfid-Bindungen bilden) und eine Vielzahl von antimikrobiellen Aktivitäten. Die Situation, Proteine mit den gleichen Merkmalen zu erschweren wie Defensine "Defensine," nicht immer genannt werden wie die kürzlich identifizierten Cremycins von Caenorhabditis Remanei⁵. Darüber hinaus sind Wirbellosen große Defensine eher evolutionär auf vertebrate β-Defensine als auf anderen Wirbellosen Defensine⁶bezogen werden. Trotzdem setzen Forscher manchmal auf den Namen "defensin" bei der Bestimmung, welche Sequenzen in Analysen einbezogen werden sollten.

Strukturelle Studien zeigten die Ähnlichkeit zwischen Insekten Defensine und Skorpion-Toxine-⁷und die CS-αβ-Falte wurde anschließend als strukturelle Charakteristikum von Insekten Defensine⁸gegründet. Diese Falte definiert den Skorpion Toxin-ähnliche (CS-αβ)-Superfamilie in die strukturelle Klassifikation der Proteine (SCOP) Datenbank⁹umfasst derzeit fünf Familien: Insekt Defensine, kurzkettige Skorpion-Toxine, langkettige Skorpion-Toxine, MGD-1 (ein Weichtier) und pflanzlichen Defensine. Diese Überfamilie ist gleichbedeutend mit der kürzlich beschriebene Cis-Defensine⁴ und Superfamily 3.30.30.10 CATH/gen 3D Datenbank¹⁰^,¹¹. Studien aus einer Vielzahl von Wirbellosen Taxa, Pflanzen und Pilze zeigen, dass die Namen der Proteine, die diese Falte enthalten nicht eindeutig mit Cystein Anzahl oder Verklebung Muster, antimikrobielle Aktivität oder Evolutionsgeschichte¹²zusammenhängen.

Der Mangel an Konsequenz und klare Kriterien machen es schwierig zu benennen und neu identifizierten Sequenzen in dieser Überfamilie zu klassifizieren. Ein großes Hindernis für Proteine in dieser Überfamilie zu vergleichen ist, dass Cysteine, in Bezug auf jede einzelne Sequenz gezählt sind (die erste Cystein in jeder Sequenz ist C1), ohne die Möglichkeit, um die strukturelle Rolle zu berücksichtigen. Dies bedeutet, dass nur Sequenzen mit der gleichen Anzahl von Cysteine verglichen werden können. Es gibt kleine Sequenz Erhaltung als die Cysteine bilden die CS-αβ-Falte, die Achsen und phylogenetische Analysen erschwert. Durch die Entwicklung ein Zahlensystem, das strukturelle Merkmale priorisiert, können leichter Superfamilie Sequenzen verglichen und ausgerichtet. Konservierten Funktionen, sowie die Festlegung auf eine der Untergruppen können schnell visualisiert werden, und neue Sequenzen können leichter in den entsprechenden Kontext gesetzt werden.

Dieses Papier verwendet ein Tabellenkalkulationsprogramm (z.B. Excel) um einen Verweis Nummerierungs-System für die CS-αβ-Superfamilie zu generieren. Es zeigt, wie dies klärt Vergleiche zwischen Sequenzen und wendet sie auf neue CS-αβ-Sequenzen von Bärtierchen identifiziert. Beispiel von der CS-αβ-Superfamilie, wurde das Protokoll geschrieben, um Hilfestellung bei der Verwendung von Sequenzen von Interesse; Es soll jedoch nicht spezifisch zu dieser Überfamilie oder Cystein-reichen Sequenzen sein. Diese Methode werden wahrscheinlich besonders für Gruppen von Proteinen, die wurden unabhängig voneinander in unterschiedlichen Taxa recherchiert und/oder haben wenig allgemeine Sequenzhomologie mit diskreten Merkmalen, die nicht leicht durch molekulare Analysesoftware erkannt werden kann. Diese Methode erfordert einige a-priori Entscheidungen über wichtige Funktionen, so dass es von begrenztem Nutzen sein wird, wenn keine wichtigen Funktionen identifiziert wurden. Das primäre Ziel ist zu zeigen, wie eine einfache Visualisierung der Sequenz Beziehungen erreicht werden kann. Dies kann dann zur Sequenzalignment und Analyse zu informieren, aber wenn Ausrichtung und Analyse der primären Ziele sind, wäre eine Barcode-Methode eine geeignete Alternative, die mehr Kapazität für Automatisierung¹³hat. Die aktuelle Methode zeigt die Funktionen jedes Peptid in einer linearen Form, so wird es nicht hilfreich für die direkte Visualisierung der 3D-Struktur.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. bestimmen die Definition von Funktionen des Arbeitskreises Protein des Interesses

Consult bisherige Veröffentlichungen zu ermitteln, ob ein Konsens über die Funktionen, die erforderlich sind, um die Gruppe zugerechnet werden. Beachten Sie alle Unstimmigkeiten oder Meinungsverschiedenheiten zwischen Forschungsgruppen, und enthalten Eigenschaften, die dazu dienen können, eine Untergruppe von anderen zu unterscheiden.
Verwenden frühere Literatur definierenden Merkmale nicht anspricht, Sequenzen, die Vertreter der Gruppe als Ausgangspunkt gelten, konservierte Funktionen zu identifizieren.

2. Sammeln von relevanten Sequenzen

Wenn Bewertungen, die geschrieben wurden auch Analysen von Sequenzen, die die Gruppe vertreten sind, gehören diese Sequenzen im roh-Dataset. Sequenzen mit Beitritt Zahlen in der Literatur verwiesen abrufen und speichern in einer Stammfolge Bildbearbeitungsprogramm (z. B. EditSeq in der Lasergene Suite oder einen von vielen für kostenlose Online-).
Wenn die betreffende Gruppe in einer der strukturellen Datenbanken definiert wurde sind die Sequenzen, die die Datenbank listet als Teil der Gruppe. abrufen Sequenzen mit Beitritt Zahlen in der Datenbank zur Verfügung gestellt und in eine Stammfolge Bearbeitung speichern Programm, wie oben beschrieben.
Hinweis: zum Beispiel die Sequenzen in der CS-αβ (Skorpion Toxin-ähnliche)-Superfamilie in der SCOP-Datenbank kategorisiert finden Sie hier: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
führen Sie grundlegende lokale Ausrichtung Suche Tool (BLAST) ¹⁴ Durchsuchungen von öffentlichen, Online-Datenbanken zur Verfügung, durch das nationale Zentrum für Biotechnologie-Information (NCBI), Sequenzen zu finden, die in der Literatur nicht aufgenommen haben oder strukturelle Datenbanken. Für die meisten Ergebnisse komplette, beide das Protein BLAST (Blastp verwenden) und Explosion mit Protein Abfrage (Tblastn) Programme übersetzt; Diese sind beide abrufbar: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
1. Verwendung Sequenzen bekannt als Teil der Gruppe von Interesse als Abfrage-Sequenzen. Kopieren und einfügen die Sequenz in das Suchfeld oben oder bieten eine GenBank-Beitritt-Nummer oder gi ID, falls verfügbar.
2. Wählen Sie die Datenbank aus dem Drop-Down-Menü. Wählen Sie nicht-redundanten Proteinsequenzen (nr) für Blastp und ausgedrückt Sequenz Tags für Tblastn.
3. Suche nach Ergebnissen in bestimmten Taxa in den Organismus durch den Organismus oder Taxon Name eingeben und wählen aus der Liste, die während der Eingabe angezeigt wird. Um zusätzliche Organismen oder Taxa auszuschließende hinzuzufügen, klicken Sie auf die " + " Button und ein anderes Feld erscheint. Ausgeschlossen werden alle unerwünschten Taxa im Feld Organismus durch Eingabe des Organismus oder Taxon namens, Auswahl aus der Liste, die angezeigt wird, während der Eingabe und Überprüfung der " ausschließen " Box auf der rechten Seite.
4. Zugriff auf zusätzliche Parameter durch Anklicken " Algorithmus-Parameter " in der Nähe von der Unterseite der Seite. Bei Standard zu verlassen, es sei denn, eine Begründung für die Änderung eines Parameters.
5. Klicken Sie auf die " Explosion " Taste, um die Analyse zu starten, dauert es einige Zeit für die Ergebnisse angezeigt werden. In der Regel abrufen Treffer mit einem erwarten Wert (oder e-Wert) des "-05 " oder besser und speichern in einer Stammfolge Bearbeitungsprogramm.
  1. Wenn alle Treffer oberhalb dieser Schwelle sind, erneut die Suche mit einer erhöhten Anzahl von Zielsequenzen (im Abschnitt Algorithmus-Parameter) ausgeführt, um alle relevanten Abläufe erhalten.
Bei Bedarf kürzen die Sequenzen um irrelevante Informationen (z. B. CS-αβ Falte bezieht sich nur auf die Reife Peptid) auszuschließen. Identifizieren, Signal-Peptide und Pro-Peptide für die Entfernung mit ProP ¹⁵ (vorhanden online), oder SignalP für anspruchsvollere Signal-Peptid Vorhersage ¹⁶ (verfügbar online-).

3. Generieren Sie einen Verweis in einer Tabellenkalkulation basierend auf die wichtigen Funktionen, wurden identifiziert

identifizieren die definierenden Eigenschaften der Gruppe von Interesse. Z. B. die CS-αβ-Falte endgültig festgelegten der Lösungsstruktur des Insekts defensin A Phormia Terraenovae ( Abbildung 1) ⁸.
1. Diese Falte umfasst eine kleinere Motiv namens Cystein-stabilisierten Helix (CSH) ¹⁷; identifizieren dieses Motiv durch eine CXXXC (wobei X ist jede Aminosäure) vorgeschaltet ein CXC, die zwei Disulfid-Bindungen zu bilden ( Abbildung 1 , solide Rosa Linien).
  Hinweis: Zur Vervollständigung der CS-αβ-Motiv eine dritte Disulfid Bindung wird gebildet von zusätzlichen Cysteine, die vor jeder Hälfte des CSH-Motivs ( Abbildung 1, Rosa Linien punktiert).
Geben Sie diese Funktionen in einer Tabelle definieren. Siehe Abbildung 2.
1. Verwendung Spalten für die konservierten Funktionen und die Abstände zwischen diesen Funktionen zu vertreten. Halten Sie die Spalten breit genug, um Zahlen zu passen und sicherzustellen, dass sie eine einheitliche Breite haben. Stellen Sie die Breite mit dem " Format | Spaltenbreite " Funktion ( Abbildung 2, rosa Pfeil).
2. Verwenden Sie die Reihen für die Sequenz Namen.
3. Wenn eine Sequenz hat die Funktion, füllen Sie das Feld mit der Füllung-Funktion ( Abbildung 2, rosa Quadrat). Geben Sie für den Abstand zwischen Funktionen die Anzahl der Aminosäuren im Feld zwischen und ungefüllt lassen. Zum Beispiel verwenden das Insekt defensin Sequenz gibt einen Hinweis, der enthält sechs Cysteine mit definierten Abstände zwischen C2 und C3 und C5 und C6.
Repräsentative Sequenzen, die zuvor festgelegt wurden als Mitglieder der Gruppe anhand der strukturellen Datenbanken und Literatur hinzufügen.
Hinweis: Z. B. frühere Literatur und der SCOP-Datenbank identifiziert werden mehrere Gruppen für die Aufnahme: Insekt Defensine, kurzkettige Skorpion-Toxine, langkettige Skorpion-Toxine, MGD-1, Drosomycins von Drosophila, pflanzlichen Defensine, Nematoden ABFs und Macins. Die Literatur kennzeichnet auch eine bakterielle Sequenz mit nur vier Cysteines, die die Vorfahren dieser Überfamilie ¹⁸ darstellen könnte. Hinzufügen dieser Sequenzen erhöht die Anzahl der Cysteine in der Referenz von sechs auf zehn aber behält die Ausrichtung der wichtige Strukturmerkmale ( Abbildung 3).
1. Verwenden, um eine Funktion hinzuzufügen, die wahrscheinlich eine Untergruppe von Sequenzen (z. B. eine zusätzliche Cystein) definieren die " Insert " Funktion ( Abbildung 3, rosa Pfeil).
2. Wenn es Funktionen fehlen in einer bestimmten Reihenfolge, lassen Sie das Feld ungefüllt und kombinieren Sie es mit Boxen, dazwischen liegenden Aminosäuren darstellt. Bei Bedarf verbinden die Zellen mit dem Zusammenführen und Center-Funktion ( Abbildung 3, rosa Schachtel).
Weiter Sequenzen zu den Gruppen hinzufügen, um ein besseres Bild von der Variation in jeder Gruppe von der größeren Superfamilie zu gewinnen. Fassen Sie die Gruppeneigenschaften zu Vergleichszwecken ( Abbildung 4).
1. Wenn die Anzahl der Aminosäuren zwischen hauptsächlicheigenschaften variiert, verwenden Sie einen Bindestrich an ein Spektrum, wie 6-12 (6 bis 12 Aminosäuren) und einem Schrägstrich an, entweder / oder, wie z. B. 7/10 (7 oder 10 Aminosäuren).
2. Wählen Sie eine Möglichkeit, kommentieren Merkmale der Sequenzen, die relevant sein können, aber nicht oft genug auftreten, in der Referenz aufzunehmen. Zum Beispiel da Cysteine wichtig in dieser Überfamilie sind, zusätzliche Cysteine ( Abbildung 4, rosa Boxen) beschriften.
Strecke hinzufügeny-identifiziert Sequenzen in die Tabelle mit den etablierten Sequenzen als Leitfaden. Z. B. Hinzufügen von Sequenzen aus Bärtierchen (gelb) zeigt, dass die tardigrade Sequenzen in verschiedene Gruppen der Superfamilie fallen ( Abbildung 5 zeigt Zusammenfassungen statt eine Zeile pro Sequenz Raum Zwecken).
Zeigen Variabilität innerhalb einer taxonomischen Gruppe durch Umstellung der Zeilen ( Abbildung 6).

4. Verwenden Sie die Referenz zu verfeinern Aminosäure Achsen

Hinweis: Es gibt viele Programme, die für mehrere Achsen Sequenz verwendet werden können, aber diese Demonstration verwendet molekulare Analyse für evolutionäre Genetik (MEGA6) ¹⁹ denn es zum kostenlosen Download zur Verfügung.

Herunterladen und installieren der Software.
Wählen Sie zunächst eine neue Ausrichtung in MEGA " bearbeiten/Build Ausrichtung " unter die Registerkarte "Align" Select " erstellen Sie eine neue Achse " in das Feld, das angezeigt wird, und klicken Sie auf " OK. " wählen Sie dann " Protein. "
Select " Sequenz einfügen aus Datei " in das " bearbeiten " Menü, die Sequenzen zu importieren.
Hinweis: Sequenzen müssen im FASTA-Format für den Import in MEGA sein. Hintergrundfarben, die verschiedenen Aminosäure Arten reflektieren standardmäßig verwendet werden, aber diese Option kann ausgeschaltet werden, unter dem " Display " Menü.
Einmal alle Sequenzen eingegeben sind, klicken Sie auf Biegen Arm und dann " ausrichten Protein ", richten Sie die Sequenzen mit den Muskel Algorithmus ²⁰.
Hinweis: ClustalW ist auch verfügbar.
1. Wenn eine Meldung, dass nichts ausgewählten Pop worden und bittet alle, auswählen klicken " OK. "
2. Hinweis: Es öffnet sich ein Fenster, das erlaubt es, einige Parameter zu ändern, aber sie sollten nur geändert werden gibt es Grund, dies zu tun. Diese Analyse verwendet eine Teilmenge der Sequenzen analysiert in einem früheren Papier ¹².
Check die Ausrichtung anhand von wichtigen Funktionen, Anmerkung, die die obere Leiste oberhalb der Sequenzen keine Spalten zeigen, wo die Aminosäure ist komplett konserviert (*). Siehe Abbildung 7. Sehen Sie, dass die anfängliche Ausrichtung zeigt nur drei von den vier konservierte Cysteine ( Abbildung 7, rosa Boxen); auf der Suche nach unten in der Spalte, die AlCRP-Sequenz ist eindeutig falsch ausgerichtet ( Abbildung 7, rosa Pfeil).
Get rid of die große Lücke zwischen dem ich und die konservierte C, die Striche markieren Sie die " löschen " Schlüssel. Markieren Sie alle Aminosäuren nicht, oder sie werden auch gelöscht werden.
, Aminosäuren nach rechts zu verschieben, markieren und drücken der Space-Bar
1. Beachten Sie, dass die AlCRP nun die strukturellen Cysteine ausgerichtet hat und die letzten C des CXXXC Motif während der Ausrichtung ( Abbildung 8) konserviert ist. Passen Sie die Ausrichtung wie nötig, um die wichtigsten Merkmale der Sequenzen priorisieren.

5. Die Gruppen identifiziert anhand der Verweis mit Ergebnissen von phylogenetische Analysen vergleichen

von vorläufigen Achsen bestimmen welche Sequenzen in einer phylogenetischen Analyse; für eine kleine Anzahl von Sequenzen enthalten sein sollte, kann dieser Schritt werden unnötige.
1. Halten eine Ausrichtung-Datei, die alle Sequenzen enthält, aber für eine phylogenetische Analyse, entfernen Sie überflüssige Sequenzen ( Abbildung 9, rosa Boxen zeigen Paare von redundanten Sequenzen).
2. Wenn der Datensatz eine große Anzahl von Sequenzen umfasst, führen Sie eine vorläufige Analyse und wählen Sie Vertreter von Gruppen bilden, die immer ein Clade.
Bestimmen das beste Aminosäure-Substitution Modell.
1. Export die Ausrichtung im MEGA-Format (unter der Registerkarte "Daten").
2. Modelle im Menü und wählen Sie " finden beste DNA/Protein Modell. " wählen Sie die gerade gespeicherte Datei und öffnen Sie es, dies öffnet ein Fenster, in dem einige Parameter hat, die geändert werden können.
3. Verwenden die Default-Parameter, es sei denn, es einen Grund gibt, sie zu ändern. Klicken Sie " berechnen " um die Analyse zu beginnen.
Führen eine maximum-Likelihood (ML)-Analyse in MEGA.
1. Wählen " Konstrukt/Test maximale Wahrscheinlichkeit Baum " im Menü der Phylogenie.
2. Wählen Sie das Modell entschlossen, die beste Lösung für die Daten aus Schritt 5.2 sein (die Ausgabe geben die Ersatz-Modell sowie die besten " bei Websites " Parameter).
3. Wählen Sie 1.000 Bootstrap repliziert, um die Unterstützungsmaßnahmen für den Baum zu erhalten.
4. Klicken Sie " berechnen ", führen Sie die Analyse; MEGA hat ein " Baum Explorer " um den Baum zu visualisieren.
MrBayes Open-Source-Software ²¹ eine Bayes'sche Analyse eingelaufen.
Hinweis: Ein MrBayes Handbuch ist auch von dieser Seite zur Verfügung. Dies soll grundlegende Schritte geben und ist keine umfassende Anleitung zur Bayes'schen phylogenetische Analysen.
1. Exportieren die MEGA-Ausrichtung in PAUP (Nexus) Format im gleichen Ordner wie das Programm MrBayes.
2. Offene MrBayes und Typ " Exe Dateiname " (z. B. " Exe Alignment.nex ").
3. Geben Sie die Modell- und Analyse Parameter. Wählen Sie entweder das Modell im Schritt 5.2 angegeben oder wählen Sie die " gemischte " Einstellung, werde versuchen verschiedene Modelle und melden die Frequenz des Modells in den Bäumen mit den besten posterioren Wahrscheinlichkeiten (Prset Aamodelpr = gemischt). Typ " Zusammenstellung " die Einstellungen der aktuellen Berichten und " helfen, Mcmc " aktuellen Parametereinstellungen, mit einer kurzen Erklärung der einzelnen zeigen.
4. Legen Sie die Anzahl von Generationen mit der " Mcmcp Ngen = " Befehl (1 Million ist typisch).
5. Typ " Mcmc " um die Analyse zu beginnen.
6. , Wenn die Anzahl von Generationen abgeschlossen ist, fragt das Programm weitere Generationen hinzufügen. Wenn die durchschnittliche Standardabweichung der geteilten Frequenzen kleiner als 0,1 ist, Typ-Nr. Wenn es über 0,1, die Analyse darf weiter, oder einige Parameter geändert werden soll (siehe Handbuch).
7. Verwendung der " Sumt " Befehl, um die Baum-Dateien generieren.
8. Nach Abschluss die Analyse und ein Konsens Baum entsteht, kann der Baum in Volksheiligen angezeigt werden (vorhanden online).
Die Bäume zu sehen, ob die Methoden konsistente Ergebnisse erzeugen zu vergleichen.
Hinweis: Einige Sequenzen bieten nicht viele Informationen: Bäume können nicht gut aufgelöst werden und die Zweige müssen nur minimale Unterstützung ( Abbildung 10).
Bäume, um die Gruppen identifiziert, mit der Referenz um zu sehen, ob die phylogenetischen Analysen diese Gruppen unterstützen zu vergleichen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Gruppen von Sequenzen in der CS-αβ-Superfamilie in der Literatur beschrieben sind in Abbildung 4dargestellt. Die Cystein-Paarungen anhand der Nummerierung für jede Sequenz schlagen fünf Hauptgruppen (Tabelle 1, mittlere Spalte). Gruppe 1 hat sechs Cysteines, die aus drei Disulfid-Anleihen und Sequenzen aus Insekten, Spinnentiere, Mollusken, Nematoden und Pilze gehören. Gruppen 2, 3 und 4 haben 8 Cysteines, die vier Disulfid-Bindungen bilden. Gruppe 2 gehören Insekten, Arachnid und Pflanze Sequenzen; Gruppe 3 umfasst Arachnid, Molluske und Nematoden Sequenzen; Gruppe 4 mit Sequenzen aus Pilzen, Nesseltieren, Anneliden und Mollusken. Gruppe 5 umfasst 10 Cystein Macins. Einige Sequenzen passte nicht ganz diese Muster aber waren eine Gruppe in der Regel näher als der andere.

Gruppen 1 und 2 scheinen zwei Anleihen zu teilen: C2-C5 und C3-C6; beginnt die Nummerierung jeder Sequenz mit seiner ersten Cystein erkennt jedoch nicht die strukturellen Kontext der Anleihen an. C2-C5 in der Gruppe 1 Sequenzen Formen, die eines der beiden in der CSH-Motiv, Anleihen, während C2-C5 in Gruppe 2 Sequenzen bildet das letzte Band musste die CS-αβ-Falte zu stabilisieren. Die homologe Anleihe zu Gruppe 1 C2-C5 ist Group2 C3-C6, die nicht offensichtlich von der Nummerierung. Es ist auch nicht offensichtlich, dass in Gruppe 3, die C2-C6-Anleihe die gleichen strukturellen Rolle spielt.

Mit Sequenzen aus der Literatur erzeugt einen Verweis mit insgesamt zehn Cysteine. Das CSH-Motiv aus Anleihen C3-C8 und C4-C9, mit C2-C6-Abschluss der CS-αβ-Falte gebildet wird. Umnummerierung der Cystein-Paare anhand der Referenznummern klärt die Bindungen vorhanden in jeder Sequenz (Tabelle 1, Rechte Spalte). Es ist nun offensichtlich, dass alle Sequenzen C2-C6, C8-C3 und C4-C9, spiegelt die strukturellen Falte, die der Überfamilie definiert. Die Verwendung eines Verweises ermöglicht einen einfachen Vergleich zwischen Sequenzen, die uneinheitliche Nomenklatur und mehrdeutige Einstufungskriterien. Es kann auch helfen, um Merkmale zu identifizieren, die eine Untergruppe der Sequenzen definieren. Die C1-C7-Anleihe kann beispielsweise andere Superfamilie Mitglieder, so dass es Sequenzen mit dieser Anleihe als "Macins" anstatt "Defensine" (Tabelle 1 und Abbildung 4) zusammengefaßt Macins unterscheiden.

Durchsuchungen von öffentlichen Online-Datenbanken ergab 16 Sequenzen von Bärtierchen, die eindeutig die CS-αβ Falten, acht aus Hypsibius Dujardini und mindestens Tardigradum. Vier der neuen Sequenzen haben sechs Cysteine, neun haben acht, man hat neun, und zwei haben zehn. Das gibt sehr wenig Informationen, aber durch die Ausrichtung der Sequenzen zur Referenz, wird klar, dass tardigrade Sequenzen mit der gleichen Anzahl von Cysteine strukturell wichtige Cysteine nicht immer an der gleichen Stelle innerhalb der Sequenz ( haben Abbildung 5 und Abbildung 6). Die Angleichung an die Referenz ermöglicht auch die Ableitung der Verklebung Muster (Tabelle 2, abgeleitet Verklebung Muster in Klammern angezeigt). Einige der tardigrade Sequenzen passen eindeutig Muster 1-4. Andere sind der vorgeschlagenen bakterielle Vorfahr, Skorpion Cl-Toxin oder eine Familie Pilz defensin-wie Peptide am ähnlichsten. Muster 2 möglicherweise zwei Untergruppen, repräsentiert durch Skorpion Na + Gifte, Drosomycin, und pflanzlichen Defensine und die andere von Scorpion Cl-Toxine. Weitere Arbeiten untersuchen die Funktion der tardigrade Proteine ist erforderlich, um festzustellen, ob einige Giftstoffe anstatt Defensine berücksichtigt werden sollten.

Phylogenetische Analysen werden häufig zu studieren, wie eine Gruppe von Proteinen entwickelt haben kann. Die Sequenzen in der CS-αβ-Superfamilie sind in der Regel kurz und stark divergierenden; resultierende Bäume sind oft schlecht gelöst und bieten wenig Einblick. Der ML und Bayes Bäume für die Teilmenge der Sequenzen hier analysiert wurden schlecht gelöst, mit geringer Unterstützung für viele Stämme (Abbildung 10, ergänzende Dateien 1 - 4). Es ist üblich, nur bootstrap Ebenen über 70 (oder posteriore Wahrscheinlichkeiten über 0,7) zeigen, aber Abbildung 10 behält alle Zahlen um das insgesamt niedrige Niveau der Unterstützung zu demonstrieren. Fünf Gruppen wurden über 70/0,7 in mindestens einer der beiden Bäume unterstützt: (a) eine 6C und ein 8C Skorpion Toxin; (b) Macins; (C) Tick und Skorpion Defensine; (d) Pflanze Defensine; und (e) 6C Defensine von Mollusken, Insekten und Spinnentiere. In der Struktur der ML Clade e enthält auch ein 8C-Toxin und ein 8C tardigrade defensin, aber Unterstützung war sehr gering (Abb. 10A). In der Regel diese reflektieren die Kategorien mit der Referenz-Cystein-Nummerierung gekennzeichnet aber auch zeigen, dass die Sequenzen mit verschiedenen Cystein Zahlen innerhalb einer großen taxonomische Gruppe näher verwandt sind als Sequenzen mit dem gleichen Muster von möglicherweise verschiedene Gruppen. Während nur eine kleine Anzahl von Sequenzen in dieser Studie verwendet wurden, haben eine größere Analyse von 250 Sequenzen nicht den Mangel an Auflösung (ergänzende Dateien 5 - 8)¹²beseitigen. Die Kalkulationstabelle Referenzachse kann einfacher Visualisierung von Ähnlichkeiten mit strukturelle oder funktionelle Relevanz im Vergleich zu Stammbäumen anbieten.

Abbildung 1: Definition von Sequenz und strukturellen Eigenschaften der CS-αβ-Superfamilie. Aminosäuren und 3D-Struktur sind farblich gekennzeichnet: Schleife (blau), Alpha-Helix (grün), Beta-Blätter (Gold) und Disulfid-Bindungen (rosa). Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 2: Sechs-Cystein Vorabentscheidungsersuchen basierend auf der Reihenfolge der Insekten Defensin. Spalten zeigen die konservierte Cysteine (C1-C6) und für das CSH-Motiv, die Anzahl der konserviert amino Säuren zwischen den Cysteine. Die gefüllten Kästchen zeigen, dass die Sequenz die gegebenen Cystein hat und die Zahlen zwischen den Cysteine Aminosäuren geben. Bitte klicken Sie hier für eine größere Version dieser Figur.

er.within-Seite "1" = >

Abbildung 3: Ten-Cystein Referenz anhand repräsentativer Sequenzen aus Gruppen von CS-αβ-Superfamilie verfeinert. Die Spalten zeigen konservierte Cysteine und die Aminosäuren zwischen ihnen. Cysteine zu CSH-Motiv (C3, C4, C8 und C9) und der CS-αβ-Falte (C2 und C6) beitragen werden beschriftet. Sequenzen sind farblich gekennzeichnet durch taxonomische Gruppe: Arachnida (hellorange), Bakterien (schwarz), Cnidaria (grau), Hexapoda (Orange), Mollusca (blau), Nematoda (lila) und Plantae (grün). Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 4 : Zusammenfassung der CS-αβ-Superfamilie Sequenzen ausgerichtet mit Bezug von Gruppeneigenschaften. Die Spalten zeigen konservierte Cysteine und die Aminosäuren zwischen ihnen. Cysteine zu CSH-Motiv (C3, C4, C8 und C9) und der CS-αβ-Falte (C2 und C6) beitragen werden beschriftet. Sequenzen sind farblich gekennzeichnet durch taxonomische Gruppe: Annelida (dunkelrot), Arachniden (hellorange), Bakterien (schwarz), Cnidaria (grau), Pilze (hellgrün), Hexapoda (Orange), Mollusca (blau), Nematoda (lila) und Plantae (grün). Durch einen Bindestrich getrennte Zahlen zeigen eine Reihe von dazwischen liegenden Aminosäuren; Zahlen getrennt durch einen Schrägstrich stehen entweder / oder. Eine "C" zeigt eine zusätzliche Cystein, die nicht mit genügend Frequenz um zusätzlich zu den Verweis zu rechtfertigen. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 5 : Ergänzung der Tardigrade CS-αβ Sequenzen Superfamilie Angleichung an die Referenz von Gruppeneigenschaften. Die Spalten zeigen konservierte Cysteine und die Aminosäuren zwischen ihnen. Cysteine zu CSH-Motiv (C3, C4, C8 und C9) und der CS-αβ-Falte (C2 und C6) beitragen werden beschriftet. Sequenzen sind farblich gekennzeichnet durch taxonomische Gruppe: Annelida (dunkelrot), Arachniden (hellorange), Bakterien (schwarz), Cnidaria (grau), Pilze (hellgrün), Hexapoda (Orange), Mollusca (blau), Nematoda (lila), Plantae (grün) und Tardigrada (gelb). Durch einen Bindestrich getrennte Zahlen zeigen eine Reihe von dazwischen liegenden Aminosäuren; Zahlen getrennt durch einen Schrägstrich stehen entweder / oder. Eine "C" zeigt eine zusätzliche Cystein, die nicht mit genügend Frequenz um zusätzlich zu den Verweis zu rechtfertigen. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 6: Zugabe von Tardigrade CS-αβ-Sequenzen Superfamilie Angleichung an die Referenz von taxonomischen Gruppe. Die Spalten zeigen konservierte Cysteine und die Aminosäuren zwischen ihnen. Cysteine zu CSH-Motiv (C3, C4, C8 und C9) und der CS-αβ-Falte (C2 und C6) beitragen werden beschriftet. Sequenzen sind farblich gekennzeichnet durch taxonomische Gruppe: Annelida (dunkelrot), Arachniden (hellorange), Bakterien (schwarz), Cnidaria (grau), Pilze (hellgrün), Hexapoda (Orange), Mollusca (blau), Nematoda (lila), Plantae (grün) und Tardigrada (gelb). Durch einen Bindestrich getrennte Zahlen zeigen eine Reihe von dazwischen liegenden Aminosäuren; Zahlen getrennt durch einen Schrägstrich stehen entweder / oder. Eine "C" zeigt eine zusätzliche Cystein, die nicht mit genügend Frequenz um zusätzlich zu den Verweis zu rechtfertigen. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 7: Falsch ausgerichtete Sequenz mit automatisierten Ausrichtung. Aminosäuren, die konserviert in allen Sequenzen sind durch gekennzeichnet * in der Zeile oberhalb der ersten Sequenz (beschrieben in rosa Boxen). AlCRP ist falsch. Die Lücke muss entfernt werden, um das C (rosa Pfeil) korrekt auszurichten. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 8: Manuelle Verfeinerung der Achse bewahrt, die strukturell wichtige Merkmale der Sequenzen. AlCRP wird nun korrekt ausgerichtet (rosa Pfeil), und das CXXXC Motiv ist vollständig erhalten für die Sequenzen (rosa Boxen). Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 9 : Überflüssige Sequenzen in einer Achse. Wenn es gibt Paare von nahezu identische Sequenzen (rosa Boxen), man kann entfernt werden, da diese wahrscheinlich werden immer gemeinsam im cluster und tragen wenig zur allgemeinen Topologie des Baumes. Bitte klicken Sie hier für eine größere Version dieser Figur.

Abbildung 10 : Vergleich von Bäumen erzeugt aus phylogenetische Analysen. (A) maximale Wahrscheinlichkeit Analyse in MEGA, mit 1.000 bootstrap repliziert mit dem WAG + G + I Modell. (B) Bayes'sche Analyse mit 1.000.000 Generationen mit dem mixed-Model-Einstellung. Stämme auf 70/0,7 unterstützt entnehmen Sie bitte solide Rosa Linien; Rosa Striche zeigen Stämme auf 70/0,7 in der anderen Struktur unterstützt. (a) 6C und ein 8C-Skorpion-Toxin; (b) Macins; (C) Tick und Skorpion Defensine; (d) Pflanze Defensine; und (e) 6C Defensine von Mollusken, Insekten und Spinnentiere. Bitte klicken Sie hier für eine größere Version dieser Figur.

Table 1
Tabelle 1: Gruppen innerhalb der CS-αβ-Superfamilie anhand von Cystein-Paarung Mustern. Fünf grundlegende Muster der Anleihe Bildung werden mit internen Rufnummern (mittlere Spalte) oder Referenznummern (rechte Spalte) angezeigt. Scorpion Cl - Toxine, ASABF 6Cys-Alpha und eine Gruppe von Pilz Peptide werden mit dem Muster, dass m platziert.Ost entspricht. Ein Cystein nicht enthalten in der Referenz wird durch eine Hochstellung der Cysteine angezeigt, vorher/nachher- (z. B. C^3/4ist zwischen C3 und C4).

Table 2
Tabelle 2: Zugabe von Tardigrade CS-αβ-Sequenzen zu Cystein-Paarung Muster Gruppen. Tardigrade Defensine und Macins (Fett) sind die vorher festgelegten Gruppen soweit möglich umgesetzt. Einige tardigrade Sequenzen können eine gruppenspezifische Muster zeigen. Ein Cystein nicht enthalten in der Referenz wird durch eine Hochstellung der Cysteine angezeigt, vorher/nachher- (z. B. C^3/4ist zwischen C3 und C4). Die Notation "2C¹" gibt an, dass es gibt zwei Cysteine stromaufwärts Bezugspunkt C1.

Ergänzende Datei 1 (S1): Ausrichtung dieses Datensatzes in MEGA. Bitte klicken Sie hier, um diese Datei herunterladen.

Ergänzende Datei 2 (S2): Maximum-Likelihood-Baum-MEGA-Datei für dieses Dataset. Bitte klicken Sie hier, um diese Datei herunterladen.

Ergänzende Datei 3 (S3): Ausrichtung dieses Datensatzes im Nexus-Format für MrBayes. Bitte klicken Sie hier, um diese Datei herunterladen.

Ergänzende Datei 4 (S4): Konsens-Datei aus der MrBayes Analyse dieses Datensatzes. Bitte klicken Sie hier, um diese Datei herunterladen.

Ergänzende Datei 5 (S5): Ausrichtung von 250 CS-αβ-Sequenzen in MEGA. Bitte klicken Sie hier, um diese Datei herunterladen.

Ergänzende Datei 6 (S6): Maximum Likelihood Baum 250 CS-αβ Sequenzen. Bitte klicken Sie hier, um diese Datei herunterladen.

Ergänzende Datei 7 (S7): Ausrichtung von 250 CS-αβ-Sequenzen in Nexus Format für MrBayes. Bitte klicken Sie hier, um diese Datei herunterladen.

Ergänzende Datei 8 (S8): Konsens-Datei aus der MrBayes Analyse von 250 CS-αβ Sequenzen. Bitte klicken Sie hier, um diese Datei herunterladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Die Kriterien für die Benennung eines Proteins innerhalb einer Gruppe sollte klar sein, aber dies ist nicht immer der Fall. Sequenzen, die die CS-αβ Falten sind in vielen Laboren unter Verwendung einer Vielzahl von Organismen, die wiederum verschiedene Systeme der Nomenklatur sowie unterschiedliche Charakterisierung untersucht worden. Versuch, eine völlig neue Nomenklatur zu verhängen ist nicht zumutbar und würde zu viel Verwirrung führen, bei der bisherigen Literatur Beratung. Ein Verweis Nummerierungs-System kann neben dem Namen eines Proteins verwendet werden, um seine Eigenschaften im Verhältnis zu der Superfamilie klären.

Gruppen von Proteinen mit eindeutigen Kriterien für die Benennung und Klassifizierung dürfte nicht profitieren von erzeugen einen Verweis in einer Tabellenkalkulation, obwohl es möglicherweise nützlich für große Anzahl von Sequenzen zusammenfassen und Visualisierung von wichtigen Eigenschaften. Sequenz Ausrichtungen und Logos sind nützlich für die Untersuchung von der Ebene der Erhaltung an jedem Standort, aber priorisieren Sequenz Funktionen wichtig für die Struktur oder Funktion nicht aktiv. Das CS-αβ-Beispiel konzentriert sich auf die Struktur, aber bestimmte Aminosäuren, die eine Bindungsstelle bilden konnten auch da ein bezeichnendes Merkmal übernommen werden. Als Sequenz-Features, die spezifische antimikrobielle/toxische Aktivitäten der CS-αβ Peptide verleihen identifiziert werden, könnten diese die Bezugnahme auf Gruppen basierend auf Aktivität zu klären hinzugefügt. Obwohl nur die vorhergesagten Reife Peptide in diesem Beispiel verwendet wurden, wenn das Vorhandensein von ein Signalpeptid oder pro-Peptid wichtig ist, kann diese Informationen für jede Sequenz hinzugefügt werden. Spezifische einfügen oder löschen-Ereignisse sowie Intron Standorten können auch enthalten sein, wenn sie gedacht werden, um informativ sein. Ein Vorteil der Verwendung von MrBayes für die phylogenetische Analyse ist, dass es nicht beschränkt auf molekularen Daten-It kann analysieren Datenkodierung für andere Merkmale, die evolutionäre Bedeutung haben können. Diese können als vorhanden oder nicht vorhanden ist, bietet mehr Informationen als die Sequenz allein kodiert werden.

Die entsprechenden Sequenzen zu sammeln, ist ein wichtiger Schritt des Protokolls. Je nach Umfang der Studie und die Verteilung der Mitglieder der Gruppe kann dies große taxonomische Gruppen überspannen. Wenn das Ziel ist, eine ganze Gruppe von Proteinen zu verstehen, der Ansicht, dass einige Sequenzen außerhalb der Arten gefunden werden können, die sie in der Regel aus gemeldet werden. Wenn ein Taxon bereits gut vertreten ist und zusätzliche Sequenzen unwahrscheinlich oder redundante sind, kann es angebracht sein, sie von der Suche auszuschließen. Eine einfache Faustregel für das Abrufen von Treffern in einer Explosion Suche soll einem Cutoff von-05 für den e-Wert verwenden. Der e-Wert ist die Anzahl der Treffer durch Zufall zu erwarten. Dies ist, zwar für einige Situationen geeignet, wenn es gibt eine Gruppe von Sequenzen, die stark divergierenden aber Aktien Besonderheiten ist kann es sein, weniger zuverlässige It-Sequenzen, die ähnlich sind abrufen kann aber tun nicht die Besonderheiten wollte und es kann nicht Sequenzen, die die wichtigsten Merkmale aber sind stark divergierenden, zurück. Es gibt einige mögliche Wege zur Lösung dieses Problems. Die erste ist, zu betrachten, die Sequenzen, die bei der Suche identifiziert, die unterhalb der-05 Cut-off zu sehen, ob sie die Einschlusskriterien erfüllen. Zweitens gibt es genügend Informationen, verwenden Sie Position-spezifischen iteriert BLAST (PSI-BLAST)²² oder Muster-Hit initiiert BLAST (PHI-BLAST)²³. PSI-BLAST nutzt die Ergebnisse aus einer anfänglichen Suche generieren ein neues Modell für die nächste Runde und kann manchmal finden unterschiedliche Sequenzen, die die anfängliche Suche nicht identifizieren konnte. PHI-BLAST muss eine Muster zusammen mit der Abfrage-Sequenz eingereicht werden. Dies schränkt die abgerufenen Sequenzen auf diejenigen, die das Muster von Interesse. Dieses Tool ist besonders nützlich, wenn ein Motiv für die Gruppe eindeutig eindeutig identifiziert werden kann.

Eine genaue Ausrichtung ist entscheidend für die phylogenetische Analyse; Interpretationen von Bäumen sind nur gültig, wenn sie mit guten Alignment generiert werden. Mit der Referenz, um die Ausrichtung zu informieren, kann helfen, um Fehler zu vermeiden, die nur offensichtlich sind, wenn die Struktur oder Aktivität gelten. Sequenz Redundanz müssen für das Projekt definiert werden. Zwei Sequenzen, die überflüssig erscheinen möglicherweise nicht für phylogenetische Zwecke, wenn sie aus sehr unterschiedlichen Taxa oder sind nahezu identisch in Sequenz aber haben unterschiedliche strukturelle oder funktionelle Eigenschaften. Besteht Unklarheit darüber, welche Sequenzen aufgenommen werden sollten, können mehrere Achsen werden generiert und separat analysiert, um festzustellen, wie Ausrichtung Auswirkungen phylogenetischen Schlüsse ändert. Die hier vorgestellte Methode beseitigt nicht die Notwendigkeit für die manuelle Einstellung der Achsen, aber es kann helfen um zu klären, wie die Sequenzen richten sollte und könnte möglicherweise in Verbindung mit einer anspruchsvolleren Barcode-Technik als beschrieben wurde verwendet werden bisher¹³.

Für die Referenz, nützlich zu sein ist es wichtig, die definierenden Merkmale zu identifizieren, die nicht aus der Sequenz allein derzeit offensichtlich sind. Betrachten Sie z. B. die Unfähigkeit, Cystein Verklebung Muster zwischen den Sequenzen mit einer unterschiedlichen Anzahl von Cysteine wenn jede Sequenz, in Bezug auf sich selbst nummeriert ist zu vergleichen. Ziel ist es, Vergleich und Diskussion, nicht um eine weitere Schicht der Verwirrung zu erleichtern. Dies kann bedeuten, dass mehrere Iterationen der Referenz und Urteil ruft bei der Entscheidung, welche Funktionen enthalten. Es ist zu hoffen, dass eine gemeinsame Methode unterschiedliche Sequenzen in einer Gruppe zu diskutieren wird das Verständnis der Gruppe als Ganzes zu erhöhen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Der Autor hat nichts preisgeben.

Acknowledgments

Laufende tardigrade antimikrobiellen Peptid-Forschung wird durch Intramurale Mittel aus dem Midwestern University Office of Research und gesponserte Programme (ORSP) unterstützt. Die ORSP hatte keine Rolle beim Studiendesign, Datenerfassung, Analyse, Interpretation oder Manuskript Vorbereitung.

Materials

Name	Company	Catalog Number	Comments
BLAST webpage			https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite)	DNASTAR		https://www.dnastar.com/t-allproducts.aspx
Excel 2013	Microsoft
FigTree			http://tree.bio.ed.ac.uk/software/figtree/
MEGA			www.megasoftware.net
MrBayes			http://mrbayes.sourceforge.net/
SCOP database			http://scop.mrc-lmb.cam.ac.uk/scop/