Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Behavior

Aanmaken en toepassen van een verwijzing ter vergemakkelijking van de discussie en de indeling van de eiwitten in een Diverse groep

Published: August 16, 2017 doi: 10.3791/56107

Summary

Het doel van dit protocol is het ontwikkelen van een verwijzing voor uiteenlopende eiwitten in een groep die ontbreekt aan coherente criteria voor nomenclatuur en classificatie. Deze referentie zal vergemakkelijken, analyses en discussie van de groep als geheel en kan worden gebruikt naast gevestigde namen.

Abstract

Verwante proteïnen die zijn bestudeerd in verschillende laboratoria met behulp van verschillende organismen mag het ontbreken van een uniform systeem van nomenclatuur en classificatie, waardoor het moeilijk is om te bespreken van de groep als geheel en nieuwe sequenties in de juiste context plaatsen. Ontwikkeling van een referentie die prioriteit belangrijke reeks functies geeft verband houden met structuur en/of activiteit kan worden gebruikt naast gevestigde namen toe te voegen sommige coherentie aan een diverse groep van eiwitten. Deze paper gebruikt de superfamilie cysteïne-gestabiliseerde alpha-helix (CS-αβ) als een voorbeeld om te laten zien hoe een verwijzing gegenereerd in spreadsheet-software kan verduidelijking van de relaties tussen bestaande eiwitten in de superfamilie, evenals vergemakkelijken de toevoeging van nieuwe sequenties. Het laat ook zien hoe de verwijzing kan helpen om reeks aanpassingen gegenereerd in de gebruikte software, die invloed op de geldigheid van de fylogenetische analyses te verfijnen. Het gebruik van een verwijzing zal waarschijnlijk meest nuttig voor eiwit groepen waarin zeer uiteenlopende sequenties van een breed spectrum van taxa, met functies die niet adequaat door moleculaire analyses zijn vastgelegd.

Introduction

Van een eiwit naam een afspiegeling is van de kenmerken en de relatie tot andere eiwitten. Helaas, namen zijn over het algemeen toegewezen op het moment van ontdekking en zoals onderzoek blijft, het inzicht in de grotere context kan veranderen. Dit kan leiden tot meerdere namen als een eiwit onafhankelijk door meer dan één lab, wijzigingen in de nomenclatuur of in de kenmerken gezien ontdekt werd als definitieve bij het toewijzen van de naam en de naam niet langer voldoende differentiatie van het eiwit van anderen.

Ongewervelde defensinen bieden een goed voorbeeld van degeneratie in de nomenclatuur en classificatie. De eerste-ongewervelde defensinen werden gemeld van insecten, en de naam "insect defensin" werd voorgesteld op basis van de waargenomen homologie aan zoogdieren defensinen1,2. De term defensin wordt nog steeds gebruikt, hoewel het is nu duidelijk dat ongewervelde en zoogdieren defensinen ben niet een gemeenschappelijke voorouder3,4. Afhankelijk van de soort kan wellicht een ongewervelden "defensin" zes of acht cysteines (die drie of vier disulfide bindingen vormen) en een scala aan antimicrobiële activiteiten. Om compliceren de situatie, eiwitten met dezelfde kenmerken als de defensinen zijn niet altijd genoemd "defensinen," zoals de onlangs vastgestelde cremycins van Caenorhabditis remanei5. Daarnaast zijn de ongewervelde grote defensinen waarschijnlijker evolutionair verband te houden met gewervelde β-defensinen dan andere ongewervelde defensinen6. Ondanks dit, zijn onderzoekers soms afhankelijk van de naam "defensin" bij het bepalen welke rijen moeten worden opgenomen in de analyses.

Structurele studies bleek de gelijkenis tussen insect defensinen en scorpion toxines7en de CS-αβ-vouw vervolgens werd opgericht als het belangrijkste structurele kenmerk van insecten defensinen8. Deze vouw definieert de scorpion toxine-achtige (CS-αβ) superfamilie in de structurele indeling van eiwitten (SCOP) database9, waarin momenteel vijf families: insect defensinen, korte keten scorpion toxines, lange-keten scorpion toxines, MGD-1 (vanaf een weekdier), en plant defensinen. Deze superfamilie is synoniem met de recent beschreven cis-defensinen4 en de superfamilie 3.30.30.10 in de CATH/Gene 3D database10,11. Studies uit een verscheidenheid van ongewervelde taxa, planten en schimmels Toon dat de namen van eiwitten die deze vouw bevatten niet duidelijk zijn gerelateerd aan cysteïne getal of hechting patroon, antimicrobiële activiteit of evolutionaire geschiedenis12.

Het gebrek aan samenhang en duidelijke criteria maken het uitdagend naam te geven en nieuw geïdentificeerd sequenties in deze superfamilie classificeren. Een belangrijk obstakel voor het vergelijken van de eiwitten in deze superfamilie is dat cysteines met betrekking tot elke individuele opeenvolging (het eerste cysteïne in elke opeenvolging is C1), met geen enkele manier verantwoordelijk voor de structurele rol worden genummerd. Dit betekent dat alleen sequenties met hetzelfde aantal cysteines kunnen worden vergeleken. Er zijn kleine volgorde instandhouding dan de vorming van de CS-αβ-vouwen, waardoor uitlijning en fylogenetische analyses moeilijk cysteines. Door het ontwikkelen van een nummeringssysteem op dat prioriteit structurele kenmerken geeft, kunnen het superfamilie sequenties gemakkelijker worden vergeleken en uitgelijnd. Geconserveerde functies, alsmede vaststelling van subgroepen, kunnen snel worden gevisualiseerd en nieuwe sequenties kunnen gemakkelijker worden geplaatst in de juiste context.

Deze paper gebruikt een spreadsheet-programma (bijvoorbeeld Excel) voor het genereren van een systeem voor de CS-αβ-superfamilie nummering verwijzing. Het laat zien hoe dit verduidelijkt vergelijkingen tussen sequenties en toegepast op nieuwe CS-αβ-sequenties geïdentificeerd van beerdiertjes. De superfamilie van de CS-αβ als een voorbeeld gebruikt, werd het protocol geschreven te adviseren bij het gebruik van sequenties van belang; het is echter niet bedoeld om specifiek naar deze superfamilie of cysteïne-rijke sequenties. Deze methode zal wellicht nuttigst voor groepen van proteïnen toe die onafhankelijk van elkaar in uiteenlopende taxa zijn onderzocht en/of hebben weinig algemene reeks homologie, met aparte kenmerken die niet gemakkelijk kan worden herkend door moleculaire analysesoftware. Deze methode vereist sommige een priori besluiten over belangrijke kenmerken, dus het zal van beperkt nut als geen belangrijke kenmerken zijn geïdentificeerd. Het primaire doel is om te laten zien hoe een eenvoudige visualisatie van de reeks relaties kan worden bereikt. Dit kan vervolgens worden gebruikt om sequentie alignering en analyse te informeren, maar als uitlijning en analyse de primaire doelstellingen zijn, een barcode-methode zou een geschikt alternatief, dat meer capaciteit voor automatisering13 heeft. De huidige methode geeft de kenmerken van elke peptide in een lineaire vorm, zodat het niet zal nuttig zijn voor de directe visualisatie van 3D-structuur.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. bepalen van de functies definiëren van de groep van de proteïne van belang

  1. de vorige publicaties raadplegen om te bepalen of er een consensus over de functies die nodig zijn om te worden beschouwd als onderdeel van de groep. Neem nota van inconsistenties of meningsverschillen tussen onderzoeksgroepen, en omvatten kenmerken die dienen kunnen om te onderscheiden van een deelgroep van een ander.
  2. Als vorige literatuur definiërende kenmerken niet aanpakt, gebruiken sequenties die als vertegenwoordiger van de Fractie worden beschouwd als een beginpunt voor het omgaan met geconserveerde.

2. Verzamelen van relevante reeksen

  1. als beoordelingen die zijn geschreven zijn: analyse van de sequenties die zijn dat de groep vertegenwoordigt, omvatten deze sequenties in de ruwe dataset. Sequenties met behulp van toetreding nummers waarnaar wordt verwezen in de literatuur ophalen en opslaan in een vaste volgorde bewerkingsprogramma (bijvoorbeeld EditSeq in de Lasergene suite of een van velen beschikbaar voor gratis online).
  2. Als de groep in kwestie is gedefinieerd in een van de structurele databases, omvatten de sequenties die de database bevat als onderdeel van de groep ophalen sequenties met toetreding getallen die in de database en opslaan in een vaste volgorde bewerken programma, zoals hierboven.
    Opmerking: bijvoorbeeld de sequenties die zijn gecategoriseerd in het CS-αβ (scorpion toxine-achtige) superfamilie in de SCOP database kunnen hier worden gevonden: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
  3. uit te voeren fundamentele lokale Alignment Search Tool (BLAST) 14 zoekopdrachten van openbare, online databases beschikbaar via het nationaal centrum voor biotechnologische informatie (NCBI) te vinden van sequenties die mogelijk niet zijn opgenomen in de literatuur of structurele databases. Voor de meeste resultaten, gebruik van zowel het eiwit BLAST (blastp) en vertaald blast met eiwit query (tblastn) programma's; Dit zijn beide beschikbaar op: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    1. Gebruik sequenties bekend als onderdeel van de groep van belang als query reeksen. Kopiëren en plakken van de volgorde in het zoekvak boven, of bieden een GenBank toetreding nummer of gi-id, indien beschikbaar.
    2. Kies de database van het dropdownmenu. Kies niet-redundante proteïne sequenties (nr) voor blastp en uitgedrukt reeks codes voor tblastn.
    3. Zoeken naar resultaten in specifieke taxa in het organisme instellen door te typen van het organisme of een taxon naam en te kiezen in de lijst die tijdens het typen verschijnt. Extra organismen of taxa te sluiten wilt toevoegen, klikt u op de " + " knop en een ander veld zal verschijnen. Ongewenste taxa in het organisme vak sluiten door te typen van de naam van het organisme of taxon, kiezen uit de lijst die verschijnt tijdens het typen en controleren van het " uitsluiten " vak aan de rechterkant.
    4. Toegang tot aanvullende parameters door te klikken op " algoritme parameters " in de buurt van de onderkant van de pagina. Laat op de standaardinstelling tenzij er een reden is voor het wijzigen van een parameter.
    5. Klik op de " BLAST " knop voor het uitvoeren van de analyse; het kan even duren voor de resultaten worden weergegeven. In het algemeen, ophalen hits met een verwachten waarde (of e-waarde) van "-05 " of beter en opslaan in een vaste volgorde bewerkingsprogramma.
      1. Als alle hits boven deze drempel, opnieuw het zoeken met een toenemend aantal doel sequenties (in de sectie van de parameters algoritme) voor alle relevante sequenties.
  4. Indien nodig, trim de sequenties als u wilt uitsluiten van irrelevante informatie (bijvoorbeeld de CS-αβ-vouw is alleen van toepassing op de volwassen peptide). Identificeren van signaal peptiden en pro-peptiden voor verwijdering met behulp van de ProP 15 (beschikbaar online), of SignalP voor meer geavanceerde signaal peptide voorspelling 16 (beschikbaar online).

3. Genereren van een verwijzing in een Spreadsheet op basis van de belangrijke functies waren die

  1. identificeren de hoofdmoot van de groep van belang. Bijvoorbeeld gebruiken de vouw van de CS-αβ definitief vastgesteld door de structuur van de oplossing van insect A defensin van Phormia terraenovae ( Figuur 1), 8.
    1. Deze vouw omvat een kleinere motief genaamd de cysteïne-gestabiliseerde helix (CSH) 17; dit motief door een CXXXC (waarbij X staat voor elk aminozuur) identificeren stroomopwaarts van een CXC die twee disulfide bindingen vormen ( Figuur 1 , solide roze lijnen).
      Opmerking: Ter voltooiing van het CS-αβ-motief, een derde Zwavelbrug wordt gevormd door extra cysteines geplaatst voor elke helft van het motief CSH ( Figuur 1, gestippelde roze lijnen).
  2. Ga deze functies definiëren in een werkblad. Zie Figuur 2.
    1. Gebruik kolommen voor de geconserveerde functies en om te vertegenwoordigen de ruimten tussen deze functies. Houd de kolommen breed genoeg is om fit nummers en zorgen ervoor dat zij over een consistente breedte. Ingesteld de breedte met de " formaat | Kolombreedte " functie ( Figuur 2, roze pijl).
    2. Gebruiken de rijen voor de reeks namen.
    3. Wanneer een reeks heeft de functie, vul de doos met behulp van de functie van de vulling ( Figuur 2, roze plein). Voer het aantal aminozuren in het vak tussen gemeld voor de regelafstand tussen functies, en laat het ongevuld. Bijvoorbeeld met behulp van het insect defensin volgorde geeft een verwijzing met zes cysteines, met gedefinieerde spaties tussen C2 en C3 en C5 en C6.
  3. Vertegenwoordiger sequenties die eerder zijn vastgesteld als leden van de groep op basis van de structurele databases en literatuur toevoegen.
    Opmerking: bijvoorbeeld bestaande literatuur en de SCOP database identificeren verscheidene groepen voor opname: insect defensinen, korte keten scorpion toxines, lange-keten scorpion toxines, MGD-1 plant defensinen, nematode ABFs, drosomycins van Drosophila, en macins. De literatuur geeft ook een bacteriële serie met slechts vier cysteines die de voorouder van deze superfamilie 18 zou vertegenwoordigen. Het toevoegen van deze sequenties verhoogt het aantal cysteines in de Naslaggids van zes tot tien, maar handhaaft de uitlijning van de belangrijke structurele kenmerken ( Figuur 3).
    1. Als u wilt toevoegen van een functie die dreigt te definiëren een deelgroep van de reeksen (bijvoorbeeld een extra cysteïne), gebruiken de " invoegen " functie ( Figuur 3, roze pijl).
    2. Als er eigenschappen ontbreken in een bepaalde volgorde, laat u het vak ongevuld en combineren met vakken die tussenliggende aminozuren. Indien nodig, de cellen met de functie samenvoegen en centreren ( Figuur 3, roze doos) samenvoegt.
  4. Doorgaan sequenties aan de groepen toe te voegen om een beter beeld van de variatie in elke groep van de grotere superfamilie krijgen. Samenvatting van de kenmerken van de groep om vergelijkingen ( Figuur 4).
    1. Wanneer het aantal aminozuren tussen belangrijke eigenschappen varieert, een afbreekstreepje gebruiken om aan te geven een bereik, zoals 6-12 (6 tot en met 12 aminozuren), en een slash om aan te geven of / of, zoals 7/10 (7 of 10 aminozuren).
    2. Kiest een manier om te annoteren kenmerken van sequenties die relevant kunnen zijn maar komen niet vaak genoeg om op te nemen in de verwijzing. Bijvoorbeeld, omdat cysteines belangrijk in deze superfamilie zijn, label extra cysteines ( Figuur 4, roze vakken).
  5. Newl toevoegeny-geïdentificeerd sequenties aan het werkblad met behulp van de gevestigde sequenties als een gids. Bijvoorbeeld, het toevoegen van sequenties van beerdiertjes (geel) toont dat de tardigrade sequenties in diverse verschillende groepen van de superfamilie vallen ( Figuur 5 toont samenvattingen in plaats van een rij per reeks voor ruimte doeleinden).
  6. Toon variabiliteit binnen een taxonomische groep door het herschikken van de rijen ( Figuur 6).

4. De verwijzing naar verfijnen aminozuur uitlijning gebruiken

Opmerking: er zijn veel programma's die kunnen worden gebruikt voor meerdere reeks aanpassingen, maar deze demonstratie zal met behulp van moleculaire evolutionaire genetica analyse (MEGA6) 19 want het is beschikbaar om te downloaden gratis.

  1. De software downloaden en installeren.
  2. Een nieuwe aanpassing in MEGA beginnen door te selecteren " bewerken/Build uitlijning " onder de uitlijnen tab. Selecteer " maken van een nieuwe aanpassing " in het vak dat verschijnt en klik op " OK. " Selecteer " eiwit. "
  3. Selecteer " reeks invoegen uit bestand " in de " bewerken " menu voor het importeren van de sequenties.
    Opmerking: Reeksen moeten worden in FASTA formaat voor invoer in MEGA. Achtergrondkleuren die overeenkomen met verschillende aminozuur typen worden gebruikt door standaard, maar deze optie kan worden uitgeschakeld onder de " Display " menu.
  4. Zodra alle sequenties zijn ingevoerd, klikt u op het buigzame arm-pictogram en dan " uitlijnen eiwit " uitlijnen van de sequenties met behulp van de spier algoritme 20.
    Opmerking: ClustalW is ook beschikbaar.
    1. Als een bericht zeggend dat niets geselecteerde pop omhoog heeft geweest en vraagt om te selecteren, klik op " OK. "
    2. Opmerking: Hiermee opent u een venster waarmee een aantal parameters wijzigen, maar ze moeten alleen worden veranderd er is reden om dit te doen. Deze analyse gebruikt een subset van de sequenties geanalyseerd in een eerdere papier 12.
  5. Controleer de uitlijning gebaseerd op de belangrijkste features, merk op dat de bovenste balk boven de sequenties zal blijken alle kolommen waar het aminozuur is volledig bewaard (*). Zie Figuur 7. Zie dat de oorspronkelijke uitlijning geeft slechts drie van de vier geconserveerde cysteines ( Figuur 7, roze vakken); op zoek naar de kolom, de volgorde van de AlCRP is duidelijk verkeerd uitgelijnd ( Figuur 7, roze pijl).
  6. Om zich te ontdoen van de grote kloof tussen de I en de geconserveerde C, Markeer de streepjes en druk op de " verwijderen " sleutel. Niet alle aminozuren doen markeren, of ze ook worden verwijderd.
  7. Te verplaatsen van aminozuren aan de rechterkant, markeren en druk op de bar. ruimte
    1. Opmerking dat de AlCRP nu de structurele cysteines uitgelijnd heeft en dat de laatste C van het motief van de CXXXC wordt bewaard gedurende de uitlijning ( Figuur 8). De uitlijning als nodig is om de prioriteit van de belangrijkste kenmerken van de opeenvolgingen aanpassen.

5. Vergelijk de groepen geïdentificeerd met behulp van de referentie met resultaten uit fylogenetische Analyses

  1. uit de aanpassingen van het prejudiciële, bepalen welke rijen moeten worden opgenomen in een fylogenetische analyse; voor een klein aantal sequenties, deze stap kan worden geen onnodige.
    1. Houden een uitlijning bestand waarin alle sequenties, maar voor een fylogenetische analyse, het verwijderen van redundante sequenties ( Figuur 9, roze vakken Toon paren van redundante sequenties).
    2. Als de data set een groot aantal sequenties omvat, voert u een voorlopige analyse en selecteer vertegenwoordigers van groepen die altijd een clade vormen.
  2. Bepalen het beste aminozuur vervanging model.
    1. Exporteren de uitlijning in MEGA-indeling (onder het tabblad gegevens).
    2. Ga naar de modellen-menu en selecteer " vinden beste DNA/proteïne Model. " kiest u het zojuist opgeslagen bestand opent en dit zal een venster openen dat heeft enkele parameters die kunnen worden gewijzigd.
    3. Gebruiken de standaardparameters, tenzij er is een reden om ze te veranderen. Klik op " berekenen " om te beginnen met de analyse.
  3. Een maximale kans (ML)-analyse uitvoeren in MEGA.
    1. Kiezen " Construct/Test Maximum waarschijnlijkheid boom " in het menu van de fylogenie.
    2. Kies het model vastgesteld de beste pasvorm voor de gegevens van stap 5.2 (de output zal het model vervangen evenals de beste " tarieven onder sites " parameter).
    3. Kies 1.000 bootstrap worden gerepliceerd om te verkrijgen van de steunmaatregelen voor de boom.
    4. Klik op " berekenen " uitvoeren van de analyse; MEGA heeft een " boom Explorer " te visualiseren van de boom.
  4. Een Bayesian analyse uitvoeren in MrBayes open-sourcesoftware 21.
    Opmerking: Een MrBayes handleiding is ook beschikbaar via deze site. Dit is bedoeld om basisstappen en is niet een uitgebreide gids voor het uitvoeren van Bayesiaanse fylogenetische analyse.
    1. De MEGA uitlijning in PAUP (Nexus) indeling exporteren naar dezelfde map als het programma MrBayes.
    2. Open MrBayes en type " exe Filename " (bijvoorbeeld " exe Alignment.nex ").
    3. Het model en analyse parameters opgeven. Kies ofwel het model bij stap 5.2 hebt opgegeven of kies de " gemengde " instelling die zal proberen van verschillende modellen en de frequentie van het model in de bomen met de beste posterieure waarschijnlijkheid verslag (preset aamodelpr = gemengd). Type " showmodel " verslag van de huidige model-instellingen en " helpen mcmc " om te laten zien van de huidige parameterinstellingen, met een korte uitleg van elk.
    4. Stel het aantal generaties met behulp van de " mcmcp ngen = " opdracht (1 miljoen is typisch).
    5. Type " mcmc " om te beginnen met de analyse.
    6. Wanneer het aantal generaties is voltooid, wordt gevraagd om toe te voegen meer generaties. Als de gemiddelde standaardafwijking van frequenties van het split minder dan 0.1 is, typt u Nee. Als het boven de 0,1, de analyse zou mogen blijven, of enkele parameters moeten worden gewijzigd (Zie de handleiding).
    7. Gebruik de " sumt " opdracht voor het genereren van de boom bestanden.
    8. Nadat de analyse voltooid is en een consensus boom wordt gegenereerd, de boom kan worden bekeken in FigTree (beschikbaar online).
  5. Vergelijken de bomen om te zien als de methoden consistente resultaten produceren.
    Opmerking: Bepaalde reeksen bieden niet een heleboel informatie: de bomen wellicht niet goed opgelost en de takken wellicht minimale ondersteuning ( Figuur 10).
  6. Vergelijken van bomen aan de groepen geïdentificeerd met behulp van de verwijzing te zien als de fylogenetische analyses deze steungroepen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Groepen van sequenties in de superfamilie van de CS-αβ gemeld in de literatuur worden weergegeven in Figuur 4. De cysteïne-koppelingen op basis van de nummering voor elke sequentie voorstellen vijf basisgroepen (tabel 1, middelste kolom). Groep 1 heeft zes cysteines die uit drie bisulfide obligaties en omvat sequenties van insecten, spinachtigen, weekdieren, aaltjes en schimmels. Groepen 2, 3 en 4 hebben 8 cysteines die vier disulfide bindingen vormen. Groep 2 omvat insect, spinachtige en plant sequenties; groep 3 omvat arachnid weekdier en nematode sequenties; en groep 4 omvat sequenties van neteldieren, Ringwormen en weekdieren schimmels. Groep 5 omvat de 10 cysteïne-macins. Bepaalde reeksen paste niet heel deze patronen maar waren over het algemeen dichter aan één groep dan de anderen.

Groepen 1 en 2 lijken te delen van twee bindingen: C2-C5- en C3-C6; echter erkent begint de nummering voor elke opeenvolging met haar eerste cysteïne niet het structurele kader van de obligaties. C2-C5 in groep 1 sequenties vormen een van de twee obligaties in het CSH-motief, terwijl C2-C5 in groep 2 reeksen vormt de laatste band nodig om te stabiliseren van de CS-αβ-vouw. De homologe binding aan de groep 1 C2-C5 is groep2 C3-C6, die niet duidelijk uit de nummering. Het is ook niet duidelijk dat de C2-C6-band in groep 3, dezelfde structurele rol speelt.

Met reeksen uit de literatuur die zijn gegenereerd een verwijzing met een totaal van tien cysteines. Het motief van CSH is gevormd uit obligaties C3-C8 en C4-C9, met C2-C6-voltooiing van de CS-αβ-vouw. Hernummering van de cysteïne-paren op basis van de referentienummers verduidelijkt de obligaties aanwezig in elke opeenvolging (tabel 1, rechterkolom). Het is nu duidelijk dat alle de sequenties C2-C6, C3-C8 en C4-C9, als gevolg van de structurele vouw die de superfamilie definieert. Het gebruik van een verwijzing maakt eenvoudige vergelijking tussen sequenties die inconsistent nomenclatuur zijn en dubbelzinnige indelingscriteria. Het kan ook helpen om te identificeren van functies die een deelgroep van sequenties definiëren. Bijvoorbeeld, kan de band van C1-C7 macins onderscheiden van andere leden van de superfamilie, waardoor het wenselijk te classificeren sequenties met deze band als "macins" in plaats van "defensinen" (tabel 1 en Figuur 4).

Zoekopdrachten van openbare online databases geopenbaard zestien sequenties van beerdiertjes die duidelijk de CS-αβ hebben vouwen, acht van Hypsibius dujardini en Milnesium tardigradum. Vier van de nieuwe reeksen hebben zes cysteines, negen hebben acht heeft een negen en twee hebben tien. Dit geeft weinig informatie, maar door het uitlijnen van de sequenties aan de verwijzing, wordt het duidelijk dat tardigrade sequenties met hetzelfde aantal cysteines niet altijd de structureel-belangrijke cysteines op dezelfde plaats binnen de volgorde ( hebben Figuur 5 en Figuur 6). De uitlijning met de verwijzing staat ook voor de gevolgtrekking van het verlijmen van patronen (tabel 2, afgeleid patronen van de hechting tussen haakjes weergegeven). Sommige van de tardigrade sequenties passen duidelijk patronen 1-4. Anderen zijn meest vergelijkbaar met de voorgestelde bacteriële voorouder, scorpion Cl-toxine of een familie van schimmels defensin-achtige peptiden. Patroon 2 wellicht twee subgroepen, een vertegenwoordigd door Schorpioen nb + toxines, drosomycin, en defensinen van de plant en de andere door Schorpioen Cl-toxines. Verdere werkzaamheden onderzoek naar de functie van de tardigrade eiwitten is nodig om te bepalen als sommige toxinen in plaats van defensinen moeten worden beschouwd.

Fylogenetische analyses worden vaak gebruikt om te bestuderen hoe een groep eiwitten kan zijn geëvolueerd. De sequenties in de CS-αβ-superfamilie zijn over het algemeen kort en zeer uiteenlopende; resulterende bomen zijn vaak slecht opgelost en bieden weinig inzicht. Zowel de ML en Bayesian bomen voor de subset van rijen geanalyseerd hier waren slecht opgelost, met lage ondersteuning voor vele clades (Figuur 10, aanvullende bestanden 1 - 4). Het is gebruikelijk om te tonen slechts bootstrap niveaus meer dan 70 (of posterieure waarschijnlijkheden over 0.7), maar Figuur 10 behoudt alle getallen om aan te tonen van de algemene lage niveaus van ondersteuning. Vijf groepen werden ondersteund boven 70/0,7 in ten minste één van de twee bomen: (a) een 6C en een 8C scorpion toxine; b macins; (c) teek en scorpion defensinen; (d) plant defensinen; en (e) 6C defensinen van insecten, spinachtigen en weekdieren. In de boomstructuur van ML clade e ook een 8C-toxine en een tardigrade defensin 8C, maar steun was erg laag (figuur 10A). In het algemeen, deze weerspiegelen de categorieën geïdentificeerd met behulp van de referentie cysteïne nummering maar laten ook zien dat sequenties met verschillende cysteïne nummers binnen een grote taxonomische groep mogelijk meer nauw verwante dan reeksen met hetzelfde patroon van verschillende groepen. Terwijl slechts een klein aantal sequenties werden gebruikt in deze studie, heeft een grotere analyse van 250 sequenties niet het gebrek aan resolutie (aanvullende bestanden 5 - 8)12elimineren. De uitlijning van de verwijzing werkblad kan gemakkelijker visualisatie van gelijkenissen met structurele of functionele relevantie ten opzichte van fylogenetische bomen bieden.

Figure 1
Figuur 1: Vaststelling van de volgorde en structurele kenmerken van de superfamilie van de CS-αβ. Aminozuren en 3D-structuur zijn kleur gecodeerd: lus (blauw), alpha-helix (groen), bèta-bladen (goud) en bisulfide obligaties (roze). Klik hier voor een grotere versie van dit cijfer.

Figure 2
Figuur 2: Zes-cysteïne prejudiciële op basis van de volgorde van het Insect Defensin. Kolommen geven de geconserveerde cysteines (C1-C6) en, voor het CSH-motief, het aantal geconserveerd amino zuren tussen de cysteines. De gevulde vakken geven aan dat de reeks het gegeven cysteïne heeft en de aantallen wijzen op aminozuren tussen de cysteines. Klik hier voor een grotere versie van dit cijfer.

er.within-pagina = "1" >Figure 3
Figuur 3: Verfijnd tien-cysteïne Reference, gebaseerd op representatieve sequenties van groepen van de superfamilie van de CS-αβ. De kolommen geven geconserveerde cysteines en de aminozuren ertussen. Cysteines bijdragen tot het CSH motief (C3, C4, C8 en C9) en tot de vouw van de CS-αβ (C2 en C6) worden aangeduid. Sequenties zijn vergelijkende door taxonomische groep: Arachnida (licht oranje), bacteriën (zwart), Cnidaria (grijs), Zespotigen (oranje), Mollusca (blauw), Nematoda (paars) en Plantae (groen). Klik hier voor een grotere versie van dit cijfer.

Figure 4
Figuur 4 : Samenvatting van de opeenvolgingen van de superfamilie van de CS-αβ afgestemd op verwijzing door groep kenmerken. De kolommen geven geconserveerde cysteines en de aminozuren ertussen. Cysteines bijdragen tot het CSH motief (C3, C4, C8 en C9) en tot de vouw van de CS-αβ (C2 en C6) worden aangeduid. Sequenties zijn vergelijkende door taxonomische groep: Annelida (donkerrood), Arachnida (licht oranje) bacteriën (zwart), Cnidaria (grijs), schimmels (lichtgroen), Zespotigen (oranje), Mollusca (blauw), Nematoda (paars) en Plantae (groen). Getallen gescheiden door een streepje geven een aantal tussenliggende aminozuren; getallen, gescheiden door een slash vertegenwoordigen of / of. Een "C" geeft een extra cysteïne die treedt niet op met voldoende frequentie te rechtvaardigen toevoeging aan de verwijzing. Klik hier voor een grotere versie van dit cijfer.

Figure 5
Figuur 5 : Toevoeging van de superfamilie uitlijning met verwijzing door groep kenmerken sequenties Tardigrade CS-αβ. De kolommen geven geconserveerde cysteines en de aminozuren ertussen. Cysteines bijdragen tot het CSH motief (C3, C4, C8 en C9) en tot de vouw van de CS-αβ (C2 en C6) worden aangeduid. Sequenties zijn vergelijkende door taxonomische groep: Annelida (donkerrood), Arachnida (licht oranje) bacteriën (zwart), Cnidaria (grijs), schimmels (lichtgroen), Zespotigen (oranje), Mollusca (blauw), Nematoda (paars), Plantae (groen) en Tardigrada (geel). Getallen gescheiden door een streepje geven een aantal tussenliggende aminozuren; getallen, gescheiden door een slash vertegenwoordigen of / of. Een "C" geeft een extra cysteïne die treedt niet op met voldoende frequentie te rechtvaardigen toevoeging aan de verwijzing. Klik hier voor een grotere versie van dit cijfer.

Figure 6
Figuur 6: Toevoeging van superfamilie uitlijning met verwijzing door taxonomische groep sequenties Tardigrade CS-αβ. De kolommen geven geconserveerde cysteines en de aminozuren ertussen. Cysteines bijdragen tot het CSH motief (C3, C4, C8 en C9) en tot de vouw van de CS-αβ (C2 en C6) worden aangeduid. Sequenties zijn vergelijkende door taxonomische groep: Annelida (donkerrood), Arachnida (licht oranje) bacteriën (zwart), Cnidaria (grijs), schimmels (lichtgroen), Zespotigen (oranje), Mollusca (blauw), Nematoda (paars), Plantae (groen) en Tardigrada (geel). Getallen gescheiden door een streepje geven een aantal tussenliggende aminozuren; getallen, gescheiden door een slash vertegenwoordigen of / of. Een "C" geeft een extra cysteïne die treedt niet op met voldoende frequentie te rechtvaardigen toevoeging aan de verwijzing. Klik hier voor een grotere versie van dit cijfer.

Figure 7
Figuur 7: Uitgelijnd volgorde met behulp van geautomatiseerde uitlijning. Aminozuren bewaard in alle reeksen worden aangeduid met * in de rij boven de eerste reeks (beschreven in roze vakken). AlCRP is uitgelijnd. De kloof moet worden verwijderd om het correct uitlijnen de C (roze pijl). Klik hier voor een grotere versie van dit cijfer.

Figure 8
Figuur 8: Handmatige verfijning van de uitlijning behouden de structureel belangrijke kenmerken van de sequenties. AlCRP is nu correct uitgelijnd (roze pijl), en de CXXXC motif is volledig bewaard voor de sequenties ("roze dozen"). Klik hier voor een grotere versie van dit cijfer.

Figure 9
Figuur 9 : Redundante sequenties in een uitlijning. Als er paren van bijna identieke sequenties ("roze dozen"), een kan worden verwijderd, omdat deze waarschijnlijk zullen altijd cluster samen en weinig bijdragen aan de algemene topologie van de boom. Klik hier voor een grotere versie van dit cijfer.

Figure 10
Figuur 10 : Vergelijking van bomen die zijn gegenereerd uit de fylogenetische Analyses. (A) Maximum waarschijnlijkheid analyse in MEGA, met 1.000 bootstrap wordt gerepliceerd met behulp van de WAG + G + ik model. (B) Bayesian analyse met 1.000.000 generaties met behulp van de instelling van de gemengd-model. Clades ondersteund op 70/0,7 staan in dichte roze lijnen; roze stippellijnen Toon clades ondersteund op 70/0,7 in de andere boom. (a) een 6C en een 8C scorpion toxine; b macins; (c) teek en scorpion defensinen; (d) plant defensinen; en (e) 6C defensinen van insecten, spinachtigen en weekdieren. Klik hier voor een grotere versie van dit cijfer.

Table 1
Tabel 1: groepen binnen de CS-αβ-superfamilie gebaseerd op patronen cysteïne-pairing. Vijf basispatronen van bond formatie worden weergegeven met behulp van interne nummers (middelste kolom) of referentienummers (rechter kolom). Scorpion Cl - toxines, ASABF 6Cys-alpha en een groep van schimmel peptides worden geplaatst met het patroon dat mOST overeenkomt. Een cysteïne niet opgenomen in de referentie wordt aangegeven door een superscript voor het cysteines vóór/na (b.v., C3/4 is tussen C3 en C4).

Table 2
Tabel 2: toevoeging van Tardigrade CS-αβ sequenties aan cysteïne-koppeling patroon groepen. Tardigrade defensinen en macins (vet) komen in de eerder vastgestelde groepen waar mogelijk. Sommige tardigrade sequenties kunnen een groepsspecifieke patroon vertonen. Een cysteïne niet opgenomen in de referentie wordt aangegeven door een superscript voor het cysteines vóór/na (b.v., C3/4 is tussen C3 en C4). De notatie "2C/1" geeft aan dat er twee cysteines stroomopwaarts van referentie C1.

Aanvullende bestand 1 (S1): aanpassing van deze Dataset in MEGA. Klik hier om dit bestand te downloaden.

Aanvullende bestand 2 (S2): Maximum-waarschijnlijkheid boom MEGA bestand voor deze Dataset. Klik hier om dit bestand te downloaden.

Aanvullende bestand 3 (S3): aanpassing van deze Dataset in Nexus formaat voor MrBayes. Klik hier om dit bestand te downloaden.

Aanvullende bestand 4 (S4): Consensus bestand uit de MrBayes analyse van deze Dataset. Klik hier om dit bestand te downloaden.

Aanvullende bestand 5 (S5): uitlijning van 250 CS-αβ-sequenties in MEGA. Klik hier om dit bestand te downloaden.

Aanvullende bestand 6 (S6): Maximum Likelihood boom van 250 CS-αβ opeenvolgingen. Klik hier om dit bestand te downloaden.

Aanvullende bestand 7 (S7): aanpassing van de 250 CS-αβ sequenties in Nexus opmaken voor MrBayes. Klik hier om dit bestand te downloaden.

Aanvullende bestand 8 (S8): Consensus bestand uit de MrBayes analyse van 250 CS-αβ opeenvolgingen. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

De criteria voor de naamgeving van een eiwit binnen een groep moet duidelijk zijn, maar dit is niet altijd het geval. Sequenties die hebben de CS-αβ vouwen zijn bestudeerd in veel laboratoria met behulp van een verscheidenheid van organismen, wat resulteert in verschillende systemen van de nomenclatuur, evenals de verschillende niveaus van karakterisering. Probeert op te leggen van een volledig nieuwe nomenclatuur is niet redelijk en zou leiden tot veel verwarring bij het raadplegen van de bestaande literatuur. Een verwijzing nummering systeem kan worden gebruikt naast de naam van een eiwit te verduidelijken van de kenmerken ervan ten opzichte van de superfamilie.

Groepen van eiwitten met duidelijke criteria voor de naamgeving en indeling zal niet waarschijnlijk profiteren van het genereren van een verwijzing in een werkblad, hoewel het wellicht nuttig zijn voor het samenvatten van grote aantallen sequenties en visualiseren van belangrijke kenmerken. Reeks aanpassingen en logo's zijn nuttig voor het onderzoek naar het niveau van instandhouding op elke site, maar doen geen actief prioriteit reeks functies belangrijk voor de structuur of functie. In het voorbeeld van de CS-αβ gericht op de structuur, maar specifieke aminozuren die een bindende site vormen kan ook worden opgenomen als een kenmerkend. Aangezien reeks functies die het verlenen van specifieke antimicrobiële/giftig activiteiten van CS-αβ peptiden zijn geïdentificeerd, kunnen deze worden toegevoegd aan de verwijzing naar het verduidelijken van groepen op basis van activiteit. Hoewel alleen de voorspelde volwassen peptiden werden gebruikt in dit voorbeeld, als de aanwezigheid van een signaal peptide of pro-peptide belangrijk is, kan dat informatie worden toegevoegd voor elke sequentie. Specifieke invoeging of schrapping gebeurtenissen, evenals intron locaties, kunnen ook worden opgenomen als ze worden verondersteld te zijn informatief. Een voordeel van het gebruik van MrBayes voor de fylogenetische analyse is dat het niet beperkt tot moleculaire gegevens-it kunt analyseren gegevens coderen voor andere kenmerken die evolutionaire belang wellicht. Dit kunnen worden gecodeerd als aanwezig of afwezig is, meer informatie dan de opeenvolging alleen.

Het verzamelen van de relevante sequenties is een cruciale stap van het protocol. Afhankelijk van het bestek van de studie en de verdeling van de leden van de groep, kan dit brede taxonomische groepen omvatten. Als het doel is te begrijpen van een hele groep eiwitten, kunt u overwegen dat bepaalde reeksen buiten de soorten die zij zijn meestal gemeld uit kunnen worden gevonden. Als een taxon is al goed vertegenwoordigd en extra sequenties onwaarschijnlijk of redundante zijn, kan hen uitsluiten van de zoekopdracht dienstig. Een fundamentele regel-van-duim voor het ophalen van hits in een BLAST zoeken is het gebruik van een cutoff van-05 voor de e-waarde. De e-waarde is het aantal treffers per toeval verwacht. Terwijl dit geschikt is voor sommige situaties, als er een groep van sequenties die zeer uiteenlopende maar specifieke kenmerken van de aandelen, kan het minder betrouwbare-it kan ophalen sequenties die vergelijkbaar zijn maar doen niet hebben de specifieke kenmerken wilde, en het kan niet sequenties die de belangrijkste kenmerken hebben, maar die zeer uiteenlopende retourneren Er zijn enkele mogelijke manieren van aanpak van dit probleem. De eerste is om te kijken naar de sequenties geïdentificeerd in de zoektocht die onder de-05 licht-donkerscheiding te zien als zij voldoen aan de criteria van de opname. Ten tweede, als er voldoende informatie, gebruik positie-specifieke herhaald BLAST (PSI-BLAST)22 of patroon-Hit geïnitieerd BLAST (PHI-BLAST)23. PSI-BLAST maakt gebruik van de resultaten van een eerste onderzoek voor het genereren van een nieuw model voor de volgende ronde en kan soms zoeken uiteenlopende reeksen gegenereerd, waarvan de eerste zoekopdracht heeft niet geïdentificeerd. PHI-BLAST vereist een patroon in te dienen samen met de query-reeks. Dit beperkt de opgehaalde sequenties die het patroon van belang bevatten. Dit hulpprogramma is vooral handig als een motief dat uniek is voor de groep duidelijk kan worden geïdentificeerd.

Een nauwkeurige uitlijning is essentieel voor de fylogenetische analyse; interpretaties van bomen zijn alleen geldig als ze worden gegenereerd met behulp van goede uitlijning. Met de verwijzing te informeren van de uitlijning kan helpen om fouten die alleen duidelijk wanneer de structuur of activiteiten worden beschouwd als te vermijden. Reeks redundantie moet worden gedefinieerd voor het project. Twee sequenties die overbodig lijken wellicht niet voor fylogenetische doeleinden als ze afkomstig van zeer uiteenlopende taxa zijn of bijna identiek in volgorde, maar hebben verschillende structurele of functionele eigenschappen. Er is onduidelijkheid over welke rijen opgenomen worden moeten, kunnen meerdere uitlijning worden gegenereerd als afzonderlijk geanalyseerd om te zien hoe de uitlijning effect fylogenetische gevolgtrekkingen verandert. De methode die hier gepresenteerd doet niet elimineren de noodzaak voor de handmatige correctie van aanpassingen, maar het kan helpen om te verduidelijken hoe de sequenties moeten worden uitgelijnd en eventueel kunnen worden gebruikt in combinatie met een meer geavanceerde barcoding techniek dan is beschreven eerder13.

Voor de verwijzing naar de nuttig zijn, is het belangrijk om te identificeren van de definiërende kenmerken die niet momenteel duidelijk uit de reeks alleen. Bijvoorbeeld, overweeg het onvermogen om te vergelijken van cysteïne verlijmen patronen tussen sequenties met verschillende aantallen cysteines wanneer elke sequentie is genummerd met betrekking tot zichzelf. Het doel is het vergemakkelijken van de vergelijking en bespreking, niet toe te voegen een andere laag van verwarring. Hierbij kan meerdere iteraties van de verwijzing en arrest roept bij het bepalen van welke functies op te nemen. Het is te hopen dat de aanneming van een gemeenschappelijke methode uiteenlopende reeksen in een groep te bespreken het begrip van de groep als geheel zal toenemen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteur heeft niets te onthullen.

Acknowledgments

Lopende tardigrade antimicrobiële peptide onderzoek wordt ondersteund door intramurale financiering uit het Midwesten Universiteit Office of Research en gesponsorde programma's (ORSP). De ORSP had geen rol in de studie ontwerp, gegevensverzameling, analyse, interpretatie of manuscript voorbereiding.

Materials

Name Company Catalog Number Comments
BLAST webpage https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite) DNASTAR https://www.dnastar.com/t-allproducts.aspx
Excel 2013 Microsoft
FigTree  http://tree.bio.ed.ac.uk/software/figtree/
MEGA www.megasoftware.net
MrBayes http://mrbayes.sourceforge.net/
SCOP database http://scop.mrc-lmb.cam.ac.uk/scop/

DOWNLOAD MATERIALS LIST

References

  1. Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
  2. Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
  3. Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
  4. Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
  5. Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
  6. Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
  7. Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
  8. Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
  9. Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
  10. Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
  11. Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016).
  12. Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
  13. Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
  14. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
  15. Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
  16. Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
  17. Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
  18. Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
  19. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
  20. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  21. Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
  22. Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
  23. Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Tags

Gedrag kwestie 126 superfamilie van eiwitten proteïne nomenclatuur eiwit classificatie sequentie alignering fylogenie ongewervelde defensinen superfamilie van de CS-αβ
Aanmaken en toepassen van een verwijzing ter vergemakkelijking van de discussie en de indeling van de eiwitten in een Diverse groep
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Tarr, D. E. K. Creating and Applying More

Tarr, D. E. K. Creating and Applying a Reference to Facilitate the Discussion and Classification of Proteins in a Diverse Group. J. Vis. Exp. (126), e56107, doi:10.3791/56107 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter