Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Behavior

Skapa och tillämpa en referens för att underlätta diskussion och klassificering av proteiner i en heterogen grupp

Published: August 16, 2017 doi: 10.3791/56107

Summary

Målet med detta protokoll är att utveckla en referens för olika proteiner i en grupp som saknar sammanhängande kriterier för nomenklatur och klassifikation. Denna hänvisning kommer att underlätta analyser och diskussioner i gruppen som helhet och kan användas förutom etablerade namn.

Abstract

Relaterade proteiner som har studerats i olika laboratorier använder olika organismer kan sakna ett enhetligt system av nomenklaturen och klassificering, vilket gör det svårt att diskutera gruppen som helhet och att placera nya sekvenser i lämpliga sammanhang. Utveckla en referens som prioriterar viktiga sekvens funktioner avser struktur eller verksamhet kan användas förutom etablerade namn för att lägga några koherens till en mångskiftande grupp av proteiner. Detta papper används cystein-stabiliserad alfa-helix (CS-αβ) överfamiljen som exempel för att visa hur en referens som genereras i kalkylprogram kan klargöra relationerna mellan befintliga proteiner i överfamiljen, samt underlätta tillägg av nya sekvenser. Det visar också hur referensen kan bidra till att förfina sekvens linjeföring genereras i vanliga programvara, vilket påverkar giltigheten av fylogenetiska analyser. Användning av en referens kommer sannolikt mest användbart för protein grupper som inkluderar mycket olika sekvenser från ett brett spektrum av taxa, med funktioner som inte fångas tillräckligt av molekylära analyser.

Introduction

En proteinets namnet ska återspegla är egenskaper och förhållande till andra proteiner. Tyvärr, enhetsnamnen tilldelas generellt vid tiden för upptäckten och forskning fortsätter, förståelsen av större sammanhang kan ändras. Detta kan leda till flera namn om ett protein identifierades självständigt av mer än en lab, att ändringar i nomenklaturen eller egenskaper tros vara definitiv när du tilldelar namn och att namnet inte längre tillräckligt att differentiera proteinet från andra.

Ryggradslösa defensins ger ett bra exempel på degeneration i nomenklatur och klassifikation. De första ryggradslösa defensins rapporterades från insekter, och det namnet ”insekt defensin” föreslogs baserat på den upplevda homologi till däggdjur defensins1,2. Den termen defensin används fortfarande, även om det står nu klart att ryggradslösa och däggdjur defensins delar inte en gemensam förfader3,4. Beroende på art, kan en ryggradslösa ”defensin” ha sex eller åtta cysteines (som bildar tre eller fyra disulfide obligationer) och en mängd antimikrobiella aktiviteter. Att komplicera situationen, proteiner med samma egenskaper som defensins inte alltid kallas ”defensins”, såsom den nyligen identifierade cremycins från Caenorhabditis remanei5. Dessutom är ryggradslösa stora defensins mer benägna att vara evolutionärt relaterade till ryggradsdjur β-defensins än till andra ryggradslösa defensins6. Trots detta forskare förlitar sig ibland på det namnet ”defensin” vid fastställandet av vilka sekvenser bör ingå i analyserna.

Strukturella studier visade likheten mellan insekt defensins och scorpion gifter7och CS-αβ luckan var därefter etablerad som den strukturella kännetecknande för insekt defensins8. Här fållan definierar scorpion toxin-liknande (CS-αβ) överfamiljen i strukturella klassificering av proteiner (SCOP) databas9, som för närvarande omfattar fem familjer: insekt defensins, kortkedjade scorpion toxiner, långkedjiga scorpion toxiner, MGD-1 (från en mollusk) och växt defensins. Denna Överfamilj är synonymt med de nyligen beskrivna cis-defensins4 och överfamiljen 3.30.30.10 i CATH/Gene 3D databasen10,11. Studier från en mängd evertebrater, växter och svampar Visa att namnen på proteiner som innehåller denna fålla inte är klart relaterade till cystein nummer eller limning mönster, antimikrobiell aktivitet eller evolutionära historia12.

Bristen på konsekvens och tydliga kriterier gör det utmanande att namnge och klassificera nyligen identifierade sekvenser i denna superfamiljen. Ett stort hinder för jämföra proteiner i denna Överfamilj är att cysteines numreras med avseende på varje enskild sekvens (den första cystein i varje sekvens är C1), med inget sätt att ta hänsyn till strukturella roll. Detta innebär att endast sekvenser med samma antal cysteines kan jämföras. I området i närheten finns det lilla sekvens bevarande än de cysteines som bildar CS-αβ luckan, vilket försvårar anpassningar och fylogenetiska analyser. Genom att utveckla ett numreringssystem som prioriterar strukturella egenskaper, kan superfamiljen sekvenser lättare jämföras och arrangera i rak linje. Bevarade funktioner, samt de definiera subgrupper, kan visualiseras snabbt, och nya sekvenser kan enkelt placeras i lämpliga sammanhang.

Detta papper använder ett kalkylprogram (exempelvis Excel) för att generera en referens numreringssystem för CS-αβ överfamiljen. Det visar hur detta klargör jämförelser mellan sekvenser och gäller det nya CS-αβ-sekvenser som identifierats från tardigrades. Med CS-αβ överfamiljen som exempel, skrevs protokollet att ge vägledning när du använder sekvenser av intresse. Det är emellertid inte avsedd att vara specifik för denna superfamiljen eller till cystein-rika sekvenser. Denna metod kommer sannolikt mest användbara för grupper av proteiner som har undersökts självständigt i olika taxa och/eller har lite övergripande sekvenshomologi, med diskret egenskaper som inte kanske kan enkelt identifieras av molekylär analysprogramvara. Denna metod kräver vissa förhand beslut om viktiga funktioner, så det blir av begränsad nytta om inga viktiga funktioner har identifierats. Det primära målet är att visa hur en enkel visualisering av sekvens relationer kan uppnås. Detta kan sedan användas för att informera sekvens justering och analys, men om justering och analys är de primära målen, en streckkod metod skulle vara ett lämpligt alternativ som har mer kapacitet för automation13. Den nuvarande metoden visar funktionerna i varje peptid i en linjär form, så det inte kommer vara bra för direkt visualisering av 3D-strukturen.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. bestämma definiera funktioner i gruppen Protein av intresse

  1. Consult tidigare publikationer att avgöra om det finns en enighet om de funktioner som är nödvändiga för att betraktas som en del av gruppen. Notera eventuella inkonsekvenser eller skillnader i uppfattning mellan forskargrupper och har egenskaper som kan användas för att skilja en undergrupp från en annan.
  2. Om tidigare litteratur inte behandlar definierande egenskaper, använda sekvenser som företrädare för gruppen anses en utgångspunkt för att identifiera bevarade funktioner.

2. Samla in relevanta sekvenser

  1. om recensioner har skrivits som inkluderar analyser av sekvenser som företräder gruppen, omfatta dessa sekvenser i raw datamängden. Hämta sekvenser med anslutningen siffror refereras i litteraturen och spara i en standard sekvens redigeringsprogram (t.ex. EditSeq i Lasergene sviten eller en av många tillgängliga för gratis online).
  2. Om gruppen i fråga har definierats i en av de strukturella databaserna, inkluderar de sekvenser som databasen listar som en del av den gruppen. Hämta sekvenser med anslutningen nummer i databasen och spara i en standard sekvens redigering program, som ovan.
    Obs: till exempel de sekvenser som kategoriseras i CS-αβ (scorpion toxin-liknande) överfamiljen i databasen SCOP kan hittas här: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
  3. utföra grundläggande lokala Alignment Search verktyg (BLAST) 14 sökningar av offentliga, online-databaser tillgängliga via National Center för Biotechnology Information (NCBI) att hitta sekvenser som inte kanske har inkluderats i litteraturen eller strukturella databaser. För mest komplett resultat, använda båda proteinet BLAST (blastp) och översatt blast med protein fråga (tblastn) program; dessa är båda tillgängliga på: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    1. Användning sekvenser kända för att vara en del av gruppen av intresse som fråga sekvenser. Kopiera och klistra in sekvensen i sökrutan överst, eller ge en GenBank anslutningen nummer eller gi identifierare, om tillgängligt.
    2. Välja databasen från den nedrullningsbara menyn. Välj icke-redundant proteinsekvenser (nr) för blastp och uttryckt sekvens taggar för tblastn.
    3. Sök resultat i specifika taxa i organismen genom att skriva organism eller en taxon namn och välja från listan som visas medan du skriver. Lägg till ytterligare organismer eller taxa att utesluta, klicka på den " + " visas knappen och ett annat fält. Utesluta eventuella oönskade taxa i rutan organismen genom att skriva namnet på organismen eller taxon, att välja från listan som visas medan du skriver och kontrollera den " Uteslut " rutan till höger.
    4. Tillgång till ytterligare parametrar genom att klicka på " algoritmparametrar " nära botten på sidan. Lämna vid standard om det inte finns en logik för att ändra en parameter.
    5. Klicka på den " BLAST " knappen för att köra analysen; det kan ta lite tid för att resultaten ska visas. I allmänhet hämta träffar med en förvänta värde (eller e-värde) av " -05 " eller bättre och spara i en standard sekvens redigeringsprogram.
      1. Om alla träffar är över denna tröskel, köra sökningen med ett ökat antal mål sekvenser (i avsnittet parametrar algoritm) för att få alla relevanta sekvenser.
  4. Om nödvändigt, trim sekvenser för att utelämna irrelevant information (t.ex. CS-αβ luckan gäller endast de mogna peptiden). Identifiera signalen peptider och pro-peptider för borttagning med hjälp av ProP 15 (tillgänglig online), eller SignalP för mer sofistikerade signal peptid prognos 16 (tillgänglig online).

3. Generera en referens i ett kalkylblad baserat på den viktiga funktioner att identifierades

  1. identifiera de utmärkande egenskaperna av gruppen av intresse. Exempelvis använda CS-αβ luckan slutgiltigt fastställda av lösning struktur insekt defensin A från Phormia terraenovae ( figur 1) 8.
    1. Här fållan inkluderar en mindre motiv som kallas cystein-stabiliserad helix (CSH) 17, identifiera detta motiv av en CXXXC (där X är någon aminosyra) uppströms en CXC som bildar två disulfide obligationer ( figur 1 , fast rosa linjer).
      Obs: För att slutföra CS-αβ motivet, bildas en tredje disulfide bond från ytterligare cysteines placeras före varje halva av CSH motivet ( figur 1, Prickig rosa linjer).
  2. Ange dessa definiera funktioner i ett kalkylblad. Se figur 2.
    1. Använd kolumner för de bevarade funktionerna och att representera mellanrummen mellan dessa funktioner. Hålla kolumnerna som är tillräckligt bred för att passa nummer och säkerställa att de har en konsekvent bredd. Ställ in bredd med den " Format | Kolumnbredden " funktion ( figur 2, rosa pil).
    2. Använda raderna för sekvensen namn.
    3. När en sekvens har funktionen, Fyll i rutan med funktionen Fyll ( figur 2, rosa torget). För avståndet mellan funktioner, ange antalet aminosyror i rutan mellan och lämna den ofylld. Exempelvis använder insekten defensin sekvens ger en referens som innehåller sex cysteines, med definierade inbördes avstånd mellan C2 och C3 och C5 och C6.
  3. Lägga till representativa sekvenser som tidigare fastställts som medlemmar i gruppen som baseras på den strukturella databaser och litteraturen.
    Obs: till exempel tidigare litteratur och databasen SCOP identifiera flera grupper för inkludering: insekt defensins, kortkedjade scorpion toxiner, långkedjiga scorpion toxiner, MGD-1, växt defensins, nematod ABFs drosomycins från Drosophila, och macins. Litteraturen identifierar också en bakteriell sekvens med endast fyra cysteines som kan representera förfader i superfamiljen 18. Att lägga till dessa sekvenser ökar antalet cysteines i referens från sex till tio men bibehåller anpassningen av viktiga strukturella funktioner ( figur 3).
    1. För att lägga till en funktion som sannolikt kommer att definiera en undergrupp av sekvenser (till exempel en extra cystein), Använd den " infoga " funktion ( figur 3, rosa pil).
    2. Om det finns funktioner som saknas i en viss sekvens, lämna rutan ofylld och kombinera det med lådor som representerar mellanliggande aminosyror. Om nödvändigt, sammanfoga cellerna med hjälp av funktionen sammanfoga och centrera ( figur 3, rosa låda).
  4. Fortsätt att lägga till sekvenser i grupperna för att få en bättre bild av variationen i varje grupp av större superfamiljen. Sammanfatta gruppen Egenskaper för att underlätta jämförelser ( figur 4).
    1. När antalet aminosyror mellan viktiga funktioner varierar, Använd bindestreck för att ange ett intervall, t ex 6-12 (6 till 12 aminosyror) och ett snedstreck anger antingen / eller, såsom 7/10 (7 eller 10 aminosyror).
    2. Välja ett sätt att kommentera dragen av sekvenser som kan vara relevanta men inte förekommer tillräckligt ofta för att inkludera i referens. Till exempel, eftersom cysteines är viktiga i detta superfamiljen, etikett ytterligare cysteines ( figur 4, rosa rutor).
  5. Lägga till ombyggday-identifierade sekvenser i kalkylarket med de etablerade sekvenserna som en guide. Att lägga till sekvenser från tardigrades (gul) visar exempelvis att tardigrade sekvenser hamnar i flera olika grupper av superfamiljen ( figur 5 visar sammanfattningar i stället för rad per sekvens för utrymme).
  6. Visa variabilitet inom en taxonomisk grupp genom omdisponering rader ( figur 6).

4. Använda hänvisningen till förfina aminosyra linjeföring

Obs: det finns många program som kan användas för flera följd linjeföring, men denna demonstration kommer att använda molekylär Evolutionär genetik analys (MEGA6) 19 eftersom den finns att hämta gratis.

  1. Ladda ner och installera programvaran.
  2. Börjar en ny justering i MEGA genom att välja " redigera/bygga justering " under fliken Justera Välj " skapa en ny justering " i rutan som visas och klicka på " OK. " Välj sedan " Protein. "
  3. Välj " infoga sekvens från filen " i den " redigera " menyn för att importera sekvenserna.
    Obs: Sekvenser kommer att behöva vara i FASTA format för import till MEGA. Bakgrundsfärger som återspeglar olika amino acid typer används som standard, men detta alternativ kan stängas av den " Display " menyn.
  4. När alla sekvenser är angett, klicka på ikonen böjning arm och sedan " justera Protein " att anpassa sekvenser med muskel algoritm 20.
    Obs: ClustalW är också tillgänglig.
    1. Om ett meddelande som säger att ingenting har varit valda dyker upp och frågar till Markera alla, klicka " OK. "
    2. Obs: Detta öppnar ett fönster som gör att man kan ändra vissa parametrar, men de bör endast ändras finns det anledning att göra så. Denna analys använder en delmängd av de sekvenser som analyseras i en tidigare papper 12.
  5. Kontrollera justeringen utifrån viktiga funktioner, Observera att den övre listen ovanför sekvenser visas alla kolumner där aminosyran är helt bevarad (*). Se figur 7. Se att den första justeringen visar endast tre av de fyra bevarade cysteines ( figur 7, rosa rutor). den AlCRP sekvensen tittar nedåt i kolumnen, och är klart feljusterade ( figur 7, rosa pil).
  6. Att bli av den stora klyftan mellan jag och bevarade C, markera den streck och tryck på den " ta bort " nyckel. Inte markera alla aminosyror, eller de kommer att raderas också.
  7. Att flytta aminosyror till höger, markera och tryck det utrymme bar
    1. Observera att AlCRP nu har de strukturella cysteines arrangera i rak linje och att den sista C av CXXXC motiv är bevarad i hela anpassningen ( figur 8). Justera justering som behövs för att prioritera de viktigaste funktionerna av sekvenser.

5. Jämför de grupper identifieras med hjälp av referensen med resultat från fylogenetiska analyser

  1. från preliminära linjeföring, avgöra vilka sekvenser bör ingå i en fylogenetisk analys; ett litet antal sekvenser, detta steg kan vara onödigt.
    1. Hålla en justering-fil som innehåller alla sekvenser, men för en fylogenetisk analys, ta bort överflödiga sekvenser ( figur 9, rosa lådor Visa par av överflödiga sekvenser).
    2. Om datauppsättningen innehåller ett stort antal sekvenser, kör en preliminär analys och välj representanter från grupper som alltid bildar en klad.
  2. Bestämma bästa aminosyra substitution modell.
    1. Exportera justeringen i MEGA format (under fliken data).
    2. Gå till menyn modeller och välj " hitta bästa DNA och Protein modell. " välja bara spara filen och öppna den, detta kommer att öppna ett fönster som har vissa parametrar som kan ändras.
    3. Använda standardparametrarna om det finns en anledning att ändra dem. Klicka på " beräkna " att påbörja analysen.
  3. Kör en högsta sannolikheten (ML) analys i MEGA.
    1. Välj " konstruktion och testning högsta sannolikheten Tree " från menyn fylogeni.
    2. Välja modellen bedöms vara den bästa passformen för data från steg 5.2 (utdata kommer att ge substitution modell samt bästa " bland webbplatser " parametern).
    3. Välja 1000 bootstrap replikerar Erhåll stödåtgärderna för trädet.
    4. Klicka " beräkna " att köra analysen; MEGA har ett " träd Explorer " att visualisera trädet.
  4. Köra en Bayesiansk analys i MrBayes programvara med öppen källkod 21.
    Obs: En MrBayes handbok är också tillgänglig från denna webbplats. Detta syftar till att ge grundläggande steg och är inte en heltäckande guide till Bayesian fylogenetisk analys.
    1. Exportera MEGA justeringen i PAUP (Nexus) format i samma mapp som programmet MrBayes.
    2. Öppen MrBayes och typ " exe filnamn " (t.ex. " exe Alignment.nex ").
    3. Ange parametrarna modell och analys. Välj antingen den modell som anges i steg 5.2 eller välja den " blandade " inställning som kommer att prova olika modeller och rapportera frekvensen av modellen i träden med de bästa bakre sannolikheterna (prset aamodelpr = blandade). Typ " showmodel " att rapportera de aktuella inställningarna för modell och " hjälpa mcmc " att visa nuvarande parameterinställningar, med en kort förklaring av varje.
    4. Ange antal generationer med hjälp av den " mcmcp ngen = " kommando (1 miljon är typiska).
    5. Typ " mcmc " att påbörja analysen.
    6. När antalet generationer är klar, programmet kommer att be att lägga till fler generationer. Om den genomsnittliga standardavvikelsen för split frekvenser är mindre än 0,1, skriv nr. Om det är över 0,1, analysen bör tillåtas fortsätta eller vissa parametrar bör ändras (se manualen).
    7. Användning av " max " befalla till generera tree filer.
    8. När analysen är klar och ett samförstånd träd genereras, trädet kan visas i Nacka (tillgänglig online).
  5. Jämför träden för att se om metoderna generera konsekvent resultat.
    Obs: Vissa sekvenser ger inte mycket information: träden kanske inte väl löst och grenarna kan ha minimalt stöd ( figur 10).
  6. Jämför träd till grupper identifieras med hjälp av referensen till se om de fylogenetiska analyserna dessa stödgrupper.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Grupper av sekvenser i CS-αβ överfamiljen rapporterats i litteraturen redovisas i figur 4. Cystein kopplingarna baserat på numreringen för varje sekvens föreslår fem grundläggande grupper (tabell 1, mellersta kolumnen). Grupp 1 har sex cysteines som från tre disulfide obligationer och innehåller sekvenser från insekter, spindeldjur, mollusker, nematoder och svampar. Grupperna 2, 3 och 4 har 8 cysteines som bildar fyra disulfide obligationer. Grupp 2 omfattar insekter, spindeldjur och växt sekvenser; grupp 3 omfattar arachnid, mollusk och nematoder sekvenser; och grupp 4 innehåller sekvenser från korallskelett, annelids, mollusker och svampar. Grupp 5 innehåller de 10 cystein-macins. Vissa sekvenser passade inte helt dessa mönster men var allmänt närmare en grupp än de andra.

Grupperna 1 och 2 verkar dela två obligationer: C2-C5 och C3-C6; dock erkänner börjar numreringen av varje sekvens med dess första cystein inte den strukturella ramen för obligationerna. C2-C5 i grupp 1 Nummerserier formulär som en av två obligationer i CSH motivet, medan C2-C5 i grupp 2 sekvenser bildar den sista bond som behövs för att stabilisera CS-αβ luckan. Homologa obligationen till grupp 1 C2-C5 är Grupp2 C3-C6, som inte är uppenbart från numreringen. Det är inte heller uppenbart att den C2-C6-bond i grupp 3, spelar samma strukturella roll.

Med sekvenser från litteraturen skapas en referens med sammanlagt tio cysteines. CSH motivet bildas från obligationer C3-C8 och C4-C9, med C2-C6 att slutföra CS-αβ luckan. Omnumrering cystein paren baserat på referensnumren klargör obligationerna som är närvarande i varje sekvens (tabell 1, högra kolumnen). Nu är det uppenbart att alla sekvenserna har C2-C6, C3-C8 och C4-C9, återspeglar strukturella luckan som definierar överfamiljen. Användning av en referens möjliggör enkel jämförelse mellan sekvenser som har inkonsekventa nomenklaturen och tvetydiga klassificeringskriterierna. Det kan också hjälpa för att identifiera funktioner som definierar en undergrupp av sekvenser. C1-C7 obligationen kan exempelvis skilja macins från andra superfamiljen medlemmar, vilket gör det lämpligt att klassificera sekvenser med detta band som ”macins” snarare än ”defensins” (tabell 1 och figur 4).

Sökningar av offentliga online-databaser avslöjade sexton sekvenser från tardigrades som tydligt har den CS-αβ vik, åtta varje från Echiniscus paret och Milnesium tardigradum. Fyra av de nya sekvenserna har sex cysteines, nio har åtta, en har nio och två har tio. Detta ger mycket lite information, men genom att anpassa sekvenserna till referensen, blir det tydligt att tardigrade sekvenser med samma antal cysteines inte alltid har de strukturellt viktiga cysteines på samma plats i sekvensen ( Figur 5 och figur 6). Anpassningen till referensen möjliggör också slutledningen av limning mönster (tabell 2, slutsatsen limning mönster visas inom parentes). Några av de tardigrade sekvenserna passar tydligt mönster 1-4. Andra liknar mest den föreslagna bakteriell förfadern, scorpion Cl-toxin eller en familj av svamp defensin-liknande peptider. Mönster 2 kanske två undergrupper, en representeras av scorpion Na + toxiner, drosomycin, och växten defensins och den andra genom scorpion Cl-gifter. Ytterligare arbete undersöka funktionen av tardigrade proteiner som behövs för att avgöra om några bör övervägas gifter snarare än defensins.

Fylogenetiska analyser används ofta för att studera hur en grupp av proteiner kan ha utvecklats. Sekvenser i CS-αβ överfamiljen är generellt korta och mycket olika; resulterande träd är ofta dåligt löst och lite inblick. Både ML och Bayesian träd för en delmängd av de sekvenser som analyseras här löstes dåligt, med lågt stöd för många klader (figur 10, kompletterande filer 1 - 4). Det är vanligt att bara Visa bootstrap nivåer över 70 (eller bakre sannolikheter över 0,7), men figur 10 behåller alla nummer för att demonstrera de totalt sett låga nivåerna av stöd. Fem grupper stöddes ovan 70/0,7 i minst en av de två träden: (a) en 6C och en 8C scorpion toxin; (b) macins; (c) tick och scorpion defensins; (d) växt defensins; och (e) 6C defensins från insekter, spindeldjur och mollusker. ML i trädet klad e också inkluderar en 8C toxin och en 8C tardigrade defensin, men stöd var mycket låg (figur 10A). I allmänhet dessa återspeglar de kategorier som identifieras med hjälp av referens cystein numreringen men visar också att sekvenser med olika cystein nummer inom en stor taxonomisk grupp kan vara mer släkt än sekvenser med samma mönster från olika grupper. Medan endast ett litet antal sekvenser användes i denna studie, en större analys av 250 sekvenser inte eliminera avsaknaden av upplösning (kompletterande filer 5 - 8)12. Kalkylblad referens anpassningen kan erbjuda lättare visualisering av likheter med strukturell eller funktionell betydelse jämfört med fylogenetiska träd.

Figure 1
Figur 1: Definiera sekvensen och strukturella funktioner av CS-αβ superfamiljen. Aminosyror och 3D-strukturen är färgkodade: loop (blå), alfa-helix (grön), beta-sheets (guld) och disulfide obligationer (rosa). Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2: Sex-cystein förhandsavgörande baserat på sekvens av insekt Defensin. Kolumner ange de bevarade cysteines (C1-C6) och, för CSH motivet, antalet bevarade amino syror mellan cysteines. De fyllda rutorna visar att sekvensen har den viss cystein och siffrorna anger aminosyror mellan cysteines. Klicka här för att se en större version av denna siffra.

er.within-page = ”1” >Figure 3
Figur 3: Raffinerade tio-cystein hänvisningen baserat på representativa sekvenser från grupper av CS-αβ superfamiljen. Av staplarna framgår bevarade cysteines och aminosyror dem emellan. Cysteines bidra till CSH motivet (C3, C4, C8 samt C9) och CS-αβ luckan (C2 och C6) är märkta. Sekvenserna är färgkodade av taxonomisk grupp: Arachnida (ljust orange), bakterier (svart), Cnidaria (grå), Hexapoda (orange), Mollusca (blå), Nematoda (lila) och Plantae (grön). Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4 : Sammanfattning av CS-αβ superfamiljen sekvenser i linje med hänvisning av gruppen Egenskaper. Av staplarna framgår bevarade cysteines och aminosyror dem emellan. Cysteines bidra till CSH motivet (C3, C4, C8 samt C9) och CS-αβ luckan (C2 och C6) är märkta. Sekvenserna är färgkodade av taxonomisk grupp: Annelida (Mörkröd), Arachnida (ljust orange), bakterier (svart), Cnidaria (grå), svampar (ljusgrön), Hexapoda (orange), Mollusca (blå), Nematoda (lila) och Plantae (grön). Nummer separerade med ett bindestreck visar en rad mellanliggande aminosyror; siffror separerade av ett snedstreck representerar antingen / eller. Ett ”C” anger en ytterligare cystein som inte inträffar tillräckligt ofta att motivera tillägg till referensen. Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5 : Tillägg av Tardigrade CS-αβ sekvenser till överfamiljen justering med hänvisning av gruppen Egenskaper. Av staplarna framgår bevarade cysteines och aminosyror dem emellan. Cysteines bidra till CSH motivet (C3, C4, C8 samt C9) och CS-αβ luckan (C2 och C6) är märkta. Sekvenserna är färgkodade av taxonomisk grupp: Annelida (Mörkröd), Arachnida (ljust orange), bakterier (svart), Cnidaria (grå), svampar (ljusgrön), Hexapoda (orange), Mollusca (blå), Nematoda (lila), Plantae (grön) och Tardigrada (gul). Nummer separerade med ett bindestreck visar en rad mellanliggande aminosyror; siffror separerade av ett snedstreck representerar antingen / eller. Ett ”C” anger en ytterligare cystein som inte inträffar tillräckligt ofta att motivera tillägg till referensen. Klicka här för att se en större version av denna siffra.

Figure 6
Figur 6: Tillägg av Tardigrade CS-αβ sekvenser till överfamiljen justering med hänvisning av taxonomiska gruppen. Av staplarna framgår bevarade cysteines och aminosyror dem emellan. Cysteines bidra till CSH motivet (C3, C4, C8 samt C9) och CS-αβ luckan (C2 och C6) är märkta. Sekvenserna är färgkodade av taxonomisk grupp: Annelida (Mörkröd), Arachnida (ljust orange), bakterier (svart), Cnidaria (grå), svampar (ljusgrön), Hexapoda (orange), Mollusca (blå), Nematoda (lila), Plantae (grön) och Tardigrada (gul). Nummer separerade med ett bindestreck visar en rad mellanliggande aminosyror; siffror separerade av ett snedstreck representerar antingen / eller. Ett ”C” anger en ytterligare cystein som inte inträffar tillräckligt ofta att motivera tillägg till referensen. Klicka här för att se en större version av denna siffra.

Figure 7
Figur 7: Feljusterade sekvens med automatiserad justering. Aminosyror som är bevarad i alla sekvenser anges med * i raden ovanför det första sekvens (markerad med rosa rutor). AlCRP är feljusterade. Mellanrummet måste tas bort för att korrekt anpassa C (rosa pil). Klicka här för att se en större version av denna siffra.

Figure 8
Figur 8: Manuell förfining av justeringen bevarar strukturellt viktiga funktioner av sekvenser. AlCRP är nu justerad korrekt (rosa pil), och CXXXC motivet är helt bevarad för sekvenser (rosa rutor). Klicka här för att se en större version av denna siffra.

Figure 9
Figur 9 : Överflödiga sekvenser i ett justeringsalternativ. Om det finns par nästan identiska sekvenser (rosa rutor), en kan tas bort, eftersom dessa kommer sannolikt alltid klustret tillsammans i och bidra lite till den totala topologin av trädet. Klicka här för att se en större version av denna siffra.

Figure 10
Figur 10 : Jämförelse av träd som genereras från fylogenetiska analyser. (A) högsta sannolikhet analys i MEGA, med 1,000 bootstrap replikerar hjälp av WAG + G + jag modell. (B) Bayesiansk analys med 1.000.000 generationer med inställningen blandat-modell. Klader som stöds på 70/0,7 visas i solid rosa linjer; streckad rosa linjer visar klader som stöds på 70/0,7 i andra träd. a en 6C och en 8C scorpion toxin; (b) macins; (c) tick och scorpion defensins; (d) växt defensins; och (e) 6C defensins från insekter, spindeldjur och mollusker. Klicka här för att se en större version av denna siffra.

Table 1
Tabell 1: grupper inom CS-αβ överfamiljen baserat på cystein-ihopkoppling mönster. Fem grundläggande mönster av bond bildandet visas med den interna nummer (mellersta kolumnen) eller referensnummer (högra kolumnen). Scorpion Cl - toxiner, ASABF 6Cys-alpha och en grupp av svamp peptider är placerade med mönstret att most hillebarder. En cystein som inte ingår i referens indikeras av en upphöjd av cysteines före/efter (t.ex. C3/4 är mellan C3 och C4).

Table 2
Tabell 2: tillägg av Tardigrade CS-αβ sekvenser till cystein-ihopkoppling mönster grupper. Tardigrade defensins och macins (fetstil) sätts in i tidigare etablerade grupper där så är möjligt. Vissa tardigrade sekvenser kan visa ett gruppspecifika mönster. En cystein som inte ingår i referens indikeras av en upphöjd av cysteines före/efter (t.ex. C3/4 är mellan C3 och C4). Notationen ”2C/1” visar att det finns två cysteines uppströms referenspunkt C1.

Kompletterande fil 1 (S1): anpassning av den här datamängden i MEGA. Vänligen klicka här för att hämta den här filen.

Kompletterande fil 2 (S2): maximal-sannolikheten Tree MEGA fil för denna datamängd. Vänligen klicka här för att hämta den här filen.

Kompletterande fil 3 (S3): anpassning av den här datamängden i Nexus Format för MrBayes. Vänligen klicka här för att hämta den här filen.

Kompletterande fil 4 (S4): konsensus fil från MrBayes analysen av denna datamängd. Vänligen klicka här för att hämta den här filen.

Kompletterande fil 5 (S5): anpassning av 250 CS-αβ sekvenser i MEGA. Vänligen klicka här för att hämta den här filen.

Kompletterande fil 6 (S6): Maximum Likelihood träd av 250 CS-αβ sekvenser. Vänligen klicka här för att hämta den här filen.

Kompletterande fil 7 (S7): justering av 250 CS-αβ sekvenser i Nexus Format för MrBayes. Vänligen klicka här för att hämta den här filen.

Kompletterande fil 8 (S8): konsensus fil från MrBayes analysen av 250 CS-αβ sekvenser. Vänligen klicka här för att hämta den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Kriterierna för att namnge ett protein inom en grupp bör vara tydlig, men detta är inte alltid fallet. Sekvenser som har den CS-αβ vik har studerats i många övningar med hjälp av olika organismer, vilket resulterar i olika system i nomenklaturen, samt olika nivåer av karakterisering. Försöker införa en helt ny nomenklatur är inte rimligt och skulle resultera i en hel del förvirring när consulting tidigare litteratur. En referens numreringssystem kan användas förutom namnet på ett protein för att klargöra dess egenskaper i förhållande till överfamiljen.

Grupper av proteiner med tydliga kriterier för namngivning och klassificering kommer sannolikt inte nytta skapar en referens i ett kalkylblad, även om det kan vara användbar för att sammanfatta ett stort antal sekvenser och visualisera viktiga egenskaper. Sekvens linjeföring och logotyper är användbara för att undersöka nivån på bevarande på varje plats, men aktivt prioriterar inte sekvens funktioner viktigt för struktur eller funktion. CS-αβ exemplet fokuserar på strukturen, men specifika aminosyror som bildar ett bindningsställe skulle också kunna införlivas som en definierande funktion. Som sekvens funktioner som ger specifik antimikrobiella/toxisk verksamhet inom CS-αβ peptider identifieras, kan dessa läggas till hänvisningen till klargöra grupper baserat på aktivitet. Även om endast de förutspådda mogen peptiderna användes i det här exemplet om förekomsten av en signal peptid eller Pro peptid är viktigt, kan att information läggas till för varje sekvens. Specifika införande eller borttagning händelser, samt intron platser, kan också inkluderas om de tros vara informativ. En fördel med MrBayes för den fylogenetisk analysen är att det inte är begränsat till molekylär data-it kan analysera data kodning för andra egenskaper som kan vara evolutionär betydelse. Dessa kan vara kodade som närvarande eller frånvarande, som ger mer information än sekvensen ensam.

Samla de relevanta sekvenserna är ett kritiskt steg i protokollet. Beroende på omfattningen av studien och fördelningen av gruppens medlemmar, kan detta omfatta breda taxonomiska grupper. Om målet är att förstå en hel grupp av proteiner bör att vissa sekvenser kan hittas utanför de arter som de vanligtvis rapporteras från. Om ett taxon är redan väl representerad och ytterligare sekvenser är osannolikt eller redundant, kan det vara lämpligt att utesluta dem från sökningen. En grundläggande regeln-of-thumb för att hämta träffar i en BLAST-sökning är att använda en cutoff av -05 för e-värdet. E-värdet är antalet träffar som förväntas av en slump. Medan detta är lämplig för vissa situationer, om det finns en grupp av sekvenser som är mycket olika men aktier särdrag, kan det vara mindre tillförlitlig-it kan hämta sekvenser som är liknande men göra inte har särdrag ville, och det kan inte returnera sekvenser som har de viktigaste egenskaperna, men som är mycket olika. Det finns några potentiella sätt att lösa denna fråga. Först är att titta på sekvenserna identifieras i sökandet som är nedanför-05 cut-off att se om de uppfyller inklusionskriterierna. Andra, om det finns tillräckligt med information, använda Position-specifika upprepade BLAST (PSI-BLAST)22 eller mönster-Hit initierade BLAST (PHI-BLAST)23. PSI-BLAST använder resultaten från en första sökning för att generera en ny modell för nästa omgång och kan ibland hitta olika sekvenser som den första sökningen inte identifiera. PHI-BLAST kräver ett mönster skall lämnas tillsammans med sekvensen fråga. Detta begränsar den Hämtad sekvenser till de som innehåller mönstret av intresse. Detta verktyg är särskilt användbara om ett motiv som är unikt för gruppen tydligt kan identifieras.

En korrekt anpassning är kritisk för fylogenianalys; tolkningar av träd är endast giltiga om de genereras med hjälp av bra justering. Med hänvisningen för att informera anpassningen kan hjälpa för att undvika fel som endast är uppenbara när struktur eller verksamhet beaktas. Sekvens redundans behöver definieras för projektet. Två sekvenser som verka överflödigt kan inte vara för fylogenetiska ändamål om de från vitt skilda taxa eller är nästan identiska i sekvens men har olika strukturella eller funktionella egenskaper. Om det finns oklarheter om vilka sekvenser bör inkluderas, kan flera anpassningar genereras och analyseras separat för att se hur justeringen ändras inverkan fylogenetiska slutsatser. Metoden presenteras här eliminerar inte behovet av manuell justering av anpassningar, men det kan hjälpa för att klargöra hur sekvenserna bör anpassas och skulle möjligen kunna användas tillsammans med en mer sofistikerad streckkodning teknik än har beskrivits tidigare13.

För hänvisningen till vara användbar, är det viktigt att identifiera definierande egenskaper som inte är för närvarande uppenbara från sekvensen ensam. Exempelvis att oförmågan att jämföra cystein limning mönster mellan sekvenser med olika antal cysteines när varje sekvens är numrerad med avseende på sig själv. Målet är att underlätta jämförelse och diskussion, inte att lägga till ytterligare ett lager av förvirring. Detta kan innebära flera iterationer av hänvisningen och dom kallar för att avgöra vilka funktioner du vill inkludera. Förhoppningen är att anta en gemensam metod för att diskutera olika sekvenser i en grupp kommer att öka förståelsen för gruppen som helhet.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författaren har något att avslöja.

Acknowledgments

Pågående tardigrade antimikrobiella peptid forskning stöds av intramurala finansiering från Midwestern University kontor för forskning och sponsrade program (ORSP). ORSP hade ingen roll i studiedesign, datainsamling, analys, tolkning eller manuskript förberedelse.

Materials

Name Company Catalog Number Comments
BLAST webpage https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite) DNASTAR https://www.dnastar.com/t-allproducts.aspx
Excel 2013 Microsoft
FigTree  http://tree.bio.ed.ac.uk/software/figtree/
MEGA www.megasoftware.net
MrBayes http://mrbayes.sourceforge.net/
SCOP database http://scop.mrc-lmb.cam.ac.uk/scop/

DOWNLOAD MATERIALS LIST

References

  1. Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
  2. Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
  3. Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
  4. Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
  5. Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
  6. Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
  7. Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
  8. Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
  9. Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
  10. Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
  11. Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016).
  12. Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
  13. Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
  14. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
  15. Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
  16. Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
  17. Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
  18. Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
  19. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
  20. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  21. Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
  22. Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
  23. Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Tags

Beteende problem 126 Protein superfamiljen protein nomenklaturen protein klassificering sekvens justering fylogeni ryggradslösa defensins CS-αβ superfamiljen
Skapa och tillämpa en referens för att underlätta diskussion och klassificering av proteiner i en heterogen grupp
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Tarr, D. E. K. Creating and Applying More

Tarr, D. E. K. Creating and Applying a Reference to Facilitate the Discussion and Classification of Proteins in a Diverse Group. J. Vis. Exp. (126), e56107, doi:10.3791/56107 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter