Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Behavior

At oprette og anvende en Reference for at lette drøftelserne og klassificering af proteiner i en forskelligartet gruppe

Published: August 16, 2017 doi: 10.3791/56107

Summary

Målet med denne protokol er at udvikle en reference for divergerende proteiner i en gruppe, der mangler sammenhængende kriterier for nomenklatur og klassificering. Denne henvisning vil lette analyser og diskussion af gruppen som helhed og kan anvendes som supplement etablerede navne.

Abstract

Relaterede proteiner, der er blevet undersøgt i forskellige laboratorier ved hjælp af varierende organismer kan mangle et ensartet system af nomenklatur og klassificering, hvilket gør det vanskeligt at diskutere gruppen som helhed og at placere nye sekvenser i den relevante kontekst. Udvikle en reference, der prioriterer vigtigt sekvens funktioner relateret til struktur og/eller aktivitet kan bruges ud over etablerede navne til at tilføje nogle sammenhæng til en forskelligartet gruppe af proteiner. Dette papir bruger cystein-stabiliseret alpha-helix (CS-αβ) superfamilien som et eksempel til at vise hvordan en reference, der er genereret i regneark software kan afklare forholdet mellem eksisterende proteiner i superfamilien, samt lette tilføjelsen af nye sekvenser. Det viser også, hvordan henvisningen kan bidrage til at forfine sekvens alignments genereret i almindeligt anvendte software, som påvirker gyldigheden af fylogenetiske analyser. Brug af en henvisning vil sandsynligvis være mest nyttige for protein grupper, der omfatter meget forskellige sekvenser fra et bredt spektrum af taxa, med funktioner, der ikke er tilstrækkeligt fanget af molekylære analyser.

Introduction

Et protein navn bør afspejle karakteristika og forholdet til andre proteiner. Desværre navne tildeles generelt på tidspunktet for opdagelse, og forskningen fortsætter og forståelse af en større sammenhæng kan ændre. Dette kan føre til flere navne, hvis et protein blev selvstændigt identificeret af mere end én lab, at ændringer i nomenklatur eller i de kendetegn, menes at være endelige, når du tildeler navnet og navnet ikke længere tilstrækkelig differentiering af protein fra andre.

Hvirvelløse defensins give et godt eksempel på degeneration i nomenklatur og klassificering. De første hvirvelløse defensins blev rapporteret fra insekter, og det navn "insekt defensin" blev foreslået baseret på den opfattede homologi til pattedyr defensins1,2. Sigt defensin bruges stadig, selv om det er nu klart, at hvirvelløse og pattedyr defensins deler ikke en fælles forfader3,4. Afhængigt af arten, kan en hvirvelløse "defensin" har seks eller otte cysteines, (der udgør tre eller fire disulfid obligationer) og en række antimikrobielle aktiviteter. At komplicere situationen, proteiner med samme egenskaber som defensins ikke er altid kaldt "defensins," som den for nylig påviste cremycins fra Caenorhabditis remanei5. Derudover er hvirvelløse store defensins mere tilbøjelige til at være evolutionært relateret til hvirveldyr β-defensins end til andre hvirvelløse defensins6. Trods dette stole forskere undertiden på den navnet "defensin" ved fastlæggelsen af, hvilke sekvenser bør inkluderes i analyserne.

Strukturelle undersøgelser afslørede ligheden mellem insekt defensins og scorpion toksiner7og CS-αβ fold blev senere etableret som den strukturelle kendetegn for insekt defensins8. Denne fold definerer scorpion toksin-lignende (CS-αβ) superfamilien i strukturelle klassificering af proteiner (SCOP) database9, som i øjeblikket omfatter fem familier: insekt defensins, kortkædede scorpion toksiner, langkædede scorpion toksiner, MGD-1 (fra en bløddyr), og plante defensins. Denne superfamilien er synonymt med den seneste beskrevet cis-defensins4 og superfamilien 3.30.30.10 i CATH-genet 3D database10,11. Undersøgelser fra en række af hvirvelløse taxa, planter og svampe vis at navnene på proteiner, der indeholder denne fold ikke klart er relateret til cystein nummer eller limning mønster, antimikrobiel aktivitet eller evolutionær historie12.

Manglen sammenhæng og klare kriterier gør det udfordrende at navngive og klassificere nyligt identificerede sekvenser i denne superfamilien. En væsentlig hindring for sammenligning af proteiner i denne superfamilien er, at cysteines er nummereret med hensyn til hver enkelt sekvens (den første cystein i hver sekvens er C1) med ingen måde at tage højde for den strukturelle rolle. Det betyder, at kun sekvenser med det samme antal cysteines kan sammenlignes. Der er lille sekvens bevarelse end cysteines danner CS-αβ-fold, hvilket vanskeliggør linjeføringer og fylogenetiske analyser. Ved at udvikle et nummersystem, der prioriterer strukturelle træk, kan superfamilien sekvenser mere nemt sammenlignet og justeret. Bevarede funktioner, som de definerer undergrupper, kan visualiseres hurtigt, og nye sekvenser mere let kan placeres i den relevante kontekst.

Dette papir bruger regneark software (fx Excel) til at generere en reference nummerering system for CS-αβ superfamilien. Det viser hvordan dette tydeliggør sammenligninger mellem sekvenser og gælder det nye CS-αβ sekvenser identificeret fra Biogeografi. Bruger CS-αβ superfamilien som et eksempel, var protokollen skrevet at yde vejledning, når du bruger sekvenser af interesse; Det er dog ikke beregnet til at være specifik for denne superfamilien eller cystein-rige sekvenser. Denne metode vil sandsynligvis være mest nyttig for grupper af proteiner, der har været forsket uafhængigt i divergerende taxa og/eller har lille samlede sekvens homologi, med diskrete egenskaber, der ikke kan genkendes nemt af Molekylær analyse software. Denne metode kræver nogle på forhånd beslutninger om vigtige funktioner, så det vil være af begrænset nytte, hvis ingen vigtige funktioner er blevet identificeret. Det primære mål er at vise, hvordan en simpel visualisering af sekvens relationer kan opnås. Dette kan så bruges til at informere sequence alignment og analyse, men hvis justering og analyse er de primære mål, en stregkode metode ville være et egnet alternativ, som har mere kapacitet til automatisering13. Den nuværende metode viser funktionerne af hver peptid i en lineær form, så det ikke vil være nyttigt for den direkte visualisering af 3D-struktur.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. afgøre definerer funktionerne i gruppen Protein af interesse

  1. Consult tidligere publikationer til at afgøre, om der er enighed om de funktioner, der er nødvendige for at blive betragtet som en del af gruppen. Vær opmærksom på eventuelle uoverensstemmelser eller forskelle i opfattelse mellem forskningsgrupper, og omfatter egenskaber, der kan tjene til at adskille en undergruppe af en anden.
  2. Hvis tidligere litteratur ikke omhandler definerende karakteristik, bruge sekvenser, der betragtes som repræsentant for gruppen som udgangspunkt at identificere bevarede funktioner.

2. Indsamle relevante sekvenser

  1. Hvis anmeldelser er blevet skrevet, indeholde analyser af sekvenser, der repræsenterer gruppen, omfatter disse sekvenser i den rå datasæt. Hente sekvenser ved hjælp af tiltrædelsen numre der refereres til i litteraturen og gemme i en standard sekvens redigering program (f.eks. EditSeq i Lasergene suite eller en af mange tilgængelige for gratis online).
  2. Hvis den pågældende gruppe har været defineret i en af de strukturelle databaser, omfatter sekvenser databasen vises som en del af gruppen. Hent sekvenser ved hjælp af tiltrædelsen numre i databasen og gemme i et standard sekvens redigering program, som ovenfor.
    Bemærk: For eksempel, de sekvenser, der er kategoriseret i CS-αβ (scorpion toksin-lignende) superfamilien i SCOP database kan findes her: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
  3. udføre grundlæggende lokale Justering søgning værktøj (BLAST) 14 søgninger af offentlige, online databaser tilgængelige via det nationale Center for bioteknologi oplysninger (NCBI) at finde sekvenser, der ikke muligvis er medtaget i litteraturen eller strukturelle databaser. For mest komplette resultater, bruge begge protein BLAST (blastp) og oversat blast med protein forespørgsel (tblastn) programmer; disse er både tilgængelig på: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    1. Brug sekvenser kendt for at være en del af gruppen af interesse som forespørgslen sekvenser. Kopier og Indsæt sekvensen i søgefeltet øverst eller give en GenBank tiltrædelse antallet eller gi id, hvis tilgængelig.
    2. Vælge databasen fra dropdown menuen. Vælg ikke-redundante protein-sekvenser (NN) for blastp og udtrykt sequence tags for tblastn.
    3. Ransage nemlig resultater i specifikke taxa i organismen indstilling ved at skrive den organisme eller systematisk navn og vælge på listen, der vises, mens du skriver. For at tilføje yderligere organismer eller taxa at udelukke, klik på den " + " knappen og en anden felt vises. Udelukke enhver uønsket taxa i boksen organisme ved at skrive navnet på organisme eller systematisk at vælge på listen, der vises under skrivning, og den " udelukke " boksen til højre.
    4. Adgang til yderligere parametre ved at klikke på " algoritme parametre " nær bunden af siden. Forlade på standard, medmindre der er en begrundelse for at ændre en parameter.
    5. Klik på den " BLAST " knap for at køre analysen, det kan tage lidt tid for resultaterne, der vises. I almindelighed, hente hits med en Forvent værdi (eller e-værdi) af "-05 " eller bedre og gemme i en standard sekvens redigering program.
      1. Hvis alle hits over denne tærskel, køre søgningen med et øget antal mål sekvenser (i afsnittet algoritme parametre) for at indhente alle relevante sekvenser.
  4. Om nødvendigt, trim sekvenser for at udelukke irrelevante oplysninger (f.eks. CS-αβ folden gælder kun for den modne peptid). Identificere signal peptider og pro-peptider for fjernelse af at bruge ProP 15 (tilgængelig online), eller SignalP for mere sofistikerede signal peptid forudsigelse 16 (tilgængelig online).

3. Generere en henvisning i et regneark baseret på de vigtige funktioner, blev identificeret

  1. identificere de definerende Karakteristik af gruppen af interesse. For eksempel bruger CS-αβ folden endeligt etableret i løsning strukturen af insekt defensin A fra Phormia terraenovae ( figur 1) 8.
    1. Denne fold omfatter en mindre motiv kaldet cystein-stabiliseret helix (CSH) 17; identificere dette motiv af en CXXXC (hvor X er en aminosyre) opstrøms af en CXC, der danner to svovlbroer ( figur 1 , solid pink linjer).
      Bemærk: For at fuldføre CS-αβ motivet, en tredje disulfid obligation er dannet fra yderligere cysteines placeres foran hver halvdel af CSH motiv ( figur 1, punkteret pink linjer).
  2. Indtast disse definere funktioner i et regneark. Se figur 2.
    1. Brug kolonner for de bevarede funktioner og til at repræsentere rum mellem disse funktioner. Holde kolonner bred nok til at passe numre og sikre, at de har en ensartet bredde. Indstille bredden ved hjælp af den " Format | Kolonnebredden " funktion ( figur 2, pink pil).
    2. Bruge rækkerne for sekvens navne.
    3. Når en sekvens har funktionen, udfylde boksen Fyld funktionen ( figur 2, pink square). For afstanden mellem funktioner, indtaste antallet af aminosyrer i boksen mellem og forlade det ubesat. For eksempel ved hjælp af insekt defensin sekvens giver en reference, der indeholder seks cysteines, med definerede afstande mellem C2 og C3 og C5 og C6.
  3. Tilføj repræsentative sekvenser, der er oprettet tidligere som medlemmer af gruppen baseret på strukturelle databaser og litteratur.
    Bemærk: For eksempel tidligere litteratur og SCOP database identificere flere grupper til optagelsen: insekt defensins, kortkædede scorpion toksiner, langkædede scorpion toksiner, MGD-1, plante defensins, nematode ABFs, drosomycins fra Drosophila, og macins. Litteraturen peger også på en bakteriel sekvens med kun fire cysteines, der kan repræsentere stamfader til denne superfamilien 18. Tilføje disse sekvenser øger antallet af cysteines i reference fra seks til ti men fastholder tilpasningen af de vigtige strukturelle egenskaber ( figur 3).
    1. For at tilføje en funktion, der er tilbøjelige til at definere en undergruppe af sekvenser (for eksempel, en ekstra cystein), bruge den " Indsæt " funktion ( figur 3, pink pil).
    2. Hvis der er funktioner mangler fra en given sekvens, lad feltet udfyldt og kombinere det med kasser der repræsenterer mellemliggende aminosyrer. Hvis det er nødvendigt, flette celler ved hjælp af funktionen Flet og centrer ( figur 3, pink box).
  4. Fortsæt tilføje sekvenser til grupperne til at få et bedre billede af variationen i hver gruppe af de større superfamilien. Opsummere gruppe karakteristika for at lette sammenligninger ( figur 4).
    1. Når antallet af aminosyrer mellem hovedtræk varierer, brug en bindestreg til at angive et interval, som 6-12 (6-12 aminosyrer), og en skråstreg angiver enten / eller, såsom 7/10 (7 eller 10 aminosyrer).
    2. Vælger en måde at anmærke funktioner af sekvenser, der kan være relevante, men ikke forekommer ofte nok til at medtage i henvisningen. For eksempel, da cysteines er vigtige i denne superfamilien, mærke yderligere cysteines ( fig. 4, lyserøde kasser).
  5. Tilføje newly-identificerede sekvenser til regnearket ved hjælp af de etablerede sekvenser som en guide. For eksempel, tilføjer sekvenser fra Biogeografi (gul) viser at de tardigrade sekvenser falder i flere forskellige grupper af superfamilien ( figur 5 viser oversigter i stedet for en række pr. sekvens til plads formål).
  6. Vis variation inden for en taksonomisk gruppe ved at omarrangere rækker ( figur 6).

4. Brug henvisningen til forfine aminosyre Alignments

NOTE: der er mange programmer, der kan bruges til flere sekvens linjeføringer, men denne demonstration vil bruge molekylære evolutionær genetik analyse (MEGA6) 19 fordi den er tilgængelig til gratis download.

  1. Download og installere softwaren.
  2. Begynder en ny linjeføring i MEGA ved at vælge " Edit/Build justering " under fanen Juster " opretter en ny linjeføring " i boksen, der vises, og klik på " OK. " Marker " Protein. "
  3. Vælg " indsætte sekvens fra filen " i den " Edit " menu for at importere sekvenserne.
    Bemærk: Sekvenser skal være i FASTA format til import til MEGA. Baggrundsfarver, der afspejler forskellige aminosyre typer der anvendes som standard, men denne indstilling kan være slået fra den " skærm " menuen.
  4. Når alle sekvenser er indtastet, skal du klikke på ikonet fleksible arm og derefter " Juster Protein " justere sekvenser ved hjælp af muskel algoritme 20.
    Bemærk: ClustalW er også tilgængelig.
    1. Hvis en meddelelse om, at intet har været valgte popper op og beder til at vælge alle, klik " OK. "
    2. NOTE: Dette åbner et vindue der gør det muligt at ændre nogle parametre, men de bør kun ændres der er grund hertil. Denne analyse bruger et undersæt af de sekvenser, der er analyseret i et tidligere papir 12.
  5. Check justeringen baseret på de vigtige funktioner, Bemærk at den øverste bjælke ovenfor sekvenser vil vise kolonner, hvor aminosyren er helt bevaret (*). Se figur 7. Se at den oprindelige justering viser kun tre af de fire bevarede cysteines ( figur 7, lyserøde kasser); ser ned i kolonnen, AlCRP sekvens er klart misvisende ( figur 7, pink pil).
  6. At slippe af med den store lønforskel I og de bevarede C, fremhæve streger og tryk på den " slette " nøgle. Ikke fremhæve nogen aminosyrer, eller de vil blive slettet og.
  7. At flytte aminosyrer til højre, fremhæve og trykke på space bar
    1. Bemærk at AlCRP nu har de strukturelle cysteines justeret og at den sidste C CXXXC motiv er bevaret i hele justeringen ( figur 8). Justere tilpasning efter behov for at prioritere de vigtigste funktioner af sekvenserne.

5. Sammenligne de grupper identificeres ved hjælp af Reference med resultater fra Fylogenetisk analyse

  1. fra foreløbige tilpasninger, bestemme hvilke sekvenser skal medtages i et Fylogenetisk analyse, for et lille antal sekvenser, kan dette trin være unødvendigt.
    1. Holde en justering-fil, der indeholder alle sekvenser, men i et Fylogenetisk analyse, fjerne overflødige sekvenser ( figur 9, lyserøde kasser show par af redundante sekvenser).
    2. Hvis datasættet omfatter et stort antal sekvenser, køre en foreløbig analyse og vælge repræsentanter fra grupper, der altid udgør et clade.
  2. Afgøre den bedste aminosyre substitution model.
    1. Eksportere justering i MEGA format (under fanen data).
    2. Modeller på menuen og vælg " finde bedste DNA/Protein Model. " vælge filen bare gemt og åbne det, dette vil åbne et vindue, der har nogle parametre, der kan ændres.
    3. Bruger standardparametrene, medmindre der er en grund til at ændre dem. Klik på " beregne " at begynde analysen.
  3. Køre en maksimal sandsynligheden (ML) analyse i MEGA.
    1. Vælg " konstruktion/Test maksimale sandsynligheden træ " fra menuen fylogeni.
    2. Vælger modellen fast besluttet på at være den bedste pasform for data fra trin 5.2 (output vil give substitution model samt bedst " priser blandt websteder " parameteren).
    3. Vælg 1.000 bootstrap gentagelser for at opnå at foranstaltningerne til støtte for træet.
    4. Klik " beregne " til at køre analyse; MEGA har en " træ Explorer " at visualisere træ.
  4. Køre en Bayesiansk analyse i MrBayes open source-software 21.
    Bemærk: En MrBayes manual er også tilgængelige fra dette websted. Dette er beregnet til at give grundlæggende trin og er ikke en omfattende guide til udførelse af Bayesianske Fylogenetisk analyse.
    1. Eksportere MEGA justering i PAUP (Nexus) format til den samme mappe som programmet MrBayes.
    2. Åben MrBayes og type " exe filnavn " (fx " exe Alignment.nex ").
    3. Angive parametrene model og analyse. Vælg enten den model, der er angivet i trin 5.2 eller vælge den " blandet " indstilling, der vil prøve forskellige modeller og rapportere hyppigheden af model i træer med de bedste posterior sandsynligheder (prset aamodelpr = blandet). Type " showmodel " til at rapportere de aktuelle model indstillinger og " hjælpe mcmc " til at vise nuværende parameterindstillinger, med en kort forklaring af hver.
    4. Indstille antallet af generationer ved hjælp af den " mcmcp ngen = " kommando (1 million er typisk).
    5. Type " mcmc " at begynde analysen.
    6. Når antallet af generationer har afsluttet, programmet vil bede om at tilføje flere generationer. Hvis den gennemsnitlige standardafvigelse af split frekvenser er mindre end 0,1, type nr. Hvis det er over 0,1, analysen bør tillades at fortsætte, eller nogle parametre skal ændres (Se manualen).
    7. Brug den " Jeanets " kommando til at generere filerne træ.
    8. Når analysen er fuldført og en konsensus træ er genereret, træet kan ses i figentræ (tilgængelig online).
  5. Sammenligne træer for at se, hvis metoderne frembringe ensartede resultater.
    Bemærk: Nogle sekvenser ikke giver en masse information: træerne kan ikke være godt løst og grenene kan have minimal støtte ( figur 10).
  6. Sammenligne træer til grupper identificeres ved hjælp af henvisningen se om fylogenetiske analyserne disse støttegrupper.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Grupper af sekvenser i CS-αβ superfamilien rapporteret i litteraturen er vist i figur 4. Cystein bindinger baseret på nummerering for hver sekvens foreslår fem grundlæggende grupper (tabel 1, midterste kolonne). Gruppe 1 har seks cysteines, der fra tre disulfid obligationer og indeholder sekvenser fra insekter, arachnids, bløddyr, nematoder og svampe. Gruppe 2, 3 og 4 har 8 cysteines, der danner fire disulfid obligationer. Gruppe 2 omfatter insekt, arachnid og plante sekvenser; gruppe 3 omfatter arachnid, mollusk og ødelægge sekvenser; og gruppe 4 omfatter sekvenser fra cnidarians, annelids, bløddyr og svampe. Gruppe 5 indeholder 10 cystein macins. Nogle sekvenser helt passede ikke disse mønstre men var generelt tættere til én gruppe end de andre.

Gruppe 1 og 2 synes at dele to obligationer: C2-C5 og C3-C6; imidlertid anerkender begynder nummerering af hver sekvens med sin første cystein ikke den strukturelle forbindelse af obligationerne. C2-C5 i gruppe 1 sekvenser former en af to obligationer i CSH motiv, mens C2-C5 i gruppe 2 sekvenser udgør den endelige bond behov for at stabilisere CS-αβ folden. Den homologe bond til gruppe 1 C2-C5 er Group2 C3-C6, der er ikke indlysende fra nummereringen. Det er heller ikke indlysende, at C2-C6-bond i gruppe 3, spiller den samme rolle.

Ved hjælp af sekvenser fra litteraturen genereret en henvisning med i alt ti cysteines. CSH motiv er dannet fra obligationer C3-C8 og C4-C9, med C2-C6 fuldfører CS-αβ-fold. Omnummerering cystein par baseret på referencenumrene præciserer de obligationer, der er til stede i hver sekvens (tabel 1, højre kolonne). Det er nu indlysende, at alle sekvenserne C2-C6, C3-C8 og C4-C9, som afspejler den strukturelle fold, der definerer superfamilien. Brugen af et reference giver mulighed for nem sammenligning mellem sekvenser, der har usammenhængende nomenklatur og tvetydige klassificeringskriterierne. Det kan også bidrage til at identificere egenskaber, der definerer en undergruppe af sekvenser. For eksempel, kan C1-C7 bond skelne macins fra andre superfamilien medlemmer, hvilket gør det hensigtsmæssigt at klassificere sekvenser med denne obligation som "macins" frem for "defensins" (tabel 1 og figur 4).

Ransagninger af offentlige online databaser afslørede seksten sekvenser fra biogeografi, der klart har CS-αβ fold, otte fra Hypsibius dujardini og Milnesium tardigradum. Fire af de nye sekvenser har seks cysteines, ni har otte, en har ni, og to har ti. Dette giver meget lidt information, men ved at tilpasse sekvenser til referencen, bliver det klart, at tardigrade sekvenser med det samme antal cysteines ikke altid har de strukturelt vigtige cysteines på det samme sted inden for sekvensen ( Figur 5 og figur 6). Justeringen med referencen giver også mulighed for inferens af limning mønstre (tabel 2, udledes limning mønstre vises i parentes). Nogle af de tardigrade sekvenser passer tydeligvis mønstre 1-4. Andre er mest svarer til den foreslåede bakteriel forfader, scorpion Cl-toksin eller en familie af svampe defensin-lignende peptider. Mønsteret 2 kan have to undergrupper, en repræsenteret af scorpion Na + toksiner, drosomycin, og plante defensins, og den anden af scorpion Cl-toksiner. Yderligere arbejde undersøge funktionen af tardigrade proteiner er nødvendig for at afgøre, hvis nogle skulle anses toksiner i stedet for defensins.

Fylogenetisk analyse bruges ofte til at studere, hvordan en gruppe af proteiner kan have udviklet sig. Sekvenser i CS-αβ superfamilien er generelt korte og meget divergerende; resulterende træer er ofte dårligt løst og give lidt indsigt. Både ML og Bayesian træer for delmængden af sekvenser analyseres her var dårligt løst, med lav støtte til mange klader (figur 10, supplerende filer 1 - 4). Det er almindelig praksis at kun viser bootstrap niveauer over 70 (eller posterior sandsynligheder over 0,7), men tallet 10 bevarer alle numre for at demonstrere de generelt lave niveauer af support. Fem grupper blev støttet over 70/0,7 i mindst én af de to træer: (a) en 6C og en 8C scorpion toksin; (b) macins; (c) kryds og scorpion defensins; (d) plante defensins; og (e) 6C defensins fra insekter, spindlere og bløddyr. I træet ML clade e også omfatter en 8C toksin og en 8C tardigrade defensin, men støtte var meget lav (figur 10A). Generelt er disse afspejler de kategorier, der er identificeret ved hjælp af reference cystein nummerering men også vise at sekvenser med forskellige cystein tal inden for en stor taksonomisk gruppe kan være mere nært beslægtede end sekvenser med det samme mønster fra forskellige grupper. Mens kun et lille antal sekvenser blev anvendt i denne undersøgelse, en større analyse af 250 sekvenser ikke fjerne manglen opløsning (supplerende filer 5 - 8)12. Regneark henvises justeringen kan tilbyde lettere visualisering af ligheder med strukturel eller funktionel relevans i forhold til evolutionstræer.

Figure 1
Figur 1: Definerer rækkefølge og strukturelle egenskaber af CS-αβ superfamilien. Aminosyrer og 3D-struktur er farvekodet: sløjfen (blå), alpha-helix (grøn), beta-plader (guld) og disulfid obligationer (lyserød). Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2: Foreløbig seks-cystein Reference baseret på rækkefølgen af insekt Defensin. Kolonner angiver de bevarede cysteines (C1-C6) og for CSH motiv, antallet af bevaret amino syrer mellem cysteines. De fyldte kasser angiver at sekvensen er den givne cystein og tallene angiver aminosyrer mellem cysteines. Venligst klik her for at se en større version af dette tal.

er.Within-side = "1" >Figure 3
Figur 3: Raffinerede Ten-cystein Reference baseret på repræsentative sekvenser fra grupper af CS-αβ superfamilien. Kolonnerne angiver bevarede cysteines og aminosyrer mellem dem. Cysteines bidrage til CSH motiv (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er mærket. Sekvenser er farvekodede af taksonomiske gruppe: Arachnida (lys orange), bakterier (sort), Cnidaria (grå), insekter (orange), Mollusca (blå), Nematoda (lilla) og plante (grøn). Venligst klik her for at se en større version af dette tal.

Figure 4
Figur 4 : Resumé af CS-αβ superfamilien sekvenser på linje med henvisning af gruppe karakteristika. Kolonnerne angiver bevarede cysteines og aminosyrer mellem dem. Cysteines bidrage til CSH motiv (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er mærket. Sekvenser er farvekodede af taksonomiske gruppe: Annelida (mørk rød), Arachnida (lys orange), bakterier (sort), Cnidaria (grå), svampe (lysegrøn), insekter (orange), Mollusca (blå), Nematoda (lilla) og plante (grøn). Tal adskilt af en bindestreg angiver en række mellemliggende aminosyrer; tal adskilt af en skråstreg repræsenterer enten / eller. Et "C" angiver en ekstra cystein, der ikke forekommer med tilstrækkelig hyppighed til at berettige tilføjelse til referencen. Venligst klik her for at se en større version af dette tal.

Figure 5
Figur 5 : Tilsætning af Tardigrade CS-αβ sekvenser til superfamilien justering med henvisning af gruppe karakteristika. Kolonnerne angiver bevarede cysteines og aminosyrer mellem dem. Cysteines bidrage til CSH motiv (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er mærket. Sekvenser er farvekodede af taksonomiske gruppe: Annelida (mørk rød), Arachnida (lys orange), bakterier (sort), Cnidaria (grå), svampe (lysegrøn), insekter (orange), Mollusca (blå), Nematoda (lilla), plante (grøn) og Tardigrada (gul). Tal adskilt af en bindestreg angiver en række mellemliggende aminosyrer; tal adskilt af en skråstreg repræsenterer enten / eller. Et "C" angiver en ekstra cystein, der ikke forekommer med tilstrækkelig hyppighed til at berettige tilføjelse til referencen. Venligst klik her for at se en større version af dette tal.

Figure 6
Figur 6: Tilføjelse af Tardigrade CS-αβ sekvenser til superfamilien justering med henvisning af taksonomiske gruppe. Kolonnerne angiver bevarede cysteines og aminosyrer mellem dem. Cysteines bidrage til CSH motiv (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er mærket. Sekvenser er farvekodede af taksonomiske gruppe: Annelida (mørk rød), Arachnida (lys orange), bakterier (sort), Cnidaria (grå), svampe (lysegrøn), insekter (orange), Mollusca (blå), Nematoda (lilla), plante (grøn) og Tardigrada (gul). Tal adskilt af en bindestreg angiver en række mellemliggende aminosyrer; tal adskilt af en skråstreg repræsenterer enten / eller. Et "C" angiver en ekstra cystein, der ikke forekommer med tilstrækkelig hyppighed til at berettige tilføjelse til referencen. Venligst klik her for at se en større version af dette tal.

Figure 7
Figur 7: Fejljusteret rækkefølge ved hjælp af automatiseret justering. Aminosyrer bevares i alle sekvenser angives med * i rækken over den første sekvens (beskrevet i lyserøde kasser). AlCRP er misvisende. Hullet skal fjernes for at korrekt justere C (pink pil). Venligst klik her for at se en større version af dette tal.

Figure 8
Figur 8: Manuel forfinelse af justeringen bevarer de strukturelt vigtige funktioner i sekvenserne. AlCRP er nu justeret korrekt (pink pil), og CXXXC motiv er fuldt bevaret for sekvenser (lyserøde bokse). Venligst klik her for at se en større version af dette tal.

Figure 9
Figur 9 : Redundante sekvenser i en justering. Hvis der er par næsten identiske sekvenser (lyserøde bokse), man kan blive fjernet, da disse vil sandsynligvis altid klynge sammen i og bidrage lidt til den samlede topologi af træet. Venligst klik her for at se en større version af dette tal.

Figure 10
Figur 10 : Sammenligning af træer genereret fra fylogenetiske analyser. (A) maksimalt sandsynligheden for analyse i MEGA, med 1.000 bootstrap replikater bruger WAG + G + jeg model. (B) Bayesiansk analyse med 1.000.000 generationer ved hjælp af indstillingen blandet model. Klader understøttes på 70/0,7 er vist i pink streger; stiplede linjer, pink vise klader understøttes på 70/0,7 i andre træet. a 6C og en 8C scorpion toksin; (b) macins; (c) kryds og scorpion defensins; (d) plante defensins; og (e) 6C defensins fra insekter, spindlere og bløddyr. Venligst klik her for at se en større version af dette tal.

Table 1
Tabel 1: grupper inden for CS-αβ superfamilien baseret på cystein-parring mønstre. Fem grundlæggende mønstre af bond dannelse er vist ved hjælp af interne numre (midterste kolonne) eller referencenumre (højre kolonne). Scorpion Cl - toksiner, ASABF 6Cys-alpha og en gruppe af svampe peptider er placeret med mønster at most svarer. En cystein ikke inkluderet i referencen angives ved hjælp af en hævet skrift af cysteines før/efter (f.eks. C3/4 er mellem C3 og C4).

Table 2
Tabel 2: tilføjelse af Tardigrade CS-αβ sekvenser til parring af cystein mønster grupper. Tardigrade defensins og macins (fed) er sat ind i de tidligere etablerede grupper, hvor det er muligt. Nogle tardigrade sekvenser kan vise en gruppe-specifikke mønster. En cystein ikke inkluderet i referencen angives ved hjælp af en hævet skrift af cysteines før/efter (f.eks. C3/4 er mellem C3 og C4). Notationen "2C/1" angiver der er to cysteines opstrøms af reference C1.

Supplerende fil 1 (S1): justering af dette datasæt i MEGA. Venligst klik her for at downloade denne fil.

Supplerende fil 2 (S2): maksimum-sandsynligheden træ MEGA fil til dette Dataset. Venligst klik her for at downloade denne fil.

Supplerende fil 3 (S3): justering af dette datasæt i Nexus Format for MrBayes. Venligst klik her for at downloade denne fil.

Supplerende fil 4 (S4): konsensus fil fra den MrBayes analyse af dette Dataset. Venligst klik her for at downloade denne fil.

Supplerende fil 5 (S5): justering af 250 CS-αβ sekvenser i MEGA. Venligst klik her for at downloade denne fil.

Supplerende fil 6 (S6): maksimal sandsynligheden træ af 250 CS-αβ sekvenser. Venligst klik her for at downloade denne fil.

Supplerende fil 7 (S7): justering af 250 CS-αβ sekvenser i Nexus Format for MrBayes. Venligst klik her for at downloade denne fil.

Supplerende fil 8 (S8): konsensus fil fra den MrBayes analyse af 250 CS-αβ sekvenser. Venligst klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Kriterier til at navngive et protein inden for en gruppe skal være klart, men det er ikke altid tilfældet. Sekvenser, der har CS-αβ fold har været studeret i mange laboratorier ved hjælp af en række forskellige organismer, hvilket resulterer i forskellige systemer i nomenklatur, samt forskellige niveauer af karakterisering. Forsøger at indføre en helt ny nomenklatur er ikke rimeligt og ville resultere i en stor forvirring, når consulting tidligere litteratur. Reference nummerering system kan bruges ud over navnet på en protein til at præcisere dets karakteristika i forhold til superfamilien.

Grupper af proteiner med klare kriterier for navngivning og klassificering vil sandsynligvis ikke drage fordel af genererer en henvisning i et regneark, selv om det kan være nyttigt til opsummering af store mængder af sekvenser og visualisere vigtige egenskaber. Sekvens linjeføringer og logoer er nyttige for at undersøge niveauet for bevarelse på hvert enkelt websted, men aktivt prioritere ikke sekvens funktioner vigtigt for struktur eller funktion. CS-αβ eksempel fokuseret på strukturen, men bestemte aminosyrer, der danner en bindingssted kunne også indgå som et definerende funktion. Som sekvens funktioner, det giver specifikke antimikrobielle/giftige aktiviteter af CS-αβ peptider er identificeret, kunne disse føjes til henvisningen til præcisere grupper baseret på aktivitet. Selv om kun de forudsagte modne peptider blev brugt i dette eksempel, hvis tilstedeværelse af en signal-peptid eller Pro peptid er vigtigt, kan at oplysninger tilføjes for hver sekvens. Specifikke indsættelse eller sletning begivenheder samt intron steder, kan også være inkluderet, hvis de er tænkt til at være informative. En fordel ved at bruge MrBayes for den Fylogenetisk analyse ikke er, at det er begrænset til molekylære data-det kan analysere data koder for andre egenskaber, der kan have evolutionære betydning. Disse kan være kodet som nuværende eller fraværende, giver flere oplysninger end sekvensen alene.

Indsamling af de relevante sekvenser er et kritisk skridt i protokollen. Afhængigt af omfanget af undersøgelsen og fordelingen af gruppemedlemmer, kan dette spænder bredt taksonomisk grupper. Hvis målet er at forstå en hel gruppe af proteiner, overveje at nogle sekvenser kan findes uden for de arter, som de normalt er rapporteret fra. Hvis en systematisk enhed er allerede godt repræsenteret, og yderligere sekvenser er usandsynligt eller overflødige kan udelukker dem fra at søge være passende. En grundlæggende regel-of-thumb for hentning af hits i en BLAST søgning er at bruge en cutoff for-05 for e-værdi. E-værdi er antallet hits forventes ved en tilfældighed. Mens dette er velegnet til nogle situationer, hvis der er en gruppe af sekvenser, der er meget divergerende men aktier særlige karakteristika, kan det være mindre pålidelige-it kan hente sekvenser, der er lignende, men gør ikke har særlige karakteristika ønskede, og det kan ikke returnere sekvenser der har de centrale karakteristika, men der er meget divergerende. Der er nogle mulige måder at løse dette problem. Først er at se på de sekvenser identificeret i søgningen, der er under-05 afskæringen at se, hvis de opfylder inklusionskriterierne. Andet, hvis der er tilstrækkelige oplysninger, bruge holdning-specifikke itereret BLAST (PSI-BLAST)22 eller mønster-Hit indledt BLAST (PHI-BLAST)23. PSI-BLAST bruger resultaterne fra en indledende søgning til at generere en ny model for den næste runde og kan nogle gange finde forskellige sekvenser, som den første søgning ikke identificere. PHI-BLAST kræver et mønster skal forelægges sammen med forespørgslen sekvens. Dette begrænser de hentede sekvenser til dem, der indeholder mønster af interesse. Dette værktøj er specielt nyttigt, hvis et motiv, der er unikke for gruppen kan identificeres tydeligt.

En nøjagtig justering er kritisk for Fylogenetisk analyse; fortolkninger af træer, er kun gyldige, hvis de er genereret ved hjælp af god justering. Ved hjælp af henvisningen til at informere justeringen kan bidrage til at undgå fejl, der kun er indlysende, når struktur eller aktivitet tages i betragtning. Sekvens afskedigelse skal være defineret for projektet. To sekvenser, der synes overflødige muligvis ikke om fylogenetiske formål, hvis de er fra vidt forskellige taxa eller næsten identisk i en sekvens, men har forskellige strukturelle eller funktionelle egenskaber. Hvis der er uklarhed vedrørende hvilke sekvenser skal medtages, kan flere tilpasninger genereret og analyseres separat for at se, hvordan justeringen ændrer indvirkning fylogenetiske slutninger. Metoden præsenteres her eliminere ikke behovet for manuel regulering af tilpasninger, men det kan hjælpe med at afklare hvordan sekvenserne skal justere og kunne eventuelt bruges i forbindelse med en mere sofistikeret stregkodesystem teknik end er blevet beskrevet tidligere13.

For reference at være nyttig, er det vigtigt at identificere definerende karakteristika, der ikke er i øjeblikket indlysende fra sekvensen alene. For eksempel overveje udygtighed hen til sammenligne cystein limning mønstre mellem sekvenser med forskellige antal cysteines når hver sekvens er nummereret med hensyn til sig selv. Målet er at lette sammenligning og diskussion, ikke at tilføje endnu et lag af forvirring. Dette kan indebære flere gentagelser af referencen og dom opfordrer til at beslutte, hvilke funktioner til at omfatte. Det er håbet, at vedtage en fælles metode for at drøfte forskellige sekvenser i en gruppe vil øge forståelsen af gruppen som helhed.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatteren har intet at videregive.

Acknowledgments

Igangværende tardigrade antimikrobielle peptid forskning er støttet af murene finansiering fra Midwestern Universitet Office of Research og sponsorerede programmer (ORSP). ORSP spillede ingen rolle i undersøgelse design, dataindsamling, analyse, fortolkning eller manuskript forberedelse.

Materials

Name Company Catalog Number Comments
BLAST webpage https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite) DNASTAR https://www.dnastar.com/t-allproducts.aspx
Excel 2013 Microsoft
FigTree  http://tree.bio.ed.ac.uk/software/figtree/
MEGA www.megasoftware.net
MrBayes http://mrbayes.sourceforge.net/
SCOP database http://scop.mrc-lmb.cam.ac.uk/scop/

DOWNLOAD MATERIALS LIST

References

  1. Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
  2. Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
  3. Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
  4. Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
  5. Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
  6. Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
  7. Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
  8. Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
  9. Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
  10. Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
  11. Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016).
  12. Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
  13. Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
  14. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
  15. Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
  16. Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
  17. Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
  18. Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
  19. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
  20. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  21. Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
  22. Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
  23. Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Tags

Adfærd sag 126 Protein superfamilien protein nomenklatur protein klassificering sequence alignment fylogeni hvirvelløse defensins CS-αβ superfamilien
At oprette og anvende en Reference for at lette drøftelserne og klassificering af proteiner i en forskelligartet gruppe
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Tarr, D. E. K. Creating and Applying More

Tarr, D. E. K. Creating and Applying a Reference to Facilitate the Discussion and Classification of Proteins in a Diverse Group. J. Vis. Exp. (126), e56107, doi:10.3791/56107 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter