Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Behavior

Opprette og bruke en referanse for å tilrettelegge for diskusjon og klassifisering av proteiner i en sammensatt gruppe

Published: August 16, 2017 doi: 10.3791/56107

Summary

Målet med denne protokollen er å utvikle en referanse for divergerende proteiner i en gruppe som mangler sammenhengende kriterier for nomenklatur og klassifisering. Denne referansen vil lette analyser og diskusjon av gruppen som helhet, og kan brukes i tillegg til etablerte navn.

Abstract

Relaterte proteiner som har vært undersøkt i forskjellige labs ved hjelp av ulike organismer kan mangle et enhetlig system for nomenklatur og klassifisering, gjør det vanskelig å diskutere gruppen som helhet, og plassere nye sekvenser i riktig sammenheng. Utvikle en referanse som prioriterer viktig sekvens funksjoner knyttet til struktur og/eller aktivitet kan brukes i tillegg til etablerte navn legge noen coherency til en mangfoldig gruppe av proteiner. Dette papiret bruker cystein-stabilisert alpha-helix (CS-αβ) gruppe som et eksempel for å vise hvordan en referanse generert i regneark kan avklare forholdet mellom eksisterende proteiner gruppe, samt rette nye sekvenser. Den viser også hvordan referansen kan hjelpe for å avgrense sekvens justeringer generert i brukte programvare, som påvirker gyldigheten av Fylogenetiske analyser. Bruk av en referanse vil trolig være mest nyttig for protein grupper med svært forskjellige sekvenser fra et bredt spekter av taxa, med funksjoner som ikke er tilstrekkelig fanget av molekylære analyser.

Introduction

Et protein navnet skal gjenspeile egenskaper og forhold til andre proteiner. Dessverre navn tildeles generelt på tidspunktet for oppdagelsen og, som forskning fortsetter, forståelsen av større sammenheng kan endres. Dette kan føre til flere navn hvis et protein ble uavhengig identifisert av flere lab, endringer i nomenklatur eller egenskapene antatt å være definitive tilordne navnet og navnet lenger tilstrekkelig skille protein fra andre.

Virvelløse defensins gir et godt eksempel på degenerasjon nomenklatur og klassifisering. De første virvelløse defensins ble rapportert av insekter og navnet "insekt defensin" ble foreslått basert på oppfattet homologi pattedyr defensins1,2. Uttrykket defensin brukes fortsatt, selv om det er nå klart at virvelløse og pattedyr defensins deler ikke en felles stamfar3,4. Avhengig av arten, kan en virvelløse dyr "defensin" ha seks eller åtte cysteinene (som tre eller fire disulfide obligasjoner) og en rekke antimikrobielle aktiviteter. Å komplisere situasjonen, proteiner med samme egenskaper som defensins ikke alltid kalles "defensins," som nylig identifisert cremycins Caenorhabditis remanei5. I tillegg er virvelløse store defensins mer sannsynlig å være evolusjonært relatert til vertebrate β-defensins enn andre virvelløse defensins6. Til tross for dette, forskere og stole på det navnet "defensin" når sekvenser som skal inkluderes i analyser.

Strukturelle studier avdekket likheten mellom insekt defensins og scorpion giftstoffer7og CS-αβ fold ble deretter etablert som strukturelle karakteriserer insekt defensins8. Denne hjord definerer skorpion gift som (CS-αβ) gruppe i strukturelle klassifisering av proteiner (alle) databasen9, som for tiden omfatter fem familier: insekt defensins, kort-kjeden scorpion giftstoffer, langkjedede scorpion giftstoffer, MGD-1 (fra en mollusk) og plante defensins. Denne overfamilie er synonymt med nylig beskrevet cis-defensins4 og overfamilie 3.30.30.10 i CATH/gen 3D database10,11. Studier fra en rekke virvelløse taxa, planter og sopp viser at navnene på proteiner som inneholder denne hjord ikke tydelig gjelder cystein nummer eller bånd mønster, antimikrobielle aktivitet eller evolusjonær historie12.

Mangel på konsistens og klare kriterier gjør det utfordrende å navngi og klassifisere nylig identifiserte sekvenser i denne gruppe. En stor utfordring å sammenligne proteiner i denne overfamilie er at cysteinene er nummerert med hensyn til hver individuelle sekvens (den første cystein i hvert forløp er C1), med ingen måte å ta hensyn til den strukturerte rollen. Dette betyr at bare sekvenser med samme antall cysteinene kan sammenlignes. Det er lite sekvens bevaring enn cysteinene danner CS-αβ flippen, noe som gjør justeringer og Fylogenetiske analyser vanskelig. Ved å utvikle et nummereringssystem som prioriterer strukturfunksjonene, kan overfamilie sekvenser lettere forhold og justert. Bevarte funksjoner, samt de definerer undergrupper, kan visualiseres raskt, og nye sekvenser lettere kan plasseres i riktig sammenheng.

Denne oppgaven bruker et regnearkprogram (foreksempel Microsoft Excel) til å generere en referanse nummereringen system for CS-αβ gruppe. Den viser hvordan dette tydeliggjør sammenligninger mellom sekvenser og bruker den nye CS-αβ sekvenser identifisert fra tardigrades. Eksempel på bruk av CS-αβ gruppe ble protokollen skrevet for å gi veiledning ved sekvenser av interesse; men er det ikke ment å være spesifikk denne overfamilie eller cystein-rik sekvenser. Denne metoden vil trolig være mest nyttig for grupper av proteiner som har blitt undersøkt uavhengig i divergerende taxa og/eller har liten samlede sekvens homologi, med diskret egenskaper som ikke kan være lett anerkjent av molekylære analyseprogramvare. Denne metoden krever noe en priori avgjørelser angående viktige funksjoner, så det er av begrenset nytte hvis ingen viktige funksjoner har blitt identifisert. Hovedmålet er å vise hvordan en enkel visualisering sekvens relasjonene kan oppnås. Dette kan brukes å informere sekvens justering og analyse, men hvis justering og analyse er de primære mål, en strekkode metode vil være et egnet alternativ som har mer kapasitet for automatisering13. Det aktuelle metoden viser funksjonene i hver peptid i en lineær form, så det vil være nyttig for direkte visualisering av 3D-struktur.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. fastslå definere funksjonene i gruppen Protein av interesse

  1. kontakt tidligere publikasjoner å avgjøre om det er konsensus om funksjonene som er nødvendig for å bli betraktet som en del av gruppen. Legg merke til uoverensstemmelser eller forskjeller i mening mellom forskningsgrupper, og inneholder egenskaper som kan tjene til å skille en undergruppe fra en annen.
  2. Hvis forrige litteratur ikke løser definere kjennetegn, bruk sekvenser som anses representative for gruppen som utgangspunkt til å identifisere bevarte funksjoner.

2. Samle relevante sekvenser

  1. Hvis vurderinger er skrevet som omfatter analyser av sekvenser som representerer gruppen, inkluderer disse sekvensene i rå datasettet. Hente sekvenser tiltredelse tall i litteraturen og lagre i en standard redigering program (f.eks EditSeq i Lasergene-suiten eller en av mange tilgjengelig for gratis online).
  2. Hvis gruppen er definert i en av strukturelle databaser, inkluderer sekvensene databasen viser som en del av gruppen. hente sekvenser tiltredelse tall i databasen og lagre i en standard rekkefølge redigering programmet, som ovenfor.
    Merk: For eksempel sekvensene kategorisert CS-αβ (skorpion gift-lignende) gruppe i alle databasen finnes her: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
  3. utføre grunnleggende lokale Justering Søk verktøyet (BLAST) 14 søk på nettet databaser via National Center for bioteknologi informasjon (NCBI) å finne sekvenser som ikke kanskje er inkludert i litteraturen eller strukturelle databaser. For de fullstendig resultater, bruker både protein BLAST (blastp) og oversatt blast med protein spørring (tblastn) programmer. disse er begge tilgjengelig på: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    1. Bruk sekvenser kjent for å være en del av gruppen av interesse som spørringen sekvenser. Kopiere og lime inn sekvensen i søkeboksen øverst eller gi en GenBank tiltredelse tall eller gi ID, hvis tilgjengelig.
    2. Velge databasen fra rullegardinmenyen. Velg ikke-redundant protein sekvenser (nr) for blastp og uttrykte sekvens koder for tblastn.
    3. Søk etter resultater i bestemte taxa i organismen ved organisme eller gruppe (biologi) navn og velge fra listen som vises mens du skriver. Klikk for å legge ytterligere organismer eller taxa utelate, det " + "-knappen og et annet felt vises. Ekskludere eventuelle uønskede taxa i boksen organisme skrive inn organisme eller gruppe (biologi) navnet, velge fra listen som vises mens du skriver inn og sjekke det " utelukke " boksen til høyre.
    4. Tilgang tilleggsparametere ved å klikke på " algoritmen parametere " nær bunnen av siden. La standard med mindre det er en begrunnelse for å endre en parameter.
    5. Klikk på " BLAST " knapp for å kjøre analyser, det kan ta litt tid for at resultatene skal vises. Generelt, hente treff med en forventer verdi (eller e-verdi) av "-05 " eller bedre og lagre i en standard bilderedigeringsprogram.
      1. Hvis alle treff over denne terskelen, kjøre søket med et økt antall mål sekvenser (i delen algoritmen parametere) for å få alle relevante sekvenser.
  4. Eventuelt trim sekvenser for å utelate irrelevant informasjon (f.eks CS-αβ fold gjelder bare eldre peptid). Identifisere signal peptider og pro-peptider fjerning med ProP 15 (tilgjengelig online), eller SignalP for mer sofistikert signal peptid prediksjon 16 (tilgjengelig online).

3. Generere en referanse i en regneark basert på de viktige funksjoner som ble identifisert

  1. identifisere kjennetegner gruppen interesse. Bruk for eksempel CS-αβ fold definitivt etablert av løsning strukturen av insekt defensin A Phormia terraenovae ( figur 1) 8.
    1. Denne hjord inkluderer en mindre motiv kalt cystein-stabilisert helix (CSH) 17; identifisere dette motivet av en CXXXC (der X er en aminosyre) over en CXC som danner to disulfide obligasjoner ( figur 1 , solid rosa linjer).
      Merk: For å fullføre CS-αβ motivet, en tredje disulfide obligasjon er dannet fra flere cysteinene plassert foran hver halvdel av CSH motivet ( figur 1, prikket rosa linjer).
  2. Skriv disse definerer funksjoner i et regneark. Se figur 2.
    1. Bruk kolonner for bevarte funksjoner og representerer mellomrommene mellom disse funksjonene. Holde kolonnene bred nok å passe tall og sikre at de har en konsekvent bredde. Angi bredde ved hjelp av " Format | Kolonnebredden " funksjonen ( figur 2, rosa pilen).
    2. Bruk radene for de sekvensen.
    3. Når en sekvens har funksjonen, fyll i boksen ved hjelp av funksjonen fyll ( figur 2, rosa firkant). Angi antall aminosyrer i boksen mellom avstanden mellom funksjoner, og overlate uten fylling. For eksempel bruke insekt defensin rekkefølge gir en referanse som inneholder seks cysteinene, med definerte spacings mellom C2 og C3 og mellom C5 og C6.
  3. Legge representant sekvenser som tidligere har blitt opprettet som medlemmer av gruppen basert på strukturelle databaser og litteratur.
    Merk: For eksempel forrige litteratur og alle databasen identifisere flere grupper for inkludering: insekt defensins, kort-kjeden scorpion giftstoffer, langkjedede scorpion giftstoffer, MGD-1, plante defensins, Rundormer ABFs, drosomycins fra Drosophila, og macins. Litteraturen identifiserer også en bakteriell sekvens med bare fire cysteinene som kan representere stamfaren til denne overfamilie 18. Legger til disse sekvensene øker antallet cysteinene i referansen fra seks til ti men opprettholder justeringen av viktige strukturfunksjonene ( Figur 3).
    1. Vil legge til en funksjon som er sannsynlig å definere en undergruppe av sekvenser (for eksempel en ekstra cystein), bruker den " sett inn " funksjonen ( Figur 3 rosa pilen).
    2. Hvis det er funksjoner mangler en bestemt rekkefølge, lar du boksen uten fylling og kombinere dem med bokser representerer mellomliggende aminosyrer. Hvis nødvendig, slå sammen celler med funksjonen slå sammen og Midtstill ( Figur 3 rosa boksen).
  4. Fortsett å legge sekvenser til gruppene å få et bedre bilde av variasjonen i hver gruppe med større gruppe. Oppsummere gruppe egenskapene til rette sammenligninger ( Figur 4).
    1. Når antall aminosyrer mellom hovedfunksjonene varierer, bruk bindestrek for å angi et område som 6-12 (6 til 12 aminosyrer) og en skråstrek å angi enten / eller, for eksempel 7/10 (7 eller 10 aminosyrer).
    2. Velge en måte å kommentere funksjoner sekvenser som kan være relevant men ikke forekommer ofte nok å inkludere i referansen. For eksempel siden cysteinene er viktig i denne overfamilie, merke flere cysteinene ( Figur 4, rosa bokser).
  5. Legge til newly-identifisert sekvenser i regnearket med etablerte sekvensene som en guide. For eksempel, legger sekvenser fra tardigrades (gul) viser at tardigrade sekvenser faller inn i flere forskjellige grupper av gruppe ( figur 5 viser Sammendrag i stedet for en rad per sekvens for plass formål).
  6. Viser variasjon i en taksonomisk gruppe av omlegge radene ( figur 6).

4. Bruke referansen til avgrense aminosyre justeringer

Merk: det finnes mange programmer som kan brukes for flere sekvens justeringer, men denne demonstrasjonen vil bruke molekylær evolusjonær genetikk analyse (MEGA6) 19 fordi det er tilgjengelig for nedlasting gratis.

  1. Laste ned og installere programvaren.
  2. Begynner en ny justering i MEGA ved å velge " Rediger/bygge justering " under kategorien Juster Velg " opprette en ny justering " i boksen som vises, og klikk " OK. " Velg " Protein. "
  3. Velg " sett inn sekvens fra filen " i den " Rediger " menyen til å importere sekvensene.
    Merk: Sekvenser må være FASTA format for import til MEGA. Bakgrunnsfarger som gjenspeiler ulike aminosyre typer brukes som standard, men dette alternativet kan deaktiveres den " vises " menyen.
  4. Når alle sekvenser som er registrert, klikker du ikonet for flexing arm og " justere Protein " justere sekvenser med muskel algoritmen 20.
    Merk: ClustalW er også tilgjengelig.
    1. Hvis en melding om at ingenting er valgt dukker opp og ber om å velge alle, klikker " OK. "
    2. Merk: Dette åpner et vindu som gjør det mulig å endre noen parametere, men de bør bare endres det er grunn til å gjøre dette. Denne analysen bruker et delsett av sekvenser analysert i en tidligere papir 12.
  5. Av justeringen basert på de viktigste funksjonene, Merk at den øverste linjen over sekvenser vil vise alle kolonner der aminosyren er helt bevart (*). Se figur 7. Se at den opprinnelige justeringen viser kun tre av de fire bevarte cysteinene ( figur 7, rosa bokser); ser nedover kolonnen, AlCRP sekvensen er tydelig feiljustert ( figur 7, rosa pilen).
  6. å kvitte seg med store gapet mellom I og bevart C, markere streker og trykk den " fjerne " nøkkel. Ikke merke noen aminosyrer, eller de vil bli slettet også.
  7. Flytte aminosyrer til høyre, markere og trykk space Språklinje
    1. Merk at AlCRP nå har de strukturelle cysteinene justert og at siste C CXXXC motiv er bevart gjennom justeringen ( Figur 8). Justere etter behov for å prioritere de viktigste funksjonene i sekvensene.

5. Sammenligne gruppene identifiseres ved hjelp av referansen med resultater fra Fylogenetiske analyser

  1. fra foreløpig justeringer, avgjøre hvilken sekvenser som skal inkluderes i en fylogenetisk analyse, for et lite antall sekvenser, dette trinnet kan være unødvendig.
    1. Holder en justering-fil som inneholder alle sekvenser, men for en fylogenetisk analyse, fjerne overflødig sekvenser ( figur 9, rosa avmerkingsboksene Vis par av overflødig sekvenser).
    2. Hvis datasettet inneholder et stort antall sekvenser, kjøre en foreløpig analyse og velg representanter fra grupper som alltid danner en kladen.
  2. Finne ut den beste aminosyre substitusjon modellen.
    1. Eksportere justeringen i MEGA-format (under kategorien data).
    2. Modeller-menyen og velg " finne beste DNA/Protein modell. " velge filen nettopp lagret og åpne den, åpnes et vindu som har noen parametere som kan endres.
    3. Bruke standardparametere med mindre det er en grunn til å endre dem.. Klikk " beregne " å starte analysen.
  3. Kjører en maksimal sannsynlighet (ML) analyse i MEGA.
    1. Velg " konstruere/Test Maksimal sannsynlighet treet " menyen fylogeni.
    2. Velge modellen bestemt på å være den beste tilpassing av dataene fra trinn 5.2 (utdataene vil gi Substitusjonsmodell som best " priser blant nettsteder " parameteren).
    3. Velge 1000 bootstrap replikerer for å få tiltak av støtte for treet.
    4. Klikk " beregne " kjøre analyse; MEGA har en " treet Explorer " å visualisere treet.
  4. Kjører en Bayesisk analyse i MrBayes open-source programvare 21.
    Merk: En MrBayes manuell er også tilgjengelig fra dette nettstedet. Dette er ment å gi grunnleggende trinnene er ikke en omfattende guide til gjennomføre Bayesisk Fylogenetiske analyser.
    1. Eksportere MEGA justeringen i PAUP (Nexus) format til samme mappe som programmet MrBayes.
    2. Åpen MrBayes og type " exe filnavn " (f.eks " exe Alignment.nex ").
    3. Angi parameterne modell og analyse. Velg enten modellen angitt i trinn 5.2 eller velge den " blandet " som vil prøve ulike modeller og rapporterer bruksfrekvens modellen i trærne med beste bakre sannsynlighetene (prset aamodelpr = blandet). Type " showmodel " å rapportere modell sikkerhetsinnstillinger og " hjelpe mcmc " å vise gjeldende parameterinnstillinger, med en kort beskrivelse av hver.
    4. Angi hvor mange generasjoner med den " mcmcp ngen = " kommandoen (1 million er typisk).
    5. Type " mcmc " å starte analysen.
    6. Når antall generasjoner er fullført, vil programmet be til flere generasjoner. Hvis gjennomsnittlig standardavviket for delt frekvenser er mindre enn 0,1, skrive no. Hvis det er over 0,1, analysen bør være lov til å fortsette, eller noen parametere bør endres (se manualen).
    7. Bruk av " sumt " kommando for å generere tre filene.
    8. Når analysen er fullført og en konsensus treet genereres, treet kan vises i FigTree (tilgjengelig online).
  5. Sammenligne trærne for å se hvis metodene generere konsistente resultater.
    Merk: Noen sekvenser gir ikke mye informasjon: trærne kan ikke godt løst og grenene kan ha minimal hjelp ( Figur 10).
  6. Sammenligne trær til grupper identifisert bruke referanse for å se hvis de Fylogenetiske analysene støtte disse gruppene.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Grupper av sekvenser CS-αβ gruppe rapportert i litteraturen er vist i Figur 4. Cystein motstandere basert på nummereringen for hver foreslå fem grunnleggende grupper (tabell 1, midterste kolonnen). 1 har seks cysteinene som fra tre disulfide obligasjoner og inkluderer sekvenser fra insekter, edderkoppdyr, bløtdyr, nematoder og sopp. Grupper 2, 3 og 4 har 8 cysteinene som danner fire disulfide obligasjoner. Gruppe 2 inkluderer insekt, arachnid og plante sekvenser; gruppe 3 inkluderer arachnid mollusk og Rundormer sekvenser; og gruppe 4 inkluderer sekvenser fra Trichoplax, annelids, bløtdyr og sopp. Gruppe 5 inkluderer 10 cystein macins. Noen sekvenser helt passer ikke disse mønstrene men var generelt nærmere en gruppe enn de andre.

Grupper 1 og 2 synes å dele to obligasjoner: C2-C5 og C3-C6; men anerkjenner begynner nummereringen av hver sekvens med sin første cystein ikke strukturelle sammenheng av obligasjoner. C2-C5 i gruppe 1 sekvenser former en av to obligasjoner i CSH motivet, mens C2-C5 i gruppe 2 sekvenser danner den siste bond nødvendig å stabilisere CS-αβ fold. Homologe bånd til gruppe 1 C2-C5 er gruppe 2 C3-C6, som ikke tydelig fra nummereringen. Det er ikke opplagt at i gruppe 3 C2-C6 bond spiller den samme strukturelle rollen.

Bruk sekvenser fra litteraturen generert en referanse med totalt ti cysteinene. CSH motivet er dannet av obligasjoner C3-C8 og C4-C9, med C2-C6 fullfører CS-αβ fold. Omnummerering cystein parene basert på referansenumrene tydeliggjør obligasjoner i hver sekvens (tabell 1, høyre kolonne). Det er nå tydelig at alle sekvensene har C2-C6, C3-C8 og C4-C9, reflekterer strukturelle fold som definerer gruppe. Bruk av en referanse gir enkel sammenligning mellom sekvenser som har inkonsekvent nomenklatur og tvetydig klassifiseringskriteriene. Det kan også hjelpe til å identifisere funksjoner som definerer en undergruppe av sekvenser. For eksempel kan C1-C7 bond skille macins fra andre overfamilie medlemmer, gjør det passende å klassifisere sekvenser med denne obligasjon som "macins" heller enn "defensins" (tabell 1 og Figur 4).

Søk i offentlige online databaser avslørt seksten sekvenser fra tardigrades som tydelig har CS-αβ kaste, åtte fra Hypsibius dujardini og Milnesium tardigradum. Fire av de nye sekvensene har seks cysteinene, har åtte, har ni og to har ti. Dette gir lite informasjon, men ved å justere sekvenser til referansen, blir det klart at tardigrade sekvenser med samme antall cysteinene ikke alltid har de strukturelt viktige cysteinene på samme sted i sekvensen ( Figur 5 og figur 6). Justeringen med referanse kan også slutning av bonding mønstre (tabell 2, avledet bonding mønstre vises i parentes). Noen av tardigrade sekvenser passer tydelig mønstre 1-4. Andre er mest lik foreslåtte bakteriell stamfar, scorpion Cl-toksin eller en familie av sopp defensin-lignende peptider. Mønsteret 2 kan ha to undergruppene, en representert ved scorpion Na + giftstoffer, drosomycin, og anlegget defensins og den andre av scorpion Cl-giftstoffer. Videre arbeid undersøker funksjonen til tardigrade proteiner er nødvendig for å avgjøre hvis noen bør vurderes giftstoffer i stedet for defensins.

Fylogenetiske analyser brukes ofte til å studere hvordan en gruppe proteiner kan ha utviklet seg. Sekvensene CS-αβ gruppe er vanligvis korte og svært forskjellige; resulterende trær er ofte dårlig løst og gir liten innsikt. Både ML og Bayesisk trær for delsettet med sekvenser analysert her var dårlig løst, med lav støtte for mange klader (Figur 10, utfyllende filer 1 - 4). Det er vanlig praksis å bare vise bootstrap nivåer over 70 (eller bakre sannsynligheter over 0,7), men Figur 10 beholder alle tall for å demonstrere de generelt lave nivåene av støtte. Fem grupper ble støttet over 70/0,7 i minst én av to trær: (a) en 6C og en 8C skorpion gift; (b) macins; (c) kryss og scorpion defensins; (d) plante defensins; og (e) 6C defensins fra insekter og edderkoppdyr bløtdyr. I treet ML inkluderer nyeste e også en 8C gift og en 8C tardigrade defensin, men støtten var svært lav (figur 10A). Generelt, disse gjenspeiler kategoriene identifisert ved hjelp av referanse cystein nummereringen, men viser også at sekvenser med forskjellige cystein tall innenfor en stor taxonomical gruppe kan være mer knyttet enn sekvenser med samme mønster fra ulike grupper. Mens bare et lite antall sekvenser ble brukt i denne studien, en større analyse av 250 sekvenser ikke eliminere mangel på oppløsning (supplerende filer 5 - 8)12. Regneark referanse justeringen kan tilby enklere visualisering likheter med strukturelle eller funksjonelle relevans i forhold til phylogenetic trær.

Figure 1
Figur 1: Definerer sekvensen og strukturfunksjonene av CS-αβ gruppe. Aminosyrer og 3D-struktur er fargekodet: loop (blå), alpha-helix (grønn), beta-ark (gull) og disulfide obligasjoner (rosa). Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2: Foreløpig seks-cystein referanse basert på rekkefølgen av insekt Defensin. Kolonnene viser de bevarte cysteinene (C1-C6) og, for CSH motivet, antall bevart amino syren mellom cysteinene. De fylte boksene angir at sekvensen har gitt cystein og tallene aminosyrer mellom cysteinene. Klikk her for å se en større versjon av dette tallet.

er.Within-side = "1" >Figure 3
Figur 3: Raffinert ti-cystein referanse basert på representant sekvenser fra grupper av CS-αβ gruppe. Kolonnene viser bevart cysteinene og aminosyrer mellom dem. Cysteinene bidrar til CSH motivet (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er merket. Sekvenser er fargekodet av taksonomisk gruppe: Arachnida (lys oransje), bakterier (svart), Nesledyr (grå), Hexapoda (oransje), bløtdyr (blå), Nematoda (lilla) og Plantae (grønn). Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4 : Sammendrag av CS-αβ overfamilie sekvenser linje med referanse av gruppen kjennetegn. Kolonnene viser bevart cysteinene og aminosyrer mellom dem. Cysteinene bidrar til CSH motivet (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er merket. Sekvenser er fargekodet av taksonomisk gruppe: Annelida (mørk rød), Arachnida (lys oransje), bakterier (svart), Nesledyr (grå), sopp (lys grønn), Hexapoda (oransje), bløtdyr (blå), Nematoda (lilla) og Plantae (grønn). Tall atskilt av en bindestrek angir et mellomliggende aminosyrer; atskilt med en skråstrek representerer enten / eller. "C" angir en ekstra cystein som ikke oppstår med nok frekvens til å rettferdiggjøre tillegg til referansen. Klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5 : Tillegg av Tardigrade CS-αβ sekvenser overfamilie justering med referanse av gruppen kjennetegn. Kolonnene viser bevart cysteinene og aminosyrer mellom dem. Cysteinene bidrar til CSH motivet (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er merket. Sekvenser er fargekodet av taksonomisk gruppe: Annelida (mørk rød), Arachnida (lys oransje), bakterier (svart), Nesledyr (grå), sopp (lys grønn), Hexapoda (oransje), bløtdyr (blå), Nematoda (fiolett), Plantae (grønn) og Tardigrada (gul). Tall atskilt av en bindestrek angir et mellomliggende aminosyrer; atskilt med en skråstrek representerer enten / eller. "C" angir en ekstra cystein som ikke oppstår med nok frekvens til å rettferdiggjøre tillegg til referansen. Klikk her for å se en større versjon av dette tallet.

Figure 6
Figur 6: Tillegg av Tardigrade CS-αβ sekvenser overfamilie justering med referanse av taksonomisk. Kolonnene viser bevart cysteinene og aminosyrer mellom dem. Cysteinene bidrar til CSH motivet (C3, C4, C8 og C9) og CS-αβ fold (C2 og C6) er merket. Sekvenser er fargekodet av taksonomisk gruppe: Annelida (mørk rød), Arachnida (lys oransje), bakterier (svart), Nesledyr (grå), sopp (lys grønn), Hexapoda (oransje), bløtdyr (blå), Nematoda (fiolett), Plantae (grønn) og Tardigrada (gul). Tall atskilt av en bindestrek angir et mellomliggende aminosyrer; atskilt med en skråstrek representerer enten / eller. "C" angir en ekstra cystein som ikke oppstår med nok frekvens til å rettferdiggjøre tillegg til referansen. Klikk her for å se en større versjon av dette tallet.

Figure 7
Figur 7: Feiljustert sekvensen ved hjelp av automatisert justering. Aminosyrer som er bevart i alle sekvenser som er angitt av * i raden over den første sekvensen (uthevet i rosa bokser). AlCRP er justert. Gapet må fjernes for riktig justere C (rosa pil). Klikk her for å se en større versjon av dette tallet.

Figure 8
Figur 8: Manuell avgrensningen av justeringen bevarer det strukturelt viktige egenskaper av sekvensene. AlCRP er nå justert riktig (rosa pil), og CXXXC motivet er fullstendig bevart for sekvensene (rosa bokser). Klikk her for å se en større versjon av dette tallet.

Figure 9
Figur 9 : Redundante sekvenser i en justering. Hvis det er par nesten identisk sekvenser (rosa bokser), en kan fjernes, siden disse vil sannsynligvis alltid klyngen sammen i og bidrar lite i generelle topologien av treet. Klikk her for å se en større versjon av dette tallet.

Figure 10
Figur 10 : Sammenligning av trær generert fra Fylogenetiske analyser. (A) Maksimal sannsynlighet analyse i MEGA, med 1000 bootstrap replikerer bruker WAG + G + I modellen. (B) Bayesisk analyse med 1.000.000 generasjoner bruke innstillingen blandet-modellen. Klader støttes på 70/0,7 vises i solid rosa linjer; rosa stiplede linjer viser klader som støttes på 70/0,7 i andre treet. (a) en 6C og en 8C skorpion gift; (b) macins; (c) kryss og scorpion defensins; (d) plante defensins; og (e) 6C defensins fra insekter og edderkoppdyr bløtdyr. Klikk her for å se en større versjon av dette tallet.

Table 1
Tabell 1: grupper i CS-αβ gruppe basert på cystein-sammenkobling mønstre. Fem grunnleggende mønstre av bond formasjon vises ved hjelp av interne numre (midten kolonne) eller referansenumre (høyre kolonne). Scorpion Cl - giftstoffer, ASABF 6Cys-alfa og en gruppe av sopp peptider plasseres med mønster at most samsvarer. En cystein ikke inkludert i referansen angis med en hevet av cysteinene før/etter (f.eks C3/4 er mellom C3 og C4).

Table 2
Tabell 2: tillegg av Tardigrade CS-αβ sekvenser til cystein-sammenkobling mønster grupper. Tardigrade defensins og macins (fet skrift) er satt til tidligere etablerte gruppene der det er mulig. Noen tardigrade sekvenser kan vise et gruppespesifikke mønster. En cystein ikke inkludert i referansen angis med en hevet av cysteinene før/etter (f.eks C3/4 er mellom C3 og C4). Notasjonen "2C/1" angir det finnes to cysteinene oppstrøms referanse C1.

Supplerende fil 1 (S1): justering av Dataset i MEGA. Klikk her for å laste ned denne filen.

Supplerende filen 2 (S2): sannsynligheten for maksimalt tre MEGA fil for Dataset. Klikk her for å laste ned denne filen.

Supplerende filen 3 (S3): justering av Dataset i Nexus Format for MrBayes. Klikk her for å laste ned denne filen.

Supplerende filen 4 (S4): konsensus filen fra MrBayes analyse av Dataset. Klikk her for å laste ned denne filen.

Supplerende fil 5 (S5): justering av 250 CS-αβ-sekvenser i MEGA. Klikk her for å laste ned denne filen.

Supplerende filen 6 (S6): Maksimal sannsynlighet treet 250 CS-αβ sekvenser. Klikk her for å laste ned denne filen.

Supplerende filen 7 (S7): justering av 250 CS-αβ-sekvenser i Nexus Format for MrBayes. Klikk her for å laste ned denne filen.

Supplerende filen 8 (S8): konsensus filen fra MrBayes analyse av 250 CS-αβ sekvenser. Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Kriteriene for å navngi et protein i en gruppe bør være klart, men dette er ikke alltid tilfelle. Sekvenser som har CS-αβ brett har vært studert i mange laboratorier ved hjelp av en rekke organismer, som resulterer i ulike systemer av nomenklatur, samt varierende nivåer av karakterisering. Prøver å innføre en helt ny nomenklaturen er ikke rimelig og vil føre til mye forvirring når rådgivning tidligere litteratur. En referanse nummereringen system kan brukes i tillegg til navnet på et protein for å avklare egenskapene i forhold til gruppe.

Grupper av proteiner med klare kriterier for navngiving og klassifisering vil sannsynligvis ikke nytte generere en referanse i et regneark, men det kan være nyttig for å summere store antall sekvenser og visualisere viktige egenskaper. Sekvensen justeringer og logoer er nyttige for å undersøke hvilket conservation på hvert område, men aktivt prioritere ikke sekvens funksjoner viktig for strukturen eller funksjon. CS-αβ eksempel fokusert på struktur, men bestemt aminosyrer som danner en binding området kan også være innarbeidet som et definerende trekk. Som sekvens funksjoner som gir spesifikke antimikrobielle/giftige aktiviteter av CS-αβ peptider er identifisert, kan disse legges til referansen til avklare grupper basert på aktiviteten. Selv om bare de anslåtte modne peptidene ble brukt i dette hvis tilstedeværelsen av et signal peptid eller Pro peptid er viktig, kan denne informasjonen legges for hver. Bestemt innsetting eller sletting hendelser, samt intron steder, kan også bli inkludert hvis de antas å være informativ. Fordelen med å bruke MrBayes for fylogenetisk analyse er at det ikke er begrenset til molekylære data-det kan analysere data koding for andre egenskaper som kan ha evolusjonære betydningen. Dette kan være kodet som tilstede eller fraværende, gir mer enn sekvensen alene.

Samle relevante sekvensene er et viktig skritt i protokollen. Avhengig av omfanget av studien og distribusjon av gruppemedlemmene, kan dette dekker bredt taxonomical grupper. Hvis målet er å forstå en hel gruppe av proteiner, vurdere at noen sekvenser kan bli funnet utenfor artene som de vanligvis rapporterer. Hvis en gruppe (biologi) er allerede godt representert og flere sekvenser er usannsynlig eller overflødige, kan det være hensiktsmessig å ekskludere dem fra søket. En grunnleggende regel-of-thumb for henting treff i BLAST søk er å bruke en cutoff av-05 for e-verdien. E-verdien er antall treff forventet ved en tilfeldighet. Mens dette er egnet for enkelte situasjoner, hvis det er en gruppe av sekvenser som er svært forskjellige men aksjer spesielle egenskaper, kan det være mindre pålitelig-it kan hente sekvenser som er like, men gjør ikke spesialfunksjonene ville, og det kan ikke returnere sekvenser som har viktige egenskaper, men som er svært forskjellige. Det er noen potensielle måter å løse dette problemet. Først er å se på sekvensene identifisert i søk som er under-05 cut-off å se om de oppfyller inklusjonskriterier. Andre, hvis det er nok informasjon, bruke posisjon-spesifikke Iterated BLAST (PSI-BLAST)22 eller mønster-Hit startet BLAST (PHI-BLAST)23. PSI-BLAST bruker resultatene fra en første søket til å generere en ny modell for neste runde og kan noen ganger finne forskjellige sekvenser som det første søket ikke identifiserer. PHI-BLAST krever et mønster sendes sammen med spørringen sekvensen. Dette begrenser Hentet sekvensene som inneholder mønster av interesse. Dette verktøyet er spesielt nyttig hvis et motiv unike gruppen kan være tydelig identifisert.

En nøyaktig justering er avgjørende for fylogenetisk analyse; tolkninger av trær er bare gyldig hvis de genereres med god justering. Bruke referanse for å informere justeringen kan bidra til å unngå feil som er bare tydelig når strukturen eller aktivitet er vurdert. Sekvensen redundans må defineres for prosjektet. To sekvenser som virke overflødig kan ikke være for Fylogenetiske formål hvis de fra vidt forskjellige taxa eller er nesten identiske i sekvens, men har ulike strukturelle eller funksjonelle egenskaper. Hvis det finnes tvetydighet om hvilken sekvenser som skal inkluderes, kan flere justeringer generert og analysert separat for å se hvordan justeringen endrer virkningen Fylogenetiske slutninger. Metoden som presenteres her eliminere ikke behovet for manuell justering av justeringer, men det kan hjelpe for å avklare hvordan sekvensene skal justeres og kunne bli brukt sammen med en mer sofistikert barcoding teknikk enn har blitt beskrevet tidligere13.

For referansen nyttig, er det viktig å identifisere definerende karakteristikkene som ikke er tydelig fra sekvensen alene. For eksempel vurdere kan sammenligne cystein liming mønstre mellom sekvenser med forskjellig antall cysteinene når hver er nummerert med hensyn til seg selv. Målet er å lette sammenligning og diskusjon, ikke å legge et lag av forvirring. Dette kan innebære flere gjentakelser av referansen og dom kaller bestemme hvilke funksjoner som skal inkludere. Håpet er at vedta en felles metode for å diskutere forskjellige sekvenser i en gruppe vil øke forståelsen av gruppen som helhet.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatteren har ikke noe å avsløre.

Acknowledgments

Pågående tardigrade antimikrobielle peptid forskning støttes av intramural finansiering fra Midwestern University Office for forskning og sponset programmer (ORSP). ORSP ikke hadde noen rolle i studien design, innsamling, analyse, tolkning eller manuskriptet forberedelse.

Materials

Name Company Catalog Number Comments
BLAST webpage https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite) DNASTAR https://www.dnastar.com/t-allproducts.aspx
Excel 2013 Microsoft
FigTree  http://tree.bio.ed.ac.uk/software/figtree/
MEGA www.megasoftware.net
MrBayes http://mrbayes.sourceforge.net/
SCOP database http://scop.mrc-lmb.cam.ac.uk/scop/

DOWNLOAD MATERIALS LIST

References

  1. Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
  2. Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
  3. Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
  4. Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
  5. Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
  6. Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
  7. Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
  8. Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
  9. Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
  10. Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
  11. Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016).
  12. Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
  13. Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
  14. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
  15. Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
  16. Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
  17. Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
  18. Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
  19. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
  20. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  21. Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
  22. Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
  23. Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Tags

Atferd problemet 126 Protein overfamilie protein nomenklaturen protein klassifisering sekvens justering fylogeni virvelløse defensins CS-αβ gruppe
Opprette og bruke en referanse for å tilrettelegge for diskusjon og klassifisering av proteiner i en sammensatt gruppe
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Tarr, D. E. K. Creating and Applying More

Tarr, D. E. K. Creating and Applying a Reference to Facilitate the Discussion and Classification of Proteins in a Diverse Group. J. Vis. Exp. (126), e56107, doi:10.3791/56107 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter