Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Behavior

Creazione e applicazione di riferimento per facilitare la discussione e la classificazione delle proteine in un gruppo eterogeneo

Published: August 16, 2017 doi: 10.3791/56107

Summary

L'obiettivo del presente protocollo è quello di sviluppare un riferimento per le proteine divergenti in un gruppo che non dispone di criteri coerenti per la nomenclatura e classificazione. Questo riferimento faciliterà l'analisi e la discussione del gruppo nel suo complesso e può essere utilizzato in aggiunta nomi affermati.

Abstract

Proteine correlate che sono state studiate in diversi laboratori utilizzando diversi organismi potrebbero non avere un sistema uniforme di nomenclatura e classificazione, rendendo difficile per discutere il gruppo nel suo complesso e di inserire nuove sequenze nel contesto appropriato. Lo sviluppo di un riferimento che la funzionalità importante sequenza di priorità relative alla struttura e/o attività può essere utilizzata oltre a nomi affermati per aggiungere qualche coerenza a un gruppo eterogeneo di proteine. Questa carta utilizza la superfamiglia di cisteina-stabilizzato alfa-elica (CS-αβ) come un esempio per mostrare come un riferimento generato nel software di foglio di calcolo può chiarire le relazioni tra proteine esistenti nella superfamiglia, nonché facilitare l'aggiunta di nuovi sequenze. Viene inoltre illustrato come il riferimento può contribuire a perfezionare gli allineamenti di sequenza generati in software comunemente usato, che compromette la validità delle analisi filogenetiche. L'utilizzo di un riferimento sarà probabilmente più utile per i gruppi di proteine che includono sequenze altamente divergenti da un ampio spettro di taxa, con caratteristiche che non vengono adeguatamente acquisite dalle analisi molecolari.

Introduction

Nome di una proteina dovrebbe riflettere è caratteristiche e rapporto ad altre proteine. Purtroppo, i nomi vengono generalmente assegnati al momento della scoperta e, mentre la ricerca continua, la comprensione del contesto più ampio potrebbe cambiare. Questo può portare a più nomi se una proteina è stata identificata in modo indipendente da più di un laboratorio, ai cambiamenti nella nomenclatura o nelle caratteristiche pensate per essere definitiva quando si assegna il nome e il nome non è più sufficientemente differenziando la proteina dagli altri.

Invertebrati marini defensine forniscono un buon esempio di degenerazione nella nomenclatura e classificazione. Le defensine invertebrate prime sono state segnalate dagli insetti, e il nome "insetto defensine" è stato proposto basato sull'omologia percepita a mammiferi defensine1,2. Il termine defensine è ancora usata, anche se è ormai chiaro che defensine invertebrate e mammiferi non condividono un antenato comune3,4. A seconda della specie, un invertebrato "defensine" può avere sei o otto cisteine (che formano tre o quattro ponti disolfuro) e una varietà di attività antimicrobica. A complicare la situazione, proteine con le stesse caratteristiche come defensine non vengono sempre chiamate "defensine," come la cremycins recentemente identificato da Caenorhabditis remanei5. Inoltre, defensine grande invertebrati marini sono più probabili essere evolutivamente correlato a vertebrati β-defensine rispetto a altri invertebrati defensine6. Nonostante questo, i ricercatori si affidano a volte il nome "defensine" quando si determina quali sequenze devono essere inclusi nelle analisi.

Gli studi strutturali hanno rivelato la somiglianza tra insetto defensine e Scorpione tossine7, e la piega di CS-αβ successivamente è stata stabilita come la caratteristica strutturale di defensine insetto8. Questo ovile definisce la superfamiglia di scorpione tossina-come (CS-αβ) nella classificazione strutturale delle proteine (SCOP) database9, che attualmente include cinque famiglie: insetto defensine, catena corta Scorpione tossine, tossine dello Scorpione lungo-catena, MGD-1 (da un mollusco) e pianta defensine. Questa superfamiglia è sinonima di cis-defensine recentemente descritto4 e superfamiglia 3.30.30.10 in CATH/Gene database 3D10,11. Studi da una varietà di taxa di invertebrati, piante e funghi show che i nomi delle proteine che contengono questa piega non sono chiaramente correlati al numero di cisteina o modello di incollaggio, attività antimicrobica o storia evolutiva12.

La mancanza di coerenza e criteri chiari rendono impegnativo per denominare e classificare le sequenze più recentemente identificati di questa superfamiglia. Un ostacolo importante al confronto di proteine in questa superfamiglia è che cisteine sono numerate rispetto ogni sequenza individuale (il prima cisteina in ogni sequenza è C1), con nessun modo per rappresentare il ruolo strutturale. Ciò significa che possono essere paragonate solo sequenze con lo stesso numero di cisteine. C'è poco sequenza conservazione tranne le cisteine che formano la piega di CS-αβ, che rende difficile allineamenti e analisi filogenetiche. Attraverso lo sviluppo di un sistema di numerazione che dà priorità caratteristiche strutturali, sequenze di superfamiglia possono essere più facilmente rispetto e allineati. Caratteristiche conservate, così come quelle che definiscono i sottogruppi, possono essere fruiti rapidamente, e nuove sequenze possono essere più facilmente collocati nel contesto appropriato.

Questo documento utilizza un software di foglio di calcolo (ad esempio, Excel) per generare un sistema per la superfamiglia CS-αβ di numerazione di riferimento. Essa mostra come questo chiarisce i confronti tra le sequenze e le applica nuove sequenze di CS-αβ identificati dai tardigradi. Utilizzando la superfamiglia CS-αβ come esempio, il protocollo è stato scritto per fornire una guida quando si utilizza sequenze di interesse; Tuttavia, non è inteso per essere specifici di questa superfamiglia o sequenze ricche di cisteina. Questo metodo sarà probabilmente più utile per i gruppi di proteine che sono state studiate in modo indipendente in taxa divergenti e/o hanno poca omologia di sequenza complessiva, con discrete caratteristiche che non possono essere facilmente riconosciuti dal software di analisi molecolare. Questo metodo richiede alcune decisioni a priori per quanto riguarda caratteristiche importanti, quindi sarà di limitata utilità se non importanti caratteristiche sono state identificate. L'obiettivo primario è quello di mostrare come una semplice visualizzazione delle relazioni di sequenza può essere raggiunto. Questo quindi può essere utilizzato per informare l'allineamento di sequenza e l'analisi, ma se l'allineamento e l'analisi sono gli obiettivi primari, un metodo di codice a barre sarebbe una valida alternativa che ha più capacità per automazione13. Il metodo corrente Visualizza le funzioni di ciascun peptide in una forma lineare, quindi non sarà disponibile per la visualizzazione diretta della struttura 3D.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. determinare le caratteristiche di definizione del gruppo di proteine di interesse

  1. Consult precedenti pubblicazioni per determinare se c'è un consenso per quanto riguarda le caratteristiche che sono necessarie per essere considerato parte del gruppo. Prendere nota di eventuali incongruenze o differenze di opinione tra gruppi di ricerca e includere caratteristiche che possono servire a distinguere un sottogruppo da altra.
  2. Se la letteratura precedente non riguarda caratteristiche distintive, utilizzare sequenze che sono considerate rappresentativi del gruppo come punto di partenza per identificare caratteristiche conservate.

2. Raccogliere rilevanti sequenze

  1. se le recensioni sono state scritte che comprendono le analisi di sequenze che rappresentano il gruppo, includere queste sequenze nel set di dati grezzi. Recuperare sequenze utilizzando numeri di adesione a cui fa riferimento nella letteratura e salvare in una sequenza standard di programma di editing (ad es., EditSeq nella suite Lasergene o uno dei tanti disponibili per online gratis).
  2. Se il gruppo in questione è stato definito in una delle basi di dati strutturali, includere le sequenze che database vengono elencati come facenti parte del gruppo. recuperare sequenze utilizzando numeri di adesione forniti nel database e salvare in una sequenza standard di editing programma, come sopra.
    Nota: ad esempio, le sequenze classificate nella superfamiglia delle CS-αβ (Scorpione tossina-come) nel database SCOP possono essere trovate qui: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
  3. eseguire base locale Ricerche di 14 Cerca strumento (BLAST) allineamento dei database pubblici, online disponibili attraverso il centro nazionale per Biotechnology Information (NCBI) per trovare sequenze che potrebbero non essere stato incluso nella letteratura o strutturali basi di dati. Per la maggior parte risultati completi, utilizzare entrambe la proteina BLAST (blastp) e tradotto blast con programmi di query (tblastn) di proteina; Queste sono entrambe disponibili presso: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    1. Sequenze di uso noti per essere parte del gruppo di interesse come sequenze di query. Copiare e incollare la sequenza nella casella di ricerca nella parte superiore o fornire un di identificatore numero o gi di adesione GenBank, se disponibile.
    2. Scegliere il database dal menu a discesa. Scegliere sequenze proteiche non ridondante (nr) per blastp ed espresso Tag sequenza per tblastn.
    3. Ricerca per risultati in taxa specifici nell'organismo impostazione digitando l'organismo o il nome del taxon e scegliendo dall'elenco che viene visualizzato durante la digitazione. Per aggiungere ulteriori organismi o taxa di escludere, fare clic il " + " pulsante e un altro campo apparirà. Escludere qualsiasi taxa non desiderati nella finestra di organismo digitando il nome organismo o di un taxon, selezionando dall'elenco visualizzato durante la digitazione e il controllo della " Exclude " casella sulla destra.
    4. Accedere a parametri aggiuntivi facendo clic su " i parametri dell'algoritmo " vicino alla parte inferiore della pagina. Lasciare di default a meno che non c'è una spiegazione razionale per la modifica di un parametro.
    5. Clic la " BLAST " pulsante per eseguire l'analisi; potrebbe richiedere qualche tempo per visualizzare i risultati. In generale, recuperare colpi con un valore di expect (o e-value) di " -05 " o meglio e salvare in una sequenza standard di programma di editing.
      1. Se tutti i colpi sono superiore a questa soglia, eseguire nuovamente la ricerca con un aumento del numero di sequenze di destinazione (nella sezione parametri di algoritmo) per ottenere tutte le sequenze rilevanti.
  4. Se necessario, tagliare le sequenze per escludere informazioni irrilevanti (ad es., la piega di CS-αβ si applica solo al peptide maturo). Identificare peptidi di segnale e pro-peptidi per la rimozione utilizzando ProP 15 (disponibile online), o SignalP per più sofisticato segnale peptide Pronostico 16 (disponibile online).

3. Generare un riferimento in un foglio di calcolo basato sulle importanti caratteristiche che sono state identificate

  1. identificare le caratteristiche di definizione del gruppo di interesse. Ad esempio, utilizzare la piega di CS-αβ definitivamente stabilita dalla struttura soluzione dell'insetto defensine A da terraenovae Phormia ( Figura 1) 8.
    1. Questa piega include un motivo più piccolo chiamato la cisteina-stabilizzato elica (CSH) 17; identificare questo motivo da un CXXXC (dove X è qualsiasi aminoacido) a Monte di un CXC che formano due ponti disolfuro ( Figura 1 , tinta linee rosa).
      Nota: Per completare il motivo CS-αβ, un terzo ponte disolfuro è formato da altre cisteine inseriti prima di ogni metà del motivo della CSH ( Figura 1, rosa linee tratteggiate).
  2. Entrare in questi la definizione di funzionalità in un foglio di calcolo. Vedere la Figura 2.
    1. Utilizzo di colonne per le funzionalità conservate e per rappresentare gli spazi tra queste caratteristiche. Mantenere le colonne sufficientemente ampie per inserire numeri e garantire che essi hanno una larghezza costante. Impostare la larghezza utilizzando il " formato | Larghezza della colonna " funzione ( Figura 2, freccia rosa).
    2. Utilizzare le righe per i nomi di sequenza.
    3. Quando una sequenza ha la caratteristica, compilare la casella utilizzando la funzione di riempimento ( Figura 2, quadrato rosa). Per la spaziatura tra funzionalità, immettere il numero di aminoacidi nella casella tra e lasciarlo vuoto. Ad esempio, utilizzando l'insetto defensine sequenza dà un riferimento che include sei cisteine, con distanze definite tra C2 e C3 e fra C5 e C6.
  3. Aggiungere sequenze rappresentative che sono state precedentemente stabilite come membri del gruppo con sede a banche dati strutturali e la letteratura.
    Nota: ad esempio, la letteratura precedente e il database SCOP identificare diversi gruppi per l'inclusione: insetto defensine, catena corta Scorpione tossine, tossine dello Scorpione lungo-catena, MGD-1, pianta defensine, nematode ABFs, drosomycins da Drosophila, e macins. La letteratura identifica anche una sequenza batterica con solo quattro cisteine che potrebbe rappresentare l'antenato di questa superfamiglia 18. L'aggiunta di queste sequenze aumenta il numero di cisteine nel riferimento da sei a dieci, ma mantiene l'allineamento delle caratteristiche strutturali importanti ( Figura 3).
    1. Per aggiungere una funzionalità che è in grado di definire un sottogruppo delle sequenze (per esempio, una supplementare cisteina), utilizzare il " inserto " funzione ( Figura 3, freccia rosa).
    2. Se ci sono caratteristiche mancanti da una determinata sequenza, lasciare la casella vuota e si combinano con le caselle che rappresentano intermedi aminoacidi. Se necessario, unire le celle utilizzando la funzione Unisci e centra ( Figura 3, scatola rosa).
  4. Continua aggiungere sequenze ai gruppi per ottenere una migliore immagine della variazione in ogni gruppo della superfamiglia del più grande. Riassumere le caratteristiche di gruppo per facilitare i confronti ( Figura 4).
    1. Quando varia il numero di amminoacidi tra le funzioni principali, utilizzare un trattino per indicare un intervallo, ad esempio 6-12 (6-12 aminoacidi) e da una barra per indicare sia / o, ad esempio 7/10 (7 o 10 aminoacidi).
    2. Scegliere un modo di annotare le caratteristiche di sequenze che possono essere rilevanti, ma non si verificano abbastanza spesso per includere nel riferimento. Ad esempio, poiché cisteine sono importanti in questa superfamiglia, etichetta altre cisteine ( Figura 4, scatole rosa).
  5. Aggiungere newlsequenze y-identificato al foglio di calcolo utilizzando le sequenze stabilite come guida. Ad esempio, l'aggiunta di sequenze da tardigradi (giallo) Mostra che le sequenze di tardigrade cadano in diversi gruppi della superfamiglia ( Figura 5 Mostra sintesi anziché una riga per ogni sequenza per motivi di spazio).
  6. Mostrano la variabilità all'interno di un gruppo tassonomico riordinando le righe ( Figura 6).

4. Utilizzare il riferimento per perfezionare gli allineamenti dell'amminoacido

Nota: ci sono molti programmi che possono essere utilizzati per allineamenti multipli di sequenza, ma questa dimostrazione verrà utilizzata l'analisi di genetica evolutiva molecolare (MEGA6) 19 perché è disponibile per il download gratuito.

  1. Scaricare e installare il software.
  2. Inizia un nuovo allineamento in MEGA selezionando " Edit/Build allineamento " sotto la scheda allineamento selezionare " creare un nuovo allineamento " nella finestra che viene visualizzata e fare clic su " OK. " quindi selezionare " proteina. "
  3. Selezionare " inserire sequenza dal File " nella " modifica " menu per importare le sequenze.
    Nota: Sequenze dovrà essere in formato FASTA per l'importazione in MEGA. Colori di sfondo che riflettono tipi diversi aminoacidi vengono utilizzati per impostazione predefinita, ma questa opzione può essere disattivata sotto il " Display " menu.
  4. Una volta che tutte le sequenze sono inserite, fare clic sull'icona di braccio flessione e poi " allineare proteina " per allineare le sequenze utilizzando l' algoritmo di muscolo 20.
    Nota: È disponibile anche ClustalW.
    1. Se fa clic su un messaggio che dice che nulla è stato selezionato pop up e chiede di selezionare tutto, " OK. "
    2. Nota: verrà visualizzata una finestra che permette di modificare alcuni parametri, ma devono essere modificate solo non c'è motivo per farlo. Questa analisi utilizza un sottoinsieme delle sequenze analizzate in un precedente libro 12.
  5. Controllare immediatamente l'allineamento basato su caratteristiche importanti; si noti che la barra in alto sopra le sequenze mostrerà tutte le colonne dove l'aminoacido è completamente conservano (*). Vedi Figura 7. Vedere che l'allineamento iniziale Mostra solo tre le quattro cisteine conservate ( Figura 7, scatole rosa); guardando giù la colonna, la sequenza AlCRP è chiaramente non allineati ( Figura 7, freccia rosa).
  6. Per sbarazzarsi del grande divario tra il I e il C conservata, evidenziare i trattini e premere il " Elimina " chiave. Non si evidenzia alcuna aminoacidi, o verranno eliminati anche.
  7. Di aminoacidi per il diritto di spostare, evidenziare e premere la barra spaziatrice
    1. Nota che il AlCRP ha ora le cisteine strutturali allineate e che l'ultima C del motivo della CXXXC è conservato durante l'allineamento ( Figura 8). Regolare l'allineamento come necessario assegnare priorità le caratteristiche più importanti delle sequenze.

5. Confrontare i gruppi identificati utilizzando il riferimento con risultati da analisi filogenetiche

  1. da allineamenti preliminari, determinare quali sequenze devono essere inclusi in un'analisi filogenetica; per un piccolo numero di sequenze, questo passaggio può essere inutili.
    1. Mantenere un file di allineamento che include tutte le sequenze, ma per un'analisi filogenetica, rimuovere sequenze ridondanti ( Figura 9, rosa caselle Visualizza paia di sequenze ridondanti).
    2. Se il set di dati include un gran numero di sequenze, eseguire un'analisi preliminare e selezionare rappresentanti di gruppi che da sempre formano un clade.
  2. Determinare il miglior modello di sostituzione dell'amminoacido.
    1. Esportare l'allineamento in formato MEGA (sotto la scheda dati).
    2. Vai al menu modelli e selezionare " trovare migliori DNA/proteine modello. " scegliere il file appena salvato e aprirlo; verrà aperta una finestra con alcuni parametri che possono essere cambiati.
    3. Utilizzare i parametri predefiniti, a meno che non c'è un motivo per cambiarli. Fare clic su " calcolare " per iniziare l'analisi.
  3. Eseguire un'analisi di massima verosimiglianza (ML) in MEGA.
    1. Scegli " costrutto/Test massima probabilità albero " dal menu Phylogeny.
    2. Scegliere il modello determinato a essere la soluzione migliore per i dati dal passaggio 5.2 (l'output darà il modello di sostituzione, nonché la migliore " tariffe tra siti " parametro).
    3. 1.000 scegliere bootstrap replica per ottenere delle misure di sostegno per l'albero.
    4. Clic " calcolare " per eseguire l'analisi; MEGA ha un " Tree Explorer " per visualizzare la struttura ad albero.
  4. Eseguire un'analisi bayesiana in MrBayes software open-source 21.
    Nota: Un manuale di MrBayes è disponibile anche da questo sito. Questo è destinato a fornire passaggi di base e non è una guida completa per lo svolgimento di analisi filogenetica bayesiana.
    1. Esportare l'allineamento di MEGA in formato microscopio (Nexus) nella stessa cartella come il programma di MrBayes.
    2. Aperto MrBayes e tipo " exe nomefile " (ad es., " exe Alignment.nex ").
    3. Specificare i parametri di modello e di analisi. Scegliere il modello specificato nel passaggio 5.2 o scegliere il " misto " impostazione che cercherò di vari modelli e segnalare la frequenza del modello tra gli alberi con le migliori probabilità a posteriori (prset aamodelpr = misto). Tipo " showmodel " per segnalare le impostazioni del modello attuale e " aiutare mcmc " per mostrare le impostazioni correnti, con una breve spiegazione di ognuno.
    4. Impostare il numero di generazioni utilizzando il " mcmcp ngen = " comando (1 milione è tipico).
    5. Tipo " mcmc " per iniziare l'analisi.
    6. Quando il numero di generazioni è stata completata, il programma vi chiederà di aggiungere più generazioni. Se la deviazione standard media delle frequenze di Spalato è meno di 0,1, digitare no. Se è sopra 0.1, l'analisi dovrebbe essere consentita per continuare, o alcuni parametri devono essere modificati (vedere il manuale).
    7. Uso il " Simone " comando per generare i file albero.
    8. Dopo l'analisi è completa e viene generato un albero di consenso, l'albero può essere visualizzata in FigTree (disponibile online).
  5. Confrontare gli alberi per vedere se i metodi generano risultati coerenti.
    Nota: Alcune sequenze non forniscono un sacco di informazioni: gli alberi non possono essere ben risolti e i rami possono avere supporto minimo ( Figura 10).
  6. Confrontare alberi ai gruppi identificati utilizzando il riferimento per vedere se questi gruppi di sostegno l'analisi filogenetiche.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Gruppi di sequenze nella superfamiglia delle CS-αβ segnalato nella letteratura sono mostrati in Figura 4. Gli abbinamenti di cisteina basati sulla numerazione per ogni sequenza suggeriscono cinque gruppi di base (tabella 1, colonna centrale). Il gruppo 1 ha sei cisteine che da bisolfuro di tre legami e include sequenze da insetti, aracnidi, molluschi, nematodi e funghi. Gruppi 2, 3 e 4 hanno 8 cisteine che formano quattro ponti disolfuro. Gruppo 2 comprende insetti, aracnidi e sequenze di impianto; gruppo 3 comprende aracnidi, molluschi e sequenze di nematodi; e gruppo 4 include sequenze da cnidari, anellidi, molluschi e funghi. Gruppo 5 include il 10 macins di cisteina. Alcune sequenze non ha fatto abbastanza bene questi modelli ma erano generalmente più vicini ad un gruppo rispetto agli altri.

Gruppi 1 e 2 sembrano condividere due legami: C2-C5 e C3-C6; Tuttavia, cominciando la numerazione di ogni sequenza con la sua prima cisteina non riconosce il contesto strutturale delle obbligazioni. C2-C5 nel gruppo 1 sequenze di forme uno dei due obbligazioni nel motivo di CSH, mentre C2-C5 nel gruppo 2 sequenze forma il legame finale necessario per stabilizzare la piega di CS-αβ. Il legame di omologo per il gruppo 1 C2-C5 è Group2 C3-C6, che non è evidente dalla numerazione. Inoltre non è ovvio che nel gruppo 3, il legame C2-C6 svolge lo stesso ruolo strutturale.

Utilizzo di sequenze dalla letteratura generato un riferimento con un totale di dieci cisteine. Il motivo CSH è formato da obbligazioni C3-C8 e C4-C9, con C2-C6 completando la piega di CS-αβ. Le coppie di cisteina in base ai numeri di riferimento di rinumerazione chiarisce i legami presenti in ogni sequenza (tabella 1, colonna di destra). Ora è ovvio che tutte le sequenze hanno C2-C6, C3-C8 e C4-C9, riflettendo la piega strutturale che definisce la superfamiglia. L'utilizzo di un riferimento consente per un facile confronto tra sequenze che hanno la nomenclatura incoerente e criteri di classificazione ambigua. Può anche aiutare a identificare le caratteristiche che definiscono un sottogruppo delle sequenze. Ad esempio, il legame di C1-C7 può differenziare macins da altri membri della superfamiglia, rende opportuno classificare le sequenze con questo legame come "macins" piuttosto che "defensine" (tabella 1 e Figura 4).

Ricerche nelle banche dati online pubblici ha rivelato sedici sequenze dai tardigradi che hanno chiaramente il CS-αβ piegare, otto da Hypsibius dujardini e Milnesium tardigradum. Quattro delle nuove sequenze hanno sei cisteine, nove hanno otto, uno ha nove e due hanno dieci. Questo dà informazioni molto poco, ma allineando le sequenze al riferimento, diventa chiaro che tardigrade sequenze con lo stesso numero di cisteine non abbia sempre le cisteine strutturalmente importante allo stesso posto all'interno della sequenza ( Figura 5 e Figura 6). L'allineamento con il riferimento consente inoltre per l'inferenza delle dinamiche (tabella 2, dedotto dinamiche di vincolo indicati tra parentesi). Alcune delle sequenze tardigrade rientrano chiaramente modelli 1-4. Altri sono più simili all'antenato batterica proposto, Scorpione Cl-tossina o una famiglia di peptidi di simil-defensina fungine. Modello 2 può avere due sottogruppi, uno rappresentato da Scorpione Na + tossine, drosomycin e pianta defensine e l'altra da Scorpione Cl-tossine. Ulteriore lavoro indagando la funzione delle proteine tardigrade è necessario per determinare se alcuni devono essere considerate le tossine, piuttosto che defensine.

Le analisi filogenetiche sono spesso utilizzate per studiare come potrebbe essersi evoluto un gruppo di proteine. Le sequenze della superfamiglia CS-αβ sono generalmente brevi e altamente divergenti; alberi risultanti sono spesso mal risolti e offrono poca comprensione. Alberi ML sia bayesiani per il sottoinsieme delle sequenze analizzate qui erano mal risolti, con scarso sostegno per molti cladi (Figura 10, complementare file 1 - 4). È pratica comune per mostrare solo bootstrap livelli oltre 70 (o probabilità a posteriori sopra 0,7), ma nella figura 10 conserva tutti i numeri per dimostrare il generale bassi livelli di sostegno. Cinque gruppi sono stati sostenuti sopra 70/0,7 in almeno uno dei due alberi: (a) un 6C e una tossina dello Scorpione di 8C; (b) macins; (c) tick e defensine Scorpione; (d) pianta defensine; e (e) 6C defensine da insetti, aracnidi e molluschi. Nella struttura della ML, clade e include anche una tossina di 8C e un 8C tardigrade defensine, ma il supporto era molto basso (Figura 10A). In generale, questi riflettono le categorie individuate utilizzando la numerazione di riferimento cisteina, ma mostrano anche che le sequenze con numeri di cisteina differenti all'interno di un grande gruppo tassonomico possono essere più strettamente collegati che sequenze con lo stesso modello da diversi gruppi. Mentre solo un piccolo numero di sequenze sono stato utilizzato in questo studio, è possibile che un'analisi più grande di 250 sequenze non ha eliminato la mancanza di risoluzione (complementare Files 5 - 8)12. L'allineamento di riferimento del foglio di calcolo può offrire più facile visualizzazione delle somiglianze con rilevanza strutturale o funzionale rispetto agli alberi filogenetici.

Figure 1
Figura 1: Definizione di sequenza e caratteristiche strutturali della superfamiglia CS-αβ. Struttura 3D e gli amminoacidi sono codificati a colori: loop (blu), alfa-elica (verde), beta-fogli (oro) e legami disolfuro (rosa). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2: Sei-cisteina pregiudiziale basato sulla sequenza di insetto defensine. Colonne indicano le conservato cisteine (C1-C6) e, per il motivo CSH, il numero di conserva ammino acidi tra le cisteine. Le caselle piene indicano che la sequenza ha determinato la cisteina e i numeri indicano gli amminoacidi tra le cisteine. Clicca qui per visualizzare una versione più grande di questa figura.

er.within-pagina = "1" >Figure 3
Figura 3: Raffinato Ten-cisteina riferimento basato sulle sequenze rappresentative da gruppi della superfamiglia CS-αβ. Le colonne indicano conservati cisteine e gli aminoacidi tra di loro. Cisteine che contribuiscono per il motivo CSH (C3, C4, C8 e C9) e per la piega di CS-αβ (C2 e C6) sono etichettati. Sequenze sono color-coded di gruppo tassonomico: Arachnida (luce arancione), batteri (nero), cnidari (grigio), Hexapoda (arancione), molluschi (blu), Nematoda (viola) e Plantae (verde). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4 : Riepilogo delle CS-αβ superfamiglia sequenze allineate con riferimento di gruppo caratteristiche. Le colonne indicano conservati cisteine e gli aminoacidi tra di loro. Cisteine che contribuiscono per il motivo CSH (C3, C4, C8 e C9) e per la piega di CS-αβ (C2 e C6) sono etichettati. Sequenze sono color-coded di gruppo tassonomico: anellidi (rosso scuro), Arachnida (luce arancione), batteri (nero), cnidari (grigio), funghi (verde chiaro), Hexapoda (arancione), molluschi (blu), Nematoda (viola) e Plantae (verde). Numeri separati da un trattino indicano un intervallo di aminoacidi intermedi; numeri separati da una barra rappresentano o / o. Una "C" indica una cisteina aggiuntiva che non si verifica con sufficiente frequenza da giustificare aggiunta al riferimento. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5 : Aggiunta di sequenze di Tardigrade CS-αβ per allineamento superfamiglia con riferimento di gruppo caratteristiche. Le colonne indicano conservati cisteine e gli aminoacidi tra di loro. Cisteine che contribuiscono per il motivo CSH (C3, C4, C8 e C9) e per la piega di CS-αβ (C2 e C6) sono etichettati. Sequenze sono color-coded di gruppo tassonomico: anellidi (rosso scuro), Arachnida (luce arancione), batteri (nero), cnidari (grigio), funghi (verde chiaro), Hexapoda (arancione), molluschi (blu), Nematoda (viola), Plantae (verde) e Tardigrada (giallo). Numeri separati da un trattino indicano un intervallo di aminoacidi intermedi; numeri separati da una barra rappresentano o / o. Una "C" indica una cisteina aggiuntiva che non si verifica con sufficiente frequenza da giustificare aggiunta al riferimento. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6: Aggiunta di sequenze di Tardigrade CS-αβ per allineamento superfamiglia con riferimento di gruppo tassonomico. Le colonne indicano conservati cisteine e gli aminoacidi tra di loro. Cisteine che contribuiscono per il motivo CSH (C3, C4, C8 e C9) e per la piega di CS-αβ (C2 e C6) sono etichettati. Sequenze sono color-coded di gruppo tassonomico: anellidi (rosso scuro), Arachnida (luce arancione), batteri (nero), cnidari (grigio), funghi (verde chiaro), Hexapoda (arancione), molluschi (blu), Nematoda (viola), Plantae (verde) e Tardigrada (giallo). Numeri separati da un trattino indicano un intervallo di aminoacidi intermedi; numeri separati da una barra rappresentano o / o. Una "C" indica una cisteina aggiuntiva che non si verifica con sufficiente frequenza da giustificare aggiunta al riferimento. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 7
Figura 7: Sequenza disallineato con automatizzati allineamento. Conservato in tutte le sequenze di aminoacidi sono indicati da * nella riga sopra la prima sequenza (evidenziata in scatole rosa). AlCRP non è allineato. Il divario deve essere rimosso per allineare correttamente la C (freccia rosa). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 8
Figura 8: Manuale raffinatezza dell'allineamento conserva le caratteristiche strutturalmente importante delle sequenze. AlCRP è ora allineato correttamente (freccia rosa), ed il motivo CXXXC è completamente conservato per le sequenze (scatole rosa). Clicca qui per visualizzare una versione più grande di questa figura.

Figure 9
Figura 9 : Sequenze ridondanti in un allineamento. Se ci sono coppie di sequenze quasi identiche (scatole rosa), uno può essere rimosso, dal momento che questi saranno probabilmente sempre raggruppano e contribuiscono poco alla topologia complessiva dell'albero. Clicca qui per visualizzare una versione più grande di questa figura.

Figure 10
Figura 10 : Confronto degli alberi generati da analisi filogenetiche. Massimo (A) analisi della probabilità in MEGA, con 1.000 bootstrap replica utilizzando il WAG + G + modello. (B) l'analisi bayesiana con 1.000.000 generazioni utilizzando l'impostazione del modello misto. Cladi supportati alle 70/0,7 sono mostrati in linee continue di rosa; linee tratteggiate rosa Visualizza cladi supportati alle 70/0,7 all'altro albero. (a) un 6C e una tossina dello Scorpione di 8C; (b) macins; (c) tick e defensine Scorpione; (d) pianta defensine; e (e) 6C defensine da insetti, aracnidi e molluschi. Clicca qui per visualizzare una versione più grande di questa figura.

Table 1
Tabella 1: gruppi all'interno della superfamiglia CS-αβ basano su modelli di cisteina-pairing. Cinque modelli di base della formazione del legame sono mostrati usando i numeri interni (colonna centrale) o numeri di riferimento (colonna destra). Scorpion Cl - tossine, ASABF 6Cys-alfa e un gruppo di peptidi fungine vengono inseriti con il pattern che mOST si avvicina. Una cisteina non inclusa nella Guida di riferimento è indicata da un apice delle cisteine prima/dopo il (ad es., C3/4 è compreso tra C3 e C4).

Table 2
Tabella 2: aggiunta di Tardigrade CS-αβ sequenze a cisteina-associazione gruppi Pattern. Tardigrade defensine e macins (grassetto) sono messi nei gruppi precedentemente stabiliti, ove possibile. Alcune sequenze di tardigrade possono mostrare un modello di gruppo-specifici. Una cisteina non inclusa nella Guida di riferimento è indicata da un apice delle cisteine prima/dopo il (ad es., C3/4 è compreso tra C3 e C4). La notazione "2C1" indica che ci sono due cisteine a Monte di riferimento C1.

Complementare File 1 (S1): allineamento di questo Dataset in MEGA. Per favore clicca qui per scaricare questo file.

File supplementari 2 (S2): albero di massima verosimiglianza MEGA File per questo Dataset. Per favore clicca qui per scaricare questo file.

File supplementari 3 (S3): allineamento di questo set di dati in formato di Nexus per MrBayes. Per favore clicca qui per scaricare questo file.

File supplementari 4 (S4): File di consenso dall'analisi di questo Dataset MrBayes. Per favore clicca qui per scaricare questo file.

File supplementari 5 (S5): allineamento di 250 CS-αβ sequenze in MEGA. Per favore clicca qui per scaricare questo file.

Complementare File 6 (S6): albero di probabilità massima di 250 CS-αβ sequenze. Per favore clicca qui per scaricare questo file.

File supplementari 7 (S7): allineamento di 250 CS-αβ sequenze in Nexus formato per MrBayes. Per favore clicca qui per scaricare questo file.

File supplementari 8 (S8): File di consenso dall'analisi MrBayes di 250 CS-αβ sequenze. Per favore clicca qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

I criteri per la denominazione di una proteina all'interno di un gruppo dovrebbero essere chiari, ma questo non è sempre il caso. Sequenze che hanno il CS-αβ piegare sono state studiate in molti laboratori utilizzando una varietà di organismi, risultante in diversi sistemi di nomenclatura, nonché a diversi livelli di caratterizzazione. Tentando di imporre una completamente nuova nomenclatura non è ragionevole e si tradurrebbe in una grande quantità di confusione durante la consultazione letteratura precedente. Un sistema di numerazione di riferimento può essere utilizzato oltre al nome di una proteina per chiarire le sue caratteristiche rispetto alla superfamiglia.

Gruppi di proteine con criteri chiari per denominazione e classificazione sarà probabilmente non beneficiano generando un riferimento in un foglio di calcolo, anche se può essere utile per riepilogare grandi quantità di sequenze e visualizzazione di caratteristiche importanti. Loghi e allineamenti di sequenza sono utili per indagare il livello di conservazione in ogni sito, ma non attivamente la priorità importanti per struttura o funzione di caratteristiche di sequenza. L'esempio di CS-αβ focalizzata sulla struttura, ma gli aminoacidi specifici che costituiscono un sito di legame potrebbe essere anche incorporati come una caratteristica di definizione. Quando vengono identificate le caratteristiche di sequenza che conferiscono specifici antimicrobici/tossico attività dei peptidi CS-αβ, questi potrebbe aggiungersi al riferimento per chiarire gruppi basati su attività. Anche se solo i predetti maturi peptidi sono stati utilizzati in questo esempio, se è importante la presenza di un peptide segnale o Pro-peptide, che informazioni possono essere aggiunte per ogni sequenza. Inserimento specifico o eventi eliminazione, nonché posizioni introne, anche possibile includere se sono pensati per essere informativo. Un vantaggio dell'utilizzo di MrBayes per l'analisi filogenetica è che non è limitato ai dati molecolare-it può analizzare dati codifica per altre caratteristiche che possono avere importanza evolutiva. Questi possono essere codificati come presente o assente, fornendo maggiori informazioni rispetto alla sequenza da solo.

Raccogliendo le sequenze rilevanti è un passaggio fondamentale del protocollo. A seconda l'ambito dello studio e la distribuzione dei membri del gruppo, questo può estendersi su vasti gruppi tassonomici. Se l'obiettivo è quello di comprendere un intero gruppo di proteine, considerare che alcune sequenze possono essere trovate di fuori della specie che di solito vengono segnalati da. Se un taxon è già ben rappresentato e sequenze aggiuntive sono improbabile o ridondanti, escludendoli dalla ricerca potrebbe essere appropriato. Una regola base del pollice per il recupero di colpi in una ricerca BLAST consiste nell'utilizzare un taglio di -05 per il valore di e. Il valore di e è il numero di colpi previsto per caso. Mentre questo è adatto per alcune situazioni, se c'è un gruppo di sequenze che è altamente divergente ma azioni specifiche caratteristiche, può essere meno affidabile-it può recuperare sequenze che sono simili ma non fare hanno caratteristiche specifiche voluto, e non può restituire le sequenze che hanno le caratteristiche chiave, ma che sono altamente divergenti. Ci sono alcuni potenziali modi di affrontare questo problema. Il primo è quello di guardare le sequenze identificate nella ricerca del cut-off-05 per vedere se essi soddisfano i criteri di inclusione. In secondo luogo, se ci sono sufficienti informazioni, utilizzare Position-Specific iterato BLAST (PSI-BLAST)22 o Pattern-Hit avviato BLAST (PHI-BLAST)23. PSI-BLAST utilizza i risultati di una ricerca iniziale per generare un nuovo modello per il prossimo turno e possono a volte trovare sequenze divergenti che non ha identificato la ricerca iniziale. PHI-BLAST richiede un modello deve essere presentata insieme con la sequenza di query. Questo limita le sequenze di estratto contenente il modello di interesse. Questo strumento è particolarmente utile se un motivo unico al gruppo possa essere chiaramente identificato.

Un allineamento accurato è fondamentale per l'analisi filogenetica; interpretazioni degli alberi sono validi solo se sono generati utilizzando buon allineamento. Utilizzando il riferimento di informare l'allineamento può contribuire ad per evitare gli errori che sono evidenti solo quando la struttura o l'attività sono considerati. Ridondanza di sequenza dovrà essere definito per il progetto. Due sequenze che sembrano ridondanti non possono essere per scopi filogenetici se sono da taxa ampiamente divergenti o sono quasi identici in sequenza, ma hanno differenti proprietà strutturali o funzionali. Se c'è ambiguità per quanto riguarda cui sequenze devono essere incluse, allineamenti multipli possono essere generati e analizzati separatamente per vedere come allineamento cambia inferenze filogenetiche di impatto. Il metodo presentato qui non elimina la necessità per la regolazione manuale degli allineamenti, ma può aiutare a chiarire come le sequenze devono essere allineati e potrebbero essere utilizzate in combinazione con una tecnica più sofisticata di codici a barre che è stato descritto in precedenza13.

Per il riferimento di essere utili, è importante identificare caratteristiche distintive che non sono attualmente evidenti dalla sequenza da solo. Si consideri ad esempio l'impossibilità di confrontare cisteina incollaggio modelli tra sequenze con diversi numeri di cisteine quando ogni sequenza è numerata rispetto a sé. L'obiettivo è quello di facilitare il confronto e la discussione, non per aggiungere un ulteriore livello di confusione. Questo può comportare diverse iterazioni del riferimento e sentenza chiama nel decidere quali caratteristiche includere. Si spera che l'adozione di un metodo comune di sequenze divergenti in un gruppo di discussione aumenterà la comprensione del gruppo nel suo complesso.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

L'autore non ha nulla di divulgare.

Acknowledgments

Ricerca in corso tardigrade peptide antimicrobico è supportato da finanziamenti intramurale dalla Midwestern University Office of Research e sponsorizzato programmi (ORSP). Il ORSP non aveva alcun ruolo nel disegno dello studio, raccolta dati, analisi, interpretazione o preparazione del manoscritto.

Materials

Name Company Catalog Number Comments
BLAST webpage https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite) DNASTAR https://www.dnastar.com/t-allproducts.aspx
Excel 2013 Microsoft
FigTree  http://tree.bio.ed.ac.uk/software/figtree/
MEGA www.megasoftware.net
MrBayes http://mrbayes.sourceforge.net/
SCOP database http://scop.mrc-lmb.cam.ac.uk/scop/

DOWNLOAD MATERIALS LIST

References

  1. Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
  2. Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
  3. Dimarcq, J. -L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
  4. Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
  5. Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
  6. Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
  7. Bonmatin, J. -M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
  8. Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
  9. Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
  10. Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, (Database issue) 376-381 (2015).
  11. Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, (Database issue) 404-409 (2016).
  12. Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
  13. Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
  14. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
  15. Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
  16. Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
  17. Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
  18. Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
  19. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
  20. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  21. Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
  22. Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
  23. Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Tags

Comportamento problema 126 superfamiglia di proteine nomenclatura di proteina classificazione di proteina allineamento di sequenza filogenesi defensine invertebrati marini superfamiglia CS-αβ
Creazione e applicazione di riferimento per facilitare la discussione e la classificazione delle proteine in un gruppo eterogeneo
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Tarr, D. E. K. Creating and Applying More

Tarr, D. E. K. Creating and Applying a Reference to Facilitate the Discussion and Classification of Proteins in a Diverse Group. J. Vis. Exp. (126), e56107, doi:10.3791/56107 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter