Kütle spektrometresi tabanlı proteomik analizleri roman proteinler açıklayacak OpenProt veritabanı kullanarak kanonik olmayan açık okuma çerçevesi tercüme

Genetics
 

Summary

OpenProt polycistronic manken ökaryotik genleri zorlar serbestçe erişilebilir bir veritabanıdır. Burada, bir protokol OpenProt veritabanları kullanımı için kütle spektrometresi veri kümeleri sorguya zaman mevcut. OpenProt kullanarak proteomik deneyler çözümleme için veritabanına roman ve önceden belirlenemeyen proteinler için izin verir.

Cite this Article

Copy Citation | Download Citations

Brunet, M. A., Roucou, X. Mass Spectrometry-Based Proteomics Analyses Using the OpenProt Database to Unveil Novel Proteins Translated from Non-Canonical Open Reading Frames. J. Vis. Exp. (146), e59589, doi:10.3791/59589 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Genom ek açıklama proteomik manzara anahatlarını çizer gibi bugünün proteomik araştırma için merkezi bir noktada bulunuyor. Geleneksel modelleri açık okuma çerçevesi (ORF) ek açıklama empoze iki rasgele ölçüt: minimum uzunluğu 100 kodon ve transkript başına tek bir ORF. Ancak, çalışmalar giderek artan sayıda rapor ifade iddia edilen kodlama üzerinden proteinlerin bölgeler, geçerli genom ek açıklamaları doğruluğunu zorlu. Protein bulundu bu romanı ya içinde kodlamayan RNA'ların, 5' veya 3' Çevrilmeyen bölgeler (UTRs) mRNA'ların veya bilinen kodlama dizisi (CD) alternatif ORF örtüşen kodlanmış. OpenProt ökaryotik genleri için polycistronic modeli uygulayan ilk transkript başına birden çok ORFs ek açıklama sağlayan bir veritabanıdır. OpenProt serbestçe erişilebilir ve protein sıralarının özel yüklemeler arasında 10 tür sunuyor. OpenProt kullanarak veritabanı proteomik deneyler için roman proteinler keşif sağlar ve ökaryotik gen polycistronic doğasını vurgular. (Tüm proteinler tahmin) OpenProt veritabanının boyutu önemli olduğunu ve hesap analizi için alınması. Ancak, uygun yanlış bulma oranı (FDR) ayarları veya sınırlı bir OpenProt veritabanı kullanımı ile kullanıcıları proteomik manzara daha gerçekçi bir görünümü elde edecek. Genel olarak, OpenProt proteomik keşifler teşvik edecek serbestçe kullanılabilir bir araçtır.

Introduction

Geçtiğimiz on yıl içinde kütle spektrometresi (MS-) dayalı proteomik ökaryotik hücreler1,2,3,4,5proteomes deşifre için altın teknik haline gelmiştir. Bu yöntem olanakları6,7,8kapsamını özetliyor bir referans protein sıra veritabanı oluşturmak için geçerli genom ek açıklamaları dayanır. Ancak, genom ek açıklamaları 100 kodon ve transkript9,10başına tek bir ORF uzunluk alt sınırı gibi ORF ek açıklama için rasgele ölçüt tutun. Çalışmalar giderek artan sayıda geçerli ek açıklama modeli meydan ve ökaryot genomlarında8,11,12,13unannotated fonksiyonel ORFs keşifler rapor, 14. Bu roman proteinler kodlanmış iddia edilen kodlamayan RNA'ların bulunur, içinde 5' veya 3' bölgeler (UTR) mRNA'ların veya kurallı kodlama dizisi (kendilerini) alternatif bir çerçevede örtüşen çevrilmemiş. Bu keşifler çoğunu serendipitous olmasına rağmen onlar geçerli genom ek açıklamaları uyarılar ve ökaryotik gen8polycistronic niteliği göstermektedir.

Burada, biz OpenProt veritabanlarının kullanımını MS tabanlı proteomik için vurgulayın. OpenProt polycistronic ek açıklama manken ökaryotik transcriptomes için tutmak için ilk veritabanıdır. Www.openprot.org15, serbestçe kullanılabilir. Bunlar bir kısmı OpenProt güven artırmak için deneysel ve fonksiyonel delil cumulates bu yüzden ORFs rasgele ve işlevsel olmayan, olacağını öngördü. Deneysel kanıt protein ifade (MS tarafından) ve çeviri (tarafından ribozom profil oluşturma) kanıt15içerir. Fonksiyonel kanıt (ile bir inç-Paranoid yaklaşım gibi) protein orthology ve işlevsel etki alanı tahmin15içerir.

OpenProt sadece iyi desteklenen proteinler ısmarlama veritabanlarına içeren birkaç veritabanı, indirmek için imkanı sunuyor. Burada, OpenProt veritabanları kullanımı için bir boru hattı sunacak ve deneysel amacı dikkate seçmek için hangi veritabanı anlayışlar sunacak. Burada sunulan proteomik analiz boru hattı açık erişim ve kullanımı kolay, ancak veritabanlarının herhangi bir iş akışı16,17,18ile çalışabilirsiniz Galaxy framework tarafından desteklenir. Biz de MS. Using OpenProt veritabanları tarafından algılanan yeni proteinler üzerinde daha fazla bilgi toplama proteomik manzara daha ayrıntılı bir görünümünü sağlar ve proteomik ve biyolojik keşifler teşvik edecek için OpenProt Web sitesini kullanmayı sunacak Geçerli yöntemlerine göre daha sistemli bir şekilde.

Bu iletişim kuralı OpenProt veritabanları15 kullanımı ne zaman MS veri kümeleri sorguya vurgular; Bu tasarımı gözden değil deneme kendisi, iyice olmuştur başka bir yerde20,21,22inceledim. Bir çaba tamamen açık kaynak kalmasını, serbestçe kullanılabilir (Ek malzeme S1-S4) protokolüdür. Daha kolay okunması için Tablo 1' de OpenProt ve bu vesile ile bu iletişim kuralı boyunca kullanılan tüm terimler tanımlanır.

Protocol

1. OpenProt veritabanı indir

Not: RNA-seq verilerini temel alan özel veritabanları örneğin da elde edilebilir ve yordamı bu protokolü ikinci bölümünde ayrıntılı. Özel bir veritabanı gerekiyorsa, lütfen sonraki bölüme geçin.

  1. OpenProt Web sitesine gidin: www.openprot.org ve açık üst sayfa menüsünden bağlantı'yı kullanarak indirme sayfası.
  2. Analiz deneysel verilere göre faiz türü üzerinde tıklatın.
  3. İstenen protein türünü tıklatın.
    Not: OpenProt üç sınıflandırmadan sunar: RefProt, izoformlarının ve AltProt. Şekil 1' de gösterildiği gibi bu parametre araştırma amaç göre değişir.
    1. Sadece bilinen proteinler içeren dosyaları oluşturmak için RefProt yalnız üzerinde'yi tıklatın.
    2. Sadece roman proteinler - roman her iki izoformlarının bilinen protein (izoformlarının) içeren veya alternatif ORF (AltProts) tarafından kodlanmış dosyaları oluşturmak için AltProt ve izoformlarının tıklayın. Unutmayın ki OpenProt 30 kodon15ORF uzunluk alt sınırı zorlar.
    3. Tum OpenProt - bilinen ve yeni proteinlerin veritabanında protein içeren dosyaları oluşturmak için AltProts, izoformlarının ve RefProts tıklayın.
  4. Varsa, hangi protein sequences çizilir ek açıklamayı tıklatın.
    Not: Birden fazla ek açıklamaları birleştirerek daha ayrıntılı bir proteomik manzara OpenProt sunar. Transcriptome ek açıklamaları en az bir örtüşme var; Böylece, seçilen eklenti görüntülenmeyecektir proteomik profil15,23önemli ölçüde etkiler.
  5. Kanıt için protein dikkate gerekli destek düzeyini tıklatın. Şekil 1' de gösterildiği gibi bu parametre araştırma amaç göre değişir.
    1. Sadece kendine en çok güvenen protein içeren dosyaları oluşturmak için en az iki benzersiz peptidler tespit üzerinde'yi tıklatın.
      Not: İki benzersiz peptidler kriteri şu anda proteomik protein ifade için bir altın standart olarak kabul edilir. Deneysel amacı bilinen ve iyi desteklenen proteinleri tespit etmek için ise, bu parametrenin kullanımı tavsiye edilir.
    2. Zaten en az bir kez OpenProt tarafından yeniden analiz kütle spektrometresi deneyler arasında görülmüştür protein içeren dosyaları oluşturmak için en az bir benzersiz peptidler tespit tıklayın.
      Not: Bu AltProts ve bazıları sadece bir benzersiz tryptic peptid8,11içerebilir olasılığın daha kısa uzunluğu değerlendirilmesi için sağlar.
    3. Tüm OpenProt Öngörüler içeren dosyaları oluşturmak için tüm tahmin seçeneğini tıklatın.
      Not: Bu ayar yalnızca önerilir deneysel amacı roman proteinler (şekil 1) keşfetmek için ise. 7,15anlatıldığı gibi bir adapte analiz boru hattı arama alanı aramalarda sonraki önemli artış.
  6. İndirmek için istediğiniz dosya biçimini tıklatın. Proteomik analizleri için Fasta (protein) dosyası seçin. Benioku dosyası dosyası biçimi hakkında gerekli tüm bilgileri içerir.

2. özel OpenProt veritabanı indir

Not: Bu bölümde özel bir veritabanı elde etmek nasıl ayrıntılı. Özel veritabanı gerekli değilse, sonraki bölüme geçin.

  1. OpenProt (www.openprot.org) Web sitesine gidin ve üst sayfa menüsünden bağlantı'yı kullanarak arama sayfası.
  2. Analiz deneysel verilere göre faiz türü üzerinde tıklatın.
  3. Genler veya faiz transkript listesini girin.
    1. Genler listesi kullanırken, Gene sorgu kutusuna girin.
    2. Transkript listesi kullanırken, transkript sorgu kutusuna girin.
  4. İstenilen veritabanına uygulanan herhangi bir kutusunu işaretleyin.
    1. Her türlü OpenProt tarafından desteklenen protein içeren bir tablo almak için herhangi bir kutuyu tıklatmayın: RefProt, izoformlarının ve AltProts.
    2. En az bir kez MS tarafından algılanan proteinleri (RefProts, izoformlarının ve AltProts) her türlü içeren bir tablo almak için sadece proteinler ile deneysel kanıt göster ' i tıklatın ve/veya hangi çeviri için ribozom kanıt toplanan veri profil oluşturma.
    3. Benzer şekilde, yalnızca MS tarafından algılanan proteinler Show veya en az bir kez, MS tarafından veya sırasıyla profil oluşturma ribozom tarafından tespit edilmiştir proteinler her türlü içeren bir tablo almak için sadece proteinler ribozomların profil oluşturma tarafından algılanan göster ' i tıklatın.
    4. Sadece AltProts Show veya yalnızca AltProts veya sadece izoformlarının sırasıyla içeren bir tablo almak için sadece izoformlarının göster ' i tıklatın.
    5. Hem sadece AltProts göstermek ve sadece izoformlarının göstermek her iki tür protein içeren bir tablo almak için tıklayın.
      Not: Tüm filtre birleşimlerini mümkündür.
  5. Tüm istenen parametreleri ayarladığınızda, üzerinde ara'yı tıklatın. Tablo çıkış arama sorgu alanları görünür.
  6. Sağ üst köşedeki çıkış tablosunun Fasta indir düğmesini tıklayın. Bu genler veya transkript sorgulanan listesinden kaynaklanan tüm protein içeren bir Fasta dosyası oluşturur.
  7. Unutmayın ki Hesaplamalı nedenlerden dolayı en fazla 2.000 öğeler olmak OpenProt tutan sorgulanan (genleri veya transkript) bir anda. Bu sınırı üzerinde bir liste halinde birkaç fasta oluşturulur ve sonra (aşağıda ayrıntılı) olarak birleştirilmiş; ya da sadece tüm OpenProt veritabanını yükleyin ve elde edilen dosyayı istediğiniz gibi filtreleyin.
    1. İçine alt listeleri 2.000 girişleri veya daha az kül liste-in genleri veya transkript BIN. Alt her liste için Fasta dosyayı (yukarıdaki adım 3,3 3,6) açıklandığı gibi yükleyin.
    2. Avrupa Galaxy örnek (veya burada proteomik araçları kullanılabilir herhangi bir diğer örneği), https://usegalaxy.eu/ giriş yapın.
    3. Yeni bir tarih oluşturabilir ve tüm indirilen OpenProt veritabanları (alt listesini genleri veya transkript başına bir adet) ekranın sol üst yükleme logosuna tıklayarak alabilirsiniz.
    4. GalaxyP geliştiriciler (https://github.com/galaxyproteomics/) tarafından geliştirilen Fasta dosyaları birleştirme ve filtre benzersiz sıraların aracını kullanın. Tüm Fasta Birleştir seçeneği seçin ve içe aktarılan OpenProt veritabanları girdi.
      Not: Her aracı ekranın sol tarafında sorgu kutusunu kullanarak arama yapılabilir
    5. Sıra unicity değerlendirmek ve OpenProt tanımlayıcı ayrıştırma kuralı kopyalamak için katılım sadece seçeneği seçin (>(.*) \ |), üzerinde Execute' ı tıklatın.
    6. Tüm dosyaları benzersiz bir Fasta dosyaya ile ekranın sağ tarafındaki Geçmiş paneli görünür hiçbir fazlalık birleştirilmiş olduğunu unutmayın. Bu çalışma veritabanı oluşturur.

3. veritabanı işleme

Not: Şu andan itibaren Galaxy platform kullanılan, ancak aynı ilkeleri proteomik yazılımlara uygulanabilir.

  1. Avrupa Galaxy örnek (veya burada proteomik araçları kullanılabilir herhangi bir diğer örneği), https://usegalaxy.eu/ giriş yapın.
  2. Ekranın sol üst yükleme logosuna tıklayarak indirilen OpenProt veritabanını almak ve yeni bir tarih oluşturmak.
  3. İş akışı sayfasına gidin ve veritabanı işleme iş akışı (Ek malzeme S1) orta panelinin sol üstünde upload logosuna tıklayarak alabilirsiniz.
  4. İş akışı Çalıştır ' ı tıklatın ve giriş olarak alınan OpenProt veritabanını seçin.
    Not: Bu iş akışı CRAPome depo OpenProt fasta ekleyin ve yem dizileri (ters dizileri)24oluşturmak. Yem listeyi karıştır isteniyorsa, bu parametre üstünde belgili tanımlık DecoyDatabase alet değiştirerek yapılabilir.
  5. Elde edilen Fasta dosya için anlamlı bir ad. Veritabanı proteomik analizleri için kullanılmak üzere hazırdır.

4. kütle spektrometresi dosya hazırlama

Not: Galaxy örnekleri üzerinde kullanılabilir proteomik araçlarının çoğu mzML biçimini kullanan ve peptid arama motorları centroid modunda verileri tercih ederim.

  1. ProteoWizard paketinden serbestçe kullanılabilir MSConvert aracını açın ve analiz25için veri dosyasını karşıya yükle.
  2. Dizin için çıkış ve mzML için istediğiniz dosya biçimini seçin.
  3. Dalgacık tabanlı algoritması (CWT) MS1 ve MS2 düzeyde kullanarak filtre seçmek bir tepe ayarlayın ve dönüşüm26başlatın.

5. peptid ve protein tanımlama/miktar

Not: Bu bölümü boru hattının OpenMS Suite, çok yönlü ve kolay kullanımlı bir çerçeve18araçlarını kullanır.

  1. Avrupa Galaxy örnek (veya burada proteomik araçları kullanılabilir herhangi bir diğer örneği), https://usegalaxy.eu/ giriş yapın.
  2. Yeni bir tarih oluşturmak ve sürükle ve bırak ile bu yeni tarih için önceden oluşturulmuş veritabanı (Adım 3.5) aktarın.
  3. Dönüştürülmüş mzML veri dosyasını (Adım 4,3) ekranın sol üst Upload logosuna tıklayarak almak.
  4. İş akışı sayfasına gidin ve istediğiniz iş akışı orta panelinin sol üstünde upload logosuna tıklayarak alabilirsiniz.
    Not: MS deneyler farklı temel alınarak istenen son çıktı tasarlanmıştır. İş akışları için iki sık tasarımlar burada sağlanan: protein tanımlama ve protein miktar dayalı (SIL) etiketleme kararlı izotop. Ancak, Galaxy örnek proteomik analizleri27,28diğer türlerini destekleyen birçok araç içerir.
    1. Protein kimlik tasarımı için Ek malzeme S2içinde sağlanan iş akışı al. Bu iş akışı, kullanırken lütfen dosyalarınızı (Adım 4.2) dönüştürme sırasında zlip sıkıştırma kullanma
    2. Kararlı izotop etiketleme tasarımı üzerinde temel alan bir protein miktar için Ek malzeme S3içinde sağlanan iş akışı al.
  5. İş akışı Çalıştır ' ı seçin ve farklı parametreleri gözden geçirin.
    1. Giriş ve önceden oluşturulmuş veritabanı (Adım 3.5) veritabanı Fasta dosyası olarak içe aktarılan mzML veri dosyası seçin.
    2. İş akışı X kullandığından! Tandem arama motoru, X ithalat! Ekranın sol üst yükleme logosuna tıklayarak tandem varsayılan yapılandırma dosyası ( Ek malzeme S4içinde sağlanan)29 .
    3. İş akışı kullanan birden çok arama motorları (MS-GF + ve X! Tandem). Diğer arama motorları ekleme veya ekleme veya kaldırma araçları iş akışı30,31tarafından sadece bir tanesini seçin.
      Not: duyarlılık ve duyarlılık analizi32arttıkça birden çok arama motorları kullanılması önerilir.
    4. Tüm OpenProt veritabanını kullanırken boyutu önemli artış hesaba için sıkı bir FDR15kullanın. Varsayılan olarak, sağlanan iş akışı % 0.001 için ayarlanır FDR, tüm OpenProt veritabanını kullanmak için yeterli. Diğer veritabanları için bu istediğiniz herhangi bir değeri düzenlenebilir.
      Not: kullanılan Kütle Spektrometre bağlı olarak farklı araçları ve deneysel protokol (öncü iyon ve parçası hata, sabit ve değişken değişiklikler, kullanılan enzim, vb) parametrelerini adapte emin olun.
  6. İsteğe bağlı olarak, çıktı depolama veya kalite kontrol analizi için iş akışının her adımı için seçilen adım geçmiş panelinden tıklattıktan sonra altında görünür kaydetmek logosuna tıklayarak indirin.

6. kalite kontrol

Not: MS tabanlı proteomik nerede her adım tekrarlanabilir sonuçlar üretmek için optimize edilmiş olması gereken karmaşık bir işlem sonucu olduğundan, iş akışı33gerekli bir yordamda kalite kontrol var.

  1. Çeşitli ölçümler peptid spektrumlu maçlar (PSM), tanımlanan peptidler ve proteinler sayısı sayısı gibi performans ortak kriter vardır. Bu ölçümler sağlamak için ( Şekil 2yeşille gösterildiği) IDFilter çıktıyı Dosya bilgileri aracını çalıştırın.
  2. Özellikle büyük veri ile her kimlik için geçerli değildir, ancak raporları roman proteinlerin her zaman dikkatle değerlendirilmelidir. Protein puanı, sıra kapsama ve bulgu destekleyen spectra hayati önem taşımaktadır. Bunun için OpenMS framework TOPPview aracını kullanın; serbestçe kullanılabilir ve iyi belgelenmiş18,34,35.

7. OpenProt veritabanı madencilik

Not: OpenProt (IP_ ile AltProts ve II_ için için roman izoformlarının başlayan katılım numaralar) tarafından tahmin bir roman protein kendine güvenen bir tanımlaması yapıldıktan sonra daha fazla biyolojik bilgi OpenProt Web sitesi15elde edilebilir.

  1. OpenProt Web sitesine gidin: www.openprot.org ve açık belgili tanımlık bağlantı üst sayfa menüsünü kullanarak arama sayfası.
  2. Faiz (aynı aynı derecede belgili tanımlık bir içinde protein tespit edilmiştir) türü üzerinde tıklatın ve Protein sorgu kutusuna protein katılım sayı girin.
  3. Arama tıklayın ve sorgulanan protein üzerinde temel bilgileri içeren bir tablo görüntülenir. Tablo Özellikleri: protein uzunluğunu (amino asit), Moleküler ağırlığı (kDa) ve isoelectric noktası, MS veya ribozom profil oluşturma (çeviri kanıt, TE) ve fonksiyonel tahminlerin deneysel kanıt gibi destekleyici etki alanları ve protein tahmin orthology (OpenProt tarafından desteklenen 10 türlerin karşıdan karşıya v1.3). Tablo Ayrıca ilgili gen ve transkript ve yerelleştirme transkript içinde protein hakkında bilgi içerir.
  4. Daha fazla bilgi toplamak için Ayrıntılar bağlantısını tıklatın. Yeni açılan sayfa sorgulanan protein ve genomik ve transcriptomic koordinatları ve bir Kozak ya da yüksek verimli çeviri başlatma sitesi (TIS) motifi36varlığı gibi bilgileri merkezli bir genom tarayıcı içerir, 37.
  5. Protein veya DNA üzerinde protein veya DNA dizileri sırasıyla elde etmek için bilgi sekmesindeki bağlantılar'ı tıklatın.
  6. MS deliller, tespiti, korunması ve saptanan protein etki alanları15üst sekmeleri tıklatarak profil oluşturma ribozom ilgili ayrıntılı bilgileri bulun.

Representative Results

Yukarıda açıklanan iş akışı bir MS veri kümesi üzerinde gurur depo38,39kullanılabilir uygulandı. Özgün çalışma kararlı izotop amino asit hücre kültürü (SILAC) etiketleme kullanarak bir yöntem (iMixPro), geliştirilen, yanlış mutlak--dan benzeşme arıtma Bayan ortadan kaldırmak için (AP-MS)38deneyler. Kısacası, AP-MS deney faiz (yem) ve onun interactors (avlar) bir protein almak için boncuk bağlı antikorları kullanarak oluşur. Toplanan proteinler sonra sindirmek ve MS için hazırlanmış. Örnek hazırlama yöntemi ve enstrüman ayarlarını özgün çalışma ve gurur depo (PXD004246) açıklanmıştır. Özellikle boncuk ama değil yem için bağlayıcı proteinler üzerinden yanlış mutlak bolluk böyle deneylerde bir mücadeledir. Burada, biz SILAC farklı izotop oranları gerçek avlar ve yanlış pozitif durumlar arasında oluşturmak için kullanılan: ışık orta, hafif orta kültürlü yem ifade 1 örnek ve ağır ortamda kültürlü yem ifade 1 örnek kültürlü 3 kontrol örnekleri (yem) vardır boncuk ve daha fazla kütle spektrometresi analiz ile işlenir. Böyle tasarım ile non-spesifik proteinler boncuk için bağlayıcı bir ağır ışık oranı 1:4 olacak; Ne zaman gerçek dualarının 11:3838oranında olacak.

Yeniden OpenProt veritabanı kullanarak onların AP-MS verileri analiz; Yemler üç endojen proteinleri (PTPN14, JIP3 ve IQGAP1) dahil ve iki aşırı protein (RAF1 ve RNF41) ifade. Deneyler SILAC kullanılan bu yana, Galaxy iş akışı protein miktar için kullanılan (Ek malzeme S3, Şekil 2). İş akışı tüm OpenProt veritabanı (OpenProt_all) ya da sınırlı bir OpenProt veritabanı (OpenProt_2pep, daha önce en az iki benzersiz peptidler ile tespit proteinler de dahil olmak üzere) kullanarak çalıştırıldı.

Protein tanımlama ve miktar farklı kullanılan veritabanları arasında iyi ve tekrarlanabilir. Şekil 3' te gösterildiği gibi orijinal kağıt tespit çoğu proteinler de (ayrıntılı bir liste Ek malzeme S5kullanılabilir) OpenProt_2pep veya OpenProt_all veritabanı kullanarak tespit edilmiştir. Bu sonuç, burada açıklanan boru hattı ve veritabanları protein tanımlama ve miktar geçerli yordamlar üzerinde40UniProtKB veritabanları dayalı karşılaştırılabilir üretmek mümkün OpenProt gösterir. Ancak, OpenProt veritabanlarının kullanımını çalışma, roman ve önceden belirlenemeyen proteinler, bu durumda gösterildiği sağlayan benzersiz avantajı vardır.

11 iyi desteklenen proteinler (1 izoformu ve 10 AltProts), ama şu anda değil, ek açıklama eklenen veritabanları, kendine güvenen peptidler, OpenProt_2pep veritabanı (tüm protein katılımların, destekleyen numarasıyla birlikte kullanarak ile tüm veri kümeleri arasında tespit edilmiştir peptidler, Takıma giren malzeme S5kullanılabilir). Bu veritabanı sağlar geleneksel bir %1 FDR arama alanı artış olarak orta kalır. Yok onlar gibi 11 bu proteinler orijinal çalışmada tespit edilmiştir değil veritabanından.

29 roman proteinler (16 izoformlarının ve 13 AltProts) ile kendine güvenen peptidler, OpenProt_all veritabanı kullanarak tüm veri kümeleri arasında keşfedildi (numarasıyla birlikte tüm protein katılımların peptidler destekleme, are elde edilebilir içinde takıma giren malzeme S6 ). Saptanan proteinler toplam sayısını azaltmak, ancak önerilen sıkı FDR şekil 3' te gösterildiği gibi kendine en çok güvenen protein kimliklerinin etkilemedi. Nispeten OpenProt_2pep veritabanı için daha yüksek bir sayı roman proteinlerin güvenle tespit edilebilir. Tüm bu roman proteinler yok OpenProt_2pep veritabanından. Seçilen veritabanı için MS tabanlı proteomik çok önemli rolü vurgulamaktadır.

Bir roman protein RAF1 protein (IP_637643) bir etkileşen keşfedilmiştir. OpenProt Web sitesini kullanarak, bir bu proteinin değil tespit edilmiştir MS ne de ribozom şimdiye kadar profil oluşturma tarafından görebilirsiniz (OpenProt v1.3). Protein 46 amino asit uzunluğunda ve sadece tryptic sindirim üzerine iki benzersiz peptidler verebilirsiniz. Tespit peptid RAF1 AP-MS içinde veri kümesi (kesir 18), şekil 4' te gösterildiği gibi kaliteli spektrum vardı ve 1,09 ağır ışık oranında görüntülenir. Protein NANOGNBpseudogene olan NANOGNBP1 gen içinde kodlanır. Şu anda kodlamayan olarak, açıklamalı transkript (ENST00000448444), GTEx portal40göre çeşitli dokular arasında tespit edildi. Protein DNA bağlama (gen Ontoloji GO: 0003677)41ile ilişkili bir tahmin işlev etki alanı içerir.

Figure 1
Resim 1 : Veritabanı proteomik analizleri grafik için seçim. Analizleri MS verilerin, özellikle veritabanı seçim, araştırma hedefler üzerinde bağlıdır. Üç ortak hedef mavi (Klasik proteomik boru hattı), yeşil (ayrıntılı proteomik arama) ve turuncu (Proteomik keşif) özetlenmiştir. Her amaç bir uygun veritabanı ve boru hattı bağlıdır. Bir tek tanımlama aracı bir ayrıntılı ve klasik proteomik için kullanılabilir boru hatları. Proteomik keşif boru hattı için birden çok kimlik motorlarını kullanarak önerilir. Önerilen FDRs kırmızı ile gösterilen ve protein veritabanı boyutu gri kutularında gösterilir. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 2
Resim 2 : Kullanılan Galaxy iş akışı grafik olarak gösterilmesi. Re-analiz Eyckerman ve ark. veri38için kullanılan proteomik analiz iş akışı adım adım gösterimi. Giriş dosyaları, peptid arama ve protein miktar portakal kutuları ile gösterilen. Mavi kutu kullanılan araçlar için karşılık gelen ve gri kutular oluşturulan çıktı dosyalarına karşılık gelen. Farklı arama motorları (MS-GF + ve X! Tandem) farklı renkler (sırasıyla kırmızı ve mor) yanı sıra onların gerekli girişleri ve çıkışları gösteren oklar gösterilir. Yeşil kutu protein kimliklerinin bir listesini oluşturma araçlarına vurgulamaktadır. Birden çok çıkış oluşturulduğunda, bir aşağı akım adımlar için kullanılan en yakın belirtilir okun. Bu iş akışı Ek malzeme S2içinde serbestçe kullanılabilir. X! Tandem varsayılan parametrelerini yapılandırma dosyası Ek malzeme S4içinde kullanılabilir. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 3
Şekil 3 : İnteractor kimlik farklı veritabanları kullanarak yem başına karşılaştırılması. Kendine en çok güvenen OpenProt kullanarak protein tanımlamaları, Venn diyagramları veritabanı (en az 2 benzersiz peptidler, OpenProt_2pep kanıtı destek turuncu,) % 1'ile FDR veya tüm OpenProt veritabanında (mavi, OpenProt_all) ile % 0.001 FDR, veya rapor olarak Özgün gazetede (gri)38. Her diyagram karşılık gelen belirtilen yem için tanımlanan interactors: RAF1, RNF41, PTPN14, JIP3 ve IQGAP1. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 4
Şekil 4 : MS/MS spektrum tanımlanan MDNLWAK(13C 6) roman protein IP_637643 peptid. Yoğunluk (0-%100) görecelidir. Seçili tepeler yeşil koyu kırmızı ve b iyonları açıklamaları y iyonları ek açıklamalar bulunmaktadır kırmızıyla gösterilir. TOPPview yazılım34ayıklanır. Öncü hata = 2.70 ppm, PEP puanı 0.12 =. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Dönem Tanımı Başvuru
Alternatif ORF (AltORF) kanonik olmayan ORF, ama şu anda değil genom ek açıklamalar, açıklamalı OpenProt içinde açıklamalı. 15
Başvuru ORF (RefORF) kurallı ORF genom ek açıklamaları ve OpenProt açıklamalı. 15
Alternatif protein (AltProt) roman protein bir RefProt ile önemli hiçbir benzerlik ile bir AltORF tarafından kodlanmış. Katılım önek: IP_. 15
Referans protein (RefProt) Şu anda UniProtKB, Ensembl veya NCBI RefSeq gibi protein sıra veritabanlarını ve aynı zamanda OpenProt açıklamalı protein. 15
Roman izoformu roman protein bir RefProt ile önemli bir benzerlik ile bir AltORF tarafından kodlanmış. Katılım önek: II_. 15
OpenProt_2pep veritabanı Tüm RefProts ve roman proteinler OpenProt, zaten en az 2 benzersiz peptidler ile tespit tarafından tahmin dizisini içerir. 15
OpenProt_1pep veritabanı Tüm RefProts ve roman proteinler OpenProt, zaten en az 1 benzersiz peptid ile tespit tarafından tahmin dizisini içerir. 15
OpenProt_all veritabanı Tüm RefProts ve OpenProt tarafından öngörülen yeni proteinler dizisini içerir. 15

Tablo 1: Tanımı OpenProt ve protokol boyunca kullanılan terimler

Takıma giren malzeme S1: Galaxy iş akışı veritabanı işleme için. Bu CRAPome ve yem diziler (giriş veritabanına ters) ekler. Çıkış Fasta dosyasıdır. İndirmek için buraya tıklayınız.

Takıma giren malzeme S2: Galaxy iş akışı protein tanımlama için. Bu iki arama motorlarını kullanarak bir kütle spektrometresi veri dosyasından proteinler belirleyecektir (MS-GF + ve X! Tandem). Her parametre ayarlanan iş akışı çalıştırmadan önce istediğiniz gibi. İndirmek için buraya tıklayınız.

Takıma giren malzeme S3: Galaxy iş akışı kararlı izotop (SIL) etiketleme kullanarak protein miktar için. Bu tanımlamak ve proteinler kütle spektrometresi veri dosyasından iki arama motorlarını kullanarak ölçmek (MS-GF + ve X! Tandem). Her parametre ayarlanan iş akışı çalıştırmadan önce istediğiniz gibi. İndirmek için buraya tıklayınız.

Takıma giren malzeme S4: X! Tandem varsayılan parametrelerini yapılandırma dosyası. Bu XML dosyasıdır X çalıştırmak için gerekli! Galaxy platformda TandemAdapter aracı. İndirmek için buraya tıklayınız.

Takıma giren malzeme S5: proteinler iMixPro veri kümesinden gelen sayılabilir. Veri dosyaları Eyckerman vd. 201638 OpenProt veritabanlarını kullanarak işlendi ve quantified proteinler her koşul için listelenir. Yemler PTPN14, JIP3, IQGAP1, RAF1 ve RNF41 vardır. Yeşille gösterilen Gene adları aynı zamanda orijinal kağıt38içinde tespit proteinler karşılık gelir. Gene adları turuncu renkte gösterilen özgün gazetede rapor değil bilinen interactors BioGrid göre karşılık gelir. Açık mavi belirtilen Gene adları roman proteinler (karşılık gelen protein katılım sayısı parantez içinde gösterilir) interactors olarak tanımlanan karşılık gelir. Gene adları ışık gri renkle gösterilir ve olası kirletici (keratin protein) İtalik karşılık gelir. İndirmek için buraya tıklayınız.

Takıma giren malzeme S6: roman proteinler iMixPro veri kümesinden gelen teşhis. Veri dosyaları Eyckerman vd. 201638 OpenProt veritabanlarını kullanarak işlendi ve yeni saptanan proteinler her koşul için listelenir. Yemler PTPN14, JIP3, IQGAP1, RAF1 ve RNF41 vardır. Roman izoformlarının bilinen bir protein için II_ ve IP_ bir alternatif ORF (AltProt) üzerinden yeni proteinler için başlayan protein katılım numaraları listelenir. Numarayı peptidler destekleme parantez içinde gösterilir. İndirmek için buraya tıklayınız.

Discussion

Kütle Spektrometreleri verilerini analiz ederken, protein kimlik kalitesini kullanılan veritabanını6,20doğruluğunu kısmen dayanır. Güncel yaklaşımlar, geleneksel olarak UniProtKB veritabanları kullanmak, henüz bunlar transkript başına tek bir ORF genom ek açıklama modeli ve en az uzunluğunu 100 kodon (dışında daha önce gösterdiği örnek)40destekler. İddia edilen kodlamayan üzerinden birden fazla çalışmalar bu tür veritabanları eksiklikleri fonksiyonel ORFs keşfi ile ilgili bölgeler8,11,12,13. Şimdi, OpenProt birden çok transcriptome ek açıklamaları protein sequences çizer gibi daha ayrıntılı protein tanımlama sağlar. OpenProt alır NCBI RefSeq (GRCh38.p7) ve Ensembl (GRCh38.83) transcriptomes ve UniProtKB ek açıklamaları (UniProtKB-SwissProt, 2017-09-27)40,42,43. Küçük örtüşme geçerli ek açıklamalar sunmak, OpenProt böylece bir ek açıklama15için sınırlı zaman daha potansiyel proteomik manzara daha ayrıntılı görünümünü görüntüler.

Ayrıca, OpenProt bir polycistronic modeli zorlar olarak, transkript başına birden fazla protein ek açıklamaları için sağlar. İstatistik ve bilgisayar nedenlerden dolayı OpenProt hala 30 kodon15uzunluk alt sınırı eşiğinde tutar. Henüz, roman protein dizileri, böylece genişletme olanakları kapsam protein tanımlama için binlerce öngörür. Bu yaklaşım ile OpenProt proteomik keşifler daha sistematik bir şekilde destekler.

Protein kimlik kalitesini de kullanılan parametreleri tarafından etkilenebilir. MS tabanlı proteomik analizler genellikle % 1'i protein FDR tutarlar. Ancak, tüm OpenProt veritabanı yaklaşık 6 kat daha fazla girişleri (şekil 1) içerir. Arama alanı bu önemli artış hesaba katan % 0.001 daha sıkı bir FDR kullanmanızı öneririz. Bu parametre kıyaslama çalışmaları ve rasgele seçilen spectra15el ile değerlendirilmesi kullanarak optimize edildi. Yanlış pozitif hala bir olasılık vardır ve ayrıntılı muayene ve destekleyici kanıt roman bir protein için doğrulama öneririz. Arka plan verileri ve yanlış pozitif veri kümeleri15arasında değişir gibi önerilen standart iki farklı MS çalışması, bir protein kimliği olabilir.

Burada sağlanan ve vaka çalışması için kullanılan boru hattı parametreleri ve deneysel tasarım uyacak şekilde memnun değiştirilebilir. Duyarlılık ve peptid kimlik32duyarlılığını arttıkça birden çok arama motorları kullanarak öneriyoruz. Ayrıca, biz en iyi deneysel amacı (şekil 1) karşılık gelen veritabanı kullanarak öneririz. Veritabanı ile sıkı bir FDR gelen tüm OpenProt kullanarak olarak, gerçek kimlikleri kaybolabilir. Böylece, klasik proteomik profil oluşturma (örneğin OpenProt_2pep Yukarıdaki olgu çalışmada kullanılan) daha küçük OpenProt veritabanlarını kullanma iken tüm veritabanını yeni proteinler, keşfi için amaçlanan.

Çeşitli çalışmalarda çeviri başlatma diğer kodon44,45vurgulanmış, ancak OpenProt şu anda bir ATG kodonu ile başlayan diziler öngörür. Roman bir protein tarafından bir veya daha fazla benzersiz peptidler tanımlanınca, gerçek başlama kodonu tahmin ediliyor ATG değil mümkündür. Kullanıcılar çeviri kanıt OpenProt Web sitesinde arayabilirsiniz. Şu anda, tüm tahmin edilen protein dizi (% 100 örtüşme)15ilgiliyse OpenProt sadece çeviri olayları raporlar. Başlama kodonu iddia edilen ATG olmayabilir ama bu böylece, çeviri kanıt yokluğunda protein çevrilmiş değil, önemli değil.

Geçerli sınırlamaları rağmen OpenProt ökaryot genomlarında kodlama potansiyeli daha ayrıntılı bir görünümünü sunar. OpenProt veritabanları proteomik keşifler ve proteomik işlevleri ve etkileşimleri anlayışı geliştirmek. ATG çeviri kanıt başlangıç kodon ve roman proteinler tüm genom exome sıralama çalışmalar içine eklemek için bir boru hattı geliştirilmesi, gelecekteki gelişmeler OpenProt veritabanının diğer türlerin ek açıklama içerecektir.

Disclosures

Yazarlar hiçbir çatışma bildirin.

Acknowledgments

Biz Vivian Delcourt onun yardım, tartışmalar ve bu eser tavsiyeler için teşekkür ederiz. X.R. Fonds de Recherche du Québec Santé FRQS tarafından desteklenen Merkezi de Recherche du bir üyesidir Merkezi Hospitalier Universitaire de Sherbrooke. Bu araştırma X.R. ve CIHR grant paspas-137056 Kanada araştırma sandalyede fonksiyonel proteomik ve keşif roman proteinler tarafından desteklenmiştir. Biz takım Calcul Québec ve Compute Kanada süper mp2 Université de Sherbrooke üzerinden kullanımı ile destek için teşekkür ederiz. Mp2 süper bilgisayar işletimi Kanada Vakfı, yenilik (CFI tarafından), le ministère finanse edilen de l'Économie, de la science et de l'innovation du Québec (MESI) ve les Fonds de Recherche du Québec - doğa et teknolojileri (FRQ-NT). Bazı proteomik hesaplamalar için kullanılan Galaxy sunucu kısmen ortak araştırma merkezi 992 tıbbi epigenetik (DFG grant SFB 992/1 2012) ve Alman Federal Bakanlığı Eğitim ve araştırma tarafından finanse edilmektedir (BMBF verir 031 A538A/A538C RBC, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. MERDİVEN (de. NBI)).

Materials

Name Company Catalog Number Comments
OpenProt website open source n/a www.openprot.org
Galaxy Server open source n/a https://usegalaxy.eu/
TOPPview software open source n/a www.openms.de

DOWNLOAD MATERIALS LIST

References

  1. Kim, M. S., et al. A draft map of the human proteome. Nature. 509, (7502), 575-581 (2014).
  2. Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509, (7502), 582-587 (2014).
  3. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, (3), 712-723 (2015).
  4. Huttlin, E. L., et al. The BioPlex Network: A Systematic Exploration of the Human Interactome. Cell. 162, (2), 425-440 (2015).
  5. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, (7655), 505-509 (2017).
  6. Kumar, D., Yadav, A. K., Dash, D. Choosing an Optimal Database for Protein Identification from Tandem Mass Spectrometry Data. Proteome Bioinformatics. 17-29 (2017).
  7. Jeong, K., Kim, S., Bandeira, N. False discovery rates in spectral identification. BMC Bioinformatics. 13, (Suppl 16), (2012).
  8. Brunet, M. A., Levesque, S. A., Hunting, D. J., Cohen, A. A., Roucou, X. Recognition of the polycistronic nature of human genes is critical to understanding the genotype-phenotype relationship. Genome Research. (2018).
  9. Brent, M. R. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Research. 15, (12), 1777-1786 (2005).
  10. Harrow, J., et al. GENCODE: The reference human genome annotation for The ENCODE Project. Genome Research. 22, (9), 1760-1774 (2012).
  11. Samandi, S., et al. Deep transcriptome annotation enables the discovery and functional characterization of cryptic small proteins. eLife. 6, e27860 (2017).
  12. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11, (12), 909-916 (2015).
  13. Delcourt, V., Staskevicius, A., Salzet, M., Fournier, I., Roucou, X. Small Proteins Encoded by Unannotated ORFs are Rising Stars of the Proteome, Confirming Shortcomings in Genome Annotations and Current Vision of an mRNA. Proteomics. (2017).
  14. Plaza, S., Menschaert, G., Payre, F. In Search of Lost Small Peptides. Annual Review of Cell and Developmental Biology. 33, (1), (2017).
  15. Brunet, M. A., et al. OpenProt: a more comprehensive guide to explore eukaryotic coding potential and proteomes. Nucleic Acids Research. (2018).
  16. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Research. 44, (W1), W3-W10 (2016).
  17. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Research. 46, W537-W544 (2018).
  18. Sturm, M., et al. OpenMS – An open-source software framework for mass spectrometry. BMC Bioinformatics. 9, (1), 163 (2008).
  19. Carithers, L. J., et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation and Biobanking. 13, (5), 311-319 (2015).
  20. Aebersold, R., Mann, M. Mass spectrometry-based proteomics. Nature. 422, (6928), 6928 (2003).
  21. Domon, B., Aebersold, R. Mass Spectrometry and Protein Analysis. Science. 312, (5771), 212-217 (2006).
  22. Hu, J., Coombes, K. R., Morris, J. S., Baggerly, K. A. The importance of experimental design in proteomic mass spectrometry experiments: Some cautionary tales. Briefings in Functional Genomics. 3, (4), 322-331 (2005).
  23. Wu, P. Y., Phan, J. H., Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 14, (11), S8 (2013).
  24. Mellacheruvu, D., et al. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods. 10, (8), 730-736 (2013).
  25. Adusumilli, R., Mallick, P. Data Conversion with ProteoWizard msConvert. Proteomics: Methods and Protocols. 339-368 (2017).
  26. French, W. R., et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert. Journal of Proteome Research. 14, (2), 1299-1307 (2015).
  27. Kuenzi, B. M., et al. APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data. Journal of Proteome Research. 15, (12), 4747-4754 (2016).
  28. Hoekman, B., Breitling, R., Suits, F., Bischoff, R., Horvatovich, P. msCompare: a framework for quantitative analysis of label-free LC-MS data for comparative candidate biomarker studies. Molecular & Cellular Proteomics: MCP. 11, (6), (2012).
  29. Bjornson, R. D., et al. X!!Tandem, an improved method for running X!tandem in parallel on collections of commodity computers. Journal of Proteome Research. 7, (1), 293-299 (2008).
  30. Kim, S., Pevzner, P. A. MS-GF+ makes progress towards a universal database search tool for proteomics. Nature Communications. 5, 5277 (2014).
  31. Vaudel, M., Barsnes, H., Berven, F. S., Sickmann, A., Martens, L. SearchGUI: An open-source graphical user interface for simultaneous OMSSA and X!Tandem searches. Proteomics. 11, (5), 996-999 (2011).
  32. Shteynberg, D., Nesvizhskii, A. I., Moritz, R. L., Deutsch, E. W. Combining results of multiple search engines in proteomics. Molecular & Cellular Proteomics: MCP. 12, (9), 2383-2393 (2013).
  33. Bittremieux, W., et al. Quality control in mass spectrometry-based proteomics. Mass Spectrometry Reviews. 37, (5), 697-711 (2018).
  34. Bertsch, A., Gröpl, C., Reinert, K., Kohlbacher, O. OpenMS and TOPP: Open Source Software for LC-MS Data Analysis. Data Mining in Proteomics: From Standards to Applications. 353-367 (2011).
  35. Pfeuffer, J., et al. OpenMS – A platform for reproducible analysis of mass spectrometry data. Journal of Biotechnology. 261, 142-148 (2017).
  36. Kozak, M. Pushing the limits of the scanning mechanism for initiation of translation. Gene. 299, (1-2), 1-34 (2002).
  37. Noderer, W. L., et al. Quantitative analysis of mammalian translation initiation sites by FACS-seq. Molecular Systems Biology. 10, 748 (2014).
  38. Eyckerman, S., et al. Intelligent Mixing of Proteomes for Elimination of False Positives in Affinity Purification-Mass Spectrometry. Journal of Proteome Research. 15, (10), 3929-3937 (2016).
  39. Vizcaíno, J. A., et al. 2016 update of the PRIDE database and its related tools. Nucleic Acids Research. 44, (D1), D447-D456 (2016).
  40. Bateman, A., et al. UniProt: the universal protein knowledgebase. Nucleic Acids Research. 45, (D1), D158-D169 (2017).
  41. The Gene Ontology Consortium Expansion of the Gene Ontology knowledgebase and resources. Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research. 45, (D1), D331-D338 (2017).
  42. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, D733-D745 (2016).
  43. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Research. 46, (D1), D754-D761 (2018).
  44. Andreev, D. E., et al. Translation of 5’ leaders is pervasive in genes resistant to eIF2 repression. eLife. 4, e03971 (2015).
  45. Jackson, R., et al. The translation of non-canonical open reading frames controls mucosal immunity. Nature. 564, 434-438 (2018).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics