Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Benzer şekilde etkili ikili sınıflandırma performansları ile birden fazla biyomarker alt kümeleri seçmek

Published: October 11, 2018 doi: 10.3791/57738

Summary

Varolan algoritmaları bir biyomarker algılama veri kümesi için bir çözüm oluşturur. Bu iletişim kuralı birden çok benzer şekilde etkin çözümler varlığını gösterir ve Biyomedikal araştırmacılar onların veri kümeleri için önerilen meydan okumak araştırmak için kullanımı kolay bir yazılım sunar. Bilgisayar mühendisleri, algılama algoritmaları onların biyomarker bu özelliği de sağlayabilir.

Abstract

Biyomarker algılama yüksek üretilen iş 'omics' araştırmacılar için biyomedikal daha önemli sorulardan biri ve hemen hemen tüm varolan biyomarker algılama algoritmaları belirli bir veri kümesi için en iyi duruma getirilmiş performans ölçümü ile bir biyomarker alt küme küme küme oluşturma . Ancak, yeni yapılan bir çalışmada birden çok biyomarker alt kümeleri bile aynı ya da benzer şekilde etkili sınıflandırma performansları ile varlığını gösterdi. Bu iletişim kuralı biyomarker alt kümeleri ile ikili sınıflandırma performansları, Kullanıcı tanımlı bir kesim iyi tespit için basit ve anlaşılır bir metodoloji sunar. Veri hazırlama ve yükleme, temel bilgileri özetleme, parametre ayarlama, biyomarker tarama, sonuç görselleştirme ve yorumu, biyomarker gen ek açıklamaları ve sonuç ve görselleştirme ihracat, protokol oluşur yayın kalitesi. Strateji eleme önerilen biyomarker sezgisel ve biyomarker algılama algoritmaları geliştirmek için genel bir kural gösterir. Bir Kullanıcı dostu grafik kullanıcı arabirimi (GUI) Python, biyomedikal araştırmacılar bunların sonuçları doğrudan erişmesini sağlayan programlama dilini kullanarak geliştirilmiştir. Kaynak kodu ve manuel kSolutionVis kullanımı-ebilmek var olmak downloaded--dan http://www.healthinformaticslab.org/supp/resources.php.

Introduction

İkili sınıflandırma, en yaygın olarak incelenmiş ve zorlu veri madenciliği Biyomedikal alanında sorunlar örneklerinin en doğru ayrımcılık güç1, iki gruplar eğitimli bir sınıflandırma modelini oluşturmak için kullanılır 2 , 3 , 4 , 5 , 6 , 7. Biyomedikal alanında oluşturulan büyük veri doğasında olan "büyük p küçük n" have paradigma, özellikler genellikle daha örnekleri6,8,9sayısından daha büyük sayıda. Bu nedenle, biyomedikal araştırmacılar overfitting sorun8,9önlemek için sınıflandırma algoritmaları kullanan önce özelliği boyut azaltmak zorunda. Tanı biyolojik tespit edilen özellikleri belirli bir hastalık hastaların sağlıklı kontrol örnekleri10,11ayıran bir alt olarak tanımlanır. Hastalar genellikle olumlu örnek olarak tanımlanır ve sağlıklı kontrol olumsuz örnekleri12olarak tanımlanır.

Son yıllarda yapılan çalışmalarda ile aynı veya benzer şekilde etkili sınıflandırma performansları Biyomedikal veri kümesi5için birden fazla çözüm var olduğunu ileri sürmüşlerdir. Hemen hemen tüm özellik seçimi algoritmalar aynı veri kümesi için tek bir çözüm üreten deterministik algoritmalar vardır. Genetik algoritmalar aynı anda birden çok çözümü benzer performanslar ile oluşturabilir, ama onlar hala bir çözüm en iyi fitness işleviyle bir belirli veri kümesi13,14için çıktı olarak seçmeye çalışın.

Özellik seçimi algoritmaları kabaca filtreleri veya sarmalayıcılar12olarak gruplandırılabilir. Üst -k özellikleri onların anlamlı bireysel ilişki özellikleri duymadığını ikili sınıf etiketlerle tarafından sıralanır her diğer15,16,17 bağımsız bir filtre algoritması seçilirse . Her ne kadar bu varsayım için hemen hemen tüm gerçek veri gerçek tutmaz, sezgisel filtre kuralı de çoğu zaman, örneğin, mehmet (en az artıklık ve en büyük alaka) algoritması, Wilcoxon testi temel özelliği (WRank) filtreleme gerçekleştirir algoritma ve ROC (alıcı çalışma özelliği) Arsa dayalı (ROCRank) filtreleme algoritması. Mehmet, çünkü bir verimli filtre algoritması her biri yalnızca iki değişken içerir, maksimum-bağımlılık özellik seçim algoritması karşılaştırarak daha küçük sorunları bir dizi Kombinatorik tahmini sorun yaklasik ve Bu nedenle daha sağlam18,19olan ikili ortak değerler kullanır. Ancak, mehmet alaka artırabilir ve böylece ayrı ayrı işe yaramıyor ama zaman sadece birlikte yararlı bazı özellik birleşimler özlüyor özellikleri arasındaki etkileşimler ölçmek değil gibi bazı özellikler kullanışlılığı hafife. WRank algoritma nasıl discriminative bir özellik örnekleri iki sınıf arasında ve onun sağlamlık outliers20,21için bilinen, parametrik olmayan bir puan hesaplar. Ayrıca, ne kadar önemli, belirli bir özellik alanı altında ROC eğrisi (AUC) için incelenen ikili sınıflandırma performans22,23' tür ROCRank algoritması değerlendirir.

Öte yandan, bir sarmalayıcı yinelemeli olarak sezgisel bir kural tarafından oluşturulan bir belirli özellik alt önceden tanımlı Sınıflandırıcısı'nın performansını değerlendirir ve en iyi performans ölçüm24ile özelliği alt küme küme küme oluşturur. Bir sarmalayıcı genellikle filtre sınıflandırma performans olarak daha iyi performans ancak daha yavaş25çalışır. Örneğin, bir alt kümesi olan özellik önem skorları Gini endeksi tarafından değerlendirilir her rasgele orman düğümdeki eğitim verileri özellikleri değerlendirerek açgözlü bir kural, düzenlenmesine yardımcı olmuştur rasgele orman (RRF)26,27 algoritmasını kullanır . Da bilgi kazanç bu seçilen özelliklerin düzelmezse yeni bir özellik seçimi cezalandırılır. Ayrıca, Microarrays (PAM)28,29 algoritması, ayrıca bir sarmalayıcı algoritması için tahmin analiz bir centroid her sınıf etiketleri için hesaplar ve sonra gene cisimlerin genel doğru daraltmak için özellikleri seçer sınıf centroid. PAM için dış özellikler sağlamdır.

Üst sınıflandırma performansı ile birden çok çözümü verilen herhangi bir veri kümesi için gerekli olabilir. İlk olarak, belirli bir algoritma en iyi duruma getirme amacı bir matematiksel formül, Örneğin, minimum hata oranı30, tarafından mutlaka biyolojik örnekler için ideal olan değil tanımlanır. İkinci olarak, bir veri kümesi birden fazla, önemli ölçüde farklı çözümler benzer etkili veya bile aynı performansları ile olabilir. Hemen hemen tüm varolan özellik seçimi algoritmaları Bu çözümlerden birini rasgele çıktı31seçecektir.

Bu çalışma için kullanılan herhangi bir verilen ikili sınıflandırma veri kümesi için benzer performansları ile birden çok özellik seçimi çözümleri üreten bir bilişim analitik Protokolü tanıtacak. En Biyomedikal araştırmacıları bilişim teknikleri veya bilgisayar kodlama aşina olmayan göz önüne alındığında, bir Kullanıcı dostu grafik kullanıcı arabirimi (GUI) Biyomedikal ikili sınıflandırma veri kümeleri hızlı analiz kolaylaştırmak için geliştirilmiştir. Analitik protokolü veri yükleme ve özetleme, parametre ayarlama, boru hattı yürütme ve sonuç yorumların oluşur. Basit bir tıklama ile araştırmacı biyomarker alt kümeleri ve yayın kalitesinde görselleştirme araziler oluşturmak yapabiliyor. Protokol iki ikili sınıflandırma veri kümeleri, akut lenfoblastik lösemi (ALL), yani, ALL1 ve ALL212transcriptomes kullanarak test edilmiştir. ALL1 ve ALL2 veri kümeleri Merkezi'nden Broad Enstitüsü genom veri analizi, http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi kullanılabilir indirilmiş. ALL1 12,625 özellikleri ile 128 örnekleri içerir. Bu, 95 B hücreli örneklerdir tüm ve 33 T hücreli olan tüm. ALL2 100 örnek 12,625 özellikleri de içerir. Bu örnekleri nüks yaşadı 65 hasta ve did değil 35 hasta vardır. ALL1 bir kolay ikili sınıflandırma veri kümesi, dört filtreler ve dört sarmalayıcılar %96.7 ve % 10012elde 8 Özellik seçimi algoritmalarının 6 olmak en az bir doğruluk ile yapıldı. ALL2 %83.7 doğruluk12' den daha iyi ulaşmak yukarıda 8 Özellik seçimi algoritmaları ile daha zor bir veri kümesi iken. Bu en iyi doğruluk 56 özelliklerle korelasyon tabanlı özellik seçimi (CFS) sarmalayıcı algoritması tarafından algılanan sağlanır.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Not: Aşağıdaki protokol sözde büyük modülleri kodlarının ve Bilişim analitik prosedür ayrıntılarını açıklar. Python sürümü 3.6.0 ve Python modülleri pandalar, abc, numpy, be, sklearn, sys, PyQt5, sys, mehmet, matematik ve matplotlib kullanarak otomatik olarak analiz sistemi geliştirilmiştir. Bu çalışmada kullanılan malzemeler Malzemeler tablolistelenir.

1. veri matris hazırlayın ve sınıf etiketleri

  1. Veri matris dosyası Şekil 1A' gösterildiği gibi bir sekme veya virgülle sınırlandırılmış matris dosyası olarak hazırlamak.
    Not: Her satır bir özelliğinin tüm değerleri vardır ve ilk öğe özelliği adıdır. Bir özellik transcriptome Mikroarray tabanlı veri kümesi için bir probeset kimliği veya başka bir değer ID methylomic veri kümesinde metilasyonu değeriyle sistein kalıntı gibi olabilir. Her sütun özellik değerleri belirli bir örneğinin örnek adı olarak ilk öğe ile verir. Bir satır sütunlara bir sekme (Şekil 1B) veya bir virgül (Şekil 1 c) tarafından ayrılır. Bir matris sekmeyle ayrılmış dosya dosya uzantısı .tsv tarafından tanınır ve matris virgülle ayrılmış dosya uzantısı .csv vardır. Bu dosya bir matris olarak .tsv veya .csv formatında yazılım Microsoft Excel gibi kaydederek oluşturulabilir. Veri matris aynı zamanda bilgisayar kodlama tarafından oluşturulabilir.
  2. Bir sekme veya virgülle sınırlandırılmış matris dosyası olarak (Şekil 1 d), veri matris dosyasına benzer sınıf etiket dosyası hazırlamak.
    Not: İlk sütun örnek adları verir ve her örnek sınıf etiketini sınıfbaşlıklı sütununda verilir. Ek sütunlar eklenebilir böylece maksimum uyumluluk kodlama sürecinde olarak kabul edilir. Sınıf etiket dosyası .tsv veya .csv dosyası olarak biçimlendirilebilir. Sınıf sütununda herhangi bir hüküm olabilir ve orada-ebilmek var olmak daha--dan iki sınıf örnekleri. Kullanıcı sınıflarının aşağıdaki analizi için herhangi iki seçebilirsiniz.

2. yük veri matris ve sınıf etiketleri

  1. Veri matris ve sınıf etiketleri belgili tanımlık bilgisayar yazılımı yükleyin. Kullanıcı tanımlı veri matris dosyası seçmek için yük veri matris düğmesini tıklatın. İlgili sınıf etiket dosyası seçmek için Yük sınıf etiket düğmesini tıklatın.
    Not: her iki eğe are yüklü sonra kSolutionVis iki dosya arasındaki uyumluluk rutin bir ekran yürütecek.
  2. Veri matris dosyası örnekleri ve özellikleri özetlenmektedir. Veri matris dosya boyutunu tahmin etmek.
  3. Örnekler ve sınıf etiket dosyası sınıflardan özetler. Sınıf etiket dosya boyutunu tahmin etmek.
  4. Her bir örneği veri matris bir sınıf etiket olup olmadığını sınamak. Örnekleri sınıf etiketlerle numaralarını özetler.

3. özetlemek ve veri kümesinin temel istatistikleri görüntüleme

  1. Özetle, herhangi bir belirtilen anahtar kelime giriş düğmesini ve yazılım 20 dizinlenmiş özellikler ve karşılık gelen özellikler adları görüntüler.
    Not: Kullanıcılar da onun temel istatistikleri ve karşılık gelen değer dağıtım tüm giriş örnekleri arasında görmek için bulmak istediğiniz özellik adı belirtmeniz gerekiyor.
  2. Bir anahtar kelime, Örneğin "1000_at", metin kutusunda bulmak özetlenecek belirli bir özellik için özellik sağlar. Tıkırtı belgili tanımlık düğme için verilen bu özelliği temel istatistikleri için özetleme .
    Not: Anahtar kelime hedef özellik adları, kullanıcıların arama işlemini kolaylaştıran herhangi bir yerde görünebilir.
  3. Birden fazla özellik belirli anahtar sözcük ile bulmak için özetleme düğmesini ve sonra bir özellik özetleme yukarıda adım ile devam etmek için benzersiz özellik kimliği belirtin.

4. sınıf etiketleri ve üst sıralarda yer alan özelliklerden belirlemek

  1. Pozitif ("P (33)") ve negatif ("N (95)") sınıfları adlarını açılır liste kutularına Sınıf pozitif ve Negatif sınıfı, Şekil 2 ' de (orta) gösterildiği gibi seçin.
    Not: Bu bir dengeli ikili sınıflandırma veri kümesi, yani, pozitif ve negatif örnekler sayı arasındaki farkı en az düzeydedir seçmek için önerilmektedir. Örneklerin sayısını da iki açılan kutuya her sınıf etiket adından sonra parantez içinde verilir.
  2. 10 en iyi özellikleri (parametre pTopX) sayı olarak açılan kutuyu Top_X (?) tercih özellik alt kapsamlı bir ekran için.
    Not: Yazılım tarafından P- bir t-testi ile her özelliği pozitif ve negatif sınıflarını karşılaştırma hesaplanandeğeri tüm özellikleri otomatik olarak yer alıyor. Bir özellik ile daha küçük bir P-değeri iki sınıf örnekleri arasında daha iyi ayrımcı bir güce sahip. Kapsamlı tarama modülü yoğun hesaplama. PTopX parametre varsayılan 10'dur. Kullanıcı-ebilmek değişmek bu parametre 10-50 aralığında tatmin edici bulana özelliği iyi sınıflandırma performansları ile alt kümeleri.

5. Sistem parametreleri için farklı performanslar nağme

  1. Performans ölçümü (pMeasurement) doğruluk (Acc) seçili Sınıflandırıcısı aşırı öğrenme makine (ELM) için açılan kutusunda Acc/arkamı (?) seçin. Başka bir seçenek, bu parametrenin ölçümdür dengeli doğruluk (arkamı).
    Not: TP, FN, TN, ve FP gerçek pozitif, yanlış negatifler, doğru negatifleri ve yanlış pozitif sayıları sırasıyla olsun. Ölçüm Acc (TP+TN)/(TP+FN+TN+FP), hangi en iyi bir dengeli veri kümesi6tarihinde inşaat. olarak tanımlanmıştır. Ama Acc için en iyi duruma getirilmiş bir Sınıflandırıcısı olumsuz örnekleri sayısı kadar pozitif olanlar daha büyük ise tüm örnekleri negatif sınıfa atayın. Arkamı (Sn + Sp) tanımlanan / 2, nerede Sn TP/(TP+FN) = ve TN/(TN+FP) Sp = pozitif doğru tahmin edilen oranları ve örnekleri, sırasıyla negatif. Bu nedenle, arkamı tahmin performansları üzerinde iki sınıf normalleştirir ve dengeli tahmin performans üzerinde iki dengesiz sınıf yol açabilir. ACC pMeasurementvarsayılan seçimdir. Belgili tanımlık bilgisayar yazılımı varsayılan olarak Sınıflandırıcısı ELM sınıflandırma performansları hesaplamak için kullanır. Kullanıcı ayrıca SVM (destek vektör makine), KNN (k en yakın komşu), karar ağacı veya Naïve Bayes bir Sınıflandırıcısı seçebilirsiniz.
  2. Belirtilen performans ölçümü için kesme biçimi değerini 0.70 (parametre pCutoff) giriş kutusuna seçin pCutoff:.
    Not: Acc ve arkamı aralığı 0 ile 1 arasında hem de Kullanıcı bir değeri pCutoff belirtebilirEquation[0, 1] eşleşen çözümleri görüntülemek için kesim olarak. Yazılım bir kapsamlı özelliği-eleme alt taşır ve pCutoff uygun bir seçim 3 boyutlu görselleştirme daha sezgisel ve açık hale getirecek. Varsayılan değer pCutoff olduğunu 0,70.

6. koşmak belgili tanımlık boru hattı ve etkileşimli GÖRÜNTÜLENMEYECEKTİR sonuçlar üretmek

  1. Boru hattı çalıştırmak ve görselleştirme araziler, Şekil 2 ' de (alt) gösterildiği gibi oluşturmak için analiz düğmesini tıklatın.
    Not: Sol tablodaki tüm özellik alt kümeleri ve5daha önce açıklandığı gibi Sınıflandırıcısı ELM, 10 kat çapraz doğrulama yöntemi tarafından hesaplanan onların pMeasurement verir. İki 3B scatter araziler ve iki satır araziler için özellik alt tarama yordam geçerli parametre ayarları ile oluşturulur.
  2. 0.70 pMeasurement kesme (parametre piCutoff, giriş kutusu değeri) varsayılan değer ve 10 en iyi özelliği alt kümeleri (parametre piFSNum) sayısı varsayılan seçin.
    Not: Boru hattı parametreleri pTopX, pMeasurement ve pCutoffkullanılarak yürütülür. Alt kümeleri daha fazla olabilir tespit özelliği ekranlı kesme piCutoffkullanarak, ancak piCutoff pCutoffküçük olamaz. Bu nedenle, piCutoff pCutoff başlatılır ve yalnızca özellik alt kümeleri performans ölçüm ≥ piCutoff ile görüntülenir. PCutoff piCutoff varsayılan değeridir. Bazen pek çok çözüm ve sadece en iyi piFSNum kSolutionVis algılar (varsayılan: 10) özelliği alt kümeleri görüntülenir. Yazılım tarafından tespit özelliği alt kümeleri sayısı piFSNumküçükse, görselleştirildiği özelliği alt kümeleri.
  3. Toplamak ve yazılım tarafından algılanan Özellikler Şekil 3' te gösterilen yorumlamak.
    Not: Soldaki kutu tablo tespit özelliği alt kümeleri ve kendi performans ölçümlerinizi gösterir. İlk üç sütun "F1", "F2" ve "F3" adlarıdır. Her özellik alt üç özelliklerinde bir satır sıralama düzeninde göz önüne alındığında (F1 < F2 < F3). Son sütun (Acc ya da arkamı) performans ölçümü her özellik kümesini verir ve sütun adını (Acc ya da arkamı) pMeasurementdeğeridir.

7. yorumlamak 3D Scatter araziler görselleştirmek ve özellik alt kümeleri 3D Scatter araziler kullanma benzer şekilde etkili ikili sınıflandırma performansları ile yorumlamak

  1. Şekil 3 ' te (ortadaki kutu) gösterilen yazılım tarafından algılanan en iyi 10 özelliği alt kümeleri en iyi sınıflandırma performansları (Acc ya da arkamı) ile 3D Dağılım Arsa oluşturmak için analiz düğmesini tıklatın. Saflarını sırasını artan bir özellik alt üç özellikleri sıralayabilir ve üç özellik saflarına F1/F2/F3 eksen yani, F1 kullanır < F2 < F3.
    Not: Bir nokta rengini karşılık gelen özellik alt küme küme küme ikili sınıflandırma performans gösterir. Bir veri kümesi benzer şekilde etkili performans ölçümleri ile birden çok özellik alt kümeleri olabilir. Bu nedenle, bir etkileşimli ve Basitleştirilmiş dağılım çizim gereklidir.
  2. Değişmek belgili tanımlık değer için 0,70 giriş kutusunda pCutoff: ve tıkırtı belgili tanımlık düğme özelliği alt kümeleri ile performans ölçüm ≥ piCutoff, 3D dağılım çizim oluşturmak için analiz Şekil 3 ' te (sağdaki kutu) görüldüğü gibi. 3D dağılım çizim bir görüş açısı el ile ayarlamak için yeni bir pencere açmak için 3D ayar düğmesini tıklatın.
    Not: Her özellik alt küme olarak aynı şekilde bir nokta tarafından temsil edilir. 3D dağılım çizim varsayılan açısı oluşturuldu. 3 boyutlu görselleştirme ve tuning, ayrı bir pencerede kolaylaştırmak için 3D ayarlamadüğmesini tıklatarak açılır.
  3. Algılanan özelliği alt kümeleri fazlalığı azaltmak için Küçült düğmesini tıklatın.
    Not: kullanıcılar daha fazla özellik üçüz seçin ve özellik alt kümeleri artıklık en aza indirmek istiyorsanız, belgili tanımlık bilgisayar yazılımı da mehmet özellik seçim algoritmasını kullanarak bu işlevi sağlar. Küçült düğmesini tıklatarak sonra kSolutionVis bu gereksiz özellikleri özellik üçüz kaldırın ve tabloyu yeniden ve iki yukarıda belirtilen araziler dağılım. Özellik üçüz kaldırılan özelliklerin tablo anahtar kelime ile değiştirilir. Hiçbiri değerlerini F1/F2/F3 eksen içinde piFSNum (F1/F2/F3 normal değer aralığı [1, top_x]'dir) değeri olarak gösterilir. Bu nedenle, None değeri içerir noktalar 3D "aykırı" nokta çizer gibi görünebilir. El ile ayarlanabilir 3D araziler "Elle ve 3B nokta araziler ayarlama" takıma giren maddeler buldum.

8. gen ek açıklamaları ve insan hastalıkları ile onların dernekler bulmak

Not: Adımları 8-10 bir genin DNA ve protein dizi düzeyinden ek açıklama eklemek nasıl gösterilmektedir. İlk olarak, yukarıdaki adımları her biyomarker kimliğinden gen sembolü DAVID32veritabanından alınır ve sonra iki temsilcisi web sunucusu düzeyde DNA ve protein, bu gen sembolünden sırasıyla analiz etmek için kullanılır. Sunucu GeneCard bir kapsamlı işlevsel ek açıklama verilen gen sembolü, ve Online Mendel kalıtımı adam veritabanında (OMIM) hastalığı-gen derneklerin en kapsamlı küratörlüğü sağlar. Sunucunun UniProtKB en kapsamlı protein veritabanı biridir ve sunucu grup tabanlı tahmin sistemi (GPS) sinyal fosforilasyon'ın çok büyük bir listesi için kinaz öngörür.

  1. Kopyalayıp web bağlantısını DAVID veritabanının bir web tarayıcısına yapıştırın ve bu veritabanı web sayfasını açın. Şekil 4A görülen Gene kimliği dönüşüm bağlantısını tıklatın ve özellik kimlikleri 38319_at/38147_at/33238_at ilk biyomarker alt ALL1 veri kümesinin (4B rakam) girdi. Gene liste bağlantısını tıklayın ve Şekil 4B' gösterildiği gibi Gönder Listesi'ni tıklatın. Ek açıklamaları ilgi almak ve Gen listesini göster (Şekil 4 c) tıklatın. Gen sembolleri (Şekil 4 d). listesini al
    Not: sonraki adımlar daha fazla fonksiyonel ek açıklamalar için burada alındı gen semboller kullanılır.
  2. Kopyalayıp web bağlantısını Gene kartları veritabanının bir web tarayıcısına yapıştırın ve bu veritabanı web sayfasını açın. Bir genin adı CD3D veritabanı sorgu giriş kutusuna arama ve Tablo 1 ve Şekil 5Agösterildiği gibi bu gen gen kartları33,34, üzerinden ek açıklamalar bulmak.
    Not: Gen kartları ilgili yollar ve diğer fonksiyonel modüller ve adlandırma, genomik, proteomik, hücre altı yerelleştirme, sunan kapsamlı gen Bilgi Bankası değil. PDB/PDB_REDO35, Entrez Gene36, OMIM37ve UniProtKB38gibi çeşitli Biyomedikal veritabanları için dış bağlantılar da sağlar. Özellik adı bir standart gen simgesi yoksa, veritabanı ENSEMBL39dönüştürmek için kullanın. CD3D gen T-hücre reseptör T3 Delta zinciri adıdır.
  3. Kopyalayıp web bağlantısını OMIM veritabanının bir web tarayıcısına yapıştırın ve bu veritabanı web sayfasını açın. Bir genin adına CD3D arama ve Tablo 1 ve Şekil 5Bgösterildiği gibi bu gen OMIM37, veritabanından ek açıklamaları bulabilirsiniz.
    Not: OMIM şimdi devralınabilir hastalıkları ile insan gen bağlantıların en kapsamlı ve yetkili kaynaklardan biri olarak hizmet vermektedir. OMIM genetik mutasyonlar hastalık ilişkili40Katalog için Dr. Victor A. McKusick tarafından başlatılmıştır. OMIM şimdi 15,000 insan genleri ve Aralık itibariyle fazla 8.500 fenotipleri 1st 2017 kapsar.

9. kodlanmış proteinler ve translasyonel modifikasyonlar ek açıklama eklemek

  1. Kopyalayın ve web bağlantısını UniProtKB veritabanının bir web tarayıcısına yapıştırın ve bu veritabanı web sayfasını açın. Bir genin adı CD3D UniProtKB sorgu giriş kutusuna arama ve Tablo 1 ve Şekil 5Cgösterildiği gibi bu gen veritabanı38, ek açıklamalar bulmak.
    Not: UniProtKB proteinler, isimlendirme ve fonksiyonel bilgi de dahil olmak üzere için ek açıklamalar zengin bir kaynağıdır toplar. Bu veritabanı PDB/PDB_REDO35, OMIM37ve Pfam41gibi yaygın olarak kullanılan diğer veritabanları için dış bağlantılar da sağlar.
  2. Kopyalayın ve web bağlantısını web sunucusunun GPS bir web tarayıcısına yapıştırın ve bu web sunucusu web sayfasını açın. UniProtKB veritabanı38 biyomarker gen CD3D tarafından kodlanmış protein sıra almak ve protein translasyonel modifikasyon (PTM) artıkları çevrimiçi araç GPS, Tablo 1 ve Şekil 5 dgösterildiği gibi kullanarak tahmin ediyor.
    Not: Dinamik ve karmaşık biyolojik bir sistemdir ve varolan veritabanları yalnızca bilinen bilgileri toplamak. Bu nedenle, biyomedikal tahmin çevrimiçi araçlar yanı sıra çevrimdışı programları hypothesized bir mekanizma tamamlayacak yararlı kanıt sağlayabilir. GPS gelişmiş ve gelişmiş için üzerinde 12 yaşındaki7,42 oldu ve protein PTM kalıntılarında belirli peptit dizisi43,44tahmin etmek için kullanılabilir. Araçları, aynı zamanda protein hücre altı konumu45 ve diğerleri arasında transkripsiyon faktörü bağlayıcı motifler 46 değerlendirilmesinde de dahil olmak üzere çeşitli araştırma konuları bulunmaktadır.

10. Protein-Protein etkileşimleri ve zenginleştirilmiş fonksiyonel modülleri ek açıklama eklemek

  1. Kopyalayın ve web bağlantısını web sunucusunun dize bir web tarayıcısına yapıştırın ve bu web sunucusu web sayfasını açın. CD3D ve P53 genleri için listede arama ve onların düzenledi özellikler dize47veritabanı kullanarak bulabilirsiniz. Aynı yordamı başka bir web sunucusuna, DAVID32kullanılarak yapılan.
    Not: bireysel genler için yukarıda belirtilen ek açıklamalar yanı sıra, birçok büyük ölçekli Bilişim araçları bir grubun genlerin özelliklerini araştırmak için kullanılabilir vardır. Yeni yapılan bir çalışmada, tek tek kötü marker gen bir çok gelişmiş gen set5teşkil gösterdi. Bu nedenle, için daha karmaşık biyolojik ekran bilgisayar maliyet değer. Veritabanı dize bilinen ya da tahmin edilen etkileşim bağlantıları görselleştirmek ve David sunucu sorgulanan genler47yılında32önemli fenotip-dernekler ile fonksiyonel modüller algılayabilir. Çeşitli diğer büyük ölçekli Bilişim analiz araçları da mevcuttur.

11. ihracat biyomarker oluşturulan alt kümeleri ve görselleştirme araziler

  1. Algılanan biyomarker alt kümeleri için daha fazla çözümleme .tsv veya .csv metin dosyası olarak dışa aktarın. Algılanan biyomarker alt kümeleri tablo altında tablo dışa aktar düğmesini tıklatın ve hangi metin biçimi olarak kaydetmek için seçin.
  2. Görselleştirme araziler bir görüntü dosyası olarak verin. Her arsa Kaydet düğmesini tıklatın ve hangi görüntü biçimi olarak kaydetmek için seçin.
    Not: Yazılım piksel biçimi .png ve vektör biçimi .svg destekler. Piksel görüntü vektör görüntüler günlük yayın amaçlar için gerekli herhangi bir çözünürlük için dönüştürülmüş olabilir iken bilgisayarınızın ekranında görüntülemek için iyidir.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Bu iş akışı (Şekil 6) ikili sınıflandırma veri kümesi için benzer verimliliği ile birden fazla biyomarker alt kümeleri bulmak için hedeftir. Tüm süreç iki örnek veri kümeleri tarafından ALL1 ve bir biyomarker basılmış algılama çıkarılan ALL212,48çalışma gösterilmiştir. Kullanıcı-ebilmek install kSolutionVis ek materyalleri yönergeleri takip ederek.

Veri kümesi ALL1 95 B-hücre ve 33 T-hücre 12 625 transcriptomic özelliklerini tüm hasta kan örnekleri profilli. Veri kümesi ALL2 12 625 transcriptomic özellikler için 65 ifade düzeyde tüm hastalar tedavi ve 35 sonra kim vermedi tüm hastalar relaps tespit ederken. Kullanıcının kolaylık sağlamak için transcriptomic veri kümeleri ve onların sınıf etiketleri yazılımının sürüm 1.4 temin edilmektedir. Her iki veri kümeleri "veri" yazılımın kaynak kodu dizininin alt dizini vardır.

İki veri kümelerini, ALL1 ve ALL2, .csv dosyası olarak biçimlendirilmiş ve yük veri matris ve Yük sınıf Etiketler düğmeleri kullanarak yazılım Şekil 7Aiçinde -Bgösterildiği gibi yüklü. Şekil 7A tüm 128 örnekleri 12 625 özellikleri ile doluydu ve tüm 128 örnekleri de sınıf etiketleri var gösterir. Son verileri matris 95 negatif var (B-hücre tüm) ve 33 olumlu örnekler (T-hücre tüm). Ayrıca, kullanıcılar da olumlu sınıf etiket (Şekil 7A, alt) hangi sınıf etikettir belirleyebilir. Sınıf etiket dosyası ikiden fazla sınıfları tanımlıyorsa, kullanıcılar araştırmak için hangi iki sınıf etiketleri seçmek isteyebilirsiniz. Benzer işlemleri de Şekil 7Biçinde gösterildiği gibi zor veri kümesi ALL2, için yapılmıştır.

Şekil 8' de gösterildiği gibi özellik adları, bir kullanıcıya özel anahtar kelime için ararken özetleme düğmesini tıklatarak veri matris özellikleri değer dağılımları araştırılması. Şekil 8A özelliği 1012_at ALL1 kümesindeki histogramını gösterir. Ayrıca, resim 8Biçinde görüldüğü gibi aynı özellik 1012_at bir benzer dağılımı ifade her iki veri kümelerini gösterir. Anahtar sözcük yok Kullanıcı tarafından belirtilmiş olması durumunda, bazı özellik adlarının özetlemek için hangi özellikleri karar vermek için kullanıcılara yardımcı olmak üzere listelenir.

Daha kolay veri kümesi ALL1 en iyi 10 ranked özellikleri (pTopX) pMeasurement Acc ≥ 0.90 ile biyomarker alt kümeleri (pCutoff) için tarandı. Tıkırtı belgili tanımlık düğme koşmaksonra algoritma idam edildi ve sonuçları Þekil 9Aiçinde görüldüğü gibi yazılım alt kısmı bir kaç saniye sonra resimli. Bu, 120 nitelikli biyomarker tespit ve Þekil 9Asol tabloda listelenen. ALL1 Acciçinde %100 57 üçlüsü biyomarker alt kümeleri olan ayrımcılık kolay bir veri kümesi, oldu. Bu iletişim kuralı birden çok benzer şekilde etkili çözümler için bir ikili sınıflandırma sorun varlığını vurgular. Bu ilk 10 sırada yer sınıflandırma performans Acc (parametre pMeasurement) ≥ varsa bu nedenle, ilk 3D dağılım çizim 10'dan fazla (parametre piFSNum) biyomarker alt kümelerini göstermek (parametre piFSNum ) biyomarker alt küme küme küme. Kullanıcı ayrıca Þekil 9Atabloda yukarıda parametre kutusunda parametre piCutoff değiştirerek daha az biyomarker alt kümelerini görüntülemek seçebilirsiniz. Ve 3D araziler elle ayarlama ek malzeme elle ayarlama 3B nokta çizer bölümünde bulunabilir.

Ayrıca, tüm sonuçları daha fazla çözümleme için harici dosyalar olarak Şekil 9' da gösterildiği gibi tablo veya dağılım araziler altında tablo dışa aktar düğmesini tıklatarak dışa.

İlk biyomarker alt (38319_at, 38147_at ve 33238_at) ALL1 veri kümesi için işlevsel araştırmalar için Þekil 9Aiçinde gösterildiği gibi seçildi. ENSEMBL (http://useast.ensembl.org/Multi/Search/New?db=core) arama modülü bu üç özellikleri farklılaşma 3 delta (CD3D, 38319_at), sinyal lenfositik harekete geçirmek molekül ilişkili gen (SH2D1A, 38147_at bir gen küme olarak açıklamalı. ) ve lenfosit hücre özel Protein Tirozin kinaz (LCK, 33238_at). Ayrıca, gen-hastalığı Derneği veritabanı OMIM37,40 gen CD3D delta alt birimi T-hücre antijen reseptör karmaşık kodlar ve sık sık içinde akut gözlenen 11q23 translokasyonlar katıldığı önerdi Lösemi insanlar49,50. OMIM Ayrıca genomik mutasyonlar gen içinde SH2D1A Xq25 kromozom bölgesinde B hücreli lösemi51,52ile ilişkili olabilir önerdi. Ayrıca, OMIM LCK ve beta T-hücre reseptör (TCRB)53tüm ilişkili füzyon olayı da olası bir T-hücre vurgulanır. Kullanıcılar kendi gen semboller, Örneğin, gen fonksiyon açıklamaları Entrez Gene36, UniProtKB38 veya Pfam41, 3D protein protein işlevi ek açıklamalar bu biyolojik işlev diğer yönlerini incelemek PDB/PDB_REDO35ve GPS7,42,43,44PTM kalıntılarında yapılarda. Ayrıca etkileşen alt ağ (veritabanı dize47) ve zenginleştirilmiş fonksiyonel modüller (veritabanı David32) için bu biyolojik bir bütünlük taranması. Ayrıca çeşitli diğer veritabanlarını veya web sunucuları ek açıklamaları ve semboller veya bu genlerin birincil gen/protein dizileri kullanarak silico Öngörüler kolaylaştırabilir.

Tablo 2' de görüldüğü gibi aynı veya benzer şekilde etkili performansları ile birden fazla çözüm algılama gerekliliği ortadadır, 57 gruplarıyla ikili sınıflandırma doğruluğu % 100 arasında B-hücresi ve T-hücre özellikleri ile tüm örnekleri. Bu belirli biyomarker alt kümeleri mükemmel çözümler çağrıldı. Tamamen birkaç biyolojik bu mükemmel çözümler art arda, önemli farkları, moleküler düzeyde arasında B ve T-hücreli tüm temsil edebileceğini düşündüren ortaya çıktı. Biyomarker algılama algoritması ilk mükemmel bir çözüm üç genlerin CD3D/SH2D1A/LCK algılama durursa, başka bir mükemmel bir çözüm CD74/HLA-DPB1/PRKCQ özleyeceğiz. Örneğin, HLA-DPB1 ile pediatrik T hücreli önemli ölçüde ilişkili olduğu bilinmektedir değil B hücreli hariç tüm54.

Kromatin derleme faktör 1 alt birim B (CHAF1B, 36912_at), eksonükleaz 1 (EXO1, 36041_at), ALL2 ilk biyomarker kümesini üç özellik vardı ve sinyal dönüştürücü ve aktivatör (STAT6, 41222_at) transkripsiyon 6. CHAF1B yüksek oranda lösemi hücre hatlarında ifade edilecek gözlendi ve kodlanmış CHAF1B protein karşı antikor önemli ölçüde akut miyeloid lösemi (AML) hasta55yılında geliştirilmiştir. EXO1 akut lösemi56ve lösemi hücre kültürünü HL-60 [R] upregulated bazı durumlarda kayboldu. Bu da olumsuz yönde alternatif ALT ilişkili PML (promyelötik lösemi) organları (APBs)57oluşumu kolaylaştırılmış telomerlerin (ALT) yol, uzatma düzenleyen bulundu. STAT6 yanlısı hayatta kalma ve proliferatif yolu AML58relaps durumlarında sinyal etkinleştirmek için fosforile. Birlikte ele alındığında, üç genler geliştirme ve Lösemi nüks ile ilişkili bulunmuştur ama hiçbir açık delil onların dernekler tüm nüks ile yayımlandı. Bu ilginç bir konu daha fazla araştırma yapılması için temsil edebilir.

Aynı ek açıklama yordamı herhangi bir biyomarker alt ALL1 ve ALL2 yürütülen. Yukarıdaki bölümde araştırıldı üç biyolojik Şekil 9Biçinde gösterildiği gibi biyolojik ALL2, veri kümesindeki relaps gibi tanımlanmamış. Bu biyolojik olan birden çok benzer şekilde etkin çözümler varlığı yanında biyomarker algılama için başka bir büyük sorun olduğunu fenotip özgü olduğunu göstermektedir.

Bazı teknik modülleri uygulanan ve burada açıklanan ilgilenen kullanıcılar için. Belgili tanımlık bilgisayar yazılımı yürütülürken hata ortaya çıktığında hata işleme modülü kullanıcı için bilgilendirici iletileri sağlar. Ana hata iletileri listelenir ve ek malzeme "hata iletileri" açıkladı. Biyolojik bir paralel hesaplama birden çok CPU çekirdek olan bilgisayarlar için uygulanmıştır. Çalışma süresi için detaylı iyileştirmeler "paralel çalışma süresi" olarak takıma giren malzeme bulunabilir. Verileri daha fazla CPU çekirdeği kullanımı çalışma süresi nedeniyle farklı CPU çekirdeği arasında geçiş yapma maliyetini artırabilir değil göstermektedir.

Figure 1
Şekil 1: transcriptome kümesinden ALL1 çıkarılan örnek veri kümesi ALL1 ilk dokuz örnekleri ilk altı özelliklere sahiptir. (A) görsel öğe formu, (b) etiket-delimited metin biçim dosyası ve (c) virgülle ayrılmış metin biçimi dosyası veri matris biçimlendirildi. (d) sınıf etiket veri görselleştirme şeklinde biçimlendirilmiştir. Nedeniyle sekme karakteri görünmez, (b) [TAB] gösterilmiştir. Sütun platformu (b) Mikroarray platformu Affy verir ve gerekli verileri sütun değil. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 2
Şekil 2: grafik kullanıcı arayüzü yazılım. Temel istatistikleri üst sol kutusunda özetlenir. Kullanıcılar için ilgilendiğiniz olanakları arayın ve iki üst sağ kutuya değer dağılımları araştırmak. Tüm parametreleri biyomarker algılama yordamı için orta yatay çubuk ayarlanmış. Biyomarker alt grupları ve onların karşılık gelen görüntülenmeyecektir dağıtımları alt bölümünde bulunabilir. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 3
Şekil 3: biyomarker alt kümeleri ve oluşturulan onların görsel öğelerin. Kullanıcılar daha da tablo ve parametreleri piCutoff ve piFSNumkullanarak iki 3D scatter araziler geliştirmek. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 4
Şekil 4: gen ek açıklamalar bu çalışmada tespit kimlikleri özelliğinin. Üç özellik kimlikleri 38319_at/38147_at/33238_at ALL1 veri kümesinin ilk biyomarker alt al. (a) kimliği dönüşüm modülü Gene kimliği dönüşümbağlantısını tıklayarak olsun. (b) giriş özelliği kimlikleri kırmızı kutu 1 kırmızı kutu 2 Özellik türünü seçin (varsayılan "AFFYMETRIX_3PRIME_IVT_ID", bu çalışma için doğru), kırmızı kutu 3'te Gene liste seçin ve Liste göndermek kırmızı kutusu 4 tıklatın. (c) içinde Bu sayfa fonksiyonel ek açıklamaları almak ve gen sembolleri sorgulanan bu özellikleri almak için Gene listesini göster'i tıklatın. (d) gen sembolleri, sorgulanan özellik kimlik almak. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 5
Şekil 5: ek açıklamalar ve algılanan özelliği alt kümeleri analizini zenginleştirme. (a) gen ek açıklamaları Gene Card. (B) OMIM üzerinden her özellik/genetik hastalık dernekleri açıklar. (c) veritabanı UniProtKB ilgi Gen tarafından kodlanmış protein açıklama ekleyin. (d) çevrimiçi araç GPS kullanarak verilen protein Tirozin fosforilasyon kalıntılarında tahmin. Kırmızı bir kutu nereye sorgu veri girişi için tıklayın Kullanıcı göstermek için eklendi. CD3D (c) kırmızı kutusundan FASTA formatı olarak alındı olabilir ve sorgu penceresinde tarafından giriş örnek protein birincil dizisi (d) kırmızı kutusunda'ı tıklatın. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 6
Şekil 6: iş akışını ve kSolutionVis. Her ölçü birimi-in belgili tanımlık bilgisayar yazılımı yukarıdaki iletişim kuralında tanımlanmıştır. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 7
Şekil 7: temel istatistikleri iki temsilcisi veri kümeleri. Örnekler, Özellikler ve ALL1 (a) ve (b) ALL2 dersleri numaralarını hesaplanır. Dosya boyutları veri matris ve sınıf etiketleri de algılanır. Ve yeni bir veri matris sınıf etiketlerle örneklerinden elde edilir. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 8
Şekil 8: çubuk grafik görsel olarak iki DataSet'lerdeki özelliği 1012_at. Temel istatistikleri ve çubuk grafik (a) ALL1 ve (b) ALL2 için üretildi. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Figure 9
Şekil 9: biyomarker alt kümeleri ve iki veri kümelerini ve scatter araziler. Kullanıcıları biyomarker alt kümeleri listesini daha da geliştirmek için parametre kutularının ikinci sırada parametreleri değiştirebilir ve veri kümeleri (a) ALL1 ve (b) ALL2 3D dağılım grafiğini çizer. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.

Web sitesi Bağlantı İşlevselliği
GeneCards http://www.genecards.org/cgi-bin/carddisp.pl?gene=CD3D Gene ek açıklama
OMIM https://OMİM.org/entry/186790?Search=CD3D&highlight=cd3d Gen-hastalığı Derneği
UniProtKB http://www.uniprot.org/uniprot/P04234 Protein ek açıklama
GPS http://GPS.biocuckoo.org/ Protein PTM tahmin
Dize https://String-DB.org/ Protein-protein etkileşim
David https://David.ncifcrf.gov/ Gene zenginleştirme analiz ayarla

Tablo 1. Ek açıklama ekleme ve algılanan biyolojik analiz için Web siteleri. Yardımcı yararlı çevrimiçi araçlar listesi algılanan biyolojik açıklama ekleyin.

F1 F2 F3 ACC Symbol1 Symbol2 Symbol3
38319_at 38147_at 33238_at 1,0000 CD3D SH2D1A LCK
33238_at 35016_at 37039_at 1,0000 LCK CD74 HLA-DRA
38147_at 33238_at 35016_at 1,0000 SH2D1A LCK CD74
38147_at 33238_at 2059_s_at 1,0000 SH2D1A LCK LCK
38147_at 33238_at 37039_at 1,0000 SH2D1A LCK HLA-DRA
38147_at 33238_at 38095_i_at 1,0000 SH2D1A LCK HLA-DPB1
38147_at 33238_at 33039_at 1,0000 SH2D1A LCK TRAT1
38147_at 35016_at 2059_s_at 1,0000 SH2D1A CD74 LCK
38147_at 35016_at 33039_at 1,0000 SH2D1A CD74 TRAT1
38147_at 35016_at 38949_at 1,0000 SH2D1A CD74 PRKCQ
38147_at 2059_s_at 37039_at 1,0000 SH2D1A LCK HLA-DRA
38147_at 2059_s_at 38095_i_at 1,0000 SH2D1A LCK HLA-DPB1
38147_at 37039_at 33039_at 1,0000 SH2D1A HLA-DRA TRAT1
38147_at 37039_at 38949_at 1,0000 SH2D1A HLA-DRA PRKCQ
38319_at 38147_at 35016_at 1,0000 CD3D SH2D1A CD74
38147_at 38833_at 38949_at 1,0000 SH2D1A HLA-DPA1 PRKCQ
33238_at 35016_at 33039_at 1,0000 LCK CD74 TRAT1
38319_at 38833_at 38949_at 1,0000 CD3D HLA-DPA1 PRKCQ
33238_at 35016_at 38949_at 1,0000 LCK CD74 PRKCQ
33238_at 2059_s_at 37039_at 1,0000 LCK LCK HLA-DRA
33238_at 37039_at 38095_i_at 1,0000 LCK HLA-DRA HLA-DPB1
33238_at 37039_at 33039_at 1,0000 LCK HLA-DRA TRAT1
33238_at 37039_at 38949_at 1,0000 LCK HLA-DRA PRKCQ
33238_at 38095_i_at 38949_at 1,0000 LCK HLA-DPB1 PRKCQ
33238_at 38833_at 38949_at 1,0000 LCK HLA-DPA1 PRKCQ
33238_at 33039_at 38949_at 1,0000 LCK TRAT1 PRKCQ
35016_at 2059_s_at 33039_at 1,0000 CD74 LCK TRAT1
35016_at 2059_s_at 38949_at 1,0000 CD74 LCK PRKCQ
35016_at 38095_i_at 38949_at 1,0000 CD74 HLA-DPB1 PRKCQ
2059_s_at 37039_at 33039_at 1,0000 LCK HLA-DRA TRAT1
2059_s_at 38095_i_at 38949_at 1,0000 LCK HLA-DPB1 PRKCQ
2059_s_at 38833_at 38949_at 1,0000 LCK HLA-DPA1 PRKCQ
38319_at 33039_at 38949_at 1,0000 CD3D TRAT1 PRKCQ
38147_at 38095_i_at 38949_at 1,0000 SH2D1A HLA-DPB1 PRKCQ
38319_at 33238_at 38833_at 1,0000 CD3D LCK HLA-DPA1
38319_at 2059_s_at 38833_at 1,0000 CD3D LCK HLA-DPA1
38319_at 33238_at 33039_at 1,0000 CD3D LCK TRAT1
38319_at 33238_at 38095_i_at 1,0000 CD3D LCK HLA-DPB1
38319_at 33238_at 37039_at 1,0000 CD3D LCK HLA-DRA
38319_at 35016_at 38833_at 1,0000 CD3D CD74 HLA-DPA1
38319_at 33238_at 2059_s_at 1,0000 CD3D LCK LCK
38319_at 35016_at 33039_at 1,0000 CD3D CD74 TRAT1
38319_at 33238_at 35016_at 1,0000 CD3D LCK CD74
38319_at 35016_at 38949_at 1,0000 CD3D CD74 PRKCQ
38319_at 2059_s_at 37039_at 1,0000 CD3D LCK HLA-DRA
38319_at 38147_at 38949_at 1,0000 CD3D SH2D1A PRKCQ
38319_at 38147_at 33039_at 1,0000 CD3D SH2D1A TRAT1
38319_at 33238_at 38949_at 1,0000 CD3D LCK PRKCQ
38319_at 2059_s_at 38095_i_at 1,0000 CD3D LCK HLA-DPB1
38319_at 38147_at 38833_at 1,0000 CD3D SH2D1A HLA-DPA1
38319_at 2059_s_at 33039_at 1,0000 CD3D LCK TRAT1
38319_at 38147_at 38095_i_at 1,0000 CD3D SH2D1A HLA-DPB1
38319_at 37039_at 33039_at 1,0000 CD3D HLA-DRA TRAT1
38319_at 38147_at 37039_at 1,0000 CD3D SH2D1A HLA-DRA
38319_at 38147_at 2059_s_at 1,0000 CD3D SH2D1A LCK
38319_at 2059_s_at 38949_at 1,0000 CD3D LCK PRKCQ
38319_at 35016_at 2059_s_at 1,0000 CD3D CD74 LCK
2059_s_at 37039_at 38095_i_at 0.9922 LCK HLA-DRA HLA-DPB1
35016_at 33039_at 38949_at 0.9922 CD74 TRAT1 PRKCQ
2059_s_at 37039_at 38949_at 0.9922 LCK HLA-DRA PRKCQ
35016_at 2059_s_at 37039_at 0.9922 CD74 LCK HLA-DRA
35016_at 37039_at 38949_at 0.9922 CD74 HLA-DRA PRKCQ
35016_at 38833_at 38949_at 0.9922 CD74 HLA-DPA1 PRKCQ
2059_s_at 33039_at 38949_at 0.9922 LCK TRAT1 PRKCQ
37039_at 38833_at 38949_at 0.9922 HLA-DRA HLA-DPA1 PRKCQ
37039_at 33039_at 38949_at 0.9922 HLA-DRA TRAT1 PRKCQ
38319_at 38095_i_at 38949_at 0.9922 CD3D HLA-DPB1 PRKCQ
33238_at 37039_at 38833_at 0.9922 LCK HLA-DRA HLA-DPA1
38095_i_at 33039_at 38949_at 0.9922 HLA-DPB1 TRAT1 PRKCQ
33238_at 2059_s_at 38949_at 0.9922 LCK LCK PRKCQ
38319_at 38833_at 33039_at 0.9922 CD3D HLA-DPA1 TRAT1
38833_at 33039_at 38949_at 0.9922 HLA-DPA1 TRAT1 PRKCQ
38147_at 33039_at 38949_at 0.9922 SH2D1A TRAT1 PRKCQ
38319_at 37039_at 38833_at 0.9922 CD3D HLA-DRA HLA-DPA1
38147_at 2059_s_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 38095_i_at 38833_at 0.9922 SH2D1A HLA-DPB1 HLA-DPA1
38147_at 33238_at 38949_at 0.9922 SH2D1A LCK PRKCQ
38147_at 2059_s_at 33039_at 0.9922 SH2D1A LCK TRAT1
38319_at 37039_at 38949_at 0.9922 CD3D HLA-DRA PRKCQ
38319_at 38095_i_at 38833_at 0.9922 CD3D HLA-DPB1 HLA-DPA1
38147_at 2059_s_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
33238_at 35016_at 2059_s_at 0.9922 LCK CD74 LCK
38319_at 35016_at 38095_i_at 0.9922 CD3D CD74 HLA-DPB1
33238_at 35016_at 38095_i_at 0.9922 LCK CD74 HLA-DPB1
38319_at 35016_at 37039_at 0.9922 CD3D CD74 HLA-DRA
38147_at 33238_at 38833_at 0.9922 SH2D1A LCK HLA-DPA1
38147_at 37039_at 38095_i_at 0.9844 SH2D1A HLA-DRA HLA-DPB1
38147_at 35016_at 38833_at 0.9844 SH2D1A CD74 HLA-DPA1
38147_at 35016_at 38095_i_at 0.9844 SH2D1A CD74 HLA-DPB1
35016_at 2059_s_at 38095_i_at 0.9844 CD74 LCK HLA-DPB1
38147_at 37039_at 38833_at 0.9844 SH2D1A HLA-DRA HLA-DPA1
35016_at 2059_s_at 38833_at 0.9844 CD74 LCK HLA-DPA1
38319_at 37039_at 38095_i_at 0.9844 CD3D HLA-DRA HLA-DPB1
37039_at 38095_i_at 38949_at 0.9844 HLA-DRA HLA-DPB1 PRKCQ
38147_at 38833_at 33039_at 0.9844 SH2D1A HLA-DPA1 TRAT1
38095_i_at 38833_at 38949_at 0.9844 HLA-DPB1 HLA-DPA1 PRKCQ
33238_at 35016_at 38833_at 0.9844 LCK CD74 HLA-DPA1
38319_at 38095_i_at 33039_at 0.9844 CD3D HLA-DPB1 TRAT1
2059_s_at 37039_at 38833_at 0.9844 LCK HLA-DRA HLA-DPA1
2059_s_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
2059_s_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
2059_s_at 38095_i_at 38833_at 0.9766 LCK HLA-DPB1 HLA-DPA1
33238_at 2059_s_at 38095_i_at 0.9766 LCK LCK HLA-DPB1
35016_at 38095_i_at 33039_at 0.9766 CD74 HLA-DPB1 TRAT1
38147_at 38095_i_at 33039_at 0.9766 SH2D1A HLA-DPB1 TRAT1
33238_at 2059_s_at 33039_at 0.9766 LCK LCK TRAT1
35016_at 37039_at 33039_at 0.9766 CD74 HLA-DRA TRAT1
33238_at 38095_i_at 33039_at 0.9766 LCK HLA-DPB1 TRAT1
33238_at 38833_at 33039_at 0.9766 LCK HLA-DPA1 TRAT1
35016_at 38833_at 33039_at 0.9766 CD74 HLA-DPA1 TRAT1
33238_at 38095_i_at 38833_at 0.9688 LCK HLA-DPB1 HLA-DPA1
37039_at 38833_at 33039_at 0.9688 HLA-DRA HLA-DPA1 TRAT1
38147_at 35016_at 37039_at 0.9688 SH2D1A CD74 HLA-DRA
33238_at 2059_s_at 38833_at 0.9688 LCK LCK HLA-DPA1
37039_at 38095_i_at 33039_at 0.9688 HLA-DRA HLA-DPB1 TRAT1
38095_i_at 38833_at 33039_at 0.9609 HLA-DPB1 HLA-DPA1 TRAT1
35016_at 38095_i_at 38833_at 0.9609 CD74 HLA-DPB1 HLA-DPA1
37039_at 38095_i_at 38833_at 0.9531 HLA-DRA HLA-DPB1 HLA-DPA1
35016_at 37039_at 38095_i_at 0.9531 CD74 HLA-DRA HLA-DPB1
35016_at 37039_at 38833_at 0.9531 CD74 HLA-DRA HLA-DPA1

Tablo 2. Ek açıklamaları ALL1 kümesindeki tüm özelliklerinden. Bu ikili sınıflandırma veri kümesi B-hücresi ve T-hücre arasındaki tüm örnekleri olduğunu. Gen sembolleri son üç sütundaki tüm Mikroarray özellikleri için toplanmıştır.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Bu çalışmada bir ikili sınıflandırma Kullanıcı tarafından belirtilen veri kümesi için bir takip etmek kolay çok çözüm biyomarker algılama ve karakterizasyonu Protokolü sunar. Yazılım kullanım kolaylığı ve esnek alma/verme arabirimleri Biyomedikal bir araştırmacı kolayca yazılım GUI kullanarak kendi veri kümesi araştırmak izin çeşitli dosya biçimleri için bir vurgu yapıyor. Bu çalışmada da benzer şekilde etkili modelleme performansları, daha önce birçok varolan biyomarker algılama algoritması tarafından göz ardı ile birden fazla çözüm oluşturma gerekliliğini vurgulamaktadır. Gelecekte, yeni geliştirilen biyomarker algılama algoritmaları yeterli modelleme performansları ile tüm ara biyomarker alt kümeleri kaydederek bu seçeneği içerebilir.

Yazılım doğru biçimlendirilmiş girdi dosyası üzerinde dayanır tam otomatik bir sistem olduğu gibi bu protokol için adım 1 ve 5 çoğu, önemlidir. Test adımımız örnek adları veri matris mis maç sırasında bulunan ve sınıf etiketleri dosyaları nereye belgili tanımlık bilgisayar yazılımı dışarı bu hata hakkında bir uyarı iletişim kutusu açılır yazılımında hatalara neden olabilir. Bu nedenle, Kullanıcı bulursa hiçbir örneği veri matris yüklenen veya sınıf etiket dosyaları, sorun giderme hüner örnek adları iki giriş dosya tutarsız olup olmadığını kontrol etmektir. Hiçbir noktalar 3D scatter araziler görüntülenir, bu en iyi çözüm yüksek olmak parametre pCutoff nedeniyle olabilir. Bu durumda, sorun giderme için hiledir sınıflandırma performans ölçümü (parametre pCutoff) kesme indirin. Ancak, maksimum performans ölçüm biyomarker alt kümeleri tarafından elde hala zor bir veri kümesi için kesim tarafından engellenmiş olabilir. Bir uyarı iletişim kutusu bu en iyi performans ölçüm verecek ve Kullanıcı daha fazla analiz devam etmek için daha küçük bir kesim tercih edebilir.

Yazılımın ana kısıtlama yavaş hesaplama hızı ve onun yetenek sadece odaklanmak için en az üç özellik vardır. Özellik seçimi kimin genel olarak en uygun çözüm polinom saat59içinde çözümlenemeyen bir hesaplama sorun olarak tanımlanan NP-zor bir sorundur. Adım eleme kapsamlı biyomarker alt işlem gücü yüksek hacimli tüketir. Çalışma süresi kSolutionVis karmaşıklığı O (n3) n parametre pTopXorada. Ayrıca, bu çoklu-biyomarker algılama algoritması özellikleri, bu nedenle dizi üç veya daha az özellik hapsetmesi ekran görüntülenmesi üzerinde duruluyor. Bu sınırlama zor problemleri üzerinde çalışmak ve üçten fazla şekil-in oluşan özelliği alt kümeleri bulmak istediğiniz bazı kullanıcılar engelleyebilir. Ancak, yazılım özelliği alt kümeleri 3B alanda görüntüler ve doğrudan özellik alt kümeleri daha--dan üç boyutlu görselleştirmek zordur. Ayrıca, yukarıda sunulan temsilcisi sonuçlara dayanarak, kSolutionVis tarafından seçilen birden çok özellik üçüz olduğunu sınıflandırma ve gösterileri önemli sonuçlar önemli Biyomedikal anlamı ile son derece etkili bir yöntem.

Yazılım yararlı tamamlayıcı yazılım varolan özellik seçimi algoritmaları temsil eder. Biyomedikal alanında, özellik seçimi biyomarker, geliştirilmiş modelleme performans özelliklerin alt kümesini bulmak için amacı olarak adlandırılır60,61,62. Bir son çalışmada5' te önerilen strateji dayalı tüm üçlüsü biyomarker alt kümeleri kapsamlı tarama aracı yazılımdır. İki temsilcisi veri kümeleri yazılımın protokolü tarafından ekranlı ve bunların sonuçları benzer şekilde etkili veya bile aynı modelleme performansları ile tamamen birkaç çözümleri varlığı gösterilmektedir. Ancak, heuristic kuralları63,64,65,66 alt-optimal çözümler bulmak için istihdam, ama böyle algoritmaları diğer birçok görmezden tek bir çözüm üretmek için güçlü bir eğilim var benzer şekilde etkili veya bile aynı modelleme performansları ile çözümler. Bu nedenle, bilgisayar güç ve uzun süre yazılımın gelecekte potansiyel biyolojik daha kapsamlı bir algılanmasını sağlamak için değerli.

Temsilcisi sonuçları iki transcriptome veri kümeleri üzerinde hesaplanan, ancak yazılım kolları çeşitli standart dosya formatlarında veri giriş ve proteomik ve metabolomics de dahil olmak üzere, diğer 'omic' veri analiz etmek için de kullanılabilir. Buna ek olarak, yazılım biyomarker algılama modülü hesaplanması parallelization hızlandırabilir. GPGPU (General-Purpose grafik işleme Unite) ve kullanılabilir işlemci Intel Xeon Phi bu amaç için de dahil olmak üzere bazı çok çekirdekli donanım vardır. Ancak, bu teknolojilerin farklı kodlama stratejiler gerektiren ve yazılımın sonraki sürümünde dikkate alınacaktır.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Bu raporla ilgili hiçbir çatışması var.

Acknowledgments

Bu eser Çince Academy of Sciences (XDB13040400) ve başlangıç grant Jilin Üniversitesi stratejik öncelik araştırma programı tarafından desteklenmiştir. Adsız yorumcular ve Biyomedikal test kullanıcılar kullanılabilirlik ve kSolutionVis işlevselliğini geliştirmeye yönelik yapıcı yorumlar için takdir edildi.

Materials

Name Company Catalog Number Comments
Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

DOWNLOAD MATERIALS LIST

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. Network models and optimization: Multiobjective genetic algorithm approach. , Springer Science & Business Media. (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).

Tags

Kanser Araştırmaları sayı: 140 biyomarker algılama özellik seçimi OMIC ikili sınıflandırma filtre sarıcı aşırı öğrenme makine ELM
Benzer şekilde etkili ikili sınıflandırma performansları ile birden fazla biyomarker alt kümeleri seçmek
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Feng, X., Wang, S., Liu, Q., Li, H., More

Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter