Genetics

Metaagenomik Verilerin Biyolojik Dizilerini Sınıflandırmak için Derin ÖğrenmeYi Kullanmak için Bilgisayar Uzmanı Olmayanlar için Bir Sanal Makine Platformu

Published: September 25, 2021 doi: 10.3791/62250

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Summary

Bu öğretici, metanemik verilerin 2 sınıflı sıra sınıflandırmasını gerçekleştirmek için derin öğrenme algoritması oluşturmak için basit bir yöntemi açıklar.

Abstract

Birçok metaagenomik veri analizinde tür sınıflandırması, gen fonksiyon sınıflandırması ve viral konak sınıflandırması gibi çeşitli biyolojik dizi sınıflandırma görevleri beklenmektedir. Metasagenomik veriler çok sayıda yeni tür ve gen içerdiğinden, birçok çalışmada yüksek performanslı sınıflandırma algoritmalarına ihtiyaç vardır. Biyologlar genellikle belirli bir görev için uygun sıra sınıflandırması ve ek açıklama araçları bulmada zorluklarla karşılaşırlar ve genellikle gerekli matematiksel ve hesaplama bilgisinin eksikliği nedeniyle karşılık gelen bir algoritmayı kendi başlarına inşa edemezler. Derin öğrenme teknikleri son zamanlarda popüler bir konu haline geldi ve birçok sınıflandırma görevine güçlü avantajlar gösteriyor. Bugüne kadar, biyologların algoritma detayları hakkında derinlemesine bilgi sahibi olmadan kendi ihtiyaçlarına göre derin öğrenme çerçeveleri oluşturmalarını mümkün kılan çok sayıda yüksek paketli derin öğrenme paketi geliştirilmiştir. Bu öğreticide, yeterli matematiksel bilgiye veya programlama becerisine ihtiyaç duymadan sıra sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesi oluşturmak için bir kılavuz sunuyoruz. Tüm kod, kullanıcıların kendi verilerini kullanarak kodu doğrudan çalıştırabilmeleri için bir sanal makinede en iyi duruma getirilir.

Introduction

Metanemik dizileme tekniği gerinim izolasyon sürecini atlar ve çevresel bir örnekteki toplam DNA'yı doğrudan sıralar. Bu nedenle, metasagenomik veriler farklı organizmalardan DNA içerir ve biyolojik dizilerin çoğu mevcut veritabanında bulunmayan yeni organizmalardandır. Farklı araştırma amaçlarına göre, biyologların bu dizileri taksonomik sınıflandırma 1 , virüs-bakteri sınıflandırması 2,³^,⁴, kromozom-plazmid sınıflandırması 3 ,⁵^,⁶^,⁷ve gen fonksiyonu ek açıklaması (antibiyotik direnci gen sınıflandırması⁸ ve virülans faktörü sınıflandırması^{9 gibi farklı açılardan sınıflandırmaları gerekir.}). Metasagenomik veriler çok sayıda yeni tür ve gen içerdiğinden, dizi sınıflandırması için bilinen veritabanlarına (DNA sınıflandırması ve protein sınıflandırması dahil) dayanmayan ab initio algoritmaları metasagenomik veri analizinde önemli bir yaklaşımdır. Bununla birlikte, bu tür algoritmaların tasarımı profesyonel matematik bilgisi ve programlama becerileri gerektirir; bu nedenle, birçok biyolog ve algoritma tasarımı yeni başlayanlar kendi ihtiyaçlarına uygun bir sınıflandırma algoritması oluşturmak zor vardır.

Yapay zekanın gelişmesiyle birlikte, metaagenomik analizde sıra sınıflandırması gibi görevleri tamamlamak için biyoinformatik alanında derin öğrenme algoritmaları yaygın olarak kullanılmıştır. Yeni başlayanların derin öğrenme algoritmalarını anlamalarına yardımcı olmak için algoritmayı aşağıda anlaşılması kolay bir şekilde açıklıyoruz.

Şekil 1'dederin öğrenme tekniğine genel bir bakış gösterilmiştir. Derin öğrenme algoritmasının temel teknolojisi, insan beyninin yapısından ilham alan yapay bir sinir ağıdır. Matematiksel açıdan, yapay bir sinir ağı karmaşık bir işlev olarak kabul edilebilir. Her nesne (DNA dizisi, fotoğraf veya video gibi) önce dijitalleştirilir. Dijitalleştirilmiş nesne daha sonra işleve içe aktarılır. Yapay sinir ağının görevi, giriş verilerine göre doğru bir yanıt vermektir. Örneğin, 2 sınıflı bir sınıflandırma görevi gerçekleştirmek için yapay bir sinir ağı oluşturulursa, ağ her nesne için 0-1 arasında bir olasılık puanı çıkarmalıdır. Sinir ağı, negatif nesneye daha düşük bir puan verirken pozitif nesneye daha yüksek bir puan (0,5'ten yüksek bir puan gibi) vermelidir. Bu amaca ulaşmak için eğitim ve test süreçleri ile yapay bir sinir ağı oluşturulur. Bu işlemler sırasında, bilinen veritabanındaki veriler indirilir ve daha sonra bir eğitim kümesine ve test kümesine ayrılır. Her nesne uygun bir şekilde dijitalleştirilir ve bir etiket verilir (pozitif nesneler için "1", negatif nesneler için "0"). Eğitim sürecinde, eğitim kümesindeki dijitalleştirilmiş veriler sinir ağına girilir. Yapay sinir ağı, giriş nesnesinin çıkış puanı ile nesnenin karşılık gelen etiketi arasındaki benzerliği temsil eden bir kayıp işlevi oluşturur. Örneğin, çıkış puanı "0,1" iken giriş nesnesinin etiketi "1" ise, kayıp işlevi yüksek olacaktır; ve çıkış puanı "0,1" iken giriş nesnesinin etiketi "0" ise, kayıp işlevi düşük olacaktır. Yapay sinir ağı, kayıp işlevini en aza indirmek için sinir ağının parametrelerini ayarlayan belirli bir yineleme algoritması kullanmaktadır. Kayıp fonksiyonu açıkça daha da azaltılamadığında eğitim süreci sona erecek. Son olarak, test kümesindeki veriler sabit sinir ağını test etmek için kullanılır ve sinir ağının yeni nesneler için doğru etiketleri hesaplama yeteneği değerlendirilir. Derin öğrenme algoritmalarının daha fazla ilkesi LeCun ve ark.'daki incelemede bulunabilir. ¹⁰.

Derin öğrenme algoritmalarının matematiksel ilkeleri karmaşık olsa da, son zamanlarda çok paketlenmiş birçok derin öğrenme paketi geliştirilmiştir ve programcılar birkaç kod satırıyla doğrudan basit bir yapay sinir ağı oluşturabilirler.

Biyologlara ve algoritma tasarımına yeni başlayanların derin öğrenmeyi daha hızlı kullanmaya başlamalarına yardımcı olmak için, bu öğretici sıra sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesi oluşturmak için bir kılavuz sağlar. Bu çerçeve, biyolojik dizileri dijitalleştirmek için matematiksel model olarak "tek sıcak" kodlama formunu kullanır ve sınıflandırma görevini gerçekleştirmek için bir evrişim sinir ağı kullanır (ek malzemeyebakın). Kullanıcıların bu kılavuzu kullanmadan önce yapmaları gereken tek şey, dört sıra dosyasını "fasta" biçiminde hazırlamaktır. İlk dosya, eğitim süreci için pozitif sınıfın tüm dizilerini içerir ("p_train.fasta" olarak adlandırılır); ikinci dosya, eğitim süreci için negatif sınıfın tüm dizilerini içerir ("n_train.fasta" olarak adlandırılır); üçüncü dosya, test işlemi için pozitif sınıfın tüm dizilerini içerir ("p_test.fasta" olarak adlandırılır); ve son dosya test işlemi için negatif sınıfın tüm dizilerini içerir ("n_test.fasta" olarak adlandırılır). Bu öğreticinin akış çizelgesine genel bakış Şekil 2'de verilmiştir ve aşağıda daha fazla ayrıntı belirtilecektir.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Sanal makinenin kurulumu

Sanal makine dosyasını (https://github.com/zhenchengfang/DL-VM) içinden indirin.
VirtualBox yazılımını https://www.virtualbox.org'dan indirin.
"7-Zip", "WinRAR" veya "WinZip" gibi ilgili yazılımları kullanarak ".7z" dosyasını açın.
Her adımda İleri düğmesini tıklatarak VirtualBox yazılımını yükleyin.
VirtualBox yazılımını açın ve sanal makine oluşturmak için Yeni düğmesini tıklatın.
Adım 6: Belirtilen sanal makine adını "Ad" çerçevesine girin, "Tür" çerçevesinde işletim sistemi olarak Linux'u seçin, "Sürüm" çerçevesinde Ubuntu'yu seçin ve İleri düğmesini tıklayın.
Sanal makinenin bellek boyutunu ayırın. Kullanıcıların sanal makineye mümkün olduğunca fazla bellek atamak için düğmeyi yeşil çubuğun en sağ kısmına çekmelerini ve ardından İleri düğmesini tıklatmalarını öneririz.
Varolan sanal sabit disk dosyası seçimini kullan'ı seçin, Adım 1.1'den indirilen "VM_Bioinfo.vdi" dosyasını seçin ve oluştur düğmesini tıklatın.
Sanal makineyi açmak için Yıldız düğmesini tıklatın.
NOT: Şekil 3, sanal makinenin masaüstünün ekran görüntüsünü gösterir.

2. Fiziksel ana bilgisayar ve sanal makine arasında alışveriş dosyaları için paylaşılan klasörler oluşturun

Fiziksel ana bilgisayarda "shared_host" adlı paylaşılan bir klasör oluşturun ve sanal makinenin masaüstünde "shared_VM" adlı paylaşılan bir klasör oluşturun.
Sanal makinenin Menü Çubuğu'nda Aygıtlar, Paylaşılan Klasör, Paylaşılan Klasörler Ayarları'nı art arda tıklatın.
Sağ üst köşedeki düğmeyi tıklatın.
Adım 2.1'de oluşturulan fiziksel ana bilgisayardaki paylaşılan klasörü seçin ve Otomatik bağlama seçeneğini belirleyin. Tamam düğmesini tıklatın.
Sanal makineyi yeniden başlatın.
Sanal makinenin masaüstüne sağ tıklayın ve terminali açın.
Aşağıdaki komutu terminale kopyalayın:
sudo mount -t vboxsf shared_host ./Masaüstü/shared_VM
1. Parola istendiğinde, "1" girin ve Şekil 4'tegösterildiği gibi "Enter" tuşuna basın.

3. Dosyaları eğitim seti ve test seti için hazırlayın

Eğitim ve test işlemi için dört sıra dosyasını da "fasta" biçiminde fiziksel ana bilgisayarın "shared_host" klasörüne kopyalayın. Bu şekilde, tüm dosyalar sanal makinenin "shared_VM" klasöründe de yer alacaktır. Ardından, "shared_VM" klasöründeki dosyaları sanal makinenin "DeepLearning" klasörüne kopyalayın.

4. "Tek sıcak" kodlama formunu kullanarak biyolojik dizileri dijitalleştirin

"DeepLearning" klasörüne gidin, sağ tıklayın ve terminali açın. Aşağıdaki komutu yazın:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
(amino asit dizileri için)
veya
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
(nükleik asit dizileri için)
NOT: Bu işlemin ekran görüntüsü Şekil 5.

5. Yapay sinir ağını eğitin ve test edin

Terminalde, Şekil 6'dagösterildiği gibi aşağıdaki komutu yazın:
piton train.py
NOT: Eğitim süreci başlayacaktır.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Önceki çalışmamızda, bu öğreticiye benzer bir yaklaşım kullanarak metanezomik veriler için bir dizi sıra sınıflandırma aracı geliştirdik³^,¹¹^,¹². Örnek olarak, önceki çalışmamız³^,^11'den eğitim seti ve test kümesinin alt kümesinin sıra dosyalarını sanal makineye yatırdık.

Fang & Zhou¹¹ virom verilerinden tam ve kısmi prokaryot virüs virion proteinlerini tanımlamayı amaçladı. "p_train.fasta" dosyası, eğitim kümesi için virüs virion protein parçalarını içerir; "n_train.fasta" dosyası, eğitim kümesi için virüs nonvirion protein parçalarını içerir; "p_test.fasta" dosyası test kümesi için virüs virion protein parçalarını içerir; ve "n_test.fasta" dosyası test kümesi için virüs nonvirion protein parçalarını içerir. Kullanıcı, sinir ağını oluşturmak için aşağıdaki iki komutu doğrudan yürütebilir:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
ve
piton train.py

Performans Şekil 7'de gösterilmiştir.

Fang ve ark.^3, metanemik verilerdeki bakteri kromozomu DNA parçalarından faj DNA parçalarını tanımlamayı amaçladı. "phage_train.fasta" dosyası eğitim seti için faj DNA parçalarını içerir; "chromosome_train.fasta" dosyası, eğitim kümesi için kromozom DNA parçalarını içerir; "phage_test.fasta" dosyası test kümesi için faj DNA parçalarını içerir; ve "chromosome_test.fasta" dosyası test seti için kromozom DNA parçalarını içerir. Kullanıcı, sinir ağını oluşturmak için aşağıdaki iki komutu doğrudan yürütebilir:
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
ve
piton train.py

Performans Şekil 8'de gösterilmiştir.

Algoritma rastgeleliğe sahip bazı işlemler içerdiğinden, kullanıcılar komut dosyasını yeniden çalıştırırsa yukarıdaki sonuçların biraz farklı olabileceğini belirtmek gerekir.

Şekil 1. Derin öğrenme tekniğine genel bakış. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 2. Bu öğreticinin akış çizelgesine genel bakış. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 3. Sanal makinenin masaüstünün ekran görüntüsü. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 4. Paylaşılan klasörlerin etkinleştirilmesinin ekran görüntüsü. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 5. Sıralı dijitalleştirme işleminin ekran görüntüsü. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 6. Yapay sinir ağını eğitin ve test edin. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 7. Prokaryot virüs virion protein parçalarının tanımlanmasının performansı. Değerlendirme kriterleri Sn=TP/(TP+FN), Sp=TN/ (TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) ve AUC 'dir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 8. Faj DNA parçalarının tanımlanmasının performansı. Değerlendirme kriterleri Sn=TP/(TP+FN), Sp=TN/ (TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) ve AUC 'dir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Tamamlayıcı Materyal: Bu dosyayı indirmek için lütfen buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Bu öğretici, biyologlar ve algoritma tasarımına yeni başlayanlar için metanenomik verilerde biyolojik dizi sınıflandırması için kullanımı kolay bir derin öğrenme çerçevesinin nasıl oluşturulacağı hakkında genel bir bakış sağlar. Bu öğretici, derin öğrenmenin sezgisel olarak anlaşılmasını sağlamayı ve yeni başlayanların genellikle derin öğrenme paketini yüklemekte ve algoritmanın kodunu yazmakta zorlandığı zorluğu ele almayı amaçlamaktadır. Bazı basit sınıflandırma görevleri için, kullanıcılar sınıflandırma görevlerini gerçekleştirmek için çerçeveyi kullanabilir.

Birçok biyoloğun Linux işletim sisteminin komut satırına aşina olmadığını göz önünde bulundurarak, tüm bağımlı yazılımları bir sanal makineye önceden yükledik. Bu şekilde, kullanıcı yukarıda belirtilen protokolü izleyerek kodu doğrudan sanal makinede çalıştırabilir. Ayrıca, kullanıcılar Linux işletim sistemi ve Python programlama hakkında bilgi sahibiyse, bu protokolü doğrudan sunucuda veya yerel bilgisayarda da çalıştırabilirler. Bu şekilde, kullanıcı aşağıdaki bağımlı yazılımı önceden yüklemelidir:

Python 2.7.12 (https://www.python.org/)
Python paketleri:
numpy 1.13.1 (http://www.numpy.org/)
h5py 2.6.0 (http://www.h5py.org/)
TensorFlow 1.4.1 (https://www.tensorflow.org/)
Keras 2.0.8 (https://keras.io/)
MATLAB Bileşen Çalışma Zamanı (MCR) R2018a (https://www.mathworks.com/products/compiler/matlab-runtime.html)

Önceki çalışmamızın kılavuzu³ kurulumun kısa bir açıklamasına sahiptir. Her paketin sürüm numarasının kodda kullandığımız sürüme karşılık geldiğini unutmayın. Kodu sanal makine olmadan sunucuda veya yerel bilgisayarda çalıştırmanın avantajı, kodun bu şekilde bir GPU ile hızlanabilmesidir ve bu da eğitim sürecinde çok zaman kazandırabilir. Bu şekilde, kullanıcı TensorFlow'un GPU sürümünü yüklemelidir (önceki çalışma kılavuzuna bakın³).

Protokol içindeki kritik adımlardan bazıları aşağıdaki gibi açıklanmıştır. 4.1. adımda, "p_train.fasta", "n_train.fasta", "p_test.fasta" ve "n_test.fasta" dosya adları kullanılan dosya adlarıyla değiştirilmelidir. Bu komuttaki bu dört dosyanın sırası değiştirilemez. Dosyalar amino asit dizileri içeriyorsa, son parametre "aa" olmalıdır; dosyalar nükleik asit dizileri içeriyorsa, son parametre "nt" olmalıdır. Bu komut, biyolojik dizileri dijitalleştirmek için "tek sıcak" kodlama formunu kullanır. Ek Malzemede "tek sıcak" kodlama formunun tanıtımı sağlanmaktadır. 5.1. adımda, sanal makine GPU ile hızlandırılamadığından, veri boyutuna bağlı olarak bu işlem birkaç saat veya birkaç gün sürebilir. Her yineleme dönemi için ilerleme çubukları terminalde gösterilir. Dönem sayısını 50 olarak belirledik ve böylece eğitim süreci bittiğinde toplam 50 ilerleme çubuğu görüntülenecek. Test işlemi tamamlandığında, test kümesinin doğruluğu terminalde görüntülenir. Sanal makinenin "DeepLearning" klasöründe "predict.csv" adlı bir dosya oluşturulur. Bu dosya, test verileri için tüm tahmin puanlarını içerir. Bu puanların sırası "p_test.fasta" ve "n_test.fasta" dizi sırasına karşılık gelir (bu puanların ilk yarısı "p_test.fasta"ya, ikinci yarısı ise "n_test.fatsa"ya karşılık gelir). Kullanıcılar gerçek sınıfları bilinmeyen diziler için tahminlerde bulunmak istiyorlarsa, bu bilinmeyen dizileri "p_test.fasta" veya "n_test.fasta" dosyasına da yatırabilirler. Bu şekilde, bu bilinmeyen dizilerin puanları da "tahmin.csv" dosyasında görüntülenecektir, ancak terminaldeki "doğruluk" ekranı mantıklı değildir. Bu komut dosyası sınıflandırmayı gerçekleştirmek için bir eşzaklı sinir ağı kullanmaktadır. Sinir ağının yapısı ve sinir ağı kodu Ek Malzeme 'de gösterilmiştir.

Derin öğrenmenin özelliklerinden biri, birçok parametre ayarının yeni başlayanlar için büyük bir zorluk olabilecek bir deneyim gerektirdir. Çok sayıda formülün neden olduğu acemi endişesini önlemek için, derin öğrenmenin matematiksel ilkelerine odaklanmıyoruz ve sanal makinede özel bir parametre ayarı arayüzü sağlamıyoruz. Bu yeni başlayanlar için iyi bir seçim olsa da, uygunsuz parametre seçimi de hassasiyette düşüşe neden olabilir. Yeni başlayanların parametrelerin nasıl değiştirileceği hakkında daha iyi deneyime sahip olmalarına izin vermek için, "train.py" komut dosyasında, ilgili koda bazı açıklamalar ekleriz ve kullanıcılar bu parametrelerin performansı nasıl etkilediğini görmek için konvolüsyon çekirdeklerinin sayısı gibi ilgili parametreleri değiştirebilir.

Ayrıca, birçok derin öğrenme programı bir GPU altında çalıştırılmalıdır. Ancak, GPU'yu yapılandırmak, bilgisayar uzmanı olmayanlar için zor olabilecek bazı bilgisayar becerileri de gerektirir; bu nedenle, kodu bir sanal makinede en iyi duruma getirmeyi seçiyoruz.

Bu kılavuza dayalı diğer sıra sınıflandırma görevlerini çözerken, kullanıcıların yalnızca dört sıralı dosyayı kendi verileriyle değiştirmeleri gerekir. Örneğin, kullanıcıların metanezomik verilerde plazmid türevli ve kromozom türevi dizileri ayırt etmeleri gerekiyorsa, plazmid genomlarını (https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) ve bakteri kromozom genomlarını (https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/) doğrudan RefSeq veritabanından indirebilir ve genomları bir eğitim kümesine ve test kümesine ayırabilirler. Metaagenomik verilerdeki DNA dizilerinin genellikle tam genomlar yerine parçalandığını belirtmek gerekir. Bu gibi durumlarda, kullanıcılar DNA parçasını tam genomdan çıkarmak için MetaSim¹³ aracını kullanabilirler. MetaSim, GUI arabirimine sahip kullanıcı dostu bir araçtır ve kullanıcılar klavyede herhangi bir komut yazmadan fareyi kullanarak çoğu işlemi tamamlayabilir. Yeni başlayanlar için işlemi basitleştirmek için öğreticimiz iki sınıflı bir sınıflandırma görevi için tasarlanmıştır. Ancak, birçok görevde çoklu sınıflandırma yapmamız gerekir. Bu gibi durumlarda, yeni başlayanlar çok sınıflılık görevini birkaç iki sınıflı sınıflandırma görevine ayırmayı deneyebilirler. Örneğin, faj konağını tanımlamak için Zhang ve arkadaşları, belirli bir faj dizisinin belirli bir ana bilgisayara bulaşıp bulaşmayacağını belirlemek için 9 iki sınıflı sınıflandırıcı inşa etti.

Bu öğreticinin ana sayfası github sitesine https://github.com/zhenchengfang/DL-VM yatırılır. Öğreticinin herhangi bir güncellemesi web sitesinde açıklanacaktır. Kullanıcılar ayrıca web sitesinde bu öğretici hakkında sorularını yanıtlayabilirler.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarlar çıkar çatışması olmadığını beyan eder.

Acknowledgments

Bu soruşturma Çin Ulusal Doğa Bilimleri Vakfı (81925026, 82002201, 81800746, 82102508) tarafından finansal olarak desteklendi.

Materials

Name	Company	Catalog Number	Comments
PC or server	NA	NA	Suggested memory: >6GB
VirtualBox software	NA	NA	Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Genetics

Metaagenomik Verilerin Biyolojik Dizilerini Sınıflandırmak için Derin ÖğrenmeYi Kullanmak için Bilgisayar Uzmanı Olmayanlar için Bir Sanal Makine Platformu

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.