$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Bu temsili sonuçlar, bu protokolde belirtilen prosedür izlenerek elde edilmiştir. CaseOLAP LIFT protokolü5'i takiben, varsayılan parametrelerle, sekiz geniş kardiyovasküler hastalıkkategorisini 72 ve bunların mitokondriyal proteinlerle ilişkisini inceleyen bir metin madenciliği ilişkilendirme analizi gerçekleştirildi (GO:0005739). Mayıs 2024'e kadar toplam 635.696 bildirimin bu hastalıklarla ilgili olduğu belirlendi; Bunlar arasında, aşağı akış analizlerini bilgilendirmek için 4.655 yüksek güvenilirlikli protein-hastalık ilişkisi tespit edildi. Mayıs 2024'te varsayılan ayarlar kullanılarak Know2BIO'nun yazılım kodu kullanılarak bir biyomedikal bilgi grafiği oluşturuldu9. Elde edilen bilgi grafiği, 219.450 düğüm, 6.323.257 kenar ve ayrıca 189.493 düğüm için düğüm özellikleri, düğüm açıklamaları, protein/gen dizileri, kimyasal yapı vb. ile oluşur. Protokoldeki tüm adımlar için tahmini hesaplama süresi Tablo 1'de sunulmuştur.
RUGGED sistemi, hem bilgi grafiği düğümleri hem de özellikler ve ayrıca CVD ile ilgili yayınlar için vektör veritabanları oluşturularak başlatıldı. Tüm bilgi grafiği düğümleri, kenarlar ve düğüm özellikleri, RAG vektör aramasına hazırlanmak için BART71 gömme modeliyle 20 tokenlik bir yığın boyutuyla işlendi. Benzer şekilde, orijinal katkılar ve inceleme makaleleri, RAG vektör aramasına hazırlanmak için 500 tokenlik bir yığın boyutu ve BART gömme modeli kullanılarak işlendi. Literatür erişimi için, 500 token'dan büyük tam metin yayınlar, BART gömme modeli tarafından bir yayının ayrı bölümlerine dayalı olarak hiyerarşik olarak özetlenmiştir. Sistemde kalan LLM ajanları için GPT-4o modeli kullanıldı.
Bu temsili sonuçlar, sırasıyla MeSH_Disease: D019571 ve MeSH_Disease: D002311 olarak tanımlanan Aritmik Kardiyomiyopati (ACM) ve Dilate Kardiyomiyopati (DCM) için potansiyel ilaç terapötiklerini araştırmak için örnek bir kullanım durumu göstermektedir. Şekil 3'te bir dizi sorgulama özetlenmiştir, Şekil 4'te gösterilen model yanıtlarının vurgulanan örnekleri ve Ek Dosya 1, Bölüm A'da bildirilen tam yanıt verilmiştir. Sorgulama yönü, araştırmacı tarafından doğrulanan yanıtlara uyarlandı ve önceki yanıtların sonuçlarına dayalı olarak sonraki sorgular hazırlandı. Analizde beta blokerler ve antiaritmikler altında sınıflandırılan 11 ilaç adayı ortaya çıktı. Terapötik tedavi için yeni yollar, Tablo 4'te bildirilen değerlendirme metrikleri ile, çalışma hastalığı ve ilaç düğümlerinden 1 atlama içindeki düğümler ve bunların ara bağlantıları dahil olmak üzere, tam bilgi grafiğinin bir alt kümesi üzerinde bir Grafik Evrişimli Sinir Ağı bağlantı tahmin modeli kullanılarak değerlendirildi. Model tarafından her bir tahmin için ilgili ilk 10 kenar, sırasıyla her bir tahmine katkıda bulunan üst düğümleri ve kenarları belirlemek için bir grafik açıklanabilirlik modülü olan GNNExplainer44 tarafından daha fazla incelendi. Bu kullanım durumu için RUGGED protokolünün tüm adımları için ticari LLM kullanmanın toplam maliyetinin, yazma sırasında 1,50 ABD doları olduğu tahmin edilmektedir.

Şekil 1: Grafik Kılavuzlu Açıklanabilir Hastalık Ayrımı (RUGGED) iş akışı altında alma. RUGGED dört ana bileşenden oluşur: (1) etik kaynaklı ve profesyonelce yönetilen kaynaklardan (örneğin, PubMed ve küratörlü biyomedikal bilgi tabanları) verilerin bir araya getirilmesi ve işlenmesi, (2) hakemli araştırma bulgularının birleşik bir bilgi grafiğine entegre edilmesi, (3) metin ve grafik verilerinin veritabanı hizmetleri içinde yapılandırılması, (4) bilgi grafiği içindeki biyomedikal varlıklar arasındaki açıklanabilir ilişkilerin modellenmesi ve tahmin edilmesi, ve (5) karmaşık moleküler ilişkileri doğrulamak ve yapay zeka güdümlü hastalık tahminlerini keşfetmek için bir Geri Alma Artırılmış Nesil (RAG) iş akışı (Şekil 2) aracılığıyla bilgi almak ve sentezlemek. Çıktının doğruluğunu artırmak için kullanıcı tarafından döngüdeki insan inceleme adımı gerçekleştirilebilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 2: Alma mimarisi ve yanlılık azaltma iş akışı. Retrieval Augmented Generation (RAG) çerçevesi, her biri kullanıcı sorgusuna dayalı olarak ilgili bilgilere erişimi desteklemek için belirli görevleri yerine getiren birden fazla LLM aracısı kullanır. Bu sistem, kullanıcıya dönük GPT tabanlı Akıl Yürütme Aracısı için belgelenmiş kanıtlar sağlayarak kullanıcı-aracılı etkileşimi ve bilgi sentezini kolaylaştırır. (1) Biyomedikal Metin Erişimi: Hakemli orijinal katkılar ve derleme makaleleri, hastalık ilişkilerini anlamakla ilgilerine göre filtrelenir. Yazar ve editör tarafından doğrulanmış metin kanıtları için yayının ilgili bölümüne göre ağırlıklandırılan bir vektör veritabanı oluşturulur: p Özet, Bulgular, Meta Veri ve diğer tüm alt bölümler için . Anahtar kelime araması ve kullanıcı sorgusunun metne gömülmesine karşı benzerlik araması, ilgili belgeleri tanımlar. Her belgenin özetleri, BERT tabanlı bir özetleyici kullanılarak oluşturulur ve GPT tabanlı Metin Değerlendirici Aracısı, sorgu-belge alaka düzeyini doğrulamak için aramayı iyileştirir. (2) Bilgi Grafiği Alma: BERT tabanlı bir adlandırılmış varlık tanıma ve GPT tabanlı ilişki çıkarma modülü, kullanıcı sorgusunu bilgi grafiğindeki ilgili varlıklara bağlar. Bir vektör veritabanındaki benzerlik araması, ilgili düğümleri ve kenarları tanımlar. Veriler, GPT tabanlı Cypher Query Agent tarafından oluşturulan Cypher sorguları aracılığıyla Neo4j veritabanından alınır ve Query Verification Agent tarafından rafine edilir. (3) Biyomedikal Metin Alma veya Bilgi Grafiği Alma boru hatlarından gelen bireysel yanıtlar, kullanıcının sorgusuna minimum önyargı ile kısa bir yanıt sentezleyen Akıl Yürütme Aracısına sunulur. Bu sistem, olgusal bilgilerin sunulmasında doğruluğu ve tarafsızlığı korumak için yönlendirilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 3: Uygulamalısorgu kaskad aracılığıyla bilgi sentezi ve hipotez keşfi üzerine kullanım örneği. Bu şekil, bir araştırmacının ve/veya sağlık uzmanının RUGGED sistemine yöneltebileceği ilgili sorular ve kavramlar zincirine odaklanan vurgulanmış bir kullanım durumunu göstermektedir. Kullanıcıdan gelen sorgular, her soru arasında çıkarılan mantıksal ve alana özgü akıl yürütmeyi temsil eden oklarla birlikte sisteme sayısal sırayla sunulur. Sistem, sorguya yanıt vererek örtük ve ilgili bilgilerden (mavi renkle gösterilen kaynak) alır. Sistem yanıtlarının örnekleri Şekil 4'te sunulmuştur. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Şekil 4: Kullanım örneği kardiyovasküler patoloji: CVD patogenezinin aydınlatılması. Kullanıcı ve RUGGED sistemi arasındaki sorgu-yanıt çiftleri gösterilir. Sol üst panelde, 1-6 arasındaki sorular, kanıta dayalı yanıtları formüle etmek için bilgi grafiği veritabanından bilgi çıkararak bilgi alır. Soru 7, en yüksek puanı alan terapötikleri belirlemek için açıklanabilir bir grafik bağlantı tahmini kullanır. Sorgu, sistem tarafından otomatik olarak yürütülen ve işlenen bir tahmin analizi ister ve önemli bulgular kısa ve öz bir şekilde özetlenir. Soru 8, tahmin edilen bulguyu doğrulamak, doğrulamak ve desteklemek için ilgili kanıt olarak alınan tanımlanmış metin veri külliyatından elde edilen literatür kanıtlarını değerlendirir. Sistem yanıtları, döngüdeki insan inceleme süreciyle gözden geçirildi ve okunabilirlik ve kısalık için değiştirildi. Bu bulguların tam bir transkripti Ek Dosya 1'de detaylandırılmıştır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
| Adım -ları | Açıklama | Saat |
| Biyomedikal Bilgiye Erişim | Toplam 0 |
| Biyomedikal literatür külliyatı hazırlama | PubMed ve PubMed Central'a bağlanın, aşağı akış görevleri için yayın verilerini indirin ve ayrıştırın. | 20% |
| Bilgi bankası verilerini hazırlama | Biyomedikal bilgi bankalarına bağlanın, aşağı akış görevleri için gerekli bilgileri indirin ve ayrıştırın. | 5% |
| Bilgi Çıkarma | Toplam 0 |
| CaseOLAP LIFT Metin Madenciliği Analizi | Biyomedikal metin külliyatı içindeki yüksek düzeyli hastalık-protein ilişkilerini tanımlayın. | 25% |
| Bilgi Grafiği Oluşturma | Biyomedikal bilgi tabanlarındaki farklı bilgileri birleşik bir bilgi grafiğine bağlayın ve entegre edin. | 5% |
| Tahmin Analizi | Toplam |
| Tren Grafiği Sinir Ağı | Grafikteki gizli kalıpları öğrenmek için modeli biyomedikal bilgi grafiği verileri üzerinde eğitin. | 5% |
| Alaka Düzeyi Sıralaması Analizi | Hastalığı incelemekle ilgili en uygun düğümleri ve kenarları vurgulamak için açıklanabilirlik modülünü uygulayın. | 2.5% |
| Bağlantı Tahmini | Yeni tahmin edilen kenarlara katkıda bulunan önemli düğümleri ve kenarları belirlemek için açıklanabilirlik modülünü kullanın. | 2.5% |
| Hipotez Oluşturma ve/veya Doğrulama | Toplam 0 |
| Artırılmış Nesil Alma için Veritabanı Kurulumu | Bilgi grafiğini sorgulamak için grafik veritabanını ve metin alımı için vektör veritabanını başlatın. | 25% |
| Hipotez Araştırması | Hipotez keşfi için ilgili bilgilere erişmek ve bunları incelemek için RUGGED ile kullanıcı etkileşimini etkinleştirin. | 5% |
Tablo 1: İş akışı ve hız sınırlama adımları. Bu tablo, iş akışının her aşaması için gereken hesaplama süresinin kabaca tahminlerini sağlar. Hız sınırlayıcı adımlar, geri alma ile artırılmış üretim için gerekli biyomedikal bilgiye erişmeyi, çıkarmayı ve indekslemeyi içerir. Hipotez araştırması, hız sınırlayıcı adımların yeniden uygulanmasına gerek kalmadan sürekli olarak tekrarlanabilir.
| Hastalık Kategorisi | MeSH Ağaç Numaraları | # PMID'ler | # Özgün Katkılar | # İnceleme Makaleleri |
| Kardiyomiyopatiler (CM) | C14.280.238 | 132,531 | 102,337 | 19,942 |
| C14.280.434 |
| Kardiyak Aritmiler (ARR) | C14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| Konjenital Kalp Kusurları (KKH) | 14.280.400 civarı | 82,006 | 54,023 | 6,379 |
| Kalp Kapak Hastalıkları (VD) | C14.280.484 | 72,016 | 50,119 | 5,743 |
| Miyokard İskemisi (İBH) | C14.280.647 | 256,986 | 210,042 | 30,223 |
| Kardiyak İletim Sistemi Hastalığı (CCD) | C14.280.123 | 53,050 | 35,399 | 4,363 |
| Ventriküler Çıkış Tıkanıklığı (VOO) | C14.280.955 | 22,244 | 15,504 | 1,686 |
| Diğer Kalp Hastalıkları (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| Toplam | 635,696 | 478,404 | 69,690 |
Tablo 2: Biyomedikal literatür istatistikleri. Bu tablo, çalışma hastalık kategorilerini, karşılık gelen MeSH ağaç numaraları ve metin madenciliği için derlem olarak kullanılan Mayıs 2024'e kadar alınan PubMed belgelerinin sayısıyla birlikte detaylandırır. Bu yayınların özgün katkı araştırma makaleleri ve derleme makalelerinden oluşan bir alt kümesi, hipotez oluşturma sırasında RUGGED tarafından geri alınmak üzere bir vektör veritabanına indekslenmektedir.
| Kategori | Düğüm Sayısı | Kenar Sayısı | Veri Kaynakları |
| Anatomi | 5,049 | 122,533 | Bgee, PubMed, MeSH, Uberon, |
| Biyolojik Süreç | 27,047 | 108,106 | Gen Ontolojisi |
| Hücresel Bileşen | 4,057 | 52,238 | Gen Ontolojisi |
| Bileşik | 27,278 | 3,292,028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight İlaçlar, Hetionet, PathFX, MyChem.info |
| Hastalık | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| İlaç Sınıfı | 5,721 | 8,283 | ATC |
| Gen | 29,810 | 943,419 | HGNC, GRNdb, KEGG, ClinVar, ClinGen, |
| Moleküler fonksiyon | 11,151 | 47,086 | SMPDB, DisGENET, PharmGKB, MyGene.info |
| Patika | 52,012 | 234,944 | Gen Ontolojisi |
| Protein | 20,740 | 1,074,809 | Reaktom, KEGG, SMPDB |
| Tepkime | 14,647 | 128,038 | UniProt, Reactome, TTD, SMPDB, STRING, HGNC |
| Ara toplam | 219,450 | 6,323,257 | Reaktom |
| Metin Madenciliği Dernekleri | 8 | 4,670 | |
| Toplam | 219,458 | 6,327,927 | |
Tablo 3: Bilgi grafiği istatistikleri. Bu tablo, metin madenciliği analizi ve tahmine dayalı analizden türetilen ek kenarlarla zenginleştirilmiş, yapılandırılmış Know2BIO bilgi grafiğini içeren 11 geniş biyomedikal kategoriyi detaylandırmaktadır. Elde edilen bilgi grafiği ve tahminler, hipotez oluşturma sırasında RUGGED tarafından alınmak üzere Neo4j grafik veritabanı tarafından yönetilir.
| Doğruluk | Kesinlik | Anımsamak | F1 skoru | AUROC (Avustralya Halk Cumhuriyeti) | Avustralya Halk Cumhuriyeti |
| Doğrulama | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| Test | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
Tablo 4: Açıklanabilir yapay zeka modeli değerlendirmesi.