Method Article

Kanıta Dayalı Bilgi Sentezi ve Hipotez Doğrulama: Açıklanabilir Yapay Zeka ve Ajan Sistemler Aracılığıyla Biyomedikal Bilgi Tabanlarında Gezinme

DOI:

10.3791/67525

June 13th, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu makalede, Büyük Dil Modeli (LLM) çıkarımını Geri Alma-Artırılmış Nesil (RAG) ile tümleştiren RUGGED (Grafik Güdümlü Açıklanabilir Hastalık Ayrımı Altında Geri Alma) açıklanmaktadır. Güncel bilgilerden yeni bilgileri sentezlemek, açıklanabilir ve eyleme geçirilebilir tahminleri belirlemek ve hipoteze dayalı araştırmalar için umut verici yönleri belirlemek için uzman küratörlüğünde biyomedikal bilgi tabanlarından ve hakemli biyomedikal yayınlardan kanıtlar alır.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bilimsel literatürü ve küratörlüğünde bilgi tabanlarını kapsayan biyomedikal bilgi ölçeği, bulguları etkili bir şekilde işleme, değerlendirme ve yorumlamada araştırmacılar için önemli bir zorluk teşkil etmektedir. Büyük Dil Modelleri (LLM'ler), bu karmaşık bilgi ortamında gezinmek için güçlü araçlar olarak ortaya çıkmıştır, ancak halüsinasyon tepkileri üretebilir. Geri Alma-Artırılmış Nesil (RAG), doğruluğu ve güvenilirliği artırmak için ilgili bilgileri tanımlamak için gereklidir. Bu protokol, bilgi entegrasyonunu desteklemek, önyargıyı azaltmak ve yeni araştırma yönlerini keşfetmek ve doğrulamak için tasarlanmış kapsamlı bir iş akışı olan RUGGED (Grafik Güdümlü Açıklanabilir Hastalık Ayrımı Altında Geri Alma) özelliğini sunar. Yayınlardan ve bilgi tabanlarından elde edilen biyomedikal bilgiler, potansiyel ilaç-hastalık ilişkilerini ortaya çıkarmak için metin madenciliği ilişkilendirme analizi ve açıklanabilir grafik tahmin modelleri aracılığıyla sentezlenir ve analiz edilir. Bu bulgular, kaynak metin külliyatı ve bilgi tabanları ile birlikte, kullanıcıların hipotezleri keşfetmelerini ve altta yatan mekanizmaları araştırmalarını sağlamak için RAG ile geliştirilmiş LLM'leri kullanan bir çerçeveye dahil edilmiştir. Klinik bir kullanım örneği, RUGGED'in Aritmik Kardiyomiyopati (ACM) ve Dilate Kardiyomiyopati (DCM) için terapötikleri değerlendirme ve önerme, moleküler etkileşimler ve potansiyel yeni uygulamalar için reçete edilen ilaçları analiz etme yeteneğini göstermektedir. Platform, LLM halüsinasyonlarını azaltır, eyleme geçirilebilir içgörüleri vurgular ve yeni terapötiklerin araştırılmasını kolaylaştırır.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Biyomedikal girişimdeki hipotez araştırma süreci, patogenezin altında yatan yeni molekül-ilaç-hastalık karşılıklı bağımlılıklarını ortaya çıkarmak ve terapötik potansiyeli ortaya çıkarmak için gereklidir 1,2. Bu süreç, mevcut biyomedikal bilgilerden kanıtlar elde eder, hakemli literatüre (örneğin, PubMed'den >36 rapor) gömülü mantıksal ipuçlarına dayalı yeni bulguları sentezler ve biyomedikal bilgi tabanları arasında kök salmış yüksek güvenilirlikli küratörlü kanıtları entegre eder. Son gelişmeler, literatür külliyatı 3,4,5 üzerinde metin madenciliği uygulayarak ve ilgili bilgileri sentezlemek ve araştırma için yeni yollar ortaya çıkarmak için grafik tabanlı analizler6,7,8,9 kullanarak zahmetli manuel çabayı azaltır. Bu çabalara rağmen, mevcut yaklaşımlar genellikle parçalanmış veriler nedeniyle derin bağlamsal anlayışı desteklememektedir. Ayrıca, kanıta dayalı çıkarımlar yapma ve etkileşimli olarak yeni hipotezleri keşfetme yeteneğinden yoksundurlar.

Büyük Dil Modellerindeki (LLM'ler) son gelişmeler, bu zorluklara yeni bir ışık tutmuş ve birden fazla disiplinde büyük miktarda bilgi üzerinde eğitim vererek üst düzey bağlamsal anlayışı göstermiştir 10,11,12. Biyomedikal alanda, LLM'ler hasta bilgilerininçıkarılmasında 13 ve genel klinik sorularınyanıtlanmasında 14,15 umut verici bir rol gösterirken, alana özgü soru yanıtlama16 ve birinci basamak klinik bakımdaki yardımcı programlardakiuygulamalar 17 araştırılmayı beklemektedir. Bu modeller, karmaşık veri kümelerinden akıl yürütme ve çıkarımlar yapma yeteneği sergiler ve bu da onları hipotez araştırması ve bilgi sentezi yapmak için potansiyel olarak uygun hale getirir. Ayrıca, bazı modeller, kullanıcıların ilgisini çekmek ve konuların dinamik olarak keşfedilmesini sağlamak için sohbet benzeri etkileşime sahiptir ve sorgu tabanlı arama motorlarının ve bilgi tabanlarının geleneksel sınırlarını aşar18,19.

Bu potansiyellere ek olarak, LLM'ler olası bilgi halüsinasyonu, potansiyel olarak yanlış açıklamalara yersiz güven gösterme, yorumlanabilirlikten yoksun olma ve önyargılı veya uygunsuz içeriğe duyarlı olma gibi önemli zorluklarla karşı karşıyadır 20,21,22,23,24. Doğrudan klinik karar verme sürecine rehberlik etmek için uygulandığında, LLM'den türetilen yanıtlar ve tahminler yüksek risklere sahiptir; Herhangi bir hata potansiyel olarak maliyetli laboratuvar deneylerine neden olabilir veya hasta sağlığı yörüngelerini olumsuz etkileyebilir25,26. Bu nedenle, güvenilir ve güvenilir LLM yanıtları çok önemlidir, çünkü tavsiyeleri kanıtlara sıkı sıkıya bağlı olmalıdır. Bu senaryolarda, yorumlanabilirlik bir lüks değil, bu modellerin neden yaptıkları tahminleri yaptıklarını anlamak için bir gerekliliktir.

Bu amaçla, Retrieval-Augmented Generation (RAG), LLM halüsinasyonlarını en aza indirmek, LLM yanıtlarını doğruluğunu ve güvenilirliğini artırmak için kanıtlara dayandırmak için tasarlanmış bir sistemdir27,28. Bu yaklaşım tipik olarak, bir LLM'nin (örneğin, ChatGPT) PubMed ile entegre edilmesi gibi ilgili metin pasajlarının alınmasını içerir ve kullanıcı sorgularına ilgili alıntıların tanımlanmasına olanak tanır29,30. Metinle sınırlı olmamak üzere, Bilgi Grafikleri (KG'ler) üzerinden erişim, doğruluk kontrolü 31,32,33, şeffaf akıl yürütme 34,35,36, bilgi kodlama37, soru yanıtlamayı iyileştirme38 ve bilgi grafiklerini tamamlama39 gibi görevler için LLM'lere uygulamada umut vaat etmektedir. Doğrulanmış kaynaklardan gelen gerçek bilgileri kodlayarak, KG'ler LLM yanıtlarının doğruluğunu, şeffaflığını ve güvenilirliğini artırır. Bu grafiklerdeki bağlantı tahmin teknikleri, moleküller, ilaçlar ve hastalıklar arasında daha önce gizli olan ilişkileri belirlemek için derin öğrenmeden yararlanır 5,40,41. Açıklanabilir YZ tahminlerindeki son gelişmeler, bu bağlantı tahmin görevlerinin şeffaflığını ve yorumlanabilirliğini daha da artırarak, biyomedikal hipotezleri araştırma için uygun bir yol olarak yorumlamak için potansiyel destek sağlar 42,43,44. Bu gelişmeler, LLM tarafından oluşturulan yanıtların dengelenmesini ve kanıtlardan çıkarılmasını sağlayarak, biyomedikal işletmelerde uygulanabilirliklerini önemli ölçüde artırır.

Bu protokol, RUGGED (Grafik Kılavuzlu Açıklanabilir Hastalık Ayrımı Altında Geri Alma) klinik terapötik içgörülerin araştırılması ve doğrulanması için erişilebilir ve verimli bir iş akışı olarak sunar (Şekil 1). Bu iş akışı protokolü, ilgili bilgilerin çıkarılması ve doğrulanması için biyomedikal literatürün ve bilgi tabanlarının geniş kaynaklarından yararlanarak sorguya özel erişim süreçlerini mümkün kılar (Şekil 2). Mevcut biyomedikal bilgilerden yorumlanabilir ve eyleme geçirilebilir içgörüleri ortaya çıkarmak için açıklanabilir bir yapay zeka tahmin modeli kullanılır, böylece tahmine dayalı modellerin şeffaflığını ve faydasını artırır. Tamamlanan iş akışı, RAG özellikli LLM'ler aracılığıyla bilgi grafiklerinin ve model tahminlerinin keşfini kolaylaştırarak araştırmacılar, klinisyenler ve klinik profesyoneller için sezgisel ve bilinçli etkileşimleri kolaylaştırır.

Bu bölüm, aşağıdaki bölümde açıklanan bu yaklaşımı uygulama adımlarıyla birlikte protokol için zemin hazırlar. Daha sonra, ilaçların moleküler etkileşimler açısından değerlendirilmesine ve kardiyovasküler tıp için terapötik stratejilere uygulanan bu yaklaşımı göstermek için translasyonel bir klinik kullanım durumu sergilenmektedir. Son olarak, bu protokolün etkileri ve tartışması tartışılmaktadır.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu protokol Python 3.10'da geliştirilmiş ve Windows'ta bir Docker kapsayıcısı olarak uygulanmıştır. Sağlanan komutlar, Docker kapsayıcısı içindeki Unix ortamını temel alır. Yazılım şu adreste mevcuttur: https://github.com/pinglab-utils/RUGGED. Tablo 1 , protokoldeki tüm adımlar için tahmini hesaplama süresini sunar.

1. Yazılımın yüklenmesi

  1. Malzeme Tablosu'ndaki talimatları izleyerek önkoşul yazılımını yükleyin.
    NOT: Bu protokol sürüm denetimi, kapsayıcılaştırma, grafik veritabanı ve büyük dil modeli (LLM) hizmetleri gerektirir. Sürüm kontrolü ve konteynerleştirme isteğe bağlıdır ancak kurulum sürecini basitleştirebilir; grafik veritabanı ve LLM hizmetleri, kullanıcının teknik olarak yetkin olması durumunda benzer araçlarla değiştirilebilir.
    1. Kapsayıcılar Arası Ağı Yapılandırın. Docker kapsayıcılarını cihazdaki diğer hizmetlere (ör. diğer Docker kapsayıcıları) bağlanacak şekilde yapılandırın. Terminale şu komutu yazın: docker network create rugged_network
  2. Büyük Dil Modelleri (LLM) hizmetlerini ayarlayın. Ticari LLM hizmetleri veya kullanıcının cihazında çalışan yerel bir modelden hizmetler arasından, kullanım durumu için uygun LLM hizmetini seçin. En az bir LLM hizmetinin belirtildiğinden emin olun, ancak aracılar farklı modellerden yararlanmak için karıştırılabilir ve eşleştirilebilir.
    1. Yerel LLM hizmetini başlatın. Ollama'yı bir Grafik Kullanıcı Arayüzü (GUI) kullanarak kullanıyorsanız, GUI yürütülebilir dosyasını çalıştırın (örn. ollama.exe). Docker kullanıyorsanız, şunu çalıştırın: 'docker run -name ollama --net rugged_network d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama'. Docker'ı GPU hızlandırma ile kullanıyorsanız, GPU sürücüsünün kurulu olduğundan emin olun ve şunu çalıştırın: 'docker run -name ollama --net rugged_network -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama'.
    2. Yerel LLM modelini başlatın. Desteklenen modeller arasında hangi modelin kullanılacağını belirleyin (örneğin, Önerilen: llama3, mistral, mixtral. Docker kullanıyorsanız, komut satırına 'docker exec run ollama run ' yazın; Ollama GUI kullanıyorsanız, yerine her birinin model adını yazarak 'ollama run ' yazın.
  3. Grafik Veritabanı hizmetini başlatın. Docker kapsayıcısı, masaüstü uygulaması veya çevrimiçi web hizmeti arasından bir grafik veritabanı hizmeti seçin. Kurulumu tamamlamak için Ek Malzemeler'deki kurulum talimatlarını izleyin.
  4. RUGGED ortamını ayarlayın. İndirilen Docker görüntülerini yazarak docker görüntülerini doğrulayın. Önceki adımdaki tüm Docker görüntülerinin listelendiğinden emin olun. RUGGED Docker görüntüsünü ve kodunu indirmek için terminalde şu komutları çalıştırın:
    Docker Pull Pinglabutils/Sağlam: En Son
    NOT: git clone https://github.com/pinglab-utils/RUGGED
    1. Ticari LLM hizmetini yapılandırın. Ticari LLM hizmetleri kullanılıyorsa, hesabın ve ilgili API anahtarının yeterli paraya sahip olduğundan emin olun. 'RUGGED/config/openai_key.txt' konumundaki yapılandırma dosyasını düzenleyerek ve API anahtarını dosyaya ekleyerek RUGGED yapılandırma dosyalarını değiştirin.
    2. Ticari aracıları yapılandırın. RUGGED'in sistemindeki hangi LLM ajanlarının bu hizmeti kullanacağını belirleyin. 'RUGGED/config/llm_agents.json' konumundaki yapılandırma dosyasını değiştirin ve model sürümünü belirtmek için aracı alanlarını güncelleştirin. Önerilen modeller: gpt-3.5-turbo, gpt-4o.
    3. Yerel LLM hizmetini yapılandırın. 'http://localhost:11434' konumunda Ollama için varsayılan uç noktadan farklı bir hizmet uç noktası kullanıyorsanız, 'RUGGED/config/ollama_config.json' konumundaki yapılandırma dosyalarındaki 'OLLAMA_URI' alanını değiştirin ve güncelleştirin.
    4. Yerel LLM aracılarını yapılandırın. RUGGED'in sistemindeki hangi LLM ajanlarının bu hizmeti kullanacağını belirleyin. 'RUGGED/config/llm_agents.json' konumundaki yapılandırma dosyasını değiştirin ve aracı alanlarını seçili model olarak 'ollama' belirtecek şekilde güncelleyin.
    5. Grafik veritabanı uç noktasını yapılandırın. Neo4j için varsayılan parola ve kullanıcı adından değiştirildiyse, 'uri', 'kullanıcı adı' ve 'parola' alanlarını güncellemek için 'RUGGED/config/neo4j_config.json' yapılandırma dosyasını düzenleyin.
  5. Şu komutu çalıştırarak RUGGED hizmetini başlatın:
    docker run --name sağlam -it --net rugged_network --gpus=all -v \RUGGED\:/data ping-lab-
    utils: SAĞLAM / çöp kutusu / bash
    NOT: Hizmetlerin beklendiği gibi çalıştığını doğrulamak için RUGGED dizinine gidin ve 1.4.1 adımlarını uygulayın. Adım 1.4.4 aracılığıyla. bu terminal penceresinde.
    1. LLM hizmet işlevselliğini doğrulayın. RUGGED dizinindeki test klasörüne gidin ve OpenAI ve/veya Ollama hizmetlerinin çalıştığını doğrulamak için aşağıdaki komutları yürütün:
      python test_openai.py
      python test_ollama.py
    2. Adlandırılmış varlık tanıma hizmeti işlevselliğini doğrulayın. Kullanıcı sorgularının Adlandırılmış Varlık Tanıma kodunun düzgün çalıştığını doğrulamak için 'test_ner.py' komutunu yürütün.
    3. Neo4j hizmet işlevselliğini doğrulayın. Neo4j hizmetinin beklendiği gibi çalıştığını doğrulamak için 'python test_neo4j.py' yazarak test komut dosyalarını yürütün
    4. (İsteğe bağlı) Grafik veritabanına HTTP erişimini doğrulayın. Bir web tarayıcısı açın ve Neo4j kullanıcı arayüzünü ziyaret edin.
      NOT: Docker veya Desktop'ta Neo4j için varsayılan URL 'http://localhost:7474'dir. Neo4j AuraDB için kurulum sırasında sağlanan bağlantıyı kullanın.
  6. (İsteğe bağlı) Sorunları giderin. Sorunları önceden tahmin etmek için yazılım kurulumu sırasında RUGGED'ı destekleyen hizmetlerin doğrulandığından emin olun. Adım 1.4'ten itibaren başarısız testlerle ilgili sorunları giderin. Varsa, sorunları açıklayan test komut dosyaları tarafından bildirilen hata mesajlarını izleyin.
    1. Docker kapsayıcılarını doğrulayın. RUGGED docker kapsayıcısı, Neo4j docker kapsayıcısı (isteğe bağlı) ve Ollama docker kapsayıcısı (isteğe bağlı) dahil olmak üzere terminalde 'docker ps' kullanarak tüm Docker kapsayıcılarının çalıştığını onaylayın.
    2. Ağ bağlantı noktalarını doğrulayın. Docker hizmetleri için doğru bağlantı noktalarının açık olduğundan emin olun ve 'docker logs neo4j' veya 'docker logs ollama' ile günlükleri kontrol edin.
      NOT: Varsayılan olarak Neo4j, http için 7474 ve cıvata arayüzü için 7687 bağlantı noktalarını kullanır; Ollama, 11434 numaralı bağlantı noktasını kullanır.
    3. Hizmet uygulamalarını doğrulayın. Doğrudan cihaza yüklenen uygulamalar için (ör. Ollama ve Neo4j Desktop), çalıştıklarını doğrulamak için uygulamaları açın.
    4. Web hizmetlerini doğrulayın. Neo4j AuraDB için web sitesine giriş yapın ve hizmetin çalıştığını doğrulayın.
    5. Güvenlik duvarı kurallarını doğrulayın. Güvenlik duvarının herhangi bir dış hizmeti engellemediğinden emin olmak için cihaz güvenlik duvarı kurallarını değiştirin.
    6. Cihazı yeniden başlatın. Sorunlar çözülmezse cihazı yeniden başlatın ve 1.5.1 adımından itibaren yeniden deneyin.
    7. Bir sorun açın. Sorun devam ederse, lütfen RUGGED GitHub'da (https://github.com/pinglab-utils/RUGGED) bir sorun açın.

2. Biyomedikal bilgiye ve ekstraksiyon bilgisine ulaşma

NOT: Bu adımlar, RUGGED'ın Geri Alma Artırılmış Üretim (RAG) sistemini oluşturan temel bilgiler olarak iki bilgi çıkarma boru hattını özetlemektedir: (1) CaseOLAP LIFT biyomedikal metin madenciliği boru hattı5 ve (2) Know2BIO bilgi grafiği oluşturma iş akışı9. RUGGED 'ı özel verilerle kullanmak için 4. adıma geçin.

  1. Biyomedikal literatürü çıkarın. Biyomedikal literatür metin madenciliği yoluyla hücre altı proteinleri ve bunların hastalıkla ilişkilerini araştırmak için tasarlanmış bir hesaplama protokolü olan CaseOLAP LIFT'i kullanarak ilgili belgeleri ve üst düzey protein-hastalık ilişkilerini tanımlayın. Bu raporlardan hedeflenen içgörülerle RAG iş akışını bilgilendirmek için gerekli bilgileri hazırlamak için bu adımı tamamlayın.
    1. CaseOLAP LIFT Metin Madenciliği Analizini çalıştırın. CaseOLAP LIFT JoVE Protokolünü ziyaret edin (bu analiz için 4-5. adımlar gerekli değildir).
    2. İşlenmiş metin belgelerini taşıyın. 3. adımdaki ayrıştırılmış biyomedikal belgelerin (pubmed.json) ve tam metinlerinin (pmid2full_text_sections.json) CaseOLAP LIFT veri klasöründe olduğundan emin olun. Aşağıdaki komutları kullanarak bu dosyaları RUGGED data klasörüne taşıyın:
      mv /caseolap_lift/caseolap_lift_shared_folder/veri/pubmed.json /SAĞLAM/veri/text_corpus
      mv /caseolap_lift/caseolap_lift_shared_folder/veri/ pmid2full_text_sections.json /SAĞLAM/veri/text_corpus
    3. Metin madenciliği sonuçlarını taşıyın. Protein-hastalık ilişkilendirmelerini içeren bilgi grafiği dosyasının (merged_edge_list.tsv) result/kg klasöründe oluşturulduğunu doğrulayın. 1-3 adımlarında seçilen ayarlara bağlı olarak ilişkilendirme sayısının beklendiği gibi olup olmadığını kontrol edin (örneğin Tablo 2'ye bakın). Bu dosyayı RUGGED veri klasörüne taşıyın:
      mv /caseolap_lift/caseolap_lift_shared_folder/sonuç/graph_data/ merged_edge_list.tsv /SAĞLAM/veri/knowledge_graph
  2. Biyomedikal bilgiyi ayıklayın. 30 biyomedikal bilgi tabanından gelen verileri entegre eden Know2BIO yazılımını kullanarak bir biyomedikal bilgi grafiği oluşturun. Bu biyomedikal ilişkilere ve çok modlu verilere ilişkin bilgilerin aşağı akış RAG iş akışını destekleyecek şekilde işlendiğinden emin olmak için bu adımı tamamlayın.
    1. Know2BIO deposunu klonlayın. Aşağıdaki komutu kullanarak komut satırına yazarak depoyu klonlayın. Know2BIO deposuna gidin.
      git klonu https://github.com/Yijia-Xiao/Know2BIO.git.
    2. Verileri ve lisansları hazırlayın. Veri kümesi klasörüne gidin ve 'README.md' dosyasındaki yönergeleri izleyin. Çeşitli çevrimiçi kaynaklara erişmek için gerekli kullanıcı hesaplarının oluşturulmasını tamamlayın (örneğin, UMLS eş anlamlılar sözlüğü, İlaç Bankası).
    3. Bilgi bankası kaynaklarını indirin. 'Python create_edge_files.py' betiğini yürütün ve bilgi grafiği ayıklama işlem hattının ilerlemesini izleyin. Biyomedikal ilişkileri temsil eden 'Know2BIO/dataset/output' klasöründeki .csv dosyasının oluşturulduğundan emin olun.
    4. Bilgi grafiği oluşturun. Ayıklanan ilişkileri otomatik olarak birleşik bir bilgi grafiğinde birleştirmek için önceki adımda ayıklanan bilgileri entegre etmek için 'python prepare_kgs.py' komut dosyasını yürütün ve grafiği veri kaynağına ve etki alanına göre biçimlendirin.
    5. Çıktıyı doğrulayın. Tamamlanan dosyaların 'Know2BIO/dataset/know2bio_dataset' dizinindeki 'whole_kg.txt' dosyasında bulunup bulunmadığını kontrol edin. Dosyadaki kenar sayısının beklendiği gibi olduğunu onaylayın; 6 milyondan fazla kenarla sonuçlanan Tablo 3'e bakın. Know2BIO README'deki diğer adımlar bu analiz için gerekli olmadığından bir sonraki adıma geçin.
      NOT: Tablo 3'teki Know2BIO ile ilişkiler, ATC (Dünya Sağlık Örgütü), Bgee45, CTD46, ClinGen47, ClinVar48, DOID49, DisGeNET50, DrugBank51, GRNdb52, Gene Ontology53, HGNC54, Hetionet3, Inxight Drugs55, KEGG56, MeSH57, Mondo58, MyChem.info59, MyDisease.info dahil olmak üzere 31 kaynaktan alınmıştır.59, MyGene.info59, OMIM60, PathFX61, PharmGKB62, PubMed, Reactome63, SIDER64, SMPDB65, STRING66, TTD67, UMLS68, Uberon69 ve UniProt70.
    6. Bilgi grafiği sonuçlarını taşıyın. Dosyayı RUGGED dizininin '/data/knowledge_graph/' dizinine taşıyın.
      mv /Know2BIO/dataset/know2bio/whole_kg.txt /RUGGED/veri/knowledge_graph
  3. Birleştirilmiş bir bilgi grafiği oluşturun. Önceki adımdaki grafiği, adım 2.1'deki metin madenciliğinden elde edilen üst düzey protein-hastalık ilişkileriyle tek bir birleşik bilgi grafiğine entegre edin.
    1. RUGGED dizinindeki Sonuçları Doğrulayın. Bilgi grafiği oluşturma sonuç dosyasının (whole_kg.txt) ve metin araştırma ilişkisi sonuçlarının (merged_edge_list.tsv) veri klasörü içindeki knowledge_graph dizininde olduğunu doğrulayın.
    2. Sonuçları entegre edin. Metin madenciliği analizinden ve bilgi grafiği yapısından çıkarılan ilişkileri ve varlıkları tek bir uyumlu bilgi grafiğinde birleştirmek için 'combine_kg_results.py' komut dosyasını yürütün. Aşağıdaki örnek komutu izleyin:
      python sağlam/knowledge_graph/combine_kg_results.py ./veri/knowledge_graph/merged_edge_list.tsv ./veri/knowledge_graph/whole_kg.txt --output_dir ./veri/rugged_knowledge_graph
  4. Bilgi grafiğini filtreleyin. (İsteğe bağlı) Tahmine dayalı analiz için kullanılacak bilgi grafiğinin bir alt kümesini örnekleyin. Bu adım yalnızca yakından ilişkili ilişkileri korur ve derin öğrenme tahminlerini yürütmek için gereken hesaplama kaynaklarını azaltır.
    1. İlgili düğümleri tanımlayın. Bilgi grafiğini gözden geçirerek ve ilgili düğümleri tam olarak belirleyerek 3. adımdaki öngörücü analiz için ilgilenilen biyomedikal varlıkları belirleyin.
      NOT: Bu protokol, sırasıyla MeSH_Disease: D019571 ve MeSH_Disease: D002311 gibi Aritmik Kardiyomiyopati (ACM) ve Dilate Kardiyomiyopati (DCM) için hastalık düğümlerine odaklanır. Hedef düğümlerin amaçlanan kullanım durumuna göre uyarlanması gerekir.
    2. Bilgi grafiğinden örnek. Seçilen ilgili düğümlerden k-hop içinde erişilebilen bilgi grafiği alt grafiğini çıkarmak için 'filter.py' komut dosyasını kullanın. Seçilen hastalık düğümlerinden 2 düğüm içinde ulaşılabilen grafiği filtreleyen aşağıdaki örnek komutu izleyin:
      python ./sağlam/knowledge_graph/kg_filter.py --k 2 --disease "MeSH_Disease:D019571,MeSH_Disease:D002311" --input_file ./data/rugged_knowledge_graph/rugged_knowledge_graph_edges.csv —output_dir ./data/rugged_knowledge_graph/filtered_kg/.
      NOT: k-hop değerinin (--k) artırılması, tahmin analizi için grafikteki veri kapsamını genişletir, ancak aynı zamanda daha fazla hesaplama kaynağı gerektirir.

3. Açıklanabilir tahmin analizi

NOT: Bilgi grafiğindeki potansiyel kenarları (ilişkileri) tahmin etmek ve daha önce bilinmeyen ilişkilendirmeler hakkında içgörüler sağlamak için GNNExplainer44'ü bir Grafik Evrişimli Ağ modelinde yürütün.

  1. RUGGED Docker kapsayıcısının çalıştığından emin olun. Önceki terminal penceresi kapalıysa, 'docker exec --it rugged /bin/bash' komutuyla Docker kapsayıcısına bağlanın. Docker kapsayıcısına bağlandıktan sonra RUGGED dizinine gidin.
  2. Tahmin edilecek kenarları belirleyin. Kenarları bir .txt dosyasında düğüm çiftleri olarak sağlayın (örneğin, edges_to_predict.txt). Bilgi grafiğinde zaten var olan kenarlar, tahminlerden filtrelenerek çıkarılır.
  3. Tahmin analizi betiğini çalıştırın. Tahmin edilecek kenarları ve giriş bilgi grafiğini tahmin için komut satırı bağımsız değişkenleri olarak belirtin. Anahtar argümanlar: -p (kenarlara giden yol), -i (giriş bilgi grafiği), -o (çıktı dizini), -n (en iyi tahminler, örneğin, 5), -k (görselleştirilecek üst kenarlar, örneğin, 10). Örnek komut:
    python sağlam/predictive_analysis/generate_explainable_prediction.py -o çıkış -n 5 -k 10 -p ./output/edges_to_predict.txt -i ./data/rugged_knowledge_graph/filtered_kg/filtered_k2_edges.csv
  4. Model performansını değerlendirin. Filtrelenmiş bilgi grafiğini 85:5:10 oranıyla eğitim, doğrulama ve test kümelerine bölmeye dayalı olarak model performansını değerlendirmek için önceki adımdan oluşturulan terminal çıkışını veya 'output.log' dosyasını inceleyin. Performans beklendiği gibi değilse, örnek olarak Tablo 4'ü kullanarak model bağımsız değişkenlerini ayarlayın.
  5. Sonuçların çıktı klasöründe olduğunu doğrulayın. 'prediction_results.csv' içindeki model sonuçlarını inceleyin ve çıkış klasöründeki ilk n tahmini inceleyin. Çıkış klasöründeki ilk n tahmini gözden geçirin. Her tahmin için, bir grafik görselleştirmesi, her tahmine katkıda bulunan en uygun kenarları ve bunların göreli önem puanlarını gösterir.
  6. Tahmine dayalı analiz sonuçlarını taşıyın. Tahmine dayalı analiz sonuçlarından memnun kaldığınızda, sonuçları RUGGED dizininin 'verileri/tahminleri/' bölümüne taşıyın.

4. Hipotez oluşturma

  1. RUGGED Docker Container'a bağlanın.
    1. RUGGED Docker kapsayıcısının çalıştığından emin olun. Önceki terminal penceresi kapalıysa Docker kapsayıcısına bağlanın.
    2. RUGGED dizinine gidin. Bağlandıktan sonra, dizine gitmek için cd /workspace/RUGGED yazın. Bu komut satırı penceresinde kalan adımları yayınlayın.
    3. Destek hizmetlerinin çalıştığını doğrulayın. Docker'da Ollama ve Neo4j kullanıyorsanız, 'docker ps' yazarak kapsayıcıların çalıştığından emin olun. Hizmetlerin düzgün çalıştığını doğrulamak için adım 1.7'yi ve varsa sorunları gidermek için adım 1.4'ü tekrarlayın.
  2. RAG verilerini hazırlayın. Bilgi grafiğini ve metin külliyatını erişim için hazırlayın.
    NOT: Bu veriler, verileri sırasıyla 'data/knowledge_graph/' ve 'data/text_corpus/' dizinlerine yerleştirerek kullanıcı tanımlı verilerle değiştirilebilir. Bu veriler GitHub deposundaki (https://github.com/pinglab-utils/RUGGED/tree/main/data) biçime uygun olmalıdır.
    1. Kaynakları doğrulayın. Metin külliyatının 'data/text_corpus/' dizininde olduğundan, metin madenciliği tahmin dosyasını içeren bilgi grafiğinin data/knowledge_graph/ dizininde olduğundan ve tahmin sonuçlarının data/predictions/ dizininde olduğundan emin olun (sırasıyla 2.1.2., 2.3.2. ve 3.5. adımlarından).
    2. Grafik veritabanını doldurun. Gerekli düğümleri, kenarları ve düğüm özelliklerini oluşturmak için 'python ./neo4j/prepare_neo4j.py' komutunu yürütün.
    3. Metin derleminin dizinini oluşturun. Metin külliyatını indekslemek için 'python ./text/prepare_corpus.py' komutunu yürütün ve BART71 kullanarak bir vektör veritabanı oluşturmak için belgeleri 500 belirteçlik bölümlere ayırarak RUGGED'ın kullanıcı sorgularına dayalı olarak ilgili metin belgelerini almasını sağlayın.
    4. İsteğe bağlı) Grafik veritabanı alımını test edin. Doğru şekilde doldurulduğundan ve beklenen sonuçları döndürebildiğinden emin olmak için Neo4j veritabanına bir test sorgusu gönderin. Çıktının veritabanındaki beklenen düğümler ve ilişkilerle eşleştiğini doğrulayın. Örnek komut:
      python ./test/test_neo4j_retrieval.py --query "MATCH (n) RETURN n LIMIT 5"
    5. (İsteğe bağlı) RAG korpus alımını test edin. Metin alma sisteminin çalıştığından emin olmak için RAG metin derlemine bir test sorgusu gönderin. Alınan belgelerin sorguyla ilgili olup olmadığını ve katıştırmalıkların beklendiği gibi çalışıp çalışmadığını denetleyin. Örnek komut: python ./test/test_literature_retrieval.py --query "Kardiyovasküler hastalığı tedavi etmek için beta blokerlerin kullanılmasıyla ilgili belgeler hangileridir?"
  3. RUGGED ile etkileşim kurun. Sistemle etkileşim kurmak için komut satırı arayüzünde RUGGED'ı başlatın. 'python rugged.py' komutunu çalıştırın. Bilgi grafiği ve metin derlemi ile etkileşim kurmak için belirli komutları kullanarak ilgili bilgileri almak için sistemi sorgulayın.
    1. Bilgi grafiğini sorgulayın. "Sorgu" anahtar kelimesiyle başlayarak soruyu doğal dilde sorarak bilgi grafiğinden belirli bilgileri çıkarın. Mesela:
      "Beta blokerler, antiaritmik ilaçlar ve antifibrotik ilaçlar olarak sınıflandırılan şu anda reçete edilen ilaçlar nelerdir?"
    2. Tahminleri keşfedin. 3. adımdan itibaren bağlantı tahmini analizlerini keşfedin ve "tahmin" anahtar kelimesiyle başlayan belirli bir ilişkiyi aramayı isteyin. Mesela:
      "Bu ilaçlardan hangisi şu anda bilinmeyen ACM ve / veya DCM'yi tedavi etmek için potansiyel olarak kullanılabilir?"
    3. Literatür erişimini keşfedin. 2. adımdan itibaren belirli bir biyomedikal konuyla ilgili belgeleri keşfedin. Soruyu doğal bir dilde, "arama" anahtar kelimesiyle önde gelen bir şekilde sorun. Mesela:
      "Hangi literatür kanıtları, bu tahmin edilen ilaçların ACM ve / veya DCM'yi tedavi etmek için kullanılabileceği iddiasını desteklemektedir?"
    4. Sorguyu yineleyin ve iyileştirin. RUGGED'in sohbet benzeri arayüzünü kullanarak sorguları yinelemek ve iyileştirmek için doğrudan komut satırında yanıt verin. Sorgulama ve sorguları gözden geçirmek ve iyileştirmek için önceki kullanıcı-sistem konuşmalarına bakın.
    5. Neo4j'de şifre komutlarını yeniden çalıştırın. (İsteğe bağlı) Bilgileri almak için kullanılan sağlanan Cypher komutunu ayarlayarak bilgi grafiği sorgu sonuçlarını iyileştirin. Adım 1.4.4'ten Neo4j tarayıcı arayüzünü ziyaret ederek bu komutu yeniden çalıştırın veya değiştirin (örn. http://localhost:7474'da). Sorguları daraltmak ve daha spesifik içgörüler toplamak için Cypher komutlarını gerektiği gibi yapıştırın ve değiştirin.
    6. Konuşmayı özetleyin. Alınan bilgileri gözden geçirin ve RUGGED ile yapılan görüşmeyi özetleyin. Etkileşimin bir özetini daha sonra analiz etmek üzere bir metin dosyasına çıkarmak için summarize anahtar sözcüğünü yazın. Tam metin yanıtı terminalde görüntülenecektir.
    7. Özeti sonlandırmadan önce sistem yanıtlarını okunabilirlik ve kısalık açısından inceleyerek ve değiştirerek çıktının doğruluğunu artırmak için döngüdeki insan incelemesi yapın.
    8. Sohbet günlüklerini gözden geçirin. RUGGED'daki günlük klasöründeki etkileşimin tam metnini inceleyin. Sorun giderme ve tekrarlanabilirlik için RUGGED içindeki LLM ajanları arasındaki bu ara komutları ve konuşmaları saklayın.
  4. RUGGED'ı kapatma ve yeniden başlatma.
    1. Docker Kapsayıcı Kimliklerini alın. Çalışan tüm kapsayıcıları listelemek ve RUGGED, Neo4j ve Ollama için kapsayıcı kimliklerini almak için 'docker ps' komutunu kullanın. Aşağıdaki tüm komutlar için , ve değerlerini gerçek kapsayıcı kimlikleriyle değiştirin.
    2. Docker Kapsayıcılarını Durdurun. Kapsayıcı kimliklerini kullanarak RUGGED ve ilişkili Docker kapsayıcılarını kapatın.
      Docker Stop
      Docker durdurma
      Docker durdurma
      NOT: Olası veri kaybını önlemek ve tüm işlemlerin düzgün bir şekilde kapanmasını sağlamak için cihazı kapatmadan önce bu kapsayıcıların durdurulması önerilir.
    3. Docker Kapsayıcıları'nı yeniden başlatın. RUGGED sistemini yeniden başlatmak için, gerekli Docker kapsayıcılarını başlatmak için kapsayıcı kimliklerini kullanın.
      Docker başlangıç
      Docker başlangıç
      Docker başlangıç
    4. Docker Network'e yeniden bağlanın. Gerekirse, kapsayıcıları ağa yeniden bağlamak için bu komutları kullanın.
      Docker Ağ Bağlantısı rugged_network
      Docker Ağ Bağlantısı rugged_network
      Docker Ağ Bağlantısı rugged_network
    5. Hizmet işlevselliğini doğrulayın. Yeniden başlattıktan sonra, yazılımın beklendiği gibi çalıştığından emin olmak için 1.4-1.5 adımlarını tekrarlayın.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu temsili sonuçlar, bu protokolde belirtilen prosedür izlenerek elde edilmiştir. CaseOLAP LIFT protokolü5'i takiben, varsayılan parametrelerle, sekiz geniş kardiyovasküler hastalıkkategorisini 72 ve bunların mitokondriyal proteinlerle ilişkisini inceleyen bir metin madenciliği ilişkilendirme analizi gerçekleştirildi (GO:0005739). Mayıs 2024'e kadar toplam 635.696 bildirimin bu hastalıklarla ilgili olduğu belirlendi; Bunlar arasında, aşağı akış analizlerini bilgilendirmek için 4.655 yüksek güvenilirlikli protein-hastalık ilişkisi tespit edildi. Mayıs 2024'te varsayılan ayarlar kullanılarak Know2BIO'nun yazılım kodu kullanılarak bir biyomedikal bilgi grafiği oluşturuldu9. Elde edilen bilgi grafiği, 219.450 düğüm, 6.323.257 kenar ve ayrıca 189.493 düğüm için düğüm özellikleri, düğüm açıklamaları, protein/gen dizileri, kimyasal yapı vb. ile oluşur. Protokoldeki tüm adımlar için tahmini hesaplama süresi Tablo 1'de sunulmuştur.

RUGGED sistemi, hem bilgi grafiği düğümleri hem de özellikler ve ayrıca CVD ile ilgili yayınlar için vektör veritabanları oluşturularak başlatıldı. Tüm bilgi grafiği düğümleri, kenarlar ve düğüm özellikleri, RAG vektör aramasına hazırlanmak için BART71 gömme modeliyle 20 tokenlik bir yığın boyutuyla işlendi. Benzer şekilde, orijinal katkılar ve inceleme makaleleri, RAG vektör aramasına hazırlanmak için 500 tokenlik bir yığın boyutu ve BART gömme modeli kullanılarak işlendi. Literatür erişimi için, 500 token'dan büyük tam metin yayınlar, BART gömme modeli tarafından bir yayının ayrı bölümlerine dayalı olarak hiyerarşik olarak özetlenmiştir. Sistemde kalan LLM ajanları için GPT-4o modeli kullanıldı.

Bu temsili sonuçlar, sırasıyla MeSH_Disease: D019571 ve MeSH_Disease: D002311 olarak tanımlanan Aritmik Kardiyomiyopati (ACM) ve Dilate Kardiyomiyopati (DCM) için potansiyel ilaç terapötiklerini araştırmak için örnek bir kullanım durumu göstermektedir. Şekil 3'te bir dizi sorgulama özetlenmiştir, Şekil 4'te gösterilen model yanıtlarının vurgulanan örnekleri ve Ek Dosya 1, Bölüm A'da bildirilen tam yanıt verilmiştir. Sorgulama yönü, araştırmacı tarafından doğrulanan yanıtlara uyarlandı ve önceki yanıtların sonuçlarına dayalı olarak sonraki sorgular hazırlandı. Analizde beta blokerler ve antiaritmikler altında sınıflandırılan 11 ilaç adayı ortaya çıktı. Terapötik tedavi için yeni yollar, Tablo 4'te bildirilen değerlendirme metrikleri ile, çalışma hastalığı ve ilaç düğümlerinden 1 atlama içindeki düğümler ve bunların ara bağlantıları dahil olmak üzere, tam bilgi grafiğinin bir alt kümesi üzerinde bir Grafik Evrişimli Sinir Ağı bağlantı tahmin modeli kullanılarak değerlendirildi. Model tarafından her bir tahmin için ilgili ilk 10 kenar, sırasıyla her bir tahmine katkıda bulunan üst düğümleri ve kenarları belirlemek için bir grafik açıklanabilirlik modülü olan GNNExplainer44 tarafından daha fazla incelendi. Bu kullanım durumu için RUGGED protokolünün tüm adımları için ticari LLM kullanmanın toplam maliyetinin, yazma sırasında 1,50 ABD doları olduğu tahmin edilmektedir.

figure-results-1
Şekil 1: Grafik Kılavuzlu Açıklanabilir Hastalık Ayrımı (RUGGED) iş akışı altında alma. RUGGED dört ana bileşenden oluşur: (1) etik kaynaklı ve profesyonelce yönetilen kaynaklardan (örneğin, PubMed ve küratörlü biyomedikal bilgi tabanları) verilerin bir araya getirilmesi ve işlenmesi, (2) hakemli araştırma bulgularının birleşik bir bilgi grafiğine entegre edilmesi, (3) metin ve grafik verilerinin veritabanı hizmetleri içinde yapılandırılması, (4) bilgi grafiği içindeki biyomedikal varlıklar arasındaki açıklanabilir ilişkilerin modellenmesi ve tahmin edilmesi, ve (5) karmaşık moleküler ilişkileri doğrulamak ve yapay zeka güdümlü hastalık tahminlerini keşfetmek için bir Geri Alma Artırılmış Nesil (RAG) iş akışı (Şekil 2) aracılığıyla bilgi almak ve sentezlemek. Çıktının doğruluğunu artırmak için kullanıcı tarafından döngüdeki insan inceleme adımı gerçekleştirilebilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-2
Şekil 2: Alma mimarisi ve yanlılık azaltma iş akışı. Retrieval Augmented Generation (RAG) çerçevesi, her biri kullanıcı sorgusuna dayalı olarak ilgili bilgilere erişimi desteklemek için belirli görevleri yerine getiren birden fazla LLM aracısı kullanır. Bu sistem, kullanıcıya dönük GPT tabanlı Akıl Yürütme Aracısı için belgelenmiş kanıtlar sağlayarak kullanıcı-aracılı etkileşimi ve bilgi sentezini kolaylaştırır. (1) Biyomedikal Metin Erişimi: Hakemli orijinal katkılar ve derleme makaleleri, hastalık ilişkilerini anlamakla ilgilerine göre filtrelenir. Yazar ve editör tarafından doğrulanmış metin kanıtları için yayının ilgili bölümüne göre ağırlıklandırılan bir vektör veritabanı oluşturulur: p Özet, Bulgular, Meta Veri ve diğer tüm alt bölümler için . Anahtar kelime araması ve kullanıcı sorgusunun metne gömülmesine karşı benzerlik araması, ilgili belgeleri tanımlar. Her belgenin özetleri, BERT tabanlı bir özetleyici kullanılarak oluşturulur ve GPT tabanlı Metin Değerlendirici Aracısı, sorgu-belge alaka düzeyini doğrulamak için aramayı iyileştirir. (2) Bilgi Grafiği Alma: BERT tabanlı bir adlandırılmış varlık tanıma ve GPT tabanlı ilişki çıkarma modülü, kullanıcı sorgusunu bilgi grafiğindeki ilgili varlıklara bağlar. Bir vektör veritabanındaki benzerlik araması, ilgili düğümleri ve kenarları tanımlar. Veriler, GPT tabanlı Cypher Query Agent tarafından oluşturulan Cypher sorguları aracılığıyla Neo4j veritabanından alınır ve Query Verification Agent tarafından rafine edilir. (3) Biyomedikal Metin Alma veya Bilgi Grafiği Alma boru hatlarından gelen bireysel yanıtlar, kullanıcının sorgusuna minimum önyargı ile kısa bir yanıt sentezleyen Akıl Yürütme Aracısına sunulur. Bu sistem, olgusal bilgilerin sunulmasında doğruluğu ve tarafsızlığı korumak için yönlendirilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-3
Şekil 3: Uygulamalısorgu kaskad aracılığıyla bilgi sentezi ve hipotez keşfi üzerine kullanım örneği. Bu şekil, bir araştırmacının ve/veya sağlık uzmanının RUGGED sistemine yöneltebileceği ilgili sorular ve kavramlar zincirine odaklanan vurgulanmış bir kullanım durumunu göstermektedir. Kullanıcıdan gelen sorgular, her soru arasında çıkarılan mantıksal ve alana özgü akıl yürütmeyi temsil eden oklarla birlikte sisteme sayısal sırayla sunulur. Sistem, sorguya yanıt vererek örtük ve ilgili bilgilerden (mavi renkle gösterilen kaynak) alır. Sistem yanıtlarının örnekleri Şekil 4'te sunulmuştur. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-4
Şekil 4: Kullanım örneği kardiyovasküler patoloji: CVD patogenezinin aydınlatılması. Kullanıcı ve RUGGED sistemi arasındaki sorgu-yanıt çiftleri gösterilir. Sol üst panelde, 1-6 arasındaki sorular, kanıta dayalı yanıtları formüle etmek için bilgi grafiği veritabanından bilgi çıkararak bilgi alır. Soru 7, en yüksek puanı alan terapötikleri belirlemek için açıklanabilir bir grafik bağlantı tahmini kullanır. Sorgu, sistem tarafından otomatik olarak yürütülen ve işlenen bir tahmin analizi ister ve önemli bulgular kısa ve öz bir şekilde özetlenir. Soru 8, tahmin edilen bulguyu doğrulamak, doğrulamak ve desteklemek için ilgili kanıt olarak alınan tanımlanmış metin veri külliyatından elde edilen literatür kanıtlarını değerlendirir. Sistem yanıtları, döngüdeki insan inceleme süreciyle gözden geçirildi ve okunabilirlik ve kısalık için değiştirildi. Bu bulguların tam bir transkripti Ek Dosya 1'de detaylandırılmıştır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Adım -larıAçıklamaSaat
Biyomedikal Bilgiye ErişimToplam 0
Biyomedikal literatür külliyatı hazırlamaPubMed ve PubMed Central'a bağlanın, aşağı akış görevleri için yayın verilerini indirin ve ayrıştırın.20%
Bilgi bankası verilerini hazırlamaBiyomedikal bilgi bankalarına bağlanın, aşağı akış görevleri için gerekli bilgileri indirin ve ayrıştırın.5%
Bilgi ÇıkarmaToplam 0
CaseOLAP LIFT Metin Madenciliği AnaliziBiyomedikal metin külliyatı içindeki yüksek düzeyli hastalık-protein ilişkilerini tanımlayın.25%
Bilgi Grafiği OluşturmaBiyomedikal bilgi tabanlarındaki farklı bilgileri birleşik bir bilgi grafiğine bağlayın ve entegre edin.5%
Tahmin AnaliziToplam
Tren Grafiği Sinir AğıGrafikteki gizli kalıpları öğrenmek için modeli biyomedikal bilgi grafiği verileri üzerinde eğitin.5%
Alaka Düzeyi Sıralaması AnaliziHastalığı incelemekle ilgili en uygun düğümleri ve kenarları vurgulamak için açıklanabilirlik modülünü uygulayın.2.5%
Bağlantı TahminiYeni tahmin edilen kenarlara katkıda bulunan önemli düğümleri ve kenarları belirlemek için açıklanabilirlik modülünü kullanın.2.5%
Hipotez Oluşturma ve/veya DoğrulamaToplam 0
Artırılmış Nesil Alma için Veritabanı KurulumuBilgi grafiğini sorgulamak için grafik veritabanını ve metin alımı için vektör veritabanını başlatın.25%
Hipotez AraştırmasıHipotez keşfi için ilgili bilgilere erişmek ve bunları incelemek için RUGGED ile kullanıcı etkileşimini etkinleştirin.5%

Tablo 1: İş akışı ve hız sınırlama adımları. Bu tablo, iş akışının her aşaması için gereken hesaplama süresinin kabaca tahminlerini sağlar. Hız sınırlayıcı adımlar, geri alma ile artırılmış üretim için gerekli biyomedikal bilgiye erişmeyi, çıkarmayı ve indekslemeyi içerir. Hipotez araştırması, hız sınırlayıcı adımların yeniden uygulanmasına gerek kalmadan sürekli olarak tekrarlanabilir.

Hastalık KategorisiMeSH Ağaç Numaraları# PMID'ler# Özgün Katkılar# İnceleme Makaleleri
Kardiyomiyopatiler (CM)C14.280.238132,531102,33719,942
C14.280.434
Kardiyak Aritmiler (ARR)C14.280.067125,28692,37413,854
C23.550.073
Konjenital Kalp Kusurları (KKH)14.280.400 civarı82,00654,0236,379
Kalp Kapak Hastalıkları (VD)C14.280.48472,01650,1195,743
Miyokard İskemisi (İBH)C14.280.647256,986210,04230,223
Kardiyak İletim Sistemi Hastalığı (CCD)C14.280.12353,05035,3994,363
Ventriküler Çıkış Tıkanıklığı (VOO)C14.280.95522,24415,5041,686
Diğer Kalp Hastalıkları (OTH)C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720114,08577,30211,799
Toplam635,696478,40469,690

Tablo 2: Biyomedikal literatür istatistikleri. Bu tablo, çalışma hastalık kategorilerini, karşılık gelen MeSH ağaç numaraları ve metin madenciliği için derlem olarak kullanılan Mayıs 2024'e kadar alınan PubMed belgelerinin sayısıyla birlikte detaylandırır. Bu yayınların özgün katkı araştırma makaleleri ve derleme makalelerinden oluşan bir alt kümesi, hipotez oluşturma sırasında RUGGED tarafından geri alınmak üzere bir vektör veritabanına indekslenmektedir.

KategoriDüğüm SayısıKenar SayısıVeri Kaynakları
Anatomi5,049122,533Bgee, PubMed, MeSH, Uberon, 
Biyolojik Süreç27,047108,106Gen Ontolojisi
Hücresel Bileşen4,05752,238Gen Ontolojisi
Bileşik27,2783,292,028DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight İlaçlar, Hetionet, PathFX, MyChem.info
Hastalık21,938311,773PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG
İlaç Sınıfı5,7218,283ATC
Gen29,810943,419HGNC, GRNdb, KEGG, ClinVar, ClinGen,
Moleküler fonksiyon11,15147,086SMPDB, DisGENET, PharmGKB, MyGene.info
Patika52,012234,944Gen Ontolojisi
Protein20,7401,074,809Reaktom, KEGG, SMPDB
Tepkime14,647128,038UniProt, Reactome, TTD, SMPDB, STRING, HGNC
Ara toplam219,4506,323,257Reaktom
Metin Madenciliği Dernekleri84,670
Toplam219,4586,327,927

Tablo 3: Bilgi grafiği istatistikleri. Bu tablo, metin madenciliği analizi ve tahmine dayalı analizden türetilen ek kenarlarla zenginleştirilmiş, yapılandırılmış Know2BIO bilgi grafiğini içeren 11 geniş biyomedikal kategoriyi detaylandırmaktadır. Elde edilen bilgi grafiği ve tahminler, hipotez oluşturma sırasında RUGGED tarafından alınmak üzere Neo4j grafik veritabanı tarafından yönetilir.

DoğrulukKesinlikAnımsamakF1 skoruAUROC (Avustralya Halk Cumhuriyeti)Avustralya Halk Cumhuriyeti
Doğrulama0.71580.66390.87430.75470.84370.8637
Test0.7030.63670.94550.7610.89610.9094

Tablo 4: Açıklanabilir yapay zeka modeli değerlendirmesi.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

RUGGED protokolü, araştırmacıların gelişen biyomedikal ortamı dinamik olarak keşfetmelerini ve yeni bilgileri ortaya çıkarmalarını sağlamak için güncel bilgilerle modern dil modellerinden yararlanır. Bu insan-bilgisayar etkileşimi, makinenin verimliliğini (RUGGED) ve araştırmacının uzmanlığını ve muhakemesini örnekleyen yenilikçi bir süreci teşvik eder. Bu protokol, belirtilen sırayla yürütülmek üzere tasarlanmıştır. Adım 1, yazılım yüklemesini detaylandırır. Adım 2 ve adım 3, biyomedikal literatür ve kaynakların hazırlanması için gereklidir, adım 4 ise bu bilgileri geri alma artırılmış üretim ve LLM sistemi ile kullanıcı etkileşimi için indeksler. Zaman alan adımlar aynı anda ve/veya sırayla çalışabilir. Örneğin, Neo4j grafiğinin oluşturulması (adım 4.2.2) tahmin analizi sırasında (adım 3) başlayabilir ve indeksleme, bilgi grafiği (adım 2.3) ve metin madenciliği (adım 2.1) oluşturulduktan sonra başlayabilir. Bu ara sonuçların nihai sonucunu elde etmek için bu adımların tekrarlanması gerekir. Biyomedikal bilgi alımı için tasarlanmış olsa da, bu protokol, küçük değişikliklerle, kurum içi veriler, klinik notlar veya elektronik sağlık kayıtları gibi diğer metin ve grafik verilerini de işleyebilir. Veri biçimlendirme ayrıntıları adım 4.2'dedir.

Bu platformun çalışması, dil modelleri, grafik veritabanları ve vektör veritabanları dahil olmak üzere çeşitli teknolojilerin uygun şekilde kurulmasına ve birbirine bağlanmasına dayanır (bkz. Bu hizmetlerin düzgün bir şekilde yüklendiğini ve bağlandığını doğrulamak için, GitHub deposundaki 'test' klasöründe test betikleri sağlanır. Harici hizmetler ücrete tabi olabilir ve fiyatlar satıcı tarafından değiştirilebilir. Bu isteğe bağlı hizmetler, yalnızca yeterli hesaplama kaynağı gerektiren yerel olarak barındırılan alternatiflere de sahiptir. Ancak, bu alternatifler model performansını ve/veya rahatlığını etkileyebilir ve bu da onları bazı kullanım durumu senaryoları için uygun hale getirmeyebilir.

Hızla gelişen LLM ortamı ile, yeni dönüm noktası modelleri ve göreve özel modeller düzenli olarak piyasaya sürülmektedir. Bu raporun hazırlandığı sırada, görev için en uygun modeller seçildi. Kullanıcılar, yapılandırma dosyasını uygun şekilde güncelleyerek hangi LLM'yi kullanacaklarını seçebilirler (bkz. adımlar 1.3.2-1.3.4). Model seçimi, belirli bir kullanım durumuyla ilgilerine bağlıdır. Örneğin, model yanıtlarının adil, sansürlü ve nefret söylemiiçermemesini sağlamaya odaklanan modellerin 73,74,75,76,77,78 bu iş akışına dahil edilmesi etik hususlar için çok önemlidir. Ayrıca, LLM79,80,81,82'den güvenilir ve sorumlu davranışa rehberlik etmek için hızlı mühendislik şarttır. RUGGED iş akışı için hazırlanan istemler, kullanılan modellere ve sunulan kullanım durumlarına göre uyarlanmıştır. Farklı bir kullanım durumu için istemlerde ince ayar yapmak için kullanıcılar, 'prompts.json' dosyasındaki 'yapılandırma' klasöründeki RUGGED iş akışı içindeki istemleri düzenleyebilir.

REG sistemleri, yanıtları kanıtlara dayandırarak LLM'lerdeki halüsinasyonları azaltmayı amaçlasa da, bu modeller yine de yanlış bilgilere veya genel olarak doğru, spesifik olmayan tepkilere yol açabilir. RUGGED'ın GPT-4o ile karşılaştırmalı bir karşılaştırması, Ek Dosya 1, Bölüm B'de verilmiştir. Model halüsinasyonları genellikle, alınan bilgiler modelin bağlam penceresini aştığında, hafıza kaybı ve veri içeriğini bulamama ile demansa benzer şekilde ortaya çıkar ve bu da yanlış yanıtlara neden olur 83,84,85. Uygun bir LLM modeli seçmek bu sorunu azaltmaya yardımcı olur. Örneğin, GPT-4o, kullanıcı için daha yüksek bir maliyetle de olsa, GPT-3.5 Turbo'nun 16 bin jeton sınırından önemli ölçüde daha fazla olan 128 bin jetonluk bir bağlam sınırına sahiptir. Ayrıca, belirli alan bilgisi ile ince ayarlanmış LLM'ler, biyomedikal uygulamalardaki yanıtların doğruluğunu ve özgüllüğünü potansiyel olarak artırabilir 86,87,88. Bu önlemlere rağmen, maliyetli ıslak laboratuvar deneylerine devam etmeden önce bilgileri çapraz kontrol etmek önemlidir.

RUGGED, bağlantı tahminlerini incelemek, hem güvenilir hem de daha önce keşfedilmemiş ilişkileri belirlemek için bir RAG boru hattı içinde açıklanabilir yapay zekadan yararlanır. Geleneksel RAG sistemleri toplu benzerliğe dayalı alıma dayanırken, bu yaklaşım açıklanabilirliği hedefli bir yanıt artırma ile birleştirir. Tablo 4 , modelin güçlü performansını vurgulamakta, yüksek hatırlama (doğrulama: 0.975 test: 0.976) ve dengeli F1 puanları (doğrulama: 0.796, test: 0.797) göstermekte ve daha yüksek bir yanlış pozitif oranına sahip olmasına rağmen gerçek pozitifleri belirlemede güvenilirliği göstermektedir. Modelin sağlamlığı, AUROC (doğrulama: 0.963, test: 0.964) ve AUPRC (doğrulama: 0.971, test: 0.972) değerleriyle daha da desteklenmektedir. Bununla birlikte, hassasiyet (doğrulama: 0.673, test: 0.674), eşik ayarından, ayrıntılı düğüm özelliklerinin dahil edilmesinden veya sınıf dengesizliğinin daha iyi ele alınmasından yararlanabilir. Modelin etkinliği büyük ölçüde girdi bilgi grafiğine bağlıdır; Aşırı öğrenme, daha küçük grafiklerde bir risktir, daha büyük grafikler ise daha fazla hesaplama kaynağı gerektirir. Bununla birlikte, herhangi bir RAG tabanlı yaklaşım, büyük ölçüde alımın altında yatan verilerin kalitesine bağlıdır. Örneğin, bir bilgi grafiğinin oluşturulması, orijinal grafikteki içsel gürültü nedeniyle genellikle zaman ve emek yoğundur. Bu, gürültüyü gidermek ve etiketlemek için manuel çabanın yanı sıra veritabanları için bakım ve güncelleme için devam eden maliyetler gerektirir.

RUGGED'in birincil kullanımı bilgi sentezi ve hipotez araştırmasıdır. Hastalık mekanizmaları ve ilaç tedavileri gibi çeşitli gizli ilişkileri araştıran RUGGED, literatür triyajını etkin bir şekilde yürütür. Hesaplama yükünü azaltmak için çoğu uygulama bir sunucuda (ör. AWS veya hesaplama sunucusu) barındırılabilir ve en son bilgilerle periyodik olarak güncellenecek şekilde yapılandırılabilir. Ayrıca bu iş akışı, güvenliği, mahremiyeti ve gizliliği korumak için hasta verilerini yerel modellerle dahil etmek için bir platform görevi görmek gibi alana özgü uygulamaları gerçekleştirmek için uyarlanabilir. Biyomedikal araştırmanın ötesinde, RUGGED'in modüler tasarımı, RAG boru hattını özelleştirerek ve hedef alana göre uyarlanmış mühendislik stratejilerini hızlandırarak bilgi alma, çıkarım ve özetleme görevlerini desteklemesine olanak tanır. Başarılı adaptasyon, çeşitli veri biçimlerinin önceden işlenmesi ve görev ve alana özgü ihtiyaçlar için uygun modellerin değerlendirilmesi gibi alana özgü zorlukların dikkatli bir şekilde değerlendirilmesini gerektirir.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarların ifşa edecek hiçbir şeyi yok.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarlar, rehberliği ve düşünceli tartışması için Dr. Alex Bui'ye teşekkür eder. Ayrıca, yararlı tartışmaları için Dr. Ding Wang'a teşekkür ederiz. Bu çalışma kısmen NIH 1U54HG012517-01 tarafından P.P., K.W. ve W.W.; NIH T32, ARP'ye HL13945; Ulusal Bilim Vakfı Araştırma Stajyeri (NRT) 1829071 A.R.P.'ye; ve UCLA'da PP'ye TC Laubisch Bağışı.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Donanım/Yazılım - Grafik Kartı ve yazılım sürücüsüNvidiahttps://www.nvidia.comYerel LLM ve tahmine dayalı analizler gibi hesaplama açısından yoğun görevler için çalışma süresini önemli ölçüde azaltmak için bir grafik kartı ve ilişkili sürücü yazılımı şiddetle tavsiye edilir. NVIDIA RTX GPU ile donatılmış cihazlar için gerekli sürücüleri ve CUDA Toolkit'i NVIDIA web sitesinden (https://developer.nvidia.com/cuda-downloads) indirin ve yükleyin.
Yazılım - Ticari Büyük Dil Modeli HizmetiOpenAIhttps://openai.comRUGGED, GPT-3.5 ve GPT-4o gibi modeller için OpenAI API'sini destekler. OpenAI modellerini kullanarak kurulum yapmak için önce bir OpenAI API Anahtarı edinin. Bir hesap oluşturmak, para yüklemek ve bir API anahtarı almak için OpenAI'nin web sitesine (https://openai.com/blog/openai-api) ilerleyin. Bu API anahtarı, RUGGED'ın OpenAI modellerini kullanmasını sağlamak için gereklidir. RUGGED sistemindeki hangi LLM aracılarının belgelerinden OpenAI modellerini kullanacağını belirleyin (https://platform.openai.com/docs/models).
NOT: OpenAI API ücretli bir hizmettir. Yayınlandığı tarihte, GPT-4o'nun maliyeti 1 milyon giriş jetonu başına 5,00 ABD Doları ve 1 milyon çıkış jetonu başına 2,50 ABD Dolarıdır (Daha fazla bilgi için https://openai.com/pricing ziyaret edin).
Yazılım - KonteynerleştirmeDockerhttps://www.docker.comDocker, tutarlı bir hesaplama çalışma zamanı ortamının korunmasına yardımcı olur, farklı makineler arasında yazılım kurulumunu ve yürütmesini kolaylaştırır. Docker'ı yüklemek için Docker web sitesini (https://www.docker.com/) ziyaret edin, 'Başlayın'a tıklayın, işletim sistemi için uygun sürümü indirin ve yükleyin. Terminale 'docker --version' yazarak kurulumu doğrulayın; başarılı yükleme, yüklenen Docker sürümünü raporlar.
Yazılım - Grafik VeritabanıNeo4jhttps://neo4j.comNeo4j, grafik tabanlı düğümleri ve ilişkileri verimli bir şekilde yöneten ve sorgulayan bir grafik veritabanı yazılımıdır. RUGGED, Neo4j'yi birden çok biçimde destekler: Docker konteyneri, Neo4j Masaüstü veya Neo4j AuraDB çevrimiçi sunucusu. Kullanım durumuna en uygun seçeneği belirleyin.
Neo4j'yi Docker kapsayıcısı olarak kurma. Docker'da Neo4j'yi klasörün dosya yolu (ör. /Users/username/RUGGED) 'PATH_TO_FOLDER' olacak şekilde ayarlamak için bu komutları çalıştırın. Sorun giderme hakkında daha fazla ayrıntı için Neo4j Docker web sitesine bakın (https://hub.docker.com/_/neo4j).
docker pull neo4j
docker run – name neo4j --net rugged_network --publish=7474:7474 --publish=7687:7687 -d -v 'PATH_TO_FOLDER'\neo4j\data:/data neo4j
NOT: Bir kullanıcı adı ve parola ayarlayarak Docker'da Neo4j'yi ilk kez başlatın. neo4j_setup.py betiğini (örneğin, python neo4j_setup.py) veya http://localhost:7474.
adresindeki web arayüzü aracılığıyla çalıştırın. Neo4j Desktop'ı Kurma. Neo4j Desktop kullanıyorsanız, Neo4j web sitesinden (https://neo4j.com/) indirin ve yükleyin. "Yeni"ye tıklayarak yeni bir proje oluşturun, ardından yeni bir Veritabanı Yönetim Sistemi (DBMS) oluşturmak için "Ekle"ye tıklayın. "Yerel DBMS" yi seçin, bir şifre belirleyin, "Oluştur" u tıklayın, ardından "Başlat" ı tıklayın. Yeşil bir "AKTİF" metni, çalıştığını gösterir.
Neo4j AuraDB'yi kurma. Bir hesap oluşturmak ve giriş yapmak için (https://neo4j.com/cloud/aura-free/) adresindeki Neo4j web sitesini ziyaret edin. Boş bir örnek oluşturmak için "Yeni Örnek"i seçin ve bolt arayüzüne erişmek için URI'yi ve ilk parolayı kaydedin (örn. bolt://myurl.neo4j.com). Bilgi kutusunda bağlantı URI'sini görüntüleyecek olan örneği başlatmak için oynat düğmesine tıklayın.
NOT: Neo4j AuraDB, 200.000 düğüme ve 400.000 ilişkiye kadar ücretsiz bir katman sunar. Daha büyük grafikler için Neo4j fiyatlandırmasını (https://neo4j.com/pricing) ziyaret edin.
Yazılım - Yerel Büyük Dil Modeli HizmetiOllamahttps://ollama.comRUGGED, Ollama kullanan yerel modellerin kullanımını destekler (örneğin, Llama3). Etkinleştirmek için önce cihaza Ollama'yı yükleyin veya Docker kapsayıcısını indirin. Ollama'yı yüklemek için Ollama web sitesini (https://ollama.com/download) ziyaret edin ve kurulum talimatlarını izleyin. Ollama'yı Docker'a kurmak için aşağıdaki komutu çalıştırın:
docker pull ollama/ollama
NOT: Yayınlandığı sırada, Windows işletim sisteminde Ollama için kararlı bir sürüm yoktur.
Yazılım - Sürüm kontrolüGithttps://www.git-scm.comSürüm kontrol yazılımı, yazılımın verimli bir şekilde yüklenmesini ve güncellenmesini sağlar. Git'i yüklemek için Git web sitesini (https://www.git-scm.com/) ziyaret edin, 'İndirilenler'e tıklayın, işletim sistemi için uygun sürümü indirin ve yükleyin. Terminale 'git --version' yazarak kurulumu doğrulayın; başarılı yükleme, yüklü Git sürümünü bildirir.

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Bioinformatics in translational drug discovery. Biosci Rep. 37 (4), BSR20160180(2017).">Wooller, S. K., Benstead-Hume, G., Chen, X., Ali, Y., Pearl, F. M. G. Bioinformatics in translational drug discovery. Biosci Rep. 37 (4), BSR20160180(2017).
  2. Computational approaches streamlining drug discovery. Nature. 616 (7958), 673-685 (2023).">Sadybekov, A. V., Katritch, V. Computational approaches streamlining drug discovery. Nature. 616 (7958), 673-685 (2023).
  3. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).">Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).
  4. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database (Oxford). 2017, bax043(2017).">Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database (Oxford). 2017, bax043(2017).
  5. A knowledge graph approach to elucidate the role of organellar pathways in disease via biomedical reports. J Vis Exp. (200), e65084(2023).">Pelletier, A. R., et al. A knowledge graph approach to elucidate the role of organellar pathways in disease via biomedical reports. J Vis Exp. (200), e65084(2023).
  6. A knowledge graph to interpret clinical proteomics data. Nat Biotechnol. 40 (5), 692-702 (2022).">Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nat Biotechnol. 40 (5), 692-702 (2022).
  7. PharmKG: A dedicated knowledge graph benchmark for bomedical data mining. Briefings in Bioinformatics. 22 (4), bbaa344(2021).">Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for bomedical data mining. Briefings in Bioinformatics. 22 (4), bbaa344(2021).
  8. Biomedical knowledge graph-optimized prompt generation for large language models. Bioinformatics. 40 (9), btae560(2023).">Soman, K., et al. Biomedical knowledge graph-optimized prompt generation for large language models. Bioinformatics. 40 (9), btae560(2023).
  9. ArXiv. , (2023).">Xiao, Y., et al. Know2BIO: A comprehensive dual-view benchmark for evolving biomedical knowledge graphs. ArXiv. , (2023).
  10. Large language models in medicine. Nat Med. 29 (8), 1930-1940 (2023).">Thirunavukarasu, A. J., et al. Large language models in medicine. Nat Med. 29 (8), 1930-1940 (2023).
  11. ArXiv. , (2023).">Lehman, E., et al. Do we still need clinical language models. ArXiv. , (2023).
  12. Large language models encode clinical knowledge. Nature. 620, 172-180 (2022).">Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620, 172-180 (2022).
  13. ArXiv. , (2022).">Agrawal, M., Hegselmann, S., Lang, H., Kim, Y., Sontag, D. Large language models are few-shot clinical information extractors. ArXiv. , (2022).
  14. Assessing the accuracy and reliability of AI-generated medical responses: An evaluation of the Chat-GPT model. Res Sq. , (2023).">Johnson, D., et al. Assessing the accuracy and reliability of AI-generated medical responses: An evaluation of the Chat-GPT model. Res Sq. , (2023).
  15. Evaluation of ChatGPT on biomedical tasks: A zero-shot comparison with fine-tuned generative transformers. Jahan, I., Laskar, M. T. R., Peng, C., Huang, J. The 22nd Workshop on Biomedical Natural Language Processing and BioNLP Shared Tasks, , 326-336 (2023).
  16. Assessing the accuracy of responses by the language model ChatGPT to questions regarding bariatric surgery. Obes Surg. 33 (6), 1790-1796 (2023).">Samaan, J. S., et al. Assessing the accuracy of responses by the language model ChatGPT to questions regarding bariatric surgery. Obes Surg. 33 (6), 1790-1796 (2023).
  17. Trialling a large language model (ChatGPT) in general practice with the applied knowledge test: observational study demonstrating opportunities and limitations in primary care. JMIR Med Educ. 9, e46599(2023).">Thirunavukarasu, A. J., et al. Trialling a large language model (ChatGPT) in general practice with the applied knowledge test: observational study demonstrating opportunities and limitations in primary care. JMIR Med Educ. 9, e46599(2023).
  18. ArXiv. , (2023).">Sun, W., et al. Is ChatGPT Good at search? Investigating large language models as re-ranking agents. ArXiv. , (2023).
  19. ArXiv. , (2023).">Xu, R., Feng, Y., Chen, H. ChatGPT vs. Google: A comparative study of search performance and user experience. ArXiv. , (2023).
  20. TruthfulQA: Measuring how models mimic human falsehoods. Lin, S., Hilton, J., Evans, O. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers, , 3214-3252 (2022).
  21. ArXiv. , (2023).">Manakul, P., Liusie, A., Gales, M. J. F. SelfCheckGPT: Zero-resource black-box hallucination detection for generative large language models. ArXiv. , (2023).
  22. FActScore: Fine-grained atomic evaluation of factual precision in long form text generation. Min, S., et al. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, , 12076-12100 (2023).
  23. Is ChatGPT fair for recommendation? Evaluating fairness in large language model recommendation. Proceedings of the 17th ACM Conference on Recommender Systems. , 993-999 (2023).">Zhang, J., et al. Is ChatGPT fair for recommendation? Evaluating fairness in large language model recommendation. Proceedings of the 17th ACM Conference on Recommender Systems. , 993-999 (2023).
  24. Building an ethical and trustworthy biomedical AI ecosystem for the translational and clinical integration of foundation models. Bioengineering. 11 (10), 984(2024).">Sankar, B. S., et al. Building an ethical and trustworthy biomedical AI ecosystem for the translational and clinical integration of foundation models. Bioengineering. 11 (10), 984(2024).
  25. ChatGPT and Other large language models are double-edged swords. Radiology. 307 (2), e230163(2023).">Shen, Y., et al. ChatGPT and Other large language models are double-edged swords. Radiology. 307 (2), e230163(2023).
  26. Ethics of large language models in medicine and medical research. Lancet Digit Health. 5 (6), e333-e335 (2023).">Li, H., et al. Ethics of large language models in medicine and medical research. Lancet Digit Health. 5 (6), e333-e335 (2023).
  27. ArXiv. , (2020).">Lewis, P., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. ArXiv. , (2020).
  28. ArXiv. , (2023).">Gao, Y., et al. Retrieval-augmented generation for large language models: A survey. ArXiv. , (2023).
  29. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Res. 47 (W1), W587-W593 (2019).">Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Res. 47 (W1), W587-W593 (2019).
  30. ArXiv. , (2024).">Wei, C. -H., et al. PubTator 3.0: An AI-powered literature resource for unlocking biomedical knowledge. ArXiv. , (2024).
  31. Comparative Reasoning for knowledge graph fact checking. Liu, L., Ji, H., Xu, J., Tong, H. 2022 IEEE International Conference on Big Data (Big Data), , 2309-2312 (2022).
  32. Knowledge Graph reasoning and its applications. Liu, L., Tong, H. Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, , 5813-5814 (2023).
  33. ArXiv. , (2024).">Liu, L., et al. Logic query of thoughts: Guiding large language models to answer complex logic queries with knowledge graphs. ArXiv. , (2024).
  34. Barack's wife hillary: Using Knowledge graphs for fact-aware language modeling. Logan, R., Liu, N. F., Peters, M. E., Gardner, M., Singh, S. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, , 5962-5971 (2019).
  35. ArXiv. , (2024).">Sun, J., et al. Think-on-graph: Deep and responsible reasoning of large language model on knowledge graph. ArXiv. , (2024).
  36. ArXiv. , (2024).">Wen, Y., Wang, Z., Sun, J. MindMap: Knowledge Graph prompting sparks graph of thoughts in large language models. ArXiv. , (2024).
  37. ArXiv. , (2020).">Wang, C., Liu, X., Song, D. Language models are open knowledge graphs. ArXiv. , (2020).
  38. QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. Yasunaga, M., Ren, H., Bosselut, A., Liang, P., Leskovec, J. Proceedings of the 2021 Conference of the North American Chapter of the, , 535-546 (2021).
  39. SimKGC: Simple contrastive knowledge graph completion with pre-trained language models. Wang, L., Zhao, W., Wei, Z., Liu, J. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers, , 4281-4294 (2022).
  40. FLAIRS. 36, (2023).">Lazar, A. Graph neural networks for link prediction. FLAIRS. 36, (2023).
  41. ArXiv. , (2018).">Zhang, M., Chen, Y. Link prediction based on graph neural networks. ArXiv. , (2018).
  42. XGNN: Towards model-level explanations of graph neural networks. Yuan, H., Tang, J., Hu, X., Ji, S. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, , (2020).
  43. CFGExplainer: Explaining graph neural network-based malware classification from control flow graphs. Herath, J. D., Wakodikar, P., Yang, P., Yan, G. 2022 52nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN), , 172-184 (2022).
  44. GNNExplainer: Generating explanations for graph neural networks. Adv Neural Inf Process Syst. 32, 9240-9251 (2019).">Ying, R., Bourgeois, D., You, J., Zitnik, M., Leskovec, J. GNNExplainer: Generating explanations for graph neural networks. Adv Neural Inf Process Syst. 32, 9240-9251 (2019).
  45. The Bgee suite: Integrated curated expression atlas and comparative transcriptomics in animals. Nucleic Acids Res. 49 (D1), D831-D847 (2021).">Bastian, F. B., et al. The Bgee suite: Integrated curated expression atlas and comparative transcriptomics in animals. Nucleic Acids Res. 49 (D1), D831-D847 (2021).
  46. Comparative Toxicogenomics Database (CTD): Update 2023. Nucleic Acids Res. 51 (D1), D1257-D1262 (2023).">Davis, A. P., et al. Comparative Toxicogenomics Database (CTD): Update 2023. Nucleic Acids Res. 51 (D1), D1257-D1262 (2023).
  47. ClinGen - The clinical genome resource. N Engl J Med. 372 (23), 2235-2242 (2015).">Rehm, H. L., et al. ClinGen - The clinical genome resource. N Engl J Med. 372 (23), 2235-2242 (2015).
  48. ClinVar: Improvements to accessing data. Nucleic Acids Res. 48 (D1), D835-D844 (2020).">Landrum, M. J., et al. ClinVar: Improvements to accessing data. Nucleic Acids Res. 48 (D1), D835-D844 (2020).
  49. The human disease ontology 2022 update. Nucleic Acids Res. 50 (D1), D1255-D1261 (2022).">Schriml, L. M., et al. The human disease ontology 2022 update. Nucleic Acids Res. 50 (D1), D1255-D1261 (2022).
  50. The DisGeNET cytoscape app: Exploring and visualizing disease genomics data. Comput Struct Biotechnol J. 19, 2960-2967 (2021).">Piñero, J., Saüch, J., Sanz, F., Furlong, L. I. The DisGeNET cytoscape app: Exploring and visualizing disease genomics data. Comput Struct Biotechnol J. 19, 2960-2967 (2021).
  51. DrugBank 6.0: The DrugBank knowledgebase for 2024. Nucleic Acids Res. 52 (D1), D1265-D1275 (2024).">Knox, C., et al. DrugBank 6.0: The DrugBank knowledgebase for 2024. Nucleic Acids Res. 52 (D1), D1265-D1275 (2024).
  52. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Res. 49 (D1), D97-D103 (2021).">Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Res. 49 (D1), D97-D103 (2021).
  53. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Res. 49 (D1), D325-D334 (2021).">Gene Ontology Consortium. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Res. 49 (D1), D325-D334 (2021).
  54. Genenames.org: The HGNC resources in 2023. Nucleic Acids Res. 51 (D1), D1003-D1009 (2023).">Seal, R. L., et al. Genenames.org: The HGNC resources in 2023. Nucleic Acids Res. 51 (D1), D1003-D1009 (2023).
  55. NCATS Inxight Drugs: A comprehensive and curated portal for translational research. Nucleic Acids Res. 50 (D1), D1307-D1316 (2022).">Siramshetty, V. B., et al. NCATS Inxight Drugs: A comprehensive and curated portal for translational research. Nucleic Acids Res. 50 (D1), D1307-D1316 (2022).
  56. KEGG: New perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 45 (D1), D353-D361 (2017).">Kanehisa, M., Furumichi, M., Tanabe, M., Sato, Y., Morishima, K. KEGG: New perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 45 (D1), D353-D361 (2017).
  57. Medical Subject Headings (MeSH). Bull Med Libr Assoc. 88 (3), 265-266 (2000).">Lipscomb, C. E. Medical Subject Headings (MeSH). Bull Med Libr Assoc. 88 (3), 265-266 (2000).
  58. medRxiv. , (2022).">Vasilevsky, N. A., et al. Mondo: Unifying diseases for the world, by the world. medRxiv. , (2022).
  59. BioThings SDK: A toolkit for building high-performance data APIs in biomedical research. Bioinformatics. 38 (7), 2077-2079 (2022).">Lelong, S., et al. BioThings SDK: A toolkit for building high-performance data APIs in biomedical research. Bioinformatics. 38 (7), 2077-2079 (2022).
  60. OMIM.org: Leveraging knowledge across phenotype-gene relationships. Nucleic Acids Res. 47 (D1), D1038-D1043 (2019).">Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: Leveraging knowledge across phenotype-gene relationships. Nucleic Acids Res. 47 (D1), D1038-D1043 (2019).
  61. PathFX provides mechanistic insights into drug efficacy and safety for regulatory review and therapeutic development. PLoS Comput Biol. 14 (12), e1006614(2018).">Wilson, J. L., et al. PathFX provides mechanistic insights into drug efficacy and safety for regulatory review and therapeutic development. PLoS Comput Biol. 14 (12), e1006614(2018).
  62. PharmGKB, an Integrated resource of pharmacogenomic knowledge. Curr Protoc. 1 (8), e226(2021).">Gong, L., Whirl-Carrillo, M., Klein, T. E. PharmGKB, an Integrated resource of pharmacogenomic knowledge. Curr Protoc. 1 (8), e226(2021).
  63. The reactome pathway knowledgebase 2022. Nucleic Acids Res. 50 (D1), D687-D692 (2022).">Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Res. 50 (D1), D687-D692 (2022).
  64. The SIDER database of drugs and side effects. Nucleic Acids Res. 44 (D1), D1075-D1079 (2016).">Kuhn, M., Letunic, I., Jensen, L. J., Bork, P. The SIDER database of drugs and side effects. Nucleic Acids Res. 44 (D1), D1075-D1079 (2016).
  65. SMPDB 2.0: Big improvements to the small molecule pathway database. Nucleic Acids Res. 42 (Database issue), D478-D484 (2014).">Jewison, T., et al. SMPDB 2.0: Big improvements to the small molecule pathway database. Nucleic Acids Res. 42 (Database issue), D478-D484 (2014).
  66. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Res. 47 (D1), D607-D613 (2019).">Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Res. 47 (D1), D607-D613 (2019).
  67. Therapeutic target database update 2022: Facilitating drug discovery with enriched comparative data of targeted agents. Nucleic Acids Res. 50 (D1), D1398-D1407 (2022).">Zhou, Y., et al. Therapeutic target database update 2022: Facilitating drug discovery with enriched comparative data of targeted agents. Nucleic Acids Res. 50 (D1), D1398-D1407 (2022).
  68. The Unified Medical Language System (UMLS): Integrating biomedical terminology. Nucleic Acids Res. 32 (Database issue), D267-D270 (2004).">Bodenreider, O. The Unified Medical Language System (UMLS): Integrating biomedical terminology. Nucleic Acids Res. 32 (Database issue), D267-D270 (2004).
  69. Unification of multi-species vertebrate anatomy ontologies for comparative biology in Uberon. J Biomed Semantics. 5, 21(2014).">Haendel, M. A., et al. Unification of multi-species vertebrate anatomy ontologies for comparative biology in Uberon. J Biomed Semantics. 5, 21(2014).
  70. UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res. 51 (D1), D523-D531 (2023).">UniProt Consortium. UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res. 51 (D1), D523-D531 (2023).
  71. Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. Lewis, M., et al. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, , 7871-7880 (2020).
  72. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. J Vis Exp. (144), e59108(2019).">Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. J Vis Exp. (144), e59108(2019).
  73. FM. ArXiv. , (2023).">Ferrara, E. Should ChatGPT be biased? Challenges and risks of bias in large language models. FM. ArXiv. , (2023).
  74. ArXiv. , (2023).">Gallegos, I. O., et al. Bias and fairness in large language models: A Survey. ArXiv. , (2023).
  75. Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review. Res Integr Peer Rev. 8 (1), 4(2023).">Hosseini, M., Horbach, S. P. J. M. Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review. Res Integr Peer Rev. 8 (1), 4(2023).
  76. Kotek, H., Dockum, R., Sun, D. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference, , 12-24 (2023).
  77. Prompting techniques for reducing social bias in LLMs through System 1 and System 2 Cognitive Processes. ArXiv. , (2024).">Kamruzzaman, M., Kim, G. L. Prompting techniques for reducing social bias in LLMs through System 1 and System 2 Cognitive Processes. ArXiv. , (2024).
  78. ArXiv. , (2024).">Raza, S., Raval, A., Chatrath, V. MBIAS: Mitigating bias in large language models while retaining context. ArXiv. , (2024).
  79. ArXiv. , (2023).">Chen, B., Zhang, Z., Langrené, N., Zhu, S. Unleashing the potential of prompt engineering in Large Language Models: A comprehensive review. ArXiv. , (2023).
  80. ArXiv. , (2023).">White, J., et al. A prompt pattern catalog to enhance prompt engineering with ChatGPT. ArXiv. , (2023).
  81. Prompt engineering as an important emerging skill for medical professionals: Tutorial. J Med Internet Res. 25, e50638(2023).">Meskó, B. Prompt engineering as an important emerging skill for medical professionals: Tutorial. J Med Internet Res. 25, e50638(2023).
  82. ArXiv. , (2023).">Wang, J., et al. Prompt Engineering for Healthcare: Methodologies and applications. ArXiv. , (2023).
  83. ArXiv. , (2023).">Luo, Y., et al. An empirical study of catastrophic forgetting in large language models during continual fine-tuning. ArXiv. , (2023).
  84. Retrieval meets Long Context Large Language Models. ArXiv. , (2023).">Xu, P., et al. Retrieval meets Long Context Large Language Models. ArXiv. , (2023).
  85. ArXiv. , (2023).">Chen, S., Wong, S., Chen, L., Tian, Y. Extending context window of Large Language Models via positional interpolation. ArXiv. , (2023).
  86. ArXiv. , (2024).">Labrak, Y., et al. BioMistral: A collection of open-source pretrained large language models for medical domains. ArXiv. , (2024).
  87. BioGPT: Generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6), bbac409(2022).">Luo, R., et al. BioGPT: Generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6), bbac409(2022).
  88. ArXiv. , (2024).">Wang, C., et al. A survey for large language models in biomedicine. ArXiv. , (2024).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Biomedical Knowledge BasesExplainable AIKnowledge GraphRetrieval Augmented GenerationLarge Language ModelsText Mining AnalysisHypothesis ValidationDrug Disease RelationshipsAgentic SystemsCardiomyopathy Therapeutics

Related Articles