June 13th, 2025
Bu makalede, Büyük Dil Modeli (LLM) çıkarımını Geri Alma-Artırılmış Nesil (RAG) ile tümleştiren RUGGED (Grafik Güdümlü Açıklanabilir Hastalık Ayrımı Altında Geri Alma) açıklanmaktadır. Güncel bilgilerden yeni bilgileri sentezlemek, açıklanabilir ve eyleme geçirilebilir tahminleri belirlemek ve hipoteze dayalı araştırmalar için umut verici yönleri belirlemek için uzman küratörlüğünde biyomedikal bilgi tabanlarından ve hakemli biyomedikal yayınlardan kanıtlar alır.
Bu protokol, biyomedikal ve klinik soruları güvenilir bir şekilde araştırmak ve hipotez oluşturmak için bir platform sunar. Rugged, büyük dil modellerinden yararlanarak, bunları hakemli yayınlara ve küratörlüğünde biyomedikal bilgi tabanlarına bağlayarak ve yeni ilişkileri ortaya çıkarmak için açıklanabilir yapay zekayı kullanarak biyomedikal ortamın keşfedilmesine yardımcı olur. Üretken yapay zeka ve büyük dil modellerindeki son gelişmeler, kanıt destekli biyomedikal kaynaklarla etkileşim kurma şeklimizi değiştirerek özetleme, soru yanıtlama ve esnek hipotez keşfi gibi görevleri mümkün kılmıştır. Daha önceki yaklaşımlar, biyomedikal literatürden kalıpları ve üst düzey ilişkileri çıkarmak için metin madenciliğine dayanıyordu. Günümüzde yaklaşımlar, büyük dil modellerini geri alma ile artırılmış oluşturma, ajan sistemleri ve araç çağırma yetenekleriyle birleştiriyor. Halka açık birçok dil modeli, potansiyel olarak olgusal olarak yanlış bilgi üreterek güvenilirlikle mücadele eder. Son modeller iyileşmiş olsa da, yayınlandıkları tarihteki çıktıları genellikle etki alanı özgüllüğünden yoksundu, belirsiz genel dile dayanıyordu ve uzun ve parçalı açıklamalar üretiyordu. JoVE ile yapılan önceki yayınlarda, proteinler, hücresel bileşenler ve kardiyovasküler hastalıklar arasındaki ilişkileri tahmin etmek ve anlamak için metin madenciliği ve biyomedikal bilgi grafiği modellemesinin nasıl uygulandığını vurguladık. Bu temel üzerine inşa edilen en son araştırmamız, bu yapılandırılmış biyomedikal bilgiyi büyük dil modeli destekli iş akışlarıyla entegre etmeye, doğru çıkarım ve kanıta dayalı yanıtlar sağlamaya odaklanmaktadır.
[Ekran Okuyucusu] Başlamak için, terminaldeki komutla Rugged hizmetini başlatın. CaseOLAP LIFT kullanarak biyomedikal literatürü ayıklayın ve yüksek seviyeli protein hastalığı ilişkileriyle birlikte ilgili belgeleri tanımlayın. caseOLAP LIFT JoVE protokolünü ziyaret edin ve caseOLAP LIFT metin madenciliği analizini gerçekleştirin. Ardından, terminaldeki Know2BIO deposunu klonlayın. Komut satırını kullanarak, bilgi bankası kaynaklarını indirmek ve ayıklama işlem hattının ilerlemesini izlemek için create_edge_files.py betiğini yürütün. Ardından, prepare_kgs.py komut dosyasıyla bilgi grafiğini oluşturun. Metin madenciliği analizinden ve bilgi grafiği oluşturmadan çıkarılan ilişkileri ve varlıkları tek bir kapsamlı grafikte birleştirmek için combine_kg_results.py komut dosyasının sonuçlarını entegre edin. Bilgi grafiğini gözden geçirerek ve tahmine dayalı analizde kullanılmak üzere ilgili düğümleri seçerek ilgilenilen biyomedikal varlıkları belirleyin. Seçilen ilgili hastalık düğümlerinden iki atlama içinde ulaşılabilen bir alt grafiği çıkarmak için filter.py komut dosyasını kullanın ve komutu çalıştırın. Tahmin edilecek kenarları ve giriş bilgi grafiğini komut satırı bağımsız değişkenleri olarak belirterek tahmin analizi komut dosyasını çalıştırın ve çıktıyı alın. Şimdi, Rugged Docker kapsayıcısına bağlanın. Önceki terminal penceresi kapatıldıysa Docker kapsayıcısına yeniden bağlanın. Bağlandıktan sonra, komut satırında CD çalışma alanı Rugged ile Rugged dizinine gidin ve bu komut satırı penceresinde kalan tüm adımları gerçekleştirin. Tüm destek hizmetlerinin çalıştığını doğruladıktan sonra, sistemle etkileşime başlamak için komut satırı arabiriminde Rugged'ı başlatın. Bilgi grafiğini sorgulamak için doğal dilde "sorgu" anahtar kelimesiyle başlayan bir soru sorun. Örneğin, "şu anda beta bloker olarak sınıflandırılan reçete edilen ilaçlar nelerdir?" yazın. "Tahmin" anahtar kelimesiyle başlayan sorularla bağlantı tahmin analizinden elde edilen tahminleri keşfedin. Ardından, "arama" anahtar kelimesini kullanarak ikinci adımdaki bir biyomedikal konuyla ilgili belgeleri doğal dilde alın. Aynı terminal penceresinde Rugged'ın sohbet benzeri arayüzünü kullanarak sorguları yinelemeli olarak daraltın. İsteğe bağlı olarak, bilgi grafiği sorgu sonuçlarını iyileştirmek için Neo4j'de şifre komutlarını yeniden çalıştırın ve değiştirin. Daha sonra gözden geçirilmek üzere bir metin özeti çıktısı almak için "özetle" anahtar kelimesiyle tüm etkileşimi özetleyin ve özeti sonlandırmadan önce sistem yanıtlarının okunabilirliğini ve doğruluğunu artırmak için döngüde bir insan incelemesi yapın. Son olarak, Rugged içindeki günlük klasöründeki sohbet günlüklerini gözden geçirin ve etkileşimin tam metnini inceleyin. Know2BIO kullanılarak oluşturulan bilgi grafiği 219.450 düğüm ve 6.323.257 kenar içeriyordu. Rugged sistemi, vektör araması için BART modelini kullanarak bilgi grafiğini ve yayın verilerini gömdü ve 500 jetondan daha uzun yayınlar bölüm bölüm özetlendi.
Bu makale, büyük dil modeli çıkarımını alma-artırılmış jenerasyon ile entegre eden bir platform olan RUGGED'i (Retrieval Under Graph-Guided Explainable disease Distinction) sunar. Biyomedikal literatür ve bilgi tabanlarından yeni bilgiler sentezlemeyi, hipotez oluşturmayı ve biyomedikal soruların keşfini kolaylaştırmayı amaçlamaktadır.