April 13th, 2022
Celem tego protokołu jest efektywne generowanie i zarządzanie bibliotekami struktur małych cząsteczek za pomocą oprogramowania open-source.
Nasz protokół pokazuje, w jaki sposób oprogramowanie open source może pozwolić każdemu badaczowi na stworzenie i zarządzanie biblioteką struktur obliczeniowych. Atrakcyjność tego protokołu wynika z jego otwartości i elastyczności. Każdy może z niego korzystać i modyfikować go tak, aby pasował do jego konkretnego pytania badawczego.
Wersje tego protokołu mogą być stosowane w aplikacjach związanych z odkrywaniem leków, szybko tworząc biblioteki specyficznych struktur do badań przesiewowych in silico. Chociaż protokół jest wyjaśniany krok po kroku, jeśli użytkownicy nie są zaznajomieni z Javą lub podstawowym kodowaniem, mogą najpierw zapoznać się z nimi przed wdrożeniem protokołu. Zacznij od utworzenia nowego katalogu dla projektu.
Umieść wszystkie pliki i pliki wykonywalne w tym katalogu, aby mieć do nich łatwy dostęp. Pobierz najnowszą wersję Maygen jako plik jar i oprogramowanie do zarządzania pakietami Anaconda. W systemach Windows wyszukaj monit Anaconda i kliknij wynikowy skrót, aby uruchomić.
Aby utworzyć środowisko RDKit w programie Anaconda i pobrać narzędzie RDKit do środowiska, wpisz polecenie wyświetlane na ekranie, naciśnij Enter, aby uruchomić i odpowiedzieć tak na wszelkie pytania, które pojawią się podczas instalacji. Następnie pobierz notesy Jupyter Notebook i pliki tekstowe wzorców podłoża z plików uzupełniających, od jednego do pięciu. W wierszu polecenia przejdź do katalogu zawierającego maygen.
plik wykonywalny jar. Dla każdego wzoru chemicznego, który Cię interesuje, użyj polecenia pokazanego na ekranie, aby uruchomić Maygen. Jeśli formuła jest formułą rozmytą, a nie formułą dyskretną, zastąp flagę łącznika F flagą łącznika rozmytego i umieść wszystkie interwały elementów w nawiasach kwadratowych.
W wierszu polecenia programu Anaconda przejdź do folderu zawierającego notesy Jupyter Notebook i aktywuj środowisko RDKit. Pobrane notesy wymagają narzędzia RDKit. Tak więc każde przyszłe użycie ich w tym protokole będzie wymagało ich otwarcia w środowisku RDKit.
Następnie otwórz Jupyter Notebook w celu filtrowania podstruktury i zamknij nazwę pliku w cudzysłowie, jeśli zawiera spacje. W wyznaczonej komórce na początku notesu wprowadź pełną ścieżkę wejściowego pliku sdf. Pełna ścieżka do żądanego pliku wyjściowego sdf i ścieżka do pliku z listą uszkodzonych plików jako ciągi.
Jeśli niektóre struktury podrzędne w filtrowanej bibliotece lub dobrej liście muszą zostać zachowane, utwórz plik txt z wzorcami SMARTS dla tych struktur podrzędnych i umieść ścieżkę do pliku dobrej listy w wyznaczonym wierszu na początku notesu. Z menu u góry wybierz pozycję jądro, uruchom ponownie i uruchom wszystko, aby ponownie uruchomić jądro notesu i uruchomić wszystkie komórki. Plik sdf o żądanej nazwie zostanie utworzony w określonym folderze wyjściowym.
Powtórz te kroki dla każdego pliku struktury wygenerowanego przez Maygen. W celu zastąpienia pseudoatomu otwórz wiersz polecenia Anaconda, przejdź do folderu zawierającego notesy Jupyter Notebook i aktywuj środowisko RDKit. Następnie otwórz Jupyter Notebook w celu zastąpienia pseudoatomu.
W wyznaczonej komórce na początku notesu wprowadź pełną ścieżkę wejściowego pliku sdf i pełną ścieżkę pliku wyjściowego sdf jako ciągi. Uruchom ponownie jądro notesu i uruchom wszystkie komórki, aby uzyskać plik sdf o żądanej nazwie w określonym folderze wyjściowym. Podobnie otwórz monit Anaconda dla limitowania końców aminokwasów N i C.
Przejdź do folderu zawierającego notesy Jupyter Notebook i aktywuj środowisko RDKit. Otwórz Jupyter Notebook w celu ograniczenia aminokwasów. W wyznaczonej komórce na początku notesu wprowadź pełną ścieżkę wejściowego pliku sdf i pełną ścieżkę pliku wyjściowego sdf jako ciągi.
Uruchom ponownie jądro notesu i uruchom wszystkie komórki, aby uzyskać plik sdf o żądanej nazwie w określonym folderze wyjściowym. Do generowania deskryptorów należy umieścić wszystkie pliki sdf, dla których mają być obliczane deskryptory, w jednym folderze. Następnie pobierz deskryptor PaDEL, rozpakuj go i rozpakuj do tego folderu.
Otwórz wiersz polecenia, przejdź do folderu zawierającego plik jar deskryptora PaDEL i uruchom deskryptor PaDEL dla zebranych plików sdf. Przestrzeń chemiczna wszystkich filtrowanych bibliotek aminokwasów jest pokazana tutaj. Czarne znaczniki reprezentują aminokwasy z bibliotek bez siarki, a żółte znaczniki reprezentują aminokwasy z bibliotek wzbogaconych w siarkę.
Tutaj biblioteki VAIL i VAIL_S są reprezentowane przez okręgi. Biblioteki DEST i DEST_S są reprezentowane przez kwadraty. Biblioteki Proline i Pro S są reprezentowane przez trójkąty, a gwiazdy reprezentują zakodowane aminokwasy.
Zakres możliwych wartości logarytmu P zwiększa się wraz z objętością cząsteczkową nawet w bibliotekach, które wyraźnie nie mają hydrofilowych łańcuchów bocznych. Kodowane aminokwasy z węglowodorowymi łańcuchami bocznymi są bardziej hydrofobowe niż większość innych aminokwasów o porównywalnej objętości z odpowiedniej biblioteki. Dotyczy to również nalegania na metioninę w porównaniu z innymi członkami biblioteki VAILS o podobnych objętościach.
Kodowane aminokwasy z hydroksylowymi łańcuchami bocznymi należały do najmniejszych członków biblioteki DEST, przy czym kwas asparaginowy był tylko nieznacznie większy niż trzy aniny. Przedstawiony obraz przedstawia średnie objętości bibliotek Van der Waala z siarką i bez siarki. Substytucja siarki doprowadziła do nieznacznego wzrostu objętości molekularnej we wszystkich bibliotekach.
W tym miejscu pokazane są średnie wartości współczynników partycji bibliotek z siarką i bez siarki. Wpływ podstawienia siarki na log P nie jest tak jednorodny jak w przypadku objętości. Reprezentatywny obraz przedstawia wpływ trójwartościowego pseudoatomu na generowanie struktury Maygena.
Użycie pseudoatomu w generowaniu struktur zmniejszyło liczbę generowanych struktur o około trzy rzędy wielkości w całkowitym czasie potrzebnym do wygenerowania tych struktur o jeden do dwóch rzędów wielkości. Zgodnie z tym protokołem, w przyszłości można zintegrować dodatkowe funkcjonalności w oparciu o potrzeby badaczy. Na przykład można zintegrować filtry podstruktury z Maygen, aby uniknąć etapu przetwarzania końcowego.
Generowanie, selekcja i modyfikacja bibliotek. Ten ogólny proces może pomieścić inne struktury molekularne i modyfikacje z pewną wiedzą na temat kodowania, co pozwoli naukowcom badać biblioteki obliczeniowe wykraczające poza te dotyczące aminokwasów alfa. Protokół ten pomoże naukowcom usprawnić ich prace obliczeniowe w dziedzinie początków życia.
Zestawy narzędzi open source znacznie pomogą w tych wysiłkach.
Ten protokół opisuje wykorzystanie oprogramowania open-source do tworzenia i kuracji bibliotek struktur małych cząsteczek. Nacisk kładzie się na elastyczność i dostępność dla badaczy w dziedzinie odkrywania leków.