Chemistry

Курирование вычислительных химических библиотек, демонстрируемых с помощью альфа-аминокислот

Published: April 13, 2022 doi: 10.3791/63632

Christopher Mayer-Bacon¹, Mehmet Aziz Yirik²

¹Biological Sciences Department, University of Maryland-Baltimore County, ²Institute for Inorganic and Analytical Chemistry, Friedrich-Schiller University

Summary

Целью этого протокола является эффективное создание и курирование библиотек структуры малых молекул с использованием программного обеспечения с открытым исходным кодом.

Abstract

Исчерпывающая генерация молекулярных структур имеет многочисленные химические и биохимические применения, такие как разработка лекарств, построение молекулярных баз данных, исследование альтернативных биохимий и многое другое. Математически говоря, это графовые генераторы с химическими ограничениями. В полевых условиях наиболее эффективным генератором в настоящее время (MOLGEN) является коммерческий продукт, ограничивающий его использование. Альтернативой этому является другой генератор молекулярной структуры, MAYGEN, является недавним инструментом с открытым исходным кодом с эффективностью, сопоставимой с MOLGEN, и способностью пользователей повышать его производительность за счет добавления новых функций. Одной из областей исследований, которые могут извлечь выгоду из этого развития, является астробиология; Структурные генераторы позволяют исследователям дополнять экспериментальные данные вычислительными возможностями для альтернативной биохимии. Этот протокол подробно описывает один из вариантов использования генерации структуры в астробиологии, а именно генерацию и курирование библиотек альфа-аминокислот. Используя генераторы структур с открытым исходным кодом и инструменты хеминформатики, описанные здесь практики могут быть реализованы за пределами астробиологии для недорогого создания и курирования библиотек химических структур для любого исследовательского вопроса.

Introduction

Генерация молекулярной структуры служит практическим применением общей проблемы генерации исчерпывающих графов; Учитывая несколько узлов (атомов) и ограничения на их связность (например, валентности, кратности связей, желаемые/нежелательные подструктуры), сколько связанных графов (молекул) возможно? Структурные генераторы нашли широкое применение в открытии лекарств и фармацевтических разработках, где они могут создавать обширные библиотеки новых структур для скрининга in silico ¹.

Первый генератор структуры, CONGEN, был разработан для первого проекта искусственного интеллекта в органической химии, DENDRAL² (сокращение от DENDRitic ALgorithm). В литературе сообщалось о нескольких программных преемниках DENDRAL; однако не все из них были сохранены или эффективны. В настоящее время MOLGEN³ является современным генератором молекулярной структуры. К сожалению для большинства потенциальных пользователей, он является закрытым исходным кодом и требует лицензионного сбора. Таким образом, возникла потребность в эффективном генераторе структуры с открытым исходным кодом, который может легко адаптироваться к конкретным приложениям. Одной из проблем для эффективного генератора структуры является управление комбинаторным взрывом; по мере увеличения размера молекулярной формулы размер пространства химического поиска увеличивается экспоненциально. Недавний обзор дополнительно исследует историю и проблемы молекулярной структуры поколения⁴.

До 2021 года генератор параллельных молекул (PMG)⁵ был самым быстрым генератором структуры с открытым исходным кодом, но он все еще был медленнее, чем MOLGEN на порядки. MAYGEN⁶ примерно в 47 раз быстрее, чем PMG и примерно в 3 раза медленнее, чем MOLGEN, что делает MAYGEN самым быстрым и эффективным генератором структуры с открытым исходным кодом. Более подробные сравнения и сравнительные тесты можно найти в статье, представляющей MAYGEN⁶. Ключевой особенностью программы является ее лексикографический тест на основе упорядочения канонических структур, метод упорядоченной генерации графов, основанный на алгоритме Шрайера-Симса⁷ . Программное обеспечение может быть легко интегрировано в другие проекты и улучшено для нужд пользователей.

Как и MOLGEN и PMG, MAYGEN принимает определяемую пользователем молекулярную формулу и генерирует все структуры, возможные для этой формулы. Например, если пользователь запустит MAYGEN с формулой C₅H₁₂, MAYGEN сгенерирует все возможные структуры, содержащие пять атомов углерода и двенадцать атомов водорода. В отличие от своего аналога с открытым исходным кодом PMG, MAYGEN также может вместить «нечеткие» молекулярные формулы, которые используют интервалы вместо дискретных чисел для подсчета каждого элемента. Например, если пользователь запустит MAYGEN с формулой C_5-7H_12-15, MAYGEN сгенерирует все возможные структуры, которые содержат от пяти до семи атомов углерода и двенадцать и пятнадцать атомов водорода, что позволит просто генерировать структуры с широким диапазоном атомных составов.

Астробиология является одной из таких областей, которая может извлечь выгоду из генераторов молекулярной структуры. Популярной темой в астробиологии является эволюция аминокислотного алфавита, разделяемого всей существующей жизнью на Земле. Одной из определяющих особенностей последнего универсального общего предка (LUCA) является использование двадцати генетически закодированных аминокислот для построения белка ^8,9. Основываясь на мета-анализе работы в нескольких областях 10,11,12, примерно 10 из этих аминокислот (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) легко образуются в абиотических условиях и, вероятно, составляют аминокислотный алфавит организмов до LUCA. Со временем этот «ранний» алфавит был расширен в ответ на различные структурные и функциональные потребности. Например, в недавнем обзоре Moosmann¹³ утверждается, что добавление более поздних членов генетически закодированных аминокислот (а именно Met, Tyr и Trp) позволило выжить в богатых кислородом средах, предотвращая внутриклеточную пролиферацию активных форм кислорода.

Постоянно растущий набор методов аналитической химии позволяет понять аминокислотные структуры, которые могут образовываться в абиотических условиях. В недавнем обзоре¹⁴ Симкуса и других подробно описываются методы, используемые для обнаружения многочисленных органических соединений в метеоритах, а также органических соединений из моделирования in vitro ранних сред Земли 15,16,17. Систематическая генерация химических структур позволяет исследователям исследовать за пределами органических соединений, обнаруженных с помощью приборов, заполняя структурное пространство вокруг структурных «островов», идентифицированных аналитической химией. В случае «ранних» аминокислот эта систематическая генерация структуры показывает возможную химию белка, доступную для ранней жизни, не ограничивая исследование структурами, которые были экспериментально обнаружены в условиях абиотического синтеза. С инструментами хеминформатики с открытым исходным кодом и эффективными генераторами структур, такими как MAYGEN, создание и изучение новых библиотек химических структур теперь проще, чем когда-либо прежде, и может направлять более подробные исследования альтернативных химических веществ жизни.

Protocol

ПРИМЕЧАНИЕ: См. Рисунок 1 для краткого описания протокола и Таблицу материалов для получения подробной информации об используемом программном обеспечении.

Рисунок 1: Сводная блок-схема протокола. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

1. Загрузка программного обеспечения и файлов

ПРИМЕЧАНИЕ: Все программы бесплатны для индивидуального использования и могут быть запущены на персональном компьютере.

Создайте новый каталог для этого проекта. Разместите файлы и исполняемые файлы здесь для легкого доступа.
Загрузите и установите необходимые пакеты программного обеспечения.
1. Загрузите последнюю версию MAYGEN в виде файла .jar.
  ПРИМЕЧАНИЕ: MAYGEN находится в свободном доступе в виде файла .jar от https://github.com/MehmetAzizYirik/MAYGEN/releases
2. Загрузите и установите программное обеспечение для управления пакетами Conda и инструментарий хеминформатики RDKit¹⁸.
  ПРИМЕЧАНИЕ: RDKit будет фильтровать молекулярные структуры, производимые MAYGEN, и лучше всего работает в среде Conda. Инструкции по загрузке платформы Conda можно найти на https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Инструкции по установке и настройке среды RDKit можно найти в https://www.rdkit.org/docs/Install.html.
  1. Установите RDKit в основной среде Conda вместо отдельной среды RDKit с помощью приглашения Anaconda. В системах Windows найдите «Приглашение Anaconda» и нажмите на полученный ярлык для запуска. В системах MacOS и Linux взаимодействуйте с Conda через терминал без запуска каких-либо дополнительных программ. Затем введите следующую команду и нажмите клавишу ВВОД для запуска и ответьте «да» на все вопросы, возникающие во время установки:
    conda install -c rdkit rdkit.
    Хотя существует множество свободно доступных программ для вычисления дескрипторов, в этом примере используется PaDEL-Descriptor¹⁹, бесплатный и быстрый калькулятор для молекулярных дескрипторов и отпечатков пальцев.
3. Загрузите и сохраните .jar файл в папке проекта.
  ПРИМЕЧАНИЕ: PaDEL-Дескриптор можно скачать бесплатно с http://www.yapcwsoft.com/dd/padeldescriptor/.
Загрузите записные книжки Jupyter и текстовые файлы шаблонов подструктур из Дополнительных файлов 1-5.
ПРИМЕЧАНИЕ: Записные книжки Jupyter также можно загрузить со следующей страницы GitHub: https://github.com/cmayerb1/AA-structure-manip.

2. Генерация структуры с помощью MAYGEN

В командной строке перейдите в каталог, содержащий исполняемый файл MAYGEN .jar.
Для каждой интересующей химической формулы запустите MAYGEN с помощью следующей команды:
java -jar [MAYGEN .jar имя файла] -f [химическая формула] -v -o [папка для вывода MAYGEN] -m -sdf.
ПРИМЕЧАНИЕ: Это сохранит файл .sdf в указанной папке, названной в честь используемой формулы.
1. Если формула представляет собой нечеткую формулу, а не дискретную формулу, замените флаг -f флагом -f на флаг -fuzzy и заключите любые интервалы элементов в скобки (например, используйте C[5-7]H[12-15], чтобы гарантировать, что все генерируемые структуры имеют от 5 до 7 атомов углерода и от 12 до 15 атомов водорода).

3. Фильтрующие соединения с нежелательными основаниями

Откройте приглашение Anaconda (см. шаг 1.2.2.1) и перейдите в папку, содержащую записные книжки Jupyter, загруженные из дополнительного файла 1.
Откройте записную книжку Jupyter для фильтрации подструктуры с помощью следующей команды:
jupyter notebook [имя файла записной книжки]
В назначенной ячейке в начале записной книжки введите полный путь к входному .sdf файлу (сгенерированному MAYGEN), полный путь к нужному выходному файлу .sdf и путь к файлу "badlist" в виде строк (в кавычках). Пример плохого списка см. в дополнительном файле 2 .
1. Если некоторые подструктуры в отфильтрованной библиотеке (goodlist) должны быть сохранены, создайте .txt файл шаблонов SMARTS²⁰ для этих подструктур (goodlist) и поместите путь к файлу goodlist в указанную строку в начале записной книжки. Пример хорошего списка см. в дополнительном файле 3 .
Перезапустите ядро записной книжки и запустите все ячейки (из меню вверху выберите Kernel, Restart & Run All), чтобы получить файл .sdf с нужным именем в указанной выходной папке.
Повторите предыдущие два шага для каждого файла структуры, созданного MAYGEN на шаге 2.

4. (Необязательно) Дополнительные изменения структуры

ПРИМЕЧАНИЕ: Они выполняются в этом примере, но могут не понадобиться для курирования других библиотек.

Замена псевдоатома.
ПРИМЕЧАНИЕ: Здесь псевдоатом является уникальным атомом, используемым для представления более крупной подструктуры, разделяемой всеми генерируемыми структурами, тем самым уменьшая время генерации MAYGEN. Пример замены псевдоатома см. в дополнительном файле 4 .
1. Откройте приглашение Anaconda (см. шаг 1.2.2.1) и перейдите в папку, содержащую записные книжки Jupyter.
2. Откройте записную книжку Jupyter для замены псевдоатома:
  jupyter notebook [имя файла записной книжки]
3. В назначенной ячейке в начале записной книжки введите полный путь к входному .sdf файлу и полный путь к файлу нужного .sdf выходного файла в виде строк (в кавычках).
4. Перезапустите ядро записной книжки и запустите все ячейки, чтобы получить файл .sdf с нужным именем в указанной выходной папке.
Аминокислоты N- и C-термины укупорочные
ПРИМЕЧАНИЕ: Эта процедура специфична для альфа-аминокислот, добавляя молекулярные колпачки к N- и C-концам альфа-аминокислотных магистралей. Пример укупорки аминокислот см. в дополнительном файле 5 .
1. Откройте приглашение Anaconda (см. шаг 1.2.2.1) и перейдите в папку, содержащую записные книжки Jupyter.
2. Откройте блокнот Jupyter для укупорки аминокислот:
  jupyter notebook [имя файла записной книжки]
3. В назначенной ячейке в начале записной книжки введите полный путь к входному .sdf файлу и полный путь к файлу нужного .sdf выходного файла в виде строк (в кавычках).
4. Перезапустите ядро записной книжки и запустите все ячейки, чтобы получить файл .sdf с нужным именем в указанной выходной папке.

5. Генерация дескрипторов

Перед созданием дескриптора поместите все файлы .sdf, для которых дескрипторы должны быть рассчитаны, в одну папку.
ПРИМЕЧАНИЕ: Если это еще не сделано, дайте этим файлам описательные имена для легкой фильтрации после генерации дескриптора.
Откройте командную строку и перейдите в папку, содержащую файл .jar PaDEL-Descriptor.
Запустите PaDEL-Descriptor для собранных файлов .sdf с помощью следующей команды:
java -jar PaDEL-Descriptor.jar -dir [каталог .sdf файлов] -файл [путь к файлу .csv для результатов] -2d -retainorder -usefilenameasmolname
ПРИМЕЧАНИЕ: Файл результатов будет иметь имя молекулы в первом столбце и каждый дескриптор в последующих столбцах.
Экспортируйте эти данные в любое программное обеспечение для работы с электронными таблицами для дальнейшего анализа.

Representative Results

	Библиотека	Формула	Дополнительные ограничения	«Ранние» кодированные аминокислоты	Время генерации (мс)	Структуры
						Начальный	Последний
1	Гли	C₂Ч₅NO₂	включить подструктуру Gly	Гли	192	84	1
2	СКЛОНЯТЬ	ПК_0-3Ч_3-9		Валь, Ала, Иль, Лей	172	70	22
3	ДЕСТ	ПК_0-3O_1-2Ч_3-5		Жерех, Клей, Сер, Тр	481	1928	254
4	Профессионал	С_2-5NO₂Ч_7-11	Включить N-meGly или N-meAla подструктуру	Профессионал	4035	79777	16
5	VAIL_S	ЦОН_0-2Ч_3-7			122	65	31
6	DEST_S	ЦОН_0-2О_1-2Ч₃			349	1075	79
7	Pro_S	C_2-4СНО₂Ч_7-9	Включить N-meGly или N-meAla подструктуру		3999	75734	10

Таблица 1: Составные библиотеки, используемые в этом примере. Библиотеки, построенные из формул 1-4 (Gly, VAIL, DEST и Pro), основаны на ранее опубликованных нечетких формулах «ранних» кодированных аминокислот²¹, в то время как библиотеки, построенные из формул 5-7 (VAIL_S, DEST_S и Pro_S), основаны на вариантах формул 2-4, которые представляют собой двухвалентную серу, заменяющую один из атомов углерода. Количество структур отражает количество молекул, генерируемых MAYGEN для каждой формулы («Initial»), и количество молекул, оставшихся после фильтрации молекул с нежелательными подструктурами («Final»). Сокращения: VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X; N-meX = N-метилX.

Общие методы, приведенные выше, были применены к формулам, основанным на «ранних» кодированных аминокислотах, следуя процедуре Meringer et ^al.21 Структуры Badlist были взяты из этого же источника и преобразованы в строки SMARTS для легкого представления субструктурных паттернов. В этом примере не использовались две подструктуры badlist: структура 018 (CH 3-CH-N) соответствовала почти изомерам пролина, которые сами по себе не были нестабильными; структура 106 (R-C-C-OH, где R=аланиновая субструктура, присоединяющаяся к бета-углероду) соответствовала глутаминовой кислоте, кодированной аминокислоте. В дополнение к этим химическим формулам были созданы варианты с двухвалентной серой, занимающей место атома углерода и двух атомов водорода. По соображениям производительности некоторые из этих формул используют трехвалентный атом фосфора (например, «псевдоатом») в качестве заменителя бета-углерода подструктуры аланина. В таблице 1 перечислены библиотеки, созданные в этом примере, формулы, используемые для их создания, и количество соединений, содержащихся внутри. Названия библиотек основаны на кодированных аминокислотах, из которых они получены: либо с использованием 3-буквенной аббревиатуры (Gly = глицин, Pro = пролин), либо однобуквенной аббревиатуры (VAIL = Valine, Alanine, Isoleucine, Leucine; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин). Суффикс «_S» указывает на то, что сера была заменена на углерод в формуле оригинальной библиотеки (например, VAIL_S построена с той же нечеткой формулой, что и VAIL, но с двухвалентной серой, заменяющей один из атомов углерода).

После генерации структуры с помощью MAYGEN полученные библиотеки фильтровали соединения, содержащие, по меньшей мере, одну подструктуру, содержащуюся в плохом списке. После этой фильтрации любые атомы фосфора были заменены подструктурой аланина. Затем были созданы «закрытые» версии всех структур, с ацетильной группой, добавленной к N-концу, и N-метиламидной группой, добавленной к С-концу. Это было сделано для устранения влияния на гидрофобность групп свободных аминов и карбоновых кислот в альфа-аминокислотной основе. PaDEL-Descriptor использовался для расчета XLogP для всех закрытых структур и расчета объема Ван-дер-Ваальса (VABC) для всех безрамочных структур.

На рисунке 2 показано химическое пространство отфильтрованных библиотек, как определено дескрипторами VABC и XLogP. Здесь диапазон возможных значений logP увеличивается с молекулярным объемом, даже в библиотеках, в которых отсутствуют явно гидрофильные боковые цепи (например, VAIL, Pro). Закодированные аминокислоты с углеводородными боковыми цепями были более гидрофобными, чем большинство других аминокислот сопоставимого объема из их соответствующей библиотеки. Это также, по-видимому, относится к Met and Cys по сравнению с другими членами библиотеки VAIL_S с аналогичными томами. Кодированные аминокислоты с гидроксильными боковыми цепями (Ser и Thr) были одними из самых маленьких членов библиотеки DEST, причем Asp лишь немного больше, чем Thr.

На рисунках 3 и 4 показано влияние на объем и logP, когда двухвалентная сера заменяет углерод в боковой цепи альфа-аминокислоты. Замещение серы привело к небольшому увеличению молекулярного объема во всех библиотеках (рисунок 3). Влияние замещения серы на logP не так однородно, как для объема (рисунок 4). Средний logP библиотеки VAIL_S немного ниже, чем у библиотеки VAIL, но этот эффект не наблюдается ни в одной из других пар библиотек (DEST и DEST_S, Pro и Pro_S).

На рисунке 5 количественно определено влияние на структурную генерацию псевдоатома, стоящего за общей подструктурой; здесь трехвалентный Р заменяет фрагмент аланина во время генерации структуры. Использование псевдоатома в генерации структур значительно уменьшило количество структур, генерируемых ~3 порядками величины (рисунок 5A), и общее время, необходимое для генерации этих структур, на 1-2 порядка (рисунок 5B).

Рисунок 2: Химическое пространство всех фильтрованных библиотек аминокислот. Черные маркеры представляют аминокислоты из библиотек без серы; желтые маркеры представляют аминокислоты из библиотек, обогащенных серой. Круги: VAIL и VAIL_S; квадраты: DEST и DEST_S; треугольники: Pro и Pro_S; звезды: кодированные аминокислоты. Обратите внимание, что две серосодержащие кодированные аминокислоты (Met и Cys) не считаются «ранними» аминокислотами, но присутствуют в библиотеке VAIL_S. Сокращения: XLogP = коэффициент разбиения; VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 3: Среднее значение томов ван дер Ваальса (в Å³) библиотек с серой и без нее. Черные полосы представляют средние объемы библиотек без серы (VAIL, DEST, Pro), в то время как желтые полосы представляют средние объемы серозамещенных версий этих библиотек (VAIL_S, DEST_S Pro_S). На панелях ошибок отображается стандартное отклонение. Сокращения: VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 4: Средние значения XLogP библиотек с серой и без нее. Черные полосы представляют библиотеки без серы (VAIL, DEST, Pro), в то время как желтые полосы представляют серозамещенные версии этих библиотек (VAIL_S, DEST_S, Pro_S). На панелях ошибок отображается стандартное отклонение. Сокращения: XLogP = коэффициент разбиения; VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Рисунок 5: Влияние трехвалентного псевдоатома на генерацию структуры MAYGEN. Все тесты проводились на ПК с процессором Intel i7-7700HQ с тактовой частотой 2,8 ГГц, 16 ГБ оперативной памяти, отсутствием сохранения структур в файл и опцией -m для использования многопоточности. Тесты с использованием псевдоатома использовали нечеткие формулы, как описано в таблице 1. Для испытаний без псевдоатома использовались нечеткие формулы, аналогичные описанным в таблице 1 со следующими изменениями: P был заменен на N; количество углерода было увеличено на 3; количество водорода было увеличено на 7; количество кислорода было увеличено на 2. Черные полосы показывают библиотеки, сгенерированные псевдоатомом; серые полосы показывают библиотеки, созданные без псевдоатома. (A) Число структур, созданных с использованием нечетких формул, используемых для построения библиотек VAIL и DEST с трехвалентным фосфором, заменяющим подструктуру аланина, и без нее. (B) Время (в мс), необходимое для создания библиотек VAIL и DEST с трехвалентным фосфором, заменяющим подструктуру аланина, и без нее. Сокращения: VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Дополнительный файл 1: Блокнот для скрининга подструктуры. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 2: Образец плохого списка. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 3: Пример списка товаров. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 4: Блокнот для замены псевдоатомов. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 5: Блокнот для укупорки аминокислот. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Discussion

Одной из особенностей «ранних» аминокислот является недостаток серы. Мета-анализы, упомянутые ранее, обычно считают, что серосодержащие кодированные аминокислоты (Cys и Met) были относительно поздними дополнениями к генетическому коду, выводы, подкрепленные отсутствием серосодержащих аминокислот в метеоритах и экспериментах с искровыми трубками. Однако сероорганические соединения легко обнаруживаются в кометах и метеоритах²², и повторный анализ экспериментов с искровыми трубками с использованием газа H₂S обнаружил аминокислоты и другие органические соединения, содержащие серу¹⁶. При рассмотрении альтернативного аминокислотного алфавита стоит изучить тот, который обогащен серой.

В приведенном выше протоколе генерация структуры и фильтрация подструктур считаются критическими этапами; в зависимости от состава готовой библиотеки структуры, исследователю может потребоваться только выполнить эти два шага. Инструкции и программное обеспечение для дополнительных действий (замена псевдоатомов и добавление подструктур (в данном случае укупорка аминокислот)) включены для более релевантного расчета дескриптора (укупорка гарантирует, что на расчеты XLogP влияет боковая цепь, а не аминные или карбоксильные группы) и более быстрой генерации структуры с помощью псевдоатома, который более подробно обсуждается ниже. Кроме того, здесь выполняется расчет дескриптора как простой способ визуализации разнообразия генерируемых структур и сравнения эффектов обогащения серы в готовых библиотеках.

В то время как PaDEL-Дескриптор может вычислять тысячи молекулярных свойств, молекулярный объем (как рассчитанный объем Ван-дер-Ваальса) и коэффициент разделения (как XLogP) использовались здесь по двум различным причинам. Во-первых, эти два дескриптора измеряют молекулярные свойства (размер и гидрофобность соответственно), которые знакомы большинству химиков и биологов. Во-вторых, в случае аминокислот эти два свойства являются значительными. В течение десятилетий было известно, что размер аминокислот и гидрофобность влияют на термодинамику сворачивания белка²³. Эти два свойства помогают объяснить частоты замещения аминокислот, которые были неотъемлемой частью понимания эволюции белка²⁴.

Приведенный выше пример показывает, что в двух изученных дескрипторах (молекулярный объем и гидрофобность) замена двухвалентной серы на углерод и два водорода не дает существенных изменений. Незначительное, незначительное увеличение среднего молекулярного объема от замещения серы (рисунок 3) может быть связано с большим ковалентным радиусом серы (~ 103 пм) по сравнению с sp³ (~ 75 pm) или^sp2 (~ 73 pm) углерода²⁵. Аналогичным образом, замещение серы оказывает минимальное влияние на среднее значение XLogP (рисунок 4). Наибольший эффект был между библиотеками VAIL и VAIL_S, вероятно, из-за того, что сочетание библиотеки VAIL было особенно гидрофобным (боковые цепи являются только углеводородами), а сульфгидрильные группы были гораздо более кислыми, чем метильные группы, которые они заменили бы. Минимальный эффект замещения серы очевиден на рисунке 2, где библиотеки с замещением серы занимают то же химическое пространство, что и аналогичные библиотеки без замещения серы.

Уменьшение количества структур (рисунок 5A) и времени, необходимого для генерации этих структур (рисунок 5B) при использовании псевдоатома, неудивительно. Использование псевдоатома уменьшает количество тяжелых атомов, которые необходимо включить в химический граф, уменьшая количество узлов графа и приводя к экспоненциальному сокращению времени генерации и числа структур. Здесь выбор трехвалентного фосфора в качестве псевдоатома проистекает из основной биохимии (отсутствие посттрансляционного добавления фосфатных групп, ни одна генетически закодированная аминокислота не содержит фосфора) и валентность атома, который бы его заменил (трехвалентный фосфор может быть легко заменен четырехвалентным углеродом, который отдельно связан с другим атомом или группой атомов). Хотя предоставленный код для замещения псевдоатомов специфичен для замены трехвалентного фосфора аланиновой субструктурой, пользователи могут настроить код для работы с различными псевдоатомами или замещающими подструктурами, потенциально используя несколько псевдоатомов во время первоначальной генерации структуры с последующей заменой каждого псевдоатома более крупной молекулярной подструктурой.

Методы генерации структуры, аналогичные тем, которые используются MAYGEN (и другими методами, такими как нейронные сети), уже используются в открытии лекарств для создания библиотек соединений для скрининга in silico ; в недавнем обзоре⁴ эти методы рассматриваются более подробно. Поскольку эти методы предназначены в первую очередь для создания лекарственно-подобных молекул, существуют некоторые ограничения на их способность генерировать молекулы, такие как использование биологических или фармацевтических свойств для ограничения создаваемых структур (обратный QSPR / QSAR) или создание структур из заданного числа строительных блоков подструктуры. Поскольку астробиология больше сосредоточена на множестве органических соединений, которые могут образовываться абиотически, и меньше на любых конечных продуктах или их свойствах, исчерпывающая генерация структур MAYGEN идеально подходит для создания структурных библиотек для решения астробиологических вопросов. Описанный здесь подход к фильтрации подструктур (выполняемый после генерации структуры с помощью внешней программы) отличается от программы конкурента MOLGEN тем, что фильтрация подструктуры MOLGEN происходит во время генерации структуры. Поскольку MAYGEN является открытым исходным кодом, он не только более доступен, чем MOLGEN, из-за стоимости лицензирования MOLGEN, но и отдельные лица могут внедрять новые функции, такие как фильтрация подструктур во время генерации структуры.

Как написано, протокол, описанный здесь, ориентирован на генерацию и курирование библиотек относительно небольших альфа-аминокислот. Для создания различных библиотек пользователи могут давать различные молекулярные формулы MAYGEN, изменять фильтрацию подструктуры, изменяя максимально допустимый размер кольца и валентность связи, или редактировать файлы goodlist и badlist для добавления или удаления шаблонов подструктуры. Модификации протокола, которые включают изменение способа добавления или замены атомов и подструктур (замена псевдоатомов и молекулярное ограничение), возможны, но потребуют большего внимания к валентным ограничениям, чтобы избежать ошибок RDKit о неправильных валентностях в модифицированных структурах.

Протокол, описанный выше, предназначен для малых альфа-аминокислот. Однако общий формат (комплексная генерация структуры с использованием псевдоатомов с последующей фильтрацией субструктур и молекулярными модификациями) является очень гибким для соединений, выходящих за рамки небольших аминокислот. Даже в астробиологии аналогичная недавняя процедура с использованием MOLGEN использовалась для исследования конституциональных изомеров нуклеиновых кислот²⁶. В дополнение к инструментам, описанным выше, MAYGEN может быть сопряжен с другими инструментами хеминформатики с открытым исходным кодом, чтобы сделать создание и анализ новых химических структур доступными и доступными для широкого спектра областей исследований.

Disclosures

У авторов нет конфликта интересов для раскрытия.

Acknowledgments

MAY признает финансирование со стороны Фонда Carl-Zeiss. Все рисунки были сгенерированы с помощью Microsoft Excel.

Materials

Name	Company	Catalog Number	Comments
conda v. 4.10.3			https://www.anaconda.com/products/individual
Java 17			https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8			https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21			http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11			included in Anaconda environment
RDKit v. 2020.09.1.0			https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

DOWNLOAD MATERIALS LIST

References

Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
Buchanan, B. G., Feigenbaum, E. A. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. Webber, B. L., Nilsson, N. J. , Morgan Kaufmann. 313-322 (1981).
Gugisch, R., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. Basak, S. C., Restrepo, G., Villaveces, J. L. , Bentham Science Publishers. 113-138 (2015).
Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
Sims, C. C. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. Leech, J. , Pergamon. 169-183 (1970).
Mat, W. -K., Xue, H., Wong, J. T. -F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
Bada, J. L. New insights into prebiotic chemistry from Stanley Miller's spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
RDKit: Open-source cheminformatics. , Available from: http://www.rdkit.org (2021).
Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
SMARTS - A language for describing molecular patterns. Daylight Chemical Information Systems, Inc. , Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019).
Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Chemistry

Курирование вычислительных химических библиотек, демонстрируемых с помощью альфа-аминокислот

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.