Chemistry

Kuratering af Computational Chemical Libraries Demonstreret med alfa-aminosyrer

Published: April 13, 2022 doi: 10.3791/63632

Christopher Mayer-Bacon¹, Mehmet Aziz Yirik²

¹Biological Sciences Department, University of Maryland-Baltimore County, ²Institute for Inorganic and Analytical Chemistry, Friedrich-Schiller University

Summary

Formålet med denne protokol er effektivt at generere og kuratere småmolekylestrukturbiblioteker ved hjælp af open source-software.

Abstract

Udtømmende generering af molekylære strukturer har adskillige kemiske og biokemiske anvendelser såsom lægemiddeldesign, molekylær databasekonstruktion, udforskning af alternative biokemikerier og mange flere. Matematisk set er disse grafgeneratorer med kemiske begrænsninger. På området er den mest effektive generator i øjeblikket (MOLGEN) et kommercielt produkt, der begrænser dets anvendelse. Alternativt til det er en anden molekylær strukturgenerator, MAYGEN, et nyligt open source-værktøj med effektivitet, der kan sammenlignes med MOLGEN og brugernes kapacitet til at øge dens ydeevne ved at tilføje nye funktioner. Et af de forskningsområder, der kan drage fordel af denne udvikling, er astrobiologi; strukturgeneratorer giver forskere mulighed for at supplere eksperimentelle data med beregningsmuligheder for alternativ biokemi. Denne protokol beskriver en brugssag til strukturgenerering i astrobiologi, nemlig generering og kuratering af alfa-aminosyrebiblioteker. Ved hjælp af open source-strukturgeneratorer og cheminformatikværktøjer kan den praksis, der er beskrevet her, implementeres ud over astrobiologi til billig oprettelse og kuratering af kemiske strukturbiblioteker til ethvert forskningsspørgsmål.

Introduction

Molekylær strukturgenerering tjener som en praktisk anvendelse af det generelle problem med udtømmende grafgenerering; givet flere noder (atomer) og begrænsninger på deres forbindelse (f.eks. valenser, bindingsmultipllikationer, ønskede / uønskede understrukturer), hvor mange tilsluttede grafer (molekyler) er mulige? Strukturgeneratorer har set omfattende anvendelse inden for lægemiddelopdagelse og farmaceutisk udvikling, hvor de kan skabe store biblioteker med nye strukturer til in silico screening¹.

Den første strukturgenerator, CONGEN, blev udviklet til det første kunstige intelligensprojekt inden for organisk kemi, DENDRAL² (forkortelse for DENDRitic ALgorithm). Flere software efterfølgere af DENDRAL blev rapporteret i litteraturen; imidlertid blev ikke alle vedligeholdt eller effektive. I øjeblikket er MOLGEN³ den avancerede molekylære strukturgenerator. Desværre for de fleste potentielle brugere er det lukket kilde og kræver et licensgebyr. Der har således været behov for en effektiv open source-strukturgenerator, der let kan tilpasse sig specifikke applikationer. En udfordring for en effektiv strukturgenerator er at styre kombinatorisk eksplosion; når størrelsen af en molekylformel stiger, øges størrelsen af det kemiske søgerum eksponentielt. En nylig gennemgang undersøger yderligere historien og udfordringerne ved molekylær struktur generation⁴.

Før 2021 var Parallel Molecule Generator (PMG)⁵ den hurtigste open source-strukturgenerator, men den var stadig langsommere end MOLGEN i størrelsesordener. MAYGEN⁶ er cirka 47 gange hurtigere end PMG og omkring 3 gange langsommere end MOLGEN, hvilket gør MAYGEN til den hurtigste og mest effektive open source-strukturgenerator til rådighed. Mere detaljerede sammenligninger og benchmarkingtest kan findes i papiret, der introducerer MAYGEN⁶. Et centralt element i programmet er dets leksikografiske bestillingsbaserede test for kanoniske strukturer, en ordnet grafgenereringsmetode baseret på Schreier-Sims^7-algoritmen . Softwaren kan let integreres i andre projekter og forbedres til brugernes behov.

Ligesom MOLGEN og PMG tager MAYGEN en brugerdefineret molekylformel og genererer alle mulige strukturer for denne formel. For eksempel, hvis en bruger kører MAYGEN med formlen_C5H12, vil MAYGEN generere alle mulige strukturer indeholdende fem carbonatomer og tolv hydrogenatomer. I modsætning til sin open source-modstykke PMG kan MAYGEN også rumme "fuzzy" molekylære formler, der bruger intervaller i stedet for diskrete tal til tællingen af hvert element. For eksempel, hvis en bruger kører MAYGEN med formlen C_5-7H_12-15, vil MAYGEN generere alle mulige strukturer, der indeholder mellem fem og syv carbonatomer og tolv og femten hydrogenatomer, hvilket giver mulighed for simpel dannelse af strukturer med en bred vifte af atomsammensætninger.

Astrobiologi er et sådant felt, der kan drage fordel af molekylære strukturgeneratorer. Et populært emne i astrobiologi er udviklingen af aminosyrealfabetet, der deles af alt eksisterende liv på Jorden. Et af de definerende træk ved den sidste universelle fælles forfader (LUCA) er dens anvendelse af tyve genetisk kodede aminosyrer til proteinkonstruktion ^8,9. Baseret på metaanalyser af arbejde i flere felter 10,11,12 dannes ca. 10 af disse aminosyrer (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) let under abiotiske forhold og udgør sandsynligvis aminosyrealfabetetet af præ-LUCA-organismer. Over tid blev dette "tidlige" alfabet udvidet som reaktion på forskellige strukturelle og funktionelle behov. For eksempel hævder en nylig gennemgang fra Moosmann¹³, at tilføjelsen af nyere medlemmer af de genetisk kodede aminosyrer (nemlig Met, Tyr og Trp) tillod overlevelse i iltrige miljøer ved at forhindre intracellulær proliferation af reaktive iltarter.

En stadigt voksende pakke af analytiske kemiteknikker giver indsigt i de aminosyrestrukturer, der kan dannes under abiotiske forhold. En nylig gennemgang¹⁴ af Simkus og andre beskriver de metoder, der anvendes til at detektere adskillige organiske forbindelser i meteoritter, samt organiske forbindelser fra in vitro-simuleringer af tidlige jordmiljøer 15,16,17. Systematisk generering af kemiske strukturer giver forskere mulighed for at udforske ud over de organiske forbindelser, der detekteres via instrumentering, og befolke det strukturelle rum omkring strukturelle "øer" identificeret af analytisk kemi. I tilfælde af de "tidlige" aminosyrer viser denne systematiske strukturgenerering mulige proteinkemikalier, der er tilgængelige for det tidlige liv uden at begrænse udforskningen til strukturer, der er blevet eksperimentelt påvist under abiotiske syntesebetingelser. Med open source cheminformatics toolkits og effektive strukturgeneratorer som MAYGEN er det nu lettere end nogensinde før at oprette og udforske nye kemiske strukturbiblioteker og kan guide mere detaljerede undersøgelser af alternative livskemikalier.

Protocol

BEMÆRK: Se figur 1 for et resumé af protokollen og materialetabellen for detaljer om den anvendte software.

Figur 1: Oversigt over protokollens rutediagram. Klik her for at se en større version af denne figur.

1. Download af software og filer

BEMÆRK: Alle programmer er gratis til individuel brug og kan køres på en personlig computer.

Opret en ny mappe til dette projekt. Placer filerne og eksekverbare filer her for nem adgang.
Download og installer de nødvendige softwarepakker.
1. Download den nyeste version af MAYGEN som en .jar-fil.
  BEMÆRK: MAYGEN er frit tilgængelig som en .jar fil fra https://github.com/MehmetAzizYirik/MAYGEN/releases
2. Download og installer pakkehåndteringssoftwaren Conda og cheminformatics toolkit RDKit¹⁸.
  BEMÆRK: RDKit filtrerer de molekylære strukturer, der produceres af MAYGEN, og kører bedst i et Conda-miljø. Instruktioner til download af Conda-platformen findes på https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Installations- og miljøopsætningsinstruktioner til RDKit findes på https://www.rdkit.org/docs/Install.html.
  1. Installer RDKit i conda-hovedmiljøet i stedet for et separat RDKit-miljø via Anaconda-prompten. På Windows-systemer skal du søge efter "Anaconda-prompt" og klikke på den resulterende genvej for at køre. På MacOS- og Linux-systemer skal du interagere med Conda gennem terminalen uden at køre yderligere programmer. Skriv derefter følgende kommando, og tryk på Enter for at køre, og svar ja til eventuelle spørgsmål, der opstår under installationen:
    conda installere -c rdkit rdkit.
    Mens der er mange frit tilgængelige deskriptorberegningsprogrammer, bruger dette eksempel PaDEL-Descriptor¹⁹, en gratis og hurtig lommeregner til molekylære deskriptorer og fingeraftryk.
3. Download og gem .jar-filen i projektmappen.
  BEMÆRK: PaDEL-Descriptor kan downloades gratis fra http://www.yapcwsoft.com/dd/padeldescriptor/.
Download Jupyter-notesbøgerne og tekstfilerne med understrukturmønstre fra Supplerende filer 1-5.
BEMÆRK: Jupyter-notesbøger kan også downloades fra følgende GitHub-side: https://github.com/cmayerb1/AA-structure-manip.

2. Strukturgenerering ved hjælp af MAYGEN

I en kommandoprompt skal du navigere til den mappe, der indeholder maygen .jar eksekverbar fil.
For hver kemisk formel af interesse skal du køre MAYGEN ved hjælp af følgende kommando:
java -jar [MAYGEN .jar filnavn] -f [kemisk formel] -v -o [mappe til MAYGEN output] -m -sdf.
BEMÆRK: Dette gemmer en .sdf fil i den angivne mappe, opkaldt efter den anvendte formel.
1. Hvis formlen er en fuzzy formel i stedet for en diskret formel, skal du erstatte -f flaget med et -fuzzy flag og vedlægge eventuelle elementintervaller i parentes (f.eks. bruge C[5-7]H[12-15] for at sikre, at alle genererede strukturer har mellem 5 og 7 carbonatomer og mellem 12 og 15 hydrogenatomer).

3. Filterforbindelser med uønskede understrukturer

Åbn en Anaconda-prompt (se trin 1.2.2.1), og naviger til den mappe, der indeholder Jupyter-notesbøgerne, der er downloadet fra Supplemental File 1.
Åbn Jupyter-notesbogen til filtrering af understrukturer ved hjælp af følgende kommando:
jupyter notesbog [notesbog filnavn]
I den udpegede celle i starten af notesbogen skal du indtaste den fulde filsti til input- .sdf-filen (genereret af MAYGEN), den fulde filsti til den ønskede .sdf outputfil og filstien til "badlist" -filen som strenge (inden for citater). Se Supplerende fil 2 for et eksempel på en dårlig liste.
1. Hvis nogle understrukturer i det filtrerede bibliotek (en goodlist) skal bevares, skal du oprette en .txt fil med SMARTS-mønstre²⁰ for disse understrukturer (en goodlist) og placere goodlist-filstien i den angivne linje i starten af notesbogen. Se Supplerende fil 3 for et eksempel på en godliste.
Genstart notesbogkernen og kør alle celler (fra menuen øverst skal du vælge Kerne, Genstart og kør alle) for at få en .sdf fil med det ønskede navn i den angivne outputmappe.
Gentag de to foregående trin for hver strukturfil, der genereres af MAYGEN i trin 2.

4. (Valgfrit) Yderligere strukturændringer

BEMÆRK: Disse udføres i dette eksempel, men er muligvis ikke nødvendige for at organisere andre biblioteker.

Pseudoatom udskiftning.
BEMÆRK: Her er et pseudoatom et unikt atom, der bruges til at repræsentere en større understruktur, der deles af alle genererede strukturer, hvilket reducerer MAYGEN's generationstid. Se supplerende fil 4 for et eksempel på pseudoatom udskiftning.
1. Åbn en Anaconda-prompt (se trin 1.2.2.1), og naviger til den mappe, der indeholder Jupyter-notesbøgerne.
2. Åbn Jupyter-notesbogen for pseudoatomudskiftning:
  jupyter notesbog [notesbog filnavn]
3. I den angivne celle i starten af notesbogen skal du indtaste den fulde filsti til input- .sdf-filen og den fulde filsti til den ønskede .sdf outputfil som strenge (inden for anførselstegn).
4. Genstart notesbogkernen, og kør alle cellerne for at få en .sdf fil med det ønskede navn i den angivne outputmappe.
Aminosyre N- og C-termini-capping
BEMÆRK: Denne procedure er specifik for alfa-aminosyrer, der tilføjer molekylære hætter til N- og C-termini af alfa-aminosyre rygrad. Se supplerende fil 5 for et eksempel på aminosyrebegrænsning.
1. Åbn en Anaconda-prompt (se trin 1.2.2.1), og naviger til den mappe, der indeholder Jupyter-notesbøgerne.
2. Åbn Jupyter notebook for aminosyre capping:
  jupyter notesbog [notesbog filnavn]
3. I den angivne celle i starten af notesbogen skal du indtaste den fulde filsti til input- .sdf-filen og den fulde filsti til den ønskede .sdf outputfil som strenge (inden for anførselstegn).
4. Genstart notesbogkernen, og kør alle cellerne for at få en .sdf fil med det ønskede navn i den angivne outputmappe.

5. Generering af deskriptor

Før deskriptorgenerering skal du placere alle .sdf filer, for hvilke deskriptorer skal beregnes, i en enkelt mappe.
BEMÆRK: Hvis det ikke allerede er gjort, skal du give disse filer beskrivende navne for nem filtrering efter deskriptorgenerering.
Åbn en kommandoprompt, og naviger til den mappe, der indeholder PaDEL-Descriptor .jar-filen.
Kør PaDEL-Descriptor for de indsamlede .sdf filer ved hjælp af følgende kommando:
java -jar PaDEL-Descriptor.jar -dir [mappe med .sdf filer] -file [filsti til en .csv fil for resultater] -2d -retainorder -usefilenameasmolname
BEMÆRK: Resultatfilen vil have molekylenavnet i den første kolonne og hver deskriptor i de efterfølgende kolonner.
Eksporter disse data til enhver regnearkssoftware til yderligere analyse.

Representative Results

	Bibliotek	Formel	Yderligere begrænsninger	"Tidlige" kodede aminosyrer	Generationstid (ms)	Strukturer
						Initial	Endegyldig
1	Gly	C₂H₅NR_{. 2}	omfatter Gly-understruktur	Gly	192	84	1
2	VAIL	Pc_0-3H_3-9		Val, Ala, Ile, Leu	172	70	22
3	DEST	Pc_0-3O_1-2H_3-5		Asp, Glu, Ser, Thr	481	1928	254
4	Pro	C_2-5NEJ₂H_7-11	Inkluder N-meGly eller N-meAla understruktur	Pro	4035	79777	16
5	VAIL_S	Psc_0-2H_3-7			122	65	31
6	DEST_S	Psc_0-2O_1-2H₃			349	1075	79
7	Pro_S	C_2-4SNO₂H_7-9	Inkluder N-meGly eller N-meAla understruktur		3999	75734	10

Tabel 1: Sammensatte biblioteker, der bruges i dette eksempel. Biblioteker bygget fra formler 1-4 (Gly, VAIL, DEST og Pro) er baseret på tidligere offentliggjorte fuzzy formler af de "tidlige" kodede aminosyrer²¹, mens biblioteker bygget fra formler 5-7 (VAIL_S, DEST_S og Pro_S) er baseret på varianter af formler 2-4, der forestiller sig et divalent svovl, der erstatter et af kulstofatomerne. Strukturtællinger afspejler antallet af molekyler genereret af MAYGEN for hver formel ("Initial") og antallet af molekyler, der er tilbage efter filtrering af dem med uønskede understrukturer ("Final"). Forkortelser: VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyre, glutaminsyre, serin, threonin; X_S = Divalent svovl erstatter et af kulstoferne i bibliotek X; N-meX = N-methylX.

De generelle metoder ovenfor blev anvendt på formler baseret på de "tidlige" kodede aminosyrer efter proceduren med Meringer et ^al.21 Badliststrukturer blev taget fra den samme kilde og konverteret til SMARTS-strenge for let at repræsentere substrukturelle mønstre. To badlist-understrukturer blev ikke brugt i dette eksempel: struktur 018 (CH 3-CH-N) matchede nær-isomerer af prolin, der ikke selv var ustabile; struktur 106 (R-C-C-OH, hvor R = alanin understruktur, der binder sig til beta-carbonet) matchede glutaminsyre, en kodet aminosyre. Ud over disse kemiske formler blev der skabt varianter med divalent svovl, der tog plads til et carbonatom og to hydrogenatomer. Af præstationsårsager bruger flere af disse formler et trivalent fosforatom (f.eks. Et "pseudoatom") som erstatning for beta-carbonet i en alanindestruktur. Tabel 1 viser de biblioteker, der er genereret i dette eksempel, de formler, der blev brugt til at generere dem, og antallet af forbindelser indeholdt i. Biblioteksnavne er baseret på de kodede aminosyrer, hvorfra de er afledt: enten ved hjælp af forkortelsen på 3 bogstaver (Gly = glycin, Pro = proline) eller forkortelse med et enkelt bogstav (VAIL = Valin, Alanin, Isoleucin, Leucin; DEST = Asparaginsyre, Glutaminsyre, Serin, Threonin). Endelsen "_S" angiver, at et svovl blev erstattet af et kulstof i det oprindelige biblioteks formel (f.eks. VAIL_S er bygget med den samme uklare formel som VAIL, men med et divalent svovl, der erstatter et af kulstoferne).

Efter strukturgenerering med MAYGEN blev de resulterende biblioteker filtreret af forbindelser indeholdende mindst en understruktur indeholdt i badlisten. Efter denne filtrering blev eventuelle fosforatomer erstattet med en alanindestruktur. Dernæst blev "capped" versioner af alle strukturer oprettet, med en acetylgruppe tilsat til N-terminalen og en N-methylamidgruppe tilsat til C-terminalen. Dette blev gjort for at fjerne effekten på hydrofobiciteten af de frie amin- og carboxylsyregrupper i alfa-aminosyre-rygraden. PaDEL-Descriptor blev brugt til at beregne XLogP for alle kappede strukturer og beregnet van der Waals volumen (VABC) for alle udækkede strukturer.

Figur 2 viser det kemiske rum i de filtrerede biblioteker, som defineret af VABC- og XLogP-deskriptorer. Her øges rækkevidden af mulige logP-værdier med molekylært volumen, selv inden for biblioteker, der mangler eksplicit hydrofile sidekæder (f.eks. VAIL, Pro). Kodede aminosyrer med carbonhydridsidekæder var mere hydrofobe end de fleste andre aminosyrer med et sammenligneligt volumen fra deres respektive bibliotek. Dette synes også at være tilfældet for Met og Cys sammenlignet med andre medlemmer af VAIL_S bibliotek med lignende bind. Kodede aminosyrer med hydroxylsidekæder (Ser og Thr) var blandt de mindste medlemmer af DEST-biblioteket, med Asp kun lidt større end Thr.

Figur 3 og figur 4 viser virkningerne på volumen og logP, når et divalent svovl erstatter et kulstof i en alfa-aminosyre sidekæde. Svovlsubstitution førte til en lille stigning i molekylært volumen i alle biblioteker (figur 3). Virkningen af svovlsubstitution på logP er ikke så homogen som for volumen (figur 4). Den gennemsnitlige logP for VAIL_S-biblioteket er lidt lavere end for VAIL-biblioteket, men denne effekt ses ikke i nogen af de andre bibliotekspar (DEST og DEST_S, Pro og Pro_S).

Figur 5 kvantificerer virkningerne på strukturgenerering af et pseudoatom, der står for en fælles understruktur; her erstattede en trivalent P en alaninde under strukturgenerering. Brug af et pseudoatom i strukturgenerering reducerede i høj grad antallet af strukturer genereret med ~ 3 størrelsesordener (figur 5A) og den samlede tid, der var nødvendig for at generere disse strukturer med 1-2 størrelsesordener (figur 5B).

Figur 2: Kemisk rum af alle filtrerede aminosyrebiblioteker. Sorte markører repræsenterer aminosyrer fra biblioteker uden svovl; gule markører repræsenterer aminosyrer fra svovlberigede biblioteker. Cirkler: VAIL og VAIL_S; firkanter: DEST og DEST_S; trekanter: Pro og Pro_S; stjerner: kodede aminosyrer. Bemærk, at de to svovlholdige kodede aminosyrer (Met og Cys) ikke betragtes som "tidlige" aminosyrer, men er til stede i VAIL_S bibliotek. Forkortelser: XLogP = fordelingskoefficient; VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyre, glutaminsyre, serin, threonin; X_S = Divalent svovl erstatter et af kulstoferne i bibliotek X. Klik her for at se en større version af denne figur.

Figur 3: Gennemsnitlige van der Waals-bind (i Å³) af biblioteker med og uden svovl. Sorte søjler repræsenterer de gennemsnitlige mængder af biblioteker uden svovl (VAIL, DEST, Pro), mens gule søjler repræsenterer gennemsnitlige mængder af de svovlsubstituerede versioner af disse biblioteker (VAIL_S, DEST_S, Pro_S). Fejllinjer viser standardafvigelse. Forkortelser: VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyre, glutaminsyre, serin, threonin; X_S = Divalent svovl erstatter et af kulstoferne i bibliotek X. Klik her for at se en større version af denne figur.

Figur 4: Gennemsnitlige XLogP-værdier for biblioteker med og uden svovl. Sorte søjler repræsenterer biblioteker uden svovl (VAIL, DEST, Pro), mens gule søjler repræsenterer svovlsubstituerede versioner af disse biblioteker (VAIL_S, DEST_S, Pro_S). Fejllinjer viser standardafvigelse. Forkortelser: XLogP = fordelingskoefficient; VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyre, glutaminsyre, serin, threonin; X_S = Divalent svovl erstatter et af kulstoferne i bibliotek X. Klik her for at se en større version af denne figur.

Figur 5: Virkninger af et trivalent pseudoatom på MAYGEN-strukturgenerering. Alle tests blev udført på en pc med en Intel i7-7700HQ-processor ved 2,8 GHz, 16 GB RAM, ingen lagringsstrukturer til en fil og -m-muligheden for at bruge multithreading. Test ved hjælp af et pseudoatom anvendte de fuzzy formler som beskrevet i tabel 1. For test uden pseudoatom var de anvendte fuzzy formler de samme som beskrevet i tabel 1 med følgende ændringer: P blev erstattet med N; kulstoftællinger blev øget med 3; brinttællinger blev øget med 7; ilttallet blev øget med 2. Sorte søjler viser biblioteker genereret med et pseudoatom; grå søjler viser biblioteker genereret uden en pseudoatom. (A) Antal strukturer genereret ved hjælp af de uklare formler, der blev brugt til at opbygge VAIL- og DEST-bibliotekerne med og uden en trivalent fosfor, der erstatter en alanin-understruktur. (B) Tid (i ms) nødvendig for at bygge VAIL- og DEST-bibliotekerne med og uden en trivalent fosfor, der erstatter en alanindeunderstruktur. Forkortelser: VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyre, glutaminsyre, serin, threonin. Klik her for at se en større version af denne figur.

Supplerende fil 1: Notesbog til screening af understrukturer. Klik her for at downloade denne fil.

Supplerende fil 2: Eksempel på badlist. Klik her for at downloade denne fil.

Supplerende fil 3: Eksempel på goodlist. Klik her for at downloade denne fil.

Supplerende fil 4: Pseudoatom udskiftning notesbog. Klik her for at downloade denne fil.

Supplerende fil 5: Aminosyre capping notesbog. Klik her for at downloade denne fil.

Discussion

Et træk ved de "tidlige" aminosyrer er mangel på svovl. De tidligere nævnte metaanalyser anser generelt de svovlholdige kodede aminosyrer (Cys og Met) for at have været relativt sene tilføjelser til den genetiske kode, konklusioner understøttet af manglen på svovlholdige aminosyrer i meteoritter og gnistrørseksperimenter. Imidlertid påvises organosvovlforbindelser let i kometer og meteoritter²², og genanalyse af gnistrørseksperimenter ved hjælp af_H2S-gasfandt aminosyrer og andre organiske forbindelser indeholdende svovl¹⁶. Når man overvejer et alternativt aminosyrealfabet, er en beriget i svovl værd at udforske.

I ovenstående protokol betragtes strukturgenerering og understrukturfiltrering som kritiske trin; afhængigt af sammensætningen af det færdige strukturbibliotek behøver en forsker muligvis kun at udføre disse to trin. Instruktioner og software til yderligere handlinger (pseudoatom udskiftning og tilføjelse af understrukturer (i dette tilfælde aminosyre capping)) er inkluderet for mere relevant deskriptorberegning (capping sikrer, at XLogP-beregninger påvirkes af sidekæden og ikke rygraden amin eller carboxyl grupper) og hurtigere strukturgenerering via brug af et pseudoatom, som diskuteres mere detaljeret nedenfor. Derudover udføres deskriptorberegning her som en nem måde at visualisere mangfoldigheden af de genererede strukturer og sammenligne virkningerne af svovlberigelse i de færdige biblioteker.

Mens PaDEL-Descriptor kan beregne tusindvis af molekylære egenskaber, blev molekylærvolumen (som beregnet van der Waals volumen) og partitionskoefficient (som XLogP) brugt her af to forskellige grunde. For det første måler disse to deskriptorer molekylære egenskaber (henholdsvis størrelse og hydrofobicitet), som er kendt for de fleste kemikere og biologer. For det andet er disse to egenskaber signifikante i tilfælde af aminosyrer. I årtier var aminosyrestørrelse og hydrofobicitet kendt for at påvirke termodynamikken af proteinfoldning²³. Disse to egenskaber hjælper med at forklare aminosyresubstitutionsfrekvenser, der har været integreret i forståelsen af proteinudvikling²⁴.

Ovenstående eksempel viser, at i de to undersøgte deskriptorer (molekylært volumen og hydrofobicitet) giver erstatning af et divalent svovl med et carbon og to hydrogener ikke signifikante ændringer. Den lille, ubetydelige stigning i gennemsnitligt molekylært volumen fra svovlsubstitution (figur 3) kunne tilskrives svovls større kovalente radius (~ 103 pm) sammenlignet med enten sp³ (~ 75 pm) eller sp² (~ 73 pm) carbon²⁵. Tilsvarende har svovlsubstitution minimal effekt på den gennemsnitlige XLogP (figur 4). Den største effekt var mellem VAIL- og VAIL_S-bibliotekerne, sandsynligvis på grund af en kombination af, at VAIL-biblioteket var særligt hydrofobt (sidekæderne er kun carbonhydryl) og sulfhydrylgrupper, der var meget surere end de methylgrupper, de ville erstatte. Den minimale effekt af svovlsubstitution er tydelig i figur 2, hvor biblioteker med svovlsubstitution optager det samme kemiske rum som analoge biblioteker uden svovlsubstitution.

Faldet i antallet af strukturer (figur 5A) og den tid, der er nødvendig for at generere disse strukturer (figur 5B), når man bruger et pseudoatom, er ikke overraskende. Brug af et pseudoatom reducerer antallet af tunge atomer, der skal inkorporeres i en kemisk graf, hvilket reducerer antallet af grafknudepunkter og giver eksponentielle fald i generationstid og antal strukturer. Her stammer valget af trivalent fosfor som pseudoatom fra grundlæggende biokemi (fraværende posttranslationel tilsætning af phosphatgrupper, ingen genetisk kodede aminosyrer indeholder fosfor) og valensen af det atom, der ville erstatte det (et trivalent fosfor kan let erstattes med et tetravalent carbon, der er enkeltvis bundet til et andet atom eller en gruppe af atomer). Mens den medfølgende kode til pseudoatomsubstitution er specifik for at erstatte et trivalent fosfor med en alanindeunderstruktur, kan brugerne tilpasse koden til at arbejde med forskellige pseudoatomer eller erstatningsunderstrukturer, potentielt ved hjælp af flere pseudoatomer under den indledende strukturgenerering efterfulgt af at erstatte hvert pseudoatom med en større molekylær understruktur.

Strukturgenereringsmetoder svarende til dem, der anvendes af MAYGEN (og andre metoder såsom neurale netværk) bruges allerede i lægemiddelopdagelse til at generere sammensatte biblioteker til in silico screening; en nylig gennemgang⁴ diskuterer disse metoder mere detaljeret. Da disse metoder primært er beregnet til dannelse af lægemiddellignende molekyler, er der nogle begrænsninger på deres evne til at generere molekyler, såsom at bruge biologiske eller farmaceutiske egenskaber til at begrænse de skabte strukturer (invers QSPR / QSAR) eller skabe strukturer fra et forudindstillet antal understrukturbyggesten. Da astrobiologi er mere fokuseret på de mange organiske forbindelser, der kan danne abiotisk og mindre på eventuelle slutprodukter eller deres egenskaber, er MAYGEN's udtømmende strukturgenerering ideel til at skabe strukturbiblioteker til at løse astrobiologiske spørgsmål. Den her beskrevne tilgang til understrukturfiltrering (udført efter strukturgenerering via et eksternt program) adskiller sig fra konkurrentprogrammet MOLGEN ved, at MOLGEN's understrukturfiltrering finder sted under strukturgenerering. Da MAYGEN er open source, er det ikke kun mere tilgængeligt end MOLGEN på grund af MOLGEN's licensomkostninger, men enkeltpersoner kan implementere nye funktioner såsom understrukturfiltrering under strukturgenerering.

Som skrevet er protokollen beskrevet her fokuseret på at generere og kuratere biblioteker af relativt små alfa-aminosyrer. For at generere forskellige biblioteker kan brugerne give forskellige molekylformler til MAYGEN, ændre understrukturfiltreringen ved at ændre den maksimalt tilladte ringstørrelse og bindingsvalens eller redigere goodlist- og badlist-filerne for at tilføje eller fjerne understrukturmønstre. Protokolændringer, der involverer ændring af, hvordan atomer og understrukturer tilføjes eller erstattes (pseudoatomsubstitution og molekylær capping), er mulige, men vil kræve mere opmærksomhed på valensbegrænsninger for at undgå RDKit-fejl om forkerte valenser i modificerede strukturer.

Protokollen beskrevet ovenfor er designet til små alfa-aminosyrer. Imidlertid er det generelle format (omfattende strukturgenerering ved hjælp af pseudoatomer efterfulgt af understrukturfiltrering og molekylære modifikationer) meget fleksibelt for forbindelser ud over små aminosyrer. Selv i astrobiologi blev en lignende nylig procedure ved anvendelse af MOLGEN brugt til at undersøge forfatningsmæssige isomerer af nukleinsyrer²⁶. Ud over de værktøjer, der er beskrevet ovenfor, kan MAYGEN parres med andre open source cheminformatics-værktøjer for at gøre oprettelse og analyse af nye kemiske strukturer overkommelige og tilgængelige for en bred vifte af forskningsområder.

Disclosures

Forfatterne har ingen interessekonflikter at afsløre.

Acknowledgments

MAY anerkender støtte fra Carl-Zeiss-Fonden. Alle tal blev genereret ved hjælp af Microsoft Excel.

Materials

Name	Company	Catalog Number	Comments
conda v. 4.10.3			https://www.anaconda.com/products/individual
Java 17			https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8			https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21			http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11			included in Anaconda environment
RDKit v. 2020.09.1.0			https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

DOWNLOAD MATERIALS LIST

References

Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
Buchanan, B. G., Feigenbaum, E. A. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. Webber, B. L., Nilsson, N. J. , Morgan Kaufmann. 313-322 (1981).
Gugisch, R., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. Basak, S. C., Restrepo, G., Villaveces, J. L. , Bentham Science Publishers. 113-138 (2015).
Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
Sims, C. C. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. Leech, J. , Pergamon. 169-183 (1970).
Mat, W. -K., Xue, H., Wong, J. T. -F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
Bada, J. L. New insights into prebiotic chemistry from Stanley Miller's spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
RDKit: Open-source cheminformatics. , Available from: http://www.rdkit.org (2021).
Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
SMARTS - A language for describing molecular patterns. Daylight Chemical Information Systems, Inc. , Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019).
Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Chemistry

Kuratering af Computational Chemical Libraries Demonstreret med alfa-aminosyrer

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.