Formålet med denne protokol er effektivt at generere og kuratere småmolekylestrukturbiblioteker ved hjælp af open source-software.
Udtømmende generering af molekylære strukturer har adskillige kemiske og biokemiske anvendelser såsom lægemiddeldesign, molekylær databasekonstruktion, udforskning af alternative biokemikerier og mange flere. Matematisk set er disse grafgeneratorer med kemiske begrænsninger. På området er den mest effektive generator i øjeblikket (MOLGEN) et kommercielt produkt, der begrænser dets anvendelse. Alternativt til det er en anden molekylær strukturgenerator, MAYGEN, et nyligt open source-værktøj med effektivitet, der kan sammenlignes med MOLGEN og brugernes kapacitet til at øge dens ydeevne ved at tilføje nye funktioner. Et af de forskningsområder, der kan drage fordel af denne udvikling, er astrobiologi; strukturgeneratorer giver forskere mulighed for at supplere eksperimentelle data med beregningsmuligheder for alternativ biokemi. Denne protokol beskriver en brugssag til strukturgenerering i astrobiologi, nemlig generering og kuratering af alfa-aminosyrebiblioteker. Ved hjælp af open source-strukturgeneratorer og cheminformatikværktøjer kan den praksis, der er beskrevet her, implementeres ud over astrobiologi til billig oprettelse og kuratering af kemiske strukturbiblioteker til ethvert forskningsspørgsmål.
Molekylær strukturgenerering tjener som en praktisk anvendelse af det generelle problem med udtømmende grafgenerering; givet flere noder (atomer) og begrænsninger på deres forbindelse (f.eks. valenser, bindingsmultipllikationer, ønskede / uønskede understrukturer), hvor mange tilsluttede grafer (molekyler) er mulige? Strukturgeneratorer har set omfattende anvendelse inden for lægemiddelopdagelse og farmaceutisk udvikling, hvor de kan skabe store biblioteker med nye strukturer til in silico screening1.
Den første strukturgenerator, CONGEN, blev udviklet til det første kunstige intelligensprojekt inden for organisk kemi, DENDRAL2 (forkortelse for DENDRitic ALgorithm). Flere software efterfølgere af DENDRAL blev rapporteret i litteraturen; imidlertid blev ikke alle vedligeholdt eller effektive. I øjeblikket er MOLGEN3 den avancerede molekylære strukturgenerator. Desværre for de fleste potentielle brugere er det lukket kilde og kræver et licensgebyr. Der har således været behov for en effektiv open source-strukturgenerator, der let kan tilpasse sig specifikke applikationer. En udfordring for en effektiv strukturgenerator er at styre kombinatorisk eksplosion; når størrelsen af en molekylformel stiger, øges størrelsen af det kemiske søgerum eksponentielt. En nylig gennemgang undersøger yderligere historien og udfordringerne ved molekylær struktur generation4.
Før 2021 var Parallel Molecule Generator (PMG)5 den hurtigste open source-strukturgenerator, men den var stadig langsommere end MOLGEN i størrelsesordener. MAYGEN6 er cirka 47 gange hurtigere end PMG og omkring 3 gange langsommere end MOLGEN, hvilket gør MAYGEN til den hurtigste og mest effektive open source-strukturgenerator til rådighed. Mere detaljerede sammenligninger og benchmarkingtest kan findes i papiret, der introducerer MAYGEN6. Et centralt element i programmet er dets leksikografiske bestillingsbaserede test for kanoniske strukturer, en ordnet grafgenereringsmetode baseret på Schreier-Sims7-algoritmen . Softwaren kan let integreres i andre projekter og forbedres til brugernes behov.
Ligesom MOLGEN og PMG tager MAYGEN en brugerdefineret molekylformel og genererer alle mulige strukturer for denne formel. For eksempel, hvis en bruger kører MAYGEN med formlenC5H12, vil MAYGEN generere alle mulige strukturer indeholdende fem carbonatomer og tolv hydrogenatomer. I modsætning til sin open source-modstykke PMG kan MAYGEN også rumme “fuzzy” molekylære formler, der bruger intervaller i stedet for diskrete tal til tællingen af hvert element. For eksempel, hvis en bruger kører MAYGEN med formlen C5-7H12-15, vil MAYGEN generere alle mulige strukturer, der indeholder mellem fem og syv carbonatomer og tolv og femten hydrogenatomer, hvilket giver mulighed for simpel dannelse af strukturer med en bred vifte af atomsammensætninger.
Astrobiologi er et sådant felt, der kan drage fordel af molekylære strukturgeneratorer. Et populært emne i astrobiologi er udviklingen af aminosyrealfabetet, der deles af alt eksisterende liv på Jorden. Et af de definerende træk ved den sidste universelle fælles forfader (LUCA) er dens anvendelse af tyve genetisk kodede aminosyrer til proteinkonstruktion 8,9. Baseret på metaanalyser af arbejde i flere felter 10,11,12 dannes ca. 10 af disse aminosyrer (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) let under abiotiske forhold og udgør sandsynligvis aminosyrealfabetetet af præ-LUCA-organismer. Over tid blev dette “tidlige” alfabet udvidet som reaktion på forskellige strukturelle og funktionelle behov. For eksempel hævder en nylig gennemgang fra Moosmann13, at tilføjelsen af nyere medlemmer af de genetisk kodede aminosyrer (nemlig Met, Tyr og Trp) tillod overlevelse i iltrige miljøer ved at forhindre intracellulær proliferation af reaktive iltarter.
En stadigt voksende pakke af analytiske kemiteknikker giver indsigt i de aminosyrestrukturer, der kan dannes under abiotiske forhold. En nylig gennemgang14 af Simkus og andre beskriver de metoder, der anvendes til at detektere adskillige organiske forbindelser i meteoritter, samt organiske forbindelser fra in vitro-simuleringer af tidlige jordmiljøer 15,16,17. Systematisk generering af kemiske strukturer giver forskere mulighed for at udforske ud over de organiske forbindelser, der detekteres via instrumentering, og befolke det strukturelle rum omkring strukturelle “øer” identificeret af analytisk kemi. I tilfælde af de “tidlige” aminosyrer viser denne systematiske strukturgenerering mulige proteinkemikalier, der er tilgængelige for det tidlige liv uden at begrænse udforskningen til strukturer, der er blevet eksperimentelt påvist under abiotiske syntesebetingelser. Med open source cheminformatics toolkits og effektive strukturgeneratorer som MAYGEN er det nu lettere end nogensinde før at oprette og udforske nye kemiske strukturbiblioteker og kan guide mere detaljerede undersøgelser af alternative livskemikalier.
Et træk ved de “tidlige” aminosyrer er mangel på svovl. De tidligere nævnte metaanalyser anser generelt de svovlholdige kodede aminosyrer (Cys og Met) for at have været relativt sene tilføjelser til den genetiske kode, konklusioner understøttet af manglen på svovlholdige aminosyrer i meteoritter og gnistrørseksperimenter. Imidlertid påvises organosvovlforbindelser let i kometer og meteoritter22, og genanalyse af gnistrørseksperimenter ved hjælp afH2S-gasfandt aminosyrer og andre organiske forbindelser indeholdende svovl16. Når man overvejer et alternativt aminosyrealfabet, er en beriget i svovl værd at udforske.
I ovenstående protokol betragtes strukturgenerering og understrukturfiltrering som kritiske trin; afhængigt af sammensætningen af det færdige strukturbibliotek behøver en forsker muligvis kun at udføre disse to trin. Instruktioner og software til yderligere handlinger (pseudoatom udskiftning og tilføjelse af understrukturer (i dette tilfælde aminosyre capping)) er inkluderet for mere relevant deskriptorberegning (capping sikrer, at XLogP-beregninger påvirkes af sidekæden og ikke rygraden amin eller carboxyl grupper) og hurtigere strukturgenerering via brug af et pseudoatom, som diskuteres mere detaljeret nedenfor. Derudover udføres deskriptorberegning her som en nem måde at visualisere mangfoldigheden af de genererede strukturer og sammenligne virkningerne af svovlberigelse i de færdige biblioteker.
Mens PaDEL-Descriptor kan beregne tusindvis af molekylære egenskaber, blev molekylærvolumen (som beregnet van der Waals volumen) og partitionskoefficient (som XLogP) brugt her af to forskellige grunde. For det første måler disse to deskriptorer molekylære egenskaber (henholdsvis størrelse og hydrofobicitet), som er kendt for de fleste kemikere og biologer. For det andet er disse to egenskaber signifikante i tilfælde af aminosyrer. I årtier var aminosyrestørrelse og hydrofobicitet kendt for at påvirke termodynamikken af proteinfoldning23. Disse to egenskaber hjælper med at forklare aminosyresubstitutionsfrekvenser, der har været integreret i forståelsen af proteinudvikling24.
Ovenstående eksempel viser, at i de to undersøgte deskriptorer (molekylært volumen og hydrofobicitet) giver erstatning af et divalent svovl med et carbon og to hydrogener ikke signifikante ændringer. Den lille, ubetydelige stigning i gennemsnitligt molekylært volumen fra svovlsubstitution (figur 3) kunne tilskrives svovls større kovalente radius (~ 103 pm) sammenlignet med enten sp3 (~ 75 pm) eller sp2 (~ 73 pm) carbon25. Tilsvarende har svovlsubstitution minimal effekt på den gennemsnitlige XLogP (figur 4). Den største effekt var mellem VAIL- og VAIL_S-bibliotekerne, sandsynligvis på grund af en kombination af, at VAIL-biblioteket var særligt hydrofobt (sidekæderne er kun carbonhydryl) og sulfhydrylgrupper, der var meget surere end de methylgrupper, de ville erstatte. Den minimale effekt af svovlsubstitution er tydelig i figur 2, hvor biblioteker med svovlsubstitution optager det samme kemiske rum som analoge biblioteker uden svovlsubstitution.
Faldet i antallet af strukturer (figur 5A) og den tid, der er nødvendig for at generere disse strukturer (figur 5B), når man bruger et pseudoatom, er ikke overraskende. Brug af et pseudoatom reducerer antallet af tunge atomer, der skal inkorporeres i en kemisk graf, hvilket reducerer antallet af grafknudepunkter og giver eksponentielle fald i generationstid og antal strukturer. Her stammer valget af trivalent fosfor som pseudoatom fra grundlæggende biokemi (fraværende posttranslationel tilsætning af phosphatgrupper, ingen genetisk kodede aminosyrer indeholder fosfor) og valensen af det atom, der ville erstatte det (et trivalent fosfor kan let erstattes med et tetravalent carbon, der er enkeltvis bundet til et andet atom eller en gruppe af atomer). Mens den medfølgende kode til pseudoatomsubstitution er specifik for at erstatte et trivalent fosfor med en alanindeunderstruktur, kan brugerne tilpasse koden til at arbejde med forskellige pseudoatomer eller erstatningsunderstrukturer, potentielt ved hjælp af flere pseudoatomer under den indledende strukturgenerering efterfulgt af at erstatte hvert pseudoatom med en større molekylær understruktur.
Strukturgenereringsmetoder svarende til dem, der anvendes af MAYGEN (og andre metoder såsom neurale netværk) bruges allerede i lægemiddelopdagelse til at generere sammensatte biblioteker til in silico screening; en nylig gennemgang4 diskuterer disse metoder mere detaljeret. Da disse metoder primært er beregnet til dannelse af lægemiddellignende molekyler, er der nogle begrænsninger på deres evne til at generere molekyler, såsom at bruge biologiske eller farmaceutiske egenskaber til at begrænse de skabte strukturer (invers QSPR / QSAR) eller skabe strukturer fra et forudindstillet antal understrukturbyggesten. Da astrobiologi er mere fokuseret på de mange organiske forbindelser, der kan danne abiotisk og mindre på eventuelle slutprodukter eller deres egenskaber, er MAYGEN’s udtømmende strukturgenerering ideel til at skabe strukturbiblioteker til at løse astrobiologiske spørgsmål. Den her beskrevne tilgang til understrukturfiltrering (udført efter strukturgenerering via et eksternt program) adskiller sig fra konkurrentprogrammet MOLGEN ved, at MOLGEN’s understrukturfiltrering finder sted under strukturgenerering. Da MAYGEN er open source, er det ikke kun mere tilgængeligt end MOLGEN på grund af MOLGEN’s licensomkostninger, men enkeltpersoner kan implementere nye funktioner såsom understrukturfiltrering under strukturgenerering.
Som skrevet er protokollen beskrevet her fokuseret på at generere og kuratere biblioteker af relativt små alfa-aminosyrer. For at generere forskellige biblioteker kan brugerne give forskellige molekylformler til MAYGEN, ændre understrukturfiltreringen ved at ændre den maksimalt tilladte ringstørrelse og bindingsvalens eller redigere goodlist- og badlist-filerne for at tilføje eller fjerne understrukturmønstre. Protokolændringer, der involverer ændring af, hvordan atomer og understrukturer tilføjes eller erstattes (pseudoatomsubstitution og molekylær capping), er mulige, men vil kræve mere opmærksomhed på valensbegrænsninger for at undgå RDKit-fejl om forkerte valenser i modificerede strukturer.
Protokollen beskrevet ovenfor er designet til små alfa-aminosyrer. Imidlertid er det generelle format (omfattende strukturgenerering ved hjælp af pseudoatomer efterfulgt af understrukturfiltrering og molekylære modifikationer) meget fleksibelt for forbindelser ud over små aminosyrer. Selv i astrobiologi blev en lignende nylig procedure ved anvendelse af MOLGEN brugt til at undersøge forfatningsmæssige isomerer af nukleinsyrer26. Ud over de værktøjer, der er beskrevet ovenfor, kan MAYGEN parres med andre open source cheminformatics-værktøjer for at gøre oprettelse og analyse af nye kemiske strukturer overkommelige og tilgængelige for en bred vifte af forskningsområder.
The authors have nothing to disclose.
MAY anerkender støtte fra Carl-Zeiss-Fonden. Alle tal blev genereret ved hjælp af Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |