Chemistry

Kurering av beräkningskemiska bibliotek demonstrerade med alfa-aminosyror

Published: April 13, 2022 doi: 10.3791/63632

Christopher Mayer-Bacon¹, Mehmet Aziz Yirik²

¹Biological Sciences Department, University of Maryland-Baltimore County, ²Institute for Inorganic and Analytical Chemistry, Friedrich-Schiller University

Summary

Syftet med detta protokoll är att effektivt generera och kurera småmolekylära strukturbibliotek med hjälp av programvara med öppen källkod.

Abstract

Uttömmande generering av molekylära strukturer har många kemiska och biokemiska tillämpningar som läkemedelsdesign, molekylär databaskonstruktion, utforskning av alternativa biokemister och många fler. Matematiskt sett är dessa grafgeneratorer med kemiska begränsningar. På fältet är den mest effektiva generatorn för närvarande (MOLGEN) en kommersiell produkt som begränsar dess användning. Alternativt till det, en annan molekylär strukturgenerator, MAYGEN, är ett nytt verktyg med öppen källkod med effektivitet jämförbar med MOLGEN och kapaciteten för användare att öka dess prestanda genom att lägga till nya funktioner. Ett av de forskningsområden som kan dra nytta av denna utveckling är astrobiologi; strukturgeneratorer gör det möjligt för forskare att komplettera experimentella data med beräkningsmöjligheter för alternativ biokemi. Detta protokoll beskriver ett användningsfall för strukturgenerering inom astrobiologi, nämligen generering och kurering av alfa-aminosyrabibliotek. Med hjälp av strukturgeneratorer med öppen källkod och kemininformatikverktyg kan de metoder som beskrivs här implementeras utöver astrobiologi för lågkostnadsskapande och kurering av kemiska strukturbibliotek för alla forskningsfrågor.

Introduction

Molekylär strukturgenerering fungerar som en praktisk tillämpning av det allmänna problemet med uttömmande grafgenerering; givet flera noder (atomer) och begränsningar för deras anslutning (t.ex. valenser, bindningsmultiplikationer, önskade /oönskade understrukturer), hur många anslutna grafer (molekyler) är möjliga? Strukturgeneratorer har sett omfattande tillämpning inom läkemedelsupptäckt och läkemedelsutveckling, där de kan skapa stora bibliotek med nya strukturer för in silico screening¹.

Den första strukturgeneratorn, CONGEN, utvecklades för det första artificiella intelligensprojektet inom organisk kemi, DENDRAL² (förkortning för DENDRitic ALgorithm). Flera programvaruföljare av DENDRAL rapporterades i litteraturen; men inte alla var underhållna eller effektiva. För närvarande är MOLGEN³ den senaste molekylära strukturgeneratorn. Tyvärr för de flesta potentiella användare är det sluten källa och kräver en licensavgift. Således har det funnits behov av en effektiv strukturgenerator med öppen källkod som enkelt kan anpassas till specifika applikationer. En utmaning för en effektiv strukturgenerator är att hantera kombinatorisk explosion; när storleken på en molekylformel ökar ökar storleken på det kemiska sökutrymmet exponentiellt. En nyligen genomförd granskning utforskar ytterligare historien och utmaningarna med molekylär struktur generation⁴.

Före 2021 var Parallel Molecule Generator (PMG)⁵ den snabbaste strukturgeneratorn med öppen källkod, men den var fortfarande långsammare än MOLGEN i storleksordningar. MAYGEN⁶ är ungefär 47 gånger snabbare än PMG och cirka 3 gånger långsammare än MOLGEN, vilket gör MAYGEN till den snabbaste och mest effektiva open source-strukturgeneratorn som finns tillgänglig. Mer detaljerade jämförelser och benchmarkingtester finns i dokumentet som introducerar MAYGEN⁶. Ett viktigt inslag i programmet är dess lexikografiska beställningsbaserade test för kanoniska strukturer, en ordnad grafgenereringsmetod baserad på Schreier-Sims^7-algoritmen . Programvaran kan enkelt integreras i andra projekt och förbättras för användarnas behov.

Liksom MOLGEN och PMG tar MAYGEN en användardefinierad molekylformel och genererar alla möjliga strukturer för den formeln. Till exempel, om en användare kör MAYGEN med formeln_C5H12, kommer MAYGEN att generera alla möjliga strukturer som innehåller fem kolatomer och tolv väteatomer. Till skillnad från sin motsvarighet med öppen källkod PMG kan MAYGEN också rymma "fuzzy" molekylformler som använder intervall istället för diskreta tal för antalet av varje element. Till exempel, om en användare kör MAYGEN med formeln C_5-7H_12-15, kommer MAYGEN att generera alla möjliga strukturer som innehåller mellan fem och sju kolatomer och tolv och femton väteatomer, vilket möjliggör enkel generering av strukturer med ett brett spektrum av atomkompositioner.

Astrobiologi är ett sådant område som kan dra nytta av molekylära strukturgeneratorer. Ett populärt ämne inom astrobiologi är utvecklingen av aminosyraalfabetet som delas av allt existerande liv på jorden. En av de definierande egenskaperna hos Den sista universella gemensamma förfadern (LUCA) är dess användning av tjugo genetiskt kodade aminosyror för proteinkonstruktion ^8,9. Baserat på metaanalyser av arbete inom flera fält 10,11,12, bildas cirka 10 av dessa aminosyror (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) lätt under abiotiska förhållanden och utgjorde sannolikt aminosyraalfabetet för pre-LUCA-organismer. Med tiden utvidgades detta "tidiga" alfabet som svar på olika strukturella och funktionella behov. Till exempel hävdar en ny granskning från Moosmann¹³ att tillsatsen av nyare medlemmar av de genetiskt kodade aminosyrorna (nämligen Met, Tyr och Trp) möjliggjorde överlevnad i syrerika miljöer genom att förhindra intracellulär spridning av reaktiva syrearter.

En ständigt växande svit av analytiska kemitekniker ger insikt i de aminosyrastrukturer som kan bildas under abiotiska förhållanden. En nyligen genomförd granskning¹⁴ av Simkus och andra beskriver de metoder som används för att detektera många organiska föreningar i meteoriter, liksom organiska föreningar från in vitro-simuleringar av tidiga jordmiljöer 15,16,17. Systematisk generering av kemiska strukturer gör det möjligt för forskare att utforska bortom de organiska föreningar som detekteras via instrumentering och befolka det strukturella utrymmet runt strukturella "öar" som identifierats av analytisk kemi. När det gäller de "tidiga" aminosyrorna visar denna systematiska strukturgenerering möjliga proteinkemier tillgängliga för tidigt liv utan att begränsa utforskningen till strukturer som experimentellt har detekterats under abiotiska syntesbetingelser. Med verktygssatser för kemininformatik med öppen källkod och effektiva strukturgeneratorer som MAYGEN är det nu enklare än någonsin att skapa och utforska nya kemiska strukturbibliotek och kan vägleda mer detaljerade undersökningar av livets alternativa kemier.

Protocol

OBS: Se figur 1 för en sammanfattning av protokollet och materialförteckningen för detaljer om den programvara som används.

Bild 1: Sammanfattning av protokollet.

1. Nedladdning av programvara och filer

OBS: Alla program är gratis för individuell användning och kan köras på en persondator.

Skapa en ny katalog för det här projektet. Placera filer och körbara filer här för enkel åtkomst.
Ladda ner och installera nödvändiga programvarupaket.
1. Ladda ner den senaste versionen av MAYGEN som en .jar fil.
  OBS: MAYGEN är fritt tillgänglig som en .jar fil från https://github.com/MehmetAzizYirik/MAYGEN/releases
2. Ladda ner och installera pakethanteringsprogrammet Conda och cheminformatics toolkit RDKit¹⁸.
  OBS: RDKit filtrerar de molekylära strukturerna som produceras av MAYGEN och fungerar bäst i en Conda-miljö. Instruktioner för nedladdning av Conda-plattformen finns på https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Installations- och miljöinstallationsinstruktioner för RDKit finns på https://www.rdkit.org/docs/Install.html.
  1. Installera RDKit i Conda-huvudmiljön istället för en separat RDKit-miljö via Anaconda-prompten. På Windows-system söker du efter "Anaconda prompt" och klickar på den resulterande genvägen för att köra. På MacOS- och Linux-system, interagera med Conda via terminalen utan att köra några ytterligare program. Skriv sedan följande kommando och tryck på Enter för att köra och svara ja på alla frågor som kommer upp under installationen:
    conda installera -c rdkit rdkit.
    Även om det finns många fritt tillgängliga deskriptorberäkningsprogram, använder detta exempel PaDEL-Descriptor¹⁹, en gratis och snabb kalkylator för molekylära deskriptorer och fingeravtryck.
3. Ladda ned och spara den .jar filen i projektmappen.
  PADEL-Descriptor kan laddas ner gratis från http://www.yapcwsoft.com/dd/padeldescriptor/.
Ladda ned Jupyter Notebooks och textfiler med understrukturmönster från Tilläggsfiler 1–5.
Jupyter Notebooks kan också laddas ned från följande GitHub sida: https://github.com/cmayerb1/AA-structure-manip.

2. Strukturgenerering med MAYGEN

I en kommandotolk navigerar du till katalogen som innehåller MAYGEN .jar körbar fil.
För varje kemisk formel av intresse kör du MAYGEN med följande kommando:
java -jar [MAYGEN .jar filnamn] -f [kemisk formel] -v -o [mapp för MAYGEN-utdata] -m -sdf.
OBS: Detta sparar en .sdf-fil i den angivna mappen, uppkallad efter den använda formeln.
1. Om formeln är en luddig formel istället för en diskret formel, ersätt flaggan -f med en -fuzzy flagga och bifoga eventuella elementintervall inom parentes (t.ex. använd C[5-7]H[12-15] för att säkerställa att alla genererade strukturer har mellan 5 och 7 kolatomer och mellan 12 och 15 väteatomer).

3. Filtrera föreningar med oönskade understrukturer

Öppna en Anaconda-prompt (se steg 1.2.2.1) och navigera till mappen som innehåller Jupyter Notebooks som hämtats från tilläggsfil 1.
Öppna Jupyter Notebook för filtrering av understrukturer med följande kommando:
jupyter notebook [anteckningsbokens filnamn]
I den angivna cellen i början av anteckningsboken anger du den fullständiga filsökvägen för indatafilen .sdf (genererad av MAYGEN), fullständig filsökväg för önskad .sdf utdatafil och filsökväg för "badlist" -filen som strängar (inom citat). Se Tilläggsfil 2 för ett exempel på en dålig lista.
1. Om vissa understrukturer i det filtrerade biblioteket (en goodlist) ska behållas skapar du en .txt-fil med SMARTS-mönster²⁰ för dessa understrukturer (en goodlist) och placerar goodlist-filsökvägen på den angivna raden i början av anteckningsboken. Se Tilläggsfil 3 för ett exempel på en bra lista.
Starta om notebook-kärnan och kör alla celler (från menyn högst upp, välj Kernel, Restart &Run All) för att få en .sdf fil med önskat namn i den angivna utdatamappen.
Upprepa de två föregående stegen för varje strukturfil som genereras av MAYGEN i steg 2.

4. (Valfritt) Ytterligare strukturändringar

Dessa utförs i det här exemplet men kanske inte behövs för att kurera andra bibliotek.

Pseudoatom ersättning.
OBS: Här är en pseudoatom en unik atom som används för att representera en större understruktur som delas av alla genererade strukturer, vilket minskar MAYGEN: s generationstid. Se Kompletterande fil 4 för ett exempel på pseudoatombyte.
1. Öppna en Anaconda-prompt (se steg 1.2.2.1) och navigera till mappen som innehåller Jupyter Notebooks.
2. Öppna Jupyter Notebook för pseudoatombyte:
  jupyter notebook [anteckningsbokens filnamn]
3. I den angivna cellen i början av anteckningsboken anger du den fullständiga filsökvägen för indatafilen .sdf och den fullständiga filsökvägen för önskad .sdf utdatafilen som strängar (inom citat).
4. Starta om notebook-kärnan och kör alla celler för att hämta en .sdf-fil med önskat namn i den angivna utdatamappen.
Aminosyra N- och C-termini capping
OBS: Denna procedur är specifik för alfa-aminosyror och lägger till molekylära kepsar till N- och C-termini av alfa-aminosyra ryggrad. Se Kompletterande fil 5 för ett exempel på aminosyrakapsling.
1. Öppna en Anaconda-prompt (se steg 1.2.2.1) och navigera till mappen som innehåller Jupyter Notebooks.
2. Öppna Jupyter Notebook för aminosyrakapsling:
  jupyter notebook [anteckningsbokens filnamn]
3. I den angivna cellen i början av anteckningsboken anger du den fullständiga filsökvägen för indatafilen .sdf och den fullständiga filsökvägen för önskad .sdf utdatafilen som strängar (inom citat).
4. Starta om notebook-kärnan och kör alla celler för att hämta en .sdf-fil med önskat namn i den angivna utdatamappen.

5. Generering av deskriptorer

Innan du genererar deskriptorer placerar du alla .sdf filer som deskriptorerna ska beräknas för i en enda mapp.
OM det inte redan är gjort, ge dessa filer beskrivande namn för enkel filtrering efter deskriptorgenerering.
Öppna en kommandotolk och navigera till mappen som innehåller Filen PaDEL-Descriptor .jar.
Kör PaDEL-Descriptor för de insamlade .sdf filerna med följande kommando:
java -jar PaDEL-Descriptor.jar -dir [katalog över .sdf filer] -fil [filsökväg för en .csv fil för resultat] -2d -retainorder -usefilenameasmolname
Resultatfilen kommer att ha molekylnamnet i den första kolumnen och varje deskriptor i de efterföljande kolumnerna.
Exportera dessa data till valfritt kalkylprogram för vidare analys.

Representative Results

	Bibliotek	Formel	Ytterligare begränsningar	"Tidiga" kodade aminosyror	Generationstid (ms)	Strukturer
						Initial	Sist
1	Gly	C₂H₅NEJ₂	inkludera Gly-understruktur	Gly	192	84	1
2	VAIL	PC_0-3H_3-9		Val, Ala, Ile, Leu	172	70	22
3	DEST	PC_0-3O_1-2H_3-5		Asp, Glu, Ser, Thr	481	1928	254
4	PRO	C_2-5NEJ₂H_7-11	Inkludera N-meGly- eller N-meAla-understruktur	PRO	4035	79777	16
5	VAIL_S	Psc_0-2H_3-7			122	65	31
6	DEST_S	Psc_0-2O_1-2H₃			349	1075	79
7	Pro_S	C_2-4SNO₂H_7-9	Inkludera N-meGly- eller N-meAla-understruktur		3999	75734	10

Tabell 1: Sammansatta bibliotek som används i det här exemplet. Bibliotek byggda av formlerna 1-4 (Gly, VAIL, DEST och Pro) är baserade på tidigare publicerade fuzzy formler av de "tidiga" kodade aminosyrorna²¹, medan bibliotek byggda av formlerna 5-7 (VAIL_S, DEST_S och Pro_S) är baserade på varianter av formler 2-4 som föreställer sig att ett tvåvärt svavel ersätter en av kolatomerna. Strukturantal återspeglar antalet molekyler som genereras av MAYGEN för varje formel ("Initial") och antalet molekyler som återstår efter filtrering av de med oönskade understrukturer ("Final"). Förkortningar: VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyra, glutaminsyra, serin, treonin; X_S = Tvåvärt svavel ersätter ett av kolen i bibliotek X; N-meX = N-metylX.

De allmänna metoderna ovan tillämpades på formler baserade på de "tidiga" kodade aminosyrorna, enligt proceduren för Meringer et ^al.21 Badliststrukturer togs från samma källa och konverterades till SMARTS-strängar för att enkelt representera substrukturella mönster. Två badlist-understrukturer användes inte i det här exemplet: struktur 018 (_CH3-CH-N) matchade nära isomerer av prolin som inte själva var instabila; struktur 106 (R-C-C-OH, där R = alaninunderstruktur som fäster vid beta-kolet) matchade glutaminsyra, en kodad aminosyra. Förutom dessa kemiska formler skapades varianter med tvåvärt svavel som tog platsen för en kolatom och två väteatomer. Av prestandaskäl använder flera av dessa formler en trivalent fosforatom (t.ex. en "pseudoatom") som ersättning för beta-kolet i en alaninunderstruktur. Tabell 1 visar de bibliotek som genereras i det här exemplet, formlerna som används för att generera dem och antalet föreningar som finns i. Biblioteksnamn är baserade på de kodade aminosyrorna från vilka de härrör: antingen med 3-bokstavsförkortningen (Gly = glycin, Pro = prolin) eller förkortning med en bokstav (VAIL = Valine, Alanin, Isoleucin, Leucin; DEST = Asparaginsyra, glutaminsyra, serin, treonin). Suffixet "_S" indikerar att ett svavel ersattes med ett kol i det ursprungliga bibliotekets formel (t.ex. VAIL_S är byggt med samma fuzzy formel som VAIL, men med ett tvåvärt svavel som ersätter ett av kolen).

Efter strukturgenerering med MAYGEN filtrerades de resulterande biblioteken av föreningar som innehöll minst en understruktur som finns i badlisten. Efter denna filtrering ersattes alla fosforatomer med en alaninunderstruktur. Därefter skapades "begränsade" versioner av alla strukturer, med en acetylgrupp tillsatt till N-terminalen och en N-metylamidgrupp tillsatt till C-terminalen. Detta gjordes för att avlägsna effekten på hydrofobiciteten hos de fria amin- och karboxylsyragrupperna i alfa-aminosyrans ryggrad. PaDEL-Descriptor användes för att beräkna XLogP för alla begränsade strukturer och beräknade van der Waals volym (VABC) för alla obegränsade strukturer.

Figur 2 visar det kemiska utrymmet för de filtrerade biblioteken, enligt definitionen av VABC- och XLogP-deskriptorer. Här ökar utbudet av möjliga logP-värden med molekylär volym, även inom bibliotek som uttryckligen saknar hydrofila sidokedjor (t.ex. VAIL, Pro). Kodade aminosyror med kolväte-sidokedjor var mer hydrofoba än de flesta andra aminosyror med jämförbar volym från deras respektive bibliotek. Detta verkar också vara fallet för Met och Cys jämfört med andra medlemmar i VAIL_S bibliotek med liknande volymer. Kodade aminosyror med hydroxyl sidokedjor (Ser och Thr) var bland de minsta medlemmarna i DEST-biblioteket, med Asp bara något större än Thr.

Figur 3 och figur 4 visar påverkan på volym och logP när ett tvåvärt svavel ersätter ett kol i en alfa-aminosyra sidokedja. Svavelsubstitution ledde till en liten ökning av molekylvolymen i alla bibliotek (Figur 3). Effekten av svavelsubstitution på logP är inte lika homogen som för volym (figur 4). Den genomsnittliga logP för VAIL_S-biblioteket är något lägre än för VAIL-biblioteket, men den här effekten ses inte i något av de andra biblioteksparen (DEST och DEST_S, Pro och Pro_S).

Figur 5 kvantifierar effekterna på strukturgenerering av en pseudoatom som står för en gemensam understruktur; här ersatte en trivalent P en alanindel under strukturgenerering. Att använda en pseudoatom i strukturgenerering minskade kraftigt antalet strukturer som genererades av ~ 3 storleksordningar (figur 5A) och den totala tiden som behövs för att generera dessa strukturer med 1-2 storleksordningar (figur 5B).

Figur 2: Kemiskt utrymme för alla filtrerade aminosyrabibliotek. Svarta markörer representerar aminosyror från bibliotek utan svavel; gula markörer representerar aminosyror från svavelberikade bibliotek. Cirklar: VAIL och VAIL_S; rutor: DEST och DEST_S; trianglar: Pro och Pro_S; stjärnor: kodade aminosyror. Observera att de två svavelhaltiga kodade aminosyrorna (Met och Cys) inte anses vara "tidiga" aminosyror utan finns i VAIL_S bibliotek. Förkortningar: XLogP = fördelningskoefficient; VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyra, glutaminsyra, serin, treonin; X_S = Tvåvärt svavel ersätter ett av kolen i bibliotek X. Klicka här för att se en större version av denna figur.

Figur 3: Medelvärden för van der Waals volymer (i Å³) av bibliotek med och utan svavel. Svarta staplar representerar medelvolymerna av bibliotek utan svavel (VAIL, DEST, Pro), medan gula staplar representerar medelvolymer av de svavelsubstituerade versionerna av dessa bibliotek (VAIL_S, DEST_S, Pro_S). Felstaplar visar standardavvikelse. Förkortningar: VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyra, glutaminsyra, serin, treonin; X_S = Tvåvärt svavel ersätter ett av kolen i bibliotek X. Klicka här för att se en större version av denna figur.

Bild 4: Genomsnittliga XLogP-värden för bibliotek med och utan svavel. Svarta staplar representerar bibliotek utan svavel (VAIL, DEST, Pro), medan gula staplar representerar svavelsubstituerade versioner av dessa bibliotek (VAIL_S, DEST_S, Pro_S). Felstaplar visar standardavvikelse. Förkortningar: XLogP = fördelningskoefficient; VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyra, glutaminsyra, serin, treonin; X_S = Tvåvärt svavel ersätter ett av kolen i bibliotek X. Klicka här för att se en större version av denna figur.

Figur 5: Effekter av en trivalent pseudoatom på MAYGEN-strukturgenerering. Alla tester gjordes på en dator med en Intel i7-7700HQ-processor vid 2, 8 GHz, 16 GB RAM, inga spara strukturer i en fil och -m-alternativet att använda multithreading. Tester med en pseudoatom använde de luddiga formlerna som beskrivs i tabell 1. För tester utan pseudoatom var de fuzzy formler som användes desamma som beskrivs i tabell 1 med följande ändringar: P ersattes med N; kolantalet ökades med 3; väteantalet ökades med 7; syreantalet ökades med 2. Svarta staplar visar bibliotek som genereras med en pseudoatom; grå staplar visar bibliotek som genereras utan pseudoatom. (A) Antal strukturer som genereras med hjälp av de fuzzy formler som används för att bygga VAIL- och DEST-biblioteken med och utan en trivalent fosfor som ersätter en alaninunderstruktur. (B) Tid (i ms) som behövs för att bygga VAIL- och DEST-biblioteken med och utan en trivalent fosfor som ersätter en alaninunderstruktur. Förkortningar: VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyra, glutaminsyra, serin, treonin. Klicka här för att se en större version av denna siffra.

Tilläggsfil 1: Anteckningsbok för screening av understruktur. Klicka här för att ladda ner den här filen.

Kompletterande fil 2: Exempel på badlist. Klicka här för att ladda ner den här filen.

Kompletterande fil 3: Exempel på bra lista. Klicka här för att ladda ner den här filen.

Kompletterande fil 4: Pseudoatom ersättning anteckningsbok. Klicka här för att ladda ner den här filen.

Kompletterande fil 5: Aminosyra capping anteckningsbok. Klicka här för att ladda ner den här filen.

Discussion

En egenskap hos de "tidiga" aminosyrorna är brist på svavel. De metaanalyser som nämnts tidigare anser i allmänhet att de svavelhaltiga kodade aminosyrorna (Cys och Met) har varit relativt sena tillägg till den genetiska koden, slutsatser som stöds av bristen på svavelhaltiga aminosyror i meteoriter och gniströrsexperiment. Organosulfurföreningar detekteras emellertid lätt i kometer och meteoriter²², och omanalys av gniströrsexperiment med användning av_H2S-gashittade aminosyror och andra organiska föreningar innehållande svavel¹⁶. När man överväger ett alternativt aminosyraalfabet är ett berikat med svavel värt att utforska.

I ovanstående protokoll betraktas strukturgenerering och understrukturfiltrering som kritiska steg; beroende på sammansättningen av det färdiga strukturbiblioteket kan en forskare bara behöva utföra dessa två steg. Instruktioner och programvara för ytterligare åtgärder (pseudoatombyte och tillägg av understrukturer (i detta fall aminosyrakapsling)) ingår för mer relevant deskriptorberäkning (capping säkerställer att XLogP-beräkningar påverkas av sidokedjan och inte ryggradsamin- eller karboxylgrupperna) och snabbare strukturgenerering via användning av en pseudoatom, som diskuteras mer detaljerat nedan. Dessutom görs deskriptorberäkning här som ett enkelt sätt att visualisera mångfalden av de genererade strukturerna och jämföra effekterna av svavelanrikning i de färdiga biblioteken.

Medan PaDEL-Descriptor kan beräkna tusentals molekylära egenskaper, användes molekylvolym (som beräknad van der Waals-volym) och fördelningskoefficient (som XLogP) här av två olika skäl. För det första mäter dessa två deskriptorer molekylära egenskaper (storlek respektive hydrofobicitet) som är bekanta för de flesta kemister och biologer. För det andra, när det gäller aminosyror, är dessa två egenskaper signifikanta. I årtionden var aminosyrastorlek och hydrofobicitet kända för att påverka termodynamiken för proteinveckning²³. Dessa två egenskaper hjälper till att förklara aminosyrasubstitutionsfrekvenser som har varit integrerade för att förstå proteinutveckling²⁴.

Ovanstående exempel visar att i de två studerade deskriptorerna (molekylvolym och hydrofobicitet) ger ersättning av ett tvåvärt svavel för ett kol och två väten inte signifikanta förändringar. Den lilla, icke-signifikanta ökningen av medelmolekylvolymen från svavelsubstitution (figur 3) kan hänföras till svavels större kovalenta radie (~ 103 pm) jämfört med antingen sp³ (~ 75 pm) eller sp² (~ 73 pm) kol²⁵. På samma sätt har svavelsubstitution minimal effekt på medelvärdet XLogP (figur 4). Den största effekten var mellan VAIL- och VAIL_S-biblioteken, troligen på grund av att en kombination av VAIL-biblioteket var särskilt hydrofobt (sidokedjorna är bara kolväten) och sulfhydrylgrupper är mycket surare än de metylgrupper de skulle ersätta. Den minimala effekten av svavelsubstitution framgår av figur 2, där bibliotek med svavelsubstitution upptar samma kemiska utrymme som analoga bibliotek utan svavelsubstitution.

Minskningen av antalet strukturer (figur 5A) och den tid som krävs för att generera dessa strukturer (figur 5B) vid användning av en pseudoatom är inte förvånande. Att använda en pseudoatom minskar antalet tunga atomer som måste införlivas i en kemisk graf, vilket minskar antalet grafnoder och ger exponentiella minskningar i generationstid och antal strukturer. Här härrör valet av trivalent fosfor som pseudoatom från grundläggande biokemi (frånvarande posttranslationell tillsats av fosfatgrupper, inga genetiskt kodade aminosyror innehåller fosfor) och valensen hos atomen som skulle ersätta den (en trivalent fosfor kan lätt ersättas med ett tetravalent kol som är enskilt bundet till en annan atom eller grupp av atomer). Medan den tillhandahållna koden för pseudoatomsubstitution är specifik för att ersätta en trivalent fosfor med en alaninunderstruktur, kan användare anpassa koden för att arbeta med olika pseudoatomer eller ersättningsunderstrukturer, potentiellt med hjälp av flera pseudoatomer under den första strukturgenereringen följt av att ersätta varje pseudoatom med en större molekylär understruktur.

Strukturgenereringsmetoder som liknar de som används av MAYGEN (och andra metoder som neurala nätverk) används redan vid läkemedelsupptäckt för att generera sammansatta bibliotek för in silico-screening ; en ny granskning⁴ diskuterar dessa metoder mer detaljerat. Eftersom dessa metoder främst är avsedda för att skapa läkemedelsliknande molekyler finns det vissa begränsningar för deras förmåga att generera molekyler, såsom att använda biologiska eller farmaceutiska egenskaper för att begränsa de skapade strukturerna (invers QSPR / QSAR) eller skapa strukturer från ett förinställt antal byggstenar för understruktur. Eftersom astrobiologi fokuserar mer på de många organiska föreningar som kan bildas abiotiskt och mindre på några slutprodukter eller deras egenskaper, är MAYGEN: s uttömmande strukturgenerering idealisk för att skapa strukturbibliotek för att ta itu med astrobiologiska frågor. Det tillvägagångssätt för understrukturfiltrering som beskrivs här (utfört efter strukturgenerering via ett externt program) skiljer sig från konkurrentprogrammet MOLGEN genom att MOLGEN:s understrukturfiltrering sker under strukturgenerering. Eftersom MAYGEN är öppen källkod är det inte bara mer tillgängligt än MOLGEN på grund av MOLGEN: s licenskostnad, utan individer kan implementera nya funktioner som understrukturfiltrering under strukturgenerering.

Som skrivet är protokollet som beskrivs här inriktat på att generera och kurera bibliotek med relativt små alfa-aminosyror. För att generera olika bibliotek kan användare ge olika molekylformler till MAYGEN, ändra understrukturfiltreringen genom att ändra den maximala tillåtna ringstorleken och bindningsvalensen, eller redigera goodlist- och badlist-filerna för att lägga till eller ta bort understrukturmönster. Protokolländringar som innebär att man ändrar hur atomer och understrukturer läggs till eller ersätts (pseudoatomsubstitution och molekylär capping) är genomförbara men kommer att kräva mer uppmärksamhet åt valensbegränsningar för att undvika RDKit-fel om felaktiga valenser i modifierade strukturer.

Protokollet som beskrivs ovan är utformat för små alfa-aminosyror. Det allmänna formatet (omfattande strukturgenerering med pseudoatomer, följt av understrukturfiltrering och molekylära modifieringar) är emellertid mycket flexibelt för föreningar bortom små aminosyror. Även inom astrobiologi användes ett liknande nyligen genomfört förfarande med MOLGEN för att undersöka konstitutionella isomerer av nukleinsyror²⁶. Förutom de verktyg som beskrivs ovan kan MAYGEN paras ihop med andra kemininformatikverktyg med öppen källkod för att göra det möjligt att skapa och analysera nya kemiska strukturer överkomliga och tillgängliga för ett brett spektrum av forskningsområden.

Disclosures

Författarna har inga intressekonflikter att avslöja.

Acknowledgments

MAY erkänner finansiering från Carl-Zeiss-Foundation. Alla siffror genererades med hjälp av Microsoft Excel.

Materials

Name	Company	Catalog Number	Comments
conda v. 4.10.3			https://www.anaconda.com/products/individual
Java 17			https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8			https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21			http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11			included in Anaconda environment
RDKit v. 2020.09.1.0			https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

DOWNLOAD MATERIALS LIST

References

Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
Buchanan, B. G., Feigenbaum, E. A. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. Webber, B. L., Nilsson, N. J. , Morgan Kaufmann. 313-322 (1981).
Gugisch, R., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. Basak, S. C., Restrepo, G., Villaveces, J. L. , Bentham Science Publishers. 113-138 (2015).
Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
Sims, C. C. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. Leech, J. , Pergamon. 169-183 (1970).
Mat, W. -K., Xue, H., Wong, J. T. -F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
Bada, J. L. New insights into prebiotic chemistry from Stanley Miller's spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
RDKit: Open-source cheminformatics. , Available from: http://www.rdkit.org (2021).
Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
SMARTS - A language for describing molecular patterns. Daylight Chemical Information Systems, Inc. , Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019).
Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Chemistry

Kurering av beräkningskemiska bibliotek demonstrerade med alfa-aminosyror

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.