Chemistry

Curatie van computationele chemische bibliotheken gedemonstreerd met alfa-aminozuren

Published: April 13, 2022 doi: 10.3791/63632

Christopher Mayer-Bacon¹, Mehmet Aziz Yirik²

¹Biological Sciences Department, University of Maryland-Baltimore County, ²Institute for Inorganic and Analytical Chemistry, Friedrich-Schiller University

Summary

Het doel van dit protocol is om efficiënt kleine molecuulstructuurbibliotheken te genereren en te beheren met behulp van open-source software.

Abstract

Uitputtende generatie van moleculaire structuren heeft tal van chemische en biochemische toepassingen zoals medicijnontwerp, moleculaire databaseconstructie, verkenning van alternatieve biochemici en nog veel meer. Wiskundig gezien zijn dit grafiekgeneratoren met chemische beperkingen. In het veld is de meest efficiënte generator momenteel (MOLGEN) een commercieel product, waardoor het gebruik ervan wordt beperkt. Een andere moleculaire structuurgenerator, MAYGEN, is een recente open-source tool met een efficiëntie die vergelijkbaar is met MOLGEN en de capaciteit voor gebruikers om de prestaties te verbeteren door nieuwe functies toe te voegen. Een van de onderzoeksgebieden die baat kunnen hebben bij deze ontwikkeling is astrobiologie; structuurgeneratoren stellen onderzoekers in staat om experimentele gegevens aan te vullen met computationele mogelijkheden voor alternatieve biochemie. Dit protocol beschrijft één use case voor het genereren van structuren in de astrobiologie, namelijk het genereren en cureren van alfa-aminozuurbibliotheken. Met behulp van open-source structuurgeneratoren en cheminformatics-tools kunnen de hier beschreven praktijken buiten de astrobiologie worden geïmplementeerd voor het goedkoop maken en cureren van chemische structuurbibliotheken voor elke onderzoeksvraag.

Introduction

Moleculaire structuurgeneratie dient als een praktische toepassing van het algemene probleem van uitputtende grafiekgeneratie; gezien verschillende knooppunten (atomen) en beperkingen op hun connectiviteit (bijv. Valenties, bindingsmultipliciteiten, gewenste / ongewenste substructuren), hoeveel verbonden grafieken (moleculen) zijn mogelijk? Structuurgeneratoren hebben uitgebreide toepassing gezien in medicijnontdekking en farmaceutische ontwikkeling, waar ze enorme bibliotheken met nieuwe structuren kunnen creëren voor in silico-screening ¹.

De eerste structuurgenerator, CONGEN, werd ontwikkeld voor het eerste kunstmatige intelligentieproject in de organische chemie, DENDRAL² (afkorting van DENDRitic ALgorithm). Verschillende software-opvolgers van DENDRAL werden in de literatuur vermeld; ze waren echter niet allemaal onderhouden of efficiënt. Momenteel is MOLGEN³ de state-of-the-art moleculaire structuurgenerator. Helaas voor de meeste potentiële gebruikers is het closed-source en vereist het een licentievergoeding. Er is dus behoefte aan een efficiënte open-source structuurgenerator die zich gemakkelijk kan aanpassen aan specifieke toepassingen. Een uitdaging voor een efficiënte structuurgenerator is het beheren van combinatorische explosies; naarmate de grootte van een molecuulformule toeneemt, neemt de grootte van de chemische zoekruimte exponentieel toe. Een recent overzicht onderzoekt verder de geschiedenis en uitdagingen van moleculaire structuurgeneratie⁴.

Vóór 2021 was de Parallel Molecule Generator (PMG)⁵ de snelste open-source structuurgenerator, maar deze was nog steeds langzamer dan MOLGEN in ordes van grootte. MAYGEN⁶ is ongeveer 47 keer sneller dan PMG en ongeveer 3 keer langzamer dan MOLGEN, waardoor MAYGEN de snelste en meest efficiënte open-source structuurgenerator is die beschikbaar is. Meer gedetailleerde vergelijkingen en benchmarkingtests zijn te vinden in de paper die MAYGEN⁶ introduceert. Een belangrijk kenmerk van het programma is de lexicografische ordeningstest voor canonieke structuren, een geordende methode voor het genereren van grafieken op basis van het Schreier-Sims^7-algoritme . De software kan eenvoudig worden geïntegreerd in andere projecten en worden verbeterd voor de behoeften van de gebruikers.

Net als MOLGEN en PMG neemt MAYGEN een door de gebruiker gedefinieerde molecuulformule en genereert alle mogelijke structuren voor die formule. Als een gebruiker bijvoorbeeld MAYGEN uitvoert met de formule C₅H₁₂, genereert MAYGEN alle mogelijke structuren die vijf koolstofatomen en twaalf waterstofatomen bevatten. In tegenstelling tot zijn open-source tegenhanger PMG, kan MAYGEN ook "fuzzy" moleculaire formules bevatten die intervallen gebruiken in plaats van discrete getallen voor de telling van elk element. Als een gebruiker bijvoorbeeld MAYGEN uitvoert met de formule C_5-7H_12-15, genereert MAYGEN alle mogelijke structuren die tussen de vijf en zeven koolstofatomen en twaalf en vijftien waterstofatomen bevatten, waardoor eenvoudige generatie van structuren met een breed scala aan atomaire samenstellingen mogelijk is.

Astrobiologie is zo'n veld dat kan profiteren van moleculaire structuurgeneratoren. Een populair onderwerp in de astrobiologie is de evolutie van het aminozuuralfabet dat wordt gedeeld door al het bestaande leven op aarde. Een van de bepalende kenmerken van de Last Universal Common Ancestor (LUCA) is het gebruik van twintig genetisch gecodeerde aminozuren voor eiwitconstructie ^8,9. Op basis van meta-analyses van werk op meerdere gebieden^vormen ^10,11,12, ongeveer 10 van deze aminozuren (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) gemakkelijk onder abiotische omstandigheden en vormen waarschijnlijk het aminozuuralfabet van pre-LUCA-organismen. In de loop van de tijd werd dit "vroege" alfabet uitgebreid als reactie op verschillende structurele en functionele behoeften. Een recente review van Moosmann¹³ beweert bijvoorbeeld dat de toevoeging van meer recente leden van de genetisch gecodeerde aminozuren (namelijk Met, Tyr en Trp) het mogelijk maakte om te overleven in zuurstofrijke omgevingen door de intracellulaire proliferatie van reactieve zuurstofsoorten te voorkomen.

Een steeds groter wordende reeks analytische chemietechnieken biedt inzicht in de aminozuurstructuren die zich onder abiotische omstandigheden kunnen vormen. Een recente review¹⁴ door Simkus en anderen beschrijft de methoden die worden gebruikt om talrijke organische verbindingen in meteorieten te detecteren, evenals organische verbindingen uit in vitro simulaties van vroege aardse omgevingen 15,16,17. Systematische generatie van chemische structuren stelt onderzoekers in staat om verder te gaan dan de organische verbindingen die via instrumentatie worden gedetecteerd, waarbij de structurele ruimte rond structurele "eilanden" wordt bevolkt die door analytische chemie zijn geïdentificeerd. In het geval van de "vroege" aminozuren toont deze systematische structuurgeneratie mogelijke eiwitchemie die beschikbaar is voor het vroege leven zonder de exploratie te beperken tot structuren die experimenteel zijn gedetecteerd onder abiotische syntheseomstandigheden. Met open-source cheminformatics toolkits en efficiënte structuurgeneratoren zoals MAYGEN is het maken en verkennen van nieuwe chemische structuurbibliotheken nu eenvoudiger dan ooit tevoren en kan het meer gedetailleerde onderzoeken naar alternatieve chemische stoffen van het leven begeleiden.

Protocol

OPMERKING: Zie figuur 1 voor een samenvatting van het protocol en de tabel met materialen voor meer informatie over de gebruikte software.

Figuur 1: Samenvatting stroomschema van het protocol. Klik hier om een grotere versie van deze figuur te bekijken.

1. Software en bestandsdownloads

OPMERKING: Alle programma's zijn gratis voor individueel gebruik en kunnen op een pc worden uitgevoerd.

Maak een nieuwe map voor dit project. Plaats de bestanden en uitvoerbare bestanden hier voor eenvoudige toegang.
Download en installeer de benodigde softwarepakketten.
1. Download de nieuwste versie van MAYGEN als .jar-bestand.
  OPMERKING: MAYGEN is vrij beschikbaar als .jar bestand van https://github.com/MehmetAzizYirik/MAYGEN/releases
2. Download en installeer de pakketbeheersoftware Conda en de cheminformatics toolkit RDKit¹⁸.
  OPMERKING: RDKit filtert de moleculaire structuren die door MAYGEN worden geproduceerd en werkt het beste in een Conda-omgeving. Instructies voor het downloaden van het Conda-platform zijn te vinden op https://conda.io/projects/conda/en/latest/user-guide/install/index.html. RdKit-installatie- en omgevingsinstellingen zijn te vinden op https://www.rdkit.org/docs/Install.html.
  1. Installeer RDKit in de belangrijkste Conda-omgeving in plaats van een afzonderlijke RDKit-omgeving via de Anaconda-prompt. Zoek op Windows-systemen naar "Anaconda-prompt" en klik op de resulterende snelkoppeling om uit te voeren. Op MacOS- en Linux-systemen kunt u via de terminal met Conda communiceren zonder extra programma's uit te voeren. Typ vervolgens de volgende opdracht en druk op Enter om uit te voeren en antwoord ja op eventuele vragen die tijdens de installatie opkomen:
    conda installeer -c rdkit rdkit.
    Hoewel er veel vrij beschikbare descriptorberekeningsprogramma's zijn, gebruikt dit voorbeeld PaDEL-Descriptor¹⁹, een gratis en snelle rekenmachine voor moleculaire descriptoren en vingerafdrukken.
3. Download en sla het .jar bestand op in de projectmap.
  LET OP: PaDEL-Descriptor is gratis te downloaden vanaf http://www.yapcwsoft.com/dd/padeldescriptor/.
Download de Jupyter notitieblokken en tekstbestanden van substructuurpatronen uit Supplemental Files 1-5.
OPMERKING: Jupyter-notebooks kunnen ook worden gedownload van de volgende GitHub-pagina: https://github.com/cmayerb1/AA-structure-manip.

2. Structuurgeneratie met MAYGEN

Navigeer in een opdrachtprompt naar de map met het uitvoerbare bestand MAYGEN .jar.
Voer voor elke chemische formule van belang MAYGEN uit met de volgende opdracht:
java -jar [MAYGEN .jar bestandsnaam] -f [chemische formule] -v -o [map voor MAYGEN output] -m -sdf.
OPMERKING: Hiermee wordt een .sdf bestand opgeslagen in de aangewezen map, vernoemd naar de gebruikte formule.
1. Als de formule een vage formule is in plaats van een discrete formule, vervang dan de -f-vlag door een -fuzzy flag en plaats eventuele elementintervallen tussen haakjes (gebruik bijvoorbeeld C[5-7]H[12-15] om ervoor te zorgen dat alle gegenereerde structuren tussen 5 en 7 koolstofatomen en tussen 12 en 15 waterstofatomen hebben).

3. Filterverbindingen met ongewenste onderconstructies

Open een Anaconda-prompt (zie stap 1.2.2.1) en navigeer naar de map met de Jupyter-notitieblokken die zijn gedownload van Supplemental File 1.
Open het Jupyter-notitieblok voor substructuurfiltering met de volgende opdracht:
jupyter notebook [notebook bestandsnaam]
Voer in de aangewezen cel aan het begin van het notitieblok het volledige bestandspad van het invoer- .sdf bestand (gegenereerd door MAYGEN), het volledige bestandspad van het gewenste .sdf uitvoerbestand en het bestandspad van het "badlist"-bestand in als tekenreeksen (binnen aanhalingstekens). Zie Aanvullend bestand 2 voor een voorbeeld van een badlist.
1. Als sommige substructuren in de gefilterde bibliotheek (een goodlist) moeten worden behouden, maakt u een .txt bestand met SMARTS-patronen²⁰ voor die substructuren (een goodlist) en plaatst u het goodlist-bestandspad in de aangewezen regel aan het begin van het notitieblok. Zie Aanvullend bestand 3 voor een voorbeeld van een goodlist.
Start de notebookkernel opnieuw op en voer alle cellen uit (selecteer in het menu bovenaan Kernel, Opnieuw opstarten en Alles uitvoeren) om een .sdf bestand met de gewenste naam in de opgegeven uitvoermap te krijgen.
Herhaal de vorige twee stappen voor elk structuurbestand dat door MAYGEN is gegenereerd in stap 2.

4. (Optioneel) Aanvullende structuurwijzigingen

OPMERKING: Deze worden in dit voorbeeld uitgevoerd, maar zijn mogelijk niet nodig voor het beheren van andere bibliotheken.

Pseudoatom vervanging.
OPMERKING: Hier is een pseudoatom een uniek atoom dat wordt gebruikt om een grotere substructuur weer te geven die wordt gedeeld door alle gegenereerde structuren, waardoor de generatietijd van MAYGEN wordt verkort. Zie Aanvullend bestand 4 voor een voorbeeld van pseudoatom-vervanging.
1. Open een Anaconda-prompt (zie stap 1.2.2.1) en navigeer naar de map met de Jupyter-notitieblokken.
2. Open het Jupyter-notitieblok voor pseudoatom-vervanging:
  jupyter notebook [notebook bestandsnaam]
3. Voer in de aangewezen cel aan het begin van het notitieblok het volledige bestandspad van het invoer- .sdf bestand en het volledige bestandspad van het gewenste .sdf uitvoerbestand in als tekenreeksen (tussen aanhalingstekens).
4. Start de notebookkernel opnieuw op en voer alle cellen uit om een .sdf bestand met de gewenste naam in de opgegeven uitvoermap te krijgen.
Aminozuur N- en C-termini capping
OPMERKING: Deze procedure is specifiek voor alfa-aminozuren, waarbij moleculaire doppen worden toegevoegd aan de N- en C-termini van alfa-aminozuurruggegraten. Zie Supplemental File 5 voor een voorbeeld van aminozuur capping.
1. Open een Anaconda-prompt (zie stap 1.2.2.1) en navigeer naar de map met de Jupyter-notitieblokken.
2. Open het Jupyter-notitieblok voor aminozuurafdekking:
  jupyter notebook [notebook bestandsnaam]
3. Voer in de aangewezen cel aan het begin van het notitieblok het volledige bestandspad van het invoer- .sdf bestand en het volledige bestandspad van het gewenste .sdf uitvoerbestand in als tekenreeksen (tussen aanhalingstekens).
4. Start de notebookkernel opnieuw op en voer alle cellen uit om een .sdf bestand met de gewenste naam in de opgegeven uitvoermap te krijgen.

5. Descriptor generatie

Plaats voorafgaand aan het genereren van descriptor alle .sdf bestanden waarvoor descriptoren moeten worden berekend in één map.
OPMERKING: Als dit nog niet is gebeurd, geef deze bestanden dan beschrijvende namen voor eenvoudige filtering na het genereren van descriptor.
Open een opdrachtprompt en navigeer naar de map met het paDEL-descriptorbestand .jar.
Voer PaDEL-Descriptor uit voor de verzamelde .sdf bestanden met de volgende opdracht:
java -jar PaDEL-Descriptor.jar -dir [directory of the .sdf files] -file [bestandspad van een .csv bestand voor resultaten] -2d -retainorder -usefilenameasmolname
OPMERKING: Het resultatenbestand heeft de molecuulnaam in de eerste kolom en elke descriptor in de volgende kolommen.
Exporteer deze gegevens naar spreadsheetsoftware voor verdere analyse.

Representative Results

	Bibliotheek	Formule	Aanvullende beperkingen	"Vroege" gecodeerde aminozuren	Generatietijd (ms)	Structuren
						Initiaal	Finaal
1	Gly	C₂H₅NR₂	inclusief Gly substructuur	Gly	192	84	1
2	VAIL	PC_0-3H_3-9		Val, Ala, Ile, Leu	172	70	22
3	DEST	PC_0-3O_1-2H_3-5		Asp, Glu, Ser, Thr	481	1928	254
4	PRO	C_2-5NEE₂H_7-11	Inclusief N-meGly of N-meAla substructuur	PRO	4035	79777	16
5	VAIL_S	Psc_0-2H_3-7			122	65	31
6	DEST_S	PSC_0-2O_1-2H₃			349	1075	79
7	Pro_S	C_2-4SNO₂H_7-9	Inclusief N-meGly of N-meAla substructuur		3999	75734	10

Tabel 1: Samengestelde bibliotheken die in dit voorbeeld worden gebruikt. Bibliotheken gebouwd op formule 1-4 (Gly, VAIL, DEST en Pro) zijn gebaseerd op eerder gepubliceerde vage formules van de "vroege" gecodeerde aminozuren²¹, terwijl bibliotheken gebouwd uit formule 5-7 (VAIL_S, DEST_S en Pro_S) zijn gebaseerd op varianten van formule 2-4 die zich voorstellen dat een tweewaardige zwavel een van de koolstofatomen vervangt. Structuurtellingen weerspiegelen het aantal moleculen dat door MAYGEN wordt gegenereerd voor elke formule ("Initieel") en het aantal moleculen dat overblijft na het filteren van moleculen met ongewenste substructuren ("Final"). Afkortingen: VAIL = valine, alanine, isoleucine, leucine; DEST = asparaginezuur, glutaminezuur, serine, threonine; X_S = Tweewaardige zwavel vervangt een van de koolstofatomen in bibliotheek X; N-meX = N-methylX.

De bovenstaande algemene methoden werden toegepast op formules op basis van de "vroege" gecodeerde aminozuren, volgens de procedure van Meringer et ^al.21 Badlist-structuren werden uit dezelfde bron genomen en omgezet in SMARTS-strings om gemakkelijk substructurele patronen weer te geven. Twee badlist-substructuren werden in dit voorbeeld niet gebruikt: structuur 018 (CH 3-CH-N) kwam overeen met near-isomeren van proline die zelf niet onstabiel waren; structuur 106 (R-C-C-OH, waarbij R=alanine substructuur hecht aan de bèta-koolstof) kwam overeen met glutaminezuur, een gecodeerd aminozuur. Naast deze chemische formules werden varianten gemaakt met tweewaardige zwavel die de plaats innam van een koolstofatoom en twee waterstofatomen. Om prestatieredenen gebruiken verschillende van deze formules een driewaardig fosforatoom (bijvoorbeeld een "pseudoatom") als vervanging voor de bèta-koolstof van een alanine-substructuur. Tabel 1 bevat de bibliotheken die in dit voorbeeld zijn gegenereerd, de formules die zijn gebruikt om ze te genereren en het aantal verbindingen dat erin is opgenomen. Bibliotheeknamen zijn gebaseerd op de gecodeerde aminozuren waaruit ze zijn afgeleid: ofwel met behulp van de 3-letterige afkorting (Gly = glycine, Pro = proline) of eenletterige afkorting (VAIL = Valine, Alanine, Isoleucine, Leucine; DEST = Asparaginezuur, Glutaminezuur, Serine, Threonine). Het achtervoegsel "_S" geeft aan dat een zwavel werd vervangen door een koolstof in de formule van de oorspronkelijke bibliotheek (bijvoorbeeld VAIL_S is gebouwd met dezelfde wazige formule als VAIL, maar met een tweewaardige zwavel die een van de koolstofatomen vervangt).

Na het genereren van structuren met MAYGEN werden de resulterende bibliotheken gefilterd op verbindingen die ten minste één substructuur in de badlist bevatten. Na deze filtering werden alle fosforatomen vervangen door een alanine-substructuur. Vervolgens werden "afgetopte" versies van alle structuren gemaakt, waarbij een acetylgroep werd toegevoegd aan de N-terminus en een N-methylamidegroep werd toegevoegd aan de C-terminus. Dit werd gedaan om het effect op de hydrofobiciteit van de vrije amine- en carbonzuurgroepen in de alfa-aminozuurruggegraat te verwijderen. PaDEL-Descriptor werd gebruikt om XLogP te berekenen voor alle afgedekte structuren en berekende van der Waals volume (VABC) voor alle niet-afgedekte structuren.

Figuur 2 toont de chemische ruimte van de gefilterde bibliotheken, zoals gedefinieerd door VABC- en XLogP-descriptoren. Hier neemt het bereik van mogelijke logP-waarden toe met het moleculaire volume, zelfs binnen bibliotheken die expliciet hydrofiele sidechains missen (bijv. VAIL, Pro). Gecodeerde aminozuren met koolwaterstof sidechains waren meer hydrofoob dan de meeste andere aminozuren met een vergelijkbaar volume uit hun respectieve bibliotheek. Dit lijkt ook het geval te zijn voor Met en Cys in vergelijking met andere leden van de VAIL_S bibliotheek met vergelijkbare volumes. Gecodeerde aminozuren met hydroxyl zijketens (Ser en Thr) behoorden tot de kleinste leden van de DEST-bibliotheek, met Asp slechts iets groter dan Thr.

Figuur 3 en figuur 4 tonen de effecten op volume en logP wanneer een tweewaardige zwavel een koolstof in een alfa-aminozuur zijketen vervangt. Zwavelsubstitutie leidde tot een lichte toename van het moleculair volume in alle bibliotheken (figuur 3). Het effect van zwavelsubstitutie op logP is niet zo homogeen als voor volume (figuur 4). De gemiddelde logP van de VAIL_S bibliotheek is iets lager dan die van de VAIL-bibliotheek, maar dit effect wordt niet gezien in een van de andere bibliotheekparen (DEST en DEST_S, Pro en Pro_S).

Figuur 5 kwantificeert de effecten op structuurgeneratie van een pseudoatom die invalt voor een gemeenschappelijke substructuur; hier verving een driewaardige P een alaninegroep tijdens het genereren van de structuur. Het gebruik van een pseudoatom bij het genereren van structuren verminderde het aantal structuren gegenereerd door ~ 3 ordes van grootte (figuur 5A) en de totale tijd die nodig was om die structuren te genereren met 1-2 ordes van grootte (figuur 5B).

Figuur 2: Chemische ruimte van alle gefilterde aminozuurbibliotheken. Zwarte markers vertegenwoordigen aminozuren uit bibliotheken zonder zwavel; gele markers vertegenwoordigen aminozuren uit met zwavel verrijkte bibliotheken. Cirkels: VAIL en VAIL_S; pleinen: DEST en DEST_S; driehoeken: Pro en Pro_S; sterren: gecodeerde aminozuren. Merk op dat de twee zwavelhoudende gecodeerde aminozuren (Met en Cys) niet als "vroege" aminozuren worden beschouwd, maar aanwezig zijn in de VAIL_S bibliotheek. Afkortingen: XLogP = verdelingscoëfficiënt; VAIL = valine, alanine, isoleucine, leucine; DEST = asparaginezuur, glutaminezuur, serine, threonine; X_S = Tweewaardige zwavel vervangt een van de koolstofatomen in bibliotheek X. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 3: Gemiddelde van der Waals-volumes (in Å³) van bibliotheken met en zonder zwavel. Zwarte balken vertegenwoordigen de gemiddelde volumes van bibliotheken zonder zwavel (VAIL, DEST, Pro), terwijl gele balken gemiddelde volumes van de door zwavel vervangende versies van die bibliotheken vertegenwoordigen (VAIL_S, DEST_S, Pro_S). Foutbalken geven de standaarddeviatie weer. Afkortingen: VAIL = valine, alanine, isoleucine, leucine; DEST = asparaginezuur, glutaminezuur, serine, threonine; X_S = Tweewaardige zwavel vervangt een van de koolstofatomen in bibliotheek X. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 4: Gemiddelde XLogP-waarden van bibliotheken met en zonder zwavel. Zwarte balken vertegenwoordigen bibliotheken zonder zwavel (VAIL, DEST, Pro), terwijl gele balken zwavelvervangende versies van die bibliotheken vertegenwoordigen (VAIL_S, DEST_S, Pro_S). Foutbalken geven de standaarddeviatie weer. Afkortingen: XLogP = verdelingscoëfficiënt; VAIL = valine, alanine, isoleucine, leucine; DEST = asparaginezuur, glutaminezuur, serine, threonine; X_S = Tweewaardige zwavel vervangt een van de koolstofatomen in bibliotheek X. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 5: Effecten van een driewaardige pseudoatom op maygen-structuurgeneratie. Alle tests werden uitgevoerd op een pc met een Intel i7-7700HQ-processor op 2,8 GHz, 16 GB RAM, geen opslagstructuren in een bestand en de -m-optie om multithreading te gebruiken. Bij proeven met een pseudoatom werden de fuzzy formules gebruikt zoals beschreven in tabel 1. Voor tests zonder pseudoatom waren de gebruikte fuzzy formules dezelfde als beschreven in tabel 1 met de volgende veranderingen: P werd vervangen door N; het aantal koolstofcellen werd verhoogd met 3; het aantal waterstof werd met 7 verhoogd; het zuurstofgehalte werd met 2 verhoogd. Zwarte balken tonen bibliotheken die zijn gegenereerd met een pseudoatom; grijze balken tonen bibliotheken die zijn gegenereerd zonder een pseudoatom. (A) Aantal structuren gegenereerd met behulp van de fuzzy formules die worden gebruikt om de VAIL- en DEST-bibliotheken te bouwen met en zonder een driewaardige fosfor die een alanine-substructuur vervangt. (B) Tijd (in ms) die nodig is om de VAIL- en DEST-bibliotheken te bouwen met en zonder een driewaardige fosfor die een alanine-substructuur vervangt. Afkortingen: VAIL = valine, alanine, isoleucine, leucine; DEST = asparaginezuur, glutaminezuur, serine, threonine. Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullend bestand 1: Substructuur screening notebook. Klik hier om dit bestand te downloaden.

Aanvullend bestand 2: Voorbeeld badlist. Klik hier om dit bestand te downloaden.

Aanvullend bestand 3: Voorbeeld goodlist. Klik hier om dit bestand te downloaden.

Aanvullend bestand 4: Pseudoatom vervangende notebook. Klik hier om dit bestand te downloaden.

Aanvullend bestand 5: Aminozuur capping notebook. Klik hier om dit bestand te downloaden.

Discussion

Een kenmerk van de "vroege" aminozuren is een gebrek aan zwavel. De eerder genoemde meta-analyses beschouwen de zwavelhoudende gecodeerde aminozuren (Cys en Met) over het algemeen als relatief late toevoegingen aan de genetische code, conclusies ondersteund door het ontbreken van zwavelhoudende aminozuren in meteorieten en vonkbuisexperimenten. Organozwavelverbindingen worden echter gemakkelijk gedetecteerd in kometen en meteorieten²², en heranalyse van vonkbuisexperimenten met behulp van H₂S-gas vond aminozuren en andere organische verbindingen die zwavel^{bevatten 16}. Bij het overwegen van een alternatief aminozuuralfabet, is een verrijkt met zwavel het verkennen waard.

In het bovenstaande protocol worden structuurgeneratie en substructuurfiltering beschouwd als kritieke stappen; afhankelijk van de samenstelling van de voltooide structuurbibliotheek, hoeft een onderzoeker mogelijk alleen die twee stappen uit te voeren. Instructies en software voor aanvullende acties (pseudoatom vervanging en toevoeging van substructuren (in dit geval aminozuur capping)) zijn opgenomen voor meer relevante descriptorberekening (capping zorgt ervoor dat XLogP-berekeningen worden beïnvloed door de sidechain en niet door de backbone-amine- of carboxylgroepen) en snellere structuurgeneratie via het gebruik van een pseudoatom, die hieronder in meer detail wordt besproken. Bovendien wordt hier descriptorberekening uitgevoerd als een eenvoudige manier om de diversiteit van de gegenereerde structuren te visualiseren en de effecten van zwavelverrijking in de voltooide bibliotheken te vergelijken.

Terwijl PaDEL-Descriptor duizenden moleculaire eigenschappen kan berekenen, werden moleculair volume (zoals berekend van der Waals volume) en verdelingscoëfficiënt (als XLogP) hier om twee verschillende redenen gebruikt. Ten eerste meten deze twee descriptoren moleculaire eigenschappen (respectievelijk grootte en hydrofobiciteit) die bekend zijn bij de meeste chemici en biologen. Ten tweede, in het geval van aminozuren, zijn deze twee eigenschappen significant. Decennialang was bekend dat aminozuurgrootte en hydrofobiciteit de thermodynamica van eiwitvouwing beïnvloeden²³. Deze twee eigenschappen helpen bij het verklaren van aminozuursubstitutiefrequenties die een integraal onderdeel zijn geweest van het begrijpen van eiwitevolutie²⁴.

Het bovenstaande voorbeeld laat zien dat in de twee bestudeerde descriptoren (moleculair volume en hydrofobiciteit) het vervangen van een tweewaardige zwavel door een koolstof en twee waterstofatomen geen significante veranderingen oplevert. De lichte, niet-significante toename van het gemiddelde moleculaire volume van zwavelsubstitutie (figuur 3) kan worden toegeschreven aan de grotere covalente straal van zwavel (~ 103 pm) in vergelijking met sp³ (~ 75 pm) of sp² (~ 73 pm) koolstof²⁵. Evenzo heeft zwavelsubstitutie een minimaal effect op de gemiddelde XLogP (figuur 4). Het grootste effect was tussen de VAIL- en VAIL_S bibliotheken, waarschijnlijk als gevolg van een combinatie van de VAIL-bibliotheek die vooral hydrofoob is (de sidechains zijn alleen koolwaterstoffen) en sulfhydrylgroepen die veel zuurder zijn dan de methylgroepen die ze zouden vervangen. Het minimale effect van zwavelsubstitutie is duidelijk in figuur 2, waar bibliotheken met zwavelsubstitutie dezelfde chemische ruimte innemen als analoge bibliotheken zonder zwavelsubstitutie.

De afname van het aantal structuren (figuur 5A) en de tijd die nodig is om die structuren te genereren (figuur 5B) bij het gebruik van een pseudoatom is niet verrassend. Het gebruik van een pseudoatom vermindert het aantal zware atomen dat in een chemische grafiek moet worden opgenomen, waardoor het aantal grafiekknooppunten wordt verminderd en exponentiële afnames in de generatietijd en het aantal structuren worden gegenereerd. Hier komt de keuze voor driewaardig fosfor als pseudoatom voort uit de basisbiochemie (afwezige posttranslationele toevoeging van fosfaatgroepen, geen genetisch gecodeerde aminozuren bevatten fosfor) en de valentie van het atoom dat het zou vervangen (een driewaardig fosfor kan gemakkelijk worden vervangen door een tetravalente koolstof die afzonderlijk is gebonden aan een ander atoom of een groep atomen). Hoewel de verstrekte code voor pseudoatomsubstitutie specifiek is voor het vervangen van een driewaardig fosfor door een alaninesubstructuur, kunnen gebruikers de code aanpassen om te werken met verschillende pseudoatomen of vervangende substructuren, mogelijk met behulp van meerdere pseudoatomen tijdens de eerste structuurgeneratie, gevolgd door het vervangen van elke pseudoatom door een grotere moleculaire substructuur.

Methoden voor het genereren van structuren die vergelijkbaar zijn met die van MAYGEN (en andere methoden zoals neurale netwerken) worden al gebruikt bij het ontdekken van geneesmiddelen om samengestelde bibliotheken te genereren voor in silico-screening ; een recente review⁴ bespreekt deze methoden in meer detail. Aangezien deze methoden voornamelijk bedoeld zijn voor het creëren van medicijnachtige moleculen, zijn er enkele beperkingen op hun vermogen om moleculen te genereren, zoals het gebruik van biologische of farmaceutische eigenschappen om de gecreëerde structuren te beperken (inverse QSPR / QSAR) of het creëren van structuren uit een vooraf ingesteld aantal substructuurbouwstenen. Omdat astrobiologie meer gericht is op de veelheid aan organische verbindingen die zich abiotisch kunnen vormen en minder op eindproducten of hun eigenschappen, is de uitputtende structuurgeneratie van MAYGEN ideaal voor het maken van structuurbibliotheken om astrobiologische vragen aan te pakken. De hier beschreven benadering van substructuurfiltering (uitgevoerd na het genereren van structuren via een extern programma) verschilt van het concurrerende programma MOLGEN doordat molgen's substructuurfiltering plaatsvindt tijdens het genereren van structuren. Omdat MAYGEN open-source is, is het niet alleen toegankelijker dan MOLGEN vanwege de licentiekosten van MOLGEN, maar individuen kunnen ook nieuwe functies implementeren, zoals substructuurfiltering tijdens het genereren van structuren.

Zoals geschreven, is het hier beschreven protocol gericht op het genereren en beheren van bibliotheken van relatief kleine alfa-aminozuren. Om verschillende bibliotheken te genereren, kunnen gebruikers verschillende molecuulformules aan MAYGEN geven, de substructuurfiltering wijzigen door de maximaal toegestane ringgrootte en bindingsvalentie te wijzigen, of de goodlist- en badlist-bestanden bewerken om substructuurpatronen toe te voegen of te verwijderen. Protocolwijzigingen waarbij de manier waarop atomen en substructuren worden toegevoegd of vervangen (pseudoatom-substitutie en moleculaire capping) worden gewijzigd, zijn haalbaar, maar vereisen meer aandacht voor valentiebeperkingen om RDKit-fouten over onjuiste valenties in gewijzigde structuren te voorkomen.

Het hierboven beschreven protocol is ontworpen voor kleine alfa-aminozuren. Het algemene formaat (uitgebreide structuurgeneratie met behulp van pseudoatomen, gevolgd door substructuurfiltering en moleculaire modificaties) is echter zeer flexibel voor verbindingen die verder gaan dan kleine aminozuren. Zelfs in de astrobiologie werd een vergelijkbare recente procedure met MOLGEN gebruikt om constitutionele isomeren van nucleïnezuren te onderzoeken²⁶. Naast de hierboven beschreven tools, kan MAYGEN worden gecombineerd met andere open-source cheminformatics-tools om het maken en analyseren van nieuwe chemische structuren betaalbaar en toegankelijk te maken voor een breed scala aan onderzoeksgebieden.

Disclosures

De auteurs hebben geen belangenconflicten te onthullen.

Acknowledgments

MAY erkent financiering door de Carl-Zeiss-Foundation. Alle cijfers zijn gegenereerd met behulp van Microsoft Excel.

Materials

Name	Company	Catalog Number	Comments
conda v. 4.10.3			https://www.anaconda.com/products/individual
Java 17			https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8			https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21			http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11			included in Anaconda environment
RDKit v. 2020.09.1.0			https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

DOWNLOAD MATERIALS LIST

References

Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
Buchanan, B. G., Feigenbaum, E. A. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. Webber, B. L., Nilsson, N. J. , Morgan Kaufmann. 313-322 (1981).
Gugisch, R., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. Basak, S. C., Restrepo, G., Villaveces, J. L. , Bentham Science Publishers. 113-138 (2015).
Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
Sims, C. C. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. Leech, J. , Pergamon. 169-183 (1970).
Mat, W. -K., Xue, H., Wong, J. T. -F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
Bada, J. L. New insights into prebiotic chemistry from Stanley Miller's spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
RDKit: Open-source cheminformatics. , Available from: http://www.rdkit.org (2021).
Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
SMARTS - A language for describing molecular patterns. Daylight Chemical Information Systems, Inc. , Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019).
Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Chemistry

Curatie van computationele chemische bibliotheken gedemonstreerd met alfa-aminozuren

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.