Biology

Inherent Dynamics Visualizer, een interactieve toepassing voor het evalueren en visualiseren van outputs van een gene regulatory network inference pipeline

Published: December 7, 2021 doi: 10.3791/63084

Robert C. Moseley¹, Sophia Campione¹, Bree Cummins², Francis Motta³, Steven B. Haase¹

¹Department of Biology, Duke University, ²Department of Mathematical Sciences, Montana State University, ³Department of Mathematical Sciences, Florida Atlantic University

Summary

De Inherent Dynamics Visualizer is een interactief visualisatiepakket dat verbinding maakt met een genregulerende netwerkinferentietool voor verbeterde, gestroomlijnde generatie van functionele netwerkmodellen. De visualizer kan worden gebruikt om beter geïnformeerde beslissingen te nemen voor het parametriseren van de inferentietool, waardoor het vertrouwen in de resulterende modellen toeneemt.

Abstract

Het ontwikkelen van genregulerende netwerkmodellen is een grote uitdaging in de systeembiologie. Er zijn verschillende computationele tools en pijplijnen ontwikkeld om deze uitdaging aan te gaan, waaronder de nieuw ontwikkelde Inherent Dynamics Pipeline. De Inherent Dynamics Pipeline bestaat uit verschillende eerder gepubliceerde tools die synergetisch werken en op een lineaire manier met elkaar verbonden zijn, waarbij de output van één tool vervolgens wordt gebruikt als input voor het volgende gereedschap. Zoals met de meeste computationele technieken, vereist elke stap van de Inherent Dynamics Pipeline dat de gebruiker keuzes maakt over parameters die geen precieze biologische definitie hebben. Deze keuzes kunnen een aanzienlijke invloed hebben op genregulerende netwerkmodellen die door de analyse worden geproduceerd. Om deze reden kan het vermogen om de gevolgen van verschillende parameterkeuzes bij elke stap te visualiseren en te verkennen, helpen het vertrouwen in de keuzes en de resultaten te vergroten. De Inherent Dynamics Visualizer is een uitgebreid visualisatiepakket dat het proces van het evalueren van parameterkeuzes stroomlijnt via een interactieve interface in een webbrowser. De gebruiker kan de uitvoer van elke stap van de pijplijn afzonderlijk onderzoeken, intuïtieve wijzigingen aanbrengen op basis van visuele informatie en profiteren van de automatische productie van benodigde invoerbestanden voor de Inherent Dynamics Pipeline. De Inherent Dynamics Visualizer biedt een ongeëvenaard niveau van toegang tot een zeer ingewikkelde tool voor de ontdekking van genregulerende netwerken uit tijdreekstranscriptomische gegevens.

Introduction

Veel belangrijke biologische processen, zoals celdifferentiatie en omgevingsrespons, worden beheerst door sets genen die met elkaar interageren in een genregulerend netwerk (GRN). Deze GRN's produceren de transcriptionele dynamiek die nodig is voor het activeren en onderhouden van het fenotype dat ze beheersen, dus het identificeren van de componenten en de topologische structuur van de GRN is de sleutel tot het begrijpen van vele biologische processen en functies. Een GRN kan worden gemodelleerd als een set van interagerende genen en/of genproducten beschreven door een netwerk waarvan de knooppunten de genen zijn en waarvan de randen de richting en vorm van interactie beschrijven (bijv. Activering/onderdrukking van transcriptie, posttranslationele modificatie, enz.) ¹. Interacties kunnen dan worden uitgedrukt als geparametriseerde wiskundige modellen die de impact beschrijven die een regulerend gen heeft op de productie van zijn doel(^en)^2,3,4. Inferentie van een GRN-model vereist zowel een gevolgtrekking van de structuur van het interactienetwerk als een schatting van de onderliggende interactieparameters. Er zijn verschillende computationele inferentiemethoden ontwikkeld die tijdreeksgenexpressiegegevens opnemen en GRN-modellen ^uitvoeren5. Onlangs werd een nieuwe GRN-inferentiemethode ontwikkeld, de Inherent Dynamics Pipeline (IDP), die tijdreeksgenexpressiegegevens gebruikt om GRN-modellen te produceren met gelabelde regulator-doelinteracties die in staat zijn om dynamieken te produceren die overeenkomen met de waargenomen dynamiek in de genexpressiegegevens6. De IDP is een reeks tools die lineair in een pijplijn zijn verbonden en kunnen worden onderverdeeld in drie stappen: een Node Finding-stap die genen rangschikt op basis van genexpressiekenmerken waarvan bekend is of vermoed wordt dat ze verband houden met de functie van de ^GRN7,8, een Edge Finding-stap die paarsgewijze regulerende relaties rangschikt8^,⁹, en een netwerkzoekstap die GRN-modellen produceert die in staat zijn om de waargenomen dynamiek10,11,12,13,14,15 ^te produceren.

Zoals de meeste computationele methoden vereist de IDP een reeks door de gebruiker opgegeven argumenten die bepalen hoe de invoergegevens worden geanalyseerd, en verschillende sets argumenten kunnen verschillende resultaten opleveren voor dezelfde gegevens. Verschillende methoden, waaronder de IDP, bevatten bijvoorbeeld argumenten die een bepaalde drempel op de gegevens toepassen, en het verhogen/verlagen van deze drempel tussen opeenvolgende uitvoeringen van de specifieke methode kan leiden tot ongelijke resultaten tussen uitvoeringen (zie Supplement Note 10: Netwerkinferentiemethoden van ⁵). Begrijpen hoe elk argument de analyse en de daaropvolgende resultaten kan beïnvloeden, is belangrijk voor het bereiken van een hoog vertrouwen in de resultaten. In tegenstelling tot de meeste GRN-inferentiemethoden bestaat de IDP uit meerdere rekenhulpmiddelen, elk met een eigen set argumenten die een gebruiker moet opgeven en elk met zijn eigen resultaten. Hoewel de IDP uitgebreide documentatie biedt over het parametriseren van elke tool, maakt de onderlinge afhankelijkheid van elke tool op de uitvoer van de vorige stap het parametriseren van de hele pijplijn zonder tussentijdse analyses een uitdaging. Argumenten in de edge- en netwerkzoekstappen zijn bijvoorbeeld waarschijnlijk gebaseerd op biologische voorkennis en zijn dus afhankelijk van de dataset en / of het organisme. Om tussentijdse resultaten te ondervragen, zou een basiskennis van programmeren nodig zijn, evenals een diep begrip van alle resultaatbestanden en hun inhoud van de IDP.

De Inherent Dynamics Visualizer (IDV) is een interactief visualisatiepakket dat wordt uitgevoerd in het browservenster van een gebruiker en een manier biedt voor gebruikers van de IDP om de impact van hun argumentkeuzes op resultaten van elke stap in de IDP te beoordelen. De IDV navigeert door een gecompliceerde directorystructuur geproduceerd door de IDP en verzamelt de nodige gegevens voor elke stap en presenteert de gegevens in intuïtieve en interactieve figuren en tabellen die de gebruiker kan verkennen. Na het verkennen van deze interactieve displays kan de gebruiker nieuwe gegevens produceren uit een IDP-stap die kan worden gebaseerd op beter geïnformeerde beslissingen. Deze nieuwe gegevens kunnen vervolgens onmiddellijk worden gebruikt in de volgende stap van het IDP. Bovendien kan verkenning van de gegevens helpen bepalen of een IDP-stap opnieuw moet worden uitgevoerd met aangepaste parameters. De IDV kan het gebruik van de IDP verbeteren en het gebruik van de IDP intuïtiever en toegankelijker maken, zoals aangetoond door de kernoscillator GRN van de gistcelcyclus te onderzoeken. Het volgende protocol bevat IDP-resultaten van een volledig geparametriseerde IDP-run versus een aanpak die de IDV na uitvoeringen van elke IDP-stap bevat, d.w.z. Node, Edge en Network Finding.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Installeer de IDP en IDV

OPMERKING: In deze sectie wordt ervan uitgegaan dat docker, conda, pip en git al zijn geïnstalleerd (Tabel met materialen).

Voer in een terminal het commando in: git clone https://gitlab.com/biochron/inherent_dynamics_pipeline.git.
Volg de installatie-instructies in het README-bestand van de IDP.
Voer in een terminal het commando in: git clone https://gitlab.com/bertfordley/inherent_dynamics_visualizer.git.
OPMERKING: Het klonen van de IDV moet buiten de directory op het hoogste niveau van de IDP plaatsvinden.
Volg de installatie-instructies in het README-bestand van de IDV.

2. Knooppunten vinden

Maak een nieuw IDP-configuratiebestand dat de stap Knooppunt zoeken parametriseert.
OPMERKING: Alle aanhalingstekens in de volgende stappen mogen niet worden getypt. De aanhalingstekens worden hier alleen gebruikt als scheidingsteken tussen de protocoltekst en wat er moet worden uitgetypt.
1. Voeg de belangrijkste IDP-argumenten toe aan het configuratiebestand.
2. Open een nieuw tekstbestand in een teksteditor en typ "data_file =", "annotation_file =", "output_dir =", "num_proc =" en "IDVconnection = True" op afzonderlijke regels.
3. Voor "data_file" typt u na het gelijk aan teken het pad naar en de naam van het respectieve tijdreeksbestand en typt u een komma achter de naam. Scheid elke gegevens door een komma als er meer dan één tijdreeksgegevensset wordt gebruikt. Zie Aanvullend bestand 1 en aanvullend bestand 2 voor een voorbeeld van tijdreeksgenexpressiebestanden.
4. Typ het pad naar en de naam van het annotatiebestand voor "annotation_file", na het gelijk aan teken. Zie Aanvullend bestand 3 voor een voorbeeld van een annotatiebestand.
5. Voor "output_file" typt u na het gelijk aan teken het pad naar en de naam van de map waar de resultaten worden opgeslagen.
6. Typ na het gelijk aan teken bij "num_proc" het aantal processen dat de IDP moet gebruiken.
7. Voeg argumenten voor het zoeken naar knooppunten toe aan het configuratiebestand.
8. Typ in hetzelfde tekstbestand als in stap 2.1.1 de volgorde "[dlxjtk_arguments]", "punten =" en "dlxjtk_cutoff =" op afzonderlijke regels. Plaats deze achter de hoofdargumenten.
9. Voor "punten", typt u na het gelijk aan teken, als een eenmalige reeksgegevensset wordt gebruikt, elke periodelengte gescheiden door komma's. Typ voor meer dan één tijdreeksgegevensset elke set periodelengtes zoals voorheen, maar plaats vierkante haakjes rond elke verzameling en plaats een komma tussen de verzamelingen.
10. Typ na het gelijk aan teken voor "dlxjtk_cutoff" een geheel getal dat het maximale aantal genen specificeert dat in de gene_list_file output van de Lichtenberg door JTK_CYCLE (DLxJTK) moet worden behouden (tabel 1).
  OPMERKING: Het wordt ten zeerste aanbevolen om de secties dlxjtk_arguments in de IDP README te bekijken om een beter begrip van elk argument te krijgen. Zie Aanvullend bestand 4 voor een voorbeeld van een configuratiebestand waarin de argumenten voor het zoeken naar knooppunten zijn opgegeven.
Ga in de terminal naar de IDP-map met de naam inherent_dynamics_pipeline.
Voer in de terminal het commando in: conda activate dat2net
Voer de IDP uit met behulp van het configuratiebestand dat in stap 2.1 is gemaakt door deze opdracht uit te voeren in de terminal, waarbij de naam van het bestand is: python src/dat2net.py
Ga in de terminal naar de map met de naam inherent_dynamics_visualizer en voer de opdracht in: . /viz_results.sh
OPMERKING: verwijst naar de map die wordt gebruikt als uitvoermap voor de IDP.
Voer in een webbrowser http://localhost:8050/ in als de URL.
Terwijl de IDV nu in de browser is geopend, klikt u op het tabblad Knooppunt zoeken en selecteert u de gewenste map voor het vinden van knooppunten in het vervolgkeuzemenu.
Stel handmatig een nieuwe genenlijst samen uit de genenlijsttabel in de IDV om te worden gebruikt voor volgende IDP-stappen.
1. Om de genenlijsttabel uit te breiden of in te korten, klikt u op de pijl-omhoog of pijl-omlaag of voert u handmatig een geheel getal tussen 1 en 50 in het vak naast Genexpressie van DLxJTK-gerangschikte genen in. Boven:.
2. Klik in de genenlijsttabel op het vakje naast een gen om het genexpressieprofiel in een lijngrafiek te bekijken. Er kunnen meerdere genen worden toegevoegd.
3. Geef optioneel het aantal bakken van gelijke grootte op om genen te berekenen en te ordenen op basis van het tijdsinterval dat hun piekexpressie bevat, door een geheel getal in te voeren in het invoervak boven de genenlijsttabel met het label Input integer om de eerste cyclus in bins te verdelen:.
  OPMERKING: Deze optie is specifiek voor oscillerende dynamica en is mogelijk niet van toepassing op andere typen dynamica.
4. Selecteer een heatmap-weergavevoorkeur door te klikken op een optie onder Genen ordenen op: Eerste cyclus Max Expression (tabel 1) die genen ordent op basis van het tijdstip van de genexpressiepiek in de eerste cyclus.
  OPMERKING: DLxJTK Rank rangschikt genen op basis van de periodiciteitsrangschikking van het DLxJTK-algoritme van de IDP.
5. Klik op de knop Genenlijst downloaden om de genenlijst te downloaden naar het bestandsformaat dat nodig is voor de stap Edge Finding. Zie Aanvullend bestand 5 voor een voorbeeld van een genenlijstbestand.
Label in de bewerkbare genannotatietabel een gen als een doel, een regulator of beide in het annotatiebestand voor de stap Edge-zoeken in een nieuwe Edge Finding-run. Als een gen een regulator is, label het gen dan als een activator, repressor of beide.
1. Om een gen als activator te bestempelen, klikt u op de cel in de kolom tf_act en wijzigt u de waarde in 1. Als u een gen als een repressor wilt bestempelen, wijzigt u de waarde in de kolom tf_rep in 1. Een gen mag fungeren als zowel een activator als een repressor in de Edge Finding-stap door de waarden in zowel de tf_act- als tf_rep kolommen op 1 in te stellen.
2. Om een gen als doel te labelen, klikt u op de cel in de doelkolom en wijzigt u de waarde in 1.
Klik op de knop Annot. Bestand downloaden om het annotatiebestand te downloaden naar het bestandsformaat dat nodig is voor de stap Edge Finding.

3. Randbepaling

Maak een nieuw IDP-configuratiebestand dat de stap Edge-zoeken parametriseert.
1. Voeg de belangrijkste IDP-argumenten toe aan het configuratiebestand. Open een nieuw tekstbestand in een teksteditor en herhaal stap 2.1.1.
2. Voeg argumenten voor Edge-zoeken toe aan het configuratiebestand.
3. Typ in hetzelfde tekstbestand als in stap 3.1.1 op afzonderlijke regels de volgorde "[lempy_arguments]", "gene_list_file =", "[netgen_arguments]", "edge_score_column =", "edge_score_thresho =", "num_edges_for_list =", "seed_threshold =" en "num_edges_for_seed =". Deze moeten onder de belangrijkste argumenten gaan.
4. Voer voor "gene_list_file" na het gelijkteken het pad naar en de naam in van het genenlijstbestand dat in stap 2.8.5 is gegenereerd.
5. Voer voor "edge_score_column" na het gelijkteken "pld" of "norm_loss" in om op te geven welke gegevensframekolom uit de lempy-uitvoer wordt gebruikt om de randen te filteren.
6. Selecteer "edge_score_threshold" of "num_edges_for_list" en verwijder de andere. Als 'edge_score_threshold' is geselecteerd, voert u een getal in tussen 0 en 1. Dit nummer wordt gebruikt om randen te filteren op basis van de kolom die is opgegeven in stap 3.1.5.
  1. Als 'num_edges_for_list' is geselecteerd, voert u een waarde in die gelijk is aan of kleiner is dan het aantal mogelijke randen. Dit nummer wordt gebruikt om de randen te filteren op basis van hoe ze zijn gerangschikt in de kolom die is opgegeven in stap 3.1.5. De randen die overblijven, worden gebruikt om netwerken te bouwen in Network Finding.
7. Selecteer "seed_threshold" of "num_edges_for_seed" en verwijder de andere. Als 'seed_threshold' is geselecteerd, voert u een getal in tussen 0 en 1. Dit nummer wordt gebruikt om randen te filteren op basis van de kolom die is opgegeven in stap 3.1.5.
  1. Als 'num_edges_for_seed' is geselecteerd, voert u een waarde in die gelijk is aan of kleiner is dan het aantal mogelijke randen. Dit nummer wordt gebruikt om de randen te filteren op basis van hoe ze zijn gerangschikt in de kolom die is opgegeven in stap 3.1.5. De randen die overblijven, worden gebruikt om het seed-netwerk (tabel 1) te bouwen dat wordt gebruikt bij Network Finding.
    OPMERKING: Het wordt ten zeerste aanbevolen om de secties lempy_arguments en netgen_arguments in de IDP README te bekijken om een beter begrip van elk argument te krijgen. Zie Aanvullend bestand 7 voor een voorbeeld van een configuratiebestand waarin de argumenten voor edge-vondst zijn opgegeven.
Herhaal stap 2.2 en 2.3.
Voer de IDP uit met behulp van het configuratiebestand dat in stap 3.1 is gemaakt door deze opdracht uit te voeren in de terminal, waarbij de naam van het bestand is: python src/dat2net.py
Als de IDV nog steeds actief is, stopt u deze door op Control C in het terminalvenster te drukken om het programma te stoppen. Herhaal stap 2.5 en 2.6.
Terwijl de IDV in de browser is geopend, klikt u op het tabblad Edge Finding en selecteert u de gewenste map voor het vinden van randen in het vervolgkeuzemenu.
OPMERKING: Als er meerdere gegevenssets worden gebruikt in Edge-detectie, moet u de laatste gegevensset selecteren die is gebruikt in de LEM-analyse (Local Edge Machine) (Tabel 1). Het is belangrijk om bij het selecteren van randen voor het seed-netwerk of de randlijst op basis van LEM-resultaten te kijken naar de laatste tijdreeksgegevens die in het configuratiebestand worden vermeld, aangezien deze uitvoer alle voorgaande gegevensbestanden bevat in de gevolgtrekking van regelgevende relaties tussen knooppunten.
Als u de randtabel wilt uitbreiden of inkorten, voert u handmatig een geheel getal in het invoervak onder Aantal randen:.
Filter eventueel randen op de LEM ODE-parameters. Klik en sleep om de linker- of rechterkant van de schuifregelaar van elke parameter te verplaatsen om randen uit de randtabel te verwijderen die parameters hebben die buiten de nieuwe toegestane parametergrenzen vallen.
Maak eventueel een nieuw seed-netwerk als u een ander seed-netwerk wilt dan het door de IDP voorgestelde netwerk. Zie Supplemental File 8 voor een voorbeeld van een seed-netwerkbestand.
1. Selecteer Uit zaad om het seed-netwerk te selecteren of uit selectie in het vervolgkeuzemenu onder Netwerk:.
2. Deselecteer/selecteer randen in de randtabel door op de bijbehorende selectievakjes naast elke rand te klikken om randen uit het seed-netwerk te verwijderen/toevoegen.
Klik op de knop DSGRN NetSpec downloaden om het seed-netwerk te downloaden in de netwerkspecificatie-indeling Dynamic Signatures Generated by Regulatory Networks (DSGRN) (Tabel 1).
Selecteer extra knooppunten en randen die u wilt gebruiken in de stap Netwerk zoeken.
1. Selecteer randen in de randtabel door op de bijbehorende selectievakjes te klikken die u wilt opnemen in het randlijstbestand dat wordt gebruikt in Netwerk zoeken.
2. Klik op Knooppunt- en Edge-lijsten downloaden om de knooppuntenlijst en edge-lijstbestanden te downloaden in het formaat dat vereist is voor hun gebruik in Netwerkzoeken. Zie Supplemental File 9 en Supplemental File 10 voor voorbeelden van respectievelijk edge- en node list-bestanden.
  OPMERKING: De knooppuntenlijst moet alle knooppunten in het randlijstbestand bevatten, zodat de IDV automatisch het knooppuntlijstbestand maakt op basis van de geselecteerde randen. Er zijn twee opties beschikbaar voor het weergeven van de randen in Edge Finding. Met de optie LEM-overzichtstabel worden de randen weergegeven als een gerangschikte lijst met de bovenste 25 randen. Top-Line LEM Table presenteert de randen in een aaneengeschakelde lijst van de top drie gerangschikte randen voor elke mogelijke regelaar. Het aantal weergegeven randen voor elke optie kan door de gebruiker worden aangepast door het nummer in het invoervak Aantal randen te wijzigen.

4. Netwerkbepaling

Maak een nieuw IDP-configuratiebestand dat de stap Netwerk zoeken parametriseert.
1. Voeg de belangrijkste IDP-argumenten toe aan het configuratiebestand. Open een nieuw tekstbestand in een teksteditor en herhaal stap 2.1.1.
2. Voeg argumenten voor netwerk zoeken toe aan het configuratiebestand.
3. Typ in hetzelfde tekstbestand als in stap 4.1.1 in de volgorde "[netper_arguments]", "edge_list_file =", "node_list_file =", "seed_net_file =", "range_operations =", "numneighbors =", "maxparams =", "[[waarschijnlijkheden]]", "addNode =", "addEdge =", "removeNode =", "removeEdge =", en "removeEdge =" op afzonderlijke regels, onder de belangrijkste argumenten.
4. Voer voor "seed_net_file", "edge_list_file" en "node_list_file" na het gelijkteken het pad naar en de naam van het seed-netwerkbestand en de rand- en knooppuntlijstbestanden in die zijn gegenereerd in stap 3.9 en 3.10.2.
5. Typ na het gelijk aan teken voor "range_operations" twee cijfers gescheiden door een komma. Het eerste en tweede getal zijn respectievelijk het minimum en het maximale aantal toevoegingen of verwijderingen van knooppunten of randen per gemaakt netwerk.
6. Voer bij "numneighbors" na het gelijk aan teken een getal in dat aangeeft hoeveel netwerken moeten worden gevonden in Netwerk zoeken.
7. Voer voor "maxparams" na het gelijkteken een getal in dat het maximale aantal DSGRN-parameters vertegenwoordigt om een netwerk mogelijk te maken.
8. Voer waarden in tussen 0 en 1 voor elk van deze argumenten: "addNode", "addEdge", "removeNode" en "removeEdge", na het gelijk aan teken. De getallen moeten optellen tot 1.
  OPMERKING: Het wordt ten zeerste aanbevolen om de secties netper_arguments en netquery_arguments in de IDP README te bekijken om een beter begrip van elk argument te krijgen. Zie Aanvullend bestand 11 en Aanvullend bestand 12 voor voorbeelden van een configuratiebestand waarin de argumenten Netwerk zoeken zijn opgegeven.
Herhaal stap 2.2 en 2.3.
Voer de IDP uit met behulp van het configuratiebestand dat is gemaakt in stap 4.1 door deze opdracht uit te voeren in de terminal, waar de naam van het bestand is: python src/dat2net.py
Als de IDV nog steeds actief is, stopt u deze door op Control C in het terminalvenster te drukken om het programma te stoppen. Herhaal stap 2.5 en 2.6.
Terwijl de IDV in de browser is geopend, klikt u op het tabblad Netwerk zoeken en selecteert u de interessante map voor het vinden van netwerken.
Selecteer een netwerk of set netwerken om een edge-prevalentietabel te genereren (tabel 1) en om de netwerken samen met hun respectieve queryresultaten weer te geven.
1. Er zijn twee opties beschikbaar voor het selecteren van netwerken: Optie 1 - Voer onder- en bovengrenzen in op queryresultaten door minimum- en maximumwaarden in te voeren in de invoervakken die overeenkomen met de x-as en y-as van de plot. Optie 2 - Klik en sleep over de scatterplot om een vak rond de op te nemen netwerken te tekenen. Nadat selectie- of invoergrenzen zijn ingevoerd, drukt u op de knop Edge Prevalence from Selected Networks (Edge Prevalence from Selected Networks ophalen).
  OPMERKING: Als er meer dan één DSGRN-query is opgegeven, gebruikt u de keuzerondjes met het querytype om te schakelen tussen de resultaten van elke query. Hetzelfde geldt als er meer dan één epsilon (geluidsniveau) is opgegeven.
Klik op de pijlen onder de randprevalentietabel om naar de volgende pagina van de tabel te gaan. Druk op Tabel downloaden om de edge-prevalentietabel te downloaden.
Voer een geheel getal in het invoervak Netwerkindex in om één netwerk weer te geven uit de selectie die in stap 4.6 is gemaakt. Klik op Download DSGRN NetSpec om het weergegeven netwerk in de DSGRN-netwerkspecificatie-indeling te downloaden.
Zoek netwerken naar gelijkenis met een bepaald motief of interessant netwerk.
1. Gebruik de selectievakjes die overeenkomen met elke rand om randen te selecteren die moeten worden opgenomen in het netwerk of motief dat wordt gebruikt voor de gelijkenisanalyse. Klik op Verzenden om de gelijkenis scatterplot voor het geselecteerde motief of netwerk te maken.
  OPMERKING: Gebruik de pijlen in de randlijst om alfabetisch te sorteren en de pijlen onder de tabel om naar de volgende pagina van de tabel te gaan.
2. Klik en sleep over de scatterplot om een vak rond de op te nemen netwerken te tekenen om een netwerk of set netwerken te selecteren om een edge-prevalentietabel te genereren en om de netwerken samen met hun respectieve queryresultaten te bekijken.
  OPMERKING: Als er meer dan één DSGRN-query is opgegeven, gebruikt u de keuzerondjes met het querytype om te schakelen tussen de resultaten van elke query. Hetzelfde geldt als er meer dan één epsilon (geluidsniveau) is opgegeven.
3. Herhaal stap 4.7 en 4.8 om respectievelijk de edge-prevalentietabel en het weergegeven netwerk voor de gelijkenisanalyse te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

De hierboven en grafisch beschreven stappen in figuur 1 werden toegepast op de kern oscillerende GRN van de gistcelcyclus om te zien of het mogelijk is om functionele GRN-modellen te ontdekken die in staat zijn om de dynamiek te produceren die is waargenomen in tijdreeksgenexpressiegegevens verzameld in een gistcelcyclusstudie16. Om te illustreren hoe de IDV de IDP-output kan verduidelijken en verbeteren, werden de resultaten, na het uitvoeren van deze analyse op twee manieren, vergeleken: 1) alle stappen van de IDP in één pas uitvoeren zonder de IDV en 2) door de IDP stappen met behulp van de IDV, die de aanpassing van tussentijdse resultaten mogelijk maakt, zowel door voorafgaande biologische kennis op te nemen als door verfijnde keuzes te maken op basis van IDP-outputs. De goed bestudeerde gistcelcyclus GRN die als voorbeeld wordt gebruikt, heeft veel van zijn regulerende relaties experimenteel geverifieerd. Als een ander en/of minder geannoteerd organisme of biologisch proces wordt bestudeerd, kunnen de keuzes over hoe tussenresultaten of parameters worden aangepast, anders zijn. Om een type query te illustreren dat kan worden gebruikt om netwerken te beoordelen, werd de robuustheid van elk netwerk gemeten om stabiele oscillaties te ondersteunen en overeen te komen met de waargenomen transcriptionele dynamiek van hun knooppunten over modelparameters heen.

Genexpressie tijdreeksgegevens van twee replicaatreeksen werden uit Orlando ²⁰⁰⁸¹⁶ gehaald en voorbewerkt om elke genexpressie te verwijderen die verband houdt met de celcyclussynchronisatiemethode die in het oorspronkelijke experiment werd toegepast (Supplemental File 1 en Supplemental File 2). Er werd een annotatiebestand gemaakt met alle genen in de tijdreeksgegevens die worden ondersteund door zowel DNA-binding als expressiebewijs gevonden in ^Yeastract17 en dus zouden kunnen functioneren als een regulator in een GRN. TOS4, PLM2 en NRM1 werden ook opgenomen als regulatoren, hoewel ze niet in Yeastract beide soorten bewijs bleken te hebben, omdat ze worden verondersteld belangrijk te zijn voor de gistkern GRN op basis van bewijs in de ^{literatuur18,19} (Supplemental File 3). Alle toezichthouders werden bestempeld als zowel een activator en onderdrukker als doelwitten.

De IDP werd eerst geparametriseerd om alle stappen van de IDP te doorlopen, dat wil zeggen Node, Edge en Network Finding. Er werd een reeks argumenten geselecteerd die geschikt leken op basis van het huidige begrip van de gistcelcyclus GRN, een kleine set genen die deelnemen aan een sterk verbonden netwerk (Supplemental File 4). Dit inzicht had vooral invloed op de Node- en Edge Finding-keuzes. De waarschijnlijkheidsparameters in Network Finding waren gebaseerd op de veronderstelling dat alleen echte genen en regulerende interacties zouden worden doorgegeven aan Network Finding. Deze volledig geparametriseerde run van de IDP leverde resultaten op voor Node en Edge Finding (Figuur 2B,C), maar in Network Finding werden geen model-toelaatbare netwerken ontdekt (Figuur 2A,D). Modelontvankelijkheid wordt uitgelegd in de codedocumentatie van de python-module dsgrn_net_gen ¹⁴, een afhankelijkheid van de IDP. Kortom, netwerken die zelfrepresserende randen bevatten of te veel in- of uitgangen op één knooppunt hebben, kunnen niet worden opgevraagd door de DSGRN-software (tabel 1). De IDP geeft veel redenen waarom model-toelaatbare netwerken mogelijk niet worden gevonden en beschrijft stappen voor probleemoplossing om de problemen op te lossen. In wezen omvat dit het wijzigen van parameters en / of invoerbestanden en het opnieuw uitvoeren van de respectieve IDP-stap en het onderzoeken van de resultaten. De IDV werd gebruikt om dit proces minder vervelend en tijdrovend te maken.

De Node Finding-resultaten werden in de IDV geladen om de genen te onderzoeken die werden doorgegeven aan de Edge Finding-stap van de IDP. De knooppunten die door IDP worden gegeven, zijn de bovenste N-genen zoals gerangschikt door DLxJTK (tabel 1), N wordt gespecificeerd door de gebruiker, maar deze genenlijst is mogelijk niet geschikt voor het doel van de analyse. Zonder voorafgaande biologische kennis retourneerde automatische selectie van knooppunten met alleen DLxJTK-scores een gen met beperkt bewijs van een rol in de gistcelcyclus (RME1), terwijl enkele bekende transcriptionele regulatoren van de celcyclus niet hoog werden gerangschikt (figuur 2B). Gistract experimenteel bewijs werd gebruikt om uit de hoogst gerangschikte genen van DLxJTK die met celcyclusannotatie te selecteren. Deze genen zijn SWI4, YOX1, YHP1, HCM1, FKH2, NDD1 en SWI5. Hun bekende regulerende relaties zijn te zien in figuur 3. FKH2 komt niet voor in de top tien genen (dlxjtk_cutoff was ingesteld op tien in Supplemental File 4) zoals gerangschikt door DLxJTK, dus de genenlijst werd uitgebreid met behulp van de IDV totdat FKH2 werd gevonden (figuur 4). Verschillende van de extra genen in de uitgebreide genenlijst zijn bekende kerngenen en zouden zijn gemist zonder de resultaten van Node Finding te onderzoeken. Hoewel er meer bekende kerngenen zijn gevonden door de genenlijst uit te breiden naar de DLxJTK-ranglijst, werd de focus gehouden op de genen van belang. Daarom werden enkele hooggeplaatste genen gedeselecteerd, wat resulteerde in een genenlijst (Aanvullend Bestand 5) met zeven genen (figuur 4). Er werd een nieuw annotatiebestand gemaakt (Supplemental File 6) op basis van deze zeven genen, elk gen werd gelabeld als een doelwit en het regulatortype werd gespecificeerd met behulp van Yeastract. De nieuwe genenlijst en het annotatiebestand zijn gedownload voor later gebruik in de volgende IDP-stap, Edge Finding. Zonder de IDV zou de procedure voor het toevoegen en verwijderen van genen uit de genenlijst en het annotatiebestand bescheiden codeervaardigheden vereisen.

Een nieuw IDP-configuratiebestand is geparametriseerd voor alleen de Edge Finding-stap (Supplemental File 7), met de nieuwe genenlijst en het annotatiebestand. Na voltooiing van de IDP met het nieuwe configuratiebestand werden de resultaten in de IDV geladen (figuur 5A). Omdat de stap Netwerkzoeken stochastisch rondzoekt in de netwerkruimte van het zaadnetwerk dat eraan wordt geleverd, kan het bieden van een goed zaadnetwerk belangrijk zijn. Een goed zaadnetwerk kan worden gezien als een netwerk dat echte randen bevat. Met de IDV en met behulp van online databases zoals Yeastract en de Saccharomyces Genome Database (SGD)²⁰ kan het zaadnetwerk worden bekeken en aangepast met behulp van de regulerende relaties uit LEM (tabel 1) die experimenteel bewijs hebben. Als voorbeeld werd de rand YHP1 = tf_act (HCM1) gedeselecteerd omdat er geen gedocumenteerd bewijs is voor deze relatie (figuur 5B) in Yeastract. De rand SWI5 = tf_act(FKH2) werd toegevoegd omdat er gedocumenteerd bewijs is van deze ^relatie21. Zodra het seed-netwerk (tabel 1) bevredigend was, werd het DSGRN-netwerkspecificatiebestand voor het netwerk gedownload (supplementbestand 8).

Zonder de IDV is er een grotere kans op randen waarvoor geen experimenteel bewijs wordt gebruikt om het zaadnetwerk te bouwen. Zoals te zien is in figuur 2C, bevat het zaadnetwerk dat wordt gegenereerd in de Edge Finding-stap door de IDP non-stop door elke stap te laten lopen, een edge, SWI4 = tf_rep (NDD1), die niet wordt ondersteund door experimenteel bewijs in Yeastract, waarschijnlijk omdat NDD1 bekend staat als een transcriptionele ^activator22. Deze informatie was niet gecodeerd in het annotatiebestand in de non-stop run, waardoor alle regulatoren zowel activatoren als onderdrukkers konden zijn.

Met behulp van de IDV werd handmatig een seed-netwerk samengesteld dat een subnetwerk is van Figuur 3, en de resterende vier randen werden geplaatst in de randlijst die werd gebruikt voor het samplen van netwerkruimte (YHP1 = tf_act(SWI4), YOX1 = tf_act(SWI4), SWI4 = tf_rep(YOX1), SWI5 = tf_act(NDD1)). Het selecteren van randen op basis van biologische kennis kan ook worden gebruikt om de randlijst te bouwen; In dit geval zijn echter de bovenste 20 randen van de lem-overzichtstabelweergave geselecteerd (aanvullend bestand 9). Het knooppuntlijstbestand wordt automatisch gemaakt op basis van de geselecteerde randen (aanvullend bestand 10). De ODE-parameters van LEM kunnen ook worden gebruikt om randen te filteren als men van mening is dat de afgeleide parameters in het ODE-model niet biologisch realistisch zijn, maar deze informatie is hier niet gebruikt.

Vervolgens is een nieuw IDP-configuratiebestand geparametriseerd voor de stap Netwerk zoeken met behulp van de drie nieuwe bestanden. Omdat het zaadnetwerk werd gecreëerd met randen die goed werden ondersteund door experimenteel bewijs, was de opname van deze randen in alle netwerken gewenst. De network finding probabilities werden dus ingesteld om de toevoeging toe te staan, maar niet het verwijderen van knooppunten en randen (Aanvullend bestand 11). De parameter Network Finding numneighbors is ingesteld om te zoeken naar 2.000 netwerken. Na het uitvoeren van de IDP werden 37 model-toelaatbare netwerken gevonden in de stap Netwerk zoeken, in tegenstelling tot de non-stop run die nul had. Door de resultaten van network finding in de IDV te laden, had 64% (24) van deze 37 netwerken de capaciteit om stabiel te oscilleren (figuur 6A). Van deze 24 netwerken waren de best presterende twee netwerken die overeenkwamen met de gegevens op 50% van hun stabiel oscillerende modelparameters (figuur 6B).

De Edge Prevalence Table (tabel 1) geeft een tabel weer van het aantal keren dat een edge voorkomt in een geselecteerde verzameling netwerken, wat een indicatie geeft van de prevalentie ervan in goed presterende netwerken. Onderzoek van de Edge Prevalence Table geproduceerd door het selecteren van de vorige twee netwerken in de scatter plot onthult dat alle seed netwerkranden aanwezig zijn in elk van de twee netwerken, zoals verwacht, samen met twee niet-seed netwerkranden (Figuur 6B), SWI4 = tf_act (SWI5) en HCM1 = tf_rep (YHP1). Geen van deze twee randen had bewijs dat hen ondersteunde in Yeastract. Als zodanig werd een kleine hoeveelheid netwerkruimte verkend, dus het is moeilijk om het belang van randen en knooppunten bij het produceren van de waargenomen dynamiek te beoordelen.

Slechts 37 model-toelaatbare netwerken werden gevonden in Network Finding, hoewel de parameter numneighbors was ingesteld op 2.000, wat suggereert dat de netwerkzoekopdracht mogelijk te beperkt was. Zoals beschreven in de documentatie voor de dsgrn_net_gen python-module in de IDP, kan het probleem te maken hebben met het seed-netwerk, de edge-lijst, de knooppuntenlijst, de parameterkeuzes voor het zoeken naar netwerken of een combinatie hiervan. Om dit te onderzoeken, werden hetzelfde seed-netwerk, dezelfde edge-lijst en dezelfde knooppuntlijst als voorheen gebruikt, maar de parameters netwerkzoeking werden gewijzigd door de mogelijkheid toe te voegen om randen te verwijderen tijdens het genereren van het netwerk (aanvullend bestand 12). Het laden van de nieuwe Network Finding-resultaten in de IDV laat zien dat er in deze stap 612 netwerken zijn gevonden, waarbij 67% (411) van deze netwerken de capaciteit hebben om stabiel te oscilleren (figuur 7A). Interessant is dat 13% (82) van de netwerken die in staat waren tot stabiele oscillerende dynamica niet in staat waren om dynamica te produceren die vergelijkbaar was met die in de gegevens (figuur 7B). Van de 411 netwerken vertoonde 30% (124) robuuste overeenkomsten met gegevens (d.w.z. meer dan 50% van hun stabiel oscillerende modelparameters vertoonde een gegevensmatch) (figuur 7C).

De edge-prevalentiecijfers die worden gegenereerd door de tweede ronde van Network Finding zijn nu gebaseerd op een veel grotere selectie van netwerken en kunnen met meer vertrouwen worden gebruikt bij het beoordelen van het belang van een regelgevende relatie in een GRN. HCM1 = tf_rep (YHP1) is bijvoorbeeld nog steeds sterk vertegenwoordigd in netwerken die een robuuste dynamiek produceren, wat suggereert dat deze relatie de moeite waard kan zijn om experimenteel te onderzoeken (figuur 7C). Nader onderzoek van de Edge Prevalence Table (gebaseerd op de 124 hierboven genoemde netwerken) toonde aan dat de randen SWI4 = tf_rep (YOX1) en YOX1 = tf_act (SWI4) niet hoog gerangschikt zijn, maar de randen SWI4 = tf_rep (YHP1) en YHP1 = tf_act (SWI4) zijn hoog gerangschikt (figuur 7C). Negatieve feedback is belangrijk voor het produceren van oscillerende ^dynamica23 en beide sets van regulerende relaties bieden deze functie in de GRN in figuur 3. Het vinden of er een netwerk bestaat dat alle vier deze randen bevat, zou enig inzicht kunnen geven in waarom deze niet vaak samen voorkomen in de verzameling GRN-modellen; het doorklikken van individuele netwerken zou echter vervelend zijn. In plaats daarvan werd het gedeelte Gelijkenisanalyse van de pagina Netwerkzoeking gebruikt om te zoeken naar netwerken die alle vier de randen kunnen bevatten (afbeelding 7D). Onderzoek van de spreidingsgrafiek die aangeeft hoe vergelijkbaar de 612-netwerken zijn met een motief van deze vier randen versus het percentage van de modelparameterruimte dat overeenkomt met de waargenomen dynamiek, onthult dat slechts 0,65% (4) van de 612-netwerken alle vier deze randen bevatten (figuur 7D). Dit suggereert een testbare hypothese dat slechts één van de twee negatieve feedbacklussen nodig is voor een netwerk van deze omvang om de waargenomen dynamiek te produceren. Deze hypothese kan verder computationeel worden onderzocht door reparameterisatie van IDP-stappen en een meer uitputtende zoektocht naar netwerkruimte of experimenteel, zoals gen knock-outs. Alle resultaten van deze analyse zijn te vinden in Supplemental File 13.

Figuur 1: IDP en IDV workflow overzicht. De onderste rij toont de drie belangrijkste stappen van de IDP: Node, Edge en Network Finding. De bovenste rij toont de belangrijkste stappen van de IDV en beschrijft verschillende manieren waarop een gebruiker kan communiceren met de resultaten. De donkergrijze pijlen tussen de twee geven weer hoe de IDV en de IDP synergetisch kunnen werken om gebruikers in staat te stellen weloverwogen beslissingen te nemen voor elke stap van de IDP, met individuele IDP-stappen die resultaten opleveren voor de visualisaties in de IDV, individuele IDV-stappen die de invoer van nieuwe of aangepaste parameters en aangepaste resultaten en invoer voor de volgende IDP-stap mogelijk maken. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 2: Voorbeeld van resultaten van het achtereenvolgens uitvoeren van elke stap van de IDP zonder de IDV tussen de stappen te gebruiken. (A) Een screenshot van de terminaluitvoer van het achtereenvolgens uitvoeren van elke IDP-stap. De IDP liep tot voltooiing, maar nul netwerken werden gevonden tijdens de network finding-stap. (B) Node Finding resultaten directory node_finding_20210705183301 (Supplemental File 13) geladen in de IDV. Alle genen in de genenlijsttabel werden geselecteerd (rode pijl) om hun respectievelijke expressieprofielen in de lijngrafiek weer te geven en een annotatietabel te genereren. De annotatietabel is ingevuld om weer te geven hoe de genen zijn gelabeld in het oorspronkelijke annotatiebestand (groene pijl). (C) Edge Finding resultaten directory edge_finding_20210705183301 (Supplemental File 13) geladen in de IDV. (D) Network Finding resultaten directory network_finding_20210705183301 (Supplemental File 13) geladen in de IDV. De pagina Netwerk zoeken toont geen resultaten, wat suggereert dat reparameterisatie van de stap Netwerk zoeken of het opnieuw evalueren van de Node- of Edge Finding-stap nodig is. De IDP-documentatie bevat stappen voor probleemoplossing om de gebruiker te helpen bepalen wat hij of zij vervolgens kan proberen. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 3: Een grn-model met gistcelcyclus. Een reeks bekende gistcelcyclusregulatoren werden geselecteerd uit SGD en bekende regulerende relaties tussen genen werden geëxtraheerd uit Yeastract. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 4: Voorbeeld van IDP Node Finding resultaten in de IDV. Geladen in de IDV is de Node Finding resultaten directory node_finding_20210705183301 (Supplemental File 13). De aangepaste resultaten na inspectie van samengestelde online gistdatabases. De genenlijsttabel werd uitgebreid (gele pijl) om het resterende gen in het GRN-model van figuur 3 te vinden en genen werden gedeselecteerd om genen te verwijderen die niet in hetzelfde GRN-model werden aangetroffen (rode pijl). De annotatietabel werd ingevuld op basis van bewijs van regulatie voor elk gen dat op Yeastract (groene pijl) werd gevonden. De nieuwe genenlijst en het annotatiebestand werden gedownload door hun respectievelijke downloadknoppen (blauwe pijlen) te selecteren. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 5: Voorbeeld van IDP Edge Finding resultaten in de IDV. Geladen in de IDV is de Edge Finding resultaten directory edge_finding_20210701100152 (Supplemental File 13). (A) Het oorspronkelijke resultaat zoals geproduceerd door het IDP. De vervolgkeuzelijst Netwerk van seed is geselecteerd (rode pijl) om het seed-netwerk te bekijken dat door de IDP is geproduceerd op basis van de argumenten in het gebruikte configuratiebestand (Aanvullend bestand 7). De geselecteerde genen in de randtabel zijn de randen die in het zaadnetwerk worden gebruikt. (B) De aangepaste resultaten na inspectie van het zaadnetwerk op randen die geen experimenteel bewijs bevatten. De vervolgkeuzelijst Netwerk van selectie is geselecteerd (rode pijl). Randen zijn geselecteerd/gedeselecteerd in de randtabel (groene pijl). De bestanden van het seed-netwerk, de edge-lijst en de node-lijst werden gedownload door op hun respectievelijke knoppen (gele pijlen) te klikken. De weergegeven randtabel is voor de laatste tijdreeksgegevens zoals vermeld in het configuratiebestand two_wts_EdgeFinding_config.txt (aanvullend bestand 7). Het is belangrijk om bij het selecteren van randen voor het seed-netwerk of de randlijst op basis van LEM-resultaten te kijken naar de laatste tijdreeksgegevens die in het configuratiebestand worden vermeld, aangezien deze uitvoer alle voorgaande gegevensbestanden bevat in de gevolgtrekking van regelgevende relaties tussen knooppunten. Klik hier om een grotere versie van deze figuur te bekijken.

Afbeelding 6: Voorbeeld van IDP-netwerkzoeking resulteert in de IDV door het IDP-configuratiebestand two_wts_NetFind_rd1_config.txt (aanvullend bestand 11). (A) De query Stabiele volledige cyclus is geselecteerd (rode pijl) om de respectieve gegevens op de y-as in de spreidingsplot weer te geven. Blauwe stippen in de spreidingsgrafiek vertegenwoordigen geselecteerde punten met de functie Box Select voor de spreidingsplot. Het gestippelde selectievak is geïllustreerd om aan te geven hoe de selectie van het vak eruit ziet. (B) De gehele getallen min en max voor de y-as en x-as werden handmatig ingevoerd in geselecteerde netwerken binnen deze grenzen (groene pijl). Na elke selectie werd op de knop Edge-prevalentie van geselecteerde netwerken ophalen (gele pijlen) geklikt en werden de edge-prevalentietabel en de geselecteerde DSGRN-voorspelde netwerken gegenereerd. In de netwerkindex kunt u op pijl-omhoog en pijl-omlaag klikken om door de geselecteerde netwerken te bladeren (blauwe pijlen). Klik hier om een grotere versie van deze figuur te bekijken.

Afbeelding 7: Voorbeeld van IDP-netwerkzoekresultaten in de IDV met behulp van het IDP-configuratiebestand two_wts_NetFind_rd2_config.txt (aanvullend bestand 12). (A-C) De selectie van netwerken werd uitgevoerd door waarden in te voeren in de min- en max-invoervakken (rode pijlen). Op de knop Edge-prevalentie van geselecteerde netwerken ophalen is geklikt om de edge-prevalentietabel en de geselecteerde DSGRN-voorspelde netwerken te genereren. (D) Interessante randen werden geselecteerd in de tabel edge_list (gele pijl) en op de knop Verzenden (groene pijl) werd geklikt om gelijkenisscores te berekenen die in de spreidingsgrafiek tegen de geselecteerde query moesten worden uitgezet (blauwe pijl). De functie Box Select werd gebruikt om een set netwerken (paarse pijl) te selecteren om de Edge Prevalence Table en Selected DSGRN Predicted Networks-gebieden te genereren. De netwerkindex is verhoogd naar 2 (oranje pijl) om het tweede netwerk in de selectie weer te geven. Klik hier om een grotere versie van deze figuur te bekijken.

Term	Pijplijn stap	Definitie
de Lichtenburg door JTK-CYCLE (DLxJTK)	Knooppunten zoeken	Een enkele kwantitatieve maat voor zowel periodiciteit als regulatiesterkte wordt gebruikt om genen te rangschikken. Combineert eerder gepubliceerde periodiciteitsmetingen de Lichtenberg (DL) en JTK-CYCLE (JTK).
Eerste cyclus Max Expressie	Knooppunten zoeken	De maximale genexpressie tijdens de eerste cyclus van periodieke genexpressie. Genen geordend door First Cycle Max Expression zullen worden geordend op basis van het tijdstip vanaf de eerste cyclus waarop ze hun maximale genexpressie bereiken.
De Lokale Edge Machine (LEM)	Edge-detectie	Een Bayesiaanse netwerkinferentiemethode die potentiële modellen van geninteracties rangschikt om de meest waarschijnlijke regulator (s) en modi van regulatie (activering of onderdrukking) van een bepaald doelgen te identificeren met behulp van tijdreeksgenexpressiegegevens.
Seed Netwerk	Netwerk zoeken	Een eerste gok op een plausibel netwerk van wereldwijde interacties door de best gerangschikte LEM-randen te selecteren. Het zaad lokaliseert een gebied van netwerkruimte dat sterk oscillerend is met een grote kans om consistentie te vertonen met de verstrekte tijdreeksgegevens.
Dynamische handtekeningen gegenereerd door regelgevende netwerken (DSGRN)	Netwerk zoeken	Een softwarepakket voor het uitgebreid berekenen van de verscheidenheid aan dynamische gedragingen op lange termijn die een netwerk kan vertonen.
Edge-prevalentie	Netwerk zoeken	Het percentage best scorende netwerken uit de netwerkzoekstap die de betreffende rand bevatten. De score maakt een rangschikking mogelijk van randen die een niet-nulprevalentie hebben.

Tabel 1: Definitie van inherente Dynamics Pipeline en inherente Dynamics Visualizer-termen.

Aanvullend bestand 1: Tijdreeks genexpressiegegevens (Replicatie 1) uit Orlando, 200813. Klik hier om dit bestand te downloaden.

Supplemental File 2: Time series gene expression data (Replicate 2) uit Orlando, 200813. Klik hier om dit bestand te downloaden.

Aanvullend bestand 3: Annotatiebestand met alle genen die zijn gevonden in aanvullend bestand 1 en aanvullend bestand 2. Klik hier om dit bestand te downloaden.

Aanvullend bestand 4: Volledig geparametriseerd inherent Dynamics Pipeline-configuratiebestand. Klik hier om dit bestand te downloaden.

Aanvullend bestand 5: Genenlijstbestand gedownload van de pagina Node Finding van de Inherent Dynamics Visualizer. Klik hier om dit bestand te downloaden.

Aanvullend bestand 6: Annotatiebestand gedownload van de pagina Node Finding van de Inherent Dynamics Visualizer. Klik hier om dit bestand te downloaden.

Aanvullend bestand 7: Inherent Dynamics Pipeline-configuratiebestand geparametriseerd voor alleen de stap Edge Finding. Klik hier om dit bestand te downloaden.

Aanvullend bestand 8: Seed-netwerkbestand gedownload van de pagina Edge Finding van de Inherent Dynamics Visualizer. Klik hier om dit bestand te downloaden.

Aanvullend bestand 9: Edge-lijstbestand gedownload van de pagina Edge-zoeking van de Inherent Dynamics Visualizer. Klik hier om dit bestand te downloaden.

Aanvullend bestand 10: Knooppuntlijstbestand gedownload van de pagina Edge Finding van de Inherent Dynamics Visualizer. Klik hier om dit bestand te downloaden.

Aanvullend bestand 11: Inherent Dynamics Pipeline-configuratiebestand dat is geparametriseerd voor alleen de stap Netwerk zoeken. Klik hier om dit bestand te downloaden.

Aanvullend bestand 12: Bijgewerkt inherent Dynamics Pipeline-configuratiebestand (aanvullend bestand 11) geparametriseerd voor alleen de stap Netwerk zoeken. Klik hier om dit bestand te downloaden.

Aanvullend bestand 13: Directory met de resultaten van de sectie Representatieve resultaten. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

De gevolgtrekking van GRN's is een belangrijke uitdaging in de systeembiologie. De IDP genereert model-GRN's op basis van genexpressiegegevens met behulp van een reeks hulpmiddelen die de gegevens op steeds complexere manieren gebruiken. Elke stap vereist beslissingen over hoe de gegevens te verwerken en welke elementen (genen, functionele interacties) zullen worden doorgegeven aan de volgende laag van de IDP. De gevolgen van deze beslissingen voor de resultaten van het IDP zijn niet zo duidelijk. Om hierbij te helpen, biedt de IDV nuttige interactieve visualisaties van de uitvoer van individuele stappen van de GRN-inferentietools binnen de IDP. De IDV stroomlijnt en vergemakkelijkt het proces van het evalueren van resultaten van deze computationele inferentiemethoden om experimenten te versnellen en analysekeuzes te informeren, wat op zijn beurt de versnelde productie van betrouwbare netwerkmodellen en hypothesen mogelijk maakt. De IDV implementeert ook functies die de functionaliteit van de IDP uitbreiden, waaronder het filteren van randen door LEM ODE-parameterkeuzes, binning van genen op basis van hun expressietijd en clusteringnetwerken op basis van gelijkenis met een motief of netwerk. Belangrijk is dat de IDV handmatige interventies tussen elke IDP-stap mogelijk maakt, waardoor de gebruiker gemakkelijk menselijke kennis en eerdere informatie uit de literatuur kan opnemen op manieren die niet gemakkelijk kunnen worden geautomatiseerd. Een naïeve run van de IDP zal deze informatie niet native opnemen, dus het gebruik van de IDV zal het vertrouwen in de resultaten vergroten wanneer informatie specifiek voor het experiment beschikbaar is. Over het algemeen stelt het gebruik van de IDV in combinatie met de IDP gebruikers in staat om met meer vertrouwen netwerkhypothesen voor biologische processen te maken, zelfs met weinig of geen kennis van de ware GRN.

Er zijn drie cruciale stappen in de IDV. De eerste is het evalueren van IDP Node Finding resultaten in de IDV. Idv's Node Finding pagina kan een nieuwe genenlijst en, indien gewenst, een gen annotatie bestand produceren. Het samenstellen van een nieuwe genenlijst is een cruciale stap omdat het de potentiële netwerkruimte aanzienlijk vermindert door te beperken welke genen mogen worden gemodelleerd als GRN-doelen en / of regulatoren. Bovendien, omdat GRN's meestal bestaan uit transcriptiefactoren, zal het hebben van genannotaties enorm helpen bij het maken van coherente GRN-modellen.

De volgende stap is het evalueren van IDP Edge Finding-resultaten in de IDV. Het beheren van een nieuw seed-netwerk is een cruciale stap, omdat het de regio van netwerkruimte lokaliseert die zal worden bemonsterd in de stap Netwerk zoeken. Weten waar te beginnen is echter niet altijd duidelijk, dus het wordt aanbevolen om randen te gebruiken die een vorm van experimenteel bewijs hebben om vertrouwen te geven dat men begint in een gebied van netwerkruimte dat randen met een hoge betrouwbaarheid bevat. De Edge Finding-pagina van de IDV maakt eenvoudige assemblage van seed-netwerken mogelijk en genereert het bijbehorende DSGRN-netwerkspecificatiebestand en knooppunt- en randlijsten.

De laatste stap is het evalueren van IDP Network Finding resultaten in de IDV. Idv's Network Finding-pagina maakt het mogelijk om eenvoudig bemonsterde netwerken en de bijbehorende scores te verkennen die de capaciteit van het netwerk schatten om de waargenomen dynamiek te produceren. Hoewel Node en Edge Finding altijd resultaten opleveren (als ten minste twee genen worden doorgegeven van Node Finding), kan Network Finding nul resultaten opleveren. Daarom zal het weten of aanpassingen in parameters nodig zijn, duidelijker zijn in Network Finding dan in Node en Edge Finding. Dergelijke gevallen van weinig tot geen gevonden netwerken kunnen het gevolg zijn van beperkingen die zijn opgelegd aan welke netwerken kunnen worden geanalyseerd. Deze beperkingen zijn: 1) of de netwerken altijd sterk verbonden zijn of niet, 2) het minimale en het maximale aantal invoerranden voor elk knooppunt, 3) de kans op het toevoegen en verwijderen van knooppunten en randen, en 4) het aantal toevoegingen en verwijderingen van knooppunten en randen toegestaan. Als er weinig of geen model-toelaatbare netwerken worden gevonden, zoals in figuur 2, dan wordt een verwijzing naar de IDP-documentatie aanbevolen voor richtlijnen voor het opnieuw parametriseren van een of alle stappen van het IDP met daaropvolgende evaluatie van de resultaten in de IDV.

Een huidige beperking van deze benadering is dat de pagina Node Finding vooral gericht is op oscillerende dynamica, zoals die te zien zijn in de transcriptionele programma's van de celcyclus en circadiane klok. In het bijzonder is de IDP Node Finding-stap momenteel geconfigureerd om te zoeken naar genen die oscillerende dynamiek vertonen op een bepaalde periode. Naarmate de IDP zich uitbreidt met analyses die verschillende soorten transcriptionele dynamica kunnen kwantificeren, zal ook de IDV worden bijgewerkt om visualisatie en ondervraging van deze andere gedragingen te ondersteunen. De grootte van de netwerken die worden gezocht en geanalyseerd in de stap Netwerkzoeking is momenteel beperkt tot netwerken van kleinere omvang, bijvoorbeeld ongeveer 10 genen. Dit is noodzakelijk omdat berekeningen in de DSGRN-schaal combinatorisch plaatsvinden. Een andere beperking is dat het verkennen van modelparameterruimte voor een geselecteerd netwerk niet mogelijk is in de IDV. Het DSGRN-netwerkspecificatiebestand voor een bepaald netwerk kan echter worden gedownload en de dynamiek die aan elke modelparameter is gekoppeld, kan worden gevisualiseerd op de DSGRN Visualization-website (https://sites.math.rutgers.edu/~gameiro/dsgrn_viz/). Tot slot is de IDV getest met Linux (Ubuntu) en iOS (Big Sur) systemen. De IDV is getest op Windows 10 met behulp van het Windows Subsystem for Linux (WSL), waarmee Windows 10-gebruikers Linux en de IDV kunnen uitvoeren zonder dat ze een andere computer, een virtuele machine of een dual-boot setup nodig hebben. IDV wordt momenteel niet uitgevoerd op native Windows.

Het bestuderen van GRN's is moeilijk vanwege hun inherente complexiteit en nuttige inferentietools zoals de IDP kunnen moeilijk te begrijpen en met vertrouwen te implementeren zijn. De IDV biedt een methode om de complexiteit van het bestuderen van GRN's afgeleid met behulp van de IDP te verminderen en tegelijkertijd de opname van aanvullende informatie buiten de genexpressiedynamiek te vergemakkelijken. Het gebruik van de IDV in combinatie met de IDP zoals hier beschreven, zal onderzoekers in staat stellen om functionele modellen van goed bestudeerde systemen, zoals de menselijke celcyclus, te ontwikkelen en te analyseren. Bovendien zullen deze tools testbare hypothesen genereren voor minder begrepen processen, zoals de malaria intra-erythrocytische ontwikkelingscyclus, waarvan wordt vermoed dat deze wordt gecontroleerd door een ^GRN24 , maar waarvoor nog een model moet worden voorgesteld.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd gefinancierd door de NIH-subsidie R01 GM126555-01 en NSF-subsidie DMS-1839299.

Materials

Name	Company	Catalog Number	Comments
Docker			https://docs.docker.com/get-docker/
Git			https://git-scm.com/
Inherent Dynamics Pipeline			https://gitlab.com/biochron/inherent_dynamics_pipeline
Inherent Dynamics Visualizer			https://gitlab.com/bertfordley/inherent_dynamics_visualizer
Miniconda			https://docs.conda.io/en/latest/miniconda.html
Pip			https://pip.pypa.io/en/stable/

DOWNLOAD MATERIALS LIST

References

Karlebach, G., Shamir, R. Modelling and analysis of gene regulatory networks. Nature Reviews Molecular Cell Biology. 9 (10), 770-780 (2008).
Aijö, T., Lähdesmäki, H. Learning gene regulatory networks from gene expression measurements using non-parametric molecular kinetics. Bioinformatics. 25 (22), 2937-2944 (2009).
Huynh-Thu, V. A., Sanguinetti, G. Combining tree-based and dynamical systems for the inference of gene regulatory networks. Bioinformatics. 31 (10), 1614-1622 (2015).
Oates, C. J., et al. Causal network inference using biochemical kinetics. Bioinformatics. 30 (17), 468-474 (2014).
Marbach, D., et al. Wisdom of crowds for robust gene network inference. Nature Methods. 9 (8), 796-804 (2012).
Inherent Dynamics Pipeline. , Available from: https://gitlab.com/biochron/inherent_dynamics_pipeline (2021).
Motta, F. C., Moseley, R. C., Cummins, B., Deckard, A., Haase, S. B. Conservation of dynamic characteristics of transcriptional regulatory elements in periodic biological processes. bioRxiv. , (2020).
LEMpy. , Available from: https://gitlab.com/biochron/lempy (2021).
McGoff, K. A., et al. The local edge machine: inference of dynamic models of gene regulation. Genome Biology. 17, 214 (2016).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Model rejection and parameter reduction via time series. SIAM Journal on Applied Dynamical Systems. 17 (2), 1589-1616 (2018).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Database of Dynamic Signatures Generated by Regulatory Networks (DSGRN). Lecture Notes in Computer Science. (including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). , 300-308 (2017).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. DSGRN: Examining the dynamics of families of logical models. Frontiers in Physiology. 9. 9, 549 (2018).
DSGRN. , Available from: https://github.com/marciogameiro/DSGRN (2021).
Dsgm_Net_Gen. , Available from: https://github.com/breecummins/dsgrn_net_gen (2021).
Dsgrn_Net_Query. , Available from: https://github.com/breecummins/dsgrn_net_query (2021).
Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
Monteiro, P. T., et al. YEASTRACT+: a portal for cross-species comparative genomics of transcription regulation in yeasts. Nucleic Acids Research. 48 (1), 642-649 (2020).
de Bruin, R. A. M., et al. Constraining G1-specific transcription to late G1 phase: The MBF-associated corepressor Nrm1 acts via negative feedback. Molecular Cell. 23 (4), 483-496 (2006).
Horak, C. E., et al. Complex transcriptional circuitry at the G1/S transition in Saccharomyces cerevisiae. Genes & Development. 16 (23), 3017-3033 (2002).
Cherry, J. M., et al. Saccharomyces genome database: The genomics resource of budding yeast. Nucleic Acids Research. 40, 700-705 (2012).
Zhu, G., et al. Two yeast forkhead genes regulate the cell cycle and pseudohyphal growth. Nature. 406 (6791), 90-94 (2000).
Loy, C. J., Lydall, D., Surana, U. NDD1, a high-dosage suppressor of cdc28-1N, is essential for expression of a subset of late-S-phase-specific genes in saccharomyces cerevisiae. Molecular and Cellular Biology. 19 (5), 3312-3327 (1999).
Cho, C. Y., Kelliher, C. M., Hasse, S. B. The cell-cycle transcriptional network generates and transmits a pulse of transcription once each cell cycle. Cell Cycle. 18 (4), 363-378 (2019).
Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).

Biology

Inherent Dynamics Visualizer, een interactieve toepassing voor het evalueren en visualiseren van outputs van een gene regulatory network inference pipeline

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.