Biology

Anpassning av synkroniserade tidsseriedata med hjälp av den karakteristiska synkroniseringsmodellen för förlust av cellcykel för jämförelser mellan experiment

Published: June 9, 2023 doi: 10.3791/65466

Sophia A. Campione¹, Christina M. Kelliher², David A. Orlando³, Trung Q. Tran⁴, Steven B. Haase¹

¹Department of Biology, Duke University, ²Department of Biology, University of Massachusetts, ³Orlando Data Science LLC, ⁴Department of Computer Science, Duke University

Summary

En utmaning med att analysera synkroniserade tidsserieexperiment är att experimenten ofta skiljer sig åt i längden på återhämtningen från synkronisering och cellcykelperioden. Således kan mätningarna från olika experiment inte analyseras aggregerat eller enkelt jämföras. Här beskriver vi en metod för att anpassa experiment för att möjliggöra fasspecifika jämförelser.

Abstract

Att undersöka cellcykeln beror ofta på att synkronisera cellpopulationer för att mäta olika parametrar i en tidsserie när cellerna passerar cellcykeln. Men även under liknande förhållanden visar replikatexperiment skillnader i den tid som krävs för att återhämta sig från synkronisering och att korsa cellcykeln, vilket förhindrar direkta jämförelser vid varje tidpunkt. Problemet med att jämföra dynamiska mätningar mellan experiment förvärras i mutanta populationer eller i alternativa tillväxtförhållanden som påverkar den synkrona återhämtningstiden och / eller cellcykelperioden.

Vi har tidigare publicerat en parametrisk matematisk modell som heter Characterizing Loss of Cell Cycle Synchrony (CLOCCS) som övervakar hur synkrona populationer av celler frigörs från synkronisering och fortskrider genom cellcykeln. De inlärda parametrarna från modellen kan sedan användas för att konvertera experimentella tidpunkter från synkroniserade tidsserieexperiment till en normaliserad tidsskala (livlinjepunkter). I stället för att representera den förflutna tiden i minuter från experimentets början representerar livlinjeskalan progressionen från synkronisering till cellcykelinträde och sedan genom cellcykelns faser. Eftersom livlinjepunkter motsvarar fasen för den genomsnittliga cellen inom den synkroniserade populationen, möjliggör denna normaliserade tidsskala direkta jämförelser mellan experiment, inklusive de med varierande perioder och återhämtningstider. Dessutom har modellen använts för att anpassa cellcykelexperiment mellan olika arter (t.ex. Saccharomyces cerevisiae och Schizosaccharomyces pombe), vilket möjliggör direkt jämförelse av cellcykelmätningar, vilket kan avslöja evolutionära likheter och skillnader.

Introduction

Tidsseriemätningar gjorda på synkroniserade populationer av celler när de fortskrider genom cellcykeln är en standardmetod för att undersöka mekanismerna som styr cellcykelprogression 1,2,3,4,5,6,7,8 . Möjligheten att göra jämförelser mellan synkroniserings-/lanseringstidsserieexperiment är avgörande för vår förståelse av dessa dynamiska processer. Användningen av upprepade experiment för att bekräfta resultaten kan öka förtroendet för slutsatsernas reproducerbarhet. Dessutom kan jämförelser mellan miljöförhållanden, mellan mutanter och till och med mellan arter avslöja många nya insikter i cellcykelreglering. Interexperimentell variabilitet i återhämtningen från synkronisering och i hastigheten på cellcykelprogressionen försämrar emellertid möjligheten att göra jämförelser mellan replikat eller mellan experiment med förändrad cellcykeltiming. På grund av dessa utmaningar inkluderas replikat ofta inte för hela tidsserien (t.ex. Spellman et ^al.4). När replikat för hela tidsserien samlas in kan data inte analyseras aggregerat, utan snarare används ett enda replikat för analys, och andra replikat förvisas ofta till kompletterande siffror (t.ex. Orlando et ^al.8). Dessutom är jämförelser mellan experiment med olika återhämtnings- eller cellcykelprogressionsegenskaper svåra. Mätningarna av mindre intervall mellan en händelse av intresse och ett landmärke i cellcykeln (t.ex. knoppuppkomst, S-fasinträde eller anafasstart) kan bidra till att minska fel om dessa landmärkehändelser spåras 1,2,3,9,10,11,12. Subtila men viktiga skillnader kan dock förbli oupptäckta eller dolda med hjälp av dessa ad hoc-metoder. Slutligen möjliggör encellsanalyser analys av cellcykelprogression utan att förlita sig på synkronisering eller anpassning¹³, även om storskaliga mätningar i encellsstudier kan vara utmanande och kostsamma.

För att övervinna dessa svårigheter utvecklade vi modellen Characterizing Loss of Cell Cycle Synchrony (CLOCCS) för att underlätta analysen av tidsseriemätningar gjorda på synkroniserade populationer^14,15. CLOCCS är en flexibel matematisk modell som beskriver fördelningen av synkroniserade celler över cellcykelfaser när de frigörs från synkronisering och framsteg genom cellcykeln. Förgreningsprocessramen gör det möjligt för modellen att redogöra för de asymmetriska egenskaperna hos moder- och dotterceller efter delning, som observerats i S. cerevisiae, samtidigt som den fortfarande är användbar för organismer som delar sig genom fission, såsom S. pombe. Modellen kan ta indata från en mängd olika mättyper för att specificera cellcykelfasen. Det kan inta spirande cellcykelfasdata, vilket inkluderar mätningar av procentandelen knoppade celler över tiden, vilket möjliggör uppskattning av antalet celler utanför den unbudded G1-fasen^14,15. Modellen kan också ta in flödescytometriska data som mäter DNA-innehållet, vilket möjliggör bedömning av landmärkeövergångar från G1 till S, S till G2 och M till G1¹⁵. Fluorescerande morfologiska markörer kan också användas för att identifiera cellcykelfasen. Den fluorescerande märkningen av myosinringar, kärnor och spindelpolkroppar (SPB) kan användas för att bestämma cellcykelfasen, och dessa införlivades i CLOCCS-modell¹¹; Dessa mätningar kommer dock inte att beskrivas i detta protokoll. Dessutom användes septationsindexet som indata för modellering av data från S. pombe¹⁴. Således kan modellen användas för cellcykelanalyser i en mängd olika organismer och kan utvidgas ytterligare.

CLOCCS är en parametrisk modell som möjliggör fullständig Bayesiansk inferens av flera parametrar från indata (t.ex. spirande procent, DNA-innehåll). Dessa parametrar inkluderar återhämtningstiden från synkronisering, cellcykelperiodens längd (uppskattad separat för moder- och dotterceller) och cellens genomsnittliga cellcykelposition vid varje tidpunkt. Dessa parametrar representerar beteendet hos den genomsnittliga cellen i befolkningen, vilket gör det möjligt för forskaren att kartlägga varje tidspunkt till en cellcykelposition uttryckt som en livlinjepunkt. Omvandlingen till livlinepunkter beror på CLOCCS-parametrarna lambda (λ) och mu0 (μ₀)^14,15. Parametern λ motsvarar den genomsnittliga cellcykelperioden för modercellerna. På grund av mor-dotter-fördröjningen^14,15 är detta dock inte den genomsnittliga cellcykelperioden för hela befolkningen som inkluderar både moder- och dottercellerna. CLOCCS härleder dessutom parametern delta (δ), vilket motsvarar mor-dotter-fördröjningen och möjliggör därmed beräkning av den genomsnittliga cellcykelperioden för hela populationen. Slutligen, eftersom varje experiment börjar efter frisläppning från cellcykelsynkronisering, representeras den tid som krävs för att återställa från synkroniseringsmetoden av CLOCCS-parametern μ₀. CLOCCS anpassar en modell till ingångscellcykelfasdata och härleder sedan dessa parametrar med hjälp av en slumpmässig promenad Markov-kedja Monte Carlo-algoritm^14,15. Genom att kartlägga flera experiment till en gemensam cellcykellivstidsskala kan direkta fasspecifika jämförelser göras mellan replikat eller experiment där återhämtningstiden eller cellcykelperioderna inte är identiska 8,14,15.

Eftersom synkroniserade populationer förlorar synkronisering i viss takt under tidsserien^14,15,16,17 kan variabilitet i synkroniseringsförlusthastigheten också hindra kvantitativa jämförelser mellan experiment. Genom att identifiera populationernas plats och variansen i deras fördelningar tar CLOCCS hänsyn till skillnader i graden av synkroniseringsförlust. Detta kraftfulla verktyg möjliggör specifika och detaljerade jämförelser mellan experiment, vilket ger möjlighet att direkt göra relevanta jämförelser inte bara mellan replikat utan också mellan miljöförhållanden, mutanter och till och med arter som har dramatiskt olika cellcykeltider^14,15.

Detta dokument beskriver en metod som använder CLOCCS för att uppskatta parametrar genom att anpassa data från synkroniserings-/frisläppningstidsserieexperiment, mappa data till en gemensam livlinjeskala och sedan göra relevanta jämförelser mellan replikat eller experiment. Livlinaanpassning möjliggör direkta fasspecifika jämförelser mellan dessa experiment, vilket möjliggör aggregering och jämförelse av replikat och för att göra mer relevanta jämförelser mellan experiment med olika återhämtningstider och cellcykelperioder.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Insamling av cellcykelfas och experimentella data

Synkronisera cellerna med avseende på cellcykeln med önskad synkroniseringsmetod (t.ex. centrifugaleluering som beskrivs i Leman et al.18 eller parningsferomonstopp som beskrivs i Rosebrock 19; både Leman et al.18 och Rosebrock ¹⁹ inkluderar också metoder för frisättning från synkronisering). Börja provtagning under hela tidsserien, se till att tidsserien är minst två hela cellcykelperioder i längd, och optimalt, samla in minst 10 prover per cellcykel. Vid varje tidpunkt samlas ett prov för cellcykelfasdata (spirande eller flödescytometri) och ett prov för experimentella data, enligt beskrivningen nedan.
Om du använder spirande data som cellcykelfasdata, samla in data om spirande för CLOCCS-justeringen.
1. Exempel i hela tidsserien. För varje tidpunkt, samla celler och fixa dem genom att blanda 200 μL ultraljudsbaserad cellkultur med 200 μL fixativ lösning, som beskrivs i Leman et ^al.18.
2. För standard spirande, räkna minst 200 celler per tidpunkt med hjälp av ett överfört ljusmikroskop med ett 40x mål och en hemocytometer. Tillsätt cellprovet från steg 1.2.1 till hemocytometern och späd om densiteten förhindrar räkning. Registrera antalet knoppade och obunded celler vid varje tidpunkt. Beräkna procentandelen buddade celler och plotta för varje tidpunkt i en spirande kurva.
  OBS: Andra metoder för att specificera cellcykelfasinformation finns tillgängliga, men dessa beskrivs inte i detta protokoll. De andra metoderna beskrivs i CLOCCS readme och i ett tidigare arbete¹¹.
Om flödescytometriska DNA-innehållsdata används som cellcykelfasdata, samla in DNA-färgningsdata för flödescytometrisk CLOCCS-anpassning.
1. Exempel i hela tidsserien. För varje tidpunkt, samla celler och fixa dem enligt beskrivningen i Haase och Reed²⁰.
2. Färga DNA och analysera med hjälp av cytometrisk analys med standardflöde. Ett rekommenderat färgningsprotokoll för S. cerevisiae beskrivs i Haase och Reed²⁰.
Samla in associerade omics eller relaterade experimentella data. För standardtranskriptomiska data, samla in enligt beskrivningen i Leman et ^al.18 och Kelliher et ^al.21,22. Se till att data är associerade med tidpunkter som innehåller cellcykelfasdata för att möjliggöra nedströms justering. För optimal justering, se till att varje tidpunkt som innehåller experimentella data också har fasdata associerade med den.
OBS: Experimentella data kan ha många former. Traditionellt använder vi justeringsmetoden som beskrivs för att justera transkriptomiska experiment i tidsserier. Alla typer av data som är associerade med tidpunkter kan dock anpassas (dvs. proteomik²²).

2. Installera nödvändig programvara

Det här avsnittet förutsätter att Conda, Java 19 och Git redan är installerade (Table of Materials).

Ladda ned lagringsplatsen CLOCCS_alignment genom att ange följande kommando i terminalen:
git klon git klon https://gitlab.com/haase-lab-group/cloccs_alignment.git
Skapa en Conda-miljö med filen conda_req.yml genom att ange följande kommando i terminalen i mappen där lagringsplatsen CLOCCS_alignment klonades:
conda env create -f conda_req.yml

3. Använda CLOCCS för att parametrisera experimenten

Dubbelklicka på filen cloccs_v2023.jar i mappen CLOCCS på lagringsplatsen CLOCCS_alignment och vänta tills ett grafiskt användargränssnitt öppnas. Den här skärmen gör det möjligt att mata in alternativ för CLOCCS-körningen och visar resultaten när de har körts.
Ange de allmänna inställningarna.
1. Ställ in Sim-Anneal, Bränn in och Iterationer genom att skriva i tillhörande textinmatningsrutor. Sim Anneal (simulerad glödgning) identifierar bra startparametervärden, Burn In söker efter bakre lägen och det sista steget gör det möjligt att dra alla bakre slutsatser. Högre värden ökar körtiden men ökar också noggrannheten.
2. Ange experimentella förhållanden genom att ange temperaturen i Celsius och synkroniseringsmetoden med hjälp av textrutan märkt Temperatur och rullgardinsmenyn Synchro. Metod, respektive.
3. Du kan också konfigurera de avancerade inställningarna på menyn Avancerade inställningar. De avancerade inställningarna gör det möjligt att ställa in priors för var och en av parametrarna ("mu0", "sigma0", "sigmav", "lambda", "bud.start", "bud.end").
  Mer information om de avancerade inställningarna finns i readme.txt i mappen CLOCCS på lagringsplatsen CLOCCS_alignment.
Ange inställningarna för användning med spirande data.
1. Välj lämpligt val i listrutan Modelltyp . Standardalternativet Bud är för standard spirande information för spirande jäst.
  OBS: Andra mer avancerade alternativ finns också i rullgardinsmenyn: Mutant för spirande information för mutanter som genomgår flera spirande cykler utan delning, BudSSLSMR för spirande information och ytterligare spindelpolkropp och myosinringinformation och BudNucDivNeck för spirande information och ytterligare information om delning och knopphalskärnor. Dessa avancerade alternativ beskrivs i CLOCCS readme och i tidigare arbete^11,14,15.
2. Importera data med hjälp av dataimportpanelen genom att skriva i textinmatningsrutorna eller genom att ladda upp en fil genom att klicka på knappen Välj fil . Den första kolumnen anger tidpunkterna. De återstående två kolumnerna anger spirande data och kan ta något av följande alternativ: antalet ej buddade celler (No Bud), antalet budded celler (Budded) eller det totala antalet celler (Totalt).
Ange inställningarna för användning med flödescytometriska data. Kör antingen steg 3.3 eller steg 3.4 för varje experiment.
OBS: Flödescytometriska data och spirande data kan användas tillsammans. Även om vi tidigare beskrev att köra dem tillsammans¹⁵, för det här verktyget måste de köras oberoende och sedan jämföras.
1. Konvertera .fcs-filerna till rätt CLOCCS-indataformat för flödescytometri genom att följa instruktionerna i kompletterande fil 1 (finns också på lagringsplatsen CLOCCS_alignment som CLOCCS/flow_cytometry_conversion_instructions.txt).
2. Välj valet Flöde i listrutan Modelltyp .
3. Importera data med hjälp av panelen Dataimport. Klicka på Välj fil och välj filen som genererades i steg 3.4.1.
4. Välj de tidpunkter för vilka en flödescytometrisk CLOCCS-passning ska plottas genom att välja tidpunkterna i rutan Tider för anpassning .
När alla ingångar har valts för antingen spirande eller flödescytometri, klicka på knappen Apply och klicka sedan på Sample-knappen högst upp på skärmen.
Visa de spirande kurvorna eller flödescytometridiagrammen med de förutsagda passningarna genom att välja fliken Förutsagda passningar . Den här fliken öppnas som standard omedelbart efter föregående steg.
Visa parameterhistogrammen för varje parameter genom att välja fliken Parameterhistogram och sedan välja den underflik som motsvarar parametern av intresse från följande alternativ: mu0, delta, sigma0, sigmav, lambda, bud.start, bud.end osv.
Visa diagrammet för bakre poäng genom att välja fliken Posterior Score .
Visa inställningarna och ändra dem ytterligare genom att välja fliken Inställningar ; visa loggen över tidigare körningar genom att välja fliken Logg .
Hämta CLOCCS-parametrarna från passningen genom att välja fliken Posterior Parameters . Den resulterande tabellen kommer att ha följande form: varje rad består av en parameter, med den sista raden som den bakre. Kolumnerna består av den förutsagda parametern för medelvärdet, det 2,5 % lägre konfidensintervallet, det övre konfidensintervallet på 97,5 % och acceptansgraden.
1. Registrera de parametrar som används för uppriktning för varje experiment: återhämtningstiden från synkronisering (μ₀) och den genomsnittliga cellcykelperioden för modercellerna (λ).
2. Beräkna cellcykelperioden genom att beräkna medelvärdet av modercellsperioden (λ) och dottercellperioden (λ + δ), där δ är den dotterspecifika fördröjningen.
  OBS: Upprepa avsnitt 3 med alla experiment som ska ingå i jämförelserna.

4. Konvertering av tidspunkter till livlinor med hjälp av Python-konverteringsfunktionerna och CLOCCS-parametrarna

OBS: Konvertering mellan tidpunkter och livlinor kräver två omvandlingsformler²¹. En Python-implementering för konvertering och datavisualisering finns på lagringsplatsen CLOCCS_alignment och beskrivs nedan.

Aktivera Conda-miljön genom att ange följande kommando i terminalen: conda activate CLOCCS_alignment
Öppna en interaktiv Python-anteckningsbok genom att skriva följande kommando i terminalen: jupyter notebook
Skapa en ny Python-anteckningsbok i önskad mapp.
Ett exempel på en anteckningsbok har inkluderats för att demonstrera standardanvändning och finns i Alignment/JOVE_example.ipynb på lagringsplatsen för CLOCCS_justering.
Importera Python-filen som innehåller justeringsfunktionerna genom att köra följande kommando i den första cellen:
%kör path_to_repo/cloccs_alignment/Justering/verktyg.py
1. Ersätt sökvägen till lagringsplatsen CLOCCS_alignment för path_to_repo.
Om du använder spirande data som cellcykelfasdata importerar du en dataram som innehåller procentandelen budded vid varje tidpunkt genom att köra följande kommando i en ny cell:
budding_df = pd.read_csv("path_to_folder/budding_filename.tsv", sep ="\t", index_col=0)
1. Ersätt lämplig filsökväg och filnamn. Om filen är en .csv fil, ta bort sep ="\t"
Om du använder spirande data som cellcykelfasdata justerar du spirande data till en livlinepunktskala genom att ange följande funktion i en ny cell:
aligned_budding_df = df_conversion_from_parameters(budding_df, tidpunkter, param_mu0, param_lambda)
1. För tidpunkter ersätter du en lista över de tidpunkter som ska vara indexet för den budding_df dataramen.
2. För param_mu0 och param_lambda ersätter du experimentet med de inlärda parametrarna från den spirande CLOCCS-körningen i avsnitt 3.
Om du använder flödescytometridata importerar du flödescytometridata genom att köra följande kommando i en ny cell:
flow_samples = flow_cytometry_import(flow_input_folder)
1. För flow_input_folder ersätter du lämplig sökväg till mappen som innehåller FCS-filerna för flödescytometri.
Om du använder flödescytometridata genererar du en konverteringstabell mellan tidpunkterna och livlinepunkterna för varje experiment genom att skriva följande kommando i en ny cell:
flow_converter = convert_tp_to_ll(tidpunkter, param_mu0, param_lambda)
1. För tidpunkter ersätter du en lista över tidpunkterna från flödescytometridata.
2. För param_mu0 och param_lambda, ersätt de inlärda parametrarna från flödescytometrin CLOCCS körs i avsnitt 3 för experimentet.
Importera dataramen som innehåller experimentella data till anteckningsboken genom att köra följande kommando i en ny cell:
data_df = pd.read_csv("path_to_folder/exp_data_filename.tsv", sep ="\t", index_col=0)
1. Ersätt lämplig filsökväg och filnamn. Om filen är en .csv fil, ta bort sep ="\t".
  OBS: Detta kan göras för alla tabelldata. Experimentella data måste helt enkelt ha tidpunkterna som antingen kolumnerna eller indexet för dataramen. Exempeldata finns på lagringsplatsen CLOCCS_alignment.
Justera experimentella data till en tidsskala för livlinor genom att ange följande funktion i en ny cell:
lifeline_aligned_df = df_conversion_from_parameters(data_df, tidpunkter, param_mu0, param_lambda, interpolera, nedre, upperll)
1. För tidpunkter ersätter du en lista över tidpunkterna som index eller kolumner i experimentella data_df från föregående steg.
2. För param_mu0 och param_lambda ersätts de värden som erhålls i avsnitt 3 från CLOCCS.
  OBS: Parametrarna kan komma från alla CLOCCS-körningar som utförs på någon av de accepterade cellcykelfasdatatyperna.
3. Du kan också ersätta interpolera med Sant eller Falskt, eller lämna tomt (standardvärdet är Falskt).
  OBS: När den är inställd på False interpoleras inte data. När värdet är True avrundas och interpoleras livlinepunkterna för att fylla i värdena mellan livlinepunkterna, så att det finns en punkt per heltal i intervallet för livlinepunkterna. Detta möjliggör bättre jämförelse mellan datauppsättningar.
4. Du kan också ersätta lowerll och upperll med None eller heltalsvärden.
  När inställningen är Ingen behålls alla livlinepunkter efter interpolering. När heltal anges trunkeras data så att livlinepunkterna sträcker sig från den nedre till den övre. Detta möjliggör jämförelse mellan datauppsättningar med en annan lowerll eller upperll.
Ladda ned datauppsättningen som justerar livlinan genom att ange följande kommando i en ny cell: lifeline_aligned_df.to_csv("path_to_desired_location/name_of_file.tsv", sep = "\t")
Upprepa steg 4.5-4.11 med alla experiment som ska inkluderas i jämförelserna.

5. Jämförelse av spirande kurvor och flödescytometridata

Rita de spirande kurvorna före justeringen med hjälp av funktionen Python-verktyg genom att ange följande kommando i en ny cell:
plot_budding_curves(list_of_budding_curves, list_for_legend = leg_list, point_type = str_type, titel = str_title)
1. Ersätt en lista som innehåller dataramarna för alla önskade spirande kurvor för att rita för list_of_budding_curves-[bud_df1, bud_df2, bud_df3].
2. Ersätt förklaringen med en lista med etiketter för leg_list om du vill. Om inte, uteslut eller ersätt Ingen.
3. Ersättningstid för str_type.
4. Ersätt en strängrubrik Jämförelse Budding Curves för str_title om så önskas. Om inte, ersätt Ingen eller uteslut.
Rita de spirande kurvorna efter justering med hjälp av Python-verktygsfunktionen genom att följa instruktionerna i steg 5.1, men med en lista över justerade spirande kurvor ersatta med list_of_budding_curves och med livlina för point_type istället för tid.
För att plotta flödescytometridata, plotta associerade data från .fcs-filerna vid motsvarande livlinepunkter med hjälp av omvandlaren som genererades i steg 4.8.
Konvertera livlinepunkterna till cellcykelfasen med hjälp av omvandlartabellen (tabell 1).
OBS: Detta kan också plottas genom att följa instruktionerna i steg 5.1, men med fas för point_type istället för tid.

6. Jämförelse av experimentella data

Bestäm genlistan som ska plottas i linjediagrammen baserat på litteraturinformation eller gener av intresse för forskningen.
Använd den angivna plot_linegraph_comparison i filen Python-verktyg för att utföra linjediagramjämförelser på den ursprungliga, justerade eller justerade och interpolerade dataramen genom att skriva följande kommando i en ny cell:
plot_linegraph_comparison(list_of_dfs, list_for_legend, genelist, point_type = str_type, titel = str_title)
1. Ersätt en lista över dataramarna för experimenten som ska jämföras för list_of_dfs.
  Dataramarna kan vara justerade eller justerade. Motsvarande point_type måste dock matas in i steg 6.2.4.
2. Ersätt en lista med rubrikerna för varje dataram i samma ordning som listan med dataramar för list_for_legend.
3. Ersätt en lista över de gennamn (som måste ingå i indexet för dataramarna) som ska plottas för genelist.
4. Ersätt punkttypen med str_type. Använd livlina (standard är livlinepunktskala) eller fas (cellcykelfasens livlineskala) för de justerade dataramarna i steg 6.2.1 eller tid för de ojusterade dataramarna i steg 6.2.1.
5. Ersätt str_title med en valfri strängrubrik.
Bestäm genlistan som ska ingå i värmekartan med hjälp av litteraturen eller algoritmerna för att bestämma de bästa periodiska generna.
OBS: För korrekta värmekartjämförelser bör data justeras, interpoleras och tidsskalejusteras i steg 6.2; Den bör ha samma start- och slutvärde för varje experiment.
1. Kör periodicitetsalgoritmer för att bestämma de bästa periodiska generna^23,24^, eller använd önskade alternativa metoder för att bestämma genlistan (dvs. litteraturresultat).
2. Importera en .csv- eller .tsv-genlistfil till anteckningsboken med följande kommando i en ny cell:
  sort_df = pd.read_csv("path_to_folder/sorting_filename.tsv", sep="\t", index_col=0)
3. Ersätt lämplig filsökväg och filnamn. Om filen är en .csv tar du bort sep="\t".
Använd den tillhandahållna funktionen plot_heatmap_comparison i filen Python-verktyg för att utföra en jämförelse av värmekartor på den justerade, interpolerade och fasjusterade dataramen genom att skriva följande kommando i en ny cell:
plot_heatmap_comparison(list_of_dfs, list_for_legend, genelist, titel = str_title)
1. Ersätt en lista över de justerade dataramarna för experimenten som ska jämföras med list_of_dfs.
2. Ersätt en lista med rubrikerna för varje dataram i samma ordning som listan med dataramar för list_for_legend.
3. Ersätt en lista över de gennamn (som måste ingå i indexet för dataramarna) som ska plottas för genelist.
4. Ersätt str_title med en valfri strängrubrik.
  OBS: Den första dataramen i listan är den som kommer att användas för att ordna generna i värmekartan. Generna kommer att ordnas maximalt under den första perioden för den dataramen, och samma ordning kommer att användas för de efterföljande dataramarna i listan.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Stegen som beskrivs i ovanstående protokoll och i arbetsflödet i figur 1 tillämpades på fem cellcykelsynkroniserade tidsserieexperiment för att visa två representativa jämförelser: mellan replikat med olika synkronmetoder (parningsferomon och centrifugaleluering¹⁸) och sekvenseringsplattformar (RNA-sekvensering [RNA-seq] och mikroarray), samt över experimentella förhållanden. Flera experiment utfördes med S. cerevisiae, och cellcykelfas och experimentella data samlades in för varje experiment. Arbetsflödet omfattar att använda CLOCCS för att parametrisera de olika tidsserieexperimenten för synkronisering/frisläppning, använda dessa parametrar för att anpassa experimenten till en gemensam jämförbar livlinjeskala och sedan använda dessa justerade experiment för de två representativa jämförelserna.

För att demonstrera den representativa jämförelsen mellan replikat valde vi tre experiment utförda med samma stam och under samma experimentella förhållanden, kallad villkor 1. Två av dessa experiment var direkta replikat av varandra, och båda analyserades via mikroarrayanalys och synkroniserades via centrifugaleluering. Det tredje experimentet analyserades med RNA-seq-analys och synkroniserades via alfafaktorparning feromonstopp. För att demonstrera den andra jämförelsen mellan experiment med varierande cellcykelperioder jämfördes Condition 1 RNA-seq-experimentet (cellcykelperiod: 71 min) ovanifrån med Condition 2 (cellcykelperiod: 82 min) och Condition 3 (cellcykelperiod: 110 min) (tabell 2). För varje experiment odlades cellerna under sina respektive förhållanden, synkroniserades, släpptes och provtogs sedan under två eller flera cellcykelperioder. Spirande och/eller flödescytometridata samlades in för att ge information om cellcykelfasen, och antingen mikroarray- eller RNA-seq-tidsserietranskriptomdata samlades in enligt beskrivningen i Leman et ^al.18 (kompletterande tabell S1).

För varje experiment tog data de former som beskrivs i figur 2, som presenterar Condition 2-experimentet som ett exempel för demonstration. Varje dataset hade en spirande kurva, vilket möjliggjorde inferensen av cellcykelfasen. Denna kurva bestod av ett spirande procentvärde för varje tidpunkt i tidsserien, som sedan ritades för att producera en spirande kurva som visar flera cellcykelsvängningar (figur 2). Cellcykelfasdata tog också formen av flödescytometrisk DNA-innehållsfärgningsdata för varje tidpunkt i tidsserien. Välj tidpunkter för villkor 2 ritades (figur 2). Flödescytometrifilerna kombinerades till en enda tabell som omfattade cellerna i varje logfluorescensbehållare för varje tidpunkt för inmatning i CLOCCS med hjälp av funktionen flow_cytometry_CLOCCS_file_from_fcs i Python-verktygen. Varje dataset innehöll också experimentella data. I detta fall var data transkriptomiska data och data organiserades i rader av gener, var och en med ett värde för överflöd av RNA vid varje tidpunkt i experimentet (figur 2).

Vi har demonstrerat användningen av CLOCCS och omvandlingen till livlinepunkter för Condition 2 RNA-seq-datasetet; Processen var dock identisk för de andra experimenten också. Den spirande informationen matades in i CLOCCS-algoritmen enligt beskrivningen i protokollavsnitt 3 och som visas i figur 3A. Standardvärdena för Sim Anneal, Burn In, Iterations och Advanced Settings användes. Lämpliga experimentella betingelser valdes. Modelltypen "Bud" användes för spirande data. De resulterande CLOCCS-spirande passningarna betraktades för att säkerställa att de spirande kurvorna var korrekt passande, vilket framgår av datapunkterna som överlagrade motsvarande passformskurva med ett litet 95% konfidensband (figur 3B och kompletterande figur S1). Parametrarna μ₀ och λ från tabellen med bakre parametrar (figur 3C) registrerades för användning i inriktningen. Flödescytometridata för tillstånd 2 matades in separat i CLOCCS, såsom beskrivs i protokollavsnitt 3. För närvarande förväntar sig CLOCCS att flödescytometrar producerar 10-bitars data med 1 024 kanaler; Moderna flödescytometrar kan dock ha fler kanaler. Eftersom vår flödescytometer producerar data med mer än 1 024 kanaler delades data in i 1 024 fack. Med flödescytometricellcykelfasdata producerar CLOCCS en CLOCCS-passning för varje vald tidpunkt (figur 3D och kompletterande figur S2) och tillhandahåller en bakre parametertabell som liknar den spirande bakre parametertabellen i figur 3C. Parametrarna för spirande som CLOCCS kör för vart och ett av de andra experimenten beskrivs i tabell 2, och parametrarna för flödescytometrin som CLOCCS kör beskrivs i kompletterande tabell S2.

CLOCCS-parametrarna som motsvarar cellcykelperioden för modercellerna (λ) och återhämtningstiden (μ₀) användes för livlineinriktningen. Det är viktigt att notera att λ inte nödvändigtvis representerar cellpopulationens genomsnittliga cellcykelperiod. I de fall cellerna genomgår en fullständig uppdelning finns det lika många moder- och dotterceller, så den genomsnittliga cellcykelperioden är genomsnittet mellan modercellernas cellcykelperiod (λ) och dottercellens cellcykelperiod (λ + δ); Specifikt är delta (δ) längden på den dotterspecifika fördröjningen. Detta är den beräkning som vi använde för cellcykelperioden för varje experiment (tabell 2). För varje experiment användes sedan motsvarande parametrar λ och μ₀ i konverteringsfunktionen, df_conversion_from_parameters, som tillhandahålls i Python-verktygsfilen, vilket visas för villkor 2 (figur 4A). För de spirande kurvorna interpolerades inte data. För experimentella data samplades dock de livlinejusterade dataseten om med hjälp av interpolering så att varje livlinepunkt innehöll interpolerade data för förbättrad plottning. För att säkerställa att de livlinejusterade datauppsättningarna hade samma intervall av livlinepunkter ställdes nedre och övre livlinegränser in för att trunkera data vid dessa punkter. Dessa nedre och övre parametrar matades in i funktionen df_conversion_from_parameters när interpoleringen var inställd på Sant. För jämförelse av villkor 1 sattes de till 44 respektive 270 för alla datamängder, och för jämförelsen mellan miljöförhållanden sattes de till 50 respektive 300. Ett exempel på användning av dessa funktioner för justering och jämförelse finns i Python-exempelanteckningsboken JOVE_example.ipynb , och koden som används för att generera figurerna visas i anteckningsboken JOVE_Figures.ipynb på lagringsplatsen CLOCCS_alignment.

Denna omvandling från tidpunkter till livlinor beror på två formler²¹ (figur 4A) med μ₀ (återhämtningstid) och λ (moderperiod). Den första formeln, , Equation 1 är formeln för återhämtningsfasen (figur 4A). Denna formel används endast för tidpunkter inom återhämtningsfasen, som består av tidpunkterna upp till och med_μ 0, eftersom μ₀ motsvarar återhämtningstiden. Tidpunkterna omvandlas sedan till ett livlineskaleintervall som slutar med 100 livlinepunkter (tabell 1), vilket markerar slutet på återhämtningsfasen och början på den första cellcykeln. I fasen efter återhämtning används den andra formeln Equation 2 (figur 4A), som omvandlar varje efterföljande tidpunkt efter återhämtning till en livlina efter 100. Varje efterföljande 100 livlinepunkter motsvarar en ny cellcykel, där den första cykeln motsvarar livlinepunkterna 100 till 200, den andra cykeln motsvarar livlinepunkterna 200 till 300 och så vidare (tabell 1). Konverteringen från tidspunkter till livlinor tillämpas på varje datauppsättning individuellt med hjälp av motsvarande CLOCCS-parametrar för den datauppsättningen. När varje datauppsättning har konverterats till livlineskalan justeras cellcykelfaserna, vilket möjliggör fasspecifika jämförelser mellan datauppsättningar.

Tabell 3 visar konverteringen av utvalda tidpunkter till deras respektive livlinepunkter för den representativa konverteringen av Condition 2-datauppsättningen med hjälp av parametrar från den spirande CLOCCS-körningen. De spirande data som samlats in från Condition 2 RNA-seq plottades i en spirande kurva som visar procentandelen budded över tid för både den ojusterade tidsskalan i minuter (figur 4B) och den justerade tidsskalan i livlinjepunkter (figur 4C) med hjälp av Python-funktionen plot_budding_curves i en Python-anteckningsbok. Livlinpunkterna kunde enkelt omvandlas till experimentell information och cellcykelfasinformation (tabell 1), och återhämtningsfasen och första till tredje cellcyklerna färgkodades för hand i enlighet därmed (figur 4B, C). Eftersom varje livlinepunkt motsvarade en cellcykelfas kunde individuella flödescytometridiagram märkas via Python-funktionerna med hjälp av cellcykelfasen bestämd av livlinans inriktning. Dessa faser matchade med de faser som bestämdes via flödescytometrisk analys för tillstånd 2. Flödescytometridata som samlats in för Condition 2-datasetet plottades för utvalda tidpunkter och märktes med hjälp av cellcykelfasen bestämd från flödescytometrins livlinjeinriktning. I båda fallen överensstämde data med den fas som bestämdes av inriktningen (figur 4D).

Det är viktigt att notera att uttrycksnivån för varje gen för varje prov förblir densamma, men märkningen av tidpunkterna ändras från tid i minuter till livlinjepunkter. Konverteringen är dock inte linjär. Återhämtningsfasen, markerad i grått, upptar en högre procentandel av experimenttiden när omvandlingen till livlinpunkter har utförts (figur 4B, C). Fördelen med livlinan är att den möjliggör detaljerad fasinformation och fasjämförelser mellan experiment. Fasinformationen finns i livlinepunkterna, som beskrivs ovan och visas i tabell 1. Dessutom ingår G1 i de första 15,5 livlinpunkterna i varje cellcykel, S i de följande 20 livlinepunkterna och G2/M i de följande 64,5 livlinepunkterna (tabell 1). Detta begränsar emellertid artificiellt återhämtningstiden till samma tidsperiod för varje på varandra följande cellcykel, även om återhämtningsfasen verkar mycket kort i den ursprungliga tidsskalan. Detta döljer inte jämförelserna, eftersom faserna i varje experiment är inriktade. I de flesta fall är det mer relevant att jämföra data vid punkter som inträffar vid samma experimentella och biologiska fas snarare än vid tidpunkter som inträffar samtidigt i minuter.

När alla experiment har konverterats till den justerade livlineskalan med hjälp av de tillhandahållna Python-funktionerna i Python-verktygsfilen kan de jämföras. Här demonstrerar vi två vanliga jämförelser mellan experiment: en mellan repliker av ett liknande experiment över plattformar och synkroniseringsmetoder (Figur 5) och en mellan olika experimentella förhållanden med en föränderlig periodlängd (Figur 6 och Figur 7). Som beskrivits ovan är den första jämförelsen över två eluerade mikroarrayreplikat och ett alfafaktorsynkroniserat RNA-seq-experiment. Före justeringen visade de två mikroarrayreplikaten liknande synkronisering och cellcykeldynamik, men Condition 1 Microarray 2-replikatet verkade något försenat (figur 5A). Den mest slående skillnaden hittades när man jämförde de ojusterade datauppsättningarna; Condition 1 RNA-seq andra cykeln verkade i linje med den första cykeln av de två mikroarrayexperimenten. Skillnaden var sannolikt inte relaterad till de olika transkriptomiska plattformarna utan snarare de olika synkroniseringsmetoderna. Cellpopulationerna i mikroarrayexperimenten synkroniserades genom centrifugaleluering, medan populationen för RNA-seq-experimentet synkroniserades genom en parningsferomonbehandling. Faktum är att synkronisering med parningsferomon avsevärt minskade återhämtningstiden jämfört med eluering (figur 5A och tabell 2).

Trots de uppenbara skillnaderna mellan replikaten när de plottas med avseende på förfluten tid, efter livlinans inriktning, var kurvorna nästan identiska, och mer detaljerade och relevanta jämförelser mellan replikat möjliggjordes (figur 5B). Återhämtningsfasen justerades så att varje experiment började vid samma livlina, och variationerna i perioden normaliserades genom livlinjeinriktning. På grund av anpassningen inträffade experimentella värden vid samma livlinepunkt över replikaten i samma cellcykelfas, vilket möjliggjorde beräkningar av den experimentella variansen mellan replikat. Återhämtnings- och cellcykelfaserna är märkta i figur 5B för att ge ytterligare information om cellcykelfaserna i vart och ett av experimenten. Denna livlinejustering kan sedan tillämpas på den experimentella datauppsättningen (figur 5C,D) med hjälp av Python-funktionen df_conversion_from_parameters som finns i verktygsfilen, enligt beskrivningen ovan.

I figur 5D justerades transkriptomiska data och uttrycksdynamiken för CDC20-genen plottades med hjälp av plot_linegraph_comparison Python-funktionen i en Python-anteckningsbok. Före anpassningen verkade det som om det första topputtrycket av mikroarrayexperimenten var i linje med den andra toppen av RNA-seq-experimentet (figur 5C); Men efter justeringen justeras de första cellcykeltopparna för varje datauppsättning korrekt (figur 5D). Vidare tycktes experimentens toppbredd skilja sig mellan RNA-seq-datasetet och microarray-dataseten, men efter justering var toppbredden mer inriktad (figur 5C, D).

Den andra jämförelsen är mellan experiment i olika miljöförhållanden med olika cellcykelperioder (figur 6). Som beskrivits ovan jämförde vi här S. cerevisiae-dataset i villkor 1 med villkor 2 och villkor 3, vilket motsvarar cellcykelperioder på 71, 82 respektive 110 minuter. Dessa skillnader i cellcykelperioden introducerade osäkerhet vid jämförelse mellan experiment före cellcykelfasinriktning, vilket visas i de ojusterade spirande kurvorna. Periodskillnaderna är synliga i de ojusterade spirande kurvorna (figur 6A). Men när de var CLOCCS-anpassade med detta protokoll såg de tre kurvorna anmärkningsvärt lika ut, vilket möjliggjorde jämförelser av experimentella data (figur 6B).

Med hjälp av CLOCCS-parametrarna för flödescytometri anpassades villkor 1 och tillstånd 2 till en gemensam livlinaskala och histogram för DNA-innehåll plottades i tillstånd 2 och vid motsvarande livlinepunkter i villkor 1. Flödescytometriska mätningar av DNA-innehållet över livlinepunkter jämfördes (figur 6C). Eftersom DNA-innehållsmätningarna inte var kontinuerliga och inte lätt interpolerade kunde vi bara jämföra de närmaste livlinpunkterna. Cellcykelfasdata för varje jämförbar livlinepunkt var inte identiska mellan de två förhållandena (figur 6C), vilket indikerar att CLOCCS-passningarna och de resulterande parametrarna sannolikt var något feljusterade för villkor 1. Detta berodde sannolikt på den sämre CLOCCS-anpassningen till flödescytometriska data för tillstånd 1 jämfört med tillstånd 2 (kompletterande figur 2). Justeringen avvek dock endast i ett urval och möjliggör därför fortfarande förbättrade fasspecifika jämförelser.

Den spirande livlinan tillämpades sedan på experimentella data för RNA-seq-experimenten i villkor 1, villkor 2 och villkor 3 (figur 7) genom att använda de spirande CLOCCS-parametrarna i df_conversion_from_parameters-funktionen på experimentella data. Transkriptomiska data justerades och genuttrycket av genen CDC20 för varje tidsserie visades för de tre experimenten. Före anpassningen var transkriptdynamiken för CDC20 icke-överlappande (figur 7A). Efter anpassningen var de första och andra topparna av CDC20-genuttrycket mycket närmare anpassade för alla tre dataseten. Efter justering blev det klart att topparna inträffade i samma cellcykelfas, men kurvornas former var olika (figur 7B). Villkor 3 hade en lägre och bredare första topp jämfört med de andra två förhållandena, även efter att ha tagit hänsyn till skillnaderna i cellcykelperioden, vilket tyder på att dessa skillnader sannolikt var relaterade till de experimentella förhållandena som testades (figur 7B).

Storskaliga transkriptomiska jämförelser kan också göras. För dessa jämförelser valdes 278 gener genom att köra periodicitetsalgoritmen JTK_CYCLE²³ på varje dataset och ta skärningspunkten mellan de bästa periodiska generna. Gener kan dock väljas med vilken metod som helst eller från litteraturen. Dessa gener plottades i samma ordning för alla tre villkoren både för de ojusterade (figur 7C) och de justerade (figur 7D) värmekartorna med hjälp av funktionen plot_heatmap_comparison Python i en Python-anteckningsbok. Dessa värmekartor gör det möjligt att göra hundratals jämförelser på gennivå samtidigt. Jämförelser mellan ojusterade experiment kan göras med avseende på förändringen i kurvdynamik, topptiden i förhållande till närliggande gener och periodlängden etc. (Figur 7C). Detaljerade fasspecifika jämförelser kunde dock inte göras eftersom tidpunkterna inte nödvändigtvis korrelerar med samma cellcykelfas över förhållandena. Även om de andra cyklerna verkade likartade efter anpassning, förflyttades de första cyklerna något mellan förhållandena (figur 7D). Detta skifte kan återspegla det faktum att den spirande cellcykelfasinformationen var av lägre kvalitet för tillstånd 3. Icke desto mindre möjliggjorde anpassningen av experimenten för de tre villkoren en förbättrad fasspecifik jämförelse. Före anpassningen var det oklart om den första uttryckstoppen i varje tillstånd skulle inträffa vid samma cellcykelfas (figur 7C); Efter anpassning kunde experimenten dock jämföras på ett fasspecifikt sätt (figur 7D). Före inriktningen verkade topparna i tillstånd 3 mycket bredare än i de andra två förhållandena (figur 7C); Efter inriktningen blev det dock klart att topparna i villkor 3 hade samma bredd som de andra förhållandena när de var inriktade (figur 7D).

Dessa representativa resultat visar processen för användning av CLOCCS för att anpassa experiment till en gemensam tidsskala. Före justering korrelerar direkta tidpunktsjämförelser ofta inte med en liknande cellcykelfas. Omvandlingen av den förflutna experimenttiden i minuter till livlinjepunkter som representerar cellcykelfasen möjliggör fasspecifika och biologiskt relevanta jämförelser mellan experiment vid samma punkt i cellcykeln.

Bild 1: Översikt över arbetsflödet för CLOCCS livlinajustering. Det experimentella arbetsflödet för justering av två exempeldatauppsättningar med CLOCCS, följt av representativa jämförelser mellan datauppsättningarna. De viktigaste stegen från protokollet illustreras: insamling av ojusterade cellcykelfas- och experimentella data för var och en av dataseten (steg 1), användningen av CLOCCS för parametrisering av varje dataset (steg 2 och steg 3), anpassningen av dataseten till en gemensam livlina (steg 4) och slutligen jämförelsen av cellcykelfasen och experimentell dynamik (steg 5 och steg 6). De ojusterade cellcykelfasdata matas in i CLOCCS för att tillhandahålla inlärda parametrar, som sedan används för anpassning till en gemensam livlinjeskala. Dessa justerade datauppsättningar jämförs sedan. Förkortning: CLOCCS = Karaktäriserande förlust av cellcykelsynkronisering. Klicka här för att se en större version av denna figur.

Figur 2: Format för cellcykelfasen och experimentella data som krävs för arbetsflödet. De data som krävs för arbetsflödet består av två huvudkomponenter: cellcykelfasdata och cellcykelexperimentella data. Cellcykelfasdata kan bestå av cellcykelspirande data eller flödescytometriska DNA-innehållsdata för varje tidpunkt i tidsserien. Experimentella data kan ta många former, men i detta fall är transkriptomiska data, som består av genuttrycksdata för varje gen för varje tidpunkt i tidsserien. Klicka här för att se en större version av denna figur.

Figur 3: Exempel på resultat från körning av CLOCCS på en S. cerevisiae cellcykeldataset. (A) En skärmdump av det grafiska användargränssnittet i CLOCCS med de ingångsvärden och inställningar som anges för Condition 2 spirande data. Tiderna, antalet obuddade celler och antalet buddade celler matas in, liksom modelltyp, iterationer och villkor etc. (B) En skärmdump av den resulterande CLOCCS-spirande passformen för villkor 2 under fliken "Predicted Fit" i resultaten. Varje datapunkt har en tillhörande samplingsfelstapel som motsvarar 95 % binomialproportionella konfidensintervall för data (för varje tidpunkt räknades minst 200 celler [mellan 204 och 295 celler]). Den resulterande spirande passformskurvan visar konfidensbandet för 95% konfidensintervall för CLOCCS-passformen i lila. (C) En skärmdump av den resulterande tabellen "Posterior Parameters" för den spirande CLOCCS-körningen för villkor 2 bestående av CLOCCS-parametrarna vid medelvärdet, 2,5 % konfidensintervall och 97,5 % konfidensintervall. De bakre och acceptansgraderna visas också. (D) En skärmdump av flödescytometrin CLOCCS passar för tillstånd 2 vid 70 min och 150 min. Klicka här för att se en större version av denna figur.

Bild 4: Exempel på konverteringsprocessen från tidpunkter till justerade livlinepunkter för datauppsättningen Villkor 2 . (A) De omvandlingsformler som används för att konvertera från tidpunkter till livlinor. En skärmbild av Python-funktionerna i Python-anteckningsboken för konvertering och plottning av de spirande kurvorna. (B) Den ojusterade villkor 2-spirande kurvan som visar den spirande procenten för varje tidpunkt i minuter. Cellcykeln och återhämtningsfaserna markeras enligt följande: återhämtning (grå), första cellcykeln (blå), andra cellcykeln (magenta) och tredje cellcykeln (lax). (C) Den justerade böjande kurvan för villkor 2 som visar samma spirande procentsatser men ritad på livline-justerad skala. Cellcykeln och återhämtningsfaserna markeras som i panel C. (D) De inriktade flödescytometridiagrammen för valda tidpunkter från villkor 2 som motsvarar distinkta cellcykelfaser baserade på livlinjeskalan: början av G1, början av S-fas, början av G2 / M och sen G2 / M. Klicka här för att se en större version av denna figur.

Figur 5: Representativa resultat för jämförelse av de justerade och ojusterade experiment med replikering av villkor 1. Jämförelse av villkor 1-replikeringar: Villkor 1 RNA-seq (blå), Villkor 1 mikroarray 1 (lila) och villkor 1 mikroarray 2 (grå). (A) Den ojusterade spirande kurvan för Condition 1-datauppsättningarna. (B) Den justerade spirande kurvan för Condition 1-datauppsättningarna. Livlinepunkterna har omvandlats till cellcykelfasen och är färgkodade under x-axeln. (C) Det oanpassade genuttrycket för en representativ gen, CDC20, för Condition 1-dataseten. (D) Det anpassade genuttrycket för en representativ gen, CDC20, för Condition 1-dataseten. Klicka här för att se en större version av denna figur.

Figur 6: Representativa resultat för jämförelse av anpassade och ojusterade cellcykelfasdata över experiment med varierande perioder. Jämförelse av cellcykelfasdata för dataset med tre olika miljöförhållanden och därmed tre olika cellcykelperioder: Condition 1 RNA-seq (cellcykelperiod: 71 min), Condition 2 RNA-seq (cellcykelperiod: 82 min) och Condition 3 RNA-seq (cellcykelperiod: 110 min). (A) Den ojusterade spirande kurvan för datauppsättningarna. (B) Den justerade spirande kurvan för datauppsättningarna. c) Histogrammen för flödescytometrisk DNA-halt för tillstånd 2 (övre raden) jämfört med motsvarande livlinepunkter i villkor 1 (nedre raden). Klicka här för att se en större version av denna figur.

Figur 7: Representativa resultat för jämförelse av justerade och ojusterade transkriptomiska data över experiment med varierande perioder. Jämförelse av transkriptomiska data associerade med dataseten i figur 6: Villkor 1 RNA-seq, Villkor 2 och Villkor 3. (A) Det oanpassade genuttrycket av en representativ gen, CDC20, för RNA-seq-dataseten Condition 1, Condition 2 och Condition 3. (B) Det anpassade genuttrycket av CDC20 för dataseten. (C) Den ojusterade värmekartan över de periodiska generna i toppcellcykeln i samma ordning för varje dataset. d) De livlineinriktade värmekartorna för samma periodiska cellcykelgener från panel C i samma ordning. De streckade lila linjerna motsvarar livlinpunkterna 100 och 200. Klicka här för att se en större version av denna figur.

Tabell 1: Omvandling av livlina från cellcykelfas. Omvandlingsnyckeln mellan livlinans punktskala och motsvarande fas i experimentet. Livlina punkterna 0-100 motsvarar återhämtning från synkronisering. Varje efterföljande 100 livlinepunkter motsvarar en ny cellcykel, där de första 15,5 livlinepunkterna motsvarar G1, de följande 20 motsvarar S-fas och de återstående livlinepunkterna motsvarar G2/M. Klicka här för att ladda ner denna tabell.

Tabell 2: Spirande CLOCCS-parametrar. De resulterande spirande CLOCCS-parametrarna "lambda" och "mu0" för varje experiment från de representativa resultaten. Dessutom visas den dotterspecifika fördröjningen "Delta" och den beräknade cellcykelperioden för varje experiment. Klicka här för att ladda ner denna tabell.

Tabell 3: Omvandlingstabell som visar omvandlingen mellan tidpunkter i minuter och deras respektive motsvarande livlinepunkter för villkor 2. Klicka här för att ladda ner denna tabell.

Kompletterande figur S1: CLOCCS spirande passar för villkor 1 och villkor 3. Skärmdump av den resulterande CLOCCS-spirande passformen för (A) Condition 1 RNA seq spirande data, (B) Condition 1 microarray 1 spirding data, (C) Condition 1 microarray 2 spirding data och för (D) Condition 3 spirande data. CLOCCS spirande passform för villkor 2 kan ses i figur 3B. Det 95-procentiga konfidensintervallet och samplingsfelstaplarna beskrivs i CLOCCS-dokumentationen^14,15 och i figur 3. För varje tidpunkt för varje tidsserie räknades cirka 200 celler. Klicka här för att ladda ner den här filen.

Kompletterande figur S2: CLOCCS flödescytometri passar för tillstånd 1 och tillstånd 2. Skärmdump av flödescytometrin CLOCCS passar för de prover som visas i figur 6C för villkor 2 (övre raden: A-D) och villkor 1 (nedre raden: E, F). Klicka här för att ladda ner den här filen.

Kompletterande figur S3: Justeringens känslighet för variationer i CLOCCS-parametrarna. Jämförelse av anpassningen av Condition 1 RNA-Seq-datasetet med hjälp av (A-C) variationer i CLOCCS-parametrarna λ och μ0 inom konfidensintervallet för CLOCCS-passformen och (D,E) med stora variationer i parametrarna. Jämförelse mellan medelvärdet med konfidensvärdena på 2,5 % och 97,5 % som matas ut i parametertabellen av CLOCCS för (A) parametern μ0, (B) parametern λ och (C) för båda parametrarna μ0 och λ. D) Jämförelse mellan inriktningen med hjälp av medelvärdet för μ0 jämfört med stora variationer i μ0-parametern (200–0,25 % av μ0). E) Jämförelse mellan inriktningen med hjälp av medelvärdet för λ jämfört med stora variationer i λ-parametern (200–0,25 % av λ). Klicka här för att ladda ner den här filen.

Kompletterande tabell S1: Beskrivning av datainsamlingen för varje experiment. För varje experiment innehåller den här tabellen en beskrivning av spirande data, flödescytometridata, transkriptomiska data och synkroniseringsmetod. Klicka här för att ladda ner den här filen.

Kompletterande tabell S2: CLOCCS-parametrar från flödescytometriska CLOCCS-körningar. CLOCCS-parametrarna "mu0" och "lambda" för flödescytometrin för tillstånd 1 och tillstånd 2 CLOCCS körs. Klicka här för att ladda ner den här filen.

Kompletterande fil 1: Instruktioner för konvertering av flödescytometriska data till CLOCCS-inmatningsformat. För användning av CLOCCS med flödescytometriska data krävs ett specifikt inmatningsformat. Den här filen innehåller mer detaljerade instruktioner om protokollsteg 3.4.1 för att förklara hur du använder Python-verktygsfunktionerna för att utföra den här konverteringen. Klicka här för att ladda ner den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denna artikel presenterar en metod för att mer exakt och kvantitativt utvärdera data från tidsserieexperiment på synkroniserade populationer av celler. Metoden använder inlärda parametrar från CLOCCS, en Bayesiansk inferensmodell som använder inmatade cellcykelfasdata, såsom spirande data och flödescytometrisk DNA-innehållsdata, för att parametrisera varje experiment^14,15. CLOCCS använder indata från cellcykeln för att härleda parametrarna för varje experiment, som sedan används för anpassning till en gemensam livlinjeskala. Genom att konvertera flera synkroniserings-/frisläppningstidsserieexperiment till en enda livlinejusterad tidsskala möjliggörs fasspecifika och relevanta jämförelser mellan experiment och aggregering av flera replikatexperiment, som tidigare var svåra eller omöjliga.

De kritiska stegen i det här protokollet omfattar insamling av data, körning av CLOCCS, justering av datauppsättningar och jämförelse mellan datauppsättningarna. Först måste data samlas in för användning i detta protokoll. Data måste bestå av både experimentell datainnehållande information om frågan om intresse (dvs. transkriptomiska data, genuttrycksdata, proteomikdata) och cellcykelfasdata som innehåller information om cellcykelns fas (dvs. spirande data, flödescytometriska DNA-innehållsdata). Sedan kan cellcykelfasdata användas i CLOCCS för att samla in parameterinformationen för varje experiment. Parametrarna μ₀ (återhämtningsfaslängd) och λ (modercellscykelperiod) används för att omvandla tidpunkterna till livlinpunkter. Livlinepunktsjusteringen gör det möjligt att jämföra de justerade tidsserierna direkt.

En begränsning med metoden är att korrekt anpassning är beroende av att identifiera en bra passform till data. Att uppnå bästa CLOCCS-passform beror på kvaliteten på cellcykelfasdata och användningen av rätt ingångsinställningar för experimentet i CLOCCS. Anpassningen till cellcykelfasdata bestämmer noggrannheten hos de inlärda parametrarna och påverkar således i hög grad noggrannheten i inriktningen, eftersom det beror på användningen av dessa parametrar. Eftersom breda förändringar i parametrarna i hög grad skulle påverka anpassningen förblir förändringarna minimala inom det konfidensintervall som anges i CLOCCS-utdata (kompletterande figur S3). Det är viktigt att notera att denna känslighet för variationer i parametrarna också är det som möjliggör anpassning mellan datauppsättningar med varierande cellcykeltiming.

Noggrannheten hos CLOCCS-passningen kan bestämmas med hjälp av den resulterande CLOCCS-passningskurvan och motsvarande felstaplar och felband (figur 3B,D, kompletterande figur S1 och kompletterande figur S2). Fliken CLOCCS fit visar de ursprungliga datapunkterna, liksom CLOCCS-passningskurvan med konfidensbandet som motsvarar konfidensintervallet för CLOCCS-passningen och felstaplarna som motsvarar 95% binomialproportionens konfidensintervall för data, eftersom räkningarna antas vara oberoende binomiala slumpvariabler¹⁴. Till exempel mäter förtroendestaplarna på spirande data förtroendet för andelen buddade celler för ett givet prov.

En metod för att bestämma kvaliteten på CLOCCS-passningen innebär att bestämma om felstaplarna för data överlappar konfidensintervallbandet för CLOCCS-passningen. En annan indikation är bredden på 95% konfidensband för CLOCCS-passformen. I allmänhet minskar bandets bredd med ökad passform. En indikation på dålig inriktning är om cellcykelfasen för originaldata inte matchar cellcykelfasen som härleds från inriktningen. Varje inriktning kan dubbelkontrolleras genom att bekräfta att för varje tidpunkt matchar den fas som indikeras av cellcykelfasinformationsdata med cellcykelfasen som tilldelats av inriktningen.

En dålig CLOCCS-passform eller dålig inriktning kan vara resultatet av cellcykelfasdata av låg kvalitet. Högkvalitativa spirande data kommer att ha en mycket låg spirande procent omedelbart efter arrestering och en mycket hög spirande procent vid den första toppen. De efterföljande topparna och dalarna kommer att förlora synkronisering men bör vara distinkta och jämnt fördelade. Eftersom livlinpunkterna representerar den genomsnittliga cellcykelfasen i befolkningen kan dålig synkronisering också hindra korrekt inriktning. Högkvalitativa flödescytometriska DNA-innehållsdata kommer att ha distinkta 1C- och 2C-toppar för varje tidpunkt som motsvarar lämplig cellcykelfas. Dessutom medför otillräckliga cellcykelfasdata parameteridentifierbarhetsproblem. Om det finns tillräckliga data kan parametrarna härledas och ändras inte väsentligt mellan CLOCCS-körningar. De parametrar som beskrivs i detta protokoll (lambda, delta, mu0) kan emellertid inte lösgöras när cellcykelfasdata endast innehåller en hel cellcykel. För att möjliggöra förbättrad parameteruppskattning bör tillräckliga och välkonstruerade cellcykeldata användas för CLOCCS fits^14,15. Dessutom använder CLOCCS-modellen tidigare information som beskrivs i Orlando et ^al.15, men denna information kan justeras för att bättre passa de experimentella förhållanden som används.

Om kvaliteten på cellcykelfasdata är bra kan justering av CLOCCS-inställningarna hjälpa till att ge en mer exakt passform. Till exempel kan antalet iterationer som valts ökas för att förbättra noggrannheten. Att bekräfta att rätt synkroniseringsmetod valdes i CLOCCS kan också vara användbart, eftersom alfafaktorstopp är förknippat med en kortare återhämtningstid jämfört med eluering.

Denna metod är också begränsad när det gäller de typer av cellcykelfasdata som för närvarande stöds. CLOCCS är dock flexibelt och kan anpassas för att stödja andra typer av data. Till exempel har CLOCCS tidigare anpassats för att stödja cellcykelfluorescerande märkning av spindelpolkroppar, myosinringar och kärnor¹¹ för användning som cellcykelfasidentifierare. Dessutom har användning av CLOCCS med andra arter än S. cerevisiae möjliggjorts. CLOCCS accepterar septationsindex som markör för cellcykelfasen i S. pombe¹⁴, liksom flödescytometriska DNA-innehållsdata, som lätt kan samlas in för många arter¹⁵. Detta möjliggör jämförelse av experimentella data i samma fas av cellcykeln för två helt olika arter och kan ge insikter om förändringar i cellcykeln över evolutionen.

Även om endast stödda former av cellcykelfasdata kan användas med denna livlinejusteringsmetod, är denna metod agnostisk för den typ av tidsserieexperimentella data som används. I detta protokoll har vi demonstrerat dess användning för att anpassa genuttrycket för en enskild gen, såväl som tidsserietranskriptomiska data för hundratals gener i tandem. Vi har visat att denna metod kan användas för att jämföra mellan plattformar och därmed göra jämförelser mellan RNA-seq-dataset och microarray-dataset tagna under liknande förhållanden. Vi har också visat att denna metod kan användas för att anpassa dataset med olika synkroniseringsmetoder genom att jämföra mellan en dataset som eluerades (Condition 1 Microarray) med en dataset som var alfafaktorarresterad (Condition 1 RNA-seq). Tidigare har CLOCCS också använts för att anpassa tidsserietranskriptomiska och tidsserieproteomiska data med hjälp av spirande cellcykelfasdata²², vilket möjliggjorde direkta jämförelser mellan mRNA-dynamiken och dynamiken hos motsvarande protein. CLOCCS har också använts för att anpassa tidsseriedata mellan arter, såsom för anpassning mellan S. cerevisiae och S. pombe¹⁴ och mellan den första cykeln av S. cerevisiae och den patogena jästen Cryptococcus neoformans²¹. Slutligen är CLOCCS-uppriktning för närvarande specifik för tidsseriedata för cellcykeln och har ännu inte anpassats för användning med andra typer av rytmiska processer. Ett område där detta skulle vara av särskilt intresse är för cirkadiska rytmer, där cirkadisk tid (CT) konventionellt används för att anpassa experiment, även om dess genomförande inte tillämpas konsekvent. Ett annat intresseområde är att undersöka utvecklingsrytmer, såsom malariaparasitens. Till exempel skulle anpassningen av Plasmodium falciparum-stammar till olika perioder, som beskrivs i Smith et ^al.25, möjliggöra mer detaljerade jämförelser mellan stammar. Anpassningen av dessa periodiska processer för jämförelse skulle möjliggöra en bättre förståelse av dessa viktiga rytmiska biologiska funktioner. Dessa typer av cellcykeljämförelser har möjliggjorts genom att använda CLOCCS för livlineinriktning, som beskrivs i detta protokoll.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inga intressekonflikter att avslöja.

Acknowledgments

S. Campione och S. Haase fick stöd av finansiering från National Science Foundation (DMS-1839288) och National Institutes of Health (5R01GM126555). Dessutom vill författarna tacka Huarui Zhou (Duke University) för kommentarer om manuskriptet och för betatestning av protokollet. Vi tackar också Francis Motta (Florida Atlantic University) och Joshua Robinson för deras hjälp med Java-koden.

Materials

Name	Company	Catalog Number	Comments
2x PBS			For Fixative Solution. Described in Leman 2014.
4% formaldehyde			For Fixative Solution.
100% Ethanol			For flow cytometry fixation. Described in Haase 2002.
CLOCCS			https://gitlab.com/haase-lab-group/cloccs_alignment.git
Flow Cytometer			For flow cytometry protocol.
Git			https://git-scm.com/
Java 19			https://www.oracle.com/java/technologies/downloads/#java19
Microscope			For counting cells and buds.
Miniconda			https://docs.conda.io/en/latest/
Protease solution			For flow cytometry protocol. Described in Haase 2002.
RNAse A solution			For flow cytometry protocol. Described in Haase 2002.
SYTOX Green Nucleic Acid Stain	Invitrogen	S7020	For flow cytometry staining. Described in Haase 2002.
Tris			pH 7.5

DOWNLOAD MATERIALS LIST

References

Tyers, M., Tokiwa, G., Futcher, B. Comparison of the Saccharomyces cerevisiae G1 cyclins: Cln3 may be an upstream activator of Cln1, Cln2 and other cyclins. EMBO Journal. 12 (5), 1955-1968 (1993).
Schwob, E., Nasmyth, K. CLB5 and CLB6, a new pair of B cyclins involved in DNA replication in Saccharomyces cerevisiae. Genes and Development. 7, 1160-1175 (1993).
Polymenis, M., Schmidt, E. V. Coupling of cell division to cell growth by translational control of the G1 cyclin CLN3 in yeast. Genes and Development. 11 (19), 2522-2531 (1997).
Spellman, P. T., et al. Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Molecular Biology of the Cell. 9 (12), 3273-3297 (1998).
Cho, R. J., et al. A genome-wide transcriptional analysis of the mitotic cell cycle. Molecular Cell. 2 (1), 65-73 (1998).
Bar-Joseph, Z. Analyzing time series gene expression data. Bioinformatics. 20 (16), 2493-2503 (2004).
Pramila, T., Wu, W., Miles, S., Noble, W. S., Breeden, L. L. The Forkhead transcription factor Hcm1 regulates chromosome segregation genes and fills the S-phase gap in the transcriptional circuitry of the cell cycle. Genes and Development. 20 (16), 2266-2278 (2006).
Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
Nash, R., Tokiwa, G., Anand, S., Erickson, K., Futcher, A. B. The WHI1+ gene of Saccharomyces cerevisiae tethers cell division to cell size and is a cyclin homolog. EMBO Journal. 7 (13), 4335-4346 (1988).
Basco, R. D., Segal, M. D., Reed, S. I. Negative regulation of G1 and G2 by S-phase cyclins of Saccharomyces cerevisiae. Molecular and Cellular Biology. 15 (9), 5030-5042 (1995).
Mayhew, M. B., Robinson, J. W., Jung, B., Haase, S. B., Hartemink, A. J. A generalized model for multi-marker analysis of cell cycle progression in synchrony experiments. Bioinformatics. 27 (13), 295-303 (2011).
Qu, Y., et al. Cell cycle inhibitor Whi5 records environmental information to coordinate growth and division in yeast. Cell Reports. 29 (4), 987-994 (2019).
Di Talia, S., Skotheim, J. M., Bean, J. M., Siggia, E. D., Cross, F. R. The effects of molecular noise and size control on variability in the budding yeast cell cycle. Nature. 448 (7156), 947-951 (2007).
Orlando, D. A., et al. A probabilistic model for cell cycle distributions in synchrony experiments. Cell Cycle. 6 (4), 478-488 (2007).
Orlando, D. A., Iversen, E. S., Hartemink, A. J., Haase, S. B. A branching process model for flow cytometry and budding index measurements in cell synchrony experiments. Annals of Applied Statistics. 3 (4), 1521-1541 (2009).
Duan, F., Zhang, H. Correcting the loss of cell-cycle synchrony in clustering analysis of microarray data using weights. Bioinformatics. 20 (11), 1766-1771 (2004).
Darzynkiewicz, Z., Halicka, H. D., Zhao, H. Cell synchronization by inhibitors of DNA replication induces replication stress and DNA damage response: analysis by flow cytometry. Methods in Molecular Biology. 761, 85-96 (2011).
Leman, A. R., Bristow, S. L., Haase, S. B. Analyzing transcription dynamics during the budding yeast cell cycle. Methods in Molecular Biology. 1170, 295-312 (2014).
Rosebrock, A. P. Synchronization and arrest of the budding yeast cell cycle using chemical and genetic methods. Cold Spring Harbor Protocols. 2017 (1), (2017).
Haase, S. B., Reed, S. I. Improved flow cytometric analysis of the budding yeast cell cycle. Cell Cycle. 1 (2), 132-136 (2002).
Kelliher, C. M., Leman, A. R., Sierra, C. S., Haase, S. B. Investigating conservation of the cell-cycle-regulated transcriptional program in the fungal pathogen, Cryptococcus neoformans. PLoS Genetics. 12 (12), e1006453 (2016).
Kelliher, C. M., et al. Layers of regulation of cell-cycle gene expression in the budding yeast Saccharomyces cerevisiae. Molecular Biology of the Cell. 29 (22), 2644-2655 (2018).
Hughes, M. E., Hogenesch, J. B., Kornacker, K. JTK_CYCLE: An efficient nonparametric algorithm for detecting rhythmic components in genome-scale data sets. Journal of Biological Rhythms. 25 (5), 372-380 (2010).
Deckard, A., Anafi, R. C., Hogenesch, J. B., Haase, S. B., Harer, J. Design and analysis of large-scale biological rhythm studies: A comparison of algorithms for detecting periodic signals in biological data. Bioinformatics. 29 (24), 3174-3180 (2013).
Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).

Biology

Anpassning av synkroniserade tidsseriedata med hjälp av den karakteristiska synkroniseringsmodellen för förlust av cellcykel för jämförelser mellan experiment

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.