Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

En R-baseret landskabsvalidering af en konkurrerende risikomodel

Published: September 16, 2022 doi: 10.3791/64018
* These authors contributed equally

Summary

Denne protokol beskriver koder i R til evaluering af en konkurrerende risikomodels diskriminerings- og kalibreringsevne samt koder til intern og ekstern validering af den.

Abstract

Cox-proportional faremodellen anvendes i vid udstrækning til overlevelsesanalyser i kliniske omgivelser, men den er ikke i stand til at klare flere overlevelsesresultater. Forskellig fra den traditionelle Cox proportional faremodel overvejer konkurrerende risikomodeller tilstedeværelsen af konkurrerende begivenheder og deres kombination med et nomogram, en grafisk beregningsenhed, som er et nyttigt værktøj for klinikere til at foretage en præcis prognostisk forudsigelse. I denne undersøgelse rapporterer vi en metode til etablering af det konkurrerende risikonomogram, det vil sige evalueringen af dets diskrimination (dvs. konkordansindeks og areal under kurven) og kalibreringsevner (dvs. kalibreringskurver) samt nettofordelen (dvs. beslutningskurveanalyse). Derudover blev der også udført intern validering ved hjælp af bootstrap-resamples af det oprindelige datasæt og ekstern validering ved hjælp af et eksternt datasæt af det etablerede konkurrerende risikonomogram for at demonstrere dets ekstrapoleringsevne. Det konkurrerende risikonomogram bør tjene som et nyttigt værktøj for klinikere til at forudsige prognose under hensyntagen til konkurrerende risici.

Introduction

I de senere år er nye prognostiske faktorer blevet identificeret med udviklingen af præcisionsmedicin, og prognostiske modeller, der kombinerer molekylære og kliniskpatologiske faktorer, tiltrækker stigende opmærksomhed i kliniske omgivelser. Imidlertid er ikke-grafiske modeller, såsom Cox proportional hazard model, med resultater af koefficientværdier, vanskelige for klinikere at forstå1. Til sammenligning er et nomogram et visualiseringsværktøj af regressionsmodeller (herunder Cox-regressionsmodellen, konkurrerende risikomodel osv.), Et todimensionelt diagram designet til den omtrentlige grafiske beregning af en matematisk funktion2. Det muliggør værdiansættelse af forskellige niveauer af variabler i en klinisk model og beregning af risikoscore (RS) for at forudsige prognosen.

Modelevaluering er afgørende i modelkonstruktion, og to egenskaber accepteres generelt til evaluering: diskrimination og kalibrering. I kliniske modeller henviser diskrimination til en models evne til at adskille personer, der udvikler begivenheder, fra dem, der ikke gør det, såsom patienter, der dør versus dem, der forbliver i live, og konkordansindekset (C-indeks) eller området under modtagerens driftskarakteristikkurve (AUC) bruges typisk til at karakterisere det 3,4. Kalibrering er en proces til sammenligning af de forudsagte sandsynligheder for en model med de faktiske sandsynligheder, og kalibreringskurver er blevet brugt i vid udstrækning til at repræsentere den. Derudover er modelvalidering (intern og ekstern validering) et vigtigt skridt i modelkonstruktion, og kun validerede modeller kan ekstrapoleres yderligere5.

Cox proportional hazard model er en regressionsmodel, der anvendes i medicinsk forskning til at undersøge sammenhængen mellem prognostiske faktorer og overlevelsesstatus. Cox-proportional faremodel tager imidlertid kun hensyn til to statusser for resultatet [Y (0, 1)], mens forsøgspersoner ofte står over for mere end to statusser, og konkurrerende risici opstår [Y (0, 1, 2)]1. Samlet overlevelse (OS), som defineres som tiden fra oprindelsesdatoen (f.eks. behandling) til dødsdatoen uanset årsag, er det vigtigste endepunkt i overlevelsesanalysen. Imidlertid undlader operativsystemet at skelne kræftspecifik død fra ikke-kræftspecifik død (f.eks. kardiovaskulære hændelser og andre ikke-relaterede årsager) og ignorerer dermed konkurrerende risici6. I disse situationer foretrækkes den konkurrerende risikomodel til forudsigelse af overlevelsesstatus under hensyntagen til konkurrerende risici7. Metoden til konstruktion og validering af Cox-proportionale faremodeller er veletableret, mens der kun har været få rapporter om validering af konkurrerende risikomodeller.

I vores tidligere undersøgelse blev der etableret et specifikt konkurrerende risikonomogram, en kombination af et nomogram og en konkurrerende risikomodel og en risikoscoreestimering baseret på en konkurrerende risikomodel8. Denne undersøgelse har til formål at præsentere forskellige metoder til evaluering og validering af det etablerede konkurrerende risikonomogram, som skal tjene som et nyttigt værktøj for klinikere til at forudsige prognose under hensyntagen til konkurrerende risici.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

SEER-databasen (Surveillance, Epidemiology, and End Results) er en kræftdatabase med åben adgang, der kun indeholder afidentificerede patientdata (SEER-id: 12296-nov. 2018). Derfor blev denne undersøgelse fritaget for godkendelse af bedømmelsesudvalget for det tilknyttede Jinhua Hospital, Zhejiang University School of Medicine.

1. Forberedelse af data og forberedelse af R-pakker

  1. Forbered og importér dataene.
    > Datasæt <- læs.csv (".../Breast cancer Data.xlsx") #Import data.
    BEMÆRK: Dataene uploades i supplerende fil 1.
  2. Installer og indlæs R-pakkerne.
    > pakker <- c("rms","cmprsk","mstate","survival","riskRegression","
    prodlim")
    > req.pcg <- function(pcg){
    Ny <- PCG[!( pcg %in% installeret.packages()[, "Pakke"])]
    hvis (længde (ny)) install.packages (ny, afhængigheder = T)
    sapply(pcg, kræve, ch = T)
    }
    > req.pcg (pakker)

    BEMÆRK: Udfør følgende procedurer baseret på R-software (version 3.6.2) ved hjælp af pakkerne rms, cmprsk, mstate, survival, riskRegression og prodlim (http://www.r-projectrg/).

2. Etabler konkurrerende risikonomogrammer i to forskellige metoder

  1. Etablere det konkurrerende risikonomogram i en direkte metode.
    > mod_cph <- cph(Surv(Survivalmonths, status) ~ factor1+ factor2+...,
    x=T, y=T, surv=T, data=Datasæt)
    > nom <- nomogram(mod_cph, fun=list(function(x) 1-surv_cph(36, x)...),
    funlabel=c("3-års begivenhed1 Prob." ...), lp = F)
    #Take den 36. måned som et eksempel.
    > mod_crr <- crr(Survivalmonths;fstatus;failcode=1; cov1=cov)
    > score <- log(log((1-real.3y),(1-cif.min36)))/(maxbeta/100)
    > plot(nom)
  2. Fastlæg det konkurrerende risikonomogram i en vægtet metode.
    > df.w <- crprep ("Survivalmonths"," fstatus",
    data=Datasæt, trans=c(1,2), cens=0,
    keep=c("faktor1"," faktor2"...))
    > mod.w <- cph(Surv(Tstart, Tstop, status==1) ~ faktor1+faktor2+...,
    data=df.w, weight=weight.cens, subset=failcode==1, surv=T)
    > nom.w <- nomogram (mod.w...)

3. Det konkurrerende risikonomograms evne til at forskelsbehandle

  1. C-indeks for forskelsbehandling
    1. Tilpas matrixcov'en til den konkurrerende risikomodel mod_crr . og få en forudsagt matrix-suv.
      > SUV <- predict.crr(mod_crr, cov)
    2. Få de kumulative forekomster i en bestemt måned fra suv og beregne C-indekset med funktionen rcorr.cens.
      > CIF36 <- suv[som(suv[,1]==36),][-1]
      > rcorr <- rcorr.cens(1-cif36,Surv(Dataset$Survivalmonths,Dataset$tumordeath))
      > Cindex <- RCRr[1]
  2. AUC for diskrimination
    1. Bedøm den forudsigende præstation for den konkurrerende risikomodel ved hjælp af funktionen Score (riskRegression-pakke).
      > fgr.w <- FGR(Hist(Survivalmonths, fstatus) ~ factor1+ factor2+..., data=Dataset, cause=1)
      > score <- Score(liste("Fingrå" = fgr.w),
    2. Udtræk AUC fra "score".
      > score$AUC

4. Konkurrerende risikomodellers kalibreringsevne

  1. Kalibreringskurver med et 95 % konfidensinterval for den konkurrerende risikomodel
    1. Få en dataramme med de kumulative forekomster af hver enkelt person inden for en bestemt fejltid.
      > cif36 <- data.frame(cif36) #Take den 36 . måned som eksempel.
      > Colnames(cif36.36_o)<-C("36M")
    2. Opdel kohorten i henhold til de estimerede kumulative forekomster i fem undergrupper, og beregn de gennemsnitlige forventede kumulative forekomster for hver undergruppe.
      > Group36 <- cut(CIF36$'36M',
      kvantil(CIF36$'36M'; seq(0; 1; 0,2));
      include.lowest = TRUE, labels = 1:5)
      > middel36 <- as.vector(by(cif36 $'36m', group36, mean))
    3. Beregn de observerede kumulative forekomster, det vil sige de faktiske kumulative forekomster, ved hjælp af funktionen cuminc, og få derefter de observerede kumulative forekomster med et 95% konfidensinterval i en bestemt fejltid.
      > nøgletal 36 <- spidskommen(datasæt$overlevelsesmåneder;datasæt$fstatus;gruppe36)
      > obs36 <- tidspunkter(cum36;Dataset$Survivalmonths)$est[c(1:5);36]
      > obs36var <- timepoints(cum36;Dataset$Survivalmonths)$var[c(1:5),36]
      > DF <- data.frame(mean36, obs36, obs36var)
    4. Kalibreringskurven afbildes med de forventede kumulative incidenser som x-aksen og de observerede kumulative incidenser som y-aksen ved hjælp af funktionen ggplot.
      > ggplot(df)+ geom_point(aes(x=middelværdi36,y=obs36),col="rød")+
      geom_point(AES(x=middelværdi36;y=obs36),kol="rød";pch=4)+
      geom_line(col="red",aes(x=mean36,y=obs36))+
      geom_errorbar(col="rød";aes(x=middelværdi36;y=obs36+1,96
      *sqrt(obs36var)),
      ymin =obs36-1.96*sqrt(obs36var), ymax = obs36+1.96
      *sqrt(obs36var))
      geom_abline(lty=3;lwd=2;kol=c(rgb(0;118;192;
      maxColorValue = 255)))
  2. Kalibreringskurve med risikoscorer for den konkurrerende risikomodel
    1. Valuer hvert niveau af alle variablerne og få den samlede RS.
      > Dataset$factor1[Dataset$factor1==1] <- factor1.scale["Factor1_level1"]
      >
      ... #For eksempel, Dataset$histology[Dataset$histology==1]<-histology.scale["Histology1"]
      > Datasæt $ rs < - Datasæt $ faktor1 + Datasæt $ faktor2 + Datasæt $ faktor 3 + ...
      BEMÆRK: Få den samlede RS for hver patient ved at opsummere punkterne for hver variabel.
    2. Tæl hyppighederne og beregn de observerede kumulative forekomster af de forskellige samlede risikoscorer.
      > rs.freq <- as.data.frame(table(Dataset$rs))
      > obs.36 <- vektor(mode="numerisk", længde=nrow(rs.freq))
      > for (i i 1: nrow(rs.freq)) {
      datasæt <- delmængde(datasæt;datasæt$rs== rs.freq [i,1])
      cif.dataset <- spidskommen(datasæt$overlevelsesmåneder;datasæt$død3)
      cif36.dataset <- tidspunkter(cif.dataset;36)
      obs.36[i] <- cif36.dataset$est[1]}
    3. Indstil området for x-aksen, og beregn de forudsagte kumulative forekomster af de samlede risikoscorer.
      > RS <- område(nom$total.points)
      > x.36 <- ff(min(RS);max(RS);0,01)
      > pre.36 <- 1-(1-cif.min36)^exp(x.36*maxbeta/100)
    4. Afbild kalibreringskurven med risikoscorer.
      > plot(x.36, pre.36, type='l'...)
      > par(ny=SAND)
      > plot (as.vector (rs.freq [,1]), obs.36 ... )

5. Beslutningskurveanalyse af konkurrerende risikomodeller

  1. Kilde stdca-funktionen for at udføre beslutningskurveanalysen.
    > kilde("stdca. R")
  2. Uddrag polynomiets ligninger fra nomogrammet for at beregne overlevelsessandsynligheden.
    > nomogramEx(nomo = nom)
    > Dataset$predictors <- A * (Dataset$rs ^3) + B * (Dataset$rs ^2) + C * Dataset$rs + D
    #predictors er forudsagte sandsynligheder for kræftspecifik død beregnet af det etablerede nomogram
  3. Udfør beslutningskurveanalysen.
    > stdca(data = datasæt, resultat = "status", ttoutcome = "Survivalmonths", timepoint = 36,
    forudsigere = "forudsigere", cmprsk = SAND, glat = FALSK, sandsynlighed = FALSK)

    BEMÆRK: For at evaluere et resultat i nærvær af en konkurrerende risiko skal TRUE vælges til cmprsk.

6. Intern validering ved hjælp af bootstrap-metoden

  1. Få de gennemsnitlige forudsagte kumulative forekomster ved hjælp af bootstrap-metoden.
    1. Gensample det oprindelige datasæt (datasæt) med erstatning for at generere bootstrap-datasættet (Dataset_in). Opret en konkurrerende risikomodel (mod.in_crr) med bootstrap-datasættet. Brug funktionen predict.crr til at forudsige mod.in_crr og loop b gange for at generere suvall.in.
      B = b
      suvall.in <- liste()
      for(j i 1:B){
      Dataset_in <- Datasæt[eksempel(c(1:nrow(datasæt)),nrow(datasæt),
      erstat = SAND),]
      vedhæft(Dataset_ i)
      cov. i <- model.matrix(~faktor1+ faktor2+...) [,-1]
      mod. i _crr <- crr(Survivalmonths; fstatus, failcode=1, cov1=cov.in)
      løsg.(Datasæt. indre)
      SUV. i <- predict.crr(mod. i _crr, cov)
      suvall.in[[j]] <- suv.in}
    2. Få de gennemsnitlige forudsagte kumulative forekomster i en bestemt måned.
      CIF36ALL. indre <- vektor(mode="numerisk", længde=nrow(datasæt))
      for (k i 1:B) {
      CIF36ALL. Indre<- CIF36ALL. Inder+ SUVALL. indre[[k]][som(suvall. indre[[k]][,1]==36),][-1]
      }
      cif36.in <- cif36all.in/B
  2. Beregn C-indekset ved hjælp af intern krydsvalidering med funktionen rcorr.cens.
    rcorr. indre <- rcorr.cens(1-cif36.in,Surv(Dataset$Survivalmonths,Dataset$tumordeath))
    cindex. indre <- rcorr. indre[1]
  3. Kalibrer ved hjælp af den tværgående interne validering.
    BEMÆRK: Koderne for kalibreringskurven for den konkurrerende risikomodel med intern validering svarer til koderne i afsnit 4, mens suv blev erstattet af suv.in.

7. Ekstern validering af den konkurrerende risikomodel

  1. Få de forudsagte kumulative forekomster ved hjælp af eksterne data. Få de forudsagte kumulative forekomster med matrixen af eksterne datavariabler (cov.ex).
    suv.ex <- forudsige.crr(mod_crr,cov.ex)
    cif36.ex <- suv.ex [som(suv.ex $time=="36"),][-1]
  2. Beregn C-indekset ved hjælp af ekstern validering.
    rcorr.ex <- rcorr.cens(1-cif36.ex,Surv(Dataset.ex$Survivalmonths,Dataset.ex$tumordeath))
    cindex.ex <- rcorr.ex[1]
  3. Kalibrer ved hjælp af ekstern validering.
    BEMÆRK: Koderne for kalibreringskurven for den konkurrerende risikomodel med intern validering svarer til koderne i afsnit 4, mens suv erstattes af suv.ex.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I denne undersøgelse blev data fra patienter med brystkræft hentet fra SEER-databasen og fungerede som eksempeldata. SEER-databasen indeholder data om kræft, der repræsenterer omkring 34,6% af den amerikanske befolkning, og der blev opnået tilladelse til at få adgang til databasen (referencenummer 12296-nov2018).

To nomogrammer (figur 1), begge inklusive histologisk type, differentieret grad, T-trin og N-trin, blev etableret ved hjælp af henholdsvis den direkte metode og den vægtede metode. Punkterne på hvert niveau af variabler og sandsynlighederne svarende til de samlede point var næsten de samme, mens der blev observeret nogle små forskelle. Zhang et al. introducerede en "vægtet" tilgang til at etablere et konkurrerende risikonomogram, som først transformerede de originale data til vægtede data (ved hjælp af funktions-crprep), derefter konstruerede en Cox-regressionsmodel med de vægtede data (ved hjælp af funktion coxph) og endelig etablerede et konkurrerende risikonomogram med Cox-regressionsmodellen (ved hjælp af funktionsnomogram)9. I modsætning hertil er den "direkte" tilgang i denne undersøgelse helt forskellig fra den "vægtede". Kort sagt erstattede parametrene genereret fra den konkurrerende risikomodel (ved hjælp af funktion crr) parametrene i Cox-regressionsmodellen (ved hjælp af funktion coxph), som endelig blev brugt til at etablere det konkurrerende risikonomogram (ved hjælp af funktionsnomogram). Ved sammenligningen af nomogrammerne fastlagt ved den "vægtede" metode og den "direkte" metode var de to nomogrammer generelt ens, mens der kunne observeres nogle små forskelle. Den "direkte" metode i undersøgelsen er mere præcis, fordi den opnår parametrene til konstruktion af nomogrammet direkte (med formlen "score=log(log((1-real.3y),(1-cif.min36)))/(maxbeta/100)" i afsnit 2).

I rcorr.cens(X, Surv) er X en numerisk forudsigelse med kumulative forekomster på et hvilket som helst tidspunkt, og Surv er et overlevelsesobjekt, der indeholder overlevelsesmåneder og status. Når Surv definerer patienter, der oplever konkurrerende begivenheder, som censurerede og derefter genererer en livstabel, er det evaluerbare ordnede par identisk. C-indekset for den konkurrerende risikomodel uden validering var 0,7978 (95% CI = 0,7650-0,8305), hvilket indikerer, at denne model havde moderat diskrimineringsevne. Bootstrap-analysen blev gentaget 500 gange, og de 500 resultater blev derefter beregnet som gennemsnit for at producere et enkelt estimat til beregning af C-indekset. C-indekset i den interne validering var 0,7978 (95% CI = 0,7651-0,8305), hvilket svarede til C-indekset i det oprindelige datasæt. Et eksternt datasæt blev monteret i den konkurrerende risikomodel, og C-indekset i den eksterne validering var 0,5071 (95% CI = 0,4637-0,5505). AUC for den konkurrerende risikomodel blev beregnet ud fra det oprindelige datasæt i undersøgelsen. AUC for 36. måned var 0,8461 (95 % CI = 0,8232-0,8691), hvilket viser modellens diskrimineringsevne.

Som vist i figur 2A lå punkterne på kalibreringskurven tæt på ækvivalenslinjen, og 95 % CI af den observerede frekvens faldt ind i ækvivalenslinjen i hver gruppe, hvilket indikerer modellens nøjagtige kalibreringsevne. Kalibreringskurver med intern og ekstern validering er vist i henholdsvis figur 2B og figur 2C, hvilket indikerer, at den konstruerede model havde en god kalibreringsevne i den interne validering, men en dårlig i den eksterne validering.

Som vist i supplerende figur 1 blev de punkter, der repræsenterer de observerede kumulative incidenser, fordelt omkring den linje, der repræsenterer de forventede kumulative incidenser, og der blev ikke observeret signifikante forskelle mellem de observerede og forventede incidenser. Resultaterne af analysen af beslutningskurven er vist i figur 3, som viser ændringerne i nettoydelsen med stigende tærskelsandsynlighed.

Figure 1
Figur 1: Fastlæggelse af det konkurrerende risikonomogram med to metoder . A) Nomogram udarbejdet ved hjælp af den direkte metode. B) Nomogram udarbejdet efter den vægtede metode. Histologi: 1,invasivt duktalt karcinom; 2, invasivt lobulært karcinom; 3, invasivt duktalt karcinom + invasivt lobulært karcinom. Karakter: 1, godt differentieret; 2, moderat differentieret; 3, dårligt differentieret. T-trin: 1, T1-trin; 2, T2 etape; 3, T3 etape; 4, T4 trin. N Etape: 0, N0 etape; 1, N1 etape; 2, N2 etape; 3, N3 etape. Forkortelse: CSD = kræftspecifik død. Klik her for at se en større version af denne figur.

Figure 2
Figur 2: Kalibreringskurver for det konkurrerende risikonomogram . A) Kalibreringskurve med et konfidensinterval for den etablerede konkurrerende risikomodel. B) Kalibreringskurve for den konkurrerende risikomodel i den interne validering. C) Kalibreringskurve for den konkurrerende risikomodel i den eksterne validering. Klik her for at se en større version af denne figur.

Figure 3
Figur 3: Beslutningskurveanalyse af det konkurrerende risikonomogram. Nettofordelen plottes i forhold til tærskelsandsynligheden. Linjen "alle" viser nettofordelen ved at overveje alle de patienter, der led kræftspecifik død, og linjen "ingen" er nettofordelen ved at overveje alle de patienter, der ikke led kræftspecifik død. Klik her for at se en større version af denne figur.

Supplerende fil 1: Data om brystkræft. Titeldefinition: grademodify, differentieret karakter; histologi, histologisk type; stageT, tumor T-stadium; stageN, tumor N stadium; Survivalmonths, tiden fra behandlingsdatoen til dødsdatoen på grund af en hvilken som helst årsag eller censor; død, død (herunder kræftspecifik død og ikke-kræftspecifik død) eller censor; død3, kræftspecifik død, ikke-kræftspecifik død eller censor. Klik her for at downloade denne fil.

Supplerende figur 1: Kalibreringskurve med risikoscorer for den etablerede konkurrerende risikomodel. De punkter, der repræsenterede de observerede kumulative incidenser, blev fordelt omkring den linje, der repræsenterede de forventede kumulative forekomster. Klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denne undersøgelse sammenlignede konkurrerende risikonomogrammer etableret ved to forskellige metoder og gennemførte evaluering og validering af de etablerede nomogrammer. Specifikt gav denne undersøgelse en trinvis vejledning til etablering af nomogrammet baseret på en direkte metode samt beregning af C-indekset og plotning af kalibreringskurverne.

RMS-pakken i R-software bruges i vid udstrækning til konstruktion og evaluering af Cox-proportionale faremodeller, men den kan ikke anvendes til konkurrerende risikomodeller. For modeller med flere resultater rapporterede Zhang et al. en validering af konkurrerende risikomodeller ved hjælp af riskRegression-pakken i R-software, som beregner AUC- og Brier-scoren for at evaluere diskrimineringsevnen og plotter kalibreringskurver for at validere kalibreringsevnen 9,10.

RiskRegressionspakken har dog nogle mangler, såsom manglende beregning af C-indekset. C-indekset er andelen af overensstemmende evaluerbare ordnede par i alle de evaluerbare ordnede par (C-indeks = overensstemmende evaluerbare ordnede par/alle evaluerbare ordnede par)3,11. I traditionel to-status udfaldsoverlevelsesanalyse kan kun par, hvor de to patienter begge lider død (Di = 1, Dj = 1), eller patienten, der lider døden, har kortere overlevelsesmåneder end patienten, der fejler, blive et evaluerbart ordnet par (Di = 1, Dj = 0, Ti < Tj) (i = patient i, j = patient j, T = tid, D = status, 1 = død, 0 = fiasko). I forbindelse med konkurrerende risici forbliver patienter, der fejler fra den konkurrerende risiko, stadig i risikosættet, fordi det kun kan udlede, at patienter, der oplever konkurrerende begivenheder, har længere overlevelsesmåneder end observeret. Derudover kan kun par, hvor de to patienter begge lider død (Di = 1, Dj = 1), eller patienten, der lider døden, har kortere overlevelsesmåneder end patienten, der fejler eller oplever en konkurrerende begivenhed, blive et evaluerbart ordnet par (Di = 1, Dj = 0|2, Ti < Tj) (i = patienter i, j = patient j, T = tid, D = status, 2 = konkurrerende begivenhed, 1 = død, 0 = fiasko). Derfor brugte denne undersøgelse funktionen rcorr.cens til at beregne C-indekset.

I den interne validering af den konkurrerende risikomodel anvendte denne undersøgelse bootstrap-metoden og demonstrerede god ydeevne for den konstruerede model12. En randomiseret opdeling i trænings- og testdatasæt kan være problematisk, da testdatasættet sandsynligvis vil være særligt let (eller svært) at forudsige13. K-fold-metoden kan også bruges til krydsvalidering, mens den er blevet anvendt mindre hyppigt i modelvalidering 5,14. Denne undersøgelse gennemførte også en ekstern validering af den konkurrerende risikomodel, men den fungerede ikke godt i den eksterne kontekst. Dette kan tilskrive, at vores data, der blev brugt til den eksterne validering, kun var en genprøve af de oprindelige data.

Der er dog flere begrænsninger i denne undersøgelse. For det første er vores metode baseret på R-software; Derfor har brugerne brug for en vis programmeringskendskab, hvilket kan begrænse målgruppen. Derudover er der hundredvis af kodelinjer, og nogle koder har brug for ændringer til forskellige data; Vi håber at udvikle en "alt-i-en" R-pakke i fremtidig forskning, der kan anvendes på alle former for data. Denne undersøgelse har ikke andre brystkræftdata til at udføre en ekstern validering og havde intet andet valg end at genprøve fra de oprindelige data, men metoderne og koderne til ekstern validering er de samme. Vigtigst er det, at lineariteten mellem kovariater og resultater, der antages i undersøgelsen, muligvis ikke gælder i en undersøgelse i den virkelige verden, og interaktion og ikke-linearitet bør overvejes, for hvilken ensemblemodellering kan være nyttig15.

Afslutningsvis etablerede denne undersøgelse det konkurrerende risikonomogram i en "direkte" metode og evaluerede dets diskriminations- og kalibreringsevner i originale, interne og eksterne datasæt. Det er håbet, at det konkurrerende risikonomogram vil fungere som et supplement til riskRegression-pakken i R og yde hjælp til håndtering af kliniske konkurrerende risikohændelser.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne erklærer, at de ikke har nogen konkurrerende interesser.

Acknowledgments

Undersøgelsen blev støttet af tilskud fra Medical Science &; Technology Plan Project of Zhejiang Province (bevillingsnumre 2013KYA212), det generelle program for Zhejiang Province Natural Science Foundation (bevillingsnummer Y19H160126) og nøgleprogrammet for Jinhua Municipal Science &; Technology Bureau (tilskudsnummer 2016-3-005, 2018-3-001d og 2019-3-013).

Materials

Name Company Catalog Number Comments
R software None Not Applicable Version 3.6.2 or higher 
Computer system Microsoft  Windows 10  Windows 10 or higher

DOWNLOAD MATERIALS LIST

References

  1. Andersen, P. K., Gill, R. D. Cox's regression model for counting processes: A large sample study. The Annals of Statistics. 10 (4), 1100-1120 (1982).
  2. Lubsen, J., Pool, J., vander Does, E. A practical device for the application of a diagnostic or prognostic function. Methods of Information in Medicine. 17 (2), 127-129 (1978).
  3. Harrell, F. E., Lee, K. L., Mark, D. B. Multivariable prognostic models: Issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Statistics In Medicine. 15 (4), 361-387 (1996).
  4. Hung, H., Chiang, C. -T. Estimation methods for time-dependent AUC models with survival data. The Canadian Journal of Statistics / La Revue Canadienne de Statistique. 38 (1), 8-26 (2010).
  5. Moons, K. G. M., et al. Risk prediction models: I. Development, internal validation, and assessing the incremental value of a new (bio)marker. Heart. 98 (9), 683-690 (2012).
  6. Fu, J., et al. Real-world impact of non-breast cancer-specific death on overall survival in resectable breast cancer. Cancer. 123 (13), 2432-2443 (2017).
  7. Fine, J. P., Gray, R. J. A proportional hazards model for the subdistribution of a competing risk. Journal of the American Statistical Association. 94 (446), 496-509 (1999).
  8. Wu, L., et al. Establishing a competing risk regression nomogram model for survival data. Journal of Visualized Experiments. (164), e60684 (2020).
  9. Zhang, Z., Geskus, R. B., Kattan, M. W., Zhang, H., Liu, T. Nomogram for survival analysis in the presence of competing risks. Annals of Translational Medicine. 5 (20), 403 (2017).
  10. Zhang, Z. H., et al. Overview of model validation for survival regression model with competing risks using melanoma study data. Annals Of Translational Medicine. 6 (16), 325 (2018).
  11. Newson, R. Confidence intervals for rank statistics: Somers' D and extensions. Stata Journal. 6 (3), 309-334 (2006).
  12. Davison, A. C., Hinkley, D. V., Schechtman, E. Efficient bootstrap simulation. Biometrika. 73 (3), 555-566 (1986).
  13. Roecker, E. B. Prediction error and its estimation for subset-selected models. Technometrics. 33 (4), 459-468 (1991).
  14. Steyerberg, E. W., Harrell, F. E. Prediction models need appropriate internal, internal-external, and external validation. Journal of Clinical Epidemiology. 69, 245-247 (2016).
  15. Zhang, Z., Chen, L., Xu, P., Hong, Y. Predictive analytics with ensemble modeling in laparoscopic surgery: A technical note. Laparoscopic, Endoscopic and Robotic Surgery. 5 (1), 25-34 (2022).

Tags

Kræftforskning udgave 187 Konkurrerende risikomodel nomogram diskrimination kalibrering modelvalidering
En R-baseret landskabsvalidering af en konkurrerende risikomodel
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Lin, H., Zheng, H., Ge, C., Ling,More

Lin, H., Zheng, H., Ge, C., Ling, L., Yin, R., Wang, Q., Zhang, X., Zhou, S., Jin, X., Xu, X., Fu, J. An R-Based Landscape Validation of a Competing Risk Model. J. Vis. Exp. (187), e64018, doi:10.3791/64018 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter