Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

En R-basert landskapsvalidering av en konkurrerende risikomodell

Published: September 16, 2022 doi: 10.3791/64018
* These authors contributed equally

Summary

Denne protokollen beskriver koder i R for evaluering av diskriminerings- og kalibreringsevnen til en konkurrerende risikomodell, samt koder for intern og ekstern validering av denne.

Abstract

Cox' proporsjonale hasardmodell er mye brukt for overlevelsesanalyser i kliniske settinger, men den er ikke i stand til å håndtere flere overlevelsesutfall. Forskjellig fra den tradisjonelle Cox proporsjonale faremodellen, vurderer konkurrerende risikomodeller tilstedeværelsen av konkurrerende hendelser og deres kombinasjon med et nomogram, en grafisk beregningsenhet, som er et nyttig verktøy for klinikere å gjennomføre en presis prognostisk prediksjon. I denne studien rapporterer vi en metode for å etablere det konkurrerende risikonomogrammet, det vil si evalueringen av dets diskriminering (dvs. konkordansindeks og areal under kurven) og kalibreringsevner (dvs. kalibreringskurver), samt nettofordelen (dvs. beslutningskurveanalyse). I tillegg ble det også utført intern validering ved hjelp av bootstrap-resamples av det opprinnelige datasettet og ekstern validering ved hjelp av et eksternt datasett av det etablerte konkurrerende risikonomogrammet for å demonstrere dets ekstrapoleringsevne. Det konkurrerende risikonomogrammet bør tjene som et nyttig verktøy for klinikere til å forutsi prognose med hensyn til konkurrerende risiko.

Introduction

I de senere år har nye prognostiske faktorer blitt identifisert med utviklingen av presisjonsmedisin, og prognostiske modeller som kombinerer molekylære og kliniskpatologiske faktorer trekker økende oppmerksomhet i kliniske omgivelser. Imidlertid er ikke-grafiske modeller, som Cox-proporsjonal hasardmodell, med resultater av koeffisientverdier, vanskelig for klinikere å forstå1. Til sammenligning er et nomogram et visualiseringsverktøy av regresjonsmodeller (inkludert Cox-regresjonsmodellen, konkurrerende risikomodell, etc.), et todimensjonalt diagram designet for omtrentlig grafisk beregning av en matematisk funksjon2. Det muliggjør verdsettelse av ulike nivåer av variabler i en klinisk modell og beregning av risikoscore (RS) for å forutsi prognose.

Modellevaluering er essensielt i modellkonstruksjon, og to egenskaper er generelt akseptert for evaluering: diskriminering og kalibrering. I kliniske modeller refererer diskriminering til en modells evne til å skille individer som utvikler hendelser fra de som ikke gjør det, for eksempel pasienter som dør mot de som forblir i live, og konkordansindeksen (C-indeks) eller området under mottakerens operasjonskarakteristiske kurve (AUC) brukes vanligvis til å karakterisere den 3,4. Kalibrering er en prosess for å sammenligne de predikerte sannsynlighetene til en modell med de faktiske sannsynlighetene, og kalibreringskurver har blitt mye brukt til å representere den. I tillegg er modellvalidering (intern og ekstern validering) et viktig trinn i modellkonstruksjon, og bare validerte modeller kan ekstrapoleres ytterligere5.

Cox' proporsjonale hasardmodell er en regresjonsmodell som brukes i medisinsk forskning for å undersøke sammenhenger mellom prognostiske faktorer og overlevelsesstatus. Cox' proporsjonale hasardmodell tar imidlertid bare hensyn til to utfallsstatuser [Y (0, 1)], mens forsøkspersoner ofte står overfor mer enn to statuser, og konkurrerende risikoer oppstår [Y (0, 1, 2)]1. Total overlevelse (OS), som er definert som tiden fra opprinnelsesdato (f.eks. behandling) til dødsdato uansett årsak, er det viktigste endepunktet i overlevelsesanalysen. OS klarer imidlertid ikke å skille kreftspesifikk død fra ikke-kreftspesifikk død (f.eks. kardiovaskulære hendelser og andre ikke-relaterte årsaker), og ignorerer dermed konkurrerende risikoer6. I disse situasjonene foretrekkes den konkurrerende risikomodellen for prediksjon av overlevelsesstatus med hensyn til konkurrerende risiko7. Metodikken for å konstruere og validere Cox' proporsjonale faremodeller er veletablert, mens det har vært få rapporter om validering av konkurrerende risikomodeller.

I vår tidligere studie ble det etablert et spesifikt konkurrerende risikonomogram, en kombinasjon av et nomogram og en konkurrerende risikomodell og en risikoskårestimering basert på en konkurrerende risikomodell8. Denne studien tar sikte på å presentere ulike metoder for evaluering og validering av det etablerte konkurrerende risikonomogrammet, som skal tjene som et nyttig verktøy for klinikere til å forutsi prognose med hensyn til konkurrerende risiko.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Databasen Surveillance, Epidemiology, and End Results (SEER) er en åpen kreftdatabase som bare inneholder avidentifiserte pasientdata (SEER-ID: 12296-Nov2018). Derfor ble denne studien unntatt fra godkjenning av gjennomgangsstyret for det tilknyttede Jinhua-sykehuset, Zhejiang University School of Medicine.

1. Dataforberedelse og forberedelse av R-pakker

  1. Klargjør og importer dataene.
    > Datasett <- les.csv (".../Brystkreftdata.xlsx") #Import data.
    MERK: Dataene lastes opp i tilleggsfil 1.
  2. Installer og last inn R-pakkene.
    > pakker <- c("rms","cmprsk","mstate","survival","riskRegression","
    prodlim")
    > req.pcg <- funksjon(pcg){
    nye <- GF[!( pcg %in% installed.packages()[, "pakke"])]
    if (lengde (ny)) install.packages(ny, avhengigheter = T)
    sapply(pcg, krever, ch = T)
    }
    > req.pcg(pakker)

    MERK: Utfør følgende prosedyrer basert på R-programvare (versjon 3.6.2) ved hjelp av pakkene rms, cmprsk, mstate, survival, riskRegression og prodlim (http://www.r-projectrg/ ).

2. Etablere konkurrerende risikonomogrammer i to forskjellige metoder

  1. Etablere det konkurrerende risikonomogrammet i en direkte metode.
    > mod_cph <- cph(Surv(Survivalmonths, status) ~ faktor1+ faktor2+...,
    x=T, y=T, surv=T, data=Datasett)
    > nom <- nomogram(mod_cph, fun=list(function(x) 1-surv_cph(36, x)...),
    funlabel=c("3-års event1 Prob." ...), lp=F)
    #Take den 36. måneden som eksempel.
    > mod_crr <- crr(Survivalmonths, fstatus, failcode=1, cov1=cov)
    > poengsum <- log(log((1-real.3y),(1-cif.min36)))/(maxbeta/100)
    > plottet (nom)
  2. Etablere det konkurrerende risikonomogrammet i en vektet metode.
    > df.w <- crprep ("Survivalmonths"," fstatus",
    data=Datasett, trans=c(1;2), folketelling=0,
    behold=c("faktor1"," faktor2"...))
    > mod.w <- cph(Surv(Tstart, Tstop, status==1) ~ faktor1+faktor2+...,
    data=df.w, weight=weight.cens, delmengde=failcode==1, surv=T)
    > nom.w <- nomogram (mod.w ...)

3. Diskrimineringsevnen til det konkurrerende risikonomogrammet

  1. C-indeks for diskriminering
    1. Monter matrise-cov i den konkurrerende risikomodellen mod_crr. og få en spådd matrise-SUV.
      > SUV <- Predict.crr (mod_crr, CoV)
    2. Få de kumulative forekomstene i en bestemt måned fra suv og beregne C-indeksen med funksjonen rcorr.cens.
      > CIF36 <- SUV[som(SUV[,1]==36),][-1]
      > rcorr <- rcorr.cens(1-cif36,Surv(Dataset$Survivalmonths,Dataset$tumordeath))
      > Cindex <- rcorr[1]
  2. AUC for diskriminering
    1. Skår den konkurrerende risikomodellens prediktive ytelse ved hjelp av funksjonsskåren (riskRegression package).
      > fgr.w <- FGR(Hist(Survivalmonths, fstatus) ~ faktor1+ faktor2+..., data=Datasett, årsak=1)
      > poengsum <- Poengsum(liste("Fine-Gray" = fgr.w),
    2. Pakk ut AUC fra "score".
      > score$AUC

4. Kalibreringsevnen til konkurrerende risikomodeller

  1. Kalibreringskurver med 95 % konfidensintervall for den konkurrerende risikomodellen
    1. Få en dataramme med de kumulative forekomstene til hver enkelt person på en bestemt feiltid.
      > cif36 <- data.frame(cif36) #Take den 36 . måneden som et eksempel.
      > Colnames(cif36.36_o)<-C("36M")
    2. Del kohorten i henhold til estimert kumulativ forekomst i fem undergrupper og beregn gjennomsnittlig forventet kumulativ forekomst for hver undergruppe.
      > gruppe36 <- kutt (cif36 $ '36m',
      quantile(cif36$'36m', seq(0, 1, 0.2)),
      include.low = SANN, etiketter = 1:5)
      > mean36 <- as.vector(by(cif36 $'36m', group36, mean))
    3. Beregn de observerte kumulative forekomstene, det vil si de faktiske kumulative forekomstene, ved hjelp av funksjonen cuminc, og få deretter de observerte kumulative forekomstene med et 95% konfidensintervall i en viss feiltid.
      > cum36 <- cuminc(Dataset$Survivalmonths,Dataset$fstatus,group36)
      > obs36 <- tidspunkter(cum36,Dataset$Survivalmonths)$est[c(1:5),36]
      > obs36var <- tidspunkter(cum36,Dataset$Survivalmonths)$var[c(1:5),36]
      > df <- data.frame(mean36, obs36, obs36var)
    4. Plott kalibreringskurven med de predikerte kumulative forekomstene som x-aksen og de observerte kumulative forekomstene som y-aksen ved hjelp av funksjonen ggplot.
      > ggplot(df)+ geom_point(aes(x=mean36,y=obs36),col="red")+
      geom_point(aes(x=mean36,y=obs36),col="red",pch=4)+
      geom_line(col="red",aes(x=mean36,y=obs36))+
      geom_errorbar(col="rød",aes(x=mean36,y=obs36+1.96
      * SQRT (obs36var)),
      ymin =obs36-1,96*sqrt(obs36var), ymax = obs36+1,96
      * SQRT (obs36var))
      geom_abline(lty=3,lwd=2,col=c(rgb(0,118,192,
      maxColorValue=255)))
  2. Kalibreringskurve med risikoscore for den konkurrerende risikomodellen
    1. Vurder hvert nivå av alle variablene og oppnå total RS.
      > Datasett$faktor1[Datasett$faktor1==1] <- faktor1.skala["Factor1_level1"]
      >
      ... #For eksempel Dataset$histology[Dataset$histology==1]<-histology.scale["Histology1"]
      > Datasett$rs <- Datasett$faktor1+Datasett$faktor2+Datasett$faktor3+...
      MERK: Hent total RS for hver pasient ved å summere poengene for hver variabel.
    2. Tell frekvensene og beregn den observerte kumulative forekomsten av de forskjellige totale risikoskårene.
      > rs.freq <- as.data.frame (tabell (Dataset $ rs))
      > obs.36 <- vektor (modus = "numerisk", lengde = nrow (rs.freq))
      > for (i i 1: nrow(rs.freq)) {
      datasett <- delmengde (Datasett; Datasett $ rs == rs.freq [i,1])
      cif.dataset <- cuminc(dataset$Survivalmonths,dataset$death3)
      cif36.dataset <- tidspunkter(cif.dataset,36)
      obs.36[i] <- cif36.dataset$est[1]}
    3. Angi området for x-aksen, og beregn de anslåtte kumulative forekomstene for de totale risikovurderingene.
      > RS <- rekkevidde(nom$total.points)
      > x.36 <- seq(min(RS),maks(RS),0,01)
      > pre.36 <- 1-(1-cif.min36)^exp(x.36*maxbeta/100)
    4. Plott kalibreringskurven med risikoscore.
      > plottet (x.36, pre.36, type = 'l'...)
      > par(ny=SANN)
      > plot (as.vector (rs.freq [,1]), obs.36 ...)

5. Analyse av beslutningskurver av konkurrerende risikomodeller

  1. Kilde stdca-funksjonen for å utføre analysen av beslutningskurven.
    > kilde («STDCA. R")
  2. Trekk ut polynomligningene fra nomogrammet for å beregne overlevelsessannsynligheten.
    > nomogramEx(nomo = nom)
    > Datasett$prediktorer <- A * (Datasett$rs ^3) + B * (Datasett$rs ^2) + C * Datasett$rs + D
    #predictors er predikerte sannsynligheter for kreftspesifikk død beregnet ved det etablerte nomogrammet
  3. Utfør analysen av beslutningskurven.
    > stdca(data = Datasett, utfall = "status", ttoutcome = "Survivalmonths", timepoint = 36,
    prediktorer = "prediktorer", cmprsk = SANN, glatt = USANN, sannsynlighet = USANN)

    MERK: For å evaluere et utfall i nærvær av en konkurrerende risiko, bør TRUE velges for cmprsk.

6. Intern validering ved hjelp av bootstrap-metoden

  1. Få gjennomsnittlig anslått kumulativ forekomst ved hjelp av bootstrap-metoden.
    1. Ta nytt utsnitt av det opprinnelige datasettet (datasettet) med erstatning for å generere oppstartsdatasettet (Dataset_in). Opprett en konkurrerende risikomodell (mod.in_crr) med oppstartsdatasettet. Bruk funksjonen predict.crr til å forutsi mod.in_crr og sløyfe b ganger for å generere suvall.in.
      B=b
      suvall.in <- liste()
      for(j i 1:B){
      Dataset_in <- Datasett[sample(c(1:nrow(Dataset)),nrow(Datasett),
      erstatt = SANN),]
      feste(Dataset_ i)
      Cov. i <- model.matrix(~faktor1+ faktor2+...) [,-1]
      Mod. i _crr <- crr(Survivalmonths, fstatus, failcode=1, cov1=cov.in)
      koble fra(Datasett. innvendig)
      SUV. i <- predict.crr(mod. i _crr, cov)
      suvall.in[[j]] <- suv.in}
    2. Få gjennomsnittlig anslått kumulativ forekomst i en bestemt måned.
      CIF36All. indre <- vektor(modus="numerisk", lengde=nrow(datasett))
      for (k i 1:B) {
      CIF36All. Indre<- CIF36All. Inner+ SUVALL. inner[[k]][som(suvall. inner[[k]][,1]==36),][-1]
      }
      cif36.in <- cif36all.in/B
  2. Beregn C-indeksen ved hjelp av intern kryssvalidering med funksjonen rcorr.cens.
    rcorr. indre <- rcorr.cens(1-cif36.in,Surv(Dataset$Survivalmonths,Dataset$tumordeath))
    Cindex. indre <- rcorr. indre[1]
  3. Kalibrer ved hjelp av kryssintern validering.
    MERK: Kodene for kalibreringskurven til den konkurrerende risikomodellen med intern validering ligner kodene i avsnitt 4, mens suv ble erstattet av suv.in.

7. Ekstern validering av den konkurrerende risikomodellen

  1. Få de anslåtte kumulative forekomstene ved hjelp av eksterne data. Få de anslåtte kumulative forekomstene med matrisen av eksterne datavariabler (cov.ex).
    suv.ex <- predict.crr (mod_crr, cov.ex)
    cif36.ex <- suv.ex [som(suv.ex $time=="36"),][-1]
  2. Beregn C-indeksen ved hjelp av ekstern validering.
    rcorr.ex <- rcorr.cens(1-cif36.ex,Surv(Dataset.ex$Survivalmonths,Dataset.ex$tumordeath))
    cindex.ex <- rcorr.ex[1]
  3. Kalibrer ved hjelp av ekstern validering.
    MERK: Kodene for kalibreringskurven til den konkurrerende risikomodellen med intern validering ligner kodene i avsnitt 4, mens suv erstattes av suv.ex.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I denne studien ble data om pasienter med brystkreft hentet fra SEER-databasen og fungerte som eksempeldata. SEER-databasen gir data om kreft som representerer rundt 34.6% av USAs befolkning, og tillatelse til å få tilgang til databasen ble oppnådd (referansenummer 12296-Nov2018).

To nomogrammer (figur 1), begge med histologisk type, differensiert karakter, T-stadium og N-stadium, ble etablert med henholdsvis direkte metode og vektet metode. Poengene for hvert nivå av variabler og sannsynlighetene som tilsvarer de totale poengene var nesten de samme, mens noen små forskjeller ble observert. Zhang et al. introduserte en "vektet" tilnærming for å etablere et konkurrerende risikonomogram, som først transformerte de opprinnelige dataene til vektede data (ved hjelp av funksjonscrprep), deretter konstruerte en Cox-regresjonsmodell med de vektede dataene (ved hjelp av funksjonscoxph), og til slutt etablerte et konkurrerende risikonomogram med Cox-regresjonsmodellen (ved bruk av funksjonsnomogram)9. I motsetning til dette er den "direkte" tilnærmingen i denne studien helt forskjellig fra den "vektede". Kort fortalt erstattet parametrene generert fra den konkurrerende risikomodellen (ved bruk av funksjon crr) parametrene i Cox-regresjonsmodellen (ved bruk av funksjonscoxph), som til slutt ble brukt til å etablere det konkurrerende risikonomogrammet (ved bruk av funksjonsnomogram). I sammenligningen av nomogrammene etablert ved den "vektede" metoden og den "direkte" metoden var de to nomogrammene generelt like, mens noen små forskjeller kunne observeres. Den "direkte" metoden i studien er mer presis fordi den får parametrene for å konstruere nomogrammet direkte (med formelen "score = log (log ((1-real.3y), (1-cif.min36))) / (maxbeta / 100)" i seksjon 2).

I rcorr.cens(X, Surv) er X en numerisk prediktor med kumulative forekomster til enhver tid, og Surv er et overlevelsesobjekt som inneholder overlevelsesmåneder og status. Når Surv definerer pasienter som opplever konkurrerende hendelser som sensurert og deretter genererer et livsbord, er det evaluerbare ordnede paret identisk. C-indeksen til den konkurrerende risikomodellen uten validering var 0,7978 (95 % KI = 0,7650-0,8305), noe som indikerer at denne modellen hadde moderat diskrimineringsevne. Bootstrap-analysen ble gjentatt 500 ganger, og de 500 resultatene ble deretter gjennomsnittet for å gi et enkelt estimat for beregning av C-indeksen. C-indeksen i den interne valideringen var 0,7978 (95 % KI = 0,7651-0,8305), som var lik C-indeksen i det opprinnelige materialet. Et eksternt datasett ble tilpasset den konkurrerende risikomodellen, og C-indeksen i den eksterne valideringen var 0,5071 (95 % KI = 0,4637-0,5505). AUC for den konkurrerende risikomodellen ble beregnet ut fra det opprinnelige datasettet i studien. AUC ved 36. måned var 0,8461 (95 % KI = 0,8232-0,8691), noe som viser modellens diskrimineringsevne.

Som vist i figur 2A var punkter på kalibreringskurven nær ekvivalenslinjen, og 95 % KI av den observerte frekvensen falt inn i ekvivalenslinjen i hver gruppe, noe som indikerer modellens nøyaktige kalibreringsevne. Kalibreringskurver ved hjelp av intern og ekstern validering er vist i henholdsvis figur 2B og figur 2C, noe som indikerer at den konstruerte modellen hadde en god kalibreringsevne i den interne valideringen, men en dårlig i den eksterne valideringen.

Som vist i tilleggsfigur 1 representerte punktene de observerte kumulative insidensene fordelt rundt linjen de predikerte kumulative insidensene, og ingen signifikante forskjeller ble observert mellom de observerte og predikerte insidensene. Resultatene fra beslutningskurveanalysen er vist i figur 3, som viser endringene i netto nytte med økende terskelsannsynlighet.

Figure 1
Figur 1: Etablering av konkurrerende risikonomogram med to metoder . (A) Nomogram etablert ved hjelp av den direkte metoden. (B) Nomogram etablert ved hjelp av den vektede metoden. Histologi: 1,invasivt duktalt karsinom; 2, invasivt lobulært karsinom; 3, invasivt duktalt karsinom + invasivt lobulært karsinom. Karakter: 1, godt differensiert; 2, moderat differensiert; 3, dårlig differensiert. T-trinn: 1, T1 trinn; 2, T2 trinn; 3, T3 trinn; 4, T4 trinn. N Stage: 0, N0 scenen; 1, N1 trinn; 2, N2 trinn; 3, N3 trinn. Forkortelse: CSD = kreftspesifikk død. Klikk her for å se en større versjon av denne figuren.

Figure 2
Figur 2: Kalibreringskurver for det konkurrerende risikonomogrammet. (A) Kalibreringskurve med et konfidensintervall for den etablerte konkurrerende risikomodellen. (B) Kalibreringskurve for den konkurrerende risikomodellen i den interne valideringen. (C) Kalibreringskurve for den konkurrerende risikomodellen i den eksterne valideringen. Klikk her for å se en større versjon av denne figuren.

Figure 3
Figur 3: Beslutningskurveanalyse av det konkurrerende risikonomogrammet. Nettonytten er plottet mot terskelsannsynligheten. "Alle" -linjen viser nettofordelen ved å vurdere alle pasientene som led kreftspesifikk død, og "ingen" -linjen er nettofordelen ved å vurdere alle pasientene som ikke led kreftspesifikk død. Klikk her for å se en større versjon av denne figuren.

Tilleggsfil 1: Data om brystkreft. Titteldefinisjon: karaktermodifisere, differensiert karakter; histologi, histologisk type; stadiumT, tumor T-stadium; stadiumN, tumor N stadium; Overlevelsesmåneder, tiden fra behandlingsdato til dødsdato på grunn av enhver årsak eller sensor; død, død (inkludert kreftspesifikt dødsfall og ikke-kreftspesifikt dødsfall) eller sensur; død3, kreftspesifikt dødsfall, ikke-kreftspesifikt dødsfall eller sensur. Klikk her for å laste ned denne filen.

Tilleggsfigur 1: Kalibreringskurve med risikoscore for den etablerte konkurrerende risikomodellen. Punktene som representerer de observerte kumulative forekomstene ble fordelt rundt linjen som representerer de predikerte kumulative forekomstene. Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denne studien sammenlignet konkurrerende risikonomogrammer etablert ved to forskjellige metoder og gjennomførte evaluering og validering av de etablerte nomogrammene. Spesielt ga denne studien en trinnvis veiledning for å etablere nomogrammet basert på en direkte metode, samt beregne C-indeksen og plotte kalibreringskurvene.

RMS-pakken i R-programvaren er mye brukt til konstruksjon og evaluering av Cox proporsjonale faremodeller, men den er ikke anvendelig for konkurrerende risikomodeller. For modeller med flere utfall rapporterte Zhang et al. en validering av konkurrerende risikomodeller ved hjelp av riskRegression-pakken i R-programvare, som beregner AUC- og Brier-poengsummen for å evaluere diskrimineringsevnen og plotter kalibreringskurver for å validere kalibreringsevnen 9,10.

RiskRegression-pakken har imidlertid noen mangler, for eksempel manglende beregning av C-indeksen. C-indeksen er andelen konkordante evaluerbare ordnede par i alle evaluerbare ordnede par (C-indeks = konkordante evaluerbare ordnede par / alle evaluerbare ordnede par)3,11. I tradisjonell tostatusoverlevelsesanalyse er det kun par der de to pasientene begge lider død (Di = 1, Dj = 1) eller pasienten som lider av døden har kortere overlevelsesmåneder enn pasienten som feiler, som kan bli et evaluerbart ordnet par (Di = 1, Dj = 0, Ti < Tj) (i = pasient i, j = pasient j, T = tid, D = status, 1 = død, 0 = svikt). I sammenheng med konkurrerende risikoer forblir pasienter som mislykkes fra den konkurrerende risikoen, fortsatt i risikosettet fordi det bare kan utlede at pasienter som opplever konkurrerende hendelser, har lengre overlevelsesmåneder enn observert. I tillegg er det bare par der de to pasientene begge lider død (Di = 1, Dj = 1) eller pasienten som lider av døden har kortere overlevelsesmåneder enn pasienten som mislykkes eller opplever en konkurrerende hendelse, bli et evaluerbart ordnet par (Di = 1, Dj = 0|2, Ti < Tj) (i = pasienter i, j = pasient j, T = tid, D = status, 2 = konkurrerende arrangement, 1 = død, 0 = fiasko). Derfor brukte denne studien funksjonen rcorr.cens til å beregne C-indeksen.

I den interne valideringen av den konkurrerende risikomodellen anvendte denne studien bootstrap-metoden og demonstrerte god ytelse for den konstruerte modellen12. En randomisert inndeling i trenings- og testdatasett kan være problematisk siden testdatasettet sannsynligvis vil være spesielt enkelt (eller vanskelig) å forutsi13. K-fold-metoden kan også brukes til kryssvalidering, mens den har blitt brukt sjeldnere i modellvalidering 5,14. Denne studien gjennomførte også en ekstern validering av den konkurrerende risikomodellen, men den fungerte ikke bra i den eksterne konteksten. Dette kan tilskrives det faktum at dataene våre som ble brukt til den eksterne valideringen, bare var et omsampling av de opprinnelige dataene.

Det er imidlertid flere begrensninger ved denne studien. For det første er vår metodikk basert på R-programvare; Derfor trenger brukerne en viss programmeringskunnskap, noe som kan begrense målgruppen. I tillegg er det hundrevis av kodelinjer, og noen koder trenger endringer for forskjellige data; Vi håper å utvikle en "alt-i-ett" R-pakke i fremtidig forskning som kan brukes på alle typer data. Denne studien har ikke andre brystkreftdata for å gjennomføre en ekstern validering og hadde ikke noe annet valg enn å ta prøver fra de opprinnelige dataene, men metodene og kodene for ekstern validering er de samme. Viktigst av alt, lineariteten mellom kovariater og utfall antatt i studien kan ikke stemme i en real-world studie, og interaksjon og ikke-linearitet bør vurderes, for hvilket ensemblemodellering kan være nyttig15.

Avslutningsvis etablerte denne studien det konkurrerende risikonomogrammet i en "direkte" metode og evaluerte diskriminerings- og kalibreringsevnen i originale, interne og eksterne datasett. Håpet er at det konkurrerende risikonomogrammet skal fungere som et supplement til risikoregresjonspakken i R og gi bistand til å håndtere kliniske konkurrerende risikohendelser.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne erklærer at de ikke har noen konkurrerende interesser.

Acknowledgments

Studien ble støttet av tilskudd fra Medical Science & Technology Plan Project of Zhejiang-provinsen (tilskuddsnummer 2013KYA212), det generelle programmet til Zhejiang Province Natural Science Foundation (tilskuddsnummer Y19H160126), og nøkkelprogrammet til Jinhua Municipal Science & Technology Bureau (tilskuddsnummer 2016-3-005, 2018-3-001d og 2019-3-013).

Materials

Name Company Catalog Number Comments
R software None Not Applicable Version 3.6.2 or higher 
Computer system Microsoft  Windows 10  Windows 10 or higher

DOWNLOAD MATERIALS LIST

References

  1. Andersen, P. K., Gill, R. D. Cox's regression model for counting processes: A large sample study. The Annals of Statistics. 10 (4), 1100-1120 (1982).
  2. Lubsen, J., Pool, J., vander Does, E. A practical device for the application of a diagnostic or prognostic function. Methods of Information in Medicine. 17 (2), 127-129 (1978).
  3. Harrell, F. E., Lee, K. L., Mark, D. B. Multivariable prognostic models: Issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Statistics In Medicine. 15 (4), 361-387 (1996).
  4. Hung, H., Chiang, C. -T. Estimation methods for time-dependent AUC models with survival data. The Canadian Journal of Statistics / La Revue Canadienne de Statistique. 38 (1), 8-26 (2010).
  5. Moons, K. G. M., et al. Risk prediction models: I. Development, internal validation, and assessing the incremental value of a new (bio)marker. Heart. 98 (9), 683-690 (2012).
  6. Fu, J., et al. Real-world impact of non-breast cancer-specific death on overall survival in resectable breast cancer. Cancer. 123 (13), 2432-2443 (2017).
  7. Fine, J. P., Gray, R. J. A proportional hazards model for the subdistribution of a competing risk. Journal of the American Statistical Association. 94 (446), 496-509 (1999).
  8. Wu, L., et al. Establishing a competing risk regression nomogram model for survival data. Journal of Visualized Experiments. (164), e60684 (2020).
  9. Zhang, Z., Geskus, R. B., Kattan, M. W., Zhang, H., Liu, T. Nomogram for survival analysis in the presence of competing risks. Annals of Translational Medicine. 5 (20), 403 (2017).
  10. Zhang, Z. H., et al. Overview of model validation for survival regression model with competing risks using melanoma study data. Annals Of Translational Medicine. 6 (16), 325 (2018).
  11. Newson, R. Confidence intervals for rank statistics: Somers' D and extensions. Stata Journal. 6 (3), 309-334 (2006).
  12. Davison, A. C., Hinkley, D. V., Schechtman, E. Efficient bootstrap simulation. Biometrika. 73 (3), 555-566 (1986).
  13. Roecker, E. B. Prediction error and its estimation for subset-selected models. Technometrics. 33 (4), 459-468 (1991).
  14. Steyerberg, E. W., Harrell, F. E. Prediction models need appropriate internal, internal-external, and external validation. Journal of Clinical Epidemiology. 69, 245-247 (2016).
  15. Zhang, Z., Chen, L., Xu, P., Hong, Y. Predictive analytics with ensemble modeling in laparoscopic surgery: A technical note. Laparoscopic, Endoscopic and Robotic Surgery. 5 (1), 25-34 (2022).

Tags

Kreftforskning utgave 187 Konkurrerende risikomodell nomogram diskriminering kalibrering modellvalidering
En R-basert landskapsvalidering av en konkurrerende risikomodell
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Lin, H., Zheng, H., Ge, C., Ling,More

Lin, H., Zheng, H., Ge, C., Ling, L., Yin, R., Wang, Q., Zhang, X., Zhou, S., Jin, X., Xu, X., Fu, J. An R-Based Landscape Validation of a Competing Risk Model. J. Vis. Exp. (187), e64018, doi:10.3791/64018 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter