$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
I dati preliminari di qRT-PCR hanno suggerito che un mutante EWS/FLI chiamato DAF, con specifiche mutazioni da tirosina ad alanina nella regione ripetitiva e disordinata di EWS, ha mantenuto la capacità di attivare i geni bersaglio EWS/FLI, ma non è riuscito a reprimere i geni bersaglio critici23. Al fine di comprendere meglio la relazione tra questi residui nel dominio EWS e la funzione EWS/FLI, è stato utilizzato il protocollo sopra descritto e delineato nella Figura 1. Le cellule del sarcoma di Ewing A673 sono state trasdotte viralmente con uno shRNA mirato al 3'UTR di FLI1,con conseguente esaurimento di EWS/FLI endogeni. Dopo quattro giorni di selezione, la funzione EWS/FLI è stata salvata con la trasduzione virale di diversi costrutti mutanti EWS/FLI marcati 3XFLAG, con vettore vuoto come controllo per nessun salvataggio. Un mutante non funzionale privo del dominio EWS, chiamato Δ22, è stato usato come controllo negativo e EWS/FLI wild-type, chiamato wtEF, è stato usato come controllo positivo (Figura 2A). DAF è stato utilizzato come costrutto di test, anche se è possibile utilizzare più di un costrutto di test, se lo si desidera. Le cellule sono state selezionate per altri 10 giorni per consentire l'espressione del costrutto per stabilizzarsi e quindi raccolte per l'RNA (con una fase di rimozione del gDNA), proteine e saggi di formazione di colonie. Sono state raccolte quattro repliche e qRT-PCR rappresentativi e western blot che mostrano un efficace abbattimento e salvataggio sono mostrati nella Figura 2B-D. Va notato che le cellule salvate da DAF non sono riuscite a formare colonie come mostrato nella Figura 2E,suggerendo una ridotta trasformazione oncogenica.
Dopo il completamento della convalida della replica e dei saggi fenotipici, l'RNA è stato presentato all'Istituto di Medicina Genomica presso il Nationwide Children's Hospital per la preparazione della biblioteca e il sequenziamento di prossima generazione con ~ 50 milioni di letture accoppiate da 150 bp raccolte. I dati sono stati restituiti come file fastq.gz. Le letture di bassa qualità sono state tagliate da questi file con TrimGalore e STAR è stato utilizzato per allineare le letture al genoma umano hg19 e contare le letture per gene. hg19 è stato utilizzato ai fini della compatibilità con gli altri set di dati curati per EWS / FLI utilizzati nell'analisi a valle. Questi conteggi di lettura sono stati combinati in un'unica matrice di conteggio per tutti i campioni, le prime 6 righe delle quali sono mostrate nella Figura 3.
I conteggi sono stati inizialmente eseguiti attraverso DESeq2 senza normalizzazione del lotto, tuttavia, l'ispezione visiva della distanza da campione a campione ha mostrato potenziali effetti di confusione del lotto come mostrato evidenziato con frecce rosse nella Figura 4A. Ciò probabilmente è sorto a causa della variabilità biologica introdotta dal passaggio delle cellule in coltura e delle differenze nella lavorazione di ciascun lotto. La normalizzazione per gli effetti batch è stata eseguita con ComBat ed è generalmente raccomandata. Le distanze da campione a campione dei dati normalizzati dal lotto sono mostrate nella Figura 4B. Dopo la normalizzazione del batch, DESeq2 è stato utilizzato per generare profili trascrizionali per i tre costrutti (wtEF, Δ22 e DAF) relativi alla linea di base. Si noti che mentre le cellule A673 "parentali" (mock knockdown e mock rescue, chiamate "iLuc" qui) sono state incluse nell'analisi differenziale, il riferimento per questo esperimento sono le cellule con EWS / FLI-depleted, chiamate cellule iEF. Il profilo trascrizionale può essere generato per la proteina endogena qui confrontando il campione iLuc con iEF, e questo può essere utile per capire come funziona il sistema di salvataggio, ma questo non è l'obiettivo di questa particolare analisi. I profili trascrizionali generati per i mutanti includono controlli positivi (wtEF) e negativi (Δ22), rispetto all'iEF, in modo tale che questi dovrebbero funzionare come parametri di riferimento per altri mutanti. Questo è importante, poiché il controllo positivo in questo esempio non ha completamente ricapitolato la funzione di EWS/FLI endogena come discusso altrove7,23.
L'analisi dei componenti principali (PCA) nella Figura 5 suggerisce che il profilo trascrizionale del DAF è intermedio tra wtEF e Δ22, confermando la funzione parziale. Inoltre, il raggruppamento gerarchico dei 1000 geni più variabili tra i campioni ha mostrato che DAF non è riuscito a reprimere i geni bersaglio EWS / FLI e ha mantenuto solo parzialmente l'attività di attivazione genica come mostrato in Figura 6A e Figura S5. L'analisi di ToppGene ha suggerito che le classi di geni attivate da DAF sono funzionalmente distinte da quei bersagli attivati da EWS/FLI in cui DAF non è funzionale (Figura 6B). È interessante notare che la funzione dei geni attivati salvati da wtEF, ma non da DAF, sembra essere correlata al controllo trascrizionale e alla regolazione della cromatina. Sulla base dei risultati dei test di formazione delle colonie, i geni di questa firma genica di base dovrebbero essere ulteriormente analizzati per il loro ruolo nell'oncogenesi mediata da EWS / FLI. L'importanza della repressione genica mediata da EWS/FLI è stata precedentemente descritta17.
È noto che EWS/FLI possiede un'affinità di legame unica per gli elementi di ripetizione GGAA-microsatellite19,22,e che il legame a questi elementi guida la regolazione genica a valle11,15,18,20,22. Questi microsatelliti sono stati caratterizzati come associati all'attivazione o alla repressione e prossimali a (< 5 kb) TSS o distali a (> 5 kb) TSS25. Inoltre, ci sono geni regolati da EWS / FLI con motivi ETS ad alta affinità (HA) prossimali a TSS23. Al fine di analizzare ulteriormente le caratteristiche della funzione DAF e quali tipi di geni attivati da EWS / FLI DAF è stato in grado di salvare, è stata analizzata l'espressione differenziale dei geni associati a queste diverse classi. È interessante notare che DAF è stato più in grado di salvare i geni attivati dai microsatelliti GGAA, ma non è stato in grado di salvare i geni attivati vicino a un sito HA come visto nella Figura 7. Come si è visto con il clustering gerarchico, DAF non riesce a salvare la repressione mediata da EWS / FLI tra le classi di motivi. Questi dati suggeriscono che DAF mantiene caratteristiche strutturali sufficienti di EWS per legarsi e attivarsi dai microsatelliti GGAA, sia prossimali che distali a TSS. Questo probabilmente deriva dal dominio SYGQ intatto ritenuto importante per l'attività EWS / FLI alle ripetizioni GGAA11. Questi dati suggeriscono anche che le tirosine specifiche mutate in DAF svolgono ruoli importanti, ma poco compresi, nella regolazione genica mediata da EWS / FLI dai siti HA, nonché nella repressione genica, evidenziando un'importante area di ulteriori indagini.

Figura 1: Flusso di lavoro. Rappresentazione della procedura passo-passo per eseguire la mappatura struttura-funzione mediante trascrittomica. Le celle sono state preparate per la prima volta per esprimere la suite di costrutti necessari per la mappatura struttura-funzione. Dopo l'espressione, le cellule sono state raccolte per RNA e proteine e analizzate per fenotipi correlativi. L'espressione dei costrutti è stata convalidata e questo processo è stato ripetuto 3-4 volte per raccogliere repliche biologiche indipendenti. L'RNA è stato quindi sottoposto al sequenziamento di nuova generazione (NGS). Quando i dati sono stati ricevuti, i dati sono stati tagliati per la qualità, allineati e sono stati calcolati i conteggi per trascrizione. Gli effetti batch sono stati controllati e le firme trascrittomiche e l'espressione differenziale sono state determinate utilizzando DESeq2. È possibile incorporare il clustering gerarchico e l'analisi a valle che integrano altri set di dati -omics e diversi percorsi o analisi funzionali. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Validazione dell'espressione del costrutto e dei saggi correlativi. (A) Schema raffigurante i costrutti testati in questo esempio. (B) Validazione del knockdown di EWS/FLI endogeno ed espressione di costrutti marcati 3X-FLAG mediante immunoblot. (C,D) Validazione dell'attività di costruzione in un gene bersaglio attivato EWS/FLI(C), NR0B1,e(D)gene bersaglio represso, TGFBR2,mediante qRT-PCR. I dati sono presentati come deviazione media +/- standard. I valori P sono stati calcolati con un test di significato onesto di Tukey. * p < 0,05, ** p < 0,01, *** p < 0,005 (E) Conteggi delle colonie da saggi soft-agar eseguiti per valutare l'attività di trasformazione dei costrutti. I valori P sono stati calcolati con un test di significato onesto di Tukey. * p < 0,05, ** p < 0,01, *** p < 0,005. Questa figura è adattata da Theisen, et al.23Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3: Dati finali di conteggio raccolti per l'analisi. Screenshot delle prime 6 righe del file di conteggio con conteggi genetici per tutti i campioni da normalizzare e analizzare in batch. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 4: Mappe di calore della distanza da campione a campione. (A) Grafico della distanza da campione a campione che mostra il raggruppamento del campione dei dati grezzi del conteggio. I campioni che vengono raggruppati sia per batch che per campione sono indicati con frecce rosse. (B) Diagramma di distanza da campione a campione dopo la normalizzazione del lotto con ComBat. Qui, i campioni di tutte le repliche si raggruppano insieme, indipendentemente dal batch. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 5: Risultati dell'analisi delle espressioni differenziali. (A) Il grafico dell'analisi delle componenti principali (PCA) delle firme trascrittomiche generate per tutti i campioni mostra un forte raggruppamento intracampionario e dimostra che il DAF è intermediato tra i controlli positivo (wtEF) e negativo (Δ22). (B) Grafici vulcanici che mostrano il -log(p-value) tracciato contro il log2FoldChange per i geni in ogni costrutto. Geni con un valore p aggiustato < 0,05 e un |log2(FoldChange)| > 1 sono considerati significativi e sono mostrati in rosso. Il pannello 5B è adattato da Theisen, et al.23Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 6: Clustering gerarchico per identificare le classi geniche. (A) Il clustering gerarchico dei primi 1000 geni più variabili in tutti i costrutti e la linea di base, iEF, mostra che DAF salva parzialmente l'attivazione genica mediata da EWS / FLI. (B)L'ontologia genica (funzione molecolare) è il risultato di ToppGene che mostra l'arricchimento funzionale dei geni attivati da EWS/FLI che vengono salvati o non salvati dal DAF. Il pannello 6B è adattato da Theisen, et al.23Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 7: Analisi dettagliata di diversi elementi di risposta del fattore di trascrizione a diversi costrutti: (A) Schematico raffigurante l'elaborazione dei dati utilizzata per generare pannelli (B) e (C) incorporando altri set di dati disponibili con i profili trascrittomici qui. (B,C) Compilazione che mostra il salvataggio di diverse classi di bersagli diretti EWS/FLI- (B) attivati e (C) repressi. I geni inclusi erano solo quei geni con espressione differenziale rilevabile da EWS/FLI endogena. In ogni grafico a torta, il grigio raffigura la porzione di geni che non vengono salvati dal costrutto. Il rosso raffigura la porzione di geni che sono attivati in modo differenziale e il blu raffigura la porzione di geni che sono differenzialmente repressi. Questa figura è adattata da Theisen, et al.23Fare clic qui per visualizzare una versione più grande di questa figura.
Figura S1: Caricamento dei file fastq.gz nell'ambiente HPC, ritaglio e allineamento. Fare clic qui per scaricare questa figura.
Figura S2: Confronto dei conteggi di lettura tra i campioni ed esecuzione della normalizzazione batch con ComBat. Fare clic qui per scaricare questa figura.
Figura S3: Esecuzione di DESeq2 ed estrazione dei risultati dell'analisi delle espressioni differenziali. Fare clic qui per scaricare questa figura.
Figura S4: Analisi dell'output. Fare clic qui per scaricare questa figura.
Figura S5: Clustering gerarchico per identificare le classi geniche: Raggruppamento gerarchico dei primi 1000 geni più variabili in tutti i costrutti e la linea di base, iEF, ordinati in k cluster. In questo caso k=7, ma questo parametro viene impostato dall'utente come mostrato nella Figura S4D. Fare clic qui per scaricare questa figura.
Tabella S1: Elenco dei geni (ID gene Ensembl) con annotazione a cluster. Fare clic qui per scaricare questa tabella.