$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Questo flusso di lavoro è stato progettato per guidare l'elaborazione di campioni IMAT umani congelati per ottenere profili di espressione genica con risoluzione di singoli nuclei, consentendo l'identificazione del tipo di cellula. Qui viene presentato un campione IMAT rappresentativo di un partecipante allo studio SOMMA.
Il primo passo di qualsiasi analisi dei dati snRNA-seq è valutare la qualità dei dati per identificare i nuclei di scarsa qualità, che dovrebbero potenzialmente essere rimossi dal set di dati. È importante sottolineare che i passaggi e le soglie di filtraggio dovrebbero essere determinati per il tipo specifico di campione e set di dati che hai in mano, poiché le metriche comunemente valutate possono differire tra tessuti e tipi di cellule22,23. La Figura 4A fornisce immagini di alcune delle metriche chiave utilizzate per valutare la qualità dei dati snRNA-seq generati. Il numero di geni rilevati per nucleo dipende dalla profondità di sequenziamento e dal tipo di cellula, ma ci si aspetterebbe che sia superiore a 200 per nuclei di buona qualità18,23. È stato riscontrato che i dati generati utilizzando questo protocollo rientrano nell'intervallo previsto con una mediana di 1134 geni per nucleo, su un totale di 4662 nuclei.
La percentuale di letture mitocondriali viene valutata poiché un alto grado di contaminazione mitocondriale può derivare da nuclei danneggiati o da RNA ambientale che si attacca ai nuclei, indicando nuclei di scarsa qualità. Nel set di dati qui presentato, è stata trovata una percentuale mediana di lettura mitocondriale di 2,65, che è ben al di sotto della soglia del 5%-20% comunemente utilizzata in letteratura 24,25,26. La percentuale di reads ribosomiali varia a seconda dei tipi di cellule e dei tessuti. Tuttavia, poiché grandi proporzioni di geni ribosomiali possono influenzare il raggruppamento dei dati, si raccomanda di controllare la percentuale di lettura ribosomiale e potenzialmente rimuovere i geni ribosomiali o i nuclei con alti livelli di geni ribosomiali dal set di dati prima del clustering. I dati generati con questo protocollo hanno mostrato un basso livello di letture ribosomiali con una mediana del 2,46% e un massimo del 16,5% e, pertanto, non abbiamo filtrato in base a questa metrica. Infine, è stato calcolato un punteggio di complessità cellulare in base al numero log(10) di geni rilevati diviso per il numero log(10) di reads rilevate. Si prevede che i nuclei di buona qualità siano superiori a 0,8 e una mediana di 0,92 è stata ottenuta nel campione utilizzato in questo studio. Sulla base di queste metriche di controllo qualità, è possibile decidere quali nuclei filtrare dal set di dati. Per l'analisi, abbiamo scelto di filtrare i nuclei con meno di 200 o più di 10.000 geni per nucleo, più del 10% di letture mitocondriali e un punteggio di complessità inferiore a 0,8.
Dopo la fase iniziale di valutazione della qualità e di filtraggio, è possibile generare un UMAP per visualizzare il clustering dei nuclei. Il clustering è stato eseguito sulla base dei 2000 geni più variabili utilizzando la trasformazione SCT. Le fasi iniziali del clustering possono essere utilizzate per verificare se una qualsiasi delle caratteristiche del controllo qualità si raggruppa, ad esempio nuclei con letture mitocondriali elevate. Inoltre, le informazioni di clustering sono necessarie per alcuni metodi di rilevamento del doppietto, tra cui DoubletFinder20, che è stato utilizzato in questo protocollo. DoubletFinder è stato utilizzato con un tasso di multipletto previsto impostato al 4,8%, come suggerito dai fornitori della piattaforma basata su droplet. Dopo la rimozione del doppietto, è stato stimato il livello di contaminazione dell'RNA ambientale, che è particolarmente comune nelle preparazioni a singolo nucleo, poiché l'RNA viene rilasciato dal citoplasma dopo la lisi cellulare e viene dispensato nelle Gel Beads-in-emulsion (GEM) e amplificato nelle successive fasi di preparazione della libreria. Pertanto, sono stati sviluppati diversi strumenti per correggere il problema intrinseco della contaminazione dell'RNA ambientale (vedi Tabella 3). Abbiamo utilizzato il pacchetto R decontX21, in cui la matrice di fondo grezza (comprese solo le goccioline vuote) viene utilizzata per regolare la matrice di espressione genica, migliorando la firma di espressione genica reale.
Il raggruppamento e la capacità di rilevare tipi di cellule poco abbondanti dipendono dal numero di nuclei. Questo studio ha rilevato tutti i principali tipi di cellule attesi in IMAT (Figura 4B) da un totale di 3817 nuclei dopo il filtraggio QC, la rimozione del doppietto e l'aggiustamento dell'RNA ambientale. Questi includevano cellule staminali, progenitori fibro-adipogenici (FAP) e adipociti maturi, nonché periciti, cellule muscolari lisce, cellule immunitarie, cellule progenitrici muscolari e mionuclei derivanti dalla contaminazione delle cellule muscolari scheletriche.
Nel complesso, abbiamo dimostrato che questo protocollo produce dati a singolo nucleo ad alta risoluzione che consentono il rilevamento dell'annotazione del tipo di cellula, importante per svelare la biologia e le origini cellulari di IMAT.

Figura 4: Valutazione della qualità, clustering e annotazione del tipo di cellula dei dati di sequenziamento. (A) Diagrammi a violino delle metriche essenziali per la valutazione del campione e delle prestazioni di sequenziamento, tra cui il numero di geni rilevati per nucleo, la percentuale di letture mitocondriali, la percentuale di letture ribosomiali e la complessità cellulare misurata come il numero log(10) di geni rilevati diviso per il numero log(10) di letture rilevate. I valori mediani per ogni metrica sono indicati in caselle chiuse. Numero totale di nuclei: 4662. (B) UMAP che mostra il clustering dei singoli nuclei e il corrispondente DotPlot che mostra l'espressione genica relativa dei geni marcatori del tipo di cellula per ciascun cluster dopo il filtraggio. Numero di nuclei: 3817. Clicca qui per visualizzare una versione più grande di questa figura.
File supplementare 1: Il codice per l'analisi QC e clustering. Clicca qui per scaricare questo file.