$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Dieser Arbeitsablauf wurde entwickelt, um die Verarbeitung von gefrorenen humanen IMAT-Proben zu steuern, um Genexpressionsprofile mit Einzelkernauflösung zu erhalten und so die Identifizierung von Zelltypen zu ermöglichen. Hier wird eine repräsentative IMAT-Stichprobe eines Teilnehmers der SOMMA-Studie vorgestellt.
Der erste Schritt jeder Analyse von snRNA-seq-Daten besteht darin, die Qualität der Daten zu bewerten, um Zellkerne von schlechter Qualität zu identifizieren, die möglicherweise aus dem Datensatz entfernt werden sollten. Wichtig ist, dass die Filterschritte und Schwellenwerte für die spezifische Art der Probe und des Datensatzes bestimmt werden, die Sie zur Hand haben, da die häufig ausgewerteten Metriken je nach Gewebe und Zelltyp unterschiedlich sein können22,23. Abbildung 4A zeigt einige der wichtigsten Metriken, die zur Bewertung der Qualität der generierten snRNA-seq-Daten verwendet werden. Die Anzahl der pro Zellkern nachgewiesenen Gene hängt von der Sequenzierungstiefe und dem Zelltyp ab, wird jedoch bei Zellkernen guter Qualität auf über 200 geschätzt18,23. Es wurde festgestellt, dass die mit diesem Protokoll generierten Daten mit einem Median von 1134 Genen pro Zellkern von insgesamt 4662 Kernen im erwarteten Bereich liegen.
Der Prozentsatz der mitochondrialen Reads wird bewertet, da ein hoher Grad an mitochondrialer Kontamination durch beschädigte Zellkerne oder Umgebungs-RNA entstehen kann, die an die Zellkerne andocken, was auf Zellkerne von schlechter Qualität hinweist. In dem hier vorgestellten Datensatz wurde ein medianer mitochondrialer Leseprozentsatz von 2,65 gefunden, was deutlich unter der in der Literatur üblichen Schwelle von 5 % bis 20 % liegt 24,25,26. Der Prozentsatz der ribosomalen Reads unterscheidet sich je nach Zelltyp und Gewebe. Da jedoch große Anteile ribosomaler Gene das Clustering der Daten beeinflussen können, wird empfohlen, den ribosomalen Leseprozentsatz zu überprüfen und möglicherweise ribosomale Gene oder Zellkerne mit einem hohen Anteil an ribosomalen Genen aus dem Datensatz zu entfernen, bevor das Clustering erfolgt. Die mit diesem Protokoll generierten Daten zeigten ein niedriges Niveau an ribosomalen Reads mit einem Median von 2,46 % und einem Maximum von 16,5 %, weshalb wir nicht auf der Grundlage dieser Metrik gefiltert haben. Zuletzt wurde ein Zellkomplexitätswert berechnet, der sich aus der log(10)-Anzahl der nachgewiesenen Gene dividiert durch die log(10)-Anzahl der erkannten Reads zusammensetzt. Es wird erwartet, dass die Zellkerne von guter Qualität über 0,8 liegen, und in der in dieser Studie verwendeten Probe wurde ein Median von 0,92 erhalten. Basierend auf diesen QC-Metriken kann entschieden werden, welche Kerne aus dem Datensatz herausgefiltert werden sollen. Für die Analyse haben wir uns entschieden, Zellkerne mit weniger als 200 oder mehr als 10.000 Genen pro Zellkern, mehr als 10 % mitochondrialen Lesevorgängen und einem Komplexitätswert von unter 0,8 herauszufiltern.
Nach dem ersten Schritt der Qualitätsbewertung und Filterung kann ein UMAP generiert werden, um die Clusterbildung der Kerne zu visualisieren. Das Clustering wurde auf der Grundlage der 2000 variabelsten Gene unter Verwendung der SCT-Transformation durchgeführt. Die ersten Clustering-Schritte können verwendet werden, um zu überprüfen, ob eines der QC-Merkmale zusammengeclustert ist, z. B. Kerne mit hohen mitochondrialen Reads. Darüber hinaus sind Clustering-Informationen für einige Dublett-Erkennungsmethoden erforderlich, einschließlich DoubletFinder20, das in diesem Protokoll verwendet wurde. DoubletFinder wurde mit einer erwarteten Multilotrate von 4,8 % verwendet, wie von den Anbietern der tröpfchenbasierten Plattform vorgeschlagen. Nach der Dublettenentfernung wurde der Grad der RNA-Kontamination in der Umgebung abgeschätzt, was besonders häufig bei Einzelkernpräparationen der Fall ist, da RNA bei der Zelllyse aus dem Zytoplasma freigesetzt und in die Gel-Beads-in-Emulsion (GEMs) abgegeben und in den folgenden Bibliotheksvorbereitungsschritten amplifiziert wird. Daher wurden mehrere Instrumente entwickelt, um das inhärente Problem der RNA-Kontamination in der Umgebung zu beheben (siehe Tabelle 3). Wir haben das R-Paket decontX21 verwendet, in dem die rohe Hintergrundmatrix (einschließlich nur leerer Tröpfchen) verwendet wird, um die Genexpressionsmatrix anzupassen und so die reale Genexpressionssignatur zu verbessern.
Die Clusterbildung und die Fähigkeit, niedrig vorkommende Zelltypen zu erkennen, hängen von der Anzahl der Zellkerne ab. In dieser Studie wurden alle erwarteten Hauptzelltypen in IMAT (Abbildung 4B) von insgesamt 3817 Zellkernen nach QC-Filterung, Dublettenentfernung und Umgebungs-RNA-Anpassung nachgewiesen. Dazu gehörten Stammzellen, fibro-adipogene Vorläuferzellen (FAPs) und reife Adipozyten sowie Perizyten, glatte Muskelzellen, Immunzellen, Muskelvorläuferzellen und Myonuklei aus der Kontamination von Skelettmuskelzellen.
Insgesamt haben wir gezeigt, dass dieses Protokoll hochauflösende Einzelkerndaten liefert, die den Nachweis der Zelltyp-Annotation ermöglichen, die für die Entschlüsselung der Biologie und der zellulären Ursprünge von IMAT wichtig ist.

Abbildung 4: Qualitätsbewertung, Clustering und Zelltyp-Annotation von Sequenzierungsdaten. (A) Violindiagramme der wesentlichen Metriken für die Bewertung der Proben- und Sequenzierungsleistung, einschließlich der Anzahl der pro Zellkern nachgewiesenen Gene, des Prozentsatzes der mitochondrialen Reads, des Prozentsatzes der ribosomalen Reads und der Zellkomplexität, gemessen als log(10) Anzahl der nachgewiesenen Gene dividiert durch die log(10) Anzahl der nachgewiesenen Reads. Die Medianwerte für jede Metrik werden in geschlossenen Feldern angegeben. Gesamtzahl der Kerne: 4662. (B) UMAP, das die Clusterbildung einzelner Zellkerne und das entsprechende DotPlot zeigt, das die relative Genexpression von Zelltyp-Markergenen für jeden Cluster nach der Filterung zeigt. Anzahl der Kerne: 3817. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Ergänzende Datei 1: Der Code für die QC- und Clustering-Analyse. Bitte klicken Sie hier, um diese Datei herunterzuladen.