Immunology and Infection

ExCYT : Une Interface graphique pour simplifier Analysis of High-Dimensional Data de cytométrie en flux

Published: January 16, 2019 doi: 10.3791/57473

John-William Sidhom^1,2,3, Debebe Theodros^1,2,4, Benjamin Murter^1,2, Jelani C. Zarif^1,2, Sudipto Ganguly^1,2, Drew M. Pardoll^1,2, Alexander Baras^1,2,5

¹The Bloomberg~Kimmel Institute for Cancer Immunotherapy, Johns Hopkins University School of Medicine, ²The Sidney Kimmel Comprehensive Cancer Center, Johns Hopkins University School of Medicine, ³Department of Biomedical Engineering, Johns Hopkins University School of Medicine, ⁴Department of Immunology, Johns Hopkins University School of Medicine, ⁵Department of Pathology, Johns Hopkins University School of Medicine

Summary

ExCYT est une base MATLAB utilisateur Interface graphique (GUI) qui permet aux utilisateurs d’analyser leurs données de cytométrie de flux via couramment employé des techniques d’analyse de données grande dimension, y compris la réduction de dimensionnalité via t-SNE, une variété d’automatisés et manuels parcelles de nouveaux flux de grande dimension, heatmaps et méthodes de clustering.

Abstract

Avec l’avènement des cytomètres capable de mesurer un nombre croissant de paramètres, les scientifiques continuent à développer de grands panneaux pour explorer phénotypiquement caractéristiques de leurs échantillons cellulaires. Toutefois, ces progrès technologiques donnent des ensembles de données grande dimension qui sont devenus de plus en plus difficiles d’analyser objectivement au sein de programmes blocage manuel traditionnels. Afin de mieux analyser et présenter des données, les scientifiques en partenariat avec bioinformaticiens ayant une expertise dans l’analyse des données de grande dimension pour analyser leurs données de cytométrie de flux. Ces méthodes ont été montré pour être très utiles dans l’étude de cytométrie en flux, ils doivent encore être intégré dans un paquet simple et facile à utiliser pour les scientifiques qui manquent d’expertise informatique ou programmation. Pour répondre à ce besoin, nous avons développé ExCYT, une base MATLAB utilisateur Interface graphique (GUI) qui simplifie l’analyse des données de cytométrie en flux de grande dimension en mettant en œuvre des techniques d’analyse couramment utilisés pour les données de grande dimension, y compris parcelles de réduction dimensionnelle par t-end, une variété de méthodes de clustering automatisés et manuels, heatmaps et nouveaux flux de grande dimension. En outre, ExCYT fournit des options de blocage traditionnelles des populations choisies d’intérêt pour les autres t-end et le clustering analyse ainsi que la possibilité d’appliquer des portes directement sur des parcelles de t-end. Le logiciel offre l’avantage supplémentaire de travailler avec soit compensée ou des fichiers de FCS sans compensation. Dans le cas où la compensation après l’acquisition est nécessaire, l’utilisateur peut choisir de fournir le programme, un répertoire des taches simples et un échantillon non coloré. Le programme détecte les événements positifs dans tous les canaux et utilise ces données select plus objectivement calculer la matrice de compensation. En résumé, ExCYT fournit un pipeline d’analyse complète pour prendre des données de cytométrie de flux sous la forme de fichiers FCS et permettre à toute personne, quelle que soit la formation informatique, d’utiliser les dernières approches algorithmiques dans la compréhension de leurs données.

Introduction

Avances en cytométrie de flux ainsi que l’avènement de la cytométrie en flux massique a permis de cliniciens et chercheurs pour rapidement identifier et caractériser phénotypiquement échantillons intéressants sur le plan clinique et biologique avec nouveaux niveaux de résolution, créant de grandes ensembles de données grande dimension qui sont information riche¹^,²^,³. Alors que les méthodes conventionnelles pour l’analyse des données de cytométrie en flux tels que déclenchement manuel ont été plus simples pour des expériences où il y a quelques marqueurs et ces marqueurs ont une population identifiable visuellement, cette approche peut ne pas générer résultats reproductibles lors de l’analyse des ensembles de données plus grande dimension ou ceux avec des marqueurs de coloration sur un spectre. Par exemple, dans une étude multi-établissements, où intra-cellulaire coloration (ICS) essais étaient exécutés afin d’évaluer la reproductibilité de la quantification des réponses spécifiques à l’antigène des lymphocytes T, malgré la bonne précision, analyse, en particulier Gate, a présenté une importante source de variabilité⁴. En outre, le processus de blocage manuellement des intérêts, en plus d’être très subjective, la population est très chronophage et labor intensive. Toutefois, le problème de l’analyse de grande dimension des ensembles de données de manière fiable, efficace et en temps opportun n’est pas une nouvelle pour la recherche en sciences. Études d’expression de gène génèrent souvent de très grande dimension des ensembles de données (souvent de l’ordre des centaines de gènes) où manuels formes d’analyse serait tout simplement impossible. Afin de s’attaquer à l’analyse de ces ensembles de données, il y a eu beaucoup de travail à concevoir des outils bioinformatiques pour analyser l’expression de gène données⁵. Ces approches algorithmiques viennent d’être récemment adoptés dans l’analyse de cytométrie de flux de données comme le nombre de paramètres a augmenté et s’est avérés pour être précieux dans l’analyse de ces ensembles de données dimensionnelles élevées⁶^,⁷.

Malgré la génération et l’application d’une variété d’algorithmes et de logiciels qui permettent aux scientifiques d’appliquer ces approches bioinformatiques de grande dimension à leurs données de cytométrie de flux, ces techniques d’analyse restent encore peu utilisés. Alors qu’il peut y avoir une variété de facteurs qui ont limité l’adoption généralisée de ces approches de la cytométrie de flux de données⁸, l’obstacle majeur, nous croyons en l’utilisation de ces approches par les scientifiques, est un manque de connaissances informatiques. En fait, beaucoup de ces logiciels (c.-à-d., flowCore, flowMeans et OpenCyto) sont écrites en langages de programmation tels que R qui nécessitent encore des connaissances en programmation fond. Paquets de logiciels tels que FlowJo ont trouvé faveur parmi les scientifiques en raison de la simplicité d’utilisation et nature « plug-n-play », ainsi que la compatibilité avec le système d’exploitation de PC. Afin d’assurer la variété des techniques analytiques reconnues et précieux à la programmation non familiers du scientifique, nous avons développé ExCYT, une interface utilisateur graphique (GUI) qui peut être facilement installée sur un PC/Mac qui tire beaucoup de techniques les plus récentes y compris réduction dimensionnelle pour une visualisation intuitive, une variété de méthodes de clustering citée dans la littérature, ainsi que de nouvelles fonctionnalités à explorer la sortie de ces algorithmes à des parcelles de grande dimension flux/BTE heatmaps et roman de clustering.

ExCYT est une interface graphique construite en MATLAB et par conséquent peut soit être exécuté au sein de MATLAB directement ou un programme d’installation est fournie qui peut être utilisé pour installer le logiciel sur n’importe quel PC/Mac. Le logiciel est disponible à https://github.com/sidhomj/ExCYT. Nous présentons un protocole détaillé pour savoir comment importer des données, pré-traiter, effectuer la réduction dimensionnelle t-SNE, de données de cluster, de sorte et filtrer les grappes basés sur les préférences de l’utilisateur et afficher des informations sur les groupes d’intérêt via heatmaps et roman emplacements de grande dimension flux/boîte ()Figure 1). Axes dans les parcelles de t-SNE sont arbitraires et en unités arbitraires et comme tel, comme le ne montre pas toujours les chiffres pour la simplicité de l’utilisateur de l’interface. La coloration des points de données dans le « t-SNE Heatmaps » est du bleu au jaune fondée sur le signal du marqueur indiqué. Dans les solutions de clustering, la couleur du point de données est issue des arbitraires numéro de cluster. Toutes les parties du flux de travail peuvent être effectués dans le seul panneau GUI ()Figure 2 & tableau 1). Enfin, nous allons démontrer l’utilisation de ExCYT sur les données publiées antérieurement explorant le paysage immunitaire du carcinome à cellules rénales dans la littérature, également analysée avec des méthodes similaires. L’exemple de dataset que nous permet de créer les chiffres dans ce manuscrit, ainsi que le protocole ci-dessous se trouvent à https://premium.cytobank.org/cytobank/projects/875, lors de leur inscription à un compte.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. collecte et préparation des données de la cytométrie en flux

Placez toutes les taches simples dans un dossier par eux-mêmes et étiquette sous le nom de canal (par un fluorophore, pas de marqueur).

2. pré-Processing & Importation de données

Pour mettre en pause ou enregistrer tout au long de ce pipeline d’analyse, utilisez le bouton Save Workspace en bas à gauche du programme pour économiser l’espace de travail comme un '. MAT' fichier qui peut plus tard être chargé via le bouton Load Workspace . N’exécutez pas plusieurs instances du programme à la fois. Par conséquent, lors du chargement d’un nouvel espace de travail, assurez-vous de vérifier il n’y a aucune autre instance de ExCYT en cours d’exécution.
Pour commencer le pipeline de l’analyse, tout d’abord sélectionner le type de cytométrie en flux (Flow Cytometry ou masse Cytometry – CYTOF), sous le numéro de certains Paramètres de sélection de fichier d’événements pour échantillonner à partir du fichier (pour cet exemple d’utilisation 2 000). Une fois que les données a été importées avec succès, une boîte de dialogue s’affiche pour informer l’utilisateur que les données ont été importées avec succès.
Appuyez sur le bouton de Correction automatique pour effectuer une étape de correction automatique en option, comme fait par Bagwell & Adams⁹. Sélectionnez le répertoire contenant les taches simples. Sélectionnez l’échantillon sans coloration dans le dialogue d’interface utilisateur.
1. Placer une porte vers l’avant/côté-scatter sur n’importe lequel des échantillons dans ce répertoire qui sera utilisé pour sélectionner des événements pour calculer la matrice de compensation. Il est recommandé d’utiliser l’échantillon non colorée à cet effet. À ce stade, un algorithme a été mis en œuvre pour définir des seuils conformément au 99^ème percentile de l’échantillon non coloré pour définir les événements positifs dans chacune des taches simples pour calculer la matrice de compensation. Lorsque cela est terminé, une boîte de dialogue informe l’utilisateur que l’indemnité a été effectuée.
Ensuite, appuyez sur la Porte de la Population et sélectionnez les populations de cellules d’intérêt, comme c’est la convention en écoulement cytometry analyses. Lorsque la population de cellules est sélectionnée, tapez le nombre de pourcentage d’analyse en aval des événements (en ce 10 000 événements).
Ensuite, sélectionnez les chaînes numéros à utiliser pour l’analyse dans le contrôle listbox à l’extrême droite de la boîte de pré-traitement (utiliser les voies particulières indiquées dans l’exemple).

3. t-SNE analyse

Appuyez sur la touche T-end pour que le programme commence début pour calculer l’ensemble de données dimensionnalité réduite pour la visualisation dans la fenêtre en dessous du bouton t-end. Pour enregistrer l’image de t-end, appuyez sur Enregistrer l’Image TSNE. Sur une machine avec 8 CPU @ 3.4 GHz chacun et 8 GM RAM cette étape devrait prendre environ 2 minutes pour 10 000 événements, 10 minutes pour 50 000 événements et à 20 minutes pour 100 000 événements.
Pour créer un heatmap ' t-end ', comme on le voit dans plusieurs CYTOF publications¹⁰^,¹¹, sélectionnez une option dans le menu contextuel de Marqueur spécifique t-SNE (utiliser les marqueurs spécifiques CD64 ou CD3 tel qu’illustré dans l’exemple). Un chiffre s’affiche montrant une représentation heatmap de l’intrigue de t-SNE qui peut être sauvegardé pour la génération de la figure.
Sélectionner des zones d’intérêt dans les parcelles de t-SNE par l’utilisateur pour approfondir les analyses en aval en utilisant le bouton de Porte t-end .

4. l’analyse

Pour commencer l’analyse de cluster, sélectionnez une option dans la Méthode de Clustering listbox (dans cet exemple, nous DBSCAN avec un facteur de la distance de 5 dialogue box à droite de la zone de liste). Appuyez sur le bouton de Cluster .
Utilisez l’une des options suivantes pour les algorithmes de regroupement automatisés trouvés dans le panneau « Paramètres automatisés de Clustering » :
1. KMEANS dur (sur t-end): appliquer les nuées aux données réduite 2 dimensions t-SNE k-means et exige que le nombre de clusters à fournir à l' algorithme¹².
2. KMEANS dur (sur des données HD): appliquer clustering pour les données originales de grande dimension qui a été données à l’algorithme de t-SNE k-means. Une fois de plus, le nombre de clusters doit être fourni à l’algorithme.
3. DBSCAN : Appliquer la méthode de clustering de clustering, appelée Clustering Spatial axée sur la densité des Applications avec bruit¹³ clusters de données réduite 2 dimensions t-SNE, qui nécessite un facteur distance sans dimension qui détermine la taille générale de la clusters. Ce type d’algorithme de clustering est bien adapté au groupe la réduction t-end car il est capable de cluster non-sphéroïdal de cluster qui sont souvent présents dans la représentation réduite t-end. En outre, dû au fait qu’elle opère sur les données de dimension 2, il est l’un des algorithmes de regroupement plus rapidement.
4. Hiérarchique : Appliquer la méthode de clustering hiérarchique conventionnelle aux données haute dimension où la matrice de toute distance euclidienne est calculée entre tous les événements avant de fournir l’algorithme un facteur de distance qui définit la taille du cluster.
5. Graphique de réseau- Base : Appliquer une méthode de clustering qui a été récemment introduite en analysant les données de cytométrie de flux lorsqu’il y a des sous-populations rares que l’utilisateur veut détecter¹¹^,¹⁴. Cette méthode s’appuie sur la première création d’un graphique qui détermine les connexions entre tous les événements dans les données. Cette étape consiste à fournir un paramètre initial pour créer le graphique, ce qui correspond au nombre de k plus proches voisins. Ce paramètre définit généralement la taille des clusters. À ce stade, une autre boîte de dialogue s’affiche demandant à l’utilisateur d’employer une des 5 algorithmes de clustering qui s’applique à la courbe. Il s’agit de 3 options pour maximiser la modularité de la graphique, la méthode Danon et un spectrale algorithme clusters¹⁴^,¹⁵^,¹⁶^,¹⁷^,¹⁸. Si l'on veut une solution de clustering généralement plus rapidement, nous vous recommandons Spectral Clustering ou la maximisation de modularité rapide gourmand. Alors que les méthodes de maximisation de la modularité ainsi que la méthode Danon déterminer le nombre optimal de grappes, Spectral Clustering requiert le nombre de clusters à donner au programme.
6. Carte organise : Employer un réseau neuronal artificiel pour regrouper les données de grande dimension.
7. GMM – Expectation Maximization: créer un modèle gaussien de mélange à l’aide technique de l’EM (Expectation Maximization) pour regrouper les données de grande dimension. ¹⁹ ce type de méthode de clustering requiert également l’utilisateur d’entrer le nombre de clusters.
8. Variationnelle inférence bayésienne pour MGM: créer un modèle de mélange gaussien, mais contrairement à EM, il peut déterminer automatiquement le nombre des composants mélange k.²⁰ alors que le programme n’exige pas un nombre de grappes à donner (plus grand que le prévu pour nombre de clusters), l’algorithme détermine le nombre optimal sur ses propres.
Afin d’étudier un secteur particulier de l’intrigue de t-SNE, appuyez sur le bouton Sélectionner manuellement les Cluster dessiner un ensemble de groupes définis par l’utilisateur. À noter, grappes ne peuvent pas partager des membres (c'est-à-dire, chaque événement ne peut appartenir qu’à 1 cluster).

5. groupe de Filtration

Ensemble des grappes identifié soit manuellement ou via une des méthodes automatiques décrits ci-dessus peut être par l’intermédiaire du filtre comme suit.
1. Pour trier les grappes (dans le panneau Filtre Cluster ) par l’un des marqueurs mesurées dans l’expérience, sélectionnez une option dans le menu contextuel de la sorte . Pour définir si la commande est croissant ou décroissant, appuyez sur le bouton Croissant/décroissant vers la droite de la liste déroulante Trier . Cette mise à jour de la liste des regroupements dans la zone de liste « Clusters (Filtration) » et les réorganiser dans l’ordre décroissant de l’expression de groupe médian de ce marqueur. Le pourcentage indiqué dans la liste déroulante « Clusters (Filtration) » indique le pourcentage de la population qui représente ce cluster.
2. Pour définir une valeur de seuil minimum pour un cluster donné dans un certain canal, sélectionnez une option dans le menu contextuel de seuil (dans cet exemple nous le marqueur CD65 et un seuil à 0,75). Tapez une valeur dans la zone numérique au-dessous du graphique ou utilisez le curseur pour définir un seuil. Une fois que le seuil est défini, appuyez sur Ajouter au-dessus de seuil ou Ajouter ci-dessous seuil pour spécifier le sens du seuil. Une fois ce seuil a été fixé, il apparaît dans la boîte de seuils à côté du panneau « Cluster Filter » où le marqueur, la valeur de seuil et la direction apparaît si l’utilisateur est au courant de quels seuils sont actuellement appliquées. Enfin, l’intrigue de t-SNE mettra à jour par brouiller les clusters qui ne satisfont pas aux exigences de la filtration et la zone de liste « Clusters (Filtration) » mettra à jour pour afficher les groupes qui répondent aux exigences de filtration.
3. Pour définir un seuil minimum pour la fréquence d’un cluster, entrez un seuil numérique du Cluster seuil de fréquence (%) boîte dans le panneau filtre Cluster (dans cet exemple d’utilisation 1 %).

6. analyse et visualisation de cluster

Pour sélectionner des groupes pour une analyse et de visualisation, sélectionnez clusters dans listbox de Clusters (Filtration) et appuyez sur le bouton à sélectionner pour les déplacer vers le Cluster analyser listbox.
Pour créer heatmaps des grappes, sélectionnez les groupes d’intérêt dans la listbox Cluster analyser et appuyez sur le bouton HeatMap de Clusters . Lorsque cette touche est enfoncée, un chiffre s’affiche contenant une carte de chaleur ainsi que des dendrogrammes sur les axes de cluster et de paramètre. Le dendrogramme sur l’axe vertical regroupera les grappes par ceux qui sont proches tout en le dendrogramme sur l’horizontale axe regroupera les marqueurs qui résultent de la collaboration. Pour enregistrer le heatmap, appuyez sur fichier | Exporter la configuration | Export.
Pour créer une « Haute dimensions Box Plot » ou « Haute dimensions Flow Plot », sélectionnez les groupes d’intérêt dans la listbox Cluster analyser et appuyez sur le bouton Haut dimensions Box Plot ou le bouton Haut dimensionnelle Flow Plot . Ces emplacements peuvent servir à évaluer visuellement la distribution de donné des canaux de différents groupes à travers toutes les dimensions.
Pour afficher les grappes dans les parcelles de flux 2D traditionnel, sélectionnez la transformation (linéaire, log10, arcsinh) et canal dans le panneau de Tracer des flux classiques et appuyez sur classiques flux Plot.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Afin de tester la facilité d’utilisation de ExCYT, nous avons analysé un ensemble de données curated publié par Chevrier et al. , intitulé « An Immune Atlas de claire cellule carcinome rénal » où le groupe a effectué CyTOF analyse avec un vaste panneau immunitaire sur des échantillons de tumeur provenant de 73 les patients¹¹. Deux panneaux séparés, un panneau myéloïde et lymphoïde, ont servi à caractériser phénotypiquement le microenvironnement tumoral. L’objectif de notre étude était de récapituler les résultats de leur t-end et analyse, montrant que les ExCYT pourraient servir à venir aux mêmes conclusions mais aussi de montrer d’autres méthodes d’analyse de grappe et visualisation de cluster.

Dans le manuscrit original, le groupe décrit 22 amas de cellules T définis par le Comité lymphoïde et 17 agrégats cellulaires définis par le Comité myéloïde. Dans la Figure 3 et Figure 4 de la publication, le groupe montre heatmaps de clusters, t-SNE emplacements avec les solutions de clustering codés par couleur et t-SNE heatmaps dans sous-panneaux A, B et C. Afin d’effectuer l’analyse, nous obtenu les données manuellement à déchenchements périodiques de Cytobank et échantillonné 2 000 événements dans chaque fichier ou a pris l’intégralité du fichier si elle avait moins de 2 000 événements, suivi du pipeline analyse illustré dans le manuscrit original. À ce stade, nous prélevé un total de 100 000 événements via notre paramètre sous-échantillonnage Après blocage, t-SNE analysé et utilisé une variété de méthodes de clustering pour explorer les données de diverses façons.

Tout d’abord, nous avons examiné le panneau myéloïde en suivant le même tuyau d’analyse comme le manuscrit original en complétant l’analyse t-end et en créant les heatmaps des différents marqueurs (Figure 3 a). Alors que le manuscrit original normalisé les heatmaps t-end au 99^ème percentile de chaque marqueur, ExCYT ne fait pas ce type de normalisation pour son heatmaps. Des distributions similaires de co-expression de marqueur ont cependant étaient observées comme décrit dans le manuscrit original. Nous avons ensuite appliqué une méthode axée sur le réseau graphique de regroupement des données en créant le graphique avec 100 k plus proches voisins et le graphique de cluster via l’optimisation la modularité du graphique à l’aide de la mise en œuvre rapide-gourmand au sein de ExCYT, où nous avons trouvé 19 sous-populations de cellules (Figure 3 b). Lorsqu’en comparant le heatmap de ces clusters créés par ExCYT avec le heatmap publiée dans le manuscrit original, nous avons constaté que nous étions capables d’identifier des groupes semblables de cellules myéloïdes (Figure 3). À noter, le manuscrit original identifié et oppose deux sous-populations de cellules myéloïdes que nous avons identifiés dans notre analyse définie par HLA-DR^intCD68^intCD64^intCD36⁺CD11b⁺ (Cluster 13) et HLA-DR⁺CD4⁺CD68⁺CD64⁺CD36 CD11b^–^– (Cluster 18). Visualisation de grande dimension boîte à moustaches de ces deux populations ont révélé des différences statistiquement significatives (Mann-Whitney) dans les six marqueurs mentionnés (Figure 1).

Ensuite, nous avons analysé le panneau lymphoïde avec une démarche plus conventionnel et plus vite hiérarchique de clustering. Cette approche a donné des distributions similaires de marqueur via t-end heatmaps (Figure 4 a). Par ailleurs, le regroupement des données via hiérarchique clustering (Figure 4 b), démontré similaires amas de cellules lymphoïdes (Figure 4). À noter, nous avons également identifié la population unique les lymphocytes T régulateurs d’après le manuscrit original défini comme CD4⁺CD25⁺Foxp3⁺⁺CD127 CTLA-4^– (Cluster 17) par l’intermédiaire de notre parcelle de grande dimension flux (Figure 4).

Enfin, nous avons voulu employer une méthode au sein de la ExCYT d’évaluer rapidement et avec quantitativement des associations entre les marqueurs. Nous avons commencé en utilisant un algorithme de clustering k-means dur d’arrêter les 5 000 grappes sur les données bidimensionnelles t-SNE (Figure 4E). Nous avons ensuite utilisé l’expression médiane de tous les marqueurs de tous ces groupes pour créer un heatmap de ces pôles (Figure 4F). Puisque ces heatmaps cluster lignes ainsi que les colonnes qui sont identiques, cette méthode d’abstraction des données en appliquant une maille fine de grappes et puis en créant un heatmap permet de ramasser les associations co facilement, comme l’association co de Tim-3, PD-1, CD38, et 4-1BB.

Figure 1 : ExCYT Pipeline et caractéristiques. (A) ExCYT commence par importation de données brutes de FCS, application optionnelle compensation, blocage et sous-échantillonnage aléatoire avant l’analyse en aval. Cela garantit que tous les événements en cours d’analyse sont pertinents à l’expérience en cours d’analyse. réduction dimensionnelle t-SNE est alors réalisée afin de visualiser tous les événements et t-SNE heatmaps peut être généré afin de visualiser la répartition phénotypique. Enfin, une variété d’algorithmes de regroupement peut être appliquée sur la transformation de t-end ou grande dimension données brutes. (B) des caractéristiques nouvelles de tri et de seuillage permettent aux utilisateurs de trier rapidement peut-être des centaines de grappes d’en trouver d’intérêt. (C) Heatmaps de clusters peuvent être créés afin d’examiner comment plusieurs clusters comparer les uns aux autres ainsi que les marqueurs co associent. (D) parcelles de nouveaux flux/boîte de grande dimension peuvent être générées comme une forme de cloisonnement arrière des grappes sur les données d’origine tout en appréciant la nature grande dimension des données. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 2 : Interface graphique de ExCYT : Le ExCYT permet un simplifiée travaux flux de travail de gauche à droite du panneau comme l’utilisateur importe leurs données, interface utilisateur graphique mène réduction dimensionnelle t-SNE, clustering, cluster final analyse et visualisation. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 3 : Récapitulation des sous-populations myéloïdes de Chevrier et al. (A) heatmaps t-SNE jeton de parcelle panneau myéloïde (B) t-end couleur myéloïde panneau codé par l’algorithme de clustering réseau-Graph Heatmap (C) des clusters identifiés par la solution de clustering sur panneau myéloïde (D) Comparative de haute dimensions boîte à moustaches comparant contrastant myéloïdes sous-populations (Clusters 13 & 18) référencé dans le manuscrit original s’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 4 : Récapitulation des sous-populations lymphoïdes de Chevrier et al. (A) heatmaps t-SNE jeton de parcelle panneau lymphoïdes (B) t-end couleur lymphoïdes panneau codé par l’algorithme de clustering hiérarchique Heatmap (C) des clusters identifiés par la solution de clustering sur flux dimensionnelle élevée de panneau lymphoïdes (D) terrain de population d’identifiés les lymphocytes T régulateurs (Cluster 17) dans le manuscrit original (E) solution de Clustering de 5 000 amas dur k-moyens analyse les données de t-SNE Heatmap (F) des clusters identifiés par la solution de clustering k-means sur lymphoïdes panneau affichage marqueur co les associations. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Lol	Description	Nom (dans l’interface graphique)
1	Sélectionnez le type de cytométrie en flux	NA
2	Sous-échantillonnage aléatoire des données brutes	NA
3	Sélectionnez les fichiers pour analyse	Sélectionnez le fichier (s)
4	Correction automatique des données brutes, issues du répertoire des taches simples fournies au logiciel	Correction automatique
5	Blocage pour sélectionner des événements pour t-SNE et analyse de groupement	Population de porte
6	Sous-échantillonnage aléatoire de gated données (nombre absolu)	NA
7	Sous-échantillonnage aléatoire de gated données (% de population fermée)	NA
8	Sélectionner les canaux pour l’analyse	NA
9	Exécuter la réduction dimensionnelle t-SNE	t-SNE
10	t-SNE fenêtre	NA
11	Enregistrer l’espace de travail	Enregistrer l’espace de travail
12	Charger l’espace de travail	Charger l’espace de travail
13	Créer t-SNE heatmap sur certains marqueurs	NA
14	Porte t-end à refaire analyse t-end de population select	Porte t-SNE
15	Enregistrer la fenêtre de t-end comme image	Enregistrer Image TSNE
16	Sélectionnez l’algorithme de Clustering	Méthode de clustering
17	Inscrivez, Clustering paramètre donné algorithme	NA
18	Analyse typologique	Cluster
19	Dessiner des grappes manuellement	Sélectionnez le Cluster manuellement
20	Effacer tous les Clusters pour refaire une analyse typologique	Clusters de claires
21	Montrer des grappes dans les conditions actuelles de filtre	Grappes (Filtration)
22	Supprimer certains groupes de Cluster analyser listbox	Supprimer <--
23	Ajoutez le cluster pour analyser les Cluster listbox	Cliquez sur-->
24	Créer un heatmap classique de tous les événements dans l’analyse	HeatMap des événements
25	Sélectionner de grappes de tri par marque	Tri
26	Seuil fixé par marqueur select	Seuil de
27	Créer heatmap classique de certains groupes de Cluster analyser listbox	HeatMap de Clusters
28	Inverser l’ordre de tri	Croissant/décroissant
29	Effacer tous les seuils	Effacer tous les seuils
30	Seuil de fréquence définie pour les clusters	Seuil de fréquence de cluster (%)
31	Liste des seuils de courant actifs sur listbox « Clusters (Filtration) »	Seuils
32	Haute dimension boîte à moustaches	Haute dimension boîte à moustaches
33	Parcelle de haut débit dimensionnelle	Parcelle de haut débit dimensionnelle
34	Paramètre d’axe horizontal pour complot de débit conventionnels	NA
35	Paramètre d’axe vertical pour complot de débit conventionnels	NA
36	Transformation de données pour complot de flux classiques sur l’axe horizontal	NA
37	Transformation de données pour complot de flux classiques sur l’axe vertical	NA
38	Créer l’intrigue de flux classiques	Parcelle de débit conventionnels
39	Montrer des Clusters pour analyse	NA

Tableau 1 : Vue d’ensemble de toutes les fonctions présentes dans le ExCYT GUI

Nom du logiciel/paquet	ExCYT	CYT	FCS Express	flowCore	openCyto	FlowMeans
Type de programme	MATLAB	MATLAB	Application autonome	R	R	R
Prix pour l’utilisateur	Gratuit	Gratuit	$ 1 000	Gratuit	Gratuit	Gratuit
Interface utilisateur graphique	Oui	Oui	Oui	N°	N°	N°
Techniques de réduction de dimensionnalité	t-SNE	t-SNE, APC	t-SNE, PCA, bêche	aucun	aucun	aucun
Algorithmes de regroupement	K-Means DBSCAN Regroupement hiérarchique Carte auto-organisée Méthodes basées sur le réseau multiples-Graph MGM - EM MGM - variationnelle inférence bayésienne	K-Means MGM - EM Méthode (Phenograph) fondée sur le seul réseau-Graph	K-Means	aucun	automatisation du workflow de blocage manuel	K-Means
Capacité de tri ou un filtre Clusters	Oui	N°	N°	N°	N°	N°
Parcelles de haut débit dimensionnelle	Oui	N°	N°	N°	N°	N°

Tableau 2 : Vue d’ensemble des Solutions d’analyse de cytométrie en flux assistée par logiciel

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Nous présentons ici ExCYT, une nouvelle interface graphique exécute des algorithmes MATLAB pour simplifier l’analyse des données de grande dimension de cytométrie en flux, permettant aux individus avec aucune expérience en programmation pour mettre en œuvre plus tard dans des données de grande dimension algorithmes d’analyse. La disponibilité de ce logiciel à l’ensemble de la communauté scientifique permettra aux chercheurs d’explorer leurs données de cytométrie en flux dans un flux de travail intuitif et simple. Grâce à la réalisation de réduction dimensionnelle t-SNE, appliquant une méthode de clustering, qui lui permet de tri ou d’un filtre à travers ces amas rapidement et faire heatmaps flexible, personnalisable et emplacements de grande dimension flux/boîte, les scientifiques pourront non seulement comprendre les sous-populations définies uniquement dans leurs échantillons, mais sera en mesure de créer des visualisations qui sont intuitifs et faciles à comprendre par leurs collègues.

Alors que le programme est souple dans le traitement d’une variété de types de données (classiques cytometry vs masse cytométrie en flux), il y a quelques considérations pour utilitaire optimale du programme. Le premier d'entre eux est en ce qui concerne la qualité des données, plus précisément des données de cytométrie de flux. Une compensation correcte et résolution du chevauchement des spectres d’émission est d’une importance primordiale. Données mal compensées peuvent par inadvertance entraîner fausses associations co de marqueurs et de la formation d’amas qui ne sont pas de véritable signification biologique. Par conséquent, il est fortement recommandé que les données d’entrée sont d’une qualité sonore avant de procéder à l’analyse t-end et une analyse plus poussée en aval. En outre, utilisation de l’algorithme de compensation automatique implémenté dans ExCYT exige des taches claires unique pour tous les canaux afin de calculer avec précision les paramètres de compensation.

Une autre considération importante pour l’utilisation de ExCYT est quand concaténer plusieurs fichiers FCS dans une analyse (tel que démontré dans ce manuscrit), ils doivent être comparables dans tous les canaux. Tout d’abord, cela signifie que le même panneau doit être utilisé dans tous les échantillons et qu’il n’y a aucune dérive entre échantillons sur tous les canaux. Par exemple, si l'on devait lire deux échantillons sur jours distincts et CD8 tachée dans FITC les deux jours, mais la tension de la cytomètre était défini différemment sur un jour, ayant pour résultat une population CD8 légèrement décalée, une peut générer des fausses grappes dans l’analyse en aval , tel que ce changement a été généré en fonction de la variation de l’instrument et non pas en raison de l’importance biologique. Tandis que les versions futures de ExCYT peuvent être en mesure de normaliser des échantillons à leurs taches unique, à ce stade, un examen attentif s’impose que les fichiers FCS peuvent être comparés les uns aux autres avant de les importer dans ExCYT.

Enfin, le processus de regroupement n’est pas celui qui est absolu/rigide. Paramètres et différents algorithmes de regroupement peuvent générer des différentes solutions de clustering. Si la solution de l’algorithme est appropriée, c’est pour l’utilisateur de déterminer en synthétisant leur compréhension de la biologie avec la solution de clustering. Par exemple, lorsque la compréhension de l’environnement immunitaire des tumeurs, on pourrait intéresser en grappes macroscopiques (c.-à-d. T cellules vs B cellules vs cellules myéloïdes) alors qu’un autre pourrait intéresser sous-populations de clusters macroscopiques. La résolution des clusters est déterminée par l’utilisateur et par conséquent, aucune solution de clustering est « correcte ». C’est l’un des principaux avantages d’utiliser les parcelles de haut débit dimensions disponibles dans ExCYT. La possibilité de visualiser la distribution d’un cluster donné sur tous les canaux peut aider l’utilisateur à déterminer si ils ont regroupés dans un biologiquement pertinente non seulement ailleurs mais d’une manière qui est pertinente à la question scientifique dans l’expérience. Alors que notre objectif est de fournir une multitude de méthodes utilisées dans les publications de données du cluster haute dimension écoulement cytometry tout en fournissant des méthodes supplémentaires de clustering, nous recommandons d’utiliser des méthodes telles que k-means et DBSCAN pour explorer les données via rapidement itération sur nombre de cluster, la taille et évolution vers réseau-graphique et modèle de mélange gaussien approches pour des approches plus robustes mais plus de temps.

Compte tenu de ces considérations, ExCYT est toujours un outil très flexible et utile pour explorer les données cytometry dimensionnelle élevée et offre des fonctionnalités uniques/différenciation que les autres paquets disponibles disponibles pour effectuer ce type d’analyse (tableau 2) . Tout d’abord, ExCYT se différencie sur plupart écoulement cytometry analyse des approches utilisant la réduction dimensionnelle et algorithmes de clustering par sa capacité à être utilisé sans aucune connaissance de l’écriture de scripts et de programmation. En outre, en agrégeant de nombreux algorithmes de regroupement cités tout au long de la littérature, nous croyons que nous fournir le plus d’options pour les données de clusters. Enfin, notre particularité de filtration de cluster et le tri avec affichage par l’intermédiaire de roman haut débit dimensionnelle parcelles, permet aux utilisateurs d’explorer les caractéristiques de leurs grappes rapidement et efficacement, rendant le processus de « découvrir » rare sous-populations simples et efficaces.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Les auteurs n’ont aucun remerciements.

Materials

Name	Company	Catalog Number	Comments
Desktop	SuperMicro	Custom Build	Computer used to run analysis
MATLAB	Mathworks	N/A	Software used to develop ExCYT

DOWNLOAD MATERIALS LIST

References

Benoist, C., Hacohen, N. Flow cytometry, amped up. Science. 332 (6030), 677-678 (2011).
Ornatsky, O., et al. Highly multiparametric analysis by mass cytometry. Journal of immunological methods. 361 (1), 1-20 (2010).
Tanner, S. D., et al. Flow cytometer with mass spectrometer detection for massively multiplexed single-cell biomarker assay. Pure and Applied Chemistry. 80 (12), 2627-2641 (2008).
Maecker, H. T., et al. Standardization of cytokine flow cytometry assays. BMC immunology. 6 (1), 13 (2005).
Brazma, A., Vilo, J. Gene expression data analysis. FEBS letters. 480 (1), 17-24 (2000).
Pyne, S., et al. Automated high-dimensional flow cytometric data analysis. Proceedings of the National Academy of Sciences. 106 (21), 8519-8524 (2009).
Ge, Y., Sealfon, S. C. flowPeaks: a fast unsupervised clustering for flow cytometry data via K-means and density peak finding. Bioinformatics. 28 (15), 2052-2058 (2012).
Venkatesh, V. Determinants of perceived ease of use: Integrating control, intrinsic motivation, and emotion into the technology acceptance model. Information systems research. 11 (4), 342-365 (2000).
Bagwell, C. B., Adams, E. G. Fluorescence spectral overlap compensation for any number of flow cytometry parameters. Annals of the New York Academy of Sciences. 677 (1), 167-184 (1993).
Lavin, Y., et al. Innate immune landscape in early lung adenocarcinoma by paired single-cell analyses. Cell. 169 (4), 750-765 (2017).
Chevrier, S., et al. An immune atlas of clear cell renal cell carcinoma. Cell. 169 (4), 736-749 (2017).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A k-means clustering algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Ester, M., Kriegel, H. P., Sander, J., Xu, X. Density-based spatial clustering of applications with noise. International Conference Knowledge Discovery and Data Mining. 240, (1996).
Levine, J. H., et al. Data-driven phenotypic dissection of AML reveals progenitor-like cells that correlate with prognosis. Cell. 162 (1), 184-197 (2015).
Blondel, V. D., Guillaume, J. L., Lambiotte, R., Lefebvre, E. Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment. 2008 (10), P10008 (2008).
Le Martelot, E., Hankin, C. Fast multi-scale detection of relevant communities in large-scale networks. The Computer Journal. 56 (9), 1136-1150 (2013).
Newman, M. E. Fast algorithm for detecting community structure in networks. Physical review E. 69 (6), 066133 (2004).
Hespanha, J. P. An efficient matlab algorithm for graph partitioning. , University of California. 1-8 (2004).
Moon, T. K. The expectation-maximization algorithm. IEEE Signal processing. 13 (6), 47-60 (1996).
Bishop, C. M. Pattern recognition and machine learning. , Springer. (2006).

Immunology and Infection

ExCYT : Une Interface graphique pour simplifier Analysis of High-Dimensional Data de cytométrie en flux

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.