Cancer Research

Sélection de plusieurs sous-ensembles de biomarqueur de même Classification binaire efficace performances

Published: October 11, 2018 doi: 10.3791/57738

Xin Feng¹, Shaofei Wang¹, Quewang Liu¹, Han Li², Jiamei Liu², Cheng Xu², Weifeng Yang², Yayun Shu², Weiwei Zheng¹, Bingxin Yu³, Mingran Qi⁴, Wenyang Zhou¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²College of Software, Jilin University, ³Ultrasonography Department, China-Japan Union Hospital of Jilin University, ⁴Department of Pathogenobiology, College of Basic Medical Science, Jilin University

Summary

Les algorithmes existants génèrent une seule solution pour un dataset de détection des biomarqueurs. Ce protocole ne démontre l’existence de plusieurs solutions de même efficaces et présente un logiciel convivial pour aider les chercheurs biomédicaux à enquêter sur leurs ensembles de données pour le défi proposé. Informaticiens peuvent également fournir cette fonctionnalité dans leur biomarqueur des algorithmes de détection.

Abstract

Détection des biomarqueurs est l’une des plus importantes questions biomédicales pour les chercheurs de haut-débit « omiques », et presque tous les algorithmes de détection des biomarqueurs existants génèrent un sous-ensemble de biomarqueurs à la mesure des performances optimisées pour un dataset donné . Cependant, une récente étude a démontré l’existence de plusieurs sous-ensembles de biomarqueurs avec des représentations de la classification de la même façon efficace ou même identiques. Ce protocole présente une méthodologie simple et directe pour détecter des sous-ensembles de biomarqueurs avec des performances de classification binaire, mieux qu’un seuil défini par l’utilisateur. Le protocole se compose de préparation des données et chargement, synthèse d’information base, paramètre tuning, dépistage de biomarqueurs, visualisation du résultat et interprétation, biomarqueur gène annotations et exportation de résultat et de la visualisation à qualité de publication. Le projet biomarqueur stratégie de dépistage est intuitif et illustre une règle générale pour le développement d’algorithmes de détection des biomarqueurs. Une facile à utiliser interface graphique (GUI) a été développée en utilisant le langage de programmation Python, permettant ainsi aux chercheurs biomédicaux d’avoir un accès direct à leurs résultats. Le manuel de kSolutionVis et le code source peuvent être téléchargés de http://www.healthinformaticslab.org/supp/resources.php.

Introduction

La classification binaire, un des plus couramment étudiée et exploration des problèmes dans le domaine biomédical, de données difficiles est utilisé pour générer un modèle de classification formé sur deux groupes d’échantillons avec la plus exacte la discrimination puissance¹^, ² ^, ³ ^, ⁴ ^, ⁵ ^, ⁶ ^, ⁷. Toutefois, les grandes données générées dans le domaine biomédical ont l’inhérente « grand p petit n » paradigme, avec le nombre de fonctions généralement beaucoup plus grandes que le nombre d’échantillons de⁸^,⁶^,⁹. Par conséquent, chercheurs biomédicaux doivent réduire la dimension de l’élément avant d’utiliser les algorithmes de classement afin d’éviter le surapprentissage problème⁸^,⁹. Biomarqueurs de diagnostic sont définies comme un sous-ensemble de fonctionnalités détectées séparant les patients d’une maladie donnée de contrôle sain échantillons¹⁰^,¹¹. Les patients sont généralement définis comme les échantillons positifs, et les contrôles sains sont définis comme les échantillons négatifs¹².

Des études récentes ont suggéré qu’il existe plus d’une solution avec des performances identiques ou de même efficace de classification d’un ensemble de données biomédicales⁵. Presque tous les algorithmes de sélection de fonctionnalité sont les algorithmes déterministes, ne produisant qu’une seule solution pour le même groupe de données. Algorithmes génétiques peuvent générer simultanément des solutions multiples avec des performances similaires, mais ils essaient toujours de choisir une solution avec la meilleure fonction de remise en forme comme sortie pour un dataset donné¹³^,¹⁴.

Algorithmes de sélection de fonction peuvent être regroupés à peu près comme les filtres ou les wrappers¹². Un algorithme de filtrage choisit lesk caractéristiques de haut - rang par leur importante association particulière avec les étiquettes de classe binaire fondée sur l’hypothèse que les caractéristiques sont indépendants des uns des autres¹⁵^,¹⁶^,¹⁷. Bien que cette hypothèse ne tient-elle pas vraie pour presque tous les ensembles de données réelles, la règle de filtrage heuristique effectue bien dans de nombreux cas, par exemple, l’algorithme de Lagarde (redondance Minimum et Maximum de pertinence), le test basé de Wilcoxon fonctionnalité filtrage (WRank) l’algorithme et l’intrigue ROC (Receiver fonctionnement characteristic) basent algorithme de filtrage (ROCRank). Lagarde, est un algorithme de filtrage efficace parce qu’il rapproche du problème combinatoire d’estimation avec une série de problèmes beaucoup plus petites, en comparant à l’algorithme de sélection de fonctionnalité maximum et de dépendance, dont chacun comporte seulement deux variables, et utilise donc des probabilités mixte par paires qui sont plus robustes¹⁸^,¹⁹. Cependant, mRMR peut-être sous-estimer l’utilité de certaines fonctions, comme il ne mesure pas les interactions entre les éléments qui peuvent augmenter la pertinence et donc ne manque certaines combinaisons de fonctionnalités qui sont individuellement inutile mais sont utiles uniquement lorsqu’il est combiné. L’algorithme de WRank calcule un score non paramétrique de comment discriminatoire une caractéristique se situe entre deux catégories d’échantillons et est connue pour sa robustesse pour les valeurs aberrantes²⁰^,²¹. En outre, l’algorithme ROCRank évalue quelle est l’importance de la zone sous le ROC courbe (AUC) d’une fonctionnalité particulière est pour la classification binaire enquête performance²²^,²³.

En revanche, un wrapper évalue le rendement du classifieur prédéfinis d’un sous-ensemble de la fonctionnalité donnée, itérativement généré par une règle heuristique et crée le sous-ensemble de la fonctionnalité avec le meilleur rendement mesure²⁴. Généralement, un wrapper surpasse un filtre dans l’exercice de classification mais s’exécute plus lentement²⁵. Par exemple, l’algorithme de²⁷ ²⁶^,forêt aléatoire régularisé (RRF) utilise une règle gourmande, en évaluant les fonctionnalités sur un sous-ensemble des données d’entraînement à chaque nœud de la forêt au hasard, dont scores d’importance caractéristique sont évalués par l’indice de Gini . Le choix d’une nouvelle fonctionnalité sera pénalisé si son gain d’information ne s’améliore pas que des caractéristiques choisies. En outre, l’analyse de prédiction pour Microarrays (PAM)²⁸^,²⁹ algorithme, aussi un algorithme de wrapper, calcule un centroïde pour chacune des étiquettes de classe et sélectionne ensuite les fonctions à rétrécir les centroïdes de gène vers l’ensemble barycentre de la classe. PAM est robuste pour les fonctionnalités communes.

Des solutions multiples avec la performance de classification supérieure peuvent être nécessaires pour n’importe quel dataset donné. Tout d’abord, l’objectif d’optimisation d’un algorithme déterministe est définie par une formule mathématique, par exemple, erreur minimum taux³⁰, qui n’est pas forcément idéal pour les échantillons biologiques. Deuxièmement, un groupe de données peut avoir des solutions sensiblement différentes, multiple, avec des performances similaires efficaces ou même identiques. Presque tous les algorithmes de sélection de fonctionnalité existante sélectionnera au hasard une de ces solutions comme la sortie³¹.

Cette étude mettra en place un protocole analytique informatique pour générer des solutions multiples de sélection de fonctionnalité avec des performances similaires pour n’importe quel dataset donné classification binaire. Considérant que les chercheurs biomédicaux plus ne sont pas familiers avec les techniques de l’informatiques ou le codage informatique, une facile à utiliser interface graphique (GUI) a été développée pour faciliter l’analyse rapide des ensembles de données biomédicales classification binaire. Le protocole analytique se compose de chargement des données et résumant, le réglage de paramètre, exécution du pipeline et interprétations du résultat. D’un simple clic, le chercheur est capable de générer des sous-ensembles de biomarqueurs et visualisation de qualité publication parcelles. Le protocole a été testé en utilisant les transcriptions des deux datasets classification binaire des leucémie lymphoblastique aiguë (ALL), c'est-à-dire, APE1 et les2¹². Les ensembles de données d’APE1 et les2 ont été téléchargés à partir du Broad Institute du génome Data Analysis Center, disponible à http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. APE1 contient 128 échantillons avec 12 625 caractéristiques. Ces échantillons, 95 sont des lymphocytes B tous et 33 sont des lymphocytes T tous. Les2 comprend 100 échantillons avec 12 625 caractéristiques ainsi. Parmi ces échantillons, il y a 65 patients qui ont souffert de rechute et 35 patients qui n’ont pas. APE1 était un dataset simple classification binaire, avec une précision de moins de quatre filtres et quatre enveloppes étant 96,7 % et 6 les algorithmes de sélection de 8 fonctionnalité réalisation 100 %¹². Alors que les2 était un ensemble de données plus difficile, avec les algorithmes de sélection de 8 fonctionnalité ci-dessus réalisation pas mieux que 83,7 % précision¹². Cette meilleure précision a été réalisée avec 56 caractéristiques détectés par l’algorithme de wrapper, sélection de fonctionnalité axée sur la corrélation (CFS).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Remarque : Le protocole suivant décrit les détails de la procédure analytique de l’informatique et des codes des modules principaux. Le système d’analyse automatique a été développé à l’aide de Python version 3.6.0 et les pandas de modules Python, abc, numpy, scipy, sklearn, sys, PyQt5, sys, Lagarde, math et matplotlib. Les matériaux utilisés dans cette étude sont énumérés dans la Table des matières.

1. préparer la matrice de données et étiquettes de classe

Préparer le fichier de matrice de données comme un fichier délimité par des tabulations ou des virgules de matrice, tel qu’illustré dans la Figure 1 a.
Remarque : Chaque ligne possède toutes les valeurs d’une fonction, et le premier élément est le nom de la fonction. Une caractéristique est un ID de probeset pour le dataset transcriptome microarray-basé ou peut-être une autre valeur ID comme un résidu de cystéine avec sa valeur de méthylation d’un ensemble de données méthylomiques. Chaque colonne donne les valeurs de la fonction d’un échantillon donné, avec le premier élément étant le nom de l’échantillon. Une ligne est divisée en colonnes par une tabulation (Figure 1 b) ou une virgule (Figure 1). Un fichier délimité par des tabulations de matrice est reconnu par le fichier extension .tsv, et un fichier délimité par des virgules de matrice a l’extension .csv. Ce fichier peut être généré en enregistrant une matrice soit comme le format .tsv ou .csv de logiciels tels que Microsoft Excel. La matrice de données peut-être également être générée par ordinateur de codage.
Préparer le fichier de libellés de classe comme un délimité par des tabulations ou des virgules fichier de matrice (Figure 1), similaire au fichier matrice de données.
Remarque : La première colonne donne les noms de l’échantillon, et l’étiquette de la classe de chaque échantillon est indiquée dans la colonne intitulée classe. Compatibilité maximale est considérée dans le processus de codage afin que les colonnes supplémentaires peuvent être ajoutées. Le fichier d’étiquette de classe peut être formaté comme un fichier .tsv ou .csv. Les noms dans la colonne de classe peuvent être des termes, et il peut y avoir plus de deux classes d’échantillons. L’utilisateur peut choisir deux des classes pour l’analyse qui suit.

2. Chargez la matrice de données et étiquettes de classe

Chargez les étiquettes de matrice et de la classe de données dans le logiciel. Cliquez sur le bouton de la matrice de données charge de choisir le fichier de matrice de données spécifiée par l’utilisateur. Cliquez sur le bouton étiquettes de classe charge de choisir le fichier de libellés de classe correspondante.
Remarque : Après que les deux fichiers sont chargés, kSolutionVis procédera à un écran de routine de la compatibilité entre les deux fichiers.
Résumer les caractéristiques et les échantillons prélevés dans le fichier de matrice de données. Estimer la taille du fichier matrice de données.
Résumer les échantillons et les classes à partir du fichier d’étiquette de classe. Estimer la taille de l’étiquette du fichier de classe.
Vérifier si chaque échantillon de la matrice de données possède une étiquette de classe. Résumer les numéros des échantillons avec les étiquettes de classe.

3. résumer et afficher les statistiques de base de l’objet Dataset

Cliquez sur le bouton résumer, sans n’importe quel mot clé spécifié d’entrée, et le logiciel affichera 20 fonctions indexées et les noms de fonctionnalités correspondantes.
Remarque : Les utilisateurs doivent spécifier le nom de la fonction qu’ils souhaitent trouver pour voir ses statistiques de base et de la répartition de la valeur correspondante parmi tous les échantillons d’entrée.
Fournir un mot clé, par exemple « 1000_at », dans la zone de texte fonction de trouver une caractéristique spécifique à synthétiser. Cliquez sur le bouton résumer pour obtenir les statistiques de base pour cette fonctionnalité donnée.
Remarque : Le mot clé peut apparaître n’importe où dans les noms de fonction cible, faciliter le processus de recherche des utilisateurs.
Cliquez sur le bouton résumer pour trouver plus d’une fonction avec le mot clé donné et puis spécifiez l’ID de fonction unique pour procéder à l’étape précédente de résumer une caractéristique particulière.

4. déterminer les étiquettes de classe et le nombre de fonctions de classement

Choisit les noms de positif (« P (33) ») et les classes de négatif (« N (95) ») dans les listes déroulantes Classe positifs et Négatifs de classe, comme illustré à la Figure 2 (celle du milieu).
Remarque : Il est suggéré de choisir qu'un dataset classification binaire équilibré, c'est-à-direla différence entre le nombre d’échantillons positifs et négatifs est minime. Le nombre d’échantillons est aussi donné entre parenthèses après le nom de chaque étiquette de classe dans les deux listes déroulantes.
Choisissez 10 comme le nombre de fonctions de classement (paramètre pTopX) dans la zone de liste déroulante Top_X ( ?) pour un écran complet du sous-ensemble de la fonctionnalité.
Remarque : Le logiciel classe automatiquement toutes les caractéristiques de la P-valeur calculée par un test t de chaque fonctionnalité en comparant les catégories positifs et négatifs. Une fonction avec un petit P-valeur a un fort pouvoir mieux discriminant entre les deux classes d’échantillons. Le module de projection globale est par le calcul intensif. Le paramètre pTopX est de 10 par défaut. Les utilisateurs peuvent modifier ce paramètre dans l’ordre de 10 à 50, jusqu'à ce qu’ils trouvent satisfaisant disposent de sous-ensembles avec des performances de bon classement.

5. accordez les paramètres système pour des Performances différentes

Choisir la mesure du rendement (pMeasurement), à la précision (Acc) dans la liste déroulante Acc/bAcc ( ?) pour le classificateur s├⌐lectionn├⌐ extrême d’apprentissage Machine (ELM). Une autre option de ce paramètre est la mesure de précision équilibrée (bAcc).
Remarque : Laissez TP, FN, TN, et FP le nombre de vrais positifs, faux négatifs, effectivement négatifs et des positifs fausses, respectivement. La mesure de l’Acc est définie comme (TP+TN)/(TP+FN+TN+FP), qui fonctionne le mieux sur un dataset équilibrée⁶. Mais un classifieur optimisé pour Acc tend à affecter tous les échantillons à la classe négative si le nombre des échantillons négatifs est beaucoup plus grand que celle des critères positifs. Le bAcc est définie comme (Sn + Sp) / 2, où Sn = TP/(TP+FN) et Sp = TN/(TN+FP) sont les tarifs correctement prédits pour la borne positive et négative des échantillons, respectivement. Par conséquent, bAcc normalise les performances de prévision sur les deux classes et peut conduire à une représentation équilibrée de prédiction plus deux classes déséquilibrées. Le CAC est le choix par défaut de pMeasurement. Le logiciel utilise le classificateur ELM par défaut pour calculer les performances de la classification. L’utilisateur peut aussi choisir un classifieur SVM (Support Vector Machine), KNN (plus proche voisin k), arbre de décision ou Naïve Bayes.
Choisissez la valeur seuil 0,70 (paramètre pCutoff) pour la mesure de performances spécifiées dans la boîte d’entrée pCutoff :.
Remarque : Les Acc et bAcc comprise entre 0 et 1, et l’utilisateur peut spécifier une valeur pCutoff[0, 1] sous le seuil de décision pour afficher les solutions correspondantes. Le logiciel effectue un sous-ensemble-fonctionnalité global de dépistage, et un choix convenable de pCutoff fera la visualisation 3D plus intuitive et plus explicite. La valeur par défaut pour pCutoff est de 0,70.

6. Exécutez le Pipeline et produire les résultats visualisés INTERACTIVE

Cliquez sur le bouton Analyze pour exécuter le pipeline et générer les parcelles de visualisation, comme illustré à la Figure 2 (en bas).
Remarque : La table de gauche donne tous les sous-ensembles de fonctionnalité et de leur pMeasurement calculé par la stratégie de validation croisée 10 fois du classifieur ELM, comme décrit plus haut⁵. Deux parcelles de nuages de points 3D et deux lignes sont générées pour la procédure de présélection du sous-ensemble de la fonctionnalité avec les réglages de paramètre actuels.
Choisissez 0,70 comme la valeur par défaut de la coupure de pMeasurement (paramètre piCutoff, zone de saisie valeur) et 10 comme valeur par défaut du nombre des meilleurs sous-ensembles de fonctionnalité (paramètre piFSNum).
Remarque : Le pipeline est exécuté à l’aide des paramètres pTopX, pMeasurement et pCutoff. La fonctionnalité détectée des sous-ensembles peuvent être encore projeté à l’aide de la coupure piCutoff, cependant piCutoff ne peut pas être inférieure à pCutoff. Par conséquent, piCutoff est initialisé en tant que pCutoff et uniquement les sous-ensembles de fonctionnalité avec la performance mesure ≥ piCutoff vont être visualisés. La valeur par défaut de piCutoff est pCutoff. Parfois kSolutionVis détecte plusieurs solutions et seulement le meilleur piFSNum (par défaut : 10) des sous-ensembles de fonctionnalité vont être visualisés. Si le nombre de sous-ensembles de fonctionnalité détecté par le logiciel est inférieur à piFSNum, tous les sous-ensembles de fonctionnalité vont être visualisés.
Recueillir et interpréter les éléments détectés par le logiciel, tel qu’illustré à la Figure 3.
Remarque : Le tableau dans la boîte de gauche montre les sous-ensembles de fonctionnalité détectés et leur mesure du rendement. Les noms des trois premières colonnes sont « F1 », « F2 » et « F3 ». Les trois caractéristiques à chaque sous-ensemble de la fonctionnalité sont donnés dans leur ordre de classement dans une rangée (F1 < F2 < F3). La dernière colonne donne la mesure du rendement (CAC ou bAcc) de chaque sous-ensemble de la fonctionnalité, et son nom de la colonne (CAC ou bAcc) est la valeur de pMeasurement.

7. interpréter les parcelles du nuage de points 3D-visualiser et interpréter les sous-ensembles de fonctionnalité avec des Performances de Classification binaire de même effectif à l’aide de diagrammes 3D

Cliquez sur le bouton Analyze pour générer le diagramme 3D des sous-ensembles 10 fonctionnalité albums avec les meilleures performances de classification (CAC ou bAcc) détecté par le logiciel, comme illustré à la Figure 3 (boîte moyenne). Trier les trois caractéristiques d’un sous-ensemble de la fonctionnalité par ordre croissant de leurs rangs et d’utiliser les rangs des trois caractéristiques comme les axes de F1/F2/F3, c'est-à-direF1 < F2 < F3.
Remarque : La couleur d’un point représente le rendement de la classification binaire du sous-ensemble caractéristique correspondante. Un dataset peut avoir plusieurs sous-ensembles de fonctionnalité avec la même manière les mesures de rendement efficace. Un diagramme de dispersion interactive et simplifiée est donc nécessaire.
Remplacez la valeur 0,70 dans la zone de saisie pCutoff : et cliquez sur le bouton Analyze pour générer le nuage de points 3D des sous-ensembles caractéristique avec la performance mesure ≥ piCutoff, comme on le voit à la Figure 3 (case de droite). Cliquez sur le bouton 3D tuning pour ouvrir une nouvelle fenêtre pour ajuster manuellement les angles de vision du nuage de points 3D.
Remarque : Chaque sous-ensemble de la fonctionnalité est représenté par un point de la même manière que ci-dessus. Le nuage de points 3D a été générée en l’angle par défaut. Pour faciliter la visualisation 3D et tuning, une nouvelle fenêtre s’ouvrira en cliquant sur le bouton 3D tuning.
Cliquez sur le bouton réduire pour réduire la redondance des sous-ensembles caractéristique détecté.
Remarque : Si les utilisateurs souhaitent plus choisir les triplets de fonctionnalité et minimiser la redondance des sous-ensembles caractéristique, le logiciel fournit également cette fonction à l’aide de l’algorithme de sélection de fonctionnalité mRMR. Après avoir cliqué sur le bouton réduire , kSolutionVis va supprimer ces fonctionnalités redondantes dans les triplets de fonctionnalité et régénérer la table et les deux diffusent emplacements mentionnés ci-dessus. Les fonctionnalités enlevées des triplets de fonctionnalité seront remplacées par le mot clé dans la table. Les valeurs None dans l’axe de F1/F2/F3 seront établies comme valeur de piFSNum (la plage de la valeur normale de F1/F2/F3 est [1, top_x]). Par conséquent, les points qui incluent une valeur None semble être parcelles points « aberrantes » dans la 3D. On trouvera les parcelles 3D réglables manuellement dans « Réglage manuel des parcelles 3D dot » dans les documents supplémentaires.

8. trouver des Annotations de gène et de leurs Associations avec des maladies humaines

Remarque : Les étapes 8 à 10 illustrera comment annoter un gène au niveau de la séquence de l’ADN et de protéines. Tout d’abord, le symbole de gène de chaque ID de biomarqueurs de l’étapes ci-dessus est récupéré de la base de DAVID³², et puis deux serveurs web représentatif seront utilisés pour analyser ce symbole de gène par rapport aux niveaux de l’ADN et de protéines, respectivement. Le serveur GeneCard fournit une annotation fonctionnelle globale d’un symbole de gène donné et l’hérédité mendélienne en ligne dans la base de données de l’homme (OMIM) fournit la curation plus complet des associations de gène de la maladie. Le serveur UniProtKB est l’un de la plus vaste base de données de protéine, et le serveur du système de prévision par groupe (GPS) prédit la signalisation phosphorylation pour une très grande liste de kinases.

Copiez et collez le lien web de la base de DAVID dans un navigateur web et ouvrez la page web de cette base de données. Cliquez sur le lien La Conversion génique ID vu dans la Figure 4 a et entrez la fonction IDs 38319_at/38147_at/33238_at du premier sous-ensemble biomarqueur du dataset APE1 (Figure 4 b). Cliquez sur le lien Liste de gène et cliquez sur Soumettre la liste comme illustré dans la Figure 4 b. Récupérer les annotations d’intérêt, puis cliquez sur Afficher la liste de gène (Figure 4). Obtenir la liste des symboles de gène (Figure 4).
NOTE : Les symboles de gène récupérées ici servira pour les autres annotations fonctionnelles dans les prochaines étapes.
Copiez et collez le lien web de la base de données des cartes de gène dans un navigateur web et ouvrez la page web de cette base de données. Rechercher le nom d’un gène CD3D dans la zone d’entrée de requête de base de données et trouver les annotations de ce gène de Gene cartes³³^,³⁴, comme indiqué dans le tableau 1 et Figure 5 a.
Remarque : Cartes de gène est un gène complet knowledgebase, fournissant nomenclature, génomique, protéomique, localisation sous-cellulaire et voies impliquées et autres modules fonctionnels. Il fournit également des liens externes à diverses autres bases de données biomédicales comme APB/PDB_REDO³⁵, Entrez Gene³⁶, OMIM³⁷et UniProtKB³⁸. Si le nom de la fonction n’est pas un symbole de gène standard, utiliser la base de données ENSEMBL du pour convertir en³⁹. CD3d est le nom du gène T-Cell Receptor T3 Delta Chain.
Copiez et collez le lien web de la base de données OMIM dans un navigateur web et ouvrez la page web de cette base de données. Rechercher le nom d’un gène CD3D et trouver les annotations de ce gène de la base de données OMIM³⁷, comme indiqué dans le tableau 1 et Figure 5 b.
NOTE : OMIM sert maintenant comme une des sources plus complètes et faisant autorités des connexions de gènes humains atteints de maladies héréditaires. OMIM a été initié par le Dr Victor A. McKusick à cataloguer les mutations génétiques associés à la maladie⁴⁰. OMIM couvre maintenant plus de 15 000 gènes humains et des phénotypes plus 8 500, as of December 1^st 2017.

9. annoter les protéines et les Modifications post-traductionnelles

Copiez et collez le lien web de la base de données UniProtKB dans un navigateur web et ouvrez la page web de cette base de données. Rechercher le nom d’un gène CD3D dans la zone d’entrée de la requête de UniProtKB et de trouver les annotations de ce gène de la base de données³⁸, comme indiqué dans le tableau 1 et Figure 5.
Remarque : UniProtKB rassemble une riche source d’annotations pour les protéines, y compris des informations fonctionnelles et nomenclature. Cette base de données fournit également des liens externes vers d’autres bases de données largement utilisées, y compris APB/PDB_REDO³⁵, OMIM³⁷et Pfam⁴¹.
Copiez et collez le lien web du serveur web GPS dans un navigateur web et ouvrez la page web de ce serveur web. Récupérer la séquence de la protéine codée par le gène biomarqueur CD3D de la base de données de UniProtKB³⁸ et prédire les résidus de modification post-traductionnelle (PTM) de la protéine à l’aide de l’outil en ligne de GPS, comme le montre le tableau 1 et Figure 5.
NOTE : Un système biologique est dynamique et complexe, et les bases de données existantes recueillent seulement les renseignements connus. Par conséquent, les outils en ligne de prédiction biomédicale ainsi que des programmes en mode hors connexion peuvent fournir une preuve utile pour compléter un mécanisme hypothétique. GPS a été développé et amélioré pour plus de 12 ans⁷^,⁴² et peut être utilisé pour prédire les résidus de PTM une protéine sur un peptide donné ordre⁴³^,⁴⁴. Des outils sont également disponibles pour les divers sujets de recherche, y compris la prédiction d’une protéine localisation subcellulaire⁴⁵ et transcription factor binding motifs ⁴⁶ parmi d’autres.

10. annoter des Interactions protéine-protéine et leurs Modules fonctionnels enrichis

Copiez et collez le lien web du serveur web String dans un navigateur web et ouvrez la page web de ce serveur web. Recherchez dans la liste pour les gènes CD3D et P53 et trouver leurs propriétés orchestrées à l’aide de la base de données chaîne⁴⁷. La même procédure peut effectuer à l’aide d’un autre serveur web, DAVID³².
Remarque : Outre les annotations susmentionnées de gènes individuels, il y a beaucoup d’outils informatique à grande échelle disponible pour étudier les propriétés d’un groupe de gènes. Une étude récente a démontré que les gènes marqueurs individuellement mauvais pourraient constituer un set de gène grandement améliorée⁵. Par conséquent, il convient des coûts informatiques pour dépister les biomarqueurs plus compliqués. La base de données String peut visualiser les connexions des interactions connues ou prévues, et le serveur David peut détecter les modules fonctionnels avec un phénotype-associations significatives dans les gènes interrogé⁴⁷,³². Plusieurs autres outils d’analyse informatique à grande échelle sont également disponibles.

11. exporter les sous-ensembles de biomarqueurs généré et les parcelles de visualisation

Exporter les sous-ensembles de biomarqueurs détecté comme un fichier texte .tsv ou .csv pour une analyse plus approfondie. Cliquez sur le bouton Exporter la Table sous la table de tous les sous-ensembles de biomarqueurs détectés et choisir quel format de texte à enregistrer sous.
Exporter les parcelles de visualisation sous forme de fichier image. Cliquez sur le bouton Enregistrer sous chaque parcelle et choisir quel format d’image à enregistrer en tant que.
Remarque : Le logiciel supporte le pixel format .png et le vecteur format .svg. Les images de pixels sont bonnes pour l’affichage sur l’écran de l’ordinateur, tandis que les images vectorielles peuvent être converties à toute résolution nécessaire aux fins de publication journal.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

L’objectif de ce flux de travail (Figure 6) est de détecter des sous-ensembles de biomarqueurs multiples avec une efficacité similaire pour un dataset de classification binaire. L’ensemble du processus est illustré par deux ensembles de données exemple APE1 et les2 extraites d’une détection des biomarqueurs publié récemment étudier¹²^,⁴⁸. Un utilisateur peut installer kSolutionVis en suivant les instructions contenues dans les documents complémentaires.

DataSet ALL1 profilé 12 625 transcriptomique caractéristiques de 95 B-cellule et cellule-T 33 tous les échantillons de sang de patients. Alors que le dataset les2 détecté les niveaux d’expression des 12 625 caractéristiques de transcriptomique pour 65 tous les patients qui ont rechuté après le traitement et 35 tous les patients qui n’ont pas. Pour la commodité de l’utilisateur, les ensembles de données transcriptomiques et leurs étiquettes de classe sont fournis dans la version 1.4 du logiciel. Les deux ensembles de données sont dans le sous-répertoire « data » du répertoire du code source du logiciel.

Deux séries de données, APE1 et les2, ont été mis en forme sous forme de fichiers .csv et chargés dans le logiciel en utilisant les boutons Load data matrix et étiquettes de classe de charge , comme illustré à la Figure 7 a-B. Figure 7 a montre que tous les 128 échantillons avec 12 625 caractéristiques ont été chargés, et 128 de tous les échantillons ont également des étiquettes de classe. La matrice de données finales a 95 échantillons négatifs (B-cell tous) et 33 échantillons positifs (lymphocytes tous). En outre, les utilisateurs peuvent également déterminer quelle étiquette classe correspond à l’étiquette de classe positive (Figure 7 a, en bas). Si le fichier d’étiquette de classe définit plus de deux classes, les utilisateurs peuvent vouloir choisir quelles étiquettes deux classe pour étudier. Des opérations similaires ont été menées aussi difficile que le DataSet les2, tel qu’illustré dans la Figure 7 b.

La répartition de la valeur des caractéristiques dans la matrice de données peut être l’objet d’une enquête en cliquant sur le bouton résumer tout en recherchant un mot-clé spécifique à l’utilisateur dans les noms de fonctions, comme illustré à la Figure 8. Figure 8 illustre l’histogramme de la fonction 1012_at dans le dataset APE1. En outre, comme on le voit à la Figure 8 b, la même 1012_at de fonction a une distribution similaire d’expression dans les deux ensembles de données. Si aucun mot clé a été spécifié par l’utilisateur, certains noms de fonctions seraient répertoriées pour aider les utilisateurs à décider quelles fonctionnalités de résumer.

L’ensemble de données plus facile APE1 projeté le top 10 au classement dispose (pTopX) pour des sous-ensembles de biomarqueurs dans le pMeasurement Acc ≥ 0,90 (pCutoff). Après avoir cliqué sur le bouton exécuter, l’algorithme a été exécuté, et les résultats comme on le voit dans la Figure 9 a, ont été illustrés dans la partie inférieure du logiciel après quelques secondes. Sur cette base, 120 sous-ensembles biomarqueur qualifiés ont été détectés et répertoriés dans le tableau de gauche de la Figure 9 a. APE1 était un ensemble de données faciles à distinguer, dans lequel il a 57 sous-ensembles de biomarqueurs de triplet avec 100 % au sein du CAC. Ce protocole met l’accent sur l’existence de plusieurs solutions de même efficaces pour un problème de classification binaire. Par conséquent, le premier nuage de points 3D peut illustrer des sous-ensembles de biomarqueurs (paramètre piFSNum) plus de 10, si ils ont la classification performance ≥ Acc (paramètre pMeasurement) qui, du top 10, s’est classé (paramètre piFSNum ) sous-ensemble de biomarqueurs. L’utilisateur peut également choisir d’afficher des sous-ensembles de biomarqueurs moins en changeant le paramètre piCutoff dans la zone paramètre au-dessus de la table à la Figure 9 a. Le réglage manuel des parcelles 3D se trouvent dans la section de réglage manuel du point 3D parcelles dans les documents supplémentaires.

En outre, tous les résultats peuvent être exportés sous forme de fichiers externes pour une analyse plus approfondie en cliquant sur le bouton Exporter la Table sous les parcelles de table ou de nuages de points, tel qu’illustré à la Figure 9.

Le premier sous-ensemble de biomarqueurs (38319_at, 38147_at et 33238_at) pour le dataset APE1 a été choisi pour des études fonctionnelles, comme illustré à la Figure 9 a. Le module de recherche d’ENSEMBL (http://useast.ensembl.org/Multi/Search/New?db=core) annoté ces trois caractéristiques comme un groupe de gènes de delta de différenciation 3 (CD3D, 38319_at), les gènes associés à la signalisation de molécule d’Activation lymphocytaire (SH2D1A, 38147_at ) et de lymphocytes spécifiques des cellules protéine-Tyrosine Kinase (LCK, 33238_at). En outre, la base de données de liaison génétique-maladie OMIM³⁷^,⁴⁰ a suggéré que le gène CD3D code pour la sous-unité delta du antigène T-cell receptor complexe et est impliqué dans les translocations 11 q 23 fréquemment observées dans les aigus leucémie chez les humains⁴⁹^,⁵⁰. OMIM a également suggéré que génomiques mutations dans le gène SH2D1A dans la région chromosomique des Xq25 peuvent être associés à la B-cellule leucémie⁵¹^,⁵². En outre, OMIM également mis en évidence une possible T-cellule tous les événement de fusion associé du LCK et bêta T-cell receptor (TCRB)⁵³. Les utilisateurs peuvent enquêter sur d’autres aspects fonctionnels de ces biomarqueurs avec leurs symboles de gène, par exemple, les annotations de fonction de gène dans Entrez Gene³⁶, annotations de fonction de protéine dans UniProtKB³⁸ ou Pfam⁴¹, protéine 3D structures de PDB/PDB_REDO³⁵et résidus de PTM dans GPS⁷^,⁴²^,⁴³^,⁴⁴. L’interaction sous réseau (base de données chaîne⁴⁷) et des modules fonctionnels enrichis (database David³²) peuvent également projetés pour ces biomarqueurs comme un ensemble. Diverses autres bases de données ou serveurs web peuvent également faciliter les annotations et in silico les prédictions en utilisant les symboles ou les séquences de gène/protéine principale de ces gènes.

Comme on le voit dans le tableau 2, la nécessité de détecter plus d’une solution avec des performances identiques ou de même efficaces est évidente, avec 57 groupes de fonctionnalités avec les justesses de classification binaire de 100 % entre les lymphocytes B et T-cell, tous les échantillons. Ces sous-ensembles biomarqueur spécifique s’appelaient les solutions parfaites. Un certain biomarqueurs est apparu dans ces solutions parfaites à plusieurs reprises, suggérant qu’elles pourraient représenter les principales différences, au niveau moléculaire, entre les cellules B et T-tous. Si l’algorithme de détection des biomarqueurs s’arrête à détecter la première solution parfaite de trois gènes CD3D/SH2D1A/LCK, une autre solution parfaite CD74/HLA-DPB1/PRKCQ nous manquera. Par exemple, HLA-DPB1 est connu pour être associé de façon significative les lymphocytes pédiatrique tous, mais pas de B-cellule tous les⁵⁴.

Les trois caractéristiques du premier sous-ensemble biomarqueur de les2 étaient Assemblée de chromatine facteur 1 sous-unité B (CHAF1B, 36912_at), exonucléase 1 (EXO1, 36041_at) et le signal transducteur et activateur de la transcription 6 (STAT6, 41222_at). CHAF1B a été observée à être fortement exprimé dans les lignées de cellules de la leucémie et l’anticorps contre la protéine CHAF1B codé a été considérablement développé dans la leucémie myéloïde aiguë (AML) patients⁵⁵. EXO1 a été perdu dans certains cas de leucémie aiguë⁵⁶et surexprimés dans la lignée de cellules de leucémie HL-60 [R]. Il a également été trouvé à réguler négativement l’allongement alternative de voie (ALT) télomères, ce qui a facilité la formation de ALT-associated PML (leucémie promyélocytaire) corps (rappels)⁵⁷. STAT6 est phosphorylée pour activer l’apoptotiques et prolifératives de signalisation dans les cas de rechute AML⁵⁸. Pris ensemble, les trois gènes ont été associés à l’élaboration et la rechute de la leucémie, mais aucune preuve explicite a été publié sur leurs associations avec la rechute tous. Cela peut représenter un sujet intéressant pour plus d’investigations.

La même procédure d’annotation peut-être être effectuée sur n’importe quel sous-ensemble de biomarqueurs pour APE1 et les2. Les trois biomarqueurs étudiés dans la section ci-dessus n’étaient pas identifiées comme des rechutes biomarqueurs dans le dataset les2, tel qu’illustré en Figure 9 b. Ceci suggère que les biomarqueurs sont phénotype-spécifique, qui est un autre défi majeur pour la détection des biomarqueurs, aux côtés de l’existence de plusieurs solutions de même efficaces.

Certains modules techniques ont été mises en œuvre et décrites ici pour les utilisateurs intéressés. Le module de gestion d’erreur fournit des messages d’information pour l’utilisateur lorsque des erreurs surviennent pendant l’exécution du logiciel. Les messages d’erreur principale sont énumérées et expliquées dans « Messages d’erreur » dans les documents supplémentaires. Un calcul parallèle des biomarqueurs a été mis en place pour les ordinateurs avec plus d’un processeur. Les améliorations détaillées pour le temps d’exécution figurent dans les documents supplémentaires parallèlement « durée ». Les données suggèrent que l’utilisation de plusieurs cœurs de processeur peut ne pas améliorer le temps d’exécution en raison du coût de la commutation entre les différents cœurs de processeur.

Figure 1 : exemple dataset extrait à partir du dataset transcriptome APE1 a les six premières caractéristiques des neuf premiers échantillons d’APE1. La matrice de données a été formatée en (a) la forme de visualisation, (b) le fichier au format texte délimité par des tabulations et (c) le fichier au format texte délimité par des virgules. (d) les données d’étiquette de classe a été formatées sous la forme de visualisation. En raison de l’onglet personnage est invisible, elle s’illustre comme [TAB] (b). La colonne plateforme donne à la plate-forme de microarray valsaint au point b et n’est pas une colonne de données requises. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 2 : interface graphique du logiciel. Les statistiques de base sont résumées dans la zone supérieure gauche. Utilisateurs peuvent rechercher des caractéristiques d’intérêt et enquêter sur les distributions de valeur dans les deux cases de droite haut de la page. Tous les paramètres pour la procédure de détection des biomarqueurs peuvent être à l’écoute la barre centrale horizontale. Tous les sous-ensembles de biomarqueurs et leurs distributions visualisées correspondantes figurent dans la partie inférieure. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 3 : sous-ensembles de biomarqueurs et leurs visualisations générées. Les utilisateurs peuvent affiner le tableau et deux diagrammes 3D en utilisant les paramètres piCutoff et piFSNum. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 4 : les annotations de gène de la fonctionnalité ID détecté dans cette étude. Prenez les trois fonctionnalité IDs 38319_at/38147_at/33238_at du premier sous-ensemble de l’objet dataset APE1 biomarqueur. (a) obtenir le module de conversion d’ID en cliquant sur le lien ID la Conversion génique. (b) entrée la fonctionnalité d’ID dans la case rouge 1, choisir le type de fonction dans l’encadré rouge 2 (valeur par défaut « AFFYMETRIX_3PRIME_IVT_ID » est correcte pour cette étude), choisissez Liste de gène dans l’encadré rouge 3, puis cliquez sur Soumettre liste dans l’encadré rouge 4. (c) obtenir toutes les annotations fonctionnelles dans cette page et cliquez sur Afficher la liste de gène pour obtenir les symboles de gène de ces fonctionnalités interrogées. (d) obtenir les symboles de gène des ID de fonction interrogé. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 5 : Annotations et analyse de l’enrichissement des sous-ensembles caractéristique détecté. (a) les annotations de gène du gène Card. (B) OMIM décrit les associations de maladie de chaque fonctionnalité/gène. (c) annoter la protéine codée par le gène d’intérêt dans la base de données UniProtKB. d prévoir les résidus de la phosphorylation de tyrosine dans la protéine donnée à l’aide de l’outil en ligne de GPS. Une boîte rouge a été ajoutée pour indiquer à l’utilisateur où cliquer pour saisir les données de la requête. La séquence primaire de la protéine exemple CD3D peuvent être récupérés sous le format FASTA dans la zone rouge (c) et d’entrée dans la fenêtre de requête de cliquez sur la case rouge en (ré). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 6 : flux de travail de kSolutionVis. Chaque module du logiciel a été décrite dans le protocole ci-dessus. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 7 : statistiques de la base de deux séries de données représentatives. Le nombre d’échantillons, de fonctions et de classes dans APE1 (a) et (b) les2 est calculé. La taille des fichiers des matrice et la classe des étiquettes de données est également détectée. Et une nouvelle matrice de données est extraite à partir des échantillons avec des étiquettes de classe. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 8 : visualisation d’histogramme de la 1012_at de fonctionnalité dans les deux ensembles de données. Statistiques de base et des histogrammes ont été générés pour APE1 (a) et (b) les2. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 9 : sous-ensembles de biomarqueurs et les diagrammes de dispersion des deux séries de données. Les utilisateurs peuvent modifier les paramètres dans la deuxième rangée de boîtes de paramètre pour affiner les listes des sous-ensembles de biomarqueurs et intrigues 3D pour les ensembles de données APE1 (a) et (b) les2. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Site Web	Lien	Fonctionnalité
GeneCards	http://www.Genecards.org/cgi-bin/carddisp.pl?Gene=CD3d	Annotation de gène
OMIM	https://OMIM.org/Entry/186790?Search=CD3d&highlight=CD3d	Association de gène-maladie
UniProtKB	http://www.UniProt.org/UniProt/P04234	Annotation de protéine
GPS	http://GPS.biocuckoo.org/	Prédiction de PTM de protéine
Chaîne	https://String-DB.org/	Interaction protéine-protéine
David	https://David.ncifcrf.gov/	Ensemble de gènes enrichissement analyse

Tableau 1. Sites Web pour annoter et analysant les biomarqueurs détectés. Une liste d’outils en ligne utiles permettant d’annoter les biomarqueurs détectés.

F1	F2	F3	ACC	Symbole1	Symbol2	Symbole3
38319_at	38147_at	33238_at	1.0000	CD3D	SH2D1A	LCK
33238_at	35016_at	37039_at	1.0000	LCK	CD74	HLA-DRA
38147_at	33238_at	35016_at	1.0000	SH2D1A	LCK	CD74
38147_at	33238_at	2059_s_at	1.0000	SH2D1A	LCK	LCK
38147_at	33238_at	37039_at	1.0000	SH2D1A	LCK	HLA-DRA
38147_at	33238_at	38095_i_at	1.0000	SH2D1A	LCK	HLA-DPB1
38147_at	33238_at	33039_at	1.0000	SH2D1A	LCK	TRAT1
38147_at	35016_at	2059_s_at	1.0000	SH2D1A	CD74	LCK
38147_at	35016_at	33039_at	1.0000	SH2D1A	CD74	TRAT1
38147_at	35016_at	38949_at	1.0000	SH2D1A	CD74	PRKCQ
38147_at	2059_s_at	37039_at	1.0000	SH2D1A	LCK	HLA-DRA
38147_at	2059_s_at	38095_i_at	1.0000	SH2D1A	LCK	HLA-DPB1
38147_at	37039_at	33039_at	1.0000	SH2D1A	HLA-DRA	TRAT1
38147_at	37039_at	38949_at	1.0000	SH2D1A	HLA-DRA	PRKCQ
38319_at	38147_at	35016_at	1.0000	CD3D	SH2D1A	CD74
38147_at	38833_at	38949_at	1.0000	SH2D1A	HLA-DPA1	PRKCQ
33238_at	35016_at	33039_at	1.0000	LCK	CD74	TRAT1
38319_at	38833_at	38949_at	1.0000	CD3D	HLA-DPA1	PRKCQ
33238_at	35016_at	38949_at	1.0000	LCK	CD74	PRKCQ
33238_at	2059_s_at	37039_at	1.0000	LCK	LCK	HLA-DRA
33238_at	37039_at	38095_i_at	1.0000	LCK	HLA-DRA	HLA-DPB1
33238_at	37039_at	33039_at	1.0000	LCK	HLA-DRA	TRAT1
33238_at	37039_at	38949_at	1.0000	LCK	HLA-DRA	PRKCQ
33238_at	38095_i_at	38949_at	1.0000	LCK	HLA-DPB1	PRKCQ
33238_at	38833_at	38949_at	1.0000	LCK	HLA-DPA1	PRKCQ
33238_at	33039_at	38949_at	1.0000	LCK	TRAT1	PRKCQ
35016_at	2059_s_at	33039_at	1.0000	CD74	LCK	TRAT1
35016_at	2059_s_at	38949_at	1.0000	CD74	LCK	PRKCQ
35016_at	38095_i_at	38949_at	1.0000	CD74	HLA-DPB1	PRKCQ
2059_s_at	37039_at	33039_at	1.0000	LCK	HLA-DRA	TRAT1
2059_s_at	38095_i_at	38949_at	1.0000	LCK	HLA-DPB1	PRKCQ
2059_s_at	38833_at	38949_at	1.0000	LCK	HLA-DPA1	PRKCQ
38319_at	33039_at	38949_at	1.0000	CD3D	TRAT1	PRKCQ
38147_at	38095_i_at	38949_at	1.0000	SH2D1A	HLA-DPB1	PRKCQ
38319_at	33238_at	38833_at	1.0000	CD3D	LCK	HLA-DPA1
38319_at	2059_s_at	38833_at	1.0000	CD3D	LCK	HLA-DPA1
38319_at	33238_at	33039_at	1.0000	CD3D	LCK	TRAT1
38319_at	33238_at	38095_i_at	1.0000	CD3D	LCK	HLA-DPB1
38319_at	33238_at	37039_at	1.0000	CD3D	LCK	HLA-DRA
38319_at	35016_at	38833_at	1.0000	CD3D	CD74	HLA-DPA1
38319_at	33238_at	2059_s_at	1.0000	CD3D	LCK	LCK
38319_at	35016_at	33039_at	1.0000	CD3D	CD74	TRAT1
38319_at	33238_at	35016_at	1.0000	CD3D	LCK	CD74
38319_at	35016_at	38949_at	1.0000	CD3D	CD74	PRKCQ
38319_at	2059_s_at	37039_at	1.0000	CD3D	LCK	HLA-DRA
38319_at	38147_at	38949_at	1.0000	CD3D	SH2D1A	PRKCQ
38319_at	38147_at	33039_at	1.0000	CD3D	SH2D1A	TRAT1
38319_at	33238_at	38949_at	1.0000	CD3D	LCK	PRKCQ
38319_at	2059_s_at	38095_i_at	1.0000	CD3D	LCK	HLA-DPB1
38319_at	38147_at	38833_at	1.0000	CD3D	SH2D1A	HLA-DPA1
38319_at	2059_s_at	33039_at	1.0000	CD3D	LCK	TRAT1
38319_at	38147_at	38095_i_at	1.0000	CD3D	SH2D1A	HLA-DPB1
38319_at	37039_at	33039_at	1.0000	CD3D	HLA-DRA	TRAT1
38319_at	38147_at	37039_at	1.0000	CD3D	SH2D1A	HLA-DRA
38319_at	38147_at	2059_s_at	1.0000	CD3D	SH2D1A	LCK
38319_at	2059_s_at	38949_at	1.0000	CD3D	LCK	PRKCQ
38319_at	35016_at	2059_s_at	1.0000	CD3D	CD74	LCK
2059_s_at	37039_at	38095_i_at	0.9922	LCK	HLA-DRA	HLA-DPB1
35016_at	33039_at	38949_at	0.9922	CD74	TRAT1	PRKCQ
2059_s_at	37039_at	38949_at	0.9922	LCK	HLA-DRA	PRKCQ
35016_at	2059_s_at	37039_at	0.9922	CD74	LCK	HLA-DRA
35016_at	37039_at	38949_at	0.9922	CD74	HLA-DRA	PRKCQ
35016_at	38833_at	38949_at	0.9922	CD74	HLA-DPA1	PRKCQ
2059_s_at	33039_at	38949_at	0.9922	LCK	TRAT1	PRKCQ
37039_at	38833_at	38949_at	0.9922	HLA-DRA	HLA-DPA1	PRKCQ
37039_at	33039_at	38949_at	0.9922	HLA-DRA	TRAT1	PRKCQ
38319_at	38095_i_at	38949_at	0.9922	CD3D	HLA-DPB1	PRKCQ
33238_at	37039_at	38833_at	0.9922	LCK	HLA-DRA	HLA-DPA1
38095_i_at	33039_at	38949_at	0.9922	HLA-DPB1	TRAT1	PRKCQ
33238_at	2059_s_at	38949_at	0.9922	LCK	LCK	PRKCQ
38319_at	38833_at	33039_at	0.9922	CD3D	HLA-DPA1	TRAT1
38833_at	33039_at	38949_at	0.9922	HLA-DPA1	TRAT1	PRKCQ
38147_at	33039_at	38949_at	0.9922	SH2D1A	TRAT1	PRKCQ
38319_at	37039_at	38833_at	0.9922	CD3D	HLA-DRA	HLA-DPA1
38147_at	2059_s_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	38095_i_at	38833_at	0.9922	SH2D1A	HLA-DPB1	HLA-DPA1
38147_at	33238_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	2059_s_at	33039_at	0.9922	SH2D1A	LCK	TRAT1
38319_at	37039_at	38949_at	0.9922	CD3D	HLA-DRA	PRKCQ
38319_at	38095_i_at	38833_at	0.9922	CD3D	HLA-DPB1	HLA-DPA1
38147_at	2059_s_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
33238_at	35016_at	2059_s_at	0.9922	LCK	CD74	LCK
38319_at	35016_at	38095_i_at	0.9922	CD3D	CD74	HLA-DPB1
33238_at	35016_at	38095_i_at	0.9922	LCK	CD74	HLA-DPB1
38319_at	35016_at	37039_at	0.9922	CD3D	CD74	HLA-DRA
38147_at	33238_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
38147_at	37039_at	38095_i_at	0.9844	SH2D1A	HLA-DRA	HLA-DPB1
38147_at	35016_at	38833_at	0.9844	SH2D1A	CD74	HLA-DPA1
38147_at	35016_at	38095_i_at	0.9844	SH2D1A	CD74	HLA-DPB1
35016_at	2059_s_at	38095_i_at	0.9844	CD74	LCK	HLA-DPB1
38147_at	37039_at	38833_at	0.9844	SH2D1A	HLA-DRA	HLA-DPA1
35016_at	2059_s_at	38833_at	0.9844	CD74	LCK	HLA-DPA1
38319_at	37039_at	38095_i_at	0.9844	CD3D	HLA-DRA	HLA-DPB1
37039_at	38095_i_at	38949_at	0.9844	HLA-DRA	HLA-DPB1	PRKCQ
38147_at	38833_at	33039_at	0.9844	SH2D1A	HLA-DPA1	TRAT1
38095_i_at	38833_at	38949_at	0.9844	HLA-DPB1	HLA-DPA1	PRKCQ
33238_at	35016_at	38833_at	0.9844	LCK	CD74	HLA-DPA1
38319_at	38095_i_at	33039_at	0.9844	CD3D	HLA-DPB1	TRAT1
2059_s_at	37039_at	38833_at	0.9844	LCK	HLA-DRA	HLA-DPA1
2059_s_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
2059_s_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
2059_s_at	38095_i_at	38833_at	0.9766	LCK	HLA-DPB1	HLA-DPA1
33238_at	2059_s_at	38095_i_at	0.9766	LCK	LCK	HLA-DPB1
35016_at	38095_i_at	33039_at	0.9766	CD74	HLA-DPB1	TRAT1
38147_at	38095_i_at	33039_at	0.9766	SH2D1A	HLA-DPB1	TRAT1
33238_at	2059_s_at	33039_at	0.9766	LCK	LCK	TRAT1
35016_at	37039_at	33039_at	0.9766	CD74	HLA-DRA	TRAT1
33238_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
33238_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
35016_at	38833_at	33039_at	0.9766	CD74	HLA-DPA1	TRAT1
33238_at	38095_i_at	38833_at	0.9688	LCK	HLA-DPB1	HLA-DPA1
37039_at	38833_at	33039_at	0.9688	HLA-DRA	HLA-DPA1	TRAT1
38147_at	35016_at	37039_at	0.9688	SH2D1A	CD74	HLA-DRA
33238_at	2059_s_at	38833_at	0.9688	LCK	LCK	HLA-DPA1
37039_at	38095_i_at	33039_at	0.9688	HLA-DRA	HLA-DPB1	TRAT1
38095_i_at	38833_at	33039_at	0.9609	HLA-DPB1	HLA-DPA1	TRAT1
35016_at	38095_i_at	38833_at	0.9609	CD74	HLA-DPB1	HLA-DPA1
37039_at	38095_i_at	38833_at	0.9531	HLA-DRA	HLA-DPB1	HLA-DPA1
35016_at	37039_at	38095_i_at	0.9531	CD74	HLA-DRA	HLA-DPB1
35016_at	37039_at	38833_at	0.9531	CD74	HLA-DRA	HLA-DPA1

Le tableau 2. Les annotations de toutes les fonctionnalités de l’objet dataset APE1. C’est un ensemble de données de classification binaire entre les lymphocytes B et lymphocytes T tous les échantillons. Les symboles de gène ont été recueillies pour toutes les fonctions de « microarray » dans les trois dernières colonnes.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Cette étude présente un protocole de détection et la caractérisation de facile-à-suivre la multi-solution biomarqueurs pour un dataset de classification binaire spécifié par l’utilisateur. Le logiciel met l’accent sur la convivialité et les interfaces souples import/export pour différents formats de fichiers, permettant à un chercheur en sciences biomédicales d’enquêter sur l’ensemble de leur données facilement à l’aide de l’interface graphique du logiciel. Cette étude souligne également la nécessité de générer plus d’une solution avec des performances de modélisation efficace de la même façon, précédemment ignoré de nombreux algorithmes de détection des biomarqueurs existants. À l’avenir, les algorithmes de détection de nouveaux biomarqueurs peuvent inclure cette option en enregistrant tous les sous-ensembles de biomarqueurs intermédiaires avec des performances suffisantes de modélisation.

Dans ce protocole, les étapes 1 et 5 sont plus importantes, comme le logiciel est un système entièrement automatique qui repose sur des fichiers d’entrée correctement mis en forme. On a constaté que lors de notre étape de test, le décalage des noms d’échantillon de la matrice de données et fichiers d’étiquettes de classe peuvent entraîner des erreurs dans le logiciel, où le logiciel s’éjecte un dialogue d’avertissement sur cette erreur. Par conséquent, si l’utilisateur constate aucun échantillon ont été chargés de la matrice de données ou fichiers d’étiquettes de classe, l’astuce de dépannage consiste à vérifier si les noms de l’échantillon dans les deux fichiers d’entrée sont incompatibles. Si pas de points ont été visualisées dans les diagrammes 3D, ceci peut être dû au paramètre pCutoff sont plus élevés que la meilleure solution. Dans ce cas, l’astuce de dépannage consiste à abaisser le seuil de mesure du rendement de la classification (paramètre pCutoff). Toutefois, la mesure du rendement maximal atteindre par les sous-ensembles de biomarqueurs peut-être être encore bloquée par la coupure d’un dataset difficile. Une boîte de dialogue Avertissement donnera cette meilleure mesure du rendement, et l’utilisateur peut choisir une fréquence de coupure plus petite de continuer plus loin l’analyse.

Les principales limitations du logiciel sont sa vitesse de calcul lent et sa capacité à mettre l’accent uniquement sur, au maximum, trois caractéristiques. Sélection des fonctionnalités est un problème NP-difficile, défini comme un problème de calcul dont la solution optimale dans le monde ne peut pas être résolue dans un temps de⁵⁹. Le sous-ensemble de biomarqueurs complète étape de dépistage consomme un volume élevé de puissance de calcul. Le temps d’exécution complexité de kSolutionVis est O (n³) où n est le paramètre pTopX. En outre, cet algorithme de détection multiple-biomarqueur met l’accent sur la visualisation à l’écran des fonctionnalités, donc limiter le nombre des caractéristiques à trois ou moins. Cette limitation peut gêner certains utilisateurs peuvent travailler sur des problèmes difficiles et qui souhaitent trouver des sous-ensembles de fonctionnalité composé de plus de trois fonctions. Cependant, le logiciel visualise les sous-ensembles de la fonctionnalité dans l’espace 3D, et il est difficile de visualiser directement les sous-ensembles de fonctionnalité en plus de trois dimensions. En outre, les triplets de fonctionnalité plusieurs sélectionnés par kSolutionVis basé sur les résultats représentatifs présentés ci-dessus, est une méthode très efficace dans la classification et montre des résultats significatifs avec importante signification biomédicale.

Le logiciel représente des logiciels complémentaires utiles pour les algorithmes de sélection de fonctionnalité existante. Dans le domaine de la biomédecine, sélection de composant est appelée biomarqueur, dans le but de trouver un sous-ensemble des fonctionnalités d’atteindre des performances améliorées de modélisation⁶⁰^,^,du⁶¹⁶². Le logiciel est un outil de dépistage complet de tous les sous-ensembles de biomarqueurs de triplet basé sur la stratégie proposée dans une récente étude de⁵. Deux séries de données représentatives projeté par le protocole du logiciel, et leurs résultats démontrent les existences de quelques solutions de même les performances de modélisation efficace ou même identiques. Toutefois, les règles heuristiques⁶³^,⁶⁴^,⁶⁵^,⁶⁶ peuvent être employées pour trouver des solutions moins qu’optimales, mais ces algorithmes ont une forte tendance à ne produire qu’une seule solution, sans tenir compte de beaucoup d’autres solutions de la même manière les performances de modélisation efficace ou même identiques. Par conséquent, la puissance de l’ordinateur et la longue durée du logiciel valent la peine d’assurer une détection plus complète des biomarqueurs potentiels à l’avenir.

Les résultats représentatifs ont été calculées sur deux ensembles de données transcriptome, cependant, les poignées de logiciel d’entrée de données dans divers formats de fichiers standard et peuvent également être utilisées pour analyser les autres ensembles de données « omic », y compris la protéomique et métabolomique. En outre, parallélisation peut accélérer le calcul du module de détection de biomarqueurs dans le logiciel. Il y a peu de matériel multicœur comprenant GPGPU (usage général Graphical Processing unir) et les processeurs Intel Xeon Phi disponibles à cet effet. Cependant, ces technologies nécessitent des stratégies de codage différentes et en tiendra compte dans la prochaine version du logiciel.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Nous n’avons aucun conflit d’intérêt concernant ce rapport.

Acknowledgments

Ce travail a été soutenu par le programme de recherche stratégique prioritaire de l’Académie chinoise des Sciences (XDB13040400) et la subvention de démarrage de l’Université de Jilin. Évaluateurs anonymes et les utilisateurs de tests biomédicaux ont été appréciés pour leurs commentaires constructifs sur l’amélioration de la convivialité et la fonctionnalité de kSolutionVis.

Materials

Name	Company	Catalog Number	Comments
Hardware
laptop	Lenovo	X1 carbon	Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name	Company	Catalog Number	Comments
Software
Python 3.0	WingWare	Wing Personal	Any python programming and running environments support Python version 3.0 or above