Cancer Research

تحديد مجموعات فرعية العلامات البيولوجية متعددة مع المثل تصنيف ثنائي فعال العروض

Published: October 11, 2018 doi: 10.3791/57738

Xin Feng¹, Shaofei Wang¹, Quewang Liu¹, Han Li², Jiamei Liu², Cheng Xu², Weifeng Yang², Yayun Shu², Weiwei Zheng¹, Bingxin Yu³, Mingran Qi⁴, Wenyang Zhou¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²College of Software, Jilin University, ³Ultrasonography Department, China-Japan Union Hospital of Jilin University, ⁴Department of Pathogenobiology, College of Basic Medical Science, Jilin University

Summary

الخوارزميات الموجودة إيجاد حل واحد لمجموعة بيانات الكشف عن العلامات البيولوجية. هذا البروتوكول يوضح وجود حلول فعالة وبالمثل متعددة ويقدم برمجيات سهلة الاستخدام لمساعدة الباحثين الطبية التحقيق على مجموعات البيانات لتحدي المقترحة. علماء الكمبيوتر قد توفر هذه الميزة في العلامات البيولوجية على خوارزميات الكشف.

Abstract

الكشف عن العلامات البيولوجية واحدة من المسائل الطبية البيولوجية أكثر أهمية للباحثين الفائق 'اوميكس'، وتقريبا جميع خوارزميات الكشف عن العلامات البيولوجية الموجودة تولد فرعية العلامات البيولوجية واحدة بقياس الأداء الأمثل لمجموعة معينة من البيانات . بيد أن دراسة أجريت مؤخرا أظهر وجود عدة مجموعات فرعية العلامات البيولوجية مع تصنيف فعالة وبالمثل أو حتى مطابقة العروض. ويقدم هذا البروتوكول منهجية بسيطة ومباشرة للكشف عن العلامات البيولوجية مجموعات فرعية مع العروض تصنيف ثنائي، أفضل من قطع المعرفة من قبل المستخدم. ويتكون البروتوكول من إعداد البيانات وتحميل تلخيص معلومات خط الأساس، ضبط المعلمة، فحص العلامات البيولوجية، التصور نتيجة والتفسير، وشروح الجينات العلامات البيولوجية وتصدير النتيجة والتصور في نوعية المنشور. العلامات البيولوجية المقترحة فحص استراتيجية بديهية ويوضح قاعدة عامة لتطوير خوارزميات الكشف عن العلامات البيولوجية. تم تطوير واجهة مستخدم رسومية سهلة الاستخدام (GUI) باستخدام لغة البرمجة بايثون، السماح للباحثين الطبية الحيوية الوصول المباشر إلى نتائجها. يمكن تحميل التعليمات البرمجية المصدر والدليل من كسولوتيونفيس من http://www.healthinformaticslab.org/supp/resources.php.

Introduction

التحقيق تصنيف ثنائي، واحدة من الأكثر استخداماً ويستخدم البيانات تحديا التعدين المشاكل في مجال الطب الحيوي، بناء نموذج تصنيف المدربين في مجموعتين من العينات مع الأكثر دقة التمييز السلطة¹^، ² ^, ³ ^, ⁴ ^, ⁵ ^, ⁶ ^, ⁷-ومع ذلك، قد البيانات الكبيرة التي تم إنشاؤها في مجال الطب الحيوي الأصيل "كبير ف الصغيرة n" النموذج، مع العدد من الميزات التي عادة ما تكون أكبر بكثير من عدد العينات⁶^،^،من⁸⁹. ولذلك، يلزم الباحثين الطب الحيوي تخفيض البعد ميزة قبل استخدام خوارزميات التصنيف لتجنب مشكلة⁸^،أوفيرفيتينج⁹. يتم تعريف المؤشرات الحيوية التشخيص كمجموعة فرعية من الكشف عن ميزات فصل المرضى لمرض معين من مراقبة صحية عينات¹⁰^،¹¹. عادة ما يتم تعريف المرضى كعينات إيجابية، وضوابط صحية تم تعريفها ك عينات سلبية¹².

وأشارت الدراسات الأخيرة أن هناك أكثر من حل واحد مع تصنيف متطابقة أو فعالة وبالمثل العروض ل مجموعة بيانات الطبية الحيوية⁵. تقريبا كل ميزة اختيار خوارزميات خوارزميات القطعية، المنتجة لحل واحد فقط لنفس مجموعة البيانات. الخوارزميات الجينية قد تولد في الوقت نفسه حلول متعددة مع عروض مماثلة، إلا أنها لا تزال في محاولة لتحديد حل واحد مع الدالة اللياقة البدنية أفضل كناتج¹³^،dataset معطى¹⁴.

يمكن تجميع ميزة اختيار خوارزميات تقريبا ك مرشحات أو أغلفة¹². ويختار خوارزمية تصفيةك ملامح أعلى-مرتبة حسب ارتباطها الفردية كبيرة مع التسميات الطبقة الثنائية على أساس الافتراض بأن ملامح مستقلة عن بعضها البعض¹⁵^،¹⁶^،¹⁷. على الرغم من أن هذا الافتراض لا ينطبق على تقريبا جميع مجموعات البيانات في العالم الحقيقي، القاعدة عامل تصفية افتراضي يؤدي جيدا في كثير من الحالات، على سبيل المثال، الخوارزمية مرمر (التكرار الحد الأدنى والحد الأقصى أهمية)، التصفية ميزة الاختبار على أساس الرتبي (فرانك) الخوارزمية، وارسم ROC (خاصية التشغيل المتلقي) على أساس خوارزمية التصفية (روكرانك). مرمر، خوارزمية تصفية فعالة نظراً لأنه يقترب من مشكلة تقدير اندماجي مع سلسلة من المشاكل أصغر بكثير، مقارنة بالتبعية كحد أقصى ميزة تحديد خوارزمية، فقط كل منها ينطوي على اثنين من المتغيرات، و ولذلك يستخدم العشوائية الاحتمالات المشتركة التي هي أقوى¹⁸^،¹⁹. ومع ذلك، قد مرمر نقلل من فائدة بعض الميزات كما أنها لا تقيس التفاعلات بين الميزات التي يمكن أن تزيد من أهميتها، وهكذا يفتقد بعض تركيبات ميزة منفردة عديمة الفائدة ولكنها مفيدة فقط عندما جنبا إلى جنب. خوارزمية فرانك يحسب نقاط غير حدودي التمييزية كيف ميزة بين فئتين من العينات، وتشتهر متانة للقيم المتطرفة²⁰^،²¹. وعلاوة على ذلك، تقيم خوارزمية روكرانك كيف كبيرة المنطقة تحت ROC المنحنى (AUC) لميزة معينة لتصنيف ثنائي التحقيق أداء²²^،²³.

من ناحية أخرى، مجمع يقيم أداء المصنف المعرفة مسبقاً في مجموعة فرعية ميزة معينة، تكراري إنشاؤها بواسطة قاعدة الكشف عن مجريات الأمور، ويقوم بإنشاء مجموعة فرعية ميزة مع قياس الأداء أفضل²⁴. مجمع عموما يتفوق عامل تصفية في أداء التصنيف ولكن يعمل أبطأ²⁵. على سبيل المثال، يستخدم خوارزمية²⁷ ²⁶^،الغابات تنظيم عشوائي (الرد) قاعدة الجشع، بتقييم الميزات على مجموعة فرعية من البيانات التدريب في كل عقده الغابات العشوائية، عشرات أهمية الميزة التي يتم تقييمها بواسطة مؤشر جيني . اختيار سمة جديدة سوف يعاقب إذا لم تتحسن في كسب المعلومات أن من السمات المختارة. بالإضافة إلى ذلك، تحليل التنبؤ [ميكروارس] (بام)²⁸^،خوارزمية²⁹ ، أيضا خوارزمية برنامج تضمين، يحسب centroid لكل تسميات الفئة، وثم تحديد ميزات لتقليص سينترويدس الجينات نحو الشاملة فئة centroid. أم قوي لميزات البعيدة.

قد يلزم حلول متعددة مع أداء أعلى تصنيف أي مجموعة معينة من البيانات. أولاً، يتم تعريف الهدف الأمثل خوارزمية قطعية صيغة رياضية، مثلاً، معدل خطأ الحد الأدنى³⁰، التي ليست بالضرورة مثالية للعينات البيولوجية. ثانيا، قد يكون إحدى وحدات dataset حلول متعددة، تختلف اختلافاً كبيرا، مع الأداء الفعال أو حتى مطابقة مماثلة. تقريبا جميع خوارزميات اختيار ميزة موجودة عشوائياً تحديد واحد من هذه الحلول ك إخراج³¹.

وسوف أعرض هذه الدراسة بروتوكولا تحليلية المعلوماتية لتوليد ميزة اختيار حلول متعددة مع عروض مماثلة لأي تصنيف ثنائي معين dataset. إذ ترى أن الباحثين الطبية الأكثر ليسوا مطلعين على تقنيات المعلوماتية أو الكمبيوتر الترميز، وضعت واجهة مستخدم رسومية سهلة الاستخدام (GUI) لتسهيل التحليل السريع لمجموعات البيانات الطبية الحيوية تصنيف ثنائي. البروتوكول تحليلية يتكون من تحميل البيانات وتلخيص وضبط المعلمة وتنفيذ خط أنابيب وتفسيرات النتيجة. بنقرة بسيطة، الباحث قادراً على توليد مجموعات فرعية العلامات البيولوجية ومؤامرات التصور نوعية المنشور. تم اختبار البروتوكول استخدام ترانسكريبتوميس لمجموعات تصنيف ثنائي اثنين من الحاد الليمفاوي اللوكيميا (الكل)، أي، ALL1 و ALL2¹². مجموعات البيانات ALL1 و ALL2 تم تحميلها من قاعدة عريضة معهد الجينوم تحليل مركز البيانات، متاح على http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 يحتوي على عينات 128 مع ميزات 12,625. من هذه العينات، وهي 95 ب-الخلية هي جميعا و 33 تي خلية كافة. ALL2 يشمل 100 عينة مع ميزات 12,625 كذلك. من هذه العينات، وهناك 65 مريضا يعاني انتكاسة و 35 مريضا لم يكن. وكان ALL1 dataset من سهل تصنيف ثنائي، مع دقة الحد أدنى من أربع مرشحات وأربعة أغلفة يجري 96.7 في المائة، و 6 من خوارزميات انتقاء 8 ميزة تحقيق 100%¹². وبينما كان ALL2 dataset أكثر صعوبة، مع خوارزميات اختيار 8 ميزة تحقيق ليس أفضل من دقة 83.7%¹²أعلاه. وقد تحقق هذا أفضل دقة مع ميزات 56 الكشف عنها بواسطة خوارزمية برنامج التضمين، اختيار ميزة المستندة إلى العلاقة (لجنة الأمن الغذائي).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

ملاحظة: البروتوكول التالية توضح تفاصيل إجراءات تحليلية المعلوماتية ورموز الزائفة من وحدات رئيسية. واستحدث نظام التحليل التلقائي باستخدام بيثون الإصدار 3.6.0 والباندا وحدات بايثون، سي، نومبي، سسيبي، سكليرن، sys، PyQt5، sys، مرمر، الرياضيات وماتبلوتليب. وترد في الجدول للموادالمواد المستخدمة في هذه الدراسة.

1-إعداد مصفوفة البيانات والتسميات من الدرجة

إعداد ملف مصفوفة البيانات كملف مصفوفة علامة التبويب أو-بفاصلات، كما هو موضح في الشكل 1A.
ملاحظة: كل صف جميع قيم سمة، والعنصر الأول هو اسم الميزة. هو معرف بروبست لمجموعة البيانات المستندة إلى ميكرواري الترنسكربيتوم ميزة أو قد يكون معرف قيمة أخرى مثل بقايا سيستين بقيمته مثلايشن في dataset ميثيلوميك. ويعطي كل عمود قيم ميزة نموذج معين، مع العنصر الأول هو اسم العينة. يتم فصل صف إلى الأعمدة بعلامة تبويب (الشكل 1B) أو فاصلة (الشكل 1). ملف المفصول مصفوفة المسلم من.tsv ملحق الملف، وملف مقسوم بفاصلة مصفوفة.csv ملحق. قد يتم إنشاء هذا الملف عن طريق حفظ مصفوفة أما بتنسيق.csv أو.tsv من برامج مثل Microsoft Excel. كما قد يتم إنشاء مصفوفة البيانات من الكمبيوتر الترميز.
إعداد ملف تسمية الفئة كعلامة التبويب أو-بفاصلات مصفوفة ملف (الشكل 1)، مماثلة لمصفوفة بيانات الملف.
ملاحظة: يعطي أسماء عينة من العمود الأول، وتعطي تسمية فئة كل نموذج في العمود عنوان الفئة. ويعتبر التوافق القصوى في عملية الترميز، حيث أنه يمكن إضافة أعمدة إضافية. قد يكون تنسيق ملف تسمية الفئة كملف.csv أو.tsv. قد تكون الأسماء الموجودة في العمود الفئة أية شروط، وقد يكون هناك أكثر من فئتين من العينات. يمكن للمستخدم اختيار أي اثنين من فئات التحليل التالي.

2-تحميل مصفوفة البيانات والتسميات من الدرجة

تحميل تسميات مصفوفة وفئة البيانات في البرنامج. انقر فوق الزر تحميل البيانات مصفوفة لاختيار الملف مصفوفة البيانات المحددة من قبل المستخدم. انقر فوق الزر تحميل الفئة تسميات لاختيار ملف تسمية الفئة المقابلة.
ملاحظة: بعد تحميل كلا الملفين، ستجري كسولوتيونفيس شاشة روتينية للتوافق بين الملفين.
تلخيص السمات وعينات من ملف بيانات المصفوفة. تقدير حجم الملف مصفوفة البيانات.
تلخيص العينات والفئات من ملف تسمية الفئة. تقدير حجم ملف تسمية الفئة.
اختبار ما إذا كانت كل عينة من مصفوفة البيانات يحتوي على تسمية فئة. تلخيص عدد العينات مع تسميات الفئة.

3-تلخيص وعرض الإحصائيات الأساس لمجموعة البيانات

انقر فوق الزر تلخيص، دون أية كلمة رئيسية محددة المدخلات، وسيتم عرض البرنامج 20 ميزات المفهرسة وأسماء السمات المقابلة.
ملاحظة: المستخدمين تحتاج إلى تحديد اسم الميزة يرغبون في البحث لمعرفة الإحصاءات الأساسية وتوزيع القيمة المقابلة بين جميع العينات المدخلات.
توفر على الكلمات الرئيسية، مثل "1000_at"، في مربع نص ميزة للعثور على ميزة معينة يمكن تلخيصها. انقر فوق الزر تلخيص للحصول على إحصاءات أساسية لهذه الميزة معينة.
ملاحظة: قد تظهر الكلمة الرئيسية في أي مكان في أسماء الميزة الهدف، تسهيل عملية البحث للمستخدمين.
انقر فوق الزر تلخيص للعثور على ميزة واحدة أو أكثر مع كلمة أساسية معينة، وقم بتحديد معرف ميزة فريدة من نوعها المضي قدما في الخطوة أعلاه لتلخيص ميزة خاصة واحدة.

4-تحديد تسميات الفئة والعدد من السمات ذات الترتيب الأعلى

اختر أسماء الفئات السالبة (N (95) ") وإيجابية (" P (33) ") في مربعات القائمة المنسدلة الفئة الإيجابية و السلبية الفئة، كما هو مبين في الشكل 2 (وسط).
ملاحظة: اقترح اختيار dataset تصنيف ثنائي متوازن، أيالفرق بين عدد العينات الإيجابية والسلبية الحد الأدنى. عدد العينات التي يرد أيضا في أقواس بعد اسم كل تسمية الفئة في مربعي القائمة المنسدلة.
اختر 10 كالعدد من السمات ذات الترتيب الأعلى (المعلمة بتوبكس) في مربع القائمة المنسدلة Top_X (؟) لشاشة شاملا من الميزة-مجموعة فرعية.
ملاحظة: البرنامج تلقائياً في صفوف جميع الميزات ب الرتبةالقيمة المحسوبة باختبار t لكل ميزة مقارنة الفئات الإيجابية والسلبية. ميزة مع أصغر فقيمه تتمتع بسلطة أفضل تمييز بين الفئتين من عينات. وحدة الفحص الشامل مكثفة حسابياً. المعلمة بتوبكس هو 10 بشكل افتراضي. يمكن للمستخدمين تغيير هذه المعلمة في النطاق من 10 إلى 50، حتى أنها تجد مرضية تتميز مجموعات فرعية مع تصنيف جيدة الأداء.

5-توليف معلمات نظام للعروض المختلفة

اختر قياس الأداء (بميسوريمينت) الدقة (لجنة التنسيق الإدارية) في مربع القائمة المنسدلة Acc/تمام (؟) للمصنف المحدد آلة التعلم المتطرفة (الدردار). وثمة خيار آخر لهذه المعلمة هي القياس "دقة متوازنة" (تمام).
ملاحظة: تتيح TP، الجبهة الوطنية، تينيسي، وتنظيم الأسرة تكون الأرقام الحقيقية إيجابيات والسلبيات الكاذبة، السلبيات الحقيقية والمغلوطة، على التوالي. يعرف قياس لجنة التنسيق الإدارية (TP+TN)/(TP+FN+TN+FP)، الذي يعمل بشكل أفضل في dataset متوازنة⁶. ولكن مصنف الأمثل اللجنة التنسيق الإدارية يميل إلى تعيين جميع العينات إلى الفئة السلبية إذا كان عدد العينات السلبية أكبر بكثير من أن الإيجابية منها. يعرف تمام (Sn + س)/2، حيث Sn = TP/(TP+FN) وس = TN/(TN+FP) هي المعدلات المتوقعة بشكل صحيح لايجابية وسلبية عينات، على التوالي. ولذلك، تمام طبيعتها بالتنبؤ بالأداء على الفئتين، وقد تؤدي إلى أداء متوازن التنبؤ أكثر فئتين غير متوازن. لجنة التنسيق الإدارية هو الخيار الافتراضي من بميسوريمينت. يستخدم البرنامج الدردار المصنف بشكل افتراضي لحساب بتصنيف الأداء. المستخدم قد أيضا اختيار مصنف من SVM (دعم مكافحة ناقلات آلة)، KNN (ك أقرب جار)، شجرة القرار، أو بايز ساذجة.
اختر قيمة قطع 0.70 (المعلمة بكوتوف) لقياس الأداء المحدد في مربع الإدخال بكوتوف:.
ملاحظة: كل لجنة التنسيق الإدارية و تمام تتراوح بين 0 و 1، ويمكن للمستخدم تحديد بكوتوف قيمة[0, 1] كقطع لعرض الحلول المتطابقة. ينفذ البرنامج فرعية شاملة ميزة الفرز، وخيارا ملائماً بكوتوف سيجعل 3D التصور أكثر بديهية وواضحة. القيمة الافتراضية بكوتوف 0.70.

6-تشغيل خط الأنابيب، وتنتج نتائج تصور التفاعلية

انقر فوق الزر تحليل تشغيل خط الأنابيب وتوليد المؤامرات التصور، كما هو مبين في الشكل 2 (أسفل).
ملاحظة: الجدول الأيسر يعطي جميع المجموعات ميزة وما بميسوريمينت حساب بواسطة الاستراتيجية عبر التحقق من صحة الوقت المصنف الدردار، كما هو موضح سابقا⁵. يتم إنشاء اثنين 3D التبعثر مؤامرات ومؤامرات سطرين لإجراءات الفرز ميزة فرعية مع الإعدادات الحالية للمعلمة.
اختر 0.70 كالقيمة الافتراضية بميسوريمينت استقطاع (معلمة بيكوتوف، مربع الإدخال القيمة)، و 10 كالافتراضي للعدد من أفضل ميزة المجموعات (معلمة بيفسنوم).
ملاحظة: يتم تنفيذ خط الأنابيب باستخدام معلمات بتوبكس، بميسوريمينت، و بكوتوف. فحص ميزة الكشف عن مجموعات فرعية قد تكون زيادة استخدام قطع بيكوتوف، ولكن بيكوتوف لا يمكن أن تكون أصغر من بكوتوف. ولذلك، تتم تهيئة بيكوتوف بكوتوف وسوف تصور فقط المجموعات ميزة مع ≥ قياس الأداء بيكوتوف . القيمة الافتراضية لبيكوتوف بكوتوف. في بعض الأحيان كسولوتيونفيس بالكشف عن العديد من الحلول، وفقط أفضل بيفسنوم (الافتراضي: 10) سوف تصور ميزة مجموعات فرعية. إذا كان العدد من المجموعات الفرعية ميزة الكشف عن طريق البرنامج أصغر من بيفسنوم، وسوف تصور جميع المجموعات ميزة.
جمع وتفسير ملامح الكشف عنها بواسطة البرنامج، كما هو مبين في الشكل 3.
ملاحظة: يبين الجدول في المربع الأيسر ميزة الكشف عن المجموعات وعن مقاييس الأداء. أسماء الأعمدة الثلاثة الأولى هي "F1" و "F2" و "F3". تعطي ثلاث ميزات في كل مجموعة فرعية ميزة ترتيب مرتبة في صف واحد (F1 < F2 < F3). العمود الأخير يعطي قياس الأداء (لجنة التنسيق الإدارية أو تمام) لكل ميزة فرعية، واسمها عمود (لجنة التنسيق الإدارية أو تمام) هو قيمة بميسوريمينت.

7-تفسير 3D مبعثر المؤامرات-تصور وتفسير المجموعات ميزة مع العروض تصنيف ثنائي فعال وكذلك استخدام 3D التبعثر مؤامرات

انقر فوق الزر تحليل لتوليد مؤامرة مبعثر 3D من المجموعات ميزة 10 الأعلى مع أفضل العروض تصنيف (لجنة التنسيق الإدارية أو تمام) الكشف عنها بواسطة البرنامج، كما هو مبين في الشكل 3 (المربع الأوسط). فرز ثلاث ميزات في مجموعة فرعية ميزة في ترتيب تصاعدي لصفوفها واستخدام صفوف السمات الثلاثة كمحاور F1/F2/F3، أي، F1 < F2 < F3.
ملاحظة: لون نقطة يمثل أداء تصنيف ثنائي فرعية ميزة المطابق. قد يكون إحدى وحدات dataset متعددة ميزة فرعية مع قياسات الأداء الفعال وعلى نحو مماثل. ولذلك فمن الضروري مؤامرة مبعثر التفاعلية ومبسطة.
قم بتغيير القيمة إلى 0.70 في مربع الإدخال بكوتوف: ، وانقر فوق الزر تحليل لتوليد مؤامرة مبعثر 3D من المجموعات ميزة مع ≥ الأداء قياس بيكوتوف، كما هو مبين في الشكل 3 (المربع الأيمن). انقر فوق زر ضبط 3D لفتح نافذة جديدة لضبط زوايا الأرض المبعثر ثلاثي الأبعاد يدوياً.
ملاحظة: يمثل نقطة فرعية كل ميزة بنفس الطريقة أعلاه. مؤامرة مبعثر 3D ولدت في الزاوية الافتراضية. تيسير 3D التصور وضبط إطار منفصل، سيتم فتح بالنقر على زر ضبط 3D.
انقر فوق الزر تصغير لتقليل التكرار المجموعات ميزة الكشف عن.
ملاحظة: إذا كان المستخدمين يرغبون كذلك حدد ثلاثة توائم ميزة وتقليل التكرار المجموعات ميزة، البرنامج كما يوفر هذه الدالة باستخدام خوارزمية تحديد الميزة مرمر. بعد النقر فوق الزر تصغير ، سيتم إزالة هذه الميزات زائدة عن الحاجة في ثلاثة توائم ميزة كسولوتيونفيس وإعادة إنشاء الجدول وهما مبعثر مؤامرات المذكورة أعلاه. إزالة ميزات ثلاثة توائم ميزة سيستعاض بالكلمة الأساسية في الجدول. سيتم الإشارة إلى القيم من لا شيء في المحور F1/F2/F3 كقيمة بيفسنوم (مجموعة القيمة العادية ل F1/F2/F3 هو [1, top_x]). لذلك، قد تظهر النقاط التي تتضمن قيمة أي أن يرسم النقاط "الخارجة" في 3D. يمكن الاطلاع على قطع 3D الانضباطي يدوياً في "ضبط يدوي للمؤامرات دوت 3D" في المواد التكميلية.

8-إيجاد الشروح الجينات وروابطها مع الأمراض التي تصيب الإنسان

ملاحظة: الخطوات من 8 إلى 10 سوف توضح كيفية إضافة تعليق توضيحي مورثة من مستوى تسلسل الحمض النووي والبروتين. أولاً، سيتم استرجاعها من قاعدة بيانات ديفيد³²الرمز الجيني لكل معرف العلامات البيولوجية من الخطوات المذكورة أعلاه، وستستخدم ثم اثنين من ملقمات ويب الممثل لتحليل هذا الرمز الجيني من مستويات الحمض النووي والبروتين، على التوالي. يوفر الملقم جينيكارد تعليق توضيحي فنية شاملة لرمز معين من الجينات و "الوراثة مندلية على الإنترنت" في قاعدة بيانات الرجل (OMIM) يوفر curation الأكثر شمولاً لجمعيات أمراض الجينات. الملقم أونيبروتكب واحد من قاعدة البروتين الأكثر شمولاً، وخادم نظام التنبؤ المستندة إلى مجموعة (GPS) وتتنبأ إرسال الإشارات الفسفرة للحصول على قائمة كبيرة جداً من مؤنزم.

نسخ ولصق ارتباط ويب لقاعدة بيانات ديفيد في مستعرض ويب وفتح صفحة ويب لقاعدة البيانات هذه. انقر فوق الارتباط تحويل معرف الجينات ينظر في الشكل 4A وإدخال ميزة معرفات 38319_at/38147_at/33238_at من مجموعة فرعية العلامات البيولوجية الأولى من dataset ALL1 (الشكل 4 باء). انقر فوق الارتباط قائمة الجينات وانقر فوق إرسال قائمة كما هو موضح في الشكل 4 باء. استرداد شروح للفائدة، وانقر فوق إظهار قائمة الجينات (الشكل 4). الحصول على القائمة رموز الجينات (الشكل 4).
ملاحظة: رموز الجينات استرداد هنا ستستخدم لزيادة وظيفية الشروح في الخطوات التالية.
نسخ ولصق ارتباط ويب لقاعدة بيانات "بطاقات الجينات" في مستعرض ويب وقم بفتح صفحة ويب من قاعدة البيانات هذه. البحث الجيني اسم CD3D في مربع الإدخال استعلام قاعدة البيانات، والبحث عن شروح لهذا الجين من "بطاقات الجينات"³³^،³⁴، كما هو مبين في الجدول 1 و الشكل 5A.
ملاحظة: بطاقات الجينات هو جينات شاملة قاعدة المعرفة، توفير التسميات وعلم الجينوم، البروتيوميات، وتعريب سوبسيلولار، وسبل المشاركة والوحدات الوظيفية الأخرى. ويوفر أيضا ارتباطات خارجية لمختلف قواعد البيانات الطبية الحيوية الأخرى مثل PDB/PDB_REDO³⁵والجينات Entrez³⁶أوميم³⁷أونيبروتكب³⁸. إذا لم يكن اسم الميزة رمزاً جينات قياسية، استخدام قاعدة البيانات انسيمبل لتحويله³⁹. CD3D هو اسم خلايا تي "مستقبلات T3 دلتا سلسلة" الجينات.
نسخ ولصق ارتباط ويب من قاعدة أوميم في مستعرض ويب وفتح صفحة ويب لقاعدة البيانات هذه. البحث عن اسم أحد الجينات CD3D وتجد شروح لهذا الجين من قاعدة أوميم³⁷، كما هو مبين في الجدول 1 و الشكل 5B.
ملاحظة: أوميم يعمل الآن كأحد المصادر الأكثر شمولاً وموثوقية الاتصالات الجينات البشرية بالأمراض القابلة للتوريث. OMIM بدأها الدكتور فيكتور أ مكسيك كتالوج للطفرات الجينية المرتبطة بالمرض⁴⁰. OMIM تغطي الآن أكثر من 15,000 الجينات البشرية وتعمل على 8,500، اعتبارا من كانون الأول/ديسمبر 1^st عام 2017.

9-تعليم البروتينات المشفرة والتعديلات بوستترانسلاشونال

نسخ ولصق ارتباط ويب من قاعدة أونيبروتكب في مستعرض ويب وفتح صفحة ويب لقاعدة البيانات هذه. البحث الجيني اسم CD3D في مربع إدخال الاستعلام من أونيبروتكب والبحث عن شروح لهذا الجين من ال³⁸قاعدة البيانات، كما هو مبين في الجدول 1 و الشكل 5.
ملاحظة: أونيبروتكب يجمع مصدرا غنيا للشروح للبروتينات، بما في ذلك المصطلحات والمعلومات الفنية. كما يوفر قاعدة البيانات هذه روابط إلى قواعد بيانات أخرى تستخدم على نطاق واسع، بما في ذلك PDB/PDB_REDO³⁵وأوميم³⁷فام⁴¹.
نسخ ولصق ارتباط ويب من ملقم ويب لتحديد المواقع في مستعرض ويب، وافتح صفحة ويب من ملقم ويب هذا. استرداد تسلسل البروتين مرمزة بواسطة العلامات البيولوجية الجين CD3D من قاعدة البيانات أونيبروتكب³⁸ والتنبؤ بوستترانسلاشونال التعديل (PTM) المخلفات البروتين باستخدام أداة على الإنترنت لتحديد المواقع، كما هو مبين في الجدول 1 و الشكل 5.
ملاحظة: نظام بيولوجي دينامية ومعقدة، وقواعد البيانات القائمة جمع المعلومات المعروفة فقط. ولذلك، أدوات التنبؤ الطبية على الإنترنت، فضلا عن البرامج دون اتصال قد توفر دليلاً مفيداً تكمل إليه المفترضة. نظام تحديد المواقع المتقدمة وتحسين لأكثر من 12 سنة⁷^،⁴² ويمكن استخدامها للتنبؤ PTM المخلفات البروتين في⁴³^،تسلسل معين ببتيد⁴⁴. كما تتوفر أيضا أدوات لمختلف المواضيع البحثية، بما في ذلك التنبؤ بموقع سوبسيلولار⁴⁵ للبروتين والنسخ عامل ملزم زخارف ⁴⁶ من بين آخرين.

10-تعليم تفاعلات البروتين البروتين والوحدات الوظيفية على الإثراء

نسخ ولصق ارتباط ويب من ملقم ويب سلسلة في مستعرض ويب وفتح صفحة ويب من ملقم ويب هذا. البحث في القائمة للجينات CD3D و P53، والبحث عن خصائصها مدبرة باستخدام قاعدة السلسلة⁴⁷. قد تنفذ نفس الإجراء باستخدام ملقم ويب آخر، ديفيد³².
ملاحظة: بالإضافة إلى الشروح المذكورة آنفا للجينات الفردية، هناك العديد من الأدوات المعلوماتية على نطاق واسع للتحقيق في خصائص مجموعة من الجينات. أظهرت دراسة أجريت مؤخرا أن الجينات علامة سيئة على حدة يمكن أن تشكل مجموعة جين تحسنت كثيرا⁵. ولذلك، الأمر يستحق التكلفة الحسابية للشاشة للمؤشرات الحيوية أكثر تعقيداً. قاعدة السلسلة قد تصور الاتصالات التفاعل المعروفة أو المتوقعة، وقد كشف الخادم ديفيد وحدات وظيفية مع رابطات النمط الظاهري كبير في الجينات المستعلم عنها⁴⁷،³². وتتوفر أيضا مختلف أدوات التحليل الأخرى في المعلوماتية على نطاق واسع.

11-تصدير مجموعات فرعية العلامات البيولوجية التي تم إنشاؤها والمؤامرات التصور

تصدير مجموعات فرعية تم اكتشاف العلامات البيولوجية كملف نص.csv أو.tsv لمزيد من التحليل. انقر فوق الزر تصدير الجدول أسفل الجدول لجميع المجموعات الكشف عن العلامات البيولوجية واختر تنسيق النص الذي حفظ ك.
تصدير قطع التصور كملف صورة. انقر فوق الزر حفظ تحت كل قطعة واختيار أي تنسيق الصورة حفظ باسم.
ملاحظة: البرنامج يدعم.png تنسيق بكسل و.svg تنسيق النواقل. بكسل الصور جيدة لعرض على شاشة الكمبيوتر، بينما قد يتم تحويل الصور المتجهة إلى أي قرار مطلوب لأغراض نشر دفتر اليومية.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

والهدف من سير العمل هذا (الشكل 6) الكشف عن عدة مجموعات فرعية العلامات البيولوجية مع كفاءات مماثلة لمجموعة بيانات تصنيف ثنائي. ويصور اثنين من مجموعات البيانات المثال ALL1 و ALL2 المستخرجة من الكشف عن العلامات البيولوجية نشرت مؤخرا دراسة¹²^،⁴⁸العملية برمتها. يمكن تثبيت مستخدم كسولوتيونفيس باتباع الإرشادات الموجودة في المواد التكميلية.

Dataset ALL1 لمحة عن ميزات ترانسكريبتوميك 12 625 من 95 ب-الخلايا والخلايا T 33 في جميع عينات دم المريض. بينما dataset ALL2 الكشف عن مستويات التعبير ميزات ترانسكريبتوميك 12 625 ل 65 جميع المرضى الذين انتكست بعد العلاج و 35 جميع المرضى الذين لم يكن. لراحة المستخدم، ومجموعات البيانات ترانسكريبتوميك وتسمياتها فئة ترد في الإصدار 1.4 من البرمجيات. كل مجموعات البيانات في الدليل الفرعي "البيانات" من دليل التعليمات البرمجية المصدر للبرنامج.

مجموعات البيانات اثنين، ALL1 و ALL2، منسقة كملفات.csv وتحميله في البرنامج باستخدام مصفوفة بيانات التحميل و تحميل الفئة تسميات الأزرار، كما هو مبين في الشكل 7 أ-ب. يبين الشكل 7 ألف أن تم تحميل جميع العينات 128 مع ميزات 12 625، وجميع العينات 128 لها أيضا تسميات الفئة. مصفوفة البيانات النهائية قد عينات سلبية 95 (ب-الخلية جميع) وعينات إيجابية 33 (تي خلية جميع). بالإضافة إلى ذلك، المستخدمين قد يحدد أيضا تسمية الفئة التي هي تسمية فئة إيجابية (الشكل 7 ألف، أسفل). إذا كان ملف تسمية الفئة يعرف أكثر من فئتين، المستخدمين قد ترغب في اختيار أي تسميات فئة اثنين للتحقيق. كما أجريت عمليات مماثلة لمجموعة البيانات صعبة ALL2، كما هو مبين في الشكل 7 باء.

قد التحقيق توزيعات القيمة من الميزات الموجودة في مصفوفة البيانات بواسطة النقر فوق الزر تلخيص أثناء البحث عن الكلمة أساسية الخاصة بالمستخدم في أسماء ميزة، كما هو موضح في الشكل 8. ويوضح الشكل 8 أ الرسم البياني لميزة 1012_at في dataset ALL1. وعلاوة على ذلك، كما يتضح في الشكل 8B، قد 1012_at ميزة نفس توزيع مماثل للتعبير في كل مجموعات البيانات. إذا كان لا الكلمات الرئيسية المحددة بواسطة المستخدم، سوف يتم سرد بعض أسماء ميزة لمساعدة المستخدمين على تحديد الميزات المراد تلخيصها.

مجموعة البيانات أسهل ALL1 فحص ميزات المرتبة الأعلى 10 (بتوبكس) لمجموعات فرعية العلامات البيولوجية مع ≥ بميسوريمينت Acc 0.90 (بكوتوف). بعد النقر فوق الزر تشغيل، أعدم الخوارزمية، والنتائج كما هو مبين في الشكل 9 ألف، واتضحت في الجزء السفلي من البرنامج بعد بضع ثوان. من ذلك، الكشف عن 120 من مجموعات فرعية العلامات البيولوجية المؤهلين والمدرجة في الجدول الأيسر من الشكل 9 ألف. وكان ALL1 dataset سهلة للتمييز، قد 57 فرعية العلامات البيولوجية الثلاثي مع 100 ٪ في لجنة التنسيق الإدارية. ويؤكد هذا البروتوكول بوجود حلول فعالة وبالمثل متعددة لمشكلة تصنيف ثنائي. ولذلك، مؤامرة مبعثر 3D الأولى قد توضح أكثر من 10 مجموعات فرعية (المعلمة بيفسنوم) العلامات البيولوجية، إذا كان لديهم تصنيف أداء ≥ لجنة التنسيق الإدارية (المعلمة بميسوريمينت) التي في أعلى 10 في المرتبة (المعلمة بيفسنوم ) فرعية العلامات البيولوجية. يمكن أيضا اختيار المستخدم لعرض عدد أقل من مجموعات فرعية العلامات البيولوجية عن طريق تغيير المعلمة بيكوتوف في المربع المعلمة أعلى الجدول في الشكل 9 ألف. يمكن الاطلاع على ضبط يدوي لقطع ثلاثية الأبعاد في المقطع ضبط يدوي لدوت 3D المؤامرات في المواد التكميلية.

وعلاوة على ذلك، قد يتم تصدير كافة النتائج كملفات خارجية لإجراء مزيد من التحليل بواسطة النقر فوق الزر تصدير الجدول تحت مؤامرات الجدول أو مبعثر، كما هو مبين في الشكل 9.

واختير فرعية العلامات البيولوجية الأولى (38319_at و 38147_at و 33238_at) لمجموعة البيانات ALL1 للتحقيقات الفنية، كما هو مبين في الشكل 9 ألف. وحدة البحث في انسيمبل (http://useast.ensembl.org/Multi/Search/New?db=core) المشروح هذه الميزات الثلاث كمجموعة جينات الجينات المرتبطة "إشارات جزيء التنشيط اللمفاوية" (SH2D1A، 38147_at التمايز 3 دلتا (CD3D، 38319_at)، ) واللمفاويات الخاصة بالخلية البروتين-تيروزين كيناز (لك، 33238_at). وعلاوة على ذلك، اقترحت قاعدة رابطة أمراض الجينات أوميم³⁷^،⁴⁰ أن الجين CD3D ترميز فرعية دلتا مستضد خلايا تي مستقبلات المجمع وهو يشارك في المولدة 11q23 كثيرا ما لوحظ في الحادة سرطان الدم في البشر⁴⁹^،⁵⁰. واقترح أوميم كما أن الطفرات الجينية داخل الجين SH2D1A في منطقة الكروموسوم Xq25 قد تكون مقترنة ب-خلية اللوكيميا⁵¹^،⁵². بالإضافة إلى ذلك، أبرزت OMIM أيضا خلية T ممكن جميع الانصهار المقترنة الحدث لك وبيتا خلايا تي مستقبلات (تكرب)⁵³. المستخدمين قد التحقيق في الجوانب الفنية الأخرى لهذه المؤشرات الحيوية مع الجينات رموزها، مثلاً، الشروح وظيفة الجينات في الجينات Entrez³⁶، وشروح وظيفة البروتين في أونيبروتكب³⁸ أو Pfam⁴¹، البروتين 3D الهياكل في PDB/PDB_REDO³⁵، وبقايا PTM في تحديد المواقع⁷^،⁴²^،^،من⁴³⁴⁴. الشبكة الفرعية المتفاعلة (قاعدة بيانات السلسلة⁴⁷) والوحدات الوظيفية المخصب (قاعدة بيانات ديفيد³²) يجوز أيضا فحص لهذه المؤشرات الحيوية كاملها. قد أيضا تيسير مختلف قواعد البيانات أو ملقمات ويب الأخرى بالشروح والتنبؤات في السيليكون باستخدام الرموز أو تسلسل الجين/البروتين الرئيسي لهذه الجينات.

كما يتضح من الجدول 2، بضرورة الكشف عن أكثر من حل واحد مع العروض متطابقة أو فعالة وبالمثل الواضح، مع مجموعات 57 من الميزات مع دقة التصنيف ثنائي 100% بين ب-الخلايا والخلايا T جميع العينات. ودعيت هذه المجموعات الفرعية العلامات البيولوجية خاصة حلول مثالية. ظهر عدد غير قليل من المؤشرات الحيوية في هذه الحلول المثالية مرارا وتكرارا، مما يوحي بأنها قد تمثل الاختلافات الرئيسية، على المستوى الجزيئي، بين ب-تي-الخلية وجميع. إذا توقف خوارزمية الكشف عن العلامات البيولوجية في الكشف عن الحل المثالي الأول من ثلاثة جينات CD3D/SH2D1A/لك، سيفتقد حل مثالي آخر CD74/هلا-DPB1/برككق. على سبيل المثال، يعرف DPB1 هلا مرتبطة إلى حد كبير بطب الأطفال T-الخلية جميع ولكن ليس ب-خلية كل⁵⁴.

كانت ثلاث ميزات فرعية العلامات البيولوجية الأولى من ALL2 الجمعية الكروماتين عامل فرعية 1 ب (CHAF1B، 36912_at)، [ااكسونوكلس] 1 (EXO1، 36041_at)، وإشارة محول طاقة والمنشط للنسخ 6 (STAT6، 41222_at). ولوحظ CHAF1B التعبير عن درجة عالية في خطوط خلايا سرطان الدم وإلى حد كبير البلدان المتقدمة النمو الأجسام المضادة ضد بروتين CHAF1B ترميز في مرضى سرطان الدم النقوي الحاد (AML)⁵⁵. وقد فقدت EXO1 في بعض حالات اللوكيميا الحادة⁵⁶، وأوبريجولاتيد في خط خلية اللوكيميا HL-60 [ص]. كما وجد لتنظيم سلبا على إطالة بديلة للمسار التيلومير (ALT)، وتيسير تشكيل الرابطة الإسلامية المرتبطة ALT (promyelocytic سرطان الدم) الهيئات (أببس)⁵⁷. وكان فوسفوريلاتيد STAT6 لتنشيط الموالية البقاء على قيد الحياة والتكاثري إشارات الطريق في حالات مكافحة غسل الأموال انتكست⁵⁸. مجتمعة، الجينات الثلاثة كانت ترتبط بالتنمية والانتكاس من اللوكيميا، ولكن تم نشر أية أدلة واضحة على روابطها مع انتكاس جميع. وهذا قد يمثل موضوعا لاهتمام لإجراء مزيد من التحقيقات.

يمكن إجراء نفس الإجراء الشرح على أي مجموعة فرعية العلامات البيولوجية ل ALL1 و ALL2. لم يتم تحديد المؤشرات الحيوية ثلاثة تحقيقات في المقطع أعلاه كما الانتكاس المؤشرات الحيوية في dataset ALL2، كما هو مبين في الشكل 9B. وهذا يشير إلى أن المؤشرات الحيوية الخاصة بالنمط الظاهري، الذي يمثل تحديا رئيسيا آخر للكشف عن العلامات البيولوجية، جنبا إلى جنب مع وجود عدة حلول فعالة وبالمثل.

تنفيذ بعض النماذج التقنية ووصفت هنا للمستخدمين المهتمين. توفر وحدة معالجة خطأ رسائل إعلامية للمستخدم عند حدوث أخطاء أثناء تنفيذ البرنامج. سرد رسائل الخطأ الرئيسي وشرحت في "رسائل خطأ" في المواد التكميلية. تم تنفيذ عملية حسابية موازية المؤشرات الحيوية لأجهزة الكمبيوتر مع أكثر من وحدة المعالجة المركزية الأساسية. يمكن الاطلاع على التحسينات المفصلة لإدارة الوقت جنبا إلى جنب "إدارة الوقت" في المواد التكميلية. ويتضح من البيانات أن استخدام النوى وحدة المعالجة المركزية أكثر لا تحسين وقت التشغيل نظراً لتكلفة التبديل بين مختلف النوى وحدة المعالجة المركزية.

رقم 1: مثال على مجموعة البيانات المستخرجة من dataset الترنسكربيتوم ALL1 يتمتع بميزات الستة الأولى من العينات التسعة الأولى من ALL1. تمت تهيئة مصفوفة البيانات في نموذج التصور (أ) و (ب) ملف بتنسيق نص محدد بعلامات جدولة (ج) تنسيق ملف نصي محدد بفاصلة. (د) فئة تسمية البيانات تم تنسيقه في شكل التصور. بسبب علامة التبويب الحرف غير مرئي، فإنه يتجلى ك [TAB] في (ب). العمود الأساسي يعطي منصة ميكرواري أفي في (ب)، وليس عمود بيانات مطلوبة. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

رقم 2: واجهة المستخدم الرسومية للبرنامج- إحصاءات أساسية ملخصة في المربع الأيسر العلوي. قد للمستخدمين البحث عن الميزات التي تهم والتحقيق في توزيع القيمة في مربعي الأيسر العلوي. وقد ضبطها جميع المعلمات لإجراء الكشف عن العلامات البيولوجية في الشريط الأفقي الأوسط. يمكن الاطلاع على جميع المجموعات العلامات البيولوجية وتوزيعهم تصور المناظر في الجزء السفلي. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

الشكل 3: مجموعات فرعية العلامات البيولوجية وعلى تصورات ولدت. وقد صقل المستخدمين الجدول وقطعتي المبعثر ثلاثي الأبعاد باستخدام معلمات بيكوتوف و بيفسنوم. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

الشكل 4: شروح الجينات من ميزة معرفات الكشف عنها في هذه الدراسة. تأخذ الميزة ثلاثة معرفات 38319_at/38147_at/33238_at من أول العلامات البيولوجية مجموعة فرعية من مجموعة البيانات ALL1. (أ) الحصول على تحويل معرف الوحدة النمطية بالنقر فوق الارتباط تحويل معرف الجينات. (ب) إدخال ميزة معرفات في 1 المربع أحمر، اختر نوع الميزة في 2 المربع أحمر (الافتراضي "AFFYMETRIX_3PRIME_IVT_ID" الصحيح لهذه الدراسة)، اختر قائمة الجينات في 3 المربع أحمر، وانقر فوق إرسال قائمة في 4 المربع أحمر. (ج) الحصول على جميع الشروح الوظيفية في هذه الصفحة، وانقر فوق إظهار قائمة الجينات للحصول على رموز الجينات هذه الميزات المستعلم عنها. (د) الحصول على رموز الجينات من معرفات ميزة المستعلم عنها. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

الرقم 5: شروح وتحليل المجموعات ميزة الكشف عن تخصيب اليورانيوم- (أ) شروح الجينات من الجينات بطاقة (ب) أوميم وصف الجمعيات المرض لكل ميزة/الجينات. (ج) تعليم البروتين مرمزة بواسطة الجينات للفائدة في قاعدة البيانات أونيبروتكب. (د) التنبؤ ببقايا الفسفرة تيروزين في بروتين معين باستخدام أداة على الإنترنت لتحديد المواقع. تمت إضافة مربع أحمر لإظهار المستخدم أين انقر لإدخال بيانات الاستعلام. انقر التسلسل الأساسي للبروتين مثال CD3D قد تم استردادها كتنسيق FASTA من مربع أحمر في (ج)، والمدخلات في إطار الاستعلام بمربع أحمر في (د). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

رقم 6: سير عمل كسولوتيونفيس- ووصفت كل وحدة نمطية من البرمجيات في البروتوكول أعلاه. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

رقم 7: إحصاءات خط الأساس من مجموعات البيانات التمثيلية اثنين. يتم حساب عدد العينات والسمات والطبقات في ALL1 (أ) و (ب) ALL2. كما رصدت أحجام الملفات من تسميات البيانات مصفوفة والطبقة. ويتم استخراج مصفوفة بيانات جديدة من العينات مع تسميات الفئة. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

الشكل 8: الرسم البياني التصور 1012_at ميزة في مجموعات البيانات اثنين. الإحصاءات الأساسية والرسم البياني تم إنشاؤها ل ALL1 (أ) و (ب) ALL2. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

الشكل 9: مجموعات فرعية العلامات البيولوجية والتبعثر مؤامرات لمجموعات البيانات اثنين. يمكن للمستخدمين تغيير المعلمات في الصف الثاني من خانات معلمة لتنقية قوائم فرعية العلامات البيولوجية ومبعثر 3D مؤامرات لمجموعات البيانات ALL1 (أ) و (ب) ALL2. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-

موقع ويب	الارتباط	وظائف
جينيكاردس	http://www.genecards.org/cgi-bin/carddisp.pl?gene=CD3D	الشرح الجينات
OMIM	https://omim.org/entry/186790?search=CD3D&highlight=cd3d	جمعية الأمراض الوراثية
أونيبروتكب	http://www.uniprot.org/uniprot/P04234	الشرح البروتين
لتحديد المواقع	http://gps.biocuckoo.org/	PTM التنبؤ للبروتين
السلسلة	https://string-db.org/	التفاعل البروتين-بروتين
ديفيد	https://david.ncifcrf.gov/	تحليل إثراء مجموعة الجينات

الجدول 1. مواقع لشرح وتحليل المؤشرات الحيوية المكتشفة. قائمة بالأدوات المفيدة على الإنترنت التي تساعد على تعليم المؤشرات الحيوية المكتشفة.

f1	f2	f3	لجنة التنسيق الإدارية	Symbol1	Symbol2	Symbol3
38319_at	38147_at	33238_at	1.0000	CD3D	SH2D1A	لك
33238_at	35016_at	37039_at	1.0000	لك	CD74	هلا DRA
38147_at	33238_at	35016_at	1.0000	SH2D1A	لك	CD74
38147_at	33238_at	2059_s_at	1.0000	SH2D1A	لك	لك
38147_at	33238_at	37039_at	1.0000	SH2D1A	لك	هلا DRA
38147_at	33238_at	38095_i_at	1.0000	SH2D1A	لك	هلا DPB1
38147_at	33238_at	33039_at	1.0000	SH2D1A	لك	TRAT1
38147_at	35016_at	2059_s_at	1.0000	SH2D1A	CD74	لك
38147_at	35016_at	33039_at	1.0000	SH2D1A	CD74	TRAT1
38147_at	35016_at	38949_at	1.0000	SH2D1A	CD74	برككق
38147_at	2059_s_at	37039_at	1.0000	SH2D1A	لك	هلا DRA
38147_at	2059_s_at	38095_i_at	1.0000	SH2D1A	لك	هلا DPB1
38147_at	37039_at	33039_at	1.0000	SH2D1A	هلا DRA	TRAT1
38147_at	37039_at	38949_at	1.0000	SH2D1A	هلا DRA	برككق
38319_at	38147_at	35016_at	1.0000	CD3D	SH2D1A	CD74
38147_at	38833_at	38949_at	1.0000	SH2D1A	هلا DPA1	برككق
33238_at	35016_at	33039_at	1.0000	لك	CD74	TRAT1
38319_at	38833_at	38949_at	1.0000	CD3D	هلا DPA1	برككق
33238_at	35016_at	38949_at	1.0000	لك	CD74	برككق
33238_at	2059_s_at	37039_at	1.0000	لك	لك	هلا DRA
33238_at	37039_at	38095_i_at	1.0000	لك	هلا DRA	هلا DPB1
33238_at	37039_at	33039_at	1.0000	لك	هلا DRA	TRAT1
33238_at	37039_at	38949_at	1.0000	لك	هلا DRA	برككق
33238_at	38095_i_at	38949_at	1.0000	لك	هلا DPB1	برككق
33238_at	38833_at	38949_at	1.0000	لك	هلا DPA1	برككق
33238_at	33039_at	38949_at	1.0000	لك	TRAT1	برككق
35016_at	2059_s_at	33039_at	1.0000	CD74	لك	TRAT1
35016_at	2059_s_at	38949_at	1.0000	CD74	لك	برككق
35016_at	38095_i_at	38949_at	1.0000	CD74	هلا DPB1	برككق
2059_s_at	37039_at	33039_at	1.0000	لك	هلا DRA	TRAT1
2059_s_at	38095_i_at	38949_at	1.0000	لك	هلا DPB1	برككق
2059_s_at	38833_at	38949_at	1.0000	لك	هلا DPA1	برككق
38319_at	33039_at	38949_at	1.0000	CD3D	TRAT1	برككق
38147_at	38095_i_at	38949_at	1.0000	SH2D1A	هلا DPB1	برككق
38319_at	33238_at	38833_at	1.0000	CD3D	لك	هلا DPA1
38319_at	2059_s_at	38833_at	1.0000	CD3D	لك	هلا DPA1
38319_at	33238_at	33039_at	1.0000	CD3D	لك	TRAT1
38319_at	33238_at	38095_i_at	1.0000	CD3D	لك	هلا DPB1
38319_at	33238_at	37039_at	1.0000	CD3D	لك	هلا DRA
38319_at	35016_at	38833_at	1.0000	CD3D	CD74	هلا DPA1
38319_at	33238_at	2059_s_at	1.0000	CD3D	لك	لك
38319_at	35016_at	33039_at	1.0000	CD3D	CD74	TRAT1
38319_at	33238_at	35016_at	1.0000	CD3D	لك	CD74
38319_at	35016_at	38949_at	1.0000	CD3D	CD74	برككق
38319_at	2059_s_at	37039_at	1.0000	CD3D	لك	هلا DRA
38319_at	38147_at	38949_at	1.0000	CD3D	SH2D1A	برككق
38319_at	38147_at	33039_at	1.0000	CD3D	SH2D1A	TRAT1
38319_at	33238_at	38949_at	1.0000	CD3D	لك	برككق
38319_at	2059_s_at	38095_i_at	1.0000	CD3D	لك	هلا DPB1
38319_at	38147_at	38833_at	1.0000	CD3D	SH2D1A	هلا DPA1
38319_at	2059_s_at	33039_at	1.0000	CD3D	لك	TRAT1
38319_at	38147_at	38095_i_at	1.0000	CD3D	SH2D1A	هلا DPB1
38319_at	37039_at	33039_at	1.0000	CD3D	هلا DRA	TRAT1
38319_at	38147_at	37039_at	1.0000	CD3D	SH2D1A	هلا DRA
38319_at	38147_at	2059_s_at	1.0000	CD3D	SH2D1A	لك
38319_at	2059_s_at	38949_at	1.0000	CD3D	لك	برككق
38319_at	35016_at	2059_s_at	1.0000	CD3D	CD74	لك
2059_s_at	37039_at	38095_i_at	0.9922	لك	هلا DRA	هلا DPB1
35016_at	33039_at	38949_at	0.9922	CD74	TRAT1	برككق
2059_s_at	37039_at	38949_at	0.9922	لك	هلا DRA	برككق
35016_at	2059_s_at	37039_at	0.9922	CD74	لك	هلا DRA
35016_at	37039_at	38949_at	0.9922	CD74	هلا DRA	برككق
35016_at	38833_at	38949_at	0.9922	CD74	هلا DPA1	برككق
2059_s_at	33039_at	38949_at	0.9922	لك	TRAT1	برككق
37039_at	38833_at	38949_at	0.9922	هلا DRA	هلا DPA1	برككق
37039_at	33039_at	38949_at	0.9922	هلا DRA	TRAT1	برككق
38319_at	38095_i_at	38949_at	0.9922	CD3D	هلا DPB1	برككق
33238_at	37039_at	38833_at	0.9922	لك	هلا DRA	هلا DPA1
38095_i_at	33039_at	38949_at	0.9922	هلا DPB1	TRAT1	برككق
33238_at	2059_s_at	38949_at	0.9922	لك	لك	برككق
38319_at	38833_at	33039_at	0.9922	CD3D	هلا DPA1	TRAT1
38833_at	33039_at	38949_at	0.9922	هلا DPA1	TRAT1	برككق
38147_at	33039_at	38949_at	0.9922	SH2D1A	TRAT1	برككق
38319_at	37039_at	38833_at	0.9922	CD3D	هلا DRA	هلا DPA1
38147_at	2059_s_at	38949_at	0.9922	SH2D1A	لك	برككق
38147_at	38095_i_at	38833_at	0.9922	SH2D1A	هلا DPB1	هلا DPA1
38147_at	33238_at	38949_at	0.9922	SH2D1A	لك	برككق
38147_at	2059_s_at	33039_at	0.9922	SH2D1A	لك	TRAT1
38319_at	37039_at	38949_at	0.9922	CD3D	هلا DRA	برككق
38319_at	38095_i_at	38833_at	0.9922	CD3D	هلا DPB1	هلا DPA1
38147_at	2059_s_at	38833_at	0.9922	SH2D1A	لك	هلا DPA1
33238_at	35016_at	2059_s_at	0.9922	لك	CD74	لك
38319_at	35016_at	38095_i_at	0.9922	CD3D	CD74	هلا DPB1
33238_at	35016_at	38095_i_at	0.9922	لك	CD74	هلا DPB1
38319_at	35016_at	37039_at	0.9922	CD3D	CD74	هلا DRA
38147_at	33238_at	38833_at	0.9922	SH2D1A	لك	هلا DPA1
38147_at	37039_at	38095_i_at	0.9844	SH2D1A	هلا DRA	هلا DPB1
38147_at	35016_at	38833_at	0.9844	SH2D1A	CD74	هلا DPA1
38147_at	35016_at	38095_i_at	0.9844	SH2D1A	CD74	هلا DPB1
35016_at	2059_s_at	38095_i_at	0.9844	CD74	لك	هلا DPB1
38147_at	37039_at	38833_at	0.9844	SH2D1A	هلا DRA	هلا DPA1
35016_at	2059_s_at	38833_at	0.9844	CD74	لك	هلا DPA1
38319_at	37039_at	38095_i_at	0.9844	CD3D	هلا DRA	هلا DPB1
37039_at	38095_i_at	38949_at	0.9844	هلا DRA	هلا DPB1	برككق
38147_at	38833_at	33039_at	0.9844	SH2D1A	هلا DPA1	TRAT1
38095_i_at	38833_at	38949_at	0.9844	هلا DPB1	هلا DPA1	برككق
33238_at	35016_at	38833_at	0.9844	لك	CD74	هلا DPA1
38319_at	38095_i_at	33039_at	0.9844	CD3D	هلا DPB1	TRAT1
2059_s_at	37039_at	38833_at	0.9844	لك	هلا DRA	هلا DPA1
2059_s_at	38833_at	33039_at	0.9766	لك	هلا DPA1	TRAT1
2059_s_at	38095_i_at	33039_at	0.9766	لك	هلا DPB1	TRAT1
2059_s_at	38095_i_at	38833_at	0.9766	لك	هلا DPB1	هلا DPA1
33238_at	2059_s_at	38095_i_at	0.9766	لك	لك	هلا DPB1
35016_at	38095_i_at	33039_at	0.9766	CD74	هلا DPB1	TRAT1
38147_at	38095_i_at	33039_at	0.9766	SH2D1A	هلا DPB1	TRAT1
33238_at	2059_s_at	33039_at	0.9766	لك	لك	TRAT1
35016_at	37039_at	33039_at	0.9766	CD74	هلا DRA	TRAT1
33238_at	38095_i_at	33039_at	0.9766	لك	هلا DPB1	TRAT1
33238_at	38833_at	33039_at	0.9766	لك	هلا DPA1	TRAT1
35016_at	38833_at	33039_at	0.9766	CD74	هلا DPA1	TRAT1
33238_at	38095_i_at	38833_at	0.9688	لك	هلا DPB1	هلا DPA1
37039_at	38833_at	33039_at	0.9688	هلا DRA	هلا DPA1	TRAT1
38147_at	35016_at	37039_at	0.9688	SH2D1A	CD74	هلا DRA
33238_at	2059_s_at	38833_at	0.9688	لك	لك	هلا DPA1
37039_at	38095_i_at	33039_at	0.9688	هلا DRA	هلا DPB1	TRAT1
38095_i_at	38833_at	33039_at	0.9609	هلا DPB1	هلا DPA1	TRAT1
35016_at	38095_i_at	38833_at	0.9609	CD74	هلا DPB1	هلا DPA1
37039_at	38095_i_at	38833_at	0.9531	هلا DRA	هلا DPB1	هلا DPA1
35016_at	37039_at	38095_i_at	0.9531	CD74	هلا DRA	هلا DPB1
35016_at	37039_at	38833_at	0.9531	CD74	هلا DRA	هلا DPA1

الجدول 2. شروح لكافة الميزات الموجودة في dataset ALL1. وهذا هو إحدى وحدات dataset تصنيف ثنائي بين ب-الخلايا والخلايا T جميع العينات. وقد جمعت رموز الجينات لكافة الميزات ميكرواري في الأعمدة الثلاثة الأخيرة.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

تقدم هذه الدراسة بروتوكولا كشف وتوصيف سهلة لمتابعة حل متعدد العلامات البيولوجية لمجموعة بيانات المحددة من قبل المستخدم تصنيف ثنائي. البرنامج يضع تركيز على سهولة الاستخدام وواجهات مرونة الاستيراد والتصدير لمختلف صيغ الملفات، يسمح لباحث الطبية الحيوية للتحقيق في ما مجموعة البيانات بسهولة باستخدام واجهة المستخدم الرسومية للبرنامج. وتبرز هذه الدراسة أيضا بضرورة إيجاد حل واحد أو أكثر مع العروض النمذجة فعالة وبالمثل، تجاهل العديد من خوارزميات الكشف عن العلامات البيولوجية الموجودة سابقا. في المستقبل، قد تتضمن خوارزميات الكشف عن العلامات البيولوجية المطورة حديثا هذا الخيار بتسجيل جميع المجموعات المتوسطة العلامات البيولوجية مع كافية نمذجة الأداء.

وفي هذا البروتوكول، بالخطوتين 1 و 5 الأكثر أهمية، حسب البرنامج هو نظام أوتوماتيكي بالكامل يعتمد على ملفات الإدخال تم تنسيقه بشكل صحيح. وقد وجد أن خلال لدينا خطوة الاختبار، المباراة سوء أسماء عينة من مصفوفة البيانات وملفات تسميات الفئة قد تتسبب في حدوث أخطاء في البرنامج، حيث أن البرنامج سوف تخرج مربع حوار تحذير حول هذا الخطأ. ولذلك، إذا كان المستخدم يجد لا عينات تم تحميلها من مصفوفة البيانات أو هي فئة تسمية الملفات، خدعة استكشاف الأخطاء وإصلاحها التحقق من صحة ما إذا كانت أسماء عينة في الملفين الإدخال غير متناسقة. إذا كانت تصور لا نقاط في مؤامرات مبعثر 3D، قد يكون هذا بسبب معلمة بكوتوف أعلى من أفضل حل. وفي هذه الحالة، خدعة استكشاف الأخطاء وإصلاحها لخفض قطع لقياس أداء التصنيف (المعلمة بكوتوف). ومع ذلك، قد لا يزال حظر قياس الأداء الأقصى حققتها مجموعات فرعية العلامات البيولوجية بقطع لإحدى وحدات dataset صعبة. مربع حوار تحذير سيعطي هذا قياس الأداء أفضل، وقد يختار المستخدم قطع أصغر لمواصلة المزيد من التحليل.

القيود الرئيسية للبرنامج هي سرعته بطيئة الحساب وقدرته على التركيز فقط على، على الأكثر، ثلاث سمات. تحديد الميزة هي مشكلة NP الثابت، تعرف بأنها مشكلة حسابية التي الحل الأمثل على الصعيد العالمي لا يمكن أن تحل في وقت متعدد الحدود⁵⁹. فرعية العلامات البيولوجية شاملة الفحص خطوة تستهلك كميات كبيرة من الطاقة الحسابية. إدارة الوقت هو تعقيد كسولوتيونفيس س (ن³) حيث n هو المعلمة بتوبكس. بالإضافة إلى ذلك، تركز هذه الخوارزمية الكشف عن العلامات البيولوجية المتعددة على تصور شاشة الميزات، وبالتالي حصر عدد السمات إلى ثلاثة أو أقل. هذا القيد قد تعوق بعض المستخدمين الذين قد تعمل على المشاكل الصعبة وترغب في العثور على ميزة مجموعات فرعية تتألف من أكثر من ثلاث سمات. ومع ذلك، يتصور البرنامج ميزة مجموعات فرعية في الفضاء ثلاثي الأبعاد ومن الصعب تصور مباشرة ميزة مجموعات فرعية في أكثر من ثلاثة أبعاد. وبالإضافة إلى ذلك، استناداً إلى نتائج تمثيلية المعروضة أعلاه، ثلاثة توائم ميزة متعددة مختارة من قبل كسولوتيونفيس وسيلة فعالة للغاية في التصنيف، ويظهر نتائج هامة مع معنى الطبية الحيوية الهامة.

ويمثل البرنامج برامج تكميلية مفيدة خوارزميات التحديد الميزة الموجودة. في مجال الطب الحيوي، وتحديد الميزة يطلق العلامات البيولوجية، بهدف العثور على مجموعة فرعية ميزات تحقيق الأداء تحسن النمذجة⁶⁰^،^،من⁶¹⁶². البرنامج أداة فحص شامل لجميع المجموعات العلامات البيولوجية الثلاثي استناداً إلى الاستراتيجية المقترحة في دراسة الأخيرة⁵. مجموعات تمثيلية اثنين فرزهم بالبروتوكول للبرنامج، ونتائجها تثبت وجودا للحلول غير قليل مع المثل النمذجة فعالة أو حتى مطابقة العروض. ومع ذلك، قواعد الكشف عن مجريات الأمور⁶³^،⁶⁴^،^،من⁶⁵⁶⁶ يجوز لإيجاد حلول مثلى، ولكن هذه الخوارزميات لديهم ميل قوي لإنتاج حل واحد فقط، متجاهلاً العديد من الآخرين الحلول مع المثل النمذجة فعالة أو حتى مطابقة العروض. ولذلك، طاقة الكمبيوتر وإدارة الوقت مطول للبرنامج جديرة بالاهتمام لضمان الكشف عن أكثر شمولاً من المؤشرات الحيوية المحتملة في المستقبل.

حسبت نتائج الممثل على اثنين من مجموعات البيانات الترنسكربيتوم، بيد أن المقابض برامج إدخال البيانات في تنسيقات الملفات القياسية المختلفة وقد تستخدم أيضا لتحليل أخرى مجموعات البيانات 'أوميك'، بما في ذلك البروتينات وجميع. بالإضافة إلى ذلك، يمكن تسريع الموازاة حساب وحدة الكشف عن العلامات البيولوجية في البرنامج. وهناك بعض الأجهزة الأساسية متعددة بما في ذلك غبغبو (General-Purpose رسومية معالجة التوحد) والمعالجات Intel Xeon Phi المتاحة لهذا الغرض. بيد أن هذه التكنولوجيات تتطلب استراتيجيات الترميز المختلفة وسيتم النظر في النسخة المقبلة من البرنامج.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

لدينا لا تضارب في المصالح المتصلة بهذا التقرير.

Acknowledgments

وأيد هذا العمل "برنامج البحوث ذات الأولوية الاستراتيجية" للأكاديمية الصينية للعلوم (XDB13040400) ومنحة بدء التشغيل من جامعة جيلين. تم تقدير المراجعين المجهولين والمستخدمين التجارب الطبية على تعليقاتهم البناءة على تحسين سهولة الاستخدام والأداء الوظيفي لكسولوتيونفيس.

Materials

Name	Company	Catalog Number	Comments
Hardware
laptop	Lenovo	X1 carbon	Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name	Company	Catalog Number	Comments
Software
Python 3.0	WingWare	Wing Personal	Any python programming and running environments support Python version 3.0 or above