Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

تحليل تجارب الحمض النووي الريبي متعدد العوامل باستخدام DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress هي أداة قائمة على البرنامج النصي يتم تنفيذها في R لإجراء تحليل RNA-Seq من مراقبة الجودة إلى التعبير المشترك. يتعامل DiCoExpress مع التصميم الكامل وغير المتوازن حتى 2 من العوامل البيولوجية. يرشد هذا الفيديو التعليمي المستخدم من خلال الميزات المختلفة ل DiCoExpress.

Abstract

يتطلب الاستخدام السليم للنمذجة الإحصائية في تحليل بيانات NGS مستوى متقدما من الخبرة. كان هناك مؤخرا إجماع متزايد على استخدام النماذج الخطية المعممة للتحليل التفاضلي لبيانات RNA-Seq والاستفادة من نماذج الخليط لإجراء تحليل التعبير المشترك. لتقديم إعداد مدار لاستخدام أساليب النمذجة هذه ، قمنا بتطوير DiCoExpress الذي يوفر خط أنابيب R موحد لإجراء تحليل RNA-Seq. بدون أي معرفة خاصة في الإحصاء أو برمجة R ، يمكن للمبتدئين إجراء تحليل RNA-Seq كامل من ضوابط الجودة إلى التعبير المشترك من خلال التحليل التفاضلي القائم على التناقضات داخل نموذج خطي معمم. يقترح تحليل التخصيب على كل من قوائم الجينات المعبر عنها بشكل تفاضلي ، ومجموعات الجينات المشتركة في التعبير. تم تصميم هذا الفيديو التعليمي كبروتوكول خطوة بخطوة لمساعدة المستخدمين على الاستفادة الكاملة من DiCoExpress وإمكاناته في تمكين التفسير البيولوجي لتجربة RNA-Seq.

Introduction

الجيل التالي من تقنية تسلسل الحمض النووي الريبي (RNA-Seq) هي الآن المعيار الذهبي لتحليل النسخ1. منذ الأيام الأولى للتكنولوجيا ، أسفرت الجهود المشتركة لأخصائيي المعلوماتية الحيوية والإحصاء الحيوي عن تطوير العديد من الأساليب التي تعالج جميع الخطوات الأساسية للتحليلات النسخية ، من رسم الخرائط إلى تحديد كمية النسخ2. يتم تطوير معظم الأدوات المتاحة اليوم لعالم الأحياء داخل بيئة برمجيات R للحوسبة الإحصائية والرسوم البيانية3 ، وتتوفر العديد من الحزم لتحليل البيانات البيولوجية في مستودع Bioconductor4. توفر هذه الحزم تحكما كاملا في التحليل وتخصيصه ، ولكنها تأتي على حساب الاستخدام المكثف لواجهة سطر الأوامر. نظرا لأن العديد من علماء الأحياء أكثر ارتياحا لنهج "النقطة والنقرة"5 ، فإن إضفاء الطابع الديمقراطي على تحليلات RNA-Seq يتطلب تطوير واجهات أو بروتوكولات أكثر سهولة في الاستخدام6. على سبيل المثال ، من الممكن إنشاء واجهات ويب لحزم R باستخدام Shiny7 ، ويتم جعل تحليل بيانات سطر الأوامر أكثر سهولة باستخدام واجهة R-studio8 . يمكن أن يساعد تطوير برامج تعليمية مخصصة خطوة بخطوة أيضا المستخدم الجديد. على وجه الخصوص ، يكمل الفيديو التعليمي نصا كلاسيكيا ، مما يؤدي إلى فهم أعمق لجميع خطوات الإجراء.

قمنا مؤخرا بتطوير DiCoExpress9 ، وهي أداة لتحليل تجارب RNA-Seq متعددة العوامل في R باستخدام طرق تعتبر الأفضل بناء على دراسات مقارنة محايدة10,11,12. بدءا من جدول العد ، يقترح DiCoExpress خطوة لمراقبة جودة البيانات متبوعة بتحليل التعبير الجيني التفاضلي (حزمة edgeR13) باستخدام نموذج خطي معمم (GLM) وتوليد مجموعات التعبير المشترك باستخدام نماذج خليط Gaussian (حزمة coseq12). يتعامل DiCoExpress مع التصميم الكامل وغير المتوازن حتى 2 من العوامل البيولوجية (أي النمط الوراثي والعلاج) وعامل تقني واحد (أي التكرار). تكمن أصالة DiCoExpress في بنية الدليل الخاصة به التي تخزن وتنظم البيانات والبرامج النصية والنتائج وفي أتمتة كتابة التناقضات مما يسمح للمستخدم بالتحقيق في العديد من الأسئلة داخل نفس النموذج الإحصائي. وبذل جهد أيضا لتوفير نواتج بيانية توضح النتائج الإحصائية.

تتوفر مساحة عمل DiCoExpress في https://forgemia.inra.fr/GNet/dicoexpress. يحتوي على أربعة أدلة واثنين من ملفات pdf وملفين نصيين. يحتوي دليل البيانات / البيانات على مجموعات بيانات الإدخال ؛ لهذا البروتوكول ، سنستخدم مجموعة البيانات "التعليمية". يحتوي دليل المصادر / الدليل على سبع وظائف R ضرورية لإجراء التحليل ، ويجب ألا يتم تعديلها من قبل المستخدم. يتم تشغيل التحليل باستخدام البرامج النصية المخزنة في دليل Template_scripts / . يسمى البروتوكول المستخدم في هذا البروتوكول DiCoExpress_Tutorial_JoVE.R ويمكن تكييفه بسهولة مع أي مشروع نسخي. تتم كتابة جميع النتائج في دليل النتائج / وتخزينها في دليل فرعي مسمى وفقا للمشروع. يحتوي ملف README.md على معلومات تثبيت مفيدة، ويمكن العثور على أي تفاصيل محددة تتعلق بالطريقة واستخدامها في ملف DiCoExpress_Reference_Manual.pdf.

يرشد هذا الفيديو التعليمي المستخدم من خلال الميزات المختلفة ل DiCoExpress بهدف التغلب على التردد الذي يشعر به علماء الأحياء باستخدام الأدوات القائمة على سطر الأوامر. نقدم هنا تحليل مجموعة بيانات RNA-Seq اصطناعية تصف التعبير الجيني في ثلاث نسخ بيولوجية من أربعة أنماط وراثية ، مع أو بدون علاج. سنتناول الآن الخطوات المختلفة لسير عمل DiCoExpress الموضح في الشكل 1. يتوفر البرنامج النصي الموضح في قسم البروتوكول وملفات الإدخال على الموقع: https://forgemia.inra.fr/GNet/dicoexpress

إعداد ملفات البيانات
يجب تسمية ملفات csv الأربعة المخزنة في دليل البيانات / الدليل وفقا لاسم المشروع. في مثالنا ، تبدأ جميع الأسماء ب "البرنامج التعليمي" ، وسنقوم بتعيين Project_Name = "البرنامج التعليمي" في الخطوة 4 من البروتوكول. يجب الإشارة إلى الفاصل المستخدم في ملفات csv في متغير سبتمبر في الخطوة 4. في مجموعة البيانات "التعليمية" الخاصة بنا ، يكون الفاصل عبارة عن جدولة. بالنسبة للمستخدمين المتقدمين، يمكن تقليل مجموعة البيانات الكاملة إلى مجموعة فرعية من خلال توفير قائمة بالإرشادات Project_Name جديد من خلال متغير عامل التصفية. يتجنب هذا الخيار النسخ الزائدة عن الحاجة من ملفات الإدخال ويتحقق من مبادئ FAIR14.

من بين ملفات csv الأربعة ، تكون ملفات COUNTS و TARGET فقط إلزامية. وهي تحتوي على الأعداد الخام لكل جين (هنا Tutorial_COUNTS.csv) ووصف التصميم التجريبي (هنا Tutorial_TARGET.csv). يصف ملف TARGET.csv كل عينة (عينة واحدة لكل صف) مع طريقة لكل عامل بيولوجي أو تقني (في الأعمدة). نوصي بشدة بأن تبدأ الأسماء المختارة للطرائق بحرف وليس رقم. لا يمكن تغيير اسم العمود الأخير ("النسخ المتماثل"). وأخيرا، يجب أن تتطابق الأسماء النموذجية (العمود الأول) مع الأسماء الموجودة في عناوين ملف COUNTS.csv (Genotype1_control_rep1 في مثالنا). ملف التخصيب.csv يحتوي فيه كل سطر على Gene_ID واحد وشرط تعليق توضيحي واحد مطلوب فقط إذا كان المستخدم يخطط لتشغيل تحليل الإثراء. إذا كان أحد الجينات يحتوي على العديد من التعليقات التوضيحية ، فيجب كتابتها على أسطر مختلفة. ملف التعليق التوضيحي.csv اختياري ويستخدم لإضافة وصف قصير لكل جين في ملفات الإخراج. أفضل طريقة للحصول على ملف تعليق توضيحي هي استرداد المعلومات من قواعد بيانات مخصصة (على سبيل المثال ، Thalemine: https://bar.utoronto.ca/thalemine/begin.do ل Arabidopsis).

تركيب ديكوإكسبريس
يتطلب DiCoExpress حزم R محددة. استخدم مصدر سطر الأوامر(".. /Sources/Install_Packages.R") في وحدة تحكم R للتحقق من حالة تثبيت الحزمة المطلوبة. بالنسبة للمستخدمين على Linux ، هناك حل آخر هو تثبيت الحاوية المخصصة ل DiCoExpress والمتوفرة في https://forgemia.inra.fr/GNet/dicoexpress/container_registry. بحكم التعريف ، تحتوي هذه الحاوية على DiCoExpress مع جميع الأجزاء المطلوبة ، مثل المكتبات والتبعيات الأخرى.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. ديكو اكسبرس

  1. افتح جلسة استوديو R واضبط الدليل على Template_scripts.
  2. افتح البرنامج النصي DiCoExpress_Tutorial.R في استوديو R.
  3. تحميل وظائف DiCoExpress في جلسة عمل R مع الأوامر التالية:
    مصدر > (".. /المصادر/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /البيانات"
    > Results_Directory = ".. /النتائج/"
  4. تحميل ملفات البيانات في جلسة عمل R باستخدام الأوامر التالية:
    > Project_Name = "البرنامج التعليمي"
    مرشح > = NULL
    > سبتمبر = "\t"
    > Data_Files = Load_Data_Files(Data_Directory، Project_Name، فلتر، سبتمبر)
  5. قم بتقسيم الكائن Data_Files إلى عدة كائنات للتعامل معها بسهولة:
    > Project_Name = Data_Files دولار Project_Name
    > الهدف = Data_Files دولار المستهدف
    > Raw_Counts = Data_Files دولار Raw_Counts
    التعليق التوضيحي > = التعليق التوضيحي Data_Files$$.
    > Reference_Enrichment = Data_Files دولار Reference_Enrichment
  6. اختر استراتيجية من بين "NbConditions" أو "NbReplicates" أو "filterByExpr" وعتبة لتصفية الجينات منخفضة التعبير. هنا نختار
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. تعيين ألوان المجموعة باستخدام الأمر
    > Color_Group = فارغ
    ملاحظة: عند تعيينه إلى NULL، يقوم R تلقائيا بإسناد الألوان إلى الظروف البيولوجية. وإلا أدخل متجها يشير إلى لون لكل مجموعة بيولوجية.
  8. اختر طريقة تطبيع من بين تلك المقبولة من قبل وظيفة calcNormFactors من edgeR. على سبيل المثال
    > Normalization_Method = "TMM"
  9. أداء مراقبة الجودة من خلال تنفيذ الوظيفة التالية
    > Quality_Control(Data_Directory، Results_Directory، Project_Name، الهدف، Raw_Counts، Filter_Strategy، Color_Group، CPM_Cutoff، Normalization_Method)
  10. حالة النسخ المتماثل = TRUE إذا تم إقران البيانات وفقا لعامل النسخ المتماثل ، FALSE خلاف ذلك.
  11. تعيين التفاعل = TRUE للنظر في التفاعل بين العاملين البيولوجيين ، FALSE خلاف ذلك.
  12. حدد النموذج الإحصائي باستخدام الأوامر التالية
    نموذج > = GLM_Contrasts (Results_Directory ، Project_Name ، الهدف ، النسخ المتماثل ، التفاعل)
    > GLM_Model = النموذج$GLM_Model
    > التباينات = النموذج$التباينات
  13. حدد عتبة معدل الاكتشاف الخاطئ، هنا 0.05
    > Alpha_DiffAnalysis = 0.05
  14. إجراء التحليل التفاضلي باستخدام الأوامر التالية
    > Index_Contrast = 1:nrow (التناقضات)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory، Results_Directory، Project_Name، الهدف، Raw_Counts، GLM_Model، التناقضات، Index_Contrast، Filter_Strategy، Alpha_DiffAnalysis، NbGenes_Profiles، NbGenes_Clustering، CPM_Cutoff، Normalization_Method)
  15. حدد عتبة لتحليل التخصيب، هنا 0.01
    > Alpha_Enrichment = 0.01
  16. إجراء تحليل التخصيب لقوائم الجينات المعبر عنها بشكل تفاضلي (DEG)
    عنوان > = NULL
    إثراء > (Results_Directory ، Project_Name ، العنوان ، Reference_Enrichment ، Alpha_Enrichment)
  17. اختر قوائم DEG المراد مقارنتها. على سبيل المثال،
    > المجموعات = التناقضات$التناقضات[24:28]
  18. أدخل اسما لمقارنة القائمة. يستخدم هذا الاسم للدليل حيث سيتم حفظ ملفات الإخراج
    عنوان > = "Interaction_with_Genotypes_1_and_2"
  19. حدد الإجراء المطلوب القيام به في قوائم DEG عن طريق تعيين عملية المعلمة إلى الاتحاد أو التقاطع. نختار
    عملية > = "الاتحاد"
  20. مقارنة قوائم DEGs
    > Venn_IntersectUnion (Data_Directory، Results_Directory، Project_Name، العنوان، المجموعات، العملية)
  21. إجراء تحليل التعبير المشترك مع الدالة
    > Coexpression_coseq(Data_Directory، Results_Directory، Project_Name، العنوان، الهدف، Raw_Counts، Color_Group)
  22. إجراء تحليل إثراء لمجموعات التعبير المشترك
    إثراء > (Results_Directory ، Project_Name ، العنوان ، Reference_Enrichment ، Alpha_Enrichment)
  23. إنشاء ملفين سجليين يحتويان على جميع المعلومات اللازمة لإعادة إنتاج التحليل
    > Save_Parameters( )
    ملاحظة: يتم عرض أسطر الأوامر المستخدمة في هذا البروتوكول في الشكل 2. يتم تمييز الخطوط التي يجب تعديلها لتحليل مجموعة بيانات أخرى.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

يتم حفظ جميع مخرجات DiCoExpress في البرنامج التعليمي / الدليل ، ويتم وضعها نفسها داخل دليل النتائج / النتائج. نقدم هنا بعض الإرشادات لتقييم الجودة الشاملة للتحليل.

مراقبة الجودة
يعد ناتج مراقبة الجودة ، الموجود في Quality_Control / الدليل ، ضروريا للتحقق من أن نتائج تحليل RNA-Seq موثوقة. يحتوي ملف Data_Quality_Control.pdf على العديد من المؤامرات التي تم الحصول عليها باستخدام بيانات خام وطبيعية يمكن استخدامها لتحديد أي مشكلات محتملة في البيانات. يجب أن يكون إجمالي الأعداد الطبيعية لكل عينة متشابهة عند مقارنة كل من الظروف الداخلية والبينية. وعلاوة على ذلك، من المتوقع أن تظهر أعداد التعبير الجيني المعياري متوسطا وتباينا مماثلين في كل من الظروف الداخلية والداخلية (الشكل 3 ألف). خلاف ذلك ، يمكن أن يكون هذا علامة على تباين غير مماثل بين الظروف ، وهي قضية يمكن أن تكون مشكلة بالنسبة لتركيب النموذج.

وأخيرا ، فإن مخططات PCA على التهم العادية المنتجة في DiCoExpress مفيدة لتحديد هياكل البيانات الأساسية المحتملة (الشكل 3B). في مثالنا ، لا يوجد تجميع وفقا للنسخ المتماثلة ، مما يعني أن هذا العامل ليس تمييزيا. في الوقت نفسه ، يمكن تحديد تمييز واضح بين العلاجات. تشير هذه النتائج إلى مجموعة بيانات ذات نوعية جيدة حيث من المتوقع دائما أن يكون التأثير البيولوجي أقوى من التأثير المكرر. في الختام ، فإن الجودة الشاملة التي لوحظت هنا لا تمنع أي تحليل لاحق لمجموعة البيانات بأكملها.

النمذجة الإحصائية
يسهل DiCoExpress كتابة النمذجة الإحصائية للوغاريتم للتعبير المتوسط من المتغيرين Replicate و Interaction. يمكن تصور تأثير التكرار إذا تم جمع عينات من جميع الظروف البيولوجية في نفس الوقت وأن هذه التجربة يتم تكرارها في أيام مختلفة لقياس التباين البيولوجي. في تجربة علم النبات النموذجية ، على سبيل المثال ، تزرع العينات في نفس غرفة النمو بغض النظر عن الحالة البيولوجية قيد الدراسة وتتوافق النسخ المتماثلة البيولوجية مع التجارب التي بدأت في أيام مختلفة. في هذه الحالة، يتم إقران عينات من نفس النسخة المتماثلة، ويجب تعيين النسخ المتماثل إلى TRUE. وإلا، يجب تعيين النسخ المتماثل إلى FALSE. يعرف تأثير النسخ المتماثل هذا أيضا باسم تأثير الدفعة.

إذا تم وصف التصميم التجريبي من خلال عاملين بيولوجيين من المتوقع أن يتفاعلا ، فقم بتعيين المتغير التفاعل إلى TRUE للنظر في التفاعل. لاحظ أنه بالنسبة لمشروع يحتوي على عامل بيولوجي واحد فقط، يتم تعيين المتغير التفاعل تلقائيا إلى FALSE.

التحليل التفاضلي
تتوفر DEG المحددة لجميع التباينات التي تم اختبارها في ملفات نصية موجودة في الدلائل الفرعية الخاصة بها داخل دليل DiffAnalysis/. بشكل افتراضي ، يتم اختبار جميع التباينات. اعتمادا على التصميم التجريبي ، يمكن أن تكون بعض التناقضات ذات أهمية بيولوجية محدودة (على سبيل المثال ، متوسط على العديد من الأنماط الجينية). لاحظ أن التحكم الإيجابي الخاطئ يتم إجراؤه لكل تباين مما يضمن عدم تأثير التباينات التي يحتمل أن تكون غير ذات صلة على التحليل. ومع ذلك ، من الممكن إنتاج مؤامرات تحتوي فقط على تباين المصالح من خلال العمل على متغير Index_Contrast . التفاصيل متوفرة في الدليل المرجعي عبر الإنترنت.

من الضروري ملاحظة أن DiffAnalysis/ يحتوي أيضا على المدرج التكراري الخام للقيمة p الذي ثبت مؤخرا أنه أفضل طريقة لتقييم جودة النمذجة11. من المفترض أن يكون التوزيع المتوقع لقيم p الخام موحدا ، مع احتمال وجود ذروة في الجانب الأيسر من التوزيع. تشير الذروة العالية لقيمة p الخام البالغة 1 إلى مشكلات تركيب النموذج. في هذه الحالة ، يمكن حل المشكلة في كثير من الأحيان عن طريق زيادة قيمة CPM_Cutoff المجموعة ، على سبيل المثال ، من 1 إلى 5. تتوفر أمثلة على المدرج التكراري الخام في الشكل 4A وفي https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. لكل تباين تم اختباره، يتم رسم ملفات تعريف التعبير لأعلى DEG المحدد (أعلى 20 بشكل افتراضي) في الملف Top20_Profile.pdf الموجود في دليل التباين. ويوضح الشكل 4 ب مثالا لأحد الجينات التي تم تحديدها على أنها معبر عنها بشكل تفاضلي في تباين واحد. يتم رسم عدد DEG لأعلى ولأسفل لكل تباين تم اختباره ويوجد في الملف Down_Up_DEG.pdf (على سبيل المثال في الشكل 4C).

تحليل التعبير المشترك
في مثالنا ، يتم إجراء تحليل التعبير المشترك على اتحاد قوائم 5 DEG ، التي تم تحديدها على النقيض من ذلك بحثا عن تباين استجابة العلاج بين النمط الوراثي 1 أو 2 ضد الآخرين. يظهر مخطط فين ل DEG في الشكل 5A. تتم طباعة الجينات المعبر عنها بشكل مشترك لكل مجموعة محددة في ملفات نصية فردية (ملف واحد لكل مجموعة). تتوفر ملفات تعريف التعبير للمجموعات المختلفة معا في ملف Boxplot_profiles_Coseq.pdf (انظر المثال في الشكل 5B). على الرغم من توفر خيارات التخصيص ، إلا أنه يجب استخدامها فقط من قبل المستخدمين المتقدمين. يرجى الرجوع إلى الدليل المرجعي للحصول على شرح كامل للمعلمات المختلفة.

تحليل الإثراء
وترد القوائم المقابلة لتحليلات التباين وإثراء المجموعات في أدلة كل منها. يمكن أن يكون مصطلح التعليق التوضيحي الذي تم العثور عليه مهما في هذا التحليل إما ممثلا تمثيلا زائدا أو ناقصا في قائمة Gene_ID. يتم تضمين هذه المعلومات في ملف الإخراج.

لاحظ أن قرار الاختبار يتم اتخاذه من قيم p الخام. إذا أراد المستخدم ضبط قيم p الخام في الخلف ، فهي متوفرة في الملفات مع لاحقة All_Enrichment_Results.txt.

صلاحية DiCoExpress
على الرغم من أن DiCoExpress قد تم تطويره لتسهيل تحليلات تجارب RNA-Seq متعددة العوامل ، إلا أن صحة نتائجها تعتمد إلى حد كبير على خصائص مجموعة البيانات. وينبغي التحقق بعناية من عدة نواتج قبل أي تفسير صحيح للنتائج. أولا، في خطوة مراقبة الجودة، يجب أن يكون حجم المكتبة العادي مماثلا ويجب أن يظهر عدد التعبير الجيني العادي متوسطا وتباينا مماثلين في كل من الظروف الداخلية والداخلية. بعد ذلك ، يجب إيلاء اهتمام خاص لشكل الرسوم البيانية الخام للقيمة p. وأخيرا، عند إجراء تحليل للتعبير المشترك، فإن القيمة الدنيا المحددة بوضوح ل ICL تدل على نوعية جيدة. لم يتم استيفاء هذه الشروط ، ومن المرجح أن يكون أي تفسير للنتائج خاطئا.

Figure 1
الشكل 1. خط أنابيب تحليل DiCoExpress.  يشار إلى الخطوات السبع لتحليل RNA-Seq الكامل باستخدام DiCoExpress أن المربعات الزرقاء تمثل الخطوات التي يتم فيها تنفيذ الأساليب الإحصائية. يمكن إجراء الخطوة 7 (الإثراء) بعد الخطوة 4 (التحليل التفاضلي وتسمى 7.1 في الشكل 2) و / أو الخطوة 6 (تحليل التعبير المشترك وتسمى 7.2 في الشكل 2). تتوافق الأرقام الحمراء مع أرقام الخطوات في البروتوكول. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 2
الشكل 2. لقطات شاشة لخطوط الأوامر DiCoExpress.  تتم الإشارة إلى أسطر الأوامر المستخدمة لتحليل مجموعة بيانات البرنامج التعليمي. الرقم في الهالات السوداء هو نفسه كما في الشكل 1. تبرز المستطيلات الحمراء الخطوط التي يمكن تخصيصها من قبل المستخدم. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 3
الشكل 3: النتائج التمثيلية لخطوة مراقبة الجودة.  الرقم الذي تم الحصول عليه مع مجموعة البيانات "البرنامج التعليمي" التهم العادية. أ) Boxplot من التهم العادية. ب) PCA على التهم العادية. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 4
الشكل 4: النتائج التمثيلية لتحليل التعبير التفاضلي الشكل الذي تم الحصول عليه باستخدام مجموعة بيانات "البرنامج التعليمي". أ) الرسم البياني الخام للقيمة p للتباين [control_Genotype2 - control_Genotype3]. ب) ملف تعريف التعبير الجيني C1G62301.1 في كل نمط وراثي وحالة ، وهو أحد الجين المعبر عنه بشكل تفاضلي Top20 في تباين [control_Genotype2 - control_Genotype3]. ج) عدد الجينات المعبر عنها بشكل تفاضلي لأعلى ولأسفل في كل تباين تم اختباره. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 5
الشكل 5: النتائج التمثيلية لتحليل التعبير المشترك.  الشكل الذي تم الحصول عليه باستخدام مجموعة بيانات "البرنامج التعليمي". أ) مخطط فين ل DEG من 5 "التفاعل مع النمط الجيني 1 و 2" التباين. DEG من تباين استجابة العلاج بين النمط الوراثي 1 و 2 و 1 و 3 و 1 و 4 و 2 و 3 و 2 و 4 في الدائرة A و B و C و D و E على التوالي. الرقم المكتوب في أسفل اليمين ("14877") هو عدد الجينات التي ليست DE في أي قائمة. ب) التعبير عن ملامح الجينات من المجموعة 3. يتم استخراج الشكل من Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

ملف تكميلي. يرجى النقر هنا لتنزيل هذا الملف.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

نظرا لأن RNA-Seq أصبح طريقة منتشرة في كل مكان في الدراسات البيولوجية ، فهناك حاجة مستمرة لتطوير أدوات تحليلية متعددة الاستخدامات وسهلة الاستخدام. غالبا ما تكون الخطوة الحاسمة في معظم سير العمل التحليلي هي تحديد الجينات التي يتم التعبير عنها بشكل تفاضلي بين الظروف البيولوجية و / أو العلاجات15 بثقة. يتطلب إنتاج نتائج موثوقة نمذجة إحصائية مناسبة ، والتي كانت الدافع لتطوير DiCoExpress.

DiCoExpress هي أداة قائمة على البرامج النصية يتم تنفيذها في R تهدف إلى مساعدة علماء الأحياء على الاستفادة الكاملة من إمكانيات دراسات المقارنة المحايدة عند البحث عن DEG. يوفر DiCoExpress خط أنابيب موحد يوفر الفرصة لتقييم بنية البيانات وجودتها ، وبالتالي ضمان اختيار أفضل نهج للنمذجة. بدون أي معرفة خاصة في الإحصاء أو برمجة R ، فإنه يسمح للمبتدئين بإجراء تحليل RNA-Seq كامل من ضوابط الجودة إلى التعبير المشترك من خلال التحليل التفاضلي القائم على التناقضات داخل النماذج الخطية المعممة. من المهم ملاحظة أن DiCoExpress يركز على الجزء الإحصائي من تحليل RNA-Seq ويتطلب جدول عد كمدخلات. طرق المعلوماتية الحيوية المتعددة المخصصة لمحاذاة قراءة RNA-Seq وإنشاء جداول العد خارج نطاق الأداة. ومع ذلك ، فإن لها تأثيرا مباشرا على جودة التحليل النهائي ويجب اختيارها بعناية.

على الرغم من أن DiCoExpress ليست أداة "نقطة ونقرة" ، إلا أن بنية الدليل الخاصة بها والبرنامج النصي للقالب المقدم والمستخدم في واجهة R-Studio تجعلها في متناول علماء الأحياء الذين لديهم الحد الأدنى من المعرفة ب R. بمجرد تثبيت DiCoExpress ، يجب على المستخدمين معرفة كيفية استخدام وظيفة في R وتحديد الوسيطات المطلوبة والاختيارية. الخطوة الأولى الحاسمة هي توفير الملفين الإلزاميين اللذين يحتويان على الأعداد الخام لكل جين (ملف COUNTS) ووصف التصميم التجريبي (ملف TARGET) بشكل صحيح. يجب أن يكون الفاصل المستخدم هو نفسه لكل ملف ويجب أن يتم وصف العينات بشكل مناسب وفقا لطرائق العوامل البيولوجية. بمجرد تحميل الملفين في DiCoExpress ، يكون التحليل آليا تقريبا حتى الخطوة الحرجة الثانية ، أي تحليل التعبير المشترك. يمكن أن يكون هذا التحليل مستهلكا للوقت بالفعل وقد تكون هناك حاجة إلى خادم حساب قوي لتشغيله على مجموعات بيانات كبيرة.

نظرا لأن أتمتة كتابة التباين تصبح صعبة لأكثر من عاملين بيولوجيين ، فقد حصرنا DiCoExpress في التصميم الكامل وغير المتوازن لما يصل إلى 2 من العوامل البيولوجية. إذا كان المشروع يحتوي على أكثر من 2 عوامل بيولوجية ، فإن الحل العملي هو انهيار اثنين من العوامل الأولية لإنشاء عامل جديد. ومع ذلك ، يجب على المرء أن يضع في اعتباره أن صعوبة إعطاء تفسير بيولوجي ذي مغزى تزداد عندما يزداد عدد العوامل البيولوجية.

تم تصميم DiCoExpress كأداة متطورة ونشجع المستخدمين بشدة على الاشتراك في القائمة البريدية (https://groupes.renater.fr/sympa/subscribe/dicoexpress). سيتم الإعلان عن أي تعديلات أو تحسينات على الأداة في القائمة ونرحب بالأسئلة أو الاقتراحات. نأمل أيضا أن يسمح اعتماد DiCoExpress من قبل مجتمع كبير بتتبع وإصلاح أي أخطاء قد تحدث في سياق تحليل معين. سيتم دفع جميع التحديثات والتصحيحات إلى دليل git https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

ليس لدى أصحاب البلاغ ما يكشفون عنه

Acknowledgments

تم دعم هذا العمل بشكل رئيسي من قبل ANR PSYCHE (ANR-16-CE20-0009). يشكر المؤلفون F. Desprez على بناء حاوية DiCoExpress. يتم دعم عمل KB من خلال برنامج الاستثمار من أجل المستقبل ANR-10-BTBR-01-01 Amaizing . تستفيد مختبرات GQE و IPS2 من دعم Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

الهندسة، العدد 185،
تحليل تجارب الحمض النووي الريبي متعدد العوامل باستخدام DiCoExpress
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter