Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

צינור ביואינפורמטיקה לחקירת אבולוציה מולקולרית וביטוי גנים באמצעות RNA-seq

Published: May 28, 2021 doi: 10.3791/61633

Summary

מטרת פרוטוקול זה היא לחקור את האבולוציה והביטוי של גנים מועמדים באמצעות נתוני רצף RNA.

Abstract

זיקוק ודיווח על ערכות נתונים גדולות, כגון נתוני גנום שלם או תעתיק, הוא לעתים קרובות משימה מרתיעה. אחת הדרכים לפרק את התוצאות היא להתמקד במשפחות גנים אחת או יותר שהן משמעותיות לאורגניזם ולחימוד. בפרוטוקול זה, אנו מתארים צעדים ביואינפורמטיים כדי ליצור פילוגנית ולכמת את הביטוי של גנים מעניינים. עצים פילוגנטיים יכולים לתת תובנה כיצד גנים מתפתחים בתוך ובין מינים, כמו גם לחשוף אורתולוגיה. תוצאות אלה ניתן לשפר באמצעות נתוני RNA-seq כדי להשוות את הביטוי של גנים אלה אצל אנשים שונים או רקמות. מחקרים על אבולוציה מולקולרית וביטוי יכולים לחשוף דרכי אבולוציה ושימור של תפקוד גנים בין מינים. אפיון משפחת גנים יכול לשמש כקרש קפיצה למחקרים עתידיים ויכול להדגיש משפחת גנים חשובה בנייר גנום או שעתוק חדש.

Introduction

ההתקדמות בטכנולוגיות הרצף אפשרה רצף של גנומים ותעתיקים של אורגניזמים שאינם מודלים. בנוסף להיתכנות המוגברת של רצף DNA ו- RNA מאורגניזמים רבים, שפע של נתונים זמין לציבור כדי לחקור גנים מעניינים. מטרת פרוטוקול זה היא לספק צעדים ביואינפורמטיים כדי לחקור את האבולוציה המולקולרית ואת הביטוי של גנים שעשויים לשחק תפקיד חשוב באורגניזם של עניין.

חקירת האבולוציה של גן או משפחת גנים יכולה לספק תובנה על האבולוציה של מערכות ביולוגיות. בני משפחת גנים נקבעים בדרך כלל על ידי זיהוי מוטיבים שמורים או רצפי גנים הומולוגיים. האבולוציה של משפחת הגנים נחקרה בעבר באמצעות גנומים מאורגניזמים מודלים הקשורים מרחוק1. מגבלה לגישה זו היא שלא ברור כיצד משפחות גנים אלה מתפתחות במינים קרובים ותפקידם של לחצים סלקטיביים סביבתיים שונים. בפרוטוקול זה, אנו כוללים חיפוש אחר הומולוגים במינים קרובים. על ידי יצירת פילוגנית ברמת פילום, אנו יכולים לציין מגמות באבולוציה של משפחת גנים כגון זו של גנים שמורים או כפילויות ספציפיות לשושלת. ברמה זו, אנו יכולים גם לחקור אם גנים הם אורתולוגים או paralogs. בעוד homologs רבים סביר לתפקד באופן דומה זה לזה, זה לא בהכרח המקרה2. שילוב עצים פילוגנטיים במחקרים אלה חשוב לפתור אם גנים הומולוגיים אלה הם אורתולוגים או לא. באיקריוטים, אורתולוגים רבים שומרים על תפקודים דומים בתוך התא כפי שמעידים היכולת של חלבוני יונקים לשחזר את תפקודם של אורתולוגים שמרים3. עם זאת, ישנם מקרים שבהם גן לא אורתולוגי מבצע פונקציה מאופיינת4.

עצים פילוגנטיים מתחילים לתוות יחסים בין גנים ומינים, אך לא ניתן להקצות את הפונקציה אך ורק על סמך יחסים גנטיים. מחקרי ביטוי גנים בשילוב עם ביאורים תפקודיים וניתוח העשרה מספקים תמיכה חזקה לתפקוד הגנים. מקרים שבהם ביטוי גנים ניתן לכמת ולהשוות בין אנשים או סוגי רקמות יכול להיות יותר לספר על תפקוד פוטנציאלי. הפרוטוקול הבא עוקב אחר שיטות המשמשות בחקירת גנים opsin ב הידרה וולגריס7, אבל הם יכולים להיות מיושמים על כל מין וכל משפחת גנים. התוצאות של מחקרים כאלה מספקות בסיס להמשך חקירה של תפקוד גנים ורשתות גנים באורגניזמים שאינם מודלים. כדוגמה, החקירה של פילוגנטיה של opsins, שהם חלבונים היוזמים את מפל phototransduction, נותן הקשר האבולוציה של העיניים וזיהוי אור8,9,10,11. במקרה זה, אורגניזמים שאינם מודל במיוחד מיני בעלי חיים בסיסיים כגון cnidarians או ctenophores יכול להבהיר שימור או שינויים מפל phototransduction וראייה על פני clades12,13,14. באופן דומה, קביעת הפילוגניות, הביטוי והרשתות של משפחות גנים אחרות תודיע לנו על המנגנונים המולקולריים שבבסיס ההתאמות.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

פרוטוקול זה פועל בהתאם להנחיות הטיפול בבעלי חיים UC אירווין.

1. הכנת ספריית רנ"א-סק

  1. בודד את ה- RNA באמצעות השיטות הבאות.
    1. לאסוף דגימות. אם RNA הוא להיות מופק במועד מאוחר יותר, פלאש להקפיא את המדגם או מקום בתמיסת אחסון RNA15 (שולחן החומרים).
    2. המתת חסד ולנתח את האורגניזם כדי להפריד רקמות של עניין.
    3. לחלץ RNA הכולל באמצעות ערכת החילוץ לטהר את RNA באמצעות ערכת טיהור RNA (טבלה של חומרים)
      הערה: ישנם פרוטוקולים וערכות שעשויים לעבוד טוב יותר עבור מינים שונים וסוגירקמות 16,17. הוצאנו RNA מרקמות גוף שונות שלפרפר 18 והידרהג'לטיני19 (ראה דיון).
    4. למדוד את הריכוז והאיכות של RNA של כל מדגם(טבלה של חומרים). השתמש בדגימות עם מספרי שלמות RNA (RIN) הגבוהים מ- 8, קרוב יותר באופן אידיאלי ל-9 20 כדי לבנות ספריות cDNA.
  2. בנה ספריית cDNA ורצף באופן הבא.
    1. בנה ספריות cDNA בהתאם למדריך הוראות ההכנה לספריה (ראה דיון).
    2. לקבוע ריכוז ואיכות cDNA (טבלה של חומרים).
    3. מולטיפלקס הספריות ורצף אותם.

2. גישה לאשכול מחשבים

הערה: ניתוח RNA-seq דורש מניפולציה של קבצים גדולים והוא נעשה בצורה הטובה ביותר באשכול מחשב(שולחן החומרים).

  1. היכנס לחשבון אשכול המחשב באמצעות username@clusterlocation ssh הפקודה בחלון יישום מסוף (Mac) או PuTTY (Windows).

3. השג קריאות RNA-seq

  1. השג קריאות רצף RNA ממתקן הרצף או, עבור נתונים שנוצרו בפרסום, ממאגר הנתונים שבו הופקד (3.2 או 3.3).
  2. כדי להוריד נתונים ממאגרים כגון ArrayExpress, בצע את הפעולות הבאות:
    1. חפש באתר באמצעות מספר ההצטרפות.
    2. חפש את הקישור להורדת הנתונים ולאחר מכן לחץ באמצעות לחצן העכבר הימני ובחר העתק קישור.
    3. בחלון המסוף, הקלד wget ובחר הדבק קישור כדי להעתיק את הנתונים לספריה לצורך ניתוח.
  3. כדי להוריד נתוני ארכיון קריאה קצרה (SRA) של NCBI, בצע את השלבים החלופיים הבאים:
    1. על ערכת הכלים SRA הורדה מסוף v. 2.8.1 באמצעות wget.
      הערה: הורדה והתקנה של תוכניות לאשכול המחשב עשויה לדרוש גישת בסיס, פנה אל מנהל אשכול המחשב אם ההתקנה נכשלת.
    2. סיים להתקין את התוכנית על-ידי הקלדת tar -xvf $TARGZFILE.
    3. חיפוש NCBI עבור מספר ההצטרפות SRA עבור הדגימות שברצונך להוריד, זה צריך להיות בפורמט SRRXXXXXX.
    4. השג את נתוני ה- RNA-seq על-ידי הקלדת [מיקום sratoolkit]/bin/prefetch SRRXXXXXX בחלון המסוף.
    5. עבור סוג קבצים מזווגים [מיקום sratoolkit]/bin/fastq-dump --Split-files SRRXXXXXX כדי לקבל שני קבצים מהירים (SRRXXXXXX_1.FASTQ ו- SRRXXXXXX_2.FASTQ).
      הערה: כדי לבצע הרכבה של Trinity de novo השתמש בפקודה [מיקום sratoolkit]/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --Split-files SRRXXXXXX

4. מתאמי חיתוך וקריאות באיכות נמוכה (אופציונלי)

  1. התקן או טען את Trimmomatic21 v. 0.35 באשכול המחשוב.
  2. בספריה שבה ממוקמים קבצי הנתונים RNA-seq, הקלד פקודה הכוללת את המיקום של קובץ הצנצנת הקצוץ, קבצי FASTQ של הקלט, קבצי FASTQ פלט ופרמטרים אופציונליים כגון אורך ואיכות קריאה.
    הערה: הפקודה תשתנה בהתאם לאיכות ולאורך הגולמיים והמבוקשים של הקריאות. עבור Illumina 43 bp קורא עם פריימרים Nextera, השתמשנו: java -צנצנת / נתונים / יישומים / trimmomatic / 0.35 / trimmomatic-0.35.jar PE $READ 1. פאסק $READ 2. paired_READ1 FASTQ. unpaired_READ1 FASTQ. paired_READ2 FASTQ. unpaired_READ2 FASTQ. FASTQ ILLUMINACLIP:מתאמים.fa:2:30:10 מוביל:20 נגרר:20 הזזהWINDOW:4:17 MINLEN:30.

5. השג מכלול ייחוס

  1. חפשו בגוגל, EnsemblGenomes ו-NCBI Genomes ו-Nucleotide TSA (מכלול רובה ציד תעתיק) אחר גנום ייחוס או תעתיק מורכב למינים מעניינים (איור 1).
    הערה: אם גנום הפניה או תעתיק אינם זמינים או באיכות נמוכה, המשך לשלב 6 כדי ליצור הרכבה דה נובו.
  2. אם קיים גנום הפניה או תעתיק מורכב, הורד אותו כקובץ fasta למקום שבו הניתוח יבוצע לאחר השלבים הבאים.
    1. מצא את הקישור להורדת הגנום, לחץ באמצעות לחצן העכבר הימני והעתק קישור.
    2. בחלון המסוף הקלד wget והדבק את כתובת הקישור. אם זמין, גם להעתיק את קובץ GTF וקובץ FASTA חלבון עבור הגנום הפניה.

6. צור הרכבה דה נובו (חלופה לשלב 5)

  1. שלב את קבצי RNA-seq READ1 ו- READ2 fastq עבור כל הדגימות על-ידי הקלדת חתול *READ1. FASTQ > $all_READ1. FASTQ וחתול *READ2. > all_READ2 FASTQ. FASTQ בחלון המסוף.
  2. התקן או טען את Trinity22 v.2.8.5 באשכול המחשוב.
  3. יצירה והרכבה על-ידי הקלדה במסוף: Trinity --seqType fq --max_memory 20G --left $all_READ1. FASTQ - ימינה $all_READ2. מהיר, מהיר.

7. המפה קוראת לגנום (7.1) או לתעתיק דה נובו (7.2)

  1. המפה קוראת לגנום הייחוס באמצעות STAR23 v. 2.6.0c ו- RSEM24 v. 1.3.0.
    1. התקן או טען STAR v. 2.6.0c. ו- RSEM v. 1.3.0 לאשכול המחשוב.
    2. אינדקס הגנום על ידי הקלדת rsem-הכנה-הפניה -gtf $GENOME. GTF - כוכב -p 16 $GENOME. $OUTPUT פאסטה.
    3. מפה קוראת ומחשבת ביטוי עבור כל מדגם על-ידי הקלדת ביטוי-rsem-calculate-expression -p 16 --כוכב --משויך קצה $READ 1. פאסק $READ 2. $INDEX $OUTPUT FASTQ.
    4. שנה את שם קובץ התוצאות למשהו תיאורי באמצעות mv RSEM.genes.results $sample.genes.results.
    5. צור מטריצה של כל הספירות על-ידי הקלדת rsem-יצירת-נתונים-מטריצה *[גנים/isoforms.results] > $OUTPUT.
  2. מפה RNA-seq להרכבה טריניטי דה נובו באמצעות RSEM ועת עניבת פרפר.
    1. התקן או טען את טריניטי22 v.2.8.5, Bowtie25 v. 1.0.0 ו- RSEM v. 1.3.0.
    2. מיפוי קריאות וחישוב ביטוי עבור כל דוגמה על-ידי הקלדת [trinity_location]/align_and_estimate_abundance.pl --הכנה להפניה --תעתיקים $TRINITY. FASTA -- seqType fq --שמאל $READ 1. FASTQ - ימינה $READ 2. FASTQ - est_method RSEM - עניבת פרפר aln_method - trinity_mode - output_dir $OUTPUT.
    3. שנה את שם קובץ התוצאות למשהו תיאורי באמצעות mv RSEM.genes.results $sample.genes.results.
    4. צור מטריצה של כל הספירות על-ידי הקלדת [trinity_location]/abundance_estimates_to_matrix.pl --est_method RSEM *[genes/isoforms].תוצאות

8. זיהוי גנים בעלי עניין

הערה: השלבים הבאים יכולים להיעשות עם קבצי FASTA נוקלאוטידים או חלבונים אך פועלים בצורה הטובה ביותר והם פשוטים יותר עם רצפי חלבונים. BLAST מחפש באמצעות חלבון לחלבון סביר יותר לתת תוצאות בעת חיפוש בין מינים שונים.

  1. לקבלת גנום ייחוס, השתמש בקובץ FASTA של החלבון משלב 5.2.2 או ראה חומרים משלימים כדי ליצור תכונת גנים מותאמת אישית GTF.
  2. לתעתיק דה נובו, צרו חלבון FASTA באמצעות TransDecoder.
    1. התקן או טען את TransDecoder v. 5.5.0 במועדון המחשבים.
    2. מצא את מסגרת הקריאה הפתוחה הארוכה ביותר וחזה רצף פפטיד על-ידי הקלדה [מיקום מקודד]/TransDecoder.LongOrfs -t $TRINITY. פאסטה, פאסטה.
  3. חיפוש NCBI Genbank עבור הומולוגים במינים קרובים.
    1. פתח חלון דפדפן אינטרנט עבור אל https://www.ncbi.nlm.nih.gov/genbank/.
    2. בסרגל החיפוש הקלד את שם גן העניין ואת השם של מינים קרובים אשר כבר רצף או סוג או פילום. בצד שמאל של סרגל החיפוש בחר חלבון ולאחר מכן לחץ על חיפוש.
    3. חלץ רצפים על-ידי לחיצה על שלח אל ולאחר מכן בחר קובץ. תחת עיצוב, בחר FASTA ולאחר מכן לחץ על צור קובץ.
    4. העבר קובץ FASTA של הומולוגים לאשכול המחשב על-ידי הקלדת scp $FASTA username@clusterlocation:/$DIR בחלון מסוף מקומי או השתמש ב- FileZilla כדי להעביר קבצים אל המחשב והאשכול ומם.
  4. חפש גנים מועמדים באמצעות BLAST+26.
    1. התקן או טען את BLAST+ v. 2.8.1 באשכול המחשבים.
    2. באשכול המחשבים, צרו מסד נתונים של BLAST מהגנום או מהחלבון המתורגם של TRANSCRIPTOME FASTA על ידי הקלדת [BLAST+ location]/makeblastdb -in $PEP. FASTA - פרוט-אאוט של dbtype $OUTPUT
    3. הפיצוץ רצפי הגנים homologous מ NCBI למסד הנתונים של המינים של עניין על ידי הקלדת [BLAST + מיקום]/ blastp -db $DATABASE -שאילתה $FASTA -evalue 1e-10 -outfmt 6 -max_target_seqs 1 -out $OUTPUT.
    4. הצג את קובץ הפלט באמצעות הפקודה יותר. העתק מזהי גנים ייחודיים ממין מעניין לקובץ טקסט חדש.
    5. חלץ את הרצפים של גנים מועמדים על-ידי הקלדת perl -ne 'if(/^>(\S+)/){$c=$i{$1}}$c?הדפס:chomp;$i{$_}=1 אם @ARGV' $gene_id.txt $PEP. > $OUTPUT פאסטה.
  5. אשר ביאור גנים באמצעות פיצוץ הדדי.
    1. בדפדפן האינטרנט עבור אל https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    2. בחרו tblastnולאחר מכן הדבקו את רצפי המועמדים, בחרו במסד הנתונים של רצף החלבונים הלא יתירים ולחצו על BLAST.
  6. זהה גנים נוספים על ידי ביאור כל הגנים בגנום או בתעתיק עם מונחי אונטולוגיה של גנים (GO) (ראה דיון).
    1. העבר את החלבון FASTA למחשב המקומי.
    2. הורד והתקן Blast2GO27,28,29 v. 5.2 למחשב המקומי.
    3. פתח את Blast2GO, לחץ על קובץ, עבור אל טען, עבור אל טען רצפים, לחץ על טען קובץ Fasta (fasta). בחרו בקובץ FASTA ולחצו על 'טען'.
    4. לחץ על הפיצוץ, בחר NCBI Blast, ולחץ על הבא. ערכו פרמטרים או לחצו על 'הבא', ערכו פרמטרים ולחצו על 'הפעל' כדי למצוא את תיאור הגנים הדומה ביותר.
    5. לחץ על מיפוי ולאחר מכן לחץ על הפעל כדי לחפש חלבונים דומים בביאורים אונטולוגיים של גנים.
    6. לאחר מכן לחץ על אינטרפרו, בחר EMBL-EBI InterProולחץ על הבא. ערוך פרמטרים או לחץ על הבאולחץ על הפעל כדי לחפש חתימות של משפחות גנים ותחומים מוכרים.
    7. יצא את הביאורים על-ידי לחיצה על קובץ, בחר יצא, לחץ על יצא טבלה. לחץ על עיון, תן שם לקובץ, לחץ על שמור, לחץ על יצא.
    8. חפש בטבלת הביאורים מונחי GO של עניין כדי לזהות גנים מועמדים נוספים. חילוץ הרצפים מקובץ FASTA (שלב 8.4.5)

9. עצים פילוגנטיים

  1. הורד והתקן מגה30 v. 7.0.26 למחשב המקומי שלך.
  2. פתח את מגה, לחץ על ישר, לחץ על ערוך/בנה יישור, בחר צור יישור חדש לחץ על אישור, בחר חלבון.
  3. כאשר חלון היישור נפתח, לחץ על עריכה, לחץ על הוסף רצפים מקובץ ובחר את FASTA עם רצפי חלבון של גנים מועמדים והומולוגים סבירים.
  4. בחר את כל הרצפים. מצא את סמל הזרוע ורחף מעליו. זה צריך להיות אומר ישר רצפים באמצעות אלגוריתם שריר31. לחץ על סמל הזרוע ולאחר מכן לחץ על ישר חלבון כדי ליישר את הרצפים. ערוך פרמטרים או לחץ על אישור כדי ליישר באמצעות פרמטרי ברירת מחדל.
  5. בדוק ובצע שינויים ידניים באופן חזותי ולאחר מכן שמור וסגור את חלון היישור.
  6. בחלון הראשי של מגה, לחץ על מודלים, לחץ על מצא את מודלי ה- DNA / חלבון הטובים ביותר (ML),בחר את קובץ היישור ובחר פרמטרים מתאימים כגון: ניתוח: בחירת מודל (ML), עץ לשימוש: אוטומטי (עץ מצטרף לשכן), שיטה סטטיסטית: סבירות מרבית, סוג החלפה: חומצת אמינו, פער / טיפול נתונים חסר: השתמש בכל האתרים, מסנן אתר ענף: ללא.
  7. לאחר קביעת המודל הטוב ביותר עבור הנתונים, עבור לחלון MEGA הראשי. לחץ על פילוגנית ולחץ על עץ הסבירות המרבית של Contruct/Test ולאחר מכן בחר את היישור, במידת הצורך. בחר את הפרמטרים המתאימים עבור העץ: שיטה סטטיסטית: סבירות מקסימלית, מבחן של פילוגנית: שיטת Bootstrap עם 100 שכפולים, סוג החלפה: חומצת אמינו, מודל: LG עם Freqs. (+F), שיעורים בין אתרים: גמא מבוזרת (G) עם 5 קטגוריות גמא נפרדות, טיפול בנתונים פער/חסר: השתמש בכל האתרים, שיטת ML היוריסטית: הקרוב ביותר-שכן-מחלף (NNI).

10. דמיין ביטוי גנים באמצעות TPM

  1. עבור Trinity, באשכול המחשבים עבור אל הספריה שבה abundance_estimates_to_matrix.pl היה מופעל ואחד היציאות צריך להיות מטריצה. TPM.not_cross_norm, TPM.not_cross_norm. העבר קובץ זה למחשב המקומי שלך.
    הערה: ראה חומרים משלימים לנורמליזציה של מדגם מוצלב.
  2. עבור TPMs מניתוח גנום בצע את השלבים הבאים.
    1. באשכול המחשבים, עבור אל מיקום ההתקנה של RSEM. העתק את rsem-יצירת-מטריצה-נתונים על-ידי הקלדת scp rsem-יצירת-נתונים-מטריצה rsem-ליצור-TPM-מטריצה. השתמש ננו כדי לערוך את הקובץ החדש ולשנות את "$offsite שלי = 4" מ 4 עד 5 עבור TPM, עכשיו זה צריך לקרוא "$offsite שלי = 5".
  3. עבור אל הספריה שבה נמצאים קבצי הפלט של RSEM .genes.results והשתמש כעת במטריצת rsem-create-TPM *[genes/isoforms.results] > $OUTPUT כדי ליצור מטריצת TPM. העבר תוצאות למחשב מקומי.
  4. דמיין את התוצאות ב- ggplot2.
    1. הורד R v. 4.0.0 ו RStudio v. 1.2.1335 למחשב מקומי.
    2. פתח את RStudio משמאל למסך עבור לכרטיסיה חבילות ולחץ על התקן. הקלד ggplot2 ולחץ על התקן.
    3. בחלון ה- Script R שנקרא בטבלת ה- TPM על-ידי הקלדת נתונים<-read.table("$tpm.txt",כותרת = T)
    4. לתרשימי עמודות הדומים לאיור 4 הקלד משהו דומה ל: p<- ggplot() + geom_bar(aes(y=TPM, x=Symbol, fill=Tissue), נתונים=נתונים, stat="identity")
      למלא<-c("#d7191c", "#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
      p<-p+scale_fill_manual(ערכים=מילוי)
      p + ערכת נושא(axis.text.x = element_text(זווית = 90))

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

השיטות לעיל מסוכמות באיור 1 והוחלו על ערכת נתונים של רקמות הידרה וולגריס. H. vulgaris הוא חסר חוליות מים מתוקים השייך לפירום Cnidaria הכולל גם אלמוגים, מדוזות ושאינות ים. H. וולגריס יכול להתרבות באופן א-מיני על ידי ניצנים והם יכולים לחדש את הראש והרגל שלהם כאשר חצוי. במחקר זה, אנו שואפים לחקור את האבולוציה והביטוי של גנים opsin ב הידרה7. בעוד הידרה חסר עיניים, הם מפגינים התנהגות תלוית אור32. גנים Opsin לקודד חלבונים חשובים בראייה כדי לזהות אורכי גל שונים של אור ולהתחיל מפל phototransduction. חקירת האבולוציה המולקולרית והביטוי של משפחת גנים זו במין בסיסי יכולה לספק תובנה על התפתחות העיניים וגילוי האור בבעלי חיים.

יצרנו הרכבה מודרכת באמצעות גנום הייחוס הידרה2.0 33 ונתוני RNA-seq הזמינים לציבור (הצטרפות GEO GSE127279) איור 1. צעד זה ארך כ-3 ימים. למרות שלא ייצרנו תעתיק דה נובו במקרה זה, יצירת הרכבה של Trinity עשויה להימשך עד שבוע וכל ספריה עשויה להימשך מספר שעות לקריאת מיפוי בהתאם לממפה. ההרכבה הממוזגת של הידרה (כ-50,000 תעתיקים) קיבלה ביאורים באמצעות Blast2GO שארך כשבוע באיור 1. רצפים של גנים הקשורים לאופסין חולצו לקובץ fasta. רצפים של גנים opsin ממינים אחרים הוצאו גם מ NCBI GenBank. השתמשנו באופסינים של סנידריאנים Podocoryna carnea, רדיואטום קלדונמה, טרידליה ציסטופורה ונמטוסטלה וקטנסיס,וכללנו גם קבוצות מומיופסיס לידיי, טריכופלקס אדהארנס, דרוזופילה מלנוגאסטר והומו ספיינס. הגנים של Opsin היו מיושרים במגה-7 איור 2. על ידי צפייה ביישור, הצלחנו לזהות אופסינים הידרה שהיו חסרים חומצת אמינו ליצין שמורה הדרושה כדי לקשור מולקולה רגישה לאור. לאחר בדיקה ויזואלית, קבענו את המודל הטוב ביותר על ידי ביצוע ניתוח בחירת מודל. יצרנו עץ בעל סבירות גבוהה באמצעות הדגם LG + G + F עם ערך bootstrap של 100 איור 3. עבור 149 גנים opsin, העץ היה גמור בערך 3 ימים. הפילוגניה מרמזת על כך שגנים של אופסין מתפתחים על ידי כפילויות ספציפיות לשושלת אצל cnidarians ופוטנציאל על ידי כפילויות טנדם ב H. vulgaris7.

ביצענו ניתוח ביטוי דיפרנציאלי ב- edgeR והסתכלנו על ביטוי מוחלט של גנים opsin. שיערנו שאופסינים אחד או יותר יועלו לראש (היפוסטום) ויבצעו השוואות זוגיות של היפותזה לעומת עמוד הגוף, אזור ניצנים, כף הרגל והזרועות. כדוגמה להשוואה זוגית, 1,774 תעתיקים באו לידי ביטוי באופן דיפרנציאלי בין ההיפוסטום לעמודת הגוף. קבענו את הגנים שהיו upregulated על פני השוואות מרובות ועשינו העשרה תפקודית Blast2GO טבלה 1. קיבוץ של פעילות קולטן מצמד חלבון G כללה גנים opsin. לבסוף, הסתכלנו על הביטוי המוחלט של גנים opsin ברקמות שונות, במהלך ניצנים ובמהלך התחדשות על ידי התוויית ערכי TPM שלהם באמצעות ggplot איור 4. באמצעות השיטות המתוארות כאן, זיהינו 2 גנים opsin שלא לקבץ עם opsins אחרים בפילוגנית, מצאנו אופסין אחד שהתבטא כמעט 200 פעמים יותר מאחרים, ומצאנו כמה גנים opsin לידי ביטוי עם גנים phototransduction שעשוי לשמש לגילוי אור.

Figure 1
איור 1: סכמטי של זרימת עבודה. תוכניות המשמשות לניתוח נתונים באשכול המחשבים הן בכחול, במגנטה הן אלה שהשתמשנו בהן במחשב מקומי וכתום היא תוכנית מבוססת אינטרנט. (1) חיתוך RNA-seq קורא באמצעות טרימומטי v. 0.35. אם גנום זמין אך חסרים מודלים של גנים, צור הרכבה מודרכת באמצעות STAR v. 2.6.0c ו- StringTie v. 1.3.4d. (אופציונלי ראה חומרים משלימים) (2) ללא גנום ייחוס, השתמש בקריאות חתוכות כדי לבצע הרכבה דה נובו באמצעות טריניטי v 2.8.5. (3) כדי לכמת ביטוי גנים באמצעות גנום הפניה, המפה קוראת באמצעות STAR ולכמת באמצעות RSEM v. 1.3.1. חלץ TPMs באמצעות RSEM והצג אותם ב- RStudio. (4) ניתן להשתמש ב-Bowtie ו-RSEM כדי למפות ולכמת קריאות הממופות לתעתיק של השילוש הקדוש. ניתן להשתמש בקובץ Script של Trinity כדי ליצור מטריצת TPM כדי להמחיש ספירות ב- RStudio. (5) השתמש ב- NCBI BLAST מבוסס אינטרנט ובשורת הפקודה BLAST+ כדי לחפש רצפים הומולוגיים ולאשר באמצעות פיצוץ הדדי. להוסיף ביאורים לגנים באמצעות Blast2GO. השתמש ב- MEGA כדי ליישר גנים וליצור עץ פילוגנטי באמצעות מודל ההתאמה הטוב ביותר. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 2
איור 2: דוגמה לגנים מיושרים. תצלום בזק מראה חלק של גנים הידרה opsin מיושר באמצעות MUSCLE. החץ מציין את המיקום של ליצין שמור באיגוד רשתית. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 3
איור 3: עץ אופסין פילוגנטי קניודריאני. עץ הסבירות המרבית שנוצר ב MEGA7 באמצעות רצפי אופסין מן הידרה וולגריס, Podocoryna carnea, רדיואטום Cladonema, טריפליה ציסטופורה, נמטוסטלה vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, דרוזופילה מלנוגאסטר והומו ספיינס. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 4
איור 4: ביטוי של גנים Opsin בהידרה וולגריס(א) ביטוי בתעתיקים למיליון (TPM) של גנים הידרה וולגריס opsin בעמודת הגוף, אזור ניצנים, רגל, היפוסטום זרועות. (ב) ביטוי של גנים opsin בשלבים שונים של ניצני הידרה. (ג) ביטוי של גנים opsin של ההיפוסטום הידרה במהלך נקודות זמן שונות של התחדשות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

מזהה מעבר עבור לשם עבור לקטגוריה רוזוולט (FDR)
עבור:0004930 פעילות קולטן מצמד חלבון G פונקציה מולקולרית 0.0000000000704
עבור:0007186 G-חלבון מצמד קולטן איתות מסלול תהליך ביולוגי 0.00000000103
עבור:0016055 מסלול איתות Wnt תהליך ביולוגי 0.0000358
עבור:0051260 הומוליגומריזציה של חלבונים תהליך ביולוגי 0.000376
עבור:0004222 פעילות מטאלונדופפטידאז פונקציה מולקולרית 0.000467
עבור:0008076 קומפלקס ערוץ אשלגן מגודר מתח רכיב סלולרי 0.000642
עבור:0005249 פעילות ערוץ אשלגן מגודר מתח פונקציה מולקולרית 0.00213495
עבור:0007275 התפתחות אורגניזם רב-תאי תהליך ביולוגי 0.00565048
עבור:0006813 הובלת יון אשלגן תהליך ביולוגי 0.01228182
עבור:0018108 זרחון פפטידיל-טירוסין תהליך ביולוגי 0.02679662

טבלה 1: העשרה תפקודית של גנים המוגדלים בהיפותוסטום

חומרים משלימים. אנא לחץ כאן כדי להוריד חומרים אלה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

מטרת פרוטוקול זה היא לספק מתווה של השלבים לאפיון משפחת גנים באמצעות נתוני RNA-seq. שיטות אלה הוכחו לעבוד עבור מגוון רחב של מינים datasets4,34,35. הצינור שהוקם כאן כבר מפושט צריך להיות קל מספיק כדי להיות מלווה טירון בביואינפורמטיקה. משמעות הפרוטוקול היא שהוא מתאר את כל השלבים והתוכניות הדרושות להשלמת ניתוח הניתן לפרסום. צעד מכריע בפרוטוקול הוא שהרכבת כראוי תעתיקים באורך מלא, זה מגיע מגנום או תעתיקים באיכות גבוהה. כדי להשיג תעתיקים נאותים, יש צורך ב-RNA ו/או דנ"א באיכות גבוהה וביאורים טובים שנדונו להלן.

להכנת ספריית RNA-seq, אנו כוללים ערכות רשימה שעבדו עבור חלקי גוף קטנים של הידרה19 ופרפרים18 (שולחן החומרים). נציין כי עבור RNA קלט נמוך השתמשנו בגישה פרוטוקול שונה36. שיטות להפקת RNA הושוו בסוגים מדגם מרובים כולל תאי שמרים17, נוירובלסטומה37,צמחים 38, זחליחרקים 16 שם כמה. אנו ממליצים לקורא לרכוש פרוטוקול שעובד עבור המינים שלהם מעניינים, אם קיימים, או לפתור בעיות באמצעות ערכות זמינות מסחרית בדרך כלל כדי להתחיל. לכימות גנים נכון, אנו ממליצים לטפל בדגימת ה- RNA עם DNase. נוכחות הדנ"א תשפיע על כימות גנים תקין. כמו כן, מומלץ להשתמש בערכת הכנה לספריית cDNA הכוללת בחירת זנב polyA לבחירה עבור mRNA בוגר. בעוד שדלדול rRNA מביא ליותר עומק קריאה, אחוז כיסוי האקסון נמוך בהרבה מכיסוי האקסון של RNA באמצעות בחירה פוליA+39. לבסוף, כאשר הדבר אפשרי עדיף להשתמש זיווג קצה תקוע40,41. בפרוטוקול שמעל פקודות מיפוי הקריאה יהיה אופן לשינוי בעת שימוש בקריאות קצה יחיד.

כפי שהוזכר לעיל חשוב להיות מסוגל לזהות גנים מעניינים וגם להבדיל בין כפילויות גנים האחרונות, שחבור חלופי, ו haplotypes ברצף. במקרים מסוימים, בעל גנום התייחסות יכול לעזור על ידי קביעת איפה גנים exons ממוקמים יחסית זה לזה. דבר אחד שיש לציין הוא שאם תעתיק מתקבל ממאגר מידע ציבורי ואינו באיכות גבוהה, ייתכן שעדיף ליצור באמצעות טריניטי42 ולשלב ספריות RNA-seq מרקמות מעניינות. כמו כן, אם לגנום ייחוס אין מודלים גנים טובים, ניתן להשתמש בספריות RNA-seq כדי ליצור GTFs חדשים באמצעות StringTie43 (ראה חומרים משלימים). בנוסף, במקרים שבהם הגנים אינם שלמים ויש גישה לגנום, ניתן לערוך גנים באופן ידני באמצעות רצפי הומולוגיה ואז ליישר את הגנום באמצעות tblastn. ניתן להשתמש בפלט BLAST כדי לקבוע את הרצף הממשי, שעשוי להיות שונה מהתיקון שנעשה באמצעות הומולוגים. אם אין התאמה, השאר את הרצף כפי שהיה במקור. בעת בדיקת התפוקה לשים לב קואורדינטות הגנום כדי לוודא האקסון החסר הוא אכן חלק מהגן.

למרות שאנו מתמקדים בתוכנות ובתוכניות בהן השתמשנו, שינויים בפרוטוקול זה קיימים עקב תוכניות רבות הזמינות שעשויות לפעול טוב יותר עבור ערכות נתונים שונות. לדוגמה, אנו מציגים פקודות למיפוי קורא לתעתיק באמצעות עניבת פרפר ו- RSEM, אך לטריניטי יש כעת אפשרות ליישור מהיר בהרבה כגון קליסטו44 וסלמון45. באופן דומה, אנו מתארים ביאורים באמצעות Blast2GO (עכשיו OmicsBox) אבל יש כלי ממפה אחרים שניתן למצוא בחינם ובאינטרנט. כמה שניסינו כוללים: GO FEAT46, ליקר ביצים-ממפה47,48, ו PANNZER2 מיישר מהר מאוד49. כדי להשתמש בכלי ביאור מבוססי אינטרנט אלה פשוט העלה את הפפטיד FASTA ושלח. גרסאות עצמאיות של PANNZER וממפה ליקר ביצים זמינות גם להורדה לאשכול המחשבים. שינוי נוסף הוא שהשתמשנו MEGA ו- R במחשב מקומי והשתמשנו בכלי NCBI BLAST מקוון לעשות BLASTs הדדית אולם כל התוכניות האלה ניתן להשתמש באשכול המחשב על ידי הורדת התוכניות הדרושות ומסדי נתונים. כמו כן, ניתן להשתמש במיישרים קליסטו וסלמון במחשב מקומי כל עוד למשתמש יש מספיק זיכרון RAM ואחסון. עם זאת, קבצי FASTQ ו- FASTA נוטים להיות גדולים מאוד ואנו ממליצים בחום להשתמש באשכול מחשב לנוחות ומהירות. בנוסף, בעוד אנו מספקים הוראות וקישורים להורדת תוכניות מהמפתחים שלהם רבים מהם ניתן להתקין מ bioconda: https://anaconda.org/bioconda.

בעיה נפוצה כאשר מבצעים ניתוחים ביואינפורמטיים היא סקריפטים של מעטפת שנכשלים. זה יכול להיות בגלל מגוון רחב של סיבות. אם נוצר קובץ שגיאה, יש לבדוק קובץ שגיאה זה לפני פתרון הבעיות. מספר סיבות נפוצות לשגיאה הן שגיאות הקלדה, פרמטרי מפתח חסרים ובעיות תאימות בין גירסאות תוכנה. בפרוטוקול זה, אנו כוללים פרמטרים עבור הנתונים, אך מדריכי תוכנה יכולים לספק הנחיות מפורטות יותר עבור פרמטרים בודדים. באופן כללי, עדיף להשתמש בגירסאות העדכניות ביותר של התוכנה ולהתייעץ עם המדריך המתאים לגרסה זו.

השיפורים בפרוטוקול זה כוללים ביצוע ניתוח ביטוי דיפרנציאלי רחב ותעתיק וניתוח העשרה תפקודי. אנו ממליצים edgeR50 לניתוח ביטוי דיפרנציאלי חבילה זמינה ביוליכים. לניתוח העשרה פונקציונלי, השתמשנו Blast2GO29 ו- DAVID מבוסס אינטרנט51,52. כמו כן, אנו ממליצים להמשיך לערוך את הפילוגנית על ידי חילוץה כקובץ newick ושימוש ב- iTOL53מבוסס אינטרנט . יתר על כן, בעוד פרוטוקול זה יחקור את האבולוציה המולקולרית ואת דפוסי הביטוי של גנים, ניסויים נוספים יכולים לשמש כדי לאמת גנים או חלבון מיקומים ותפקודים. ביטוי mRNA יכול להיות מאושר על ידי RT-qPCR או בהכלאה situ. חלבונים יכולים להיות מקומיים באמצעות אימונוהיסטוכימיה. בהתאם למין, ניסויי נוקאאוט יכולים לשמש לאישור תפקוד הגנים. פרוטוקול זה יכול לשמש עבור מגוון רחב של מטרות כולל, כפי שמוצג לעיל, כדי לחקור משפחת גנים הקשורים בדרך כלל עם photoreception במין בסיסי7. יישום נוסף של שיטות אלה הוא לזהות שינויים במסלול שמור תחת לחצים סלקטיביים שונים. כדוגמה, שיטות אלה שימשו כדי לגלות וריאציה בביטוי של תעלות פוטנציאליות קולטן חולף חזון בין פרפרים diurnal עש לילי34.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

למחברים אין מה לחשוף.

Acknowledgments

אנו מודים לאדריאנה בריסקו, גיל סמית', רבי מוראד ואלין ג' ריינג'ל על ייעוץ והדרכה בשילוב חלק מהשלבים הללו בזרימת העבודה שלנו. אנו מודים גם לקתרין ויליאמס, אליזבת רבואה ונטשה פיצ'יאני על הערות על כתב היד. עבודה זו נתמכה בחלקה על ידי קרן ג'ורג' א. יואיט למלגת מחקר רפואי ל- A.M.M.

Materials

Name Company Catalog Number Comments
Bioanalyzer-DNA kit Agilent 5067-4626 wet lab materials
Bioanalyzer-RNA kit Agilent 5067-1513 wet lab materials
BLAST+ v. 2.8.1 On computer cluster*
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC) On local computer
https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0 On computer cluster
Bowtie v. 1.0.0 On computer cluster
https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended) NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1 On computer cluster
edgeR v. 3.26.8 (in R) In Rstudio
https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0 On computer cluster
Java v. 11.0.2 On computer cluster
MEGA7 (on your PC) On local computer
https://www.megasoftware.net
MEGAX v. 0.1 On local computer
https://www.megasoftware.net
NucleoSpin RNA II kit Macherey-Nagel 740955.5 wet lab materials
perl 5.30.3 On computer cluster
python On computer cluster
Qubit 2.0 Fluorometer ThermoFisher Q32866 wet lab materials
R v.4.0.0 On computer cluster
https://cran.r-project.org/src/base/R-4/
RNAlater ThermoFisher AM7021 wet lab materials
RNeasy kit Qiagen 74104 wet lab materials
RSEM v. 1.3.0 Computer software
https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335 On local computer
https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3 Computer software
SRA Toolkit v. 2.8.1 On computer cluster
https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c On computer cluster
https://github.com/alexdobin/STAR
StringTie v. 1.3.4d On computer cluster
https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0 On computer cluster
https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35 On computer cluster
http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5 On computer cluster
https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol ThermoFisher 15596018 wet lab materials
TruSeq RNA Library Prep Kit v2 Illumina RS-122-2001 wet lab materials
TURBO DNA-free Kit ThermoFisher AM1907 wet lab materials
*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

DOWNLOAD MATERIALS LIST

References

  1. Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
  2. Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
  3. Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
  4. Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
  5. Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
  6. Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
  7. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
  8. Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
  9. Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
  10. Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
  11. Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
  12. Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
  13. Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
  14. Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
  15. Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
  16. Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
  17. Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
  18. Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
  19. Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
  20. Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Trinity. RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
  23. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
  26. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  27. Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
  28. Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  29. Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
  30. Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
  31. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
  32. Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
  33. Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
  34. Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
  35. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
  36. Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
  37. Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
  38. Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
  39. Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
  40. Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
  41. Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
  42. Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
  43. Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
  44. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
  45. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
  46. Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
  47. Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
  48. Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
  49. Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
  50. Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
  51. Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  52. Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  53. Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Tags

ביולוגיה גיליון 171 ביואינפורמטיקה הרחבות גנים BLAST תעתיק גנום מגה
צינור ביואינפורמטיקה לחקירת אבולוציה מולקולרית וביטוי גנים באמצעות RNA-seq
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Macias-Muñoz, A., Mortazavi, A. More

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter