Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

מאגרי מידע לניהול יעיל בגודל בינוני, מהירות נמוכה, מידע רב מימדים בהנדסת רקמות

Published: November 22, 2019 doi: 10.3791/60038

Summary

חוקרים רבים מייצרים מידע בגודל בינוני, מהירות נמוכה ורב-מימדי, אשר ניתן לניהול ביעילות רבה יותר במסדי נתונים ולא בגיליונות אלקטרוניים. כאן אנו מספקים סקירה רעיונית של מסדי נתונים, כולל מידע רב-מימדי, קישור טבלאות במבנים יחסיים של מסד נתונים, מיפוי צינורות נתונים למחצה אוטומטיות, ושימוש במסד הנתונים כדי להבהיר משמעות נתונים.

Abstract

המדע מסתמך על ערכות נתונים מורכבות יותר ויותר להתקדמות, אך שיטות נפוצות לניהול נתונים כגון תוכניות גיליון אלקטרוני אינן מתאימות לקנה המידה והמורכבות הגדלים של מידע זה. בעוד שמערכות ניהול מסדי נתונים מאפשרות לתקן סוגיות אלה, הן אינן משמשות בדרך כלל מחוץ לתחום העסקי והאינפורמטיקה. עם זאת, מעבדות מחקר רבות כבר יוצרות "בגודל בינוני", מהירות נמוכה, נתונים רב-ממדיים שיכולים להפיק תועלת רבה מיישום מערכות דומות. במאמר זה, אנו מספקים סקירה רעיונית המסבירה כיצד מסדי נתונים מתפקדים והיתרונות שהם מספקים ביישומי הנדסת רקמות. שימוש בחומר פיברומגנטי מאנשים עם מוטציה של lamin A/C שימש להמחשת דוגמאות בהקשר ניסיוני ספציפי. דוגמאות כוללות נתונים רב-ממדיים, המקשרים טבלאות במבנה מסד נתונים יחסי, מיפוי צינור נתונים אוטומטי למחצה כדי להמיר נתונים גולמיים לתבניות מובנות ולהסביר את התחביר הבסיסי של שאילתה. התוצאות מניתוח הנתונים שימשו ליצירת חלקות של סידורים ומשמעויות שונות הפגינו בארגון התאים בסביבות מיושרות בין השליטה החיובית של האצ-גילפורד progeria, מוכרת למינציה ידועה, וכל שאר הקבוצות הנסיוניות. בהשוואה לגיליונות אלקטרוניים, שיטות מסד הנתונים היו יעילות מאוד בזמן, פשוט להשתמש פעם להגדיר, מותר גישה מיידית של מיקומי קבצים מקוריים, והגדלת הקשיחות נתונים. בתגובה לדגש על הקשיחות הניסיונית, סביר להניח שתחומים מדעיים רבים יאמצו בסופו של דבר מאגרי מידע כפרקטיקה משותפת בשל יכולתם החזקה לארגן נתונים מורכבים ביעילות.

Introduction

בעידן שבו ההתקדמות המדעית מונעת במידה רבה על ידי הטכנולוגיה, הטיפול בכמויות גדולות של נתונים הפך להיבט אינטגרלי של מחקר בכל התחומים. הופעתה של שדות חדשים כגון ביולוגיה חישובית ו גנומיקה מדגיש עד כמה קריטי ניצול יזום של הטכנולוגיה הפכה. מגמות אלו ממשיכות להמשיך בעקבות חוק מור והתקדמות יציבה שצברה מקדמה טכנולוגית1,2. עם זאת, תוצאה אחת היא הכמויות העולות של נתונים שנוצרו, החורגים מהיכולות של שיטות ארגון שהיו קיימות בעבר. למרות שרוב המעבדות האקדמיות מספקות מספיק משאבים חישוביים לטיפול בערכות נתונים מורכבות, לקבוצות רבות אין מומחיות טכנית הנחוצה לבניית מערכות מותאמות אישית המתאימות לפיתוח צרכים3. לאחר שהכישורים לנהל ולעדכן ערכות נתונים כאלה נותרת קריטית עבור זרימת עבודה ופלט יעילים. גישור הפער בין הנתונים והמומחיות חשוב לטיפול יעיל, לעדכון מחדש ולניתוח ספקטרום רחב של מידע רב-תחומי.

מדרגיות היא שיקול מהותי בעת טיפול בערכות נתונים גדולות. נתונים גדולים, למשל, הוא אזור פורח של מחקר הכרוך בחשיפת תובנות חדשות מעיבוד נתונים המאופיינת בנפחים ענקיים, טרוגניות גדולים ושיעורי הדור הגבוה, כגון שמע ווידאו4,5. שימוש בשיטות אוטומטיות של ארגון וניתוח הוא חובה עבור שדה זה כדי לטפל כראוי בפריטי ים של נתונים. מונחים טכניים רבים בהם נעשה שימוש בנתונים גדולים אינם מוגדרים בבירור, אך עשויים להיות מבלבלים; למשל, נתוני "מהירות גבוהה" משויכים לעתים קרובות למיליוני ערכים חדשים ביום, ואילו נתוני "מהירות נמוכה" עשויים להיות רק מאות ערכים ביום, כגון במסגרת מעבדה אקדמית. אמנם יש ממצאים מרגשים רבים עדיין להתגלות באמצעות נתונים גדולים, רוב המעבדות האקדמיות אינן דורשות את היקף, כוח, ומורכבות של שיטות כאלה לטיפול שאלות מדעיות שלהם5. למרות שאין ספק שהנתונים המדעיים מורכבים יותר ויותר עם זמן6, מדענים רבים ממשיכים להשתמש בשיטות של ארגון שכבר אינן עונות על צורכי הנתונים המתרחבים שלהם. לדוגמה, תוכניות גיליון אלקטרוני נוחות משמשות לעתים קרובות לארגון נתונים מדעיים, אך בעלות של חוסר מדרגי, שגיאה ומועדים לא יעילים בטווח הארוך7,8. לעומת זאת, מסדי נתונים הם פתרון אפקטיבי לבעיה כאשר הם מדרגיים, זולים יחסית וקלים לשימוש בטיפול בערכות נתונים מגוונות של פרויקטים שוטפים.

חששות מיידיים העולות כאשר שוקלים סכימות של ארגון נתונים הם עלות, נגישות והשקעה בזמן להדרכה ושימוש. בשימוש תכוף בהגדרות עסקיות, תוכניות מסדי נתונים כלכליים יותר, הן זולות או חופשיות יחסית, מאשר המימון הנדרש לתמיכה בשימוש במערכות נתונים גדולות. למעשה, מגוון של תוכנות מסחריות זמינות וקוד פתוח קיימות ליצירה ולתחזוקה של מסדי נתונים, כגון Oracle Database, MySQL ו-Microsoft (MS) Access9. חוקרים רבים גם יהיה לעודד ללמוד כי כמה חבילות אקדמיות MS Office לבוא עם MS Access כללה, עוד למזער שיקולים עלות. יתר על כן, כמעט כל המפתחים לספק תיעוד נרחב באופן מקוון ויש שפע של משאבים מקוונים חינם כגון Codecademy, W3Schools, ו SQLBolt ורג כדי לעזור לחוקרים להבין ולנצל שפת שאילתות מובנית (SQL)10,11,12. כמו כל שפת תכנות, ללמוד כיצד להשתמש במסדי נתונים וקוד באמצעות SQL לוקח זמן להתמחות, אבל עם משאבים מספיק זמין התהליך הוא פשוט ושווה את המאמץ השקיע.

מסדי נתונים יכולים להיות כלים רבי-עוצמה להגברת נגישות הנתונים ולנוחות הצבירה, אך חשוב להבחין אילו נתונים ייהנו ביותר משליטה גדולה יותר בארגון. ריבוי ממדי מתייחס למספר התנאים שניתן לקבץ מידה כנגד, ומסדי נתונים חזקים ביותר בעת ניהול מצבים רבים ושונים13. לעומת זאת, מידע עם ממדי ממדי נמוך הוא הפשוט ביותר לטפל באמצעות תוכנית גיליון אלקטרוני; לדוגמה, ערכת נתונים המכילה שנים וערך עבור כל שנה כוללת רק קיבוץ אפשרי אחד (מדידות נגד שנים). נתונים מימדים גבוהים כגון מתוך הגדרות קליניות ידרוש מידה גדולה של ארגון ידני כדי לשמור ביעילות, תהליך מייגע ונוטה לשגיאות מעבר להיקף של תוכניות הגיליון13. מסדי נתונים שאינם יחסיים (NoSQL) ממלאים גם מגוון תפקידים, בעיקר ביישומים שבהם הנתונים אינם מאורגנים היטב לשורות ולעמודות14. בנוסף להיותו קוד פתוח לעתים קרובות, סכימות ארגוניות אלה כוללות שיוכים גרפיים, נתוני סדרות זמן או נתונים מבוססי מסמך. NoSQL מצטיין במדרגיות טובה יותר מ-SQL, אך אינו יכול ליצור שאילתות מורכבות, כך שמסדי נתונים יחסיים טובים יותר במצבים המחייבים עקביות, סטנדרטיזציה ושינויי נתונים נדירים בקנה מידה גדול15. מסדי נתונים הם הטובים ביותר לקיבוץ ביעילות ולעדכון מחדש של נתונים למערך הגדול של התצורות הדרושות לעתים קרובות בהגדרות מדעיות13,16.

הכוונה העיקרית של עבודה זו, לכן, היא ליידע את הקהילה המדעית על הפוטנציאל של מסדי נתונים כמערכות ניהול מידע מדרגי עבור "בגודל בינוני", נתוני מהירות נמוכה, כמו גם לספק תבנית כללית באמצעות דוגמאות ספציפיות של המטופל ניסויים בשורת התאים. יישומים דומים אחרים כוללים נתונים גאו-מרחביים של מיטות נהר, שאלונים ממחקרים קליניים לאורך, ומצבי גדילה מחיידקים בצמיחה מדיה17,18,19. עבודה זו מדגיש שיקולים נפוצים עבור ושירות של בניית מסד נתונים בשילוב עם צינור הנתונים הדרוש כדי להמיר נתונים גולמיים לפורמטים מובנים. היסודות של ממשקי מסד נתונים וקידוד עבור מסדי נתונים ב-SQL מסופקים ומומחשים עם דוגמאות כדי לאפשר לאחרים להשיג את הידע הרלוונטי לבניית מסגרות בסיסיות. לבסוף, ערכת נתונים ניסיונית לדוגמה ממחישה כיצד בקלות וביעילות מסדי נתונים יכולים להיות מיועדים לצבור נתונים מגוונים במגוון דרכים. מידע זה מספק הקשר, פרשנות ותבניות לסיוע למדענים עמיתים בדרך ליישום מסדי נתונים לצרכים הניסיוניים שלהם.

לצורך יצירת מסד נתונים מדרגי בהגדרת מעבדה מחקר, נתונים מניסויים שימוש בתאי פיברובסט של האדם נאסף בשלוש השנים האחרונות. המוקד העיקרי של פרוטוקול זה הוא לדווח על ארגון תוכנות המחשב כדי לאפשר למשתמש לצבור, לעדכן ולנהל נתונים באופן החסכוני ביותר ובזמן האפשרי, אך השיטות הנסיוניות הרלוונטיות מסופקות גם עבור הקשר.

התקנה ניסויית
הפרוטוקול הניסיוני להכנת דגימות כבר תואר בעבר20,21, והוא מוצג בקצרה כאן. בנייה הוכנו על ידי ציפוי מלבני זכוכית מלבנית שמיכות עם תערובת 10:1 של polydiמתיל siloxane (pdms) וריפוי סוכן, ולאחר מכן החלת 0.05 mg/mL fibronectin, ב מאורגנת (isotropic) או 20 יקרומטר קווים עם 5 יקרומטר הפער מיקרותבנית מיקרו הסדרים (קווים). תאים פיברולסט הופרה במעבר 7 (או מעבר 16 עבור בקרות חיוביות) על שמיכות בצפיפויות האופטימלי ושמאלה כדי לגדול עבור 48 h עם מדיה שונה לאחר 24 שעות. התאים תוקנו לאחר מכן באמצעות 4% פאראפורמלדהיד (כדור בכורה) ו-0.0005% nonionic חומרים, ואחריו כיסוי להיות חיסוני תאים גרעיני (4 ', 6 '-diaminodino-2-פניינילינדול [dapi]), אקטין (אלקסה fluor 488 phalloidin), ו fibronectin (הארנב polycloncal נגד האדם fibronectin). כתם משני עבור fibronectin באמצעות עז נגד ארנב IgG נוגדנים (אלקסה Fluor 750 עז נגד ארנבת) הוחל ושימור סוכן הותקן על כל הכיסויים כדי למנוע פלורסנט נמוגה. לק מסמר שימש כדי לאטום שמיכות על שקופיות מיקרוסקופ ואז עזב להתייבש עבור 24 שעות.

תמונות פלואורסצנטית הושגו כמתואר בעבר20 באמצעות שומן 40x היעד טבילה בשילוב עם חיוב דיגיטלי מצמידים המכשיר (CCD) מצלמה רכוב על מיקרוסקופ ממונע הפוך. עשרה שדות שנבחרו באקראי לתצוגה היו תמונות עבור כל coverslip בהגדלה 40x, המתאים לרזולוציה 6.22 פיקסלים/μm. קודים כתובים מותאמים אישית שימשו לכמת משתנים שונים מן התמונות המתארות את הגרעין, הסיבים אקטין, ו fibronectin; ערכים תואמים, כמו גם פרמטרים של ארגון וגיאומטריה, נשמרו באופן אוטומטי בקבצי נתונים.

קווי תאים
ניתן למצוא מסמכים מקיפים יותר על כל הנתונים לדוגמה של שורות התא בפרסומים קודמים20. כדי לתאר בקצרה, איסוף הנתונים אושר ומידע הסכמה בוצעה בהתאם ללוח הסקירה המוסדי של אוניברסיטת קליפורניה (IRB 2014-1253). התאים האנושיים בתאי הפיצוץ נאספו משלוש משפחות של וריאציות שונות של lamin A/C (lmna) גן מוטציה: Heterozygous lmna אחונה -מוטציה באתר (כ. 357-2a > G)22 (משפחה A); Lmna שטויות מוטציה (c. 736 c > T, pQ246X) ב אקסון 423 (משפחה ב'); ו- lmna missense מוטציה (c. 1003c > T, pR335W) ב אקסון 624 (משפחה c). תאים פיברולסט נאספו גם מאנשים אחרים בכל משפחה כמו בקרות מוטציה שלילית הקשורים, המכונה "פקדים", ואחרים נרכשו כמו בקרות מוטציה שלילית שאינם קשורים, המכונה "תורמים". בתור שליטה חיובית, תאים פיברובלסט מאדם עם האצ-gliford פרוגריה (hgps) נרכשו וגדלו מתוך ביופסיה של העור נלקח מחולה בת 8 בת עם hgps בעל מוטציה G608G point lmna 25. בסך הכל, פיברוהפיצוצים מ -22 אנשים נבדקו ושימשו נתונים בעבודה זו.

סוגי נתונים
מידע פיברובלסט נפל לאחת משתי קטגוריות: משתני גרעין סלולאריים (כלומר, אחוז הגרעינים המבוריים, שטח הגרעינים, אקסצנטריות הגרעינים)20 או משתנים מבניים הנובעים מפרמטר הסדר הoriקטיבי (לדוגמה)21,26,27 (כלומר, אקטין-הופ, פילברון-הופ). פרמטר זה שווה לערך המרבי המירבי של סדר המשמעות של טנסור של כל וקטורי הכיוון, והוא מוגדר בפירוט בפרסומים הקודמים26,28. ערכים אלה מצטברים למגוון של קונמציות אפשריות, כגון ערכים נגד גיל, מין, מצב מחלה, נוכחות של תסמינים מסוימים, וכו '. דוגמאות לאופן השימוש במשתנים אלה ניתן למצוא בסעיף התוצאות.

קודים לדוגמה וקבצים
ניתן להוריד את הקודים לדוגמה וקבצים אחרים המבוססים על הנתונים לעיל, והשמות והסוגים שלהם מסוכמים בטבלה 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הערה: ראה טבלת חומרים עבור גירסאות התוכנה המשמשות בפרוטוקול זה.

1. הערך אם הנתונים ירוויחו מסכימת ארגון של מסד הנתונים

  1. הורד את קודי הדוגמה ומסדי הנתונים (ראה משלים קבצי קידוד, המסוכמים בטבלה 1).
  2. השתמש באיור 1 כדי להעריך אם ערכת העניין של הנתונים היא "רב-ממדית".
    הערה: איור 1 הוא ייצוג גרפי של מסד נתונים רב-מימדי המסופק עבור ערכת הנתונים לדוגמה.
  3. אם ניתן לדמיין את הנתונים בטופס "רב-מימדי" כמו בדוגמה, ואם היכולת לקשר תוצאה ניסיונית ספציפית לכל הממדים (כלומר, תנאים) תאפשר תובנה מדעית גדולה יותר בנתונים הזמינים, המשך אל בניית מסד נתונים יחסי.

2. ארגון מבנה מסד הנתונים

הערה: מסדי נתונים יחסיים מאחסנים מידע בצורת טבלאות. טבלאות מאורגנות בסכימה של שורות ועמודות, בדומה לגיליונות אלקטרוניים, וניתן להשתמש בהן לקישור מידע מזהה בתוך מסד הנתונים.

  1. ארגן את קבצי הנתונים, לכן הם חשבו היטב על שמות ייחודיים. תרגול טוב עם מוסכמות של מתן שמות לקבצים ומבנים של תיקיות מתיקייה, כאשר מתבצעת היטב, מאפשרים מדרגיות רחבה של מסד נתונים מבלי להתפשר על הקריאות של גישה לקבצים באופן ידני. הוסף קבצי תאריך בתבנית עקבית, כגון "20XX-YY-ZZ" ותיקיות משנה של שמות בהתאם למטא-נתונים היא דוגמה אחת.
  2. כאשר מבנה בסיס הנתונים מעוצב, צייר קשרי גומלין בין השדות בטבלאות שונות. לכן, רב-ממדי מטופל על-ידי התייחסות לתחומים שונים (כלומר, עמודות בטבלאות) בטבלאות בודדות זה לזה.
  3. צור תיעוד readme המתאר את מסד הנתונים וקשרי הגומלין שנוצרו בשלב 2.2. לאחר שרשומה בין טבלאות שונות מקושרת, כל המידע המשויך קשור לערך זה וניתן להשתמש בו כדי להתקשר לשאילתות מורכבות כדי לסנן את המידע הרצוי.
    הערה: מסמכי Readme הם פתרון משותף למתן מידע משלים ומידע מבני מסדי נתונים אודות פרוייקט מבלי להוסיף נתונים לא אחידים למבנה.
  4. בעקבות שלבים 2.1-2.3, הפוך את התוצאה הסופית בדומה לדוגמה שאליה מאפיינים שונים של אנשים (איור 2א) קשורים לנתונים ניסיוניים משויכים של אותם אנשים (איור 2ב). הדבר נעשה באמצעות התייחסות לעמודות של סוגי תבניות (איור 2ג) וסוגי נתונים (איור 2ד) לערכים תואמים בטבלת ערכי הנתונים העיקריים כדי להסביר את הסימונים המקוצר השונים (איור 2ב).
  5. קבע את כל נקודות הנתונים החיוניות והשימושיות ביותר שצריכות להיות מוקלטות עבור איסוף נתונים ארוכי טווח.
    הערה: יתרון מרכזי בשימוש במסדי נתונים על-פני תוכניות גיליון אלקטרוני, כפי שהוזכר קודם לכן, הוא מדרגיות: ניתן להוסיף באופן מיידי נקודות נתונים נוספות בכל שלב וחישובים, כגון ממוצעים, מעודכנים באופן מידי לשיקוף נקודות נתונים חדשות שנוספו.
    1. זהה את המידע הדרוש ליצירת נקודות נתונים שונות לפני תחילת ההתחלה. השאר נתונים גולמיים ללא שינוי, במקום לשנות או לשמור עליו, כך שבדיקה חוזרת אפשרית ונגישה.
      הערה: לדוגמה הנתונה (איור 2), המילה "מציין" המתאימה לאדם, "סוג תבנית", "coverslip", ו-"סוג משתנה" היו כל השדות החיוניים לייחוד של הערך המשויך.
    2. במידת הצורך, הוסף מידע שימושי ושאינו חיוני, כגון "סה כ כיסוי" כדי לציין את מספר החזרות שנערכו ולקבוע אם נקודות הנתונים חסרות בדוגמה זו.

3. הגדר וארגן את הצינור

  1. זהה את כל הנסיונות השונים ושיטות ניתוח הנתונים שעשויים להוביל לאיסוף נתונים יחד עם נוהלי אחסון הנתונים הרגילים עבור כל סוג נתונים. עבוד עם תוכנת בקרה של גירסת קוד פתוח כגון GitHub כדי להבטיח עקביות ובקרת גירסה הדרושים תוך מזעור נטל המשתמש.
  2. במידת האפשר, צור פרוצדורה למתן שמות ואחסון עקביים של נתונים כדי לאפשר קו צינור אוטומטי.
    הערה: בדוגמה, התפוקות כולן נקראו בעקביות, ובכך יצרו צינור נתונים שחיפש תכונות ספציפיות היה פשוט לאחר שהקבצים נבחרו. אם שמות עקביים אינם אפשריים, יהיה צורך לאכלס את הטבלאות במסד הנתונים באופן ידני, דבר שאינו מומלץ.
  3. השתמש בכל שפת תיכנות נוחה כדי ליצור ערכי נתונים חדשים עבור מסד הנתונים.
    1. צור טבלאות "עוזרים" קטנות (קבצים #8-#10 בטבלה 1) בקבצים נפרדים שיכולים להנחות בחירה אוטומטית של נתונים. קבצים אלה משמשים כתבנית של אפשרויות עבור הצינור לפעול תחת קל לערוך.
    2. כדי ליצור ערכי נתונים חדשים עבור צינור הנתונים (איור 3D), תכנת את הקוד (הנמצא במצב מצביע. m, הקובץ #1 בטבלה 1) כדי להשתמש בטבלאות המסייע כתשומות שייבחרו על-ידי המשתמש (קבצים #8-#10 בטבלה 1).
    3. מכאן, להרכיב גיליון אלקטרוני חדש של מיקומי קבצים על ידי שילוב הערכים החדשים עם הערכים הקודמים (איור 3E). צור קוד להפיכת שלב זה לאוטומטי כמוצג בתוך מוקדי העניין. m (קובץ #2 בטבלה 1).
    4. לאחר מכן, בדוק את הגיליון האלקטרוני הממוזג עבור כפילויות, שאותן יש להסיר באופן אוטומטי. צור קוד להפיכת שלב זה לאוטומטי כמוצג ב-LocationPointer_Remove_Duplicates. m (קובץ #3 בטבלה 1).
    5. בנוסף, בדוק את הגיליון האלקטרוני לאיתור שגיאות, והודע למשתמש באשר לסיבה ולמיקום שלהם (איור 3F). צור קוד להפיכת שלב זה לאוטומטי כמוצג ב-BadPointerCheck. m (קובץ #4 בטבלה 1). לחלופין, כתוב קוד שיבדוק את מסד הנתונים שעבר קומפילציה ויזהה כפילויות בשלב אחד כפי שמוצג ב-LocationPointer_Check. m (קובץ #5 בטבלה 1).
    6. צור קוד כדי לאפשר למשתמש להסיר באופן ידני נקודות שגויות מבלי לאבד את תקינות מסד הנתונים כפי שמוצג ב-Manual_Pointer_Removal. m (קובץ #6 בטבלה 1).
    7. לאחר מכן השתמש במיקומי הקבצים כדי ליצור גיליון אלקטרוני של ערך נתונים (איור 3G, קובץ #12 בטבלה 1) וכן ליצור רשימה מעודכנת ביותר של ערכים שניתן לגשת אליהם לזיהוי מיקומי קבצים או למיזוג עם ערכים עתידיים (איור 3H). צור קוד להפיכת שלב זה לאוטומטי כמוצג ב-Database_Generate. m (קובץ #7 בטבלה 1).
  4. כפול לבדוק כי צינור מוסיף הקשיחות ניסיוני על ידי בדיקה להכללה של מוסכמות למתן שמות קפדנית, אוטומטי קודים הרכבה, ואוטומטי בדיקות שגיאה כמתואר בעבר.

4. יצירת מסד הנתונים והשאילתות

הערה: אם טבלאות מאחסנות מידע במסדי נתונים, שאילתות הן בקשות למסד הנתונים לקבלת מידע הנתון לקריטריונים ספציפיים. קיימות שתי שיטות ליצירת מסד הנתונים: החל ממסמך ריק או החל מהקבצים הקיימים. איור 4 מציג שאילתה לדוגמה באמצעות תחביר SQL שמתוכנן לפעול באמצעות קשרי מסד הנתונים המוצגים באיור 2.

  1. שיטה 1: החל מהתחלה ביצירת מסד הנתונים והשאילתות
    1. צור מסמך מסד נתונים ריק.
    2. טען את הטבלאות המסייעים (קבצים #8-#10 בטבלה 1) על-ידי בחירת נתונים חיצוניים | ייבוא קובץ טקסט | בחרו ' קובץ ' (קבצים #8-#10) | מופרדים | שורה ראשונה מכילה כותרות עליונות, פסיק | עזוב את ברירת המחדל | בחר מפתח ראשי משלי (מציין עבור קובץ קווי תא #8, שם משתנה עבור קובץ סוגי נתונים #9, שם פאט עבור קובץ סוג תבנית #10) | עזוב את ברירת המחדל | סיום.
    3. טען את טבלת ערכי הנתונים (קובץ #12 בטבלה 1) על-ידי בחירת נתונים חיצוניים | ייבוא קובץ טקסט | בחרו ' קובץ ' (הקובץ #12) | מופרדים | שורה ראשונה מכילה כותרות עליונות, פסיק | עזוב את ברירת המחדל | תן ל-Access להוסיף מפתח ראשי | יבא לטבלה: DataValues | סיום.
    4. צור את קשרי הגומלין על-ידי בחירת כלי מסד נתונים | קשרי גומלין | גרור את כל הטבלאות ללוח | עריכת קשרי גומלין | צור חדש | התאם את השדות DataValue עם מצייני טבלאות מסייע | משותף סוג 3.
    5. בחר צור | עיצוב שאילתה.
    6. בחר או גרור את כל הטבלאות הרלוונטיות לחלון העליון. בדוגמה זו, ' קווי תאים ', ' ערכי נתונים ', ' סוגי נתונים ' ו-' סוג תבנית '. קשרי הגומלין צריכים להיות מוגדרים באופן אוטומטי בהתבסס על עיצוב קשרי הגומלין הקודמים.
    7. מלא את עמודות השאילתה לקבלת התוצאות הרצויות, לדוגמה:
      1. לחץ על הצג | סיכומים.
      2. מלא את העמודה הראשונה (טבלה: DataValues, שדה: DataVar, סה כ: GroupBy, קריטריונים: "Act_OOP"), העמודה השניה (טבלה: DataValues, שדה: PatVar, סה כ: GroupBy, קריטריונים: "קווים") והעמודה השלישית (טבלה: Cell_Lines, שדה: מציין, סה כ: GroupBy, מיון: בסדר עולה.
      3. מלא את העמודה הרביעית (טבלה: DataValues, שדה: פרמטר, סה כ: Ave), העמודה החמישית (טבלה: DataValues, שדה: פרמטר, סה כ: StDev) והעמודה השישית (טבלה: DataValues, שדה: פרמטר, סה כ: ספירה).
    8. הפעל את השאילתה.
  2. לחלופין, השתמש במסד הנתונים לדוגמה שסופק כבסיס לדוגמאות. פתח את קובץ מסד הנתונים Database_Queries. accdb (קובץ #13 בטבלה 1) שהורד מוקדם יותר. השתמש בו כתבנית על-ידי החלפת טבלאות קיימות בנתוני הריבית.

5. העברת טבלאות הפלט לתוכנה סטטיסטית לניתוח משמעויות

  1. לדוגמה זו נתונים ניסיוניים, השתמש בניתוח חד כיוון של השונות (ANOVA) באמצעות מבחן של Tukey להשוואות משמעות בין תנאים שונים.
    הערה: הערכים של p < 0.05 נחשבו למשמעותיים מבחינה סטטיסטית.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

ריבוי ממדי של הנתונים
בהקשר של מערכת הנתונים לדוגמה המוצגת כאן, הנושאים, מתואר בסעיף שיטות, חולקו לקבוצות של אנשים מתוך שלוש המשפחות עם מחלת לב-גרימת lmna מוטציה ("חולים"), הקשורים שלילי שלילית שליליים ("שולטת"), שאינם קשורים שלילי מוטציה שלילית ("תורמים"), ואדם עם תסמונת האצ גילפורד פרוגריה (hgps)כפקד תוצאות מהפקדים ותורמים יכולים להיות מקובצים יחד כקבוצה כוללת של בקרה שלילית (N.C.), בהתחשב בהעדר הקולקטיבי שלהם של מוטציות Lmna . קו הטלפון של כל נושא היה "סטטוס מוטציה" המשויך אליו, בהתבסס על קבוצת התנאים שלהם (איור 1 – הציר הכחול הכהה). עבור כל ניסוי, תאים פיברובלסט מהנושאים היו מתורבתים על הסדרים של מאורגנת (איזוטרופי) או micropatterned דוגמת מיקרו (קווים) fibronectin, יצירת מצבו של "סוג תבנית" (איור 1 -ציר כתום). לאחר שהתאים תוקנו, מוכתם בנוגדנים ומופיעים בתמונה, "Coverslip" הייתה משוכפלת, מאחר שניסויים מרובים (כלומר, משכפל טכני) יתרחשו באמצעות התאים של אותו אדם (איור 1 – ציר ירוק בהיר). קודי MATLAB מותאמים אישית20,21 היו לאחר מכן לכמת היבטים שונים של גרעין התא או משתני ארגון רקמות כמו "סוג משתנה" (איור 1 – כחלחל ירוק הציר). שלושת הגורמים היו קשורים למקור האנושי של התאים וכתוצאה מכך מקושרת ל"משפחה" (איור 1 – ציר ורוד כהה) ו-"גיל בזמן הביופסיה" (איור 1 – ציר ירוק כהה) בנוסף ל"סטטוס מוטציה". ממדים אחרים שאינם כלולים באיור 1 היו "גיל המצגת", "הסימפטומים", "מציין" ו-"מגדר" של האדם הנדון. הדוגמה המסופקת כאן יוצרת לפחות עשרה ממדים אפשריים עבור צבירת נתונים. לפיכך, נתוני דוגמה אלה הם מועמד ראשוני לארגון על-ידי מסדי נתונים יחסיים.

Figure 1
איור 1: הדמיה של נתונים רב-ממדיים מערכת נתוני המוטציה של lmna . קוביה אחת מוגדרת על-ידי שלושת הממדים של "סוג משתנה", "סוג תבנית" ו-"Coverslip". ממדים נוספים מוצגים כצירים של "מצב מוטציה", "גיל הביופסיה" (בשנים), ו-"משפחה". תוויות צבעוניות תואמות את הצירים השונים המוצגים, כגון גיל הביופסיה (מספרים ירוקים) עבור הקוביה של כל אדם. כאן, שישה מתוך עשרת הממדים האפשריים משמשים להמחשת הריבוי של נקודות נתונים ניסיוניים. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

ארגון הצבר
עד לאומדן של 95% מכל הנתונים הדיגיטליים אינו מובנה4, אך תבניות מובנות נדרשות עבור מסדי נתונים. עדיין, יצירת שיטה אוטומטית טובה עבור צינור הנתונים היא תלוית הקשר מאוד.

Figure 2
איור 2: קשרי גומלין עם תצוגת טבלה ועיצוב בתוך ערכת נתוני המוטציה של lmna . למסדי נתונים יחסיים יש יתרון של קישור שדות בטבלה אחת עם מידע בטבלה אחרת, דבר המאפשר לחליפות מיידית של צבירה. הדוגמה כאן ממחישה באופן חזותי כיצד ניתן לקשר מידע שונה. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

בדוגמה זו, התמונות שנאספו מכל ניסוי אוחסנו בתיקיות שנקראו על-ידי תאריך והתחלתי של חבר המעבדה האחראי, עם תיקיות משנה המפרט את מספר הנושא והכיסויים. קבצי צינור ניתנים בקבצי קידוד משלימים, כמו גם מסוכמים באיור תרשים זרימה (איור 3). מדדים שונים מתנאים ניסיוניים שונים על פני מגוון של נושאים היו כמותית מתמונות פלורסנט אלה (איור 3a) באמצעות קודים מותאמים אישית (איור 3ב)20,21. לדוגמה, פרמטר הפקודה אקטין בסדר21 הופק מרקמות ויטראז ' (איור 3A) ומשמש להשוואת הארגון של הגידולים מאנשים שונים. פלטי הקוד נשמרו באותה תיקיה שבה נמצאים תמונות המקור (איור 3ג).

Figure 3
איור 3: דוגמה לצרכים משותפים של צינור הנתונים בהקשר מוכלל. ערכים חדשים נוצרו באמצעות תשומות למשתמש וקודים אוטומטיים, עיצוב מידע חשוב לתבנית גיליון אלקטרוני. ערכים אלה שולבו עם הערכה העדכנית ביותר של ערכי מיקום הקובץ, נבדק שגיאות ולאחר מכן אוחסנו כגיליון אלקטרוני של מיקומי קבצים וגיליון אלקטרוני של ערכי נתונים. סרגל קנה מידה = 20 μm. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

זיהוי מערכת יחסים רומן ב- Lmna מערכת נתונים מוטציה
כאשר ניתנה לו ריבוי של תצורות אפשריות, קשה לזהות את המקום שבו קיימים קשרים חדשניים באמצעות שיטות צבירת נתונים ידניות. בהקשר ספציפי זה, היינו מעוניינים להשוות את הארגון של הסיבים התאיים המשניים בתנאים מרובים, שנמדד באמצעות ה-, מחלקה27.

Figure 4
איור 4: שאילתה לדוגמה באמצעות תחביר SQL. משפטי SELECT ו-FROM הם דרישות להפקת שאילתה, אך פקודות וקריטריונים נוספים נכללים לעתים קרובות. קבץ על-ידי מספק הבהרה בנוגע לאופן הצבירה של הנתונים, הצהרות HAVING או WHERE מגבילות את הפלט לנתונים העונים על קריטריונים מסוימים, והפקודה ORDER BY מציינת את הסדר שבו התפוקות אמורות להיות מסודרות על-ידי. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

הכוונה היא שמבנה מתמטי מכמת את מידת הסדר בסביבות אניסוטרופי, מנורמל לאפס המתאים לרקמה איזוטרופית לחלוטין ואחד המתאים לרקמה מיושרת לחלוטין. ערכת הנתונים היתה לפצל לראשונה על ידי סוג דפוס כקווים (איור 5א) ו isotropic (איור 5B) תנאים, אשר היו צפויים להיות הרבה אופס שונים מאז fibronectin מיקרופיטין השפעות בכבדות ארגון רקמות. לא היו הבדלים משמעותיים בין התנאים בעת השוואת רקמות איזוטרופיות (איור 5ב). לעומת זאת, הרקמות היו מסודרות פחות מבחינה סטטיסטית בקו התאים החיובי (HGPS) (איור 5א), וקשר זה התקיים גם כאשר הנתונים היו מצטברים לקבוצות שונות (איור 5ג). Actin הקופ הותווה בנוסף נגד גיל של אנשים בזמן ביופסיה (איור 5ד), מופרדים על ידי מצב מוטציה ומשפחה, כדי להמחיש את הצבירה נגד משתנה קליני. בניגוד לפגמים גרעיניים20, אין מתאם בין ארגון אקטין לבין גיל של אדם (איור 5ד). בסופו של דבר, את החלקות המוצגות באיור 5 להמחיש כיצד ניתן לנתח את אותם הנתונים בצירופים שונים וכיצד בקלות משימה קשה בדרך כלל של צבירת נתונים הנופל תחת מספר מחלקות יכול להתבצע באמצעות מסדי נתונים.

עבור מאמר זה, הנתונים מתוך המטופל פיברופיצוצים ממקור הושוו בין התנאים כדי לקבוע השלכות מוטציה. אם כי הן hgps והן שלוש המשפחות במחקר זה יש lmnaמחלות מקושרות כי פוטנציאל לשבש את המעטפה הגרעינית, המטופלים מוצגים סימפטומים הקשורים בעיקר בתפקוד הלב בעוד hgps יש מערכות איברים מרובים מושפעים22,23,24. אכן, למרות התאים מיקרודוגמאות הסביבה שמקורם החולה hgps היה ערך אקטין מבחינה סטטיסטית נמוכה יותר מאשר כל קווי התא האחרים נחשב (איור 5א,ג). זה משתלב עם מטופלים HGPS להיות היחידים במחקר עם חריגות העור שנגרמו על ידי המוטציה. הצגת אותם נתונים בקונמציות שונות מסייעת גם למתן תובנות ושדרות נוספות לחקירה מדעית בערכת נתונים מגוונת (איור 5).

Figure 5
איור 5: השוואות בין תנאים עבור משתנה ה-אקטין למשתנה. (א,ב) קיבוצים תואמים את ארבעת התנאים העיקריים: שאינם קשורים שלילי תורמים שליליים, בקרת בקרה שלילית הקשורים, מוטציות מוטציה מתוך שלוש משפחות, ו-hgps שליטה חיובית. (ג) כל הפקדים השליליים (N.C.) היו משולבים וחולים הופרדו על ידי משפחה (PA, PB, PC) במקום. (ד) גרף פוטנציאלי של ה-ptin איטרופי-קופ נגד הגיל בזמן הביופסיה שנאסף עבור מחקר זה, מופרדים בתנאים ובמשפחה. חלוניות A, C ו-D מותוות לרקמות המיקרותבניות בתבנית קווים, בעוד שהחלונית B מותווית לרקמות איזוטרופיות. משמעות סטטיסטית של p < 0.05 (*) נמצא פאנלים A, C, D. לא משמעות בין כל הזוגות נמצאו בלוח B. כל קווי השגיאה מייצגים סטיות סטנדרטיות שחושבו בתוך מסד הנתונים. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

משלים קבצי קידוד. אנא לחץ כאן כדי להציג קובץ זה (לחץ לחיצה ימנית כדי להוריד).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

דיון טכני בפרוטוקול
הצעד הראשון בעת בחינת השימוש במסדי נתונים הוא להעריך אם הנתונים ירוויחו מארגון כזה.

הצעד החיוני הבא הוא ליצור קוד אוטומטי שיבקש את הקלט המינימלי מהמשתמש ויפיק את מבנה הנתונים של הטבלה. בדוגמה, המשתמש הוזן לקטגוריית סוג הנתונים (גרעיני תא או מדידות מבניות), מציין הנושא של קווי התא ומספר הקבצים שנבחרו. הקבצים הרלוונטיים נבחרו לאחר מכן על ידי המשתמש (טבלה 2, עמודה 1), כאשר ערכי השורה נוצרו באופן אוטומטי ואוכלסו עם כל המשתנים הכלולים בתוך הקובץ (טבלה 2, טור 2). יתר על כן, חשוב הקוד הוא גמיש, כך שאם עוד ערך ניסיוני צריך להתווסף, המשתמש יכול לבחור להמשיך את הלולאה; אם לא, הקבצים נשמרים והלולאה נגמרת. הפונקציות הבסיסיות של הוספת ערכים חדשים, בדיקת שגיאות והרכבת הגיליון האלקטרוני ממיקומי קבצים המתוארים בשלב זה הם קריטיים עבור הגדרת צינור נתונים יעיל.

הכרחי לציין כי שימוש במיקומי קבצים בעת יצירת צינור הנתונים מגביר את הקשיחות הניסיונית. באופן ספציפי, בעל גיליון אלקטרוני תואם המפרט את כל מיקומי הקבצים עבור ערכי הנתונים, מאפשר למשתמש לחזור על כל נקודת נתונים בחזרה למחברת המעבדה של החוקר שאסף את הנתונים הגולמיים. כאשר מתמודדים עם מאות לעשרות אלפי נקודות נתונים, שקיפות ונגישות גדולים יותר הם לא יסולא בפז במשך החיים של הפרויקט. מומלץ מאוד למשתמשים לשקול שמירת מיקומי קבצים תחילה ולאחר מכן להרכיב ערכים עבור נתונים במקום לאחסן רק את ערכי הנתונים.

לאחר יצירת מסד הנתונים, הדרך הפשוטה ביותר להתחיל היא לתכנת את השאילתות דרך תצוגת העיצוב. המשתמש ימצא שימושי להורדת התבנית שסופקה (קובץ #13 בטבלה 1) כנקודת התחלה. לחילופין, ניתן לתכנתים ישירות באמצעות שפת SQL (איור 4).

דיון מדעי
מטרת מאמר זה הייתה להפיץ שיטות הקשורות לקווי המידע ולמסד הנתונים המבואר את המדרגיות והשקיפות של ערכת הנתונים. שיטות אלה אינן משמשות באופן נרחב מחוץ לאינפורמטיקה ולעסקים, אך יש להם פוטנציאל עצום לאלו העובדים בהקשרים ביולוגיים. כאשר המדע ממשיך להסתמך על מחשבים יותר בכבדות, החשיבות של מערכות ניהול אפקטיביות עולה גם הוא6,29. מסדי נתונים משמשים לעתים קרובות עבור הרבה נפח ו/או יישומים מהירות גבוהה והם מצוטטים היטב בספרות, במיוחד לגבי השימוש שלהם עבור אוכלוסיות החולה הקליני8,30,31. כמה כבר נבנו עבור שדות ספציפיים כגון הגנום עכברוש מסד הנתונים כלים או redcap עבור מחקר קליני וטרנסלפיקציה32,33. כך, השימוש במסדי נתונים אומצה בתחום הקליני8 או מסדי נתונים גנומית גדולה32, אבל לא הפכה נפוצה בתחומים מדעיים אחרים כגון הנדסת רקמות.

הנושאים הנוגעים לטיפול בנתונים מורכבים יותר ויותר באמצעות תוכניות הגיליון האלקטרוני כבר מזמן הכירו בתוך הקהילה המדעית34. מחקר אחד דיווח כי סביב 20% של הניירות היומן גנומית עם קבצים משלימים היו שמות גנים שהומרו בטעות תאריכים35. טעויות אלה גדלו בממוצע של 15% בשנה מ 2010 אל 2015, הרחק החוצה את העלייה השנתית של מסמכי גנומיקה ב 4% בשנה. לעתים קרובות כמעט בלתי אפשרי לזהות שגיאות בודדות בנפח גדול של נתונים, כפי שתוכניות הגיליון האלקטרוני של הטבע אינן מתאימות לאימות קל של תוצאות או חישובי נוסחאות. מאמרים שפורסמו אפילו קיימים עבור חינוך מדענים על נוהלי גיליון אלקטרוני טוב יותר בניסיון להפחית את תדירות השגיאות7. אחד היתרונות החזקים ביותר של מסדי נתונים הוא הפחתת שגיאה באמצעות שיטות אוטומטיות ויכולת לאמת נתונים שעלולים להיות מפוקפקים (איור 3).

תוצאה משמעותית של מתודולוגיה זו היא הקשיחות מוגברת של ניתוח נתונים. החשיבות של הגדלת הנתונים מודגשת על ידי NIH, כמו גם על ידי מדענים ומוסדות אחרים36,37. באמצעות גיליון אלקטרוני של מיקומי קבצים המתאימים לכל מסד נתונים, קל לאתר נקודת נתונים בחזרה למחברת המעבדה של הניסוי הנדון (איור 3). נקודות נתונים בודדים יכול גם להיות מזוהה במהירות ומצאו באופן אלקטרוני באמצעות מיקומי הקבצים המתאימים, אשר הוא לא יסולא בפז לפעמים, גם כאשר ביחד עם הקרנת שגיאה אוטומטית במהלך תהליך צינור הנתונים. גם כאשר ערכת הנתונים מתוקנת לאורך זמן, השיטה הטובה ביותר כרוכה בשמירת כל הקבצים הקודמים במקרים מתרחשים או הגירסאות הישנות צריך להיבדק. עבודה ללא הגנה ושמירה על גירסאות ישנות בתוך צינור הנתונים יוצרת אבטחה באמצעות יתירות ומאפשרת פתרון בעיות טוב יותר.

קיימות אינספור מערכות ניהול מסדי נתונים יחסיים בשילוב של שפות קידוד שניתן להשתמש בהן עבור אותם צרכים של צינור נתונים. האפשרויות המתאימות ביותר הן תלויות מאוד בנתונים ובהקשר הנמצאים בשימוש; יישומים מסוימים מצטיינים ביותר במדרגיות, גמישות, אמינותוסדרי עדיפויותאחרים. למרות שמסדי נתונים עדיין סופיים בקנה מידה, להגיע למגבלות הזיכרון נותר מעבר להיקף המעבדות המדעיות ביותר. לדוגמה, במסד נתונים של MS Access יש מגבלת גודל זיכרון של 2 GB, אשר יהיה להגדיר נתונים על סדר מאות אלפים למיליוני ערכים בהתאם לנתונים ומספר השדות. רוב המעבדות לעולם לא יהיו צרכים ניסיוניים בסדר גודל זה, אבל אם הם עשו אז תוכנת הגיליון האלקטרוני יהיה הרבה מעבר למגבלות האפקטיביות שלהם בכל מקרה. בהשוואה לכך, מערכות ניהול מסדי נתונים יחסיים ברמה עסקית יכולות לטפל בערכות נתונים של גניטודות גדולות יותר בעת עיבוד מיליוני טרנזקציות בו29. חלק ממסדי הנתונים אינם משמשים בדרך כלל במעבדות מדעיות היא שניסויים בעבר מהווים לעתים נדירות מגניטודות נתונים, כך שתוכנות הגיליון האלקטרוני הקלות לשימוש הפכו לנרחבות במקום. עם זאת, השקעה משמעותית הנדרשת כדי להפוך את השיטות האלה לפונקציות, עם זאת, היא הזמן הדרוש כדי לתכנן את צינור הנתונים וללמוד SQL עבור שימוש במסדי נתונים (איור 3 ואיור 4). למרות ניסיון הקידוד מאוד ממהר את התהליך, רוב יצטרכו ללמוד SQL מאפס. שפע של תיעוד זמין באופן מקוון באמצעות תיעוד נרחב על ידי מפתחים, כמו גם לימוד SQL חינם כגון ב Codecademy, W3Schools, ו SQLBolt ורג10,11,12. כמה חלופות הדורשות מנויים קיימים, עם זאת, כמו למשל התוכנית ההוראה האתר לינדה38; עוד לקרוא על יסודות מסד הנתונים ניתן למצוא באופן מקוון. במסגרת אקדמית, לקנות מעבדה טובה ומערכות חזקות יכולות להיות מעבר ליוצרים שלהם ולסייע להקל על שנים רבות של פרויקטים על פני תלמידים מרובים. ניתן להשיג זאת באמצעות יצירת הנחיות ושלבי יישום במהלך ההתקנה. אכן, יש ערך גבוה עבור כל החוקרים שיש מתפקדת היטב מערכת נתונים צינור ומערכות מסד נתונים.

יתרונות אחרים של מתודולוגיה זו כוללים את היכולת להשתמש בשיטות אוטומטיות להמרת נתונים גולמיים לפורמטים מובנים, קלות השימוש שאוחסנו פעם בתוך מסד הנתונים, ומחדש באופן קבוע לעדכן ולצבור מחדש של ערכות נתונים (איור 3). ניתן גם למשוך מידע ממספר משתנים מקובץ נתונים בודד ולהפוך את צינור הנתונים לאוטומטי כדי לעשות זאת כשתתבקש. בהקשר המוצג, התוכנה הזמינה והחסכונית בדרך כלל שימש כדי להשיג תוצאות הפגינו כי חבילות התוכנה יקר נישה אינם חובה להשיג מסד נתונים פונקציונלי. לאור ההישג המוגבל של קרנות המחקר של רוב המעבדות, היכולת להגביר את היעילות של ניהול מסדי נתונים היא מצרך יקר ערך.

לסיכום, כמו מערכות נתונים מדעיים להיות מורכבים יותר, מסדי נתונים הופכים יותר ויותר חשוב עבור הקהילה המדעית ויש להם פוטנציאל גדול להיות שגרתי כמו ואף יעיל יותר מאשר השימוש הנוכחי בגיליון אלקטרוני הנתונים הנפוצים עבור מידע אחסון. בעיות בשקיפות הנתונים וביכולת הכפיל במדע ימשיכו להתרחב בעתיד כאשר ערכות נתונים ימשיכו לגדול בגודל ובמורכבות, ולהדגיש את החשיבות של אימוץ נרחב יותר של מסדי נתונים ושיטות הקשורות לקווי הצנרת האוטומטיים עבור צרכים מדעיים כלליים עכשיו ולעתיד.

מספר אסמכתא שם קובץ סוג
1 מצביע. קוד קו צינור
2 מוקדי מאוד התמזגות קוד קו צינור
3 LocationPointer_Remove_Duplicates מ קוד קו צינור
4 בדיקת מעיים קוד קו צינור
מיכל 5 LocationPointer_Check מ קוד קו צינור
6 Manual_Pointer_Removal מ קוד קו צינור
7 Database_Generate מ קוד קו צינור
8 Cell_Lines. csv טבלה מעוזרת
9 Data_Types. csv טבלה מעוזרת
10 Pattern_Types. csv טבלה מעוזרת
11 DataLocation_Comp_2018_6_26_10_01. csv קובץ מיקום נתונים לדוגמה
12 DataValues_2018_6_26_10_02. csv קובץ ערכי נתונים לדוגמה
13 Database_Queries accdb מאגר נתונים לדוגמה

טבלה 1: רשימת כל הקבצים לדוגמה שניתן להעלות כדי להפעיל את הפרוטוקול.

קובץ שנבחר שתנה
. לסיכום מחצלת החלק של גרעינים פגומים
כל אזור הגרעינים ממוצע (μm2)
ממוצע אזור גרעינים פגומים (μm2)
ממוצע באזור הגרעינים הרגילים (μm2)
כל ממוצע האקסצנטריות של הגרעינים
ממוצע האקסצנטריות של גרעיני פגום
ממוצע האקסצנטריות של הגרעין הרגיל
כל הגרעינים ממוצע MNC
ממוצע גרעינים פגום MNC
ממוצע הגרעינים הרגיל MNC
Act_OOP מחצלת אקטין-הופ
אקטין-מנהל זווית
Fibro_OOP מחצלת פיברוטין-הופ
פיברוטין מנהל זווית
Nuc_OOP מחצלת מיכל גרעינים
מנהל הגרעין

טבלה 2: קבצי בחירה מפורטים המתאימים למשתנים שונים של מדידות של גרעיני תאים או נתונים מבניים (מבני-מבנה).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

. למחברים אין מה לגלות

Acknowledgments

עבודה זו נתמכת על ידי הלב הלאומי, ריאות, מכון הדם במכון הלאומי לבריאות, גרנט מספר R01 HL129008. המחברים מודים במיוחד לבני משפחת המוטציות המוטציות של הגן על השתתפותם במחקר. אנו גם רוצים להודות ללינדה מקארתי על עזרתה עם תרבות התאים ושמירה על חללי המעבדה, נאסאם צ'אר על השתתפותה בדימות התא וניתוח נתונים גרעינים, ומיכאל א. גרוסברג על העצה הרלוונטית שלו עם הגדרת מסד הנתונים הראשוני של Microsoft Access, כמו גם לענות על שאלות טכניות אחרות.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

Bioengineering גיליון 153 נתונים בגודל בינוני מסדי נתונים LMNA ארגון נתונים רב-ממדיים הנדסת רקמות
מאגרי מידע לניהול יעיל בגודל בינוני, מהירות נמוכה, מידע רב מימדים בהנדסת רקמות
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter