פרוטוקול זה מיישם רשת למידה עמוקה בצורת U המשלבת קונבולוציה של גלגל סיניים, תשומת לב כפולה ומיזוג רב-קנה מידה כדי לחלק פוליפים במעי הגס.
Method Article
פרוטוקול זה מיישם רשת למידה עמוקה בצורת U המשלבת קונבולוציה של גלגל סיניים, תשומת לב כפולה ומיזוג רב-קנה מידה כדי לחלק פוליפים במעי הגס.
סגמנטציה מדויקת של פוליפים במעי הגס היא קריטית למניעה ואבחון מוקדמים של סרטן המעי הגס. עם זאת, בשל ההטרוגניות הגבוהה של פוליפים מבחינת צורה, גודל ומרקם, וכן בשל המורכבות של סביבת המעי (כגון קפלים, השתקפויות ספקולריות ושאריות צואה), שיטות קיימות עדיין מתמודדות עם אתגרים משמעותיים באיתור גבולות ובזיהוי פוליפים קטנים. כדי להתמודד עם סוגיות אלו, מאמר זה מציע רשת סגמנטציה של פוליפים המבוססת על קונבולוציה של גלגל סיניים ותשומת לב כפולה (PWD-Net). הרשת המוצעת מאמצת ארכיטקטורת מקודד-מפענח בצורת U, שבה ResNet מאומן מראש משמש כמקודד לחילוץ תכונות מקומיות רב-רמתיות. באופן ספציפי, מודול קונבולוציה של גלגל סיניים (PCM) מוצג בשכבת צוואר הבקבוק כדי ללכוד את המבנה הגאומטרי הגלובלי ואת המידע ההקשרי הרב-כיווני של פוליפים באמצעות גרעיני קונבולוציה מסובבים בזוויות מרובות. מנגנון קשב כפול (DAM) המשלב תשומת לב ערוץ ותשומת לב מרחבית נועד לדכא רעש רקע באופן אדפטיבי ולהעצים את תכונות אזור הפוליפים. בנוסף, נעשה שימוש באסטרטגיית מיזוג תכונות רב-קנה מידה (MSF) לשילוב מידע סמנטי עמוק עם פרטי גבול רדודים, תוך הבטחת שלמות ודיוק של תוצאות הסגמנטציה. ניסויים שנערכו על מערכי הנתונים Kvasir-SEG ו-CVC-ClinicDB מראים כי PWD-Net משיג ממוצע מקדמי קוביות של 0.865 ו-0.944, וציוני IoU של 0.765 ו-0.892, בהתאמה, מה שמעלה משמעותית על השיטות המתקדמות הקיימות. מחקרי אבלציה מאמתים את יעילות כל מודול, והערכות חוצות נתונים מאשרות את יכולת ההכללה החזקה של המודל. מחקר זה מספק פתרון מדויק וחזק לחלוקת פוליפים קלינית, ומציע ערך משמעותי לאבחון מוקדם של נגעים טרום-סרטניים במעי הגס ותומך בהתערבות ממוחשבת.
סרטן המעי הגס הוא אחד הגידולים הממאירים הנפוצים ביותר בעולם, עם שיעורי שכיחות ותמותה גבוהים באופן עקבי. מחקרים הראו שרוב סוגי סרטן המעי הגס מתפתחים מפוליפים אדנומטיים, תהליך שלוקח בדרך כלל 10–15 שנים, ומספק חלון זמן יקר ערך לגילוי מוקדם ולהתערבות. עלייה של 1% בשיעור גילוי האדנומה (ADR) יכולה להפחית את הסיכון לסרטן המעי הגס בכ-3%, ולהפחית משמעותית את תמותת המטופלים1. קולונוסקופיה, הנחשבת לסטנדרט הזהב לסקר סרטן המעי הגס, מאפשרת הסרה ישירה של פוליפים במהלך הבדיקה, ובכך מפחיתה ביעילות את שכיחות הסרטן והתמותה.
עם זאת, קולונוסקופיה קונבנציונלית תלויה מאוד בניסיון ובמיומנות של האנדוסקופיסטים. גורמים כמו שיפוט סובייקטיבי, עייפות ויזואלית והסחת דעת עלולים להוביל לשיעור החטאות של 20%–30%, מה שמשפיע ישירות על יעילות הסקר2. לכן, פיתוח מערכות זיהוי בעזרת מחשב (CAD) לסגמנטציה אוטומטית של פוליפים במעי הגס חשוב מאוד לשיפור ADR ולהפחתת אבחנות שלא נענו. סקרים קליניים עדכניים הדגישו עוד יותר את העניין בשילוב בינה מלאכותית בתהליכי הערכת נגעים אנדוסקופיים, ומחזקים את הצורך בשיטות סגמנטציה חזקות וניתנות לשחזור3.
בשנים האחרונות, למידה עמוקה השיגה התקדמות מרשימה בניתוח תמונות רפואיות, במיוחד ברשתות עצביות קונבולוציוניות (CNNs), המדגימות יכולת חזקה בחילוץ וייצוג תכונות למשימות סגמנטציהשל תמונה 4. כמודל סגמנטציה רפואי קלאסי, U-Net משתמש בארכיטקטורת מקודד-מפענח סימטרית ומדלג על חיבורים להשגת סגמנטציה מדויקת ברמת הפיקסלים, והופך לאבן דרך בתחוםזה. בהתבסס על U-Net, הוצעו ארכיטקטורות משופרות רבות כדי להתמודד עם משימות מורכבות של חלוקת תמונות רפואיות. UNet++ מצמצם את הפער הסמנטי בין מפות תכונות של המקודד למפענח על ידי הכנסת חישורים מקוננים ודילוג צפוף6. ResUNet++ משלבת בלוקים שאריתיים, מודולי סחיטה וגירור, קונבולוציות מורחבות ומנגנוני קשב, ומשיגה ביצועים חזקים בחלוקת פוליפים7. U2-Net מאמץ מבנה מקונן בצורת U דו-רמות כדי ללכוד מידע תכונות רב-קנה מידה8. בשנים האחרונות הוצע רשת חלוקה עמוקה מבוססת מקודד כפול, המנצלת מסלולי קידוד ופענוח מקבילים לשיפור דיוק הסגמנטציה9.
בינתיים, הכנסת מנגנוני קשב מספקת פתרונות חדשים לשיפור תכונות ודיכוי רעשים. Attention U-Net משתמש בשערי קשב כדי להתמקד באזורים יעדיים תוך דיכוי מידע רקע לא רלוונטי10. רשת הקשב הכפולה (DANet) משקלת באופן אדפטיבי תכונות הן מערוץ והן מממד מרחבי11, ומשפרת את תפיסת התכונות הקריטיות. רשתות Triple Attention (TANet) משפרות עוד יותר את ביצועי הסגמנטציה באמצעות בחירה אדפטיבית של תכונות רב-קנה מידה12.
עם הצלחת ארכיטקטורות טרנספורמרים בעיבוד שפה טבעית וראיית מחשב13, חוקרים החלו לחקור את יישומן בסגמנטציה רפואית של תמונות. TransUNet הייתה הראשונה שהשתמשה בטרנספורמר כמקודד למידול תלותיות לטווח ארוך ביעילות14. Swin-UNet מאמצת ארכיטקטורת טרנספורמר טהורה ומשיגה אגרגציה גלובלית יעילה של מידע באמצעות מנגנון חלון מוזז15. UTNet מציעה ארכיטקטורה היברידית המשלבת את יכולת חילוץ התכונות המקומית של CNN עם יכולת המידול הגלובלית של Transformers16.
בתחום סגמנטציה של פוליפים, Polyp-PVT עושה שימוש בממיר ראיית פירמידה כדי ללכוד מידע סמנטי גלובלי רב-קנה מידה17, בעוד UNet מקונן רב-קנה מידה משפר את ההבנה הקונטקסטואלית על ידי שילוב Transformers18. מחקרים אחרונים בחנו גם אסטרטגיות למידה עם קורלציה שלילית לסגמנטציה בין תחומיםפוליפים 19, שיפור סגמנטציה מוגבר על ידי גומפרץ20, וארכיטקטורות מבוססות קשב המשלבות הנחיית גבול21. למרות שגישות אלו משפרות במידה מסוימת את ביצועי הסגמנטציה, סגמנטציה של פוליפים עדיין מתמודדת עם מספר אתגרים. ראשית, פוליפים מציגים הטרוגניות גבוהה במורפולוגיה, בגודל ובמרקם, החל ממיקרו-פוליפים קטנים מ-5 מ"מ ועד לפוליפים גדולים העולים על 30 מ"מ, עם צורות הנעות מעגליות ואליפטיות ועד צורות לא סדירות מאוד. שנית, סביבת המעי מורכבת ומשתנה, שבה קפלים ריריים, השתקפויות ספקולריות, שאריות צואה ופסולת מזון גורמים להפרעות רקע חמורות. שלישית, פוליפים רבים בעלי גבולות מטושטשים, עשויים להיות מוסתמים חלקית על ידי קפלים, או טבולים בנוזלי מעיים, מה שהופך את מיקום הגבולות המדויק למאתגר מאוד22.
השיטות הקיימות עדיין מציבות מגבלות ברורות בהתמודדות עם אתגרים אלה. CNNים מסורתיים יעילים בהפקת מרקם מקומי ותכונות קצה; עם זאת, גרעיני קונבולוציה מרובעים קבועים אינם מתאימים ללכידת צורות גאומטריות מגוונות23, במיוחד עבור פוליפים לא סדירים במיוחד, ואינם יכולים למודל ביעילות תכונות גאומטריות רב-כיווניות. שיטות מבוססות טרנספורמרים יכולות למודל תלות גלובלית אך פחות יעילות בלכידת פרטים מקומיים עדינים ומידע על גבולות. יתרה מזאת, המורכבות החישובית הגבוהה שלהם הופכת אותם לפחות מתאימים ליישומים קליניים בזמן אמת24. גישות פילוח פוליפים עדכניות כמו PraNet, המשתמשת במודולי קשב הפוך לשיפור אזורים מרכזיים25, רשתות קשב מונחות גבול שמשפרות את חילוץ תכונות הגבול26, ו-CAFE-Net, שמאחד תכונות מקודד ומפענח דרך מנגנוני קשב צולב27, עדיין נתקלות בייצוג תכונות לא מספק ומיקום לא מדויק של הגבולות כאשר מטפלים בפוליפים קטנים28, גבולות מטושטשים ורקעים מורכבים. יתרה מזאת, רוב השיטות מתעלמות ממורפולוגיה גיאומטרית ואינן מנצלות במלואן מידע הקשרי רב-כיווני, מה שמוביל לחלוקה לא אופטימלית של פוליפים בעלי צורה לא סדירה.
לסיכום, שיטות מבוססות CNN כיום אינן מסוגלות ללכוד תכונות גאומטריות רב-כיווניות בשל התלכותן על גרעיני קונבולוציה מרובעים קבועים. גישות מבוססות טרנספורמרים מציעות מידול גלובלי אך מקריבות דיוק גבול מקומי ומטילות עלויות חישוביות גבוהות. בינתיים, אסטרטגיות קיימות לשיפור קשב והיתוך רב-קנה מידה לא אופטימיזציה משותפת במסגרת אחידה המותאמת במיוחד לחלוקת פוליפים29. פערים אלו מניעים את פיתוח שיטה המתמודדת בו-זמנית עם מידול תכונות גאומטריים, דיכוי רעש אדפטיבי ואינטגרציה של תכונות בקנה מידה חוצה קנה מידה.
כדי להתמודד עם סוגיות אלו, פרוטוקול זה מציג רשת סגמנטציה של פוליפים המבוססת על קונבולוציה של גלגל סיניים ותשומת לב כפולה (PWD-Net). הרשת המוצעת משלבת מידול תכונות גיאומטריות, שיפור קשב רב-ממדי ומיזוג תכונות רב-קנה מידה, המאפשרת סגמנטציה מדויקת של פוליפים מורכבים. התרומות העיקריות של עבודה זו מסוכמות כך: מודול הקונבולוציה של גלגל הסיניים (PCM), בהשראת מבנה גלגל הסיכות, מוצע עיצוב חדשני של גרעין קונבולוציה מסובב שלוכד תכונות גאומטריות רב-כיווניות של פוליפים באמצעות פעולות קונבולוציה בזוויות מרובות (0°, 45°, 90°, 135°, 180°, 225°, 270°, ו-315°). מודול זה מחליף את שכבת הקונבולוציה הקונבנציונלית בשלב צוואר הבקבוק, ומאפשר תפיסה יעילה של כיווני קצוות מגוונים ומשפר משמעותית את הייצוג של פוליפים בעלי צורה לא סדירה. מנגנון תשומת הלב הכפולה (DAM) מטפל ברעשי רקע כגון קפלים, השתקפויות ושאריות צואה בתמונות קולונוסקופיה. מודול קשב כפול המשלב קשב ערוץ וקשב מרחבי. בתוך חיבורי דילוג, מודול זה מדכא באופן אדפטיבי הפרעות רקע ומחזק את תגובות התכונות באזורים פוליפים על ידי זיהוי משותף של "מה" חשוב (מימד הערוץ) ו"היכן" המטרה ממוקמת (ממד מרחבי), ומבטיח שרק תכונות מעודנות מעורבות במיזוג הבא. אסטרטגיית מיזוג תכונות רב-קנה מידה (MSF) שומרת הן על מידע סמנטי עמוק והן פרטי גבול רדודים באמצעות מנגנון היררכי שהוכנס למפענח. על ידי שילוב הדרגתי של תכונות מקודד משודרגות על ידי DAM עם תכונות מפענח עם דגימה מוגברת, אסטרטגיה זו מפצה ביעילות על אובדן פרטים מרחבי הנגרם על ידי דגימה קטנה, ומאפשרת זיהוי מדויק של פוליפים קטנים והגדרת גבולות מדויקת.
מחקר זה משתמש רק במאגרי נתוני קולונוסקופיה אנונימיים זמינים לציבור (Kvasir-SEG). לא נאספו נתונים חדשים של נבדקים אנושיים. לא נדרשו אישור אתיקה מוסדית והסכמת מטופל מדעת, כפי שאושר במדיניות הסקירה המוסדית לניתוחים רטרוספקטיביים של מאגרי נתונים ציבוריים שלא זוהו.
1. הכנת נתונים
2. ארכיטקטורה כוללת
הערה: עיין באיור 1 עבור עמוד השדרה של המקודד-מפענח ברמת המקרו של PWD-Net, ובאיור 2 לאינטגרציה ואינטראקציה של מודולי הליבה בתוך זרימת התכונות. הארכיטקטורה הכוללת מתבססת על עיצוב מקודד-מפענח בצורת U כדי להתמודד עם וריאציות בקנה מידה של פוליפים והפרעות רקע בתמונות קולונוסקופיה.
3. מודול קונבולוציה של גלגל סיניים (איור 3)

4. מנגנון קשב כפול (איור 4)
הערה: מנגנון תשומת הלב הכפולה (DAM) מוטמע בכל חיבור דילוג כדי לדכא רעש רקע ולשפר תכונות אזור פוליפ הן מערוץ והן מממדים מרחביים.


5. מיזוג תכונות רב-קנה מידה
6. פונקציית אובדן ותצורת אימון



7. פסאודו-קוד
אלגוריתם 1: סגמנטציה של פוליפים PWD-Net
1: קלט: תמונת קולונוסקופיה I ∈ RH×W×3
2: תפוקה: Segmentation mask M ∈ {0,1}(H×W)
3:
4: פונקציה PCM(X) ▷ מודול קונבולוציה בגלגל הסיניים
5: הגדר גרעין בסיס W (3 x 3), זוויות Θ = {0°, 45°, ..., 315°}
6: עבור כל θ ∈ Θ עשה
7: Wθ ← BilinearRotate(W, θ) ▷ גרעין סיבוב
8: Yθ ← Conv2d(X, Wθ) ▷ תכונות ספציפיות לכיוון
9: סוף עבור
10: Y← ReLU(BN(Conv1 x 1(Concat({Y θ})))) ▷ אגרגט
11:החזרת Y
12: פונקציית סוף
13:
14: פונקציה DAM(F) ▷ מנגנון קשב כפול
15: Ac ← סיגמואיד (MLP(AvgPool(F))) ▷ קשב ערוץ (r=16)
16: As ← Sigmoid (Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ תשומת לב מרחבית
17: F' ← F ⊗ (α · Ac + β · As) ▷ מיזוג עם α ללמידה, β (init=0.5)
18: חזרה F'
19: פונקציית סוף
20:
21: פונקציה PWD-Net(I)
22: מקודד: e1,e 2,e 3,e 4, e5 ← ResNet50_Stages(I) ▷ מקודד מאומן מראש בעל 5 שלבים
23: צוואר בקבוק: b ← PCM(e5) ▷ החלו PCM בצוואר בקבוק
24: דילוג על חיבורים: si ← DAM(ei) עבור i = 1, 2, 3, 4 ▷ תכונות מקודד מסנן
25: מפענח:
26: d4 ← DoubleConv(Concat(Up(b),s 4))
27: d3 ← DoubleConv(Concat(Up(d 4),s 3))
28: d2 ← DoubleConv(Concat(Up(d 3),s 2))
29: d1 ← DoubleConv(Concat(Up(d 2),s 1))
30: M ← סיגמואיד (Conv1 x 1(d1))
31: חזרה M
32: פונקציה סופית
33:
34: אימונים:
35: לכל תקופה עשה
36: M̂ ← PWD-Net(I)
37: L ← 0.5 · BCE(M̂,M gt) + 0.5 · DiceLoss(M̂, Mgt) ▷ λ = 0.5
38: עדכן פרמטרים באמצעות backpropagation (אדם אופטימיזציהr)
39: סוף עבור
סידור ניסיוני
מערך נתונים
מערך הנתונים של Kvasir SEG שימש להערכת התנהגות הפיצול של PWD Net בתמונות קולונוסקופיה עם הופעות פוליפים הטרוגניות. מאגר הנתונים מכיל 1,000 תמונות פוליפים מוערות בפיקסלים וכולל שונות בגודל, צורה, מרקם, תאורה ומורכבות הרקע, מה שהופך אותו למתאים להערכת זיהוי מטרות קטנות, מיקום גבולות ועמידות להפרעות ויזואליות. מערך הנתונים חולק לתת-קבוצות אימון, אימות ומבחן, וקבוצת הבדיקות הסופית שימשה רק להערכת ביצועים. התפלגות התמונות מסוכמת בטבלה 1.
פרטי יישום
הגדרות היישום הנדרשות לשחזוריות מסוכמות בטבלה 2, ופרטי הפרוצדורל המלאים מסופקים בשלבי הכנת הנתונים ובסעיף 5.2 של הפרוטוקול. לפרשנות התוצאות, כל הניסויים המדווחים השתמשו באותה רזולוציית קלט, סביבת חומרה ותנאי הערכה המפורטים בטבלת החומרים. הערכים המדווחים מבוססים על נקודת הבדיקה הנבחרת של קוביות הקוביות מתוך ריצה אחת באמצעות seed = 42, ולכן יש לפרש את התוצאות כביצועים תחת חלוקה ניסויית קבועה ולא כתוצאות ממוצעות של אימות צולב.
מדדי הערכה
ביצועי הסגמנטציה הוערכו באמצעות מקדם Dice, חיתוך על איחוד, דיוק ברמת פיקסל ומהירות הסקה. מקדם קוביות וחיתוך מעל איחוד שימשו כמדדים ראשוניים מבוססי חפיפה משום שהם משקפים ישירות את ההתאמה בין המסכה החזויה לאזור הפוליפ המוערך על ידי המומחה. דיוק ברמת הפיקסלים דווח כמדד משלים משום שתמונות קולונוסקופיה לעיתים קרובות מכילות אזורים גדולים ברקע. מהירות ההסקה, שדווחה כפריימים לשנייה, נכללה כדי להעריך האם המודל שומר על יעילות חישובית מעשית תוך שיפור איכות הסגמנטציה.
השוואה לשיטות קיימות
כדי להדגים את ההתנהגות והיעילות של PWD-Net, מתבצעת השוואה עם חמש שיטות סגמנטציה מייצגות של פוליפים: CBSA (רשת קשב מרחבי מוגבר בערוץ)34, FSSA (רשת קשב מרחבי משותפת תכונות), MSF (רשת מיזוג רב-קניות), Pinwheel Conv (קו בסיס של Pinwheel Convolution ללא מודולי קשב או מיזוג), ו-PolaLinear (רשת קשב ליניארית מקוטבת). כל שיטות ההשוואה מיושמות מחדש באמצעות קודי המקור הרשמיים שלהן ומאומנות על אותו סט אימון Kvasir-SEG (800 תמונות) תחת עיבוד מוקדם, רזולוציית קלט (352 x 352) והגדרות הערכה זהות כדי להבטיח השוואה הוגנת. טבלה 3 מציגה את התוצאות הכמותיות על קבוצת הבדיקות.
כפי שמוצג בטבלה 3, PWD-Net משיג מקדם קוביות של 0.865 ו-IoU של 0.765, המייצגים שיפור של 1.8% בקוביות ו-4.8% ב-IoU בהשוואה לשיטה הבאה הטובה ביותר (CBSA). ראוי לציין כי PWD-Net משיג זאת עם 9.1 מיליון פרמטרים, לעומת 18.4 מיליון פרמטרים ל-CBSA, מה שמעיד על יעילות חיובית. בעוד ש-PolaLinear ו-Pinwheel-Conv מציעים מהירויות הסקה מהירות יותר (79 ו-72 FPS, בהתאמה), דיוק הסגמנטציה שלהם נמוך באופן ניכר, מה שמרמז ש-PWD-Net מספק איזון סביר בין דיוק לעלות חישובית עבור מערך הנתונים המוערך. כדי להמחיש את התנהגות הסגמנטציה האיכותית, נבחרו חמישה דגימות בדיקה מייצגות המכסות פוליפים קטנים, פוליפים גדולים, רקעים מורכבים וגבולות מטושטשים להשוואה ויזואלית. איור 5 מציג את תוצאות הסגמנטציה של ארבע שיטות השוואה נבחרות (CBSA, FSSA, MSF, ו-PWD-Net) לצד האמת הקרקעית. כל עמודת חיזוי מתויגת בשם השיטה המתאים. Pinwheel-Conv ו-PolaLinear לא נכללו בתרשים זה למען בהירות ויזואלית, שכן הביצועים הכמותיים שלהם נמוכים משמעותית; איור זה מייצג לכן תת-קבוצה נבחרת של השיטות שהושוו בטבלה 3.
כפי שמוצג באיור 5, בתרחישי פוליפים קטנים (השורות הראשונה והחמישית), FSSA ו-MSF מציגים זיהויים מפספסלים, בעוד ש-PWD-Net לוכד את המטרות באופן מלא יותר. בתרחישי פוליפים גדולים (שורות שנייה ושלישית), CBSA ו-FSSA מייצרים אי-סדירויות בולטות בגבולות, בעוד ש-PWD-Net מייצר גבולות חלקים יותר. בתרחיש הגבול המטושטש (השורה הרביעית), PWD-Net מדגים דיכוי יעיל של רעש רקע באמצעות מנגנון תשומת לב כפולה.
מחקר אבלציה
כדי לנתח את תרומתו של כל רכיב מרכזי ב-PWD-Net, מתבצע מחקר אבלציה שיטתי. באמצעות ResNet-50 כמקודד עמוד השדרה ליצירת מודל הבסיס, מודול Pinwheel Convolution (Pinwheel Module), Dual-Attention Mechanism (Dual-Attn) ו-Multi-Scale Feature Fusion (MSF) משולבים בהדרגה. טבלה 4 מסכמת את התוצאות הכמותיות.
הממצאים המרכזיים מטבלה 4 ניתנים לסיכום כך. ראשית, הוספת מודול בודד משפרת את ביצועי מודל הבסיס. מנגנון הקשב הכפול מביא את ההישגים הבולטים ביותר (קוביות: +2.0%, IoU: +2.7%), התומך ביעילות של דיכוי רעש אדפטיבי. מודול הקונבולוציה Pinwheel תורם שיפור של 1.6% בקוביות, מה שמעיד על היתרון של חילוץ תכונות רב-כיווני לצורות פוליפים לא סדירות. שנית, שילוב של קונבולוציה של גלגל סיניים ומנגנון תשומת לב כפולה מעלה עוד יותר את הביצועים ל-Dice = 0.858 ו-IoU = 0.748, מה שמרמז על השלמה בין שני המודולים. לבסוף, ה-PWD-Net המלא (הכולל את שלושת המודולים) משיג את הביצועים הנצפים הטובים ביותר (Dice = 0.865, IoU = 0.765), עם שיפורים של 3.3% ו-6.0%, בהתאמה, בהשוואה לקו הבסיס, מה שמדגים את תרומתו של כל רכיב מוצע למערך נתונים זה.
ניתוח תהליכי הכשרה
כדי להמחיש את דינמיקת האימון ומאפייני ההתכנסות של PWD-Net, מדדי ביצועים מרכזיים מתועדים ומוצגים לאורך 50 תקופות אימון. איור 6 מציג את השינויים בפונקציית ההפסד, מקדם הקוביות, IoU והדיוק במהלך האימון.
כפי שמוצג באיור 6(א), גם אובדן האימון וגם אובדן האימות יורדים במהירות בתוך עשרת התקופות הראשונות ואז מתייצבים בהדרגה. אובדן האימות נשאר מעט גבוה יותר מאובדן האימון לאורך כל הדרך, אך שתי העקומות עוקבות אחרי מגמה עקבית עם פער קטן, מה שמעיד שהמודל אינו סובל מהתאמה חמורה. איור 6(b) מראה שמקדם הקוביות עולה בחדות בשלב האימון המוקדם, מתכנס לאחר בערך התקופה ה-30, ומתייצב מעל 0.86. עקומת IoU באיור 6(c) מציגה מגמת צמיחה דומה, ומגיעה לכ-0.765 בשלב האימון המאוחר. איור 6(d) מציין שהדיוק מתכנס מעל 94%. מגמות האימות היציבות בשלבי האימון האמצעיים והמאוחרים מצביעות על כך שאסטרטגיית הגדלת הנתונים שאומצה ולוח הזמנים של חישוש הקוסינוס תורמים להפחתת התאמת יתר במאגר נתונים זה.
ביצועים בגדלי פוליפים
כדי להעריך את היישום של PWD-Net בתרחישים קליניים שונים, מערך הבדיקות (100 תמונות) מחולק לשלוש קטגוריות לפי היחס בין שטח הפוליפים לשטח התמונה הכולל: פוליפים קטנים (< 5%), פוליפים בינוניים (5%–30%) ופוליפים גדולים (> 30%). סיווג זה משקף את השפעת סולם הפוליפים על קושי הסגמנטציה. טבלה 5 מציגה את הביצועים הכמותיים בכל קטגוריה. כפי שמוצג בטבלה 5, PWD-Net משיג את הביצועים הטובים ביותר בקטגוריית פוליפים בינוניים (Dice = 0.882, IoU = 0.790), דבר התואם לייצוג הרחב יותר של קטגוריה זו (54 מתוך 100 תמונות בדיקה). הביצועים על פוליפים גדולים נשארים ברמה דומה (קוביות = 0.861, IoU = 0.760). הביצועים על פוליפים קטנים נמוכים יחסית (Dice = 0.812, IoU = 0.685), בעיקר משום שמטרות קטנות תופסות חלק קטן מהתמונה ורגישות יותר לרעשי רקע עם מידע גבול דליל יותר.
תוצאות אלו מצביעות על כך שיכולת לכידת תכונות רב-כיוונית של מודול הקונבולוציה של גלגל הסיניים ויכולת המיקום המרחבי של מנגנון תשומת הלב הכפולה תורמות לשמירה על איכות סגמנטציה סבירה בין סולמות פוליפים שונים בקבוצת הבדיקה המוערכת.

איור 1: מסגרת מודל PWD-Net. המסגרת המבנית הכוללת של רשת סגמנטציה לפוליפים המוצעת, המבוססת על קונבולוציית גלגל סיניים ותשומת לב כפולה (PWD-Net), הממחישה את המקודד (ResNet-50), צוואר הבקבוק (PCM), חיבורי דילוג משופרים ב-DAM, מפענח MSF, ויצירת פלט לסגמנטציה של פוליפים במעי הגס. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 2: תרשים זרימה ארכיטקטורה כללי של PWD-Net. תרשים זרימה מפורט של ארכיטקטורת PWD-Net המלאה, המציג את מקודד ResNet-50 בעל חמישה שלבים, צוואר בקבוק PCM, חיבורי דילוגים ב-DAM, מפענח מיזוג תכונות רב-קנה מידה ויצירת חיזוי סופי. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 3: תרשים סכמטי של מודול הקונבולוציה של גלגל הסיניים. סכימה מבנית ותפעולית של מודול קונבולוציה Pinwheel המדגימה גרעיני קונבולוציה מסובבים בזוויות מרובות, סיבוב מבוסס אינטרפולציה ביליניארית, שרשור ערוצים, ואגרגציה של קונבולוציה 1 על 1. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 4: דיאגרמת מבנה של מנגנון הקשב הכפול. דיאגרמה אדריכלית של ה-DAM, המציגה את ענף הקשב בערוץ מקביל (Global Average Pooling → MLP עם יחס הפחתה r = 16 → סיגמואיד) וענף תשומת לב מרחבי (איגום לפי ערוץ → קונבולוציה 7 על 7 → סיגמואיד), ואחריו מיזוג משוקלל עם מקדמים ניתנים ללמידה α ו-β. אנא לחצו כאן לצפייה בגרסה מוגדלת של איור זה.

איור 5: השוואה איכותנית של תוצאות סגמנטציה. כל שורה מייצגת דגימת בדיקה. עמודות משמאל לימין: תמונת קלט, Ground Truth, CBSA, FSSA, MSF, ו-PWD-Net (שלנו). Pinwheel-Conv ו-PolaLinear מושמטים מהאיור הזה למען בהירות ויזואלית; ראו טבלה 3 להשוואה הכמותית המלאה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 6: עקומות אימון של PWD-Net מעל 50 תקופות. (א) אובדן אימון ואימות. (ב) מקדם קוביות. (ג) הצטלבות מעל יוניון (IoU). (ד) דיוק ברמת פיקסלים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.
| תת-קבוצה של אימון | מספר הדגימות | פרופורציה |
| סט רכבת | 800 | 80% |
| סט אימות | 100 | 10% |
| סט מבחן | 100 | 10% |
| סט כולל | 1000 | 100% |
טבלה 1: סטטיסטיקות של מאגרי נתונים. התפלגות חלוקת מערך הנתונים עבור מאגר הנתונים Kvasir-SEG (1,000 תמונות בסך הכל), המציגה את מספר התמונות והיחס שהוקצו לתת-הקבוצות של האימון, האימות והבדיקה (seed אקראי = 42).
| קטגוריה | פריט פרמטר | הגדרת פרמטרים |
| מסגרת למידה עמוקה | מסגרת | פייטורץ' |
| סביבת חומרה | GPU | NVIDIA טסלה P100 |
| שיטת האצה | האצת GPU | CUDA |
| הגדרות קלט | גודל תמונה קלט | 352 × 352 |
| פורמט תמונה | פורמט תמונה | תמונת RGB |
| אופטימייזר | אופטימייזר | אדם |
| קצב הלמידה ההתחלתי | LR ההתחלתי | 1 × 10⁻4 |
| גודל אצווה | גודל אצווה | 16 |
| תקופות האימון | תקופות | 50 |
| פונקציית אובדן | פונקציית אובדן | אובדן קוביות + BCE |
טבלה 2: הגדרות פרמטרים ניסיוניות. הגדרות פרמטרים ניסיוניות לאימון והערכה של PWD-Net. עיין בשלבי הכנת הנתונים ובסעיף 5.2 של הפרוטוקול לקבלת הליך היישום המלא שלב אחר שלב.
| שיטה | קוביות ↑ | IoU ↑ | דיוק ↑ | פרמטרים (M) ↓ | FPS ↑ |
| CBSA | 0.8466 | 0.717 | 0.9325 | 18.4 | 36 |
| FSSA | 0.7109 | 0.551 | 0.9012 | 9.8 | 61 |
| MSF | 0.7337 | 0.585 | 0.9086 | 11.5 | 54 |
| פינוויל-קונב | 0.8007 | 0.6742 | 0.9401 | 7.9 | 72 |
| PolaLinear | 0.7213 | 0.5707 | 0.9113 | 6.6 | 79 |
| PWD-Net (שלנו) | 0.865 | 0.7651 | 0.9478 | 9.1 | 63 |
טבלה 3: תוצאות השוואה כמותית. השוואה כמותית של PWD-Net עם חמש שיטות סגמנטציה קיימות של פוליפים בערכת הבדיקה Kvasir-SEG (100 תמונות). כל השיטות מוערכות תחת חלוקות נתונים זהות, עיבוד מוקדם ורזולוציית קלט זהה (352 x 352). ↑ מציין שגבוה יותר הוא טוב יותר; ↓ מציין שנמוך יותר הוא טוב יותר. שיטות המסומנות ב-* מציינות תוצאות שצוטטו מהפרסום המקורי ולא מיושמות מחדש.
| תצורה | פינוויל | דואל-אטן | MSF | קוביות ↑ | IoU ↑ |
| קו בסיס | × | × | × | 0.832 | 0.705 |
| + סיבוב | √ | × | × | 0.848 | 0.725 |
| + Dual-Attn | × | √ | × | 0.852 | 0.732 |
| + MSF | × | × | √ | 0.844 | 0.72 |
| + פינוויל + דואל-אטן | √ | √ | × | 0.858 | 0.748 |
| מלא (PWD-Net) | √ | √ | √ | 0.865 | 0.765 |
טבלה 4: תוצאות מחקר אבלציה. תוצאות מחקר אבלציה על סט הבדיקה Kvasir-SEG, המראות את התרומה ההדרגתית של מודול הקונבולוציה Pinwheel (Pinwheel Convolution), מנגנון Double-Attention (Dual-Attn) ו-Multi-Scale Feature Fusion (MSF) למקודד ResNet-50 הבסיסי.
| סוג פוליפ | מספר | קוביות ↑ | IoU ↑ |
| פוליפים קטנים (< 5%) | 21 | 0.812 | 0.685 |
| פוליפים בינוניים (5%–30%) | 54 | 0.882 | 0.79 |
| פוליפים גדולים (> 30%) | 25 | 0.861 | 0.76 |
טבלה 5: ביצועי PWD-Net על סוגי פוליפים שונים. ביצועי PWD-Net בקטגוריות גודל פוליפים שונות במסגרת מערך הבדיקה Kvasir-SEG (100 תמונות). גודל הפוליפ מוגדר לפי היחס בין שטח הפוליפים לשטח התמונה הכולל.
קובץ משלים: ארכיון דחוס המכיל את מימוש מסגרת PWD-Net. הקובץ כולל model.py הגדרת ארכיטקטורת הרשת באמצעות מודול Pinwheel Convolution Module (PCM) ומנגנון Dual-Attention (DAM), train.py יישום צינור טעינת הנתונים, פונקציית האובדן והליך האימון, test.py להסקת מודלים והערכה על מערכי בדיקה, requirements.txt רשימת כל ספריות Python הנדרשות וגרסאות מתאימות להן. אנא לחצו כאן להורדת הקובץ הזה.
מספר בחירות עיצוב בפרוטוקול PWD-Net הן קריטיות להשגת תוצאות סגמנטציה אמינות ודורשות תשומת לב קפדנית במהלך היישום. ראשית, הבחירה והאתחול של עמוד השדרה של המקודד משפיעים ישירות על התנהגות ההתכנסות והביצועים הסופיים. הפרוטוקול משתמש במקודד ResNet-50 שאומן מראש על ImageNet, המספק אתחול תכונות ברמה נמוכה ובינונית. זה חשוב במיוחד במשימות סגמנטציה רפואית של תמונות שבהן נתוני ההכשרה הזמינים מוגבלים (800 תמונות במחקר הנוכחי). כיוונון עדין של כל שכבות המקודדים, במקום הקפאתן, מאפשר לרשת להתאים את התכונות המאומנות מראש למאפיינים הספציפיים של תמונות קולונוסקופיה, כגון טקסטורות ריריות והשתקפויות ספקולריות. שנית, מיקום כל מודול ליבה בתוך הארכיטקטורה הוא מכוון. מודול הקונבולוציה של גלגל הסיכות (PCM) ממוקם בצוואר הבקבוק, שבו הרזולוציה המרחבית נמוכה ביותר אך המידע הסמנטי עשיר יותר, ומאפשר ללכוד דפוסים גאומטריים גלובליים ביעילות ללא עלות חישובית מופרזת. מנגנון תשומת הלב הכפולה (DAM) מוטמע בחיבורי הדילוג במקום במפענח, ומבטיח שרעש רקע מדוכא לפני שהתכונות מועברות למפענח, ומונע מתכונות מזוהמות להתפשט דרך שלבי ההיתוך. מחקר האבלציה (טבלה 4) תומך בעיצוב זה: ה-DAM תורם את השיפור הגדול ביותר בביצועים אישיים (Dice: +2.0%), מה שמאשר את חשיבות דיכוי הרעש המוקדם בצינור התכונות. שלישית, פונקציית האובדן ההיברידי (0.5 · BCE + 0.5 · Dice) מאזן בין דיוק סיווג ברמת הפיקסל לאופטימיזציה של חפיפה ברמת אזור. שילוב זה רלוונטי במיוחד לסגמנטציה של פוליפים, שבה חוסר איזון בין מחלקות לרקע הוא נפוץ. המשקל השווה (λ = 0.5) מאומץ כברירת מחדל; התאמת יחס זה עשויה להיות נחוצה עבור מערכי נתונים עם התפלגויות מחלקות שונות (ראו פתרון תקלות למטה).
שינויים ופתרון תקלות
השינויים וההנחיות לפתרון תקלות ניתנות להתאמת הפרוטוקול לסביבות ניסוי שונות. כאשר מיישמים את הפרוטוקול על מערכי נתונים עם רזולוציות תמונה שונות או התפלגויות גודל פוליפים, ייתכן שיהיה צורך בהתאמות רזולוציית הקלט (352 x 352). גדלי קלט גדולים יותר עשויים לשפר את זיהוי הפוליפים הקטנים במחיר של צריכת זיכרון מוגברת ומהירות הסקה נמוכה. אם אובדן אימון אינו מתכנס בתוך 50 תקופות, שקול להפחית את קצב הלמידה ההתחלתי (למשל, ל-5 x 10⁻5) או להגדיל את אורך מחזור החישוש הקוסינוס. אם המודל מציג שיעורי חיובי שגוי גבוהים באזורים עם השתקפויות ספקולריות חמורות או קפלים ריריים, הגדלת משקל רכיב אובדן הקוביות (למשל, λ = 0.4 עבור BCE, 0.6 לקובייה) עשויה לשפר את דיוק הגבול על חשבון דיוק ברמת הפיקסלים. לעומת זאת, אם המודל מקטע פוליפים קטנים, הגדלת משקל ה-BCE עשויה לעזור. מספר זוויות הסיבוב ב-PCM (כיום שמונה, מ-0° עד 315° במרווחים של 45°) מייצג איזון בין כיסוי כיווני לעלות חישובית. הפחתה לארבע זוויות (0°, 90°, 180°, 270°) מפחיתה את החישוב אך עשויה להפחית את הרגישות לגבולות פוליפים אלכסוניים. יחס ההפחתה r = 16 בענף תשומת הלב של הערוץ של ה-DAM עוקב אחרי הקונבנציה שנקבעה על ידי רשתות סחיטה וגירוי קודמות32; יחסים קטנים יותר (למשל, r = 8) מגדילים את קיבולת המודל אך עלולים להוביל להתאמת יתר על מאגרי נתונים קטנים. עבור מערכי נתונים גדולים משמעותית מ-Kvasir-SEG, שקלו להגדיל את גודל האצווה ואת תקופות האימון בהתאם, ועקוב אחרי מדדי אימות כדי לקבוע את נקודת העצירה המתאימה.
חשיבות ביחס לשיטות חלופיות
ארכיטקטורת PWD-Net מתמודדת עם מגבלות ספציפיות של גישות קיימות באמצעות שלושה מודולים משלימים. בהשוואה לשיטות המבוססות על גרעיני קונבולוציה מרובעים סטנדרטיים, ה-PCM מספק רגישות כיוונית באמצעות גרעינים מסובבים בזוויות מרובות, מה שמאפשר התאמה טובה יותר למורפולוגיה הלא סדירה והמגוונת של פוליפים במעי הגס. בהשוואה למנגנוני קשב חד-ממדיים (למשל, תשומת לב בערוץ בלבד ברשתות דחיסה ועירור33), ה-DAM מדמה יחד את חשיבות הערוץ והמרחב, ומציע דיכוי רעש מקיף יותר בסביבת קולונוסקופיה מורכבת. בהשוואה לארכיטקטורות מבוססות טרנספורמר כמו TransUNet34 ו-Polyp-PVT35, שמציעות מידול גלובלי חזק אך בעלות חישובית גבוהה יותר, PWD-Net משיג ביצועים תחרותיים עם גודל מודל קומפקטי יחסית (פרמטרי 9.1 מיליארד) ומהירות הסקה מעשית (63 FPS), כפי שמתועד בטבלה 3.
יש לציין שההשוואות המוצגות במחקר זה (טבלה 3) מתבצעות בתנאים מבוקרים עם חלוקות נתונים זהים, פרוטוקולי עיבוד מוקדם והערכה. ההבדלים בביצועים שנצפו ספציפיים לסט הבדיקות Kvasir-SEG (100 תמונות) ששימש במחקר זה ואינם מעורבים ישירות למערכי נתונים אחרים או לסביבות קליניות. השוואה רחבה יותר הכוללת קווי בסיס מבוססים נוספים (למשל, PraNet36, ResUNet++37) תחת מדדי נתונים סטנדרטיים מרובי מערכי נתונים תחזק עוד יותר את הראיות ומתוכננת לעבודה עתידית. עבודות עדכניות על ארכיטקטורות מקודד-מפענח כפול לחלוקת פוליפים38 הראתה את הפוטנציאל של מסלולי קידוד ופענוח מקבילים. ארכיטקטורת PWD-Net שונה בכך שהיא מתמקדת במידול גיאומטרי סיבובי וסינון דו-קשב בתוך צינור מקודד-מפענח יחיד, ומייצגת פילוסופיית עיצוב משלימה.
יש להכיר בכמה מגבלות חשובות של מחקר זה. ראשית, בנוגע להיקף הניסוי, המחקר הנוכחי מדווח על תוצאות אך ורק על מאגר הנתונים Kvasir-SEG עם חלוקה אקראית של 800 אימונים, 100 אימות ו-100 תמונות בדיקה. גודל קבוצת הבדיקה (100 תמונות) קטן יחסית, ורק ריצת אימון אחת מדווחת ללא ניסויים חוזרים או אימות צולב. כתוצאה מכך, מדדי הביצועים המדווחים עשויים להיות חשופים לשונות הקשורה לחלוקת הנתונים הספציפית. עבודות עתידיות אמורות לשלב אימות צולב k-fold או חלוקות אקראיות מרובות עם סטיות תקן מדווחות כדי לספק הערכות ביצועים חזקות יותר. שנית, ה-PCM מוסיף עומס חישובי נוסף באמצעות סיבוב ואגרגציה של גרעין רב-זווית. למרות שהמודל הכולל נשאר קומפקטי (9.1 מיליון פרמטרים), פריסה על מכשירים מוגבלים במשאבים בסביבות קליניות עשויה לדרוש אופטימיזציה נוספת באמצעות טכניקות כמו זיקוק ידע או גיזום מודלים. שלישית, המודל מאומן ומוערך אך ורק על תמונות סטטיות, בעוד שקולונוסקופיה קלינית כוללת זרמי וידאו בזמן אמת שבהם מראה, גודלו ונקודת המבט של הפוליפים משתנים דינמית לאורך פריימים עוקבים. למרות שמהירות ההסקה של 63 FPS תואמת לקצבי פריימים בזמן אמת, מדד זה לבדו אינו מהווה אימות קליני. אימות פרוספקטיבי על נתוני וידאו אנדוסקופיים, מחקרי קוראים וניתוחי קצה קליניים בהמשך יהיה נחוץ לפני שניתן לטעון טענות על מוכנות קלינית 39,40,41. העבודה הנוכחית צריכה להיחשב כתרומה מתודולוגית ולא כמערכת מאומתת קלינית.
רביעית, מסלול התרגום הקליני לפילוח פוליפים בעזרת בינה מלאכותית חורג הרבה מעבר לדיוק הסגמנטציה. סקירות אחרונות הדגישו כי כלים מתקדמים של הדמיה וניתוח חייבים להיות משולבים בתהליכי עבודה אנדולומינליים רחבים יותר, כולל סיווג נגעים, שלב שלבים ותכנון טיפול. הפרוטוקול הנוכחי מתמקד אך ורק בסגמנטציה בינארית של פוליפים ואינו מתייחס לסיווג פתולוגי42 (למשל, פוליפים אדנומטיים לעומת היפרפלסטיים) או להערכת סיכון לממאירות, שהם חיוניים להנחיית החלטות קליניות. חמישית, מערכי הנתונים בהם השתמשו במחקר זה נגזרים בעיקר מבדיקות קולונוסקופיה למבוגרים. נתונים על פוליפים ילדים, פוליפים הקשורים למחלות מעי דלקתיות וסוגים פתולוגיים מיוחדים אחרים אינם מיוצגים. ההכללה של המודל לאוכלוסיות אלו נותרה בלתי נבדקת. שישית, בעוד שניסויי אבלציה והדמיות איכותיות מסופקים כדי להמחיש את תפקיד כל מודול, היכולת לפרשנות המודל נותרת מוגבלת. תהליך קבלת ההחלטות של מודלים של למידה עמוקה אינו שקוף לחלוטין, מה שעלול להשפיע על האמון והאימוץ של הרופאים. עבודות עתידיות עשויות לשלב טכניקות ויזואליזציה מבוססות גרדיאנט כדי לספק הסברים אינטואיטיביים יותר לחיזוי המודל43.
למרות המגבלות שהוזכרו לעיל, פרוטוקול PWD-Net מספק מסגרת ניתנת לשחזור לחלוקת פוליפים שעשויה לשמש בסיס לפיתוח נוסף. כיוונים פוטנציאליים כוללים: הרחבת המודל לניתוח קולונוסקופיה מבוסס וידאו על ידי שילוב טכניקות מידול טמפורלי; הוספת ענף סיווג לסגמנטציה מקצה לקצה וטיפוס פתולוגי; הרחבת ההערכה למאגרי נתונים מרובי מרכזיים גדולים ומגוונים יותר; וחקר אינטגרציה בתוך פלטפורמות רובוטיות אנדולומינליות, שבהן ניתוח תמונות בעזרת בינה מלאכותית מוכר יותר ויותר כטכנולוגיה מרכזית שמאפשרת44,45. חבילת הקוד המשלימים המסופקת עם פרוטוקול זה נועדה להקל על שכפול והתאמת השיטה על ידי קבוצות מחקר אחרות.
למחברים אין מה לחשוף.
מחקר זה מומן על ידי תוכנית המחקר והפיתוח המרכזית הלאומית של סין (תוכניות מס' 2022YFC3500200 ו-2022YFC3500204).
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| אדם אופטימייסר | — | — | כלול ב-PyTorch |
| אלבומנטציות | צוות אלבומנטיישנס | v1.0+ | ספריית הגדלת נתונים |
| ערכת כלים של CUDA | NVIDIA | v11.3+ | האצת GPU |
| מאגר נתונים של Kvasir-SEG | SimulaMet | — | https://datasets.simula.no/kvasir-seg/ |
| Matplotlib | קהילת Matplotlib | v3.4+ | הדמיית עקומות אימון |
| NumPy | קהילת NumPy | v1.21+ | חישוב נומרי |
| NVIDIA טסלה P100 | NVIDIA | P100-PCIE-16GB | GPU לאימון והסקה |
| OpenCV | קהילת OpenCV | v4.5+ | עיבוד מוקדם של תמונה |
| פייתון | קרן התוכנה של פייתון | v3.8+ | שפת תכנות |
| פייטורץ' | פלטפורמות מטא | v1.12+ | מסגרת למידה עמוקה |
| משקולות ResNet-50 מאומנות מראש | PyTorch Model Zoo | — | ImageNet-1K מאומן מראש |
| אובונטו | קנוני | 18.04+ | מערכת הפעלה |
Request permission to reuse the text or figures of this JoVE article
Request Permission