רשת סגמנטציה של פוליפים המבוססת על קונבולציה של גלגל סיניים ותשומת לב כפולה לאבחון נגעים טרום-סרטניים במעי הגס

Ning Du; Xinqi Liu; Li Ji; Chuijie Wang

doi:10.3791/71178

Method Article

רשת סגמנטציה של פוליפים המבוססת על קונבולציה של גלגל סיניים ותשומת לב כפולה לאבחון נגעים טרום-סרטניים במעי הגס

DOI:

10.3791/71178

⸱

June 26th, 2026

Ning Du*¹ , Xinqi Liu*¹ , Li Ji² , Chuijie Wang³

¹National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, ²Xinglin College of Liaoning University of Traditional Chinese Medicine, ³Liaoning University of Traditional Chinese Medicine Affiliated Hospital

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

פרוטוקול זה מיישם רשת למידה עמוקה בצורת U המשלבת קונבולוציה של גלגל סיניים, תשומת לב כפולה ומיזוג רב-קנה מידה כדי לחלק פוליפים במעי הגס.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

סגמנטציה מדויקת של פוליפים במעי הגס היא קריטית למניעה ואבחון מוקדמים של סרטן המעי הגס. עם זאת, בשל ההטרוגניות הגבוהה של פוליפים מבחינת צורה, גודל ומרקם, וכן בשל המורכבות של סביבת המעי (כגון קפלים, השתקפויות ספקולריות ושאריות צואה), שיטות קיימות עדיין מתמודדות עם אתגרים משמעותיים באיתור גבולות ובזיהוי פוליפים קטנים. כדי להתמודד עם סוגיות אלו, מאמר זה מציע רשת סגמנטציה של פוליפים המבוססת על קונבולוציה של גלגל סיניים ותשומת לב כפולה (PWD-Net). הרשת המוצעת מאמצת ארכיטקטורת מקודד-מפענח בצורת U, שבה ResNet מאומן מראש משמש כמקודד לחילוץ תכונות מקומיות רב-רמתיות. באופן ספציפי, מודול קונבולוציה של גלגל סיניים (PCM) מוצג בשכבת צוואר הבקבוק כדי ללכוד את המבנה הגאומטרי הגלובלי ואת המידע ההקשרי הרב-כיווני של פוליפים באמצעות גרעיני קונבולוציה מסובבים בזוויות מרובות. מנגנון קשב כפול (DAM) המשלב תשומת לב ערוץ ותשומת לב מרחבית נועד לדכא רעש רקע באופן אדפטיבי ולהעצים את תכונות אזור הפוליפים. בנוסף, נעשה שימוש באסטרטגיית מיזוג תכונות רב-קנה מידה (MSF) לשילוב מידע סמנטי עמוק עם פרטי גבול רדודים, תוך הבטחת שלמות ודיוק של תוצאות הסגמנטציה. ניסויים שנערכו על מערכי הנתונים Kvasir-SEG ו-CVC-ClinicDB מראים כי PWD-Net משיג ממוצע מקדמי קוביות של 0.865 ו-0.944, וציוני IoU של 0.765 ו-0.892, בהתאמה, מה שמעלה משמעותית על השיטות המתקדמות הקיימות. מחקרי אבלציה מאמתים את יעילות כל מודול, והערכות חוצות נתונים מאשרות את יכולת ההכללה החזקה של המודל. מחקר זה מספק פתרון מדויק וחזק לחלוקת פוליפים קלינית, ומציע ערך משמעותי לאבחון מוקדם של נגעים טרום-סרטניים במעי הגס ותומך בהתערבות ממוחשבת.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

סרטן המעי הגס הוא אחד הגידולים הממאירים הנפוצים ביותר בעולם, עם שיעורי שכיחות ותמותה גבוהים באופן עקבי. מחקרים הראו שרוב סוגי סרטן המעי הגס מתפתחים מפוליפים אדנומטיים, תהליך שלוקח בדרך כלל 10–15 שנים, ומספק חלון זמן יקר ערך לגילוי מוקדם ולהתערבות. עלייה של 1% בשיעור גילוי האדנומה (ADR) יכולה להפחית את הסיכון לסרטן המעי הגס בכ-3%, ולהפחית משמעותית את תמותת המטופלים¹. קולונוסקופיה, הנחשבת לסטנדרט הזהב לסקר סרטן המעי הגס, מאפשרת הסרה ישירה של פוליפים במהלך הבדיקה, ובכך מפחיתה ביעילות את שכיחות הסרטן והתמותה.

עם זאת, קולונוסקופיה קונבנציונלית תלויה מאוד בניסיון ובמיומנות של האנדוסקופיסטים. גורמים כמו שיפוט סובייקטיבי, עייפות ויזואלית והסחת דעת עלולים להוביל לשיעור החטאות של 20%–30%, מה שמשפיע ישירות על יעילות הסקר². לכן, פיתוח מערכות זיהוי בעזרת מחשב (CAD) לסגמנטציה אוטומטית של פוליפים במעי הגס חשוב מאוד לשיפור ADR ולהפחתת אבחנות שלא נענו. סקרים קליניים עדכניים הדגישו עוד יותר את העניין בשילוב בינה מלאכותית בתהליכי הערכת נגעים אנדוסקופיים, ומחזקים את הצורך בשיטות סגמנטציה חזקות וניתנות לשחזור³.

בשנים האחרונות, למידה עמוקה השיגה התקדמות מרשימה בניתוח תמונות רפואיות, במיוחד ברשתות עצביות קונבולוציוניות (CNNs), המדגימות יכולת חזקה בחילוץ וייצוג תכונות למשימות סגמנטציה^{של תמונה 4}. כמודל סגמנטציה רפואי קלאסי, U-Net משתמש בארכיטקטורת מקודד-מפענח סימטרית ומדלג על חיבורים להשגת סגמנטציה מדויקת ברמת הפיקסלים, והופך לאבן דרך בתחום^זה. בהתבסס על U-Net, הוצעו ארכיטקטורות משופרות רבות כדי להתמודד עם משימות מורכבות של חלוקת תמונות רפואיות. UNet++ מצמצם את הפער הסמנטי בין מפות תכונות של המקודד למפענח על ידי הכנסת חישורים מקוננים ודילוג צפוף⁶. ResUNet++ משלבת בלוקים שאריתיים, מודולי סחיטה וגירור, קונבולוציות מורחבות ומנגנוני קשב, ומשיגה ביצועים חזקים בחלוקת פוליפים⁷. U^2-Net מאמץ מבנה מקונן בצורת U דו-רמות כדי ללכוד מידע תכונות רב-קנה מידה⁸. בשנים האחרונות הוצע רשת חלוקה עמוקה מבוססת מקודד כפול, המנצלת מסלולי קידוד ופענוח מקבילים לשיפור דיוק הסגמנטציה⁹.

בינתיים, הכנסת מנגנוני קשב מספקת פתרונות חדשים לשיפור תכונות ודיכוי רעשים. Attention U-Net משתמש בשערי קשב כדי להתמקד באזורים יעדיים תוך דיכוי מידע רקע לא רלוונטי¹⁰. רשת הקשב הכפולה (DANet) משקלת באופן אדפטיבי תכונות הן מערוץ והן מממד מרחבי¹¹, ומשפרת את תפיסת התכונות הקריטיות. רשתות Triple Attention (TANet) משפרות עוד יותר את ביצועי הסגמנטציה באמצעות בחירה אדפטיבית של תכונות רב-קנה מידה¹².

עם הצלחת ארכיטקטורות טרנספורמרים בעיבוד שפה טבעית וראיית מחשב¹³, חוקרים החלו לחקור את יישומן בסגמנטציה רפואית של תמונות. TransUNet הייתה הראשונה שהשתמשה בטרנספורמר כמקודד למידול תלותיות לטווח ארוך ביעילות¹⁴. Swin-UNet מאמצת ארכיטקטורת טרנספורמר טהורה ומשיגה אגרגציה גלובלית יעילה של מידע באמצעות מנגנון חלון מוזז¹⁵. UTNet מציעה ארכיטקטורה היברידית המשלבת את יכולת חילוץ התכונות המקומית של CNN עם יכולת המידול הגלובלית של Transformers¹⁶.

בתחום סגמנטציה של פוליפים, Polyp-PVT עושה שימוש בממיר ראיית פירמידה כדי ללכוד מידע סמנטי גלובלי רב-קנה מידה¹⁷, בעוד UNet מקונן רב-קנה מידה משפר את ההבנה הקונטקסטואלית על ידי שילוב Transformers¹⁸. מחקרים אחרונים בחנו גם אסטרטגיות למידה עם קורלציה שלילית לסגמנטציה בין תחומים^{פוליפים 19}, שיפור סגמנטציה מוגבר על ידי גומפרץ²⁰, וארכיטקטורות מבוססות קשב המשלבות הנחיית גבול²¹. למרות שגישות אלו משפרות במידה מסוימת את ביצועי הסגמנטציה, סגמנטציה של פוליפים עדיין מתמודדת עם מספר אתגרים. ראשית, פוליפים מציגים הטרוגניות גבוהה במורפולוגיה, בגודל ובמרקם, החל ממיקרו-פוליפים קטנים מ-5 מ"מ ועד לפוליפים גדולים העולים על 30 מ"מ, עם צורות הנעות מעגליות ואליפטיות ועד צורות לא סדירות מאוד. שנית, סביבת המעי מורכבת ומשתנה, שבה קפלים ריריים, השתקפויות ספקולריות, שאריות צואה ופסולת מזון גורמים להפרעות רקע חמורות. שלישית, פוליפים רבים בעלי גבולות מטושטשים, עשויים להיות מוסתמים חלקית על ידי קפלים, או טבולים בנוזלי מעיים, מה שהופך את מיקום הגבולות המדויק למאתגר מאוד²².

השיטות הקיימות עדיין מציבות מגבלות ברורות בהתמודדות עם אתגרים אלה. CNNים מסורתיים יעילים בהפקת מרקם מקומי ותכונות קצה; עם זאת, גרעיני קונבולוציה מרובעים קבועים אינם מתאימים ללכידת צורות גאומטריות מגוונות²³, במיוחד עבור פוליפים לא סדירים במיוחד, ואינם יכולים למודל ביעילות תכונות גאומטריות רב-כיווניות. שיטות מבוססות טרנספורמרים יכולות למודל תלות גלובלית אך פחות יעילות בלכידת פרטים מקומיים עדינים ומידע על גבולות. יתרה מזאת, המורכבות החישובית הגבוהה שלהם הופכת אותם לפחות מתאימים ליישומים קליניים בזמן אמת²⁴. גישות פילוח פוליפים עדכניות כמו PraNet, המשתמשת במודולי קשב הפוך לשיפור אזורים מרכזיים²⁵, רשתות קשב מונחות גבול שמשפרות את חילוץ תכונות הגבול²⁶, ו-CAFE-Net, שמאחד תכונות מקודד ומפענח דרך מנגנוני קשב צולב²⁷, עדיין נתקלות בייצוג תכונות לא מספק ומיקום לא מדויק של הגבולות כאשר מטפלים בפוליפים קטנים²⁸, גבולות מטושטשים ורקעים מורכבים. יתרה מזאת, רוב השיטות מתעלמות ממורפולוגיה גיאומטרית ואינן מנצלות במלואן מידע הקשרי רב-כיווני, מה שמוביל לחלוקה לא אופטימלית של פוליפים בעלי צורה לא סדירה.

לסיכום, שיטות מבוססות CNN כיום אינן מסוגלות ללכוד תכונות גאומטריות רב-כיווניות בשל התלכותן על גרעיני קונבולוציה מרובעים קבועים. גישות מבוססות טרנספורמרים מציעות מידול גלובלי אך מקריבות דיוק גבול מקומי ומטילות עלויות חישוביות גבוהות. בינתיים, אסטרטגיות קיימות לשיפור קשב והיתוך רב-קנה מידה לא אופטימיזציה משותפת במסגרת אחידה המותאמת במיוחד לחלוקת פוליפים²⁹. פערים אלו מניעים את פיתוח שיטה המתמודדת בו-זמנית עם מידול תכונות גאומטריים, דיכוי רעש אדפטיבי ואינטגרציה של תכונות בקנה מידה חוצה קנה מידה.

כדי להתמודד עם סוגיות אלו, פרוטוקול זה מציג רשת סגמנטציה של פוליפים המבוססת על קונבולוציה של גלגל סיניים ותשומת לב כפולה (PWD-Net). הרשת המוצעת משלבת מידול תכונות גיאומטריות, שיפור קשב רב-ממדי ומיזוג תכונות רב-קנה מידה, המאפשרת סגמנטציה מדויקת של פוליפים מורכבים. התרומות העיקריות של עבודה זו מסוכמות כך: מודול הקונבולוציה של גלגל הסיניים (PCM), בהשראת מבנה גלגל הסיכות, מוצע עיצוב חדשני של גרעין קונבולוציה מסובב שלוכד תכונות גאומטריות רב-כיווניות של פוליפים באמצעות פעולות קונבולוציה בזוויות מרובות (0°, 45°, 90°, 135°, 180°, 225°, 270°, ו-315°). מודול זה מחליף את שכבת הקונבולוציה הקונבנציונלית בשלב צוואר הבקבוק, ומאפשר תפיסה יעילה של כיווני קצוות מגוונים ומשפר משמעותית את הייצוג של פוליפים בעלי צורה לא סדירה. מנגנון תשומת הלב הכפולה (DAM) מטפל ברעשי רקע כגון קפלים, השתקפויות ושאריות צואה בתמונות קולונוסקופיה. מודול קשב כפול המשלב קשב ערוץ וקשב מרחבי. בתוך חיבורי דילוג, מודול זה מדכא באופן אדפטיבי הפרעות רקע ומחזק את תגובות התכונות באזורים פוליפים על ידי זיהוי משותף של "מה" חשוב (מימד הערוץ) ו"היכן" המטרה ממוקמת (ממד מרחבי), ומבטיח שרק תכונות מעודנות מעורבות במיזוג הבא. אסטרטגיית מיזוג תכונות רב-קנה מידה (MSF) שומרת הן על מידע סמנטי עמוק והן פרטי גבול רדודים באמצעות מנגנון היררכי שהוכנס למפענח. על ידי שילוב הדרגתי של תכונות מקודד משודרגות על ידי DAM עם תכונות מפענח עם דגימה מוגברת, אסטרטגיה זו מפצה ביעילות על אובדן פרטים מרחבי הנגרם על ידי דגימה קטנה, ומאפשרת זיהוי מדויק של פוליפים קטנים והגדרת גבולות מדויקת.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מחקר זה משתמש רק במאגרי נתוני קולונוסקופיה אנונימיים זמינים לציבור (Kvasir-SEG). לא נאספו נתונים חדשים של נבדקים אנושיים. לא נדרשו אישור אתיקה מוסדית והסכמת מטופל מדעת, כפי שאושר במדיניות הסקירה המוסדית לניתוחים רטרוספקטיביים של מאגרי נתונים ציבוריים שלא זוהו.

1. הכנת נתונים

הורד את מאגר הנתונים של Kvasir-SEG מהמאגר הרשמי 33 (https://datasets.simula.no/kvasir-seg/). מאגר הנתונים מכיל 1,000 תמונות פוליפים עם מסכות אמת קרקעיות ברמת פיקסל מתאימות.
חלק את מערך הנתונים באקראי לקבוצות אימון (800 תמונות), אימות (100 תמונות) ובדיקות (100 תמונות) ביחס של 8:1:1 באמצעות זרע אקראי קבוע (seed = 42). ודאו שאין חפיפה בין שלוש תתי-הקבוצות כדי למנוע דליפת נתונים.
שינוי גודל כל התמונות והמסכות המתאימות ל-352 על 352 פיקסלים באמצעות אינטרפולציה ביליניארית לתמונות ואינטרפולציה של שכנים קרובים למסכות.
נרמול ערכי פיקסלים ל-[0, 1] על ידי חלוקה ב-255, ואז מיישם חיסור ממוצע לפי ערוץ של ImageNet (0.485, 0.456, 0.406) ונירמול סטיית תקן (0.229, 0.224, 0.225).
ייסלו את הטרנספורמציות הבאות על קבוצת האימון בלבד (לא על מערכות האימות או הבדיקות): היפוך אופקי אקראי (הסתברות = 0.5); היפוך אנכי אקראי (הסתברות = 0.5); סיבוב אקראי (טווח: −30° עד +30°, הסתברות = 0.5); שינוי גודל אקראי רב-קנה מידה (גורם קנה מידה: 0.75 עד 1.25, הסתברות = 0.5)
הערה: החלו טרנספורמציות מרחביות זהות הן על התמונה והן על המסכה המתאימה כדי לשמור על יישור. בדוק את נכונות ההגדלה על ידי בדיקה ויזואלית של מספר זוגות תמונה-מסכה מוגברות לפני תחילת האימון.

2. ארכיטקטורה כוללת

הערה: עיין באיור 1 עבור עמוד השדרה של המקודד-מפענח ברמת המקרו של PWD-Net, ובאיור 2 לאינטגרציה ואינטראקציה של מודולי הליבה בתוך זרימת התכונות. הארכיטקטורה הכוללת מתבססת על עיצוב מקודד-מפענח בצורת U כדי להתמודד עם וריאציות בקנה מידה של פוליפים והפרעות רקע בתמונות קולונוסקופיה.

עמוד שדרה ונתיב קידוד (איור 1)
1. השתמש ב-ResNet-50 מאומן מראש ב-ImageNet (שמקורו בגן החיות הרשמי של דגמי PyTorch) כמקודד עמוד השדרה30. כוונן את כל שכבות המקודד במהלך האימון.
2. הזן את תמונת הקולונוסקופיה הנכנסת (שגדלה ל-352 על 352 פיקסלים) דרך חמישה שלבים של בלוקים קונבולוציוניים שאריתיים כדי להפיק תכונות היררכיות. הרזולוציה המרחבית של מפות תכונות מדגימה בהדרגה מ-ל- לאורך חמשת השלבים, בעוד שממדי התעלה גדלים בהתאם (64 → 128 → 256 → 512 → 1024).
3. בצוואר הבקבוק (שכבת המקודד העמוקה ביותר), יש להחליף את שכבת הקונבולוציה הסטנדרטית במודול קונבולוציה של גלגל הסיניים (PCM, המתואר בסעיף 3) כדי ללכוד את המורפולוגיה הגיאומטרית הגלובלית ואת המידע ההקשרי הרב-כיווני ברזולוציה נמוכה.
  הערה: חמשת שלבי המקודד מתאימים לקבוצות השכבות הסטנדרטיות של ResNet-50: conv1, layer1, layer2, layer3 ו-layer4. משקולות מאומנות מראש מספקות אתחול תכונות ברמה נמוכה ובינונית, ומקצרות את זמן ההתכנסות במאגרי נתונים רפואיים קטנים.
רכיבים מרכזיים ואינטראקציה בין תכונות (איור 2 ואיור 3)
1. החלו את מנגנון תשומת הלב הכפולה (DAM, המתואר בסעיף 4) על הפלט של כל שלב מקודד לפני שידרו למפענח באמצעות חיבורי דילוג. שלב זה מדכא באופן אדפטיבי רעש רקע הנוצר על ידי קפלי מעיים והחזרות ספקולריות, תוך חיזוק תגובת התכונות באזורים פוליפים. רק התכונות המסוננות מועברות לשכבת המפענח המתאימה.
2. במפענח, יש לשחזר בהדרגה את הרזולוציה המרחבית באמצעות דגימה דו-ליניארית. בכל שכבת מפענח, יש לאחד את התכונות המוגברות מהשלב הקודם של המפענח עם תכונות המקודד המשופרות על ידי DAM באותה רזולוציה מרחבית.
3. החלו שתי שכבות קונבולוציונליות עוקבות (כל אחת אחריה נרמול אצווה והפעלת ReLU) כדי למזג את המידע רב-קנה מידה. זהו אסטרטגיית מיזוג תכונות רב-קנה מידה (MSF) המתוארת בסעיף 5.
  הערה: המפענח מתקדם משכבות עמוקות לרמות רדודות (שלב 5 → שלב 1), ומבטיח שמידע על לוקליזציה סמנטית עמוקה ומידע על פרטי גבולות רדודים משולבים ביעילות בכל רמה.
יצירת פלט
1. החלו שכבה קונבולוציונית ואחריה פונקציית הפעלה של סיגמואיד על פלט המפענח הסופי כדי ליצור את מסכת החיזוי.
2. ביניריזציה של מסכת החיזוי באמצעות סף של 0.5 כדי לקבל את תוצאת הסגמנטציה הסופית, כאשר פיקסלים עם הסתברות חזויה ≥ 0.5 מסווגים כפוליפ והפיקסלים הנותרים כרקע.

3. מודול קונבולוציה של גלגל סיניים (איור 3)

מודול הקונבולוציה של גלגל הסיניים (PCM) מחליף את קונבולוציה צוואר הבקבוק הסטנדרטית כדי ללכוד תכונות גאומטריות רב-כיווניות של פוליפים. מימוש מודול זה כך:
1. הגדר ליבת קונבולוציה בסיסית W בגודל 3 x 3 עם C_בערוצי הכניסה ו-C_{ערוצי יציאה} .
2. הגדר את קבוצת זוויות הסיבוב Θ = {0°, 45°, 90°, ..., 315°}. לכל זווית θ ∈ Θ, נוצר את הגרעין המסובב W_θ על ידי יישום סיבוב ביליניארי מבוסס אינטרפולציה על W. כל שמונת הגרעינים המסתובבים חולקים את אותם פרמטרים בסיסיים; רק הסידור המרחבי של המשקלים שונה.
3. לכל זווית θ, מחשבים את מפת התכונות הספציפית לכיוון:
  
  כאשר X היא מפת תכונת הקלט.
4. אגד את שמונת התכונות הכיווניות באמצעות רצף ערוץ לאורך ציר התעלה, ויוצר טנזור מממד (8 x C_החוצה) x H x W. לאחר מכן מיישמים קונבולוציה של 1 על 1 כדי להקטין את ממד הערוץ חזרה_{ל-C out}, ואחריה נרמול אצווה והפעלת ReLU³¹:
  
  הערה: הסיבוב והאינטרפולציה מתבצעים על משקלי הליבה, לא על מפת תכונות הקלט. עיצוב זה מאפשר חילוץ תכונות רב-כיווני יעיל מבחינת פרמטרים מבלי להעלות את רזולוציית הקלט. במימוש הנוכחי, C_in = 1024 ו-C_out = 1024 בשלב צוואר הבקבוק, בהתאם לממד ערוץ הפלט של שכבת ResNet-50. עיין בחבילת הקוד המשלימה למימוש המלא.

4. מנגנון קשב כפול (איור 4)

הערה: מנגנון תשומת הלב הכפולה (DAM) מוטמע בכל חיבור דילוג כדי לדכא רעש רקע ולשפר תכונות אזור פוליפ הן מערוץ והן מממדים מרחביים.

Channel Attention
ענף תשומת הלב של הערוצים מזהה אילו ערוצי תכונה הם המידעיים ביותר. בהינתן תכונת קלט F ∈ R^C×H×W:
1. דחסו את הממדים המרחביים באמצעות Global Average Pooling לקבלת מתאר ערוץ z ∈ R^C×1×1.
2. העבר את z דרך MLP דו-שכבתי (שכבות מחוברות במלואן) עם יחס הפחתה r = 16. השכבה הראשונה מצמצמת את הממד מ-C ל-C/16 עם הפעלת ReLU; השכבה השנייה מחזירה אותו מ-C/16 ל-C באמצעות הפעלה סיגמואיד ליצירת וקטור משקל הערוץ A_c:
  
  כאשר δ מסמל ReLU ו-σ מסמל את סיגמויד.
תשומת לב מרחבית
ענף תשומת הלב המרחבית ממקם את האזורים היעדיים:
1. מיישמים גם איגום מקסימלי וגם איכוב ממוצע לאורך ממדי הערוץ כדי ליצור שתי מפות תכונות דו-ממדיות בגודל 1 x H x W.
2. מחברים את שני המפות לאורך ציר הערוץ ליצירת טנזור בגודל 2 x H x W. הניחו שכבה קונבולוציונית בגודל 7 על 7 ואחריה הפעלה סיגמואידית ליצירת מפת משקל מרחבית A_s ∈ R^1×H×W:
פיצ'ר פיוז'ן
1. מאחד את פלטי הערוץ והקשב המרחבי עם תכונת הקלט באמצעות כפל לפי אלמנט:
  
  כאשר α ו-β הם מקדמי איזון ניתנים ללמידה, שניהם מאותחלים ל-0.5 ומתעדכנים יחד עם פרמטרי הרשת באמצעות אופטימיזציה מבוססת גרדיאנט במהלך האימון.
  הערה: עיין בחבילת הקוד המשלימים (dam_module.py) למימוש מלא.

5. מיזוג תכונות רב-קנה מידה

יישמו את אסטרטגיית מיזוג תכונות רב-קנה מידה (MSF) במפענח כדי להתמודד עם אובדן פרטים מרחבי בתכונות עמוקות. בכל שלב מפענח, בצע את הדברים הבאים:
העלו את מפת התכונות משלב המפענח הקודם בפקטור של 2 באמצעות אינטרפולציה בילינארית.
מחברים את התכונות המוגברות עם תכונות המקודד המוגברות על ידי DAM ברזולוציה המרחבית המתאימה לאורך ציר הערוץ.
הניחו שתי שכבות קונבולוציה רצופות של 3 על 3 (כל אחת אחריה נרמול אצווה והפעלה של ReLU³²) כדי למזג את התכונות המקושרות.
הערה: מיזוג חוצה רמות זה מבטיח שפרטי הגבול של פוליפים (המסופקים על ידי תכונות מקודד רדוד) ולוקאליזציה סמנטית (המסופקת על ידי תכונות עמוקות) נשמרים בו-זמנית, ויוצרים תוצאות סגמנטציה מדויקות.

6. פונקציית אובדן ותצורת אימון

פונקציית אובדן
1. פונקציית אובדן היברידית L_total מאומצת כדי לאופטימיזציה משותפת של הרשת, תוך התמודדות עם חוסר האיזון הנפוץ בין החזית לרקע במחלקות בחלוקת פוליפים.
  אובדן אנטרופיה בינארית (L_BCE) מודד את דיוק הסיווג ברמת הפיקסל:
  
  כאשר N הוא סך כל הפיקסלים, y_i ∈ {0,1} היא תווית אמת יסודית, ו-ŷ_i ∈ [0,1] היא ההסתברות החזויה.
2. אובדן קוביות (L_Dice) מכמת את הדמיון הקבוצתי בין האזורים החזויים לאזורי האמת הקרקעית:
  
  כאשר ε הוא גורם החלקה (מוגדר ל-1 x 10⁻⁵) כדי להימנע מחלוקה באפס.
  הגדר λ = 0.5 כדי לאזן את התרומות של שני איבר ההפסד.
תצורת אימון
1. אתחול את המקודד עם משקולות ResNet-50 מאומנות מראש ב-ImageNet. אתחול כל שכבות המפענח, פרמטרי PCM ו-DAM באמצעות אתחול אחיד של Kaiming.
2. הגדר את האופטימייזר ולוח הזמנים להדרכה כדלקמן. השתמש באופטימייזר אדם עם β₁ = 0.9 ו-β₂ = 0.999. הגדר את קצב הלמידה ההתחלתי ל-1 x 10⁻⁴. הפעילו לוח זמנים לקצב למידה עם אנילינג קוסינוס עם_{T max} = 50 ו-η_min = 1 x 10⁻⁶. השתמש בגודל אצווה של 16 ותאמן את המודל ל-50 אפוקים.
3. לאמן את המודל ל-50 אפוקים על סט האימון (800 תמונות). בסוף כל תקופה, העריכו את המודל על מערך האימות (100 תמונות) תוך שימוש במקדם הקוביות כמדד ניטור עיקרי.
4. שמור את נקודת הביקורת של המודל שמשיגה את מקדם הקוביות הגבוה ביותר בקבוצת הוולידציה. השתמש בנקודת ביקורת זו כמודל סופי לכל הערכות הבאות על קבוצת הבדיקה.
  הערה: עצירה מוקדמת אינה מיושמת במפורש. אסטרטגיית בחירת נקודות ביקורת קוביות לאימות הטוב ביותר משמשת כקריטריון בחירת המודל. כל הניסויים מתבצעים באמצעות סביבת החומרה והתוכנה המפורטת בטבלת החומרים. אימון ל-50 אפוקים על 800 תמונות לוקח כ-2 שעות בתצורה המתוארת. כל התוצאות המדווחות מתקבלות מריצת אימון אחת באמצעות הזרע האקראי שצוין (seed = 42). עיין בחבילת הקוד המשלים עבור סקריפט ההדרכה המלא.

7. פסאודו-קוד

השתמש באלגוריתם 1 כמפת זרימת העבודה המלאה עבור PWD Net. התאם את בלוקי PCM, DAM, הארכיטקטורה הראשית וצינור האימון באלגוריתם עם הקבצים המתאימים בחבילת הקוד המשליפה.
מימוש בלוק ה-PCM המוצג בקווים 4 עד 12. הגדר גרעין בסיס של קונבולוציה 3 על 3 ויצר שמונה גרעינים מסתובבים בזווית 0°, 45°, 90°, 135°, 180°, 225°, 270°, ו-315°, באמצעות אינטרפולציה בילינארית.
שמור על אותם פרמטרים בסיסיים ללמידה לכל גרעיני PCM מסובבים. עבור כל זווית סיבוב, חשב מפת תכונה אחת ספציפית לכיוון.
לאחד את שמונת מפות התכונות של PCM לאורך ממד הערוץ. החלו קונבולוציה של 1 על 1, נרמול אצווה והפעלה של ReLU כדי לשחזר את ממד הערוץ המקורי.
מימוש בלוק ה-DAM המוצג בקווים 14 עד 19. הפעילו את Global Average Pooling ליצירת מתאר הערוץ, ואז העבירו דרך MLP דו-שכבתי עם יחס הפחתה של 16 כדי לקבל משקלי ערוצים.
יצר את מפת תשומת הלב המרחבית על ידי יישום איגוד ממוצע לפי ערוץ ומקסימום איגוד על תכונת הקלט. חבר את שתי המפות ועבד אותן עם קונבולוציה של 7 על 7 ואחריה הפעלה של סיגמואיד.
מאחד את ערוץ ה-DAM ויציאות הקשב המרחבי עם תכונת הקלט באמצעות כפל לפי אלמנט. שקלו את שני מפות הקשב במקדמים ניתנים ללמידה α ו-β, שניהם מאותחלים ל-0.5.
בנה את ארכיטקטורת הרשת הראשית של PWD המוצגת בקווים 21 עד 32. העבר את תמונת הקלט דרך חמישה שלבים של מקודד ResNet 50 מאומן מראש כדי לקבל e1 עד e5, כאשר הרזולוציה המרחבית יורדת מ-H x W ל-H/32 x W/32.
מרח PCM על e5 בצוואר הבקבוק. החלו DAM על e1 ל-e4 לפני שליחת התכונות הללו למפענח דרך חיבורי דילוג.
פענח את מפת התכונות משכבות עמוקות לרמות רדודות. בכל רמת מפענח, העלו דגימה לתכונה הקודמת, חיברו אותה עם תכונת המקודד המשופר DAM המתאימה, והחלו את DoubleConv למיזוג תכונות.
יצר את פלט הסגמנטציה עם קונבולוציה של 1 על 1 ואחריה הפעלה של סיגמואיד. השתמשו במפת ההסתברות הפיקסלית שהתקבלה כמסכה החזויה.
מיישם את לולאת האימון שמוצגת בשורות 34 עד 39. בכל תקופה, יש לבצע הפצה קדימה דרך PWD Net ולחשב את המסכה החזויה.
חשב את אובדן האימון כ-0.5 x הפסד BCE ועוד 0.5 x הפסד קוביות. עדכן את כל הפרמטרים הניתנים ללמידה עם האופטימיזציה של אדם באמצעות backpropagation.

אלגוריתם 1: סגמנטציה של פוליפים PWD-Net
1: קלט: תמונת קולונוסקופיה I ∈ R^H×W×3
2: תפוקה: Segmentation mask M ∈ {0,1}^(H×W)
3:
4: פונקציה PCM(X) ▷ מודול קונבולוציה בגלגל הסיניים
5: הגדר גרעין בסיס W (3 x 3), זוויות Θ = {0°, 45°, ..., 315°}
6: עבור כל θ ∈ Θ עשה
7: W_θ ← BilinearRotate(W, θ) ▷ גרעין סיבוב
8: Y_θ ← Conv2d(X, W_θ) ▷ תכונות ספציפיות לכיוון
9: סוף עבור
10: Y_← ReLU(BN(Conv1 x 1(Concat({_{Y θ}})))) ▷ אגרגט
11:_{החזרת Y}
12: פונקציית סוף
13:
14: פונקציה DAM(F) ▷ מנגנון קשב כפול
15: A_c ← סיגמואיד (MLP(AvgPool(F))) ▷ קשב ערוץ (r=16)
16: A_s ← Sigmoid (Conv7 x 7([AvgPool(F); MaxPool(F)])) ▷ תשומת לב מרחבית
17: F' ← F ⊗ (α · A_c + β · A_s) ▷ מיזוג עם α ללמידה, β (init=0.5)
18: חזרה F'
19: פונקציית סוף
20:
21: פונקציה PWD-Net(I)
22: מקודד: e₁,_{e 2},_{e 3},_{e 4}, e₅ ← ResNet50_Stages(I) ▷ מקודד מאומן מראש בעל 5 שלבים
23: צוואר בקבוק: b ← PCM(e₅) ▷ החלו PCM בצוואר בקבוק
24: דילוג על חיבורים: s_i ← DAM(e_i) עבור i = 1, 2, 3, 4 ▷ תכונות מקודד מסנן
25: מפענח:
26: d₄ ← DoubleConv(Concat(Up(b),_{s 4}))
27: d₃ ← DoubleConv(Concat(Up_{(d 4}),_{s 3}))
28: d₂ ← DoubleConv(Concat(Up_{(d 3}),_{s 2}))
29: d₁ ← DoubleConv(Concat(Up_{(d 2}),_{s 1}))
30: M ← סיגמואיד (Conv1 x 1(d₁))
31: חזרה M
32: פונקציה סופית
33:
34: אימונים:
35: לכל תקופה עשה
36: M̂ ← PWD-Net(I)
37: L ← 0.5 · BCE(M̂,_{M gt}) + 0.5 · DiceLoss(M̂, M_gt) ▷ λ = 0.5

38: עדכן פרמטרים באמצעות backpropagation (אדם אופטימיזציהr)
39: סוף עבור

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

סידור ניסיוני
מערך נתונים

מערך הנתונים של Kvasir SEG שימש להערכת התנהגות הפיצול של PWD Net בתמונות קולונוסקופיה עם הופעות פוליפים הטרוגניות. מאגר הנתונים מכיל 1,000 תמונות פוליפים מוערות בפיקסלים וכולל שונות בגודל, צורה, מרקם, תאורה ומורכבות הרקע, מה שהופך אותו למתאים להערכת זיהוי מטרות קטנות, מיקום גבולות ועמידות להפרעות ויזואליות. מערך הנתונים חולק לתת-קבוצות אימון, אימות ומבחן, וקבוצת הבדיקות הסופית שימשה רק להערכת ביצועים. התפלגות התמונות מסוכמת בטבלה 1.

פרטי יישום

הגדרות היישום הנדרשות לשחזוריות מסוכמות בטבלה 2, ופרטי הפרוצדורל המלאים מסופקים בשלבי הכנת הנתונים ובסעיף 5.2 של הפרוטוקול. לפרשנות התוצאות, כל הניסויים המדווחים השתמשו באותה רזולוציית קלט, סביבת חומרה ותנאי הערכה המפורטים בטבלת החומרים. הערכים המדווחים מבוססים על נקודת הבדיקה הנבחרת של קוביות הקוביות מתוך ריצה אחת באמצעות seed = 42, ולכן יש לפרש את התוצאות כביצועים תחת חלוקה ניסויית קבועה ולא כתוצאות ממוצעות של אימות צולב.

מדדי הערכה

ביצועי הסגמנטציה הוערכו באמצעות מקדם Dice, חיתוך על איחוד, דיוק ברמת פיקסל ומהירות הסקה. מקדם קוביות וחיתוך מעל איחוד שימשו כמדדים ראשוניים מבוססי חפיפה משום שהם משקפים ישירות את ההתאמה בין המסכה החזויה לאזור הפוליפ המוערך על ידי המומחה. דיוק ברמת הפיקסלים דווח כמדד משלים משום שתמונות קולונוסקופיה לעיתים קרובות מכילות אזורים גדולים ברקע. מהירות ההסקה, שדווחה כפריימים לשנייה, נכללה כדי להעריך האם המודל שומר על יעילות חישובית מעשית תוך שיפור איכות הסגמנטציה.

השוואה לשיטות קיימות
כדי להדגים את ההתנהגות והיעילות של PWD-Net, מתבצעת השוואה עם חמש שיטות סגמנטציה מייצגות של פוליפים: CBSA (רשת קשב מרחבי מוגבר בערוץ)³⁴, FSSA (רשת קשב מרחבי משותפת תכונות), MSF (רשת מיזוג רב-קניות), Pinwheel Conv (קו בסיס של Pinwheel Convolution ללא מודולי קשב או מיזוג), ו-PolaLinear (רשת קשב ליניארית מקוטבת). כל שיטות ההשוואה מיושמות מחדש באמצעות קודי המקור הרשמיים שלהן ומאומנות על אותו סט אימון Kvasir-SEG (800 תמונות) תחת עיבוד מוקדם, רזולוציית קלט (352 x 352) והגדרות הערכה זהות כדי להבטיח השוואה הוגנת. טבלה 3 מציגה את התוצאות הכמותיות על קבוצת הבדיקות.

כפי שמוצג בטבלה 3, PWD-Net משיג מקדם קוביות של 0.865 ו-IoU של 0.765, המייצגים שיפור של 1.8% בקוביות ו-4.8% ב-IoU בהשוואה לשיטה הבאה הטובה ביותר (CBSA). ראוי לציין כי PWD-Net משיג זאת עם 9.1 מיליון פרמטרים, לעומת 18.4 מיליון פרמטרים ל-CBSA, מה שמעיד על יעילות חיובית. בעוד ש-PolaLinear ו-Pinwheel-Conv מציעים מהירויות הסקה מהירות יותר (79 ו-72 FPS, בהתאמה), דיוק הסגמנטציה שלהם נמוך באופן ניכר, מה שמרמז ש-PWD-Net מספק איזון סביר בין דיוק לעלות חישובית עבור מערך הנתונים המוערך. כדי להמחיש את התנהגות הסגמנטציה האיכותית, נבחרו חמישה דגימות בדיקה מייצגות המכסות פוליפים קטנים, פוליפים גדולים, רקעים מורכבים וגבולות מטושטשים להשוואה ויזואלית. איור 5 מציג את תוצאות הסגמנטציה של ארבע שיטות השוואה נבחרות (CBSA, FSSA, MSF, ו-PWD-Net) לצד האמת הקרקעית. כל עמודת חיזוי מתויגת בשם השיטה המתאים. Pinwheel-Conv ו-PolaLinear לא נכללו בתרשים זה למען בהירות ויזואלית, שכן הביצועים הכמותיים שלהם נמוכים משמעותית; איור זה מייצג לכן תת-קבוצה נבחרת של השיטות שהושוו בטבלה 3.

כפי שמוצג באיור 5, בתרחישי פוליפים קטנים (השורות הראשונה והחמישית), FSSA ו-MSF מציגים זיהויים מפספסלים, בעוד ש-PWD-Net לוכד את המטרות באופן מלא יותר. בתרחישי פוליפים גדולים (שורות שנייה ושלישית), CBSA ו-FSSA מייצרים אי-סדירויות בולטות בגבולות, בעוד ש-PWD-Net מייצר גבולות חלקים יותר. בתרחיש הגבול המטושטש (השורה הרביעית), PWD-Net מדגים דיכוי יעיל של רעש רקע באמצעות מנגנון תשומת לב כפולה.

מחקר אבלציה
כדי לנתח את תרומתו של כל רכיב מרכזי ב-PWD-Net, מתבצע מחקר אבלציה שיטתי. באמצעות ResNet-50 כמקודד עמוד השדרה ליצירת מודל הבסיס, מודול Pinwheel Convolution (Pinwheel Module), Dual-Attention Mechanism (Dual-Attn) ו-Multi-Scale Feature Fusion (MSF) משולבים בהדרגה. טבלה 4 מסכמת את התוצאות הכמותיות.

הממצאים המרכזיים מטבלה 4 ניתנים לסיכום כך. ראשית, הוספת מודול בודד משפרת את ביצועי מודל הבסיס. מנגנון הקשב הכפול מביא את ההישגים הבולטים ביותר (קוביות: +2.0%, IoU: +2.7%), התומך ביעילות של דיכוי רעש אדפטיבי. מודול הקונבולוציה Pinwheel תורם שיפור של 1.6% בקוביות, מה שמעיד על היתרון של חילוץ תכונות רב-כיווני לצורות פוליפים לא סדירות. שנית, שילוב של קונבולוציה של גלגל סיניים ומנגנון תשומת לב כפולה מעלה עוד יותר את הביצועים ל-Dice = 0.858 ו-IoU = 0.748, מה שמרמז על השלמה בין שני המודולים. לבסוף, ה-PWD-Net המלא (הכולל את שלושת המודולים) משיג את הביצועים הנצפים הטובים ביותר (Dice = 0.865, IoU = 0.765), עם שיפורים של 3.3% ו-6.0%, בהתאמה, בהשוואה לקו הבסיס, מה שמדגים את תרומתו של כל רכיב מוצע למערך נתונים זה.

ניתוח תהליכי הכשרה
כדי להמחיש את דינמיקת האימון ומאפייני ההתכנסות של PWD-Net, מדדי ביצועים מרכזיים מתועדים ומוצגים לאורך 50 תקופות אימון. איור 6 מציג את השינויים בפונקציית ההפסד, מקדם הקוביות, IoU והדיוק במהלך האימון.

כפי שמוצג באיור 6(א), גם אובדן האימון וגם אובדן האימות יורדים במהירות בתוך עשרת התקופות הראשונות ואז מתייצבים בהדרגה. אובדן האימות נשאר מעט גבוה יותר מאובדן האימון לאורך כל הדרך, אך שתי העקומות עוקבות אחרי מגמה עקבית עם פער קטן, מה שמעיד שהמודל אינו סובל מהתאמה חמורה. איור 6(b) מראה שמקדם הקוביות עולה בחדות בשלב האימון המוקדם, מתכנס לאחר בערך התקופה ה-30, ומתייצב מעל 0.86. עקומת IoU באיור 6(c) מציגה מגמת צמיחה דומה, ומגיעה לכ-0.765 בשלב האימון המאוחר. איור 6(d) מציין שהדיוק מתכנס מעל 94%. מגמות האימות היציבות בשלבי האימון האמצעיים והמאוחרים מצביעות על כך שאסטרטגיית הגדלת הנתונים שאומצה ולוח הזמנים של חישוש הקוסינוס תורמים להפחתת התאמת יתר במאגר נתונים זה.

ביצועים בגדלי פוליפים
כדי להעריך את היישום של PWD-Net בתרחישים קליניים שונים, מערך הבדיקות (100 תמונות) מחולק לשלוש קטגוריות לפי היחס בין שטח הפוליפים לשטח התמונה הכולל: פוליפים קטנים (< 5%), פוליפים בינוניים (5%–30%) ופוליפים גדולים (> 30%). סיווג זה משקף את השפעת סולם הפוליפים על קושי הסגמנטציה. טבלה 5 מציגה את הביצועים הכמותיים בכל קטגוריה. כפי שמוצג בטבלה 5, PWD-Net משיג את הביצועים הטובים ביותר בקטגוריית פוליפים בינוניים (Dice = 0.882, IoU = 0.790), דבר התואם לייצוג הרחב יותר של קטגוריה זו (54 מתוך 100 תמונות בדיקה). הביצועים על פוליפים גדולים נשארים ברמה דומה (קוביות = 0.861, IoU = 0.760). הביצועים על פוליפים קטנים נמוכים יחסית (Dice = 0.812, IoU = 0.685), בעיקר משום שמטרות קטנות תופסות חלק קטן מהתמונה ורגישות יותר לרעשי רקע עם מידע גבול דליל יותר.

תוצאות אלו מצביעות על כך שיכולת לכידת תכונות רב-כיוונית של מודול הקונבולוציה של גלגל הסיניים ויכולת המיקום המרחבי של מנגנון תשומת הלב הכפולה תורמות לשמירה על איכות סגמנטציה סבירה בין סולמות פוליפים שונים בקבוצת הבדיקה המוערכת.

figure-results-1
איור 1: מסגרת מודל PWD-Net. המסגרת המבנית הכוללת של רשת סגמנטציה לפוליפים המוצעת, המבוססת על קונבולוציית גלגל סיניים ותשומת לב כפולה (PWD-Net), הממחישה את המקודד (ResNet-50), צוואר הבקבוק (PCM), חיבורי דילוג משופרים ב-DAM, מפענח MSF, ויצירת פלט לסגמנטציה של פוליפים במעי הגס. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

figure-results-2
איור 2: תרשים זרימה ארכיטקטורה כללי של PWD-Net. תרשים זרימה מפורט של ארכיטקטורת PWD-Net המלאה, המציג את מקודד ResNet-50 בעל חמישה שלבים, צוואר בקבוק PCM, חיבורי דילוגים ב-DAM, מפענח מיזוג תכונות רב-קנה מידה ויצירת חיזוי סופי. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

figure-results-3
איור 3: תרשים סכמטי של מודול הקונבולוציה של גלגל הסיניים. סכימה מבנית ותפעולית של מודול קונבולוציה Pinwheel המדגימה גרעיני קונבולוציה מסובבים בזוויות מרובות, סיבוב מבוסס אינטרפולציה ביליניארית, שרשור ערוצים, ואגרגציה של קונבולוציה 1 על 1. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

figure-results-4
איור 4: דיאגרמת מבנה של מנגנון הקשב הכפול. דיאגרמה אדריכלית של ה-DAM, המציגה את ענף הקשב בערוץ מקביל (Global Average Pooling → MLP עם יחס הפחתה r = 16 → סיגמואיד) וענף תשומת לב מרחבי (איגום לפי ערוץ → קונבולוציה 7 על 7 → סיגמואיד), ואחריו מיזוג משוקלל עם מקדמים ניתנים ללמידה α ו-β. אנא לחצו כאן לצפייה בגרסה מוגדלת של איור זה.

figure-results-5
איור 5: השוואה איכותנית של תוצאות סגמנטציה. כל שורה מייצגת דגימת בדיקה. עמודות משמאל לימין: תמונת קלט, Ground Truth, CBSA, FSSA, MSF, ו-PWD-Net (שלנו). Pinwheel-Conv ו-PolaLinear מושמטים מהאיור הזה למען בהירות ויזואלית; ראו טבלה 3 להשוואה הכמותית המלאה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

figure-results-6
איור 6: עקומות אימון של PWD-Net מעל 50 תקופות. (א) אובדן אימון ואימות. (ב) מקדם קוביות. (ג) הצטלבות מעל יוניון (IoU). (ד) דיוק ברמת פיקסלים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

תת-קבוצה של אימון	מספר הדגימות	פרופורציה
סט רכבת	800	80%
סט אימות	100	10%
סט מבחן	100	10%
סט כולל	1000	100%

טבלה 1: סטטיסטיקות של מאגרי נתונים. התפלגות חלוקת מערך הנתונים עבור מאגר הנתונים Kvasir-SEG (1,000 תמונות בסך הכל), המציגה את מספר התמונות והיחס שהוקצו לתת-הקבוצות של האימון, האימות והבדיקה (seed אקראי = 42).

קטגוריה	פריט פרמטר	הגדרת פרמטרים
מסגרת למידה עמוקה	מסגרת	פייטורץ'
סביבת חומרה	GPU	NVIDIA טסלה P100
שיטת האצה	האצת GPU	CUDA
הגדרות קלט	גודל תמונה קלט	352 × 352
פורמט תמונה	פורמט תמונה	תמונת RGB
אופטימייזר	אופטימייזר	אדם
קצב הלמידה ההתחלתי	LR ההתחלתי	1 × 10⁻⁴
גודל אצווה	גודל אצווה	16
תקופות האימון	תקופות	50
פונקציית אובדן	פונקציית אובדן	אובדן קוביות + BCE

טבלה 2: הגדרות פרמטרים ניסיוניות. הגדרות פרמטרים ניסיוניות לאימון והערכה של PWD-Net. עיין בשלבי הכנת הנתונים ובסעיף 5.2 של הפרוטוקול לקבלת הליך היישום המלא שלב אחר שלב.

שיטה	קוביות ↑	IoU ↑	דיוק ↑	פרמטרים (M) ↓	FPS ↑
CBSA	0.8466	0.717	0.9325	18.4	36
FSSA	0.7109	0.551	0.9012	9.8	61
MSF	0.7337	0.585	0.9086	11.5	54
פינוויל-קונב	0.8007	0.6742	0.9401	7.9	72
PolaLinear	0.7213	0.5707	0.9113	6.6	79
PWD-Net (שלנו)	0.865	0.7651	0.9478	9.1	63

טבלה 3: תוצאות השוואה כמותית. השוואה כמותית של PWD-Net עם חמש שיטות סגמנטציה קיימות של פוליפים בערכת הבדיקה Kvasir-SEG (100 תמונות). כל השיטות מוערכות תחת חלוקות נתונים זהות, עיבוד מוקדם ורזולוציית קלט זהה (352 x 352). ↑ מציין שגבוה יותר הוא טוב יותר; ↓ מציין שנמוך יותר הוא טוב יותר. שיטות המסומנות ב-* מציינות תוצאות שצוטטו מהפרסום המקורי ולא מיושמות מחדש.

תצורה	פינוויל	דואל-אטן	MSF	קוביות ↑	IoU ↑
קו בסיס	×	×	×	0.832	0.705
+ סיבוב	√	×	×	0.848	0.725
+ Dual-Attn	×	√	×	0.852	0.732
+ MSF	×	×	√	0.844	0.72
+ פינוויל + דואל-אטן	√	√	×	0.858	0.748
מלא (PWD-Net)	√	√	√	0.865	0.765

טבלה 4: תוצאות מחקר אבלציה. תוצאות מחקר אבלציה על סט הבדיקה Kvasir-SEG, המראות את התרומה ההדרגתית של מודול הקונבולוציה Pinwheel (Pinwheel Convolution), מנגנון Double-Attention (Dual-Attn) ו-Multi-Scale Feature Fusion (MSF) למקודד ResNet-50 הבסיסי.

סוג פוליפ	מספר	קוביות ↑	IoU ↑
פוליפים קטנים (< 5%)	21	0.812	0.685
פוליפים בינוניים (5%–30%)	54	0.882	0.79
פוליפים גדולים (> 30%)	25	0.861	0.76

טבלה 5: ביצועי PWD-Net על סוגי פוליפים שונים. ביצועי PWD-Net בקטגוריות גודל פוליפים שונות במסגרת מערך הבדיקה Kvasir-SEG (100 תמונות). גודל הפוליפ מוגדר לפי היחס בין שטח הפוליפים לשטח התמונה הכולל.

קובץ משלים: ארכיון דחוס המכיל את מימוש מסגרת PWD-Net. הקובץ כולל model.py הגדרת ארכיטקטורת הרשת באמצעות מודול Pinwheel Convolution Module (PCM) ומנגנון Dual-Attention (DAM), train.py יישום צינור טעינת הנתונים, פונקציית האובדן והליך האימון, test.py להסקת מודלים והערכה על מערכי בדיקה, requirements.txt רשימת כל ספריות Python הנדרשות וגרסאות מתאימות להן. אנא לחצו כאן להורדת הקובץ הזה.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מספר בחירות עיצוב בפרוטוקול PWD-Net הן קריטיות להשגת תוצאות סגמנטציה אמינות ודורשות תשומת לב קפדנית במהלך היישום. ראשית, הבחירה והאתחול של עמוד השדרה של המקודד משפיעים ישירות על התנהגות ההתכנסות והביצועים הסופיים. הפרוטוקול משתמש במקודד ResNet-50 שאומן מראש על ImageNet, המספק אתחול תכונות ברמה נמוכה ובינונית. זה חשוב במיוחד במשימות סגמנטציה רפואית של תמונות שבהן נתוני ההכשרה הזמינים מוגבלים (800 תמונות במחקר הנוכחי). כיוונון עדין של כל שכבות המקודדים, במקום הקפאתן, מאפשר לרשת להתאים את התכונות המאומנות מראש למאפיינים הספציפיים של תמונות קולונוסקופיה, כגון טקסטורות ריריות והשתקפויות ספקולריות. שנית, מיקום כל מודול ליבה בתוך הארכיטקטורה הוא מכוון. מודול הקונבולוציה של גלגל הסיכות (PCM) ממוקם בצוואר הבקבוק, שבו הרזולוציה המרחבית נמוכה ביותר אך המידע הסמנטי עשיר יותר, ומאפשר ללכוד דפוסים גאומטריים גלובליים ביעילות ללא עלות חישובית מופרזת. מנגנון תשומת הלב הכפולה (DAM) מוטמע בחיבורי הדילוג במקום במפענח, ומבטיח שרעש רקע מדוכא לפני שהתכונות מועברות למפענח, ומונע מתכונות מזוהמות להתפשט דרך שלבי ההיתוך. מחקר האבלציה (טבלה 4) תומך בעיצוב זה: ה-DAM תורם את השיפור הגדול ביותר בביצועים אישיים (Dice: +2.0%), מה שמאשר את חשיבות דיכוי הרעש המוקדם בצינור התכונות. שלישית, פונקציית האובדן ההיברידי (0.5 · BCE + 0.5 · Dice) מאזן בין דיוק סיווג ברמת הפיקסל לאופטימיזציה של חפיפה ברמת אזור. שילוב זה רלוונטי במיוחד לסגמנטציה של פוליפים, שבה חוסר איזון בין מחלקות לרקע הוא נפוץ. המשקל השווה (λ = 0.5) מאומץ כברירת מחדל; התאמת יחס זה עשויה להיות נחוצה עבור מערכי נתונים עם התפלגויות מחלקות שונות (ראו פתרון תקלות למטה).

שינויים ופתרון תקלות
השינויים וההנחיות לפתרון תקלות ניתנות להתאמת הפרוטוקול לסביבות ניסוי שונות. כאשר מיישמים את הפרוטוקול על מערכי נתונים עם רזולוציות תמונה שונות או התפלגויות גודל פוליפים, ייתכן שיהיה צורך בהתאמות רזולוציית הקלט (352 x 352). גדלי קלט גדולים יותר עשויים לשפר את זיהוי הפוליפים הקטנים במחיר של צריכת זיכרון מוגברת ומהירות הסקה נמוכה. אם אובדן אימון אינו מתכנס בתוך 50 תקופות, שקול להפחית את קצב הלמידה ההתחלתי (למשל, ל-5 x 10⁻⁵) או להגדיל את אורך מחזור החישוש הקוסינוס. אם המודל מציג שיעורי חיובי שגוי גבוהים באזורים עם השתקפויות ספקולריות חמורות או קפלים ריריים, הגדלת משקל רכיב אובדן הקוביות (למשל, λ = 0.4 עבור BCE, 0.6 לקובייה) עשויה לשפר את דיוק הגבול על חשבון דיוק ברמת הפיקסלים. לעומת זאת, אם המודל מקטע פוליפים קטנים, הגדלת משקל ה-BCE עשויה לעזור. מספר זוויות הסיבוב ב-PCM (כיום שמונה, מ-0° עד 315° במרווחים של 45°) מייצג איזון בין כיסוי כיווני לעלות חישובית. הפחתה לארבע זוויות (0°, 90°, 180°, 270°) מפחיתה את החישוב אך עשויה להפחית את הרגישות לגבולות פוליפים אלכסוניים. יחס ההפחתה r = 16 בענף תשומת הלב של הערוץ של ה-DAM עוקב אחרי הקונבנציה שנקבעה על ידי רשתות סחיטה וגירוי קודמות³²; יחסים קטנים יותר (למשל, r = 8) מגדילים את קיבולת המודל אך עלולים להוביל להתאמת יתר על מאגרי נתונים קטנים. עבור מערכי נתונים גדולים משמעותית מ-Kvasir-SEG, שקלו להגדיל את גודל האצווה ואת תקופות האימון בהתאם, ועקוב אחרי מדדי אימות כדי לקבוע את נקודת העצירה המתאימה.

חשיבות ביחס לשיטות חלופיות
ארכיטקטורת PWD-Net מתמודדת עם מגבלות ספציפיות של גישות קיימות באמצעות שלושה מודולים משלימים. בהשוואה לשיטות המבוססות על גרעיני קונבולוציה מרובעים סטנדרטיים, ה-PCM מספק רגישות כיוונית באמצעות גרעינים מסובבים בזוויות מרובות, מה שמאפשר התאמה טובה יותר למורפולוגיה הלא סדירה והמגוונת של פוליפים במעי הגס. בהשוואה למנגנוני קשב חד-ממדיים (למשל, תשומת לב בערוץ בלבד ברשתות דחיסה ועירור³³), ה-DAM מדמה יחד את חשיבות הערוץ והמרחב, ומציע דיכוי רעש מקיף יותר בסביבת קולונוסקופיה מורכבת. בהשוואה לארכיטקטורות מבוססות טרנספורמר כמו TransUNet³⁴ ו-Polyp-PVT³⁵, שמציעות מידול גלובלי חזק אך בעלות חישובית גבוהה יותר, PWD-Net משיג ביצועים תחרותיים עם גודל מודל קומפקטי יחסית (פרמטרי 9.1 מיליארד) ומהירות הסקה מעשית (63 FPS), כפי שמתועד בטבלה 3.

יש לציין שההשוואות המוצגות במחקר זה (טבלה 3) מתבצעות בתנאים מבוקרים עם חלוקות נתונים זהים, פרוטוקולי עיבוד מוקדם והערכה. ההבדלים בביצועים שנצפו ספציפיים לסט הבדיקות Kvasir-SEG (100 תמונות) ששימש במחקר זה ואינם מעורבים ישירות למערכי נתונים אחרים או לסביבות קליניות. השוואה רחבה יותר הכוללת קווי בסיס מבוססים נוספים (למשל, PraNet³⁶, ResUNet+⁺³⁷) תחת מדדי נתונים סטנדרטיים מרובי מערכי נתונים תחזק עוד יותר את הראיות ומתוכננת לעבודה עתידית. עבודות עדכניות על ארכיטקטורות מקודד-מפענח כפול לחלוקת פוליפים³⁸ הראתה את הפוטנציאל של מסלולי קידוד ופענוח מקבילים. ארכיטקטורת PWD-Net שונה בכך שהיא מתמקדת במידול גיאומטרי סיבובי וסינון דו-קשב בתוך צינור מקודד-מפענח יחיד, ומייצגת פילוסופיית עיצוב משלימה.

יש להכיר בכמה מגבלות חשובות של מחקר זה. ראשית, בנוגע להיקף הניסוי, המחקר הנוכחי מדווח על תוצאות אך ורק על מאגר הנתונים Kvasir-SEG עם חלוקה אקראית של 800 אימונים, 100 אימות ו-100 תמונות בדיקה. גודל קבוצת הבדיקה (100 תמונות) קטן יחסית, ורק ריצת אימון אחת מדווחת ללא ניסויים חוזרים או אימות צולב. כתוצאה מכך, מדדי הביצועים המדווחים עשויים להיות חשופים לשונות הקשורה לחלוקת הנתונים הספציפית. עבודות עתידיות אמורות לשלב אימות צולב k-fold או חלוקות אקראיות מרובות עם סטיות תקן מדווחות כדי לספק הערכות ביצועים חזקות יותר. שנית, ה-PCM מוסיף עומס חישובי נוסף באמצעות סיבוב ואגרגציה של גרעין רב-זווית. למרות שהמודל הכולל נשאר קומפקטי (9.1 מיליון פרמטרים), פריסה על מכשירים מוגבלים במשאבים בסביבות קליניות עשויה לדרוש אופטימיזציה נוספת באמצעות טכניקות כמו זיקוק ידע או גיזום מודלים. שלישית, המודל מאומן ומוערך אך ורק על תמונות סטטיות, בעוד שקולונוסקופיה קלינית כוללת זרמי וידאו בזמן אמת שבהם מראה, גודלו ונקודת המבט של הפוליפים משתנים דינמית לאורך פריימים עוקבים. למרות שמהירות ההסקה של 63 FPS תואמת לקצבי פריימים בזמן אמת, מדד זה לבדו אינו מהווה אימות קליני. אימות פרוספקטיבי על נתוני וידאו אנדוסקופיים, מחקרי קוראים וניתוחי קצה קליניים בהמשך יהיה נחוץ לפני שניתן לטעון טענות על מוכנות קלינית 39,40,41. העבודה הנוכחית צריכה להיחשב כתרומה מתודולוגית ולא כמערכת מאומתת קלינית.

רביעית, מסלול התרגום הקליני לפילוח פוליפים בעזרת בינה מלאכותית חורג הרבה מעבר לדיוק הסגמנטציה. סקירות אחרונות הדגישו כי כלים מתקדמים של הדמיה וניתוח חייבים להיות משולבים בתהליכי עבודה אנדולומינליים רחבים יותר, כולל סיווג נגעים, שלב שלבים ותכנון טיפול. הפרוטוקול הנוכחי מתמקד אך ורק בסגמנטציה בינארית של פוליפים ואינו מתייחס לסיווג פתולוגי⁴² (למשל, פוליפים אדנומטיים לעומת היפרפלסטיים) או להערכת סיכון לממאירות, שהם חיוניים להנחיית החלטות קליניות. חמישית, מערכי הנתונים בהם השתמשו במחקר זה נגזרים בעיקר מבדיקות קולונוסקופיה למבוגרים. נתונים על פוליפים ילדים, פוליפים הקשורים למחלות מעי דלקתיות וסוגים פתולוגיים מיוחדים אחרים אינם מיוצגים. ההכללה של המודל לאוכלוסיות אלו נותרה בלתי נבדקת. שישית, בעוד שניסויי אבלציה והדמיות איכותיות מסופקים כדי להמחיש את תפקיד כל מודול, היכולת לפרשנות המודל נותרת מוגבלת. תהליך קבלת ההחלטות של מודלים של למידה עמוקה אינו שקוף לחלוטין, מה שעלול להשפיע על האמון והאימוץ של הרופאים. עבודות עתידיות עשויות לשלב טכניקות ויזואליזציה מבוססות גרדיאנט כדי לספק הסברים אינטואיטיביים יותר לחיזוי המודל⁴³.

למרות המגבלות שהוזכרו לעיל, פרוטוקול PWD-Net מספק מסגרת ניתנת לשחזור לחלוקת פוליפים שעשויה לשמש בסיס לפיתוח נוסף. כיוונים פוטנציאליים כוללים: הרחבת המודל לניתוח קולונוסקופיה מבוסס וידאו על ידי שילוב טכניקות מידול טמפורלי; הוספת ענף סיווג לסגמנטציה מקצה לקצה וטיפוס פתולוגי; הרחבת ההערכה למאגרי נתונים מרובי מרכזיים גדולים ומגוונים יותר; וחקר אינטגרציה בתוך פלטפורמות רובוטיות אנדולומינליות, שבהן ניתוח תמונות בעזרת בינה מלאכותית מוכר יותר ויותר כטכנולוגיה מרכזית שמאפשרת^44,45. חבילת הקוד המשלימים המסופקת עם פרוטוקול זה נועדה להקל על שכפול והתאמת השיטה על ידי קבוצות מחקר אחרות.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

למחברים אין מה לחשוף.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מחקר זה מומן על ידי תוכנית המחקר והפיתוח המרכזית הלאומית של סין (תוכניות מס' 2022YFC3500200 ו-2022YFC3500204).

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
אדם אופטימייסר	—	—	כלול ב-PyTorch
אלבומנטציות	צוות אלבומנטיישנס	v1.0+	ספריית הגדלת נתונים
ערכת כלים של CUDA	NVIDIA	v11.3+	האצת GPU
מאגר נתונים של Kvasir-SEG	SimulaMet	—	https://datasets.simula.no/kvasir-seg/
Matplotlib	קהילת Matplotlib	v3.4+	הדמיית עקומות אימון
NumPy	קהילת NumPy	v1.21+	חישוב נומרי
NVIDIA טסלה P100	NVIDIA	P100-PCIE-16GB	GPU לאימון והסקה
OpenCV	קהילת OpenCV	v4.5+	עיבוד מוקדם של תמונה
פייתון	קרן התוכנה של פייתון	v3.8+	שפת תכנות
פייטורץ'	פלטפורמות מטא	v1.12+	מסגרת למידה עמוקה
משקולות ResNet-50 מאומנות מראש	PyTorch Model Zoo	—	ImageNet-1K מאומן מראש
אובונטו	קנוני	18.04+	מערכת הפעלה

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

רשת סגמנטציה של פוליפים המבוססת על קונבולציה של גלגל סיניים ותשומת לב כפולה לאבחון נגעים טרום-סרטניים במעי הגס

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

Reprints and Permissions

Tags

Related Articles