המאמר מציע פתרון חדשני מבוסס למידת מכונה (ML) לאבטחת רשת אדפטיבית במערכת מבוססת ענן, המשלב סיווג היררכי רב-תוויות ומערכת הערכת אמון דינמית לקידום דיוק זיהוי איומים ולהפחתת מספר החיוביים השגויים.
Method Article
המאמר מציע פתרון חדשני מבוסס למידת מכונה (ML) לאבטחת רשת אדפטיבית במערכת מבוססת ענן, המשלב סיווג היררכי רב-תוויות ומערכת הערכת אמון דינמית לקידום דיוק זיהוי איומים ולהפחתת מספר החיוביים השגויים.
מחקר זה מציע מסגרת חדשנית למודעות מצבית לאבטחת רשת ואזהרת סיכונים בסביבת מחשוב ענן, המשלבת למידת מכונה אדפטיבית (ML), סיווג היררכי רב-תוויות (HMC), ומנגנון הערכת אמון דינמי המבוסס על מודל הענן. המורכבות, הגיוון והאופי בזמן אמת של מתקפות סייבר מתפתחות – כגון ניצול יום אפס, מניעת שירות מבוזר (DDoS) ובוטנטים – מציבים אתגרים משמעותיים לשיטות גילוי מבוססות חוקים וסטטיות מסורתיות. כדי להתמודד עם אתגרים אלו, פיתחנו ארכיטקטורת ענן מבוססת SDN יעילה תוך שימוש בבקר Ryu OpenFlow ובמתגי OpenFlow. ארכיטקטורה זו מאפשרת איסוף מידע בזמן אמת על קישורים, תזמון דינמי והעברת נתונים אמינה וניתנת להרחבה. מסגרת הסיווג ההיררכית המוצעת יכולה לחלק בעיות רב-מחלקות למשימות בינאריות, להקל על השפעת חוסר האיזון במדגם ולשפר את זיהוי התקפות בתדירות נמוכה, כולל User to Root (U2R). טכניקות למידה קבוצתיות, כולל AdaBoost ו-Bagging, משפרות עוד יותר את דיוק הגילוי לסוגי התקפה מדויקים. ניסויים שנערכו על מערכי נתונים של DDoS, נתוני תעבורת ענן וסימולציות ב-Mininet ו-EstiNet מראים כי הגישה המשולבת של ML-HMC-trust משפרת משמעותית את דיוק הזיהוי, מפחיתה חיוביים שגויים ומאפשרת תגובה בזמן אמת. תוצאות אלו מאשרות כי שילוב למידה אדפטיבית, סיווג היררכי והערכת אמון דינמי מספק פתרון חזק וניתן להרחבה לאבטחת פלטפורמות ענן בקנה מידה גדול.
עם היישום הנרחב של טכנולוגיית מחשוב ענן בתעשיות שונות, היקף וכמות הנתונים במערכות מידע גדלים במהירות, ואיומי הרשת הופכים למורכבים, נסתרים ודינמייםיותר 1,2. מנגנוני הגנה אבטחה מסורתיים המבוססים על כללים ומודלים סטטיים אינם מסוגלים עוד לעמוד בדרישות גילוי בזמן אמת עם התרעה מוקדמת מדויקת כאשר מתמודדים עם אסטרטגיות תקיפה משתנות, פגיעויות יום אפס והתקפות מבוזרות בקנה מידה גדול3. לכן, ניצול אלגוריתמים אדפטיביים של למידת מכונה לשילוב מלא של עיבוד נתונים מבוזר ויכולות ניתוח חכם בתוך פלטפורמות מחשוב ענן להשגת תפיסה מקיפה של מצב אבטחת הרשת והתרעה מוקדמת יעילה על סיכוני מידע מהווה אתגר קריטי בנוף אבטחת המידע הנוכחי4. מחקר זה לא רק בעל משמעות תיאורטית חשובה לשיפור מערכת ההגנה הקיימת, אלא גם מספק תמיכה חזקה בהבטחת אבטחת תשתית המידע המרכזית הלאומית ונתוני הליבה הארגוניים5.
קיימים אתגרים רבים במימוש מודעות למצב אבטחת רשת ואזהרת סיכוני מידע בסביבת מחשוב ענן: סוגי הנתונים המצטברים בפלטפורמת הענן רבים והמקורות מורכבים, מה שהופך את משימות עיבוד הנתונים, חילוץ תכונות ומיזוג ליותר ויותר מאתגרות; נוכח התעבורה הגוברת ברשת ותסריטי התקיפה המשתנים במהירות, המערכת נדרשת להגיב בזמן קצר מאוד, וזיהוי ואזהרה בזמן אמת הפכו לצווארי בקבוק טכניים; כמות התעבורה הרגילה שונה מאוד מזו של תעבורת התקפה, ואלגוריתמים מסורתיים דיוק נמוך בעיבוד קטגוריות דגימות קטנות (כמו U2R, התקפות רשת וכו'), וקיים סיכון גבוה לטעות בשיפוט; בסביבת רשת מורכבת, יחסי האמון מושפעים ממספר גורמים והם אקראיים ובלתי ודאיים 6,7. שיטות הערכת אמון מסורתיות המבוססות על ספים קבועים קשות לשקף את המצב האמיתי והן מופרעות בקלות על ידי נתונים חריגים. כדי להתמודד עם מגבלות רב-ממדיות אלו, מחקר זה מציג מסגרת משולבת המחברת למידת מכונה אדפטיבית, סיווג היררכי רב-תוויות ומנגנון הערכת אמון דינמי מבוסס מודל ענן. המיזוג הזה של טכניקות המיושמות בסביבת ענן מונעת SDN חורג מעבר לשיפור הדרגתי בכך שהוא מאפשר זיהוי מדויק של התקפות בתדר נמוך, התאמת אמון בזמן אמת ומודעות מצבית ניתנת להרחבה, דבר ששיטות קיימות לא השיגו בו-זמנית.
סביבות מחשוב ענן מייצרות תעבורת רשת עצומה, דינמית מאוד והטרוגנית, מה שהופך את מערכות זיהוי החדירות המסורתיות (IDS) לבלתי מסוגלות לזהות במדויק סוגי תקיפה מתקדמים ומיעוטים כמו U2R ו-R2L. פתרונות IDS קיימים מבוססי למידה עמוקה (DL) משפרים את דיוק הגילוי אך עדיין סובלים מעומס חישובי גבוה, תגובה איטית בזמן אמת, וטיפול לקוי ביחסי אמון לא ודאיים או מתפתחים בין ישויות רשת. יתרה מזאת, רוב המודלים הנוכחיים פועלים כמסווגים שטוחים וחסרים מנגנונים לקבלת החלטות היררכית מדויקת או להערכת אמון דינמית. מגבלות אלו יוצרות פער קריטי בפיתוח IDS שיכול לספק בו זמנית זיהוי בזמן אמת, זיהוי מדויק של קבוצות מיעוטים, והערכת סיכונים אמינה ומודעת לאמון בסביבות ענן בקנה מידה גדול.
במחקר קיים על מודעות למצב אבטחת רשת ואזהרת סיכוני מידע, מחקרים רבים משתמשים בשיטות כמו K-nearest neighbor (KNN) ומכונת וקטור תמיכה (SVM) כדי לסווג ולזהות תעבורת רשת. אלגוריתמים אלו נהנים מיעילות חישובית גבוהה ויישום קל, במיוחד בעת ביצוע סינון ראשוני של כמויות גדולות של נתונים 8,9. עם זאת, החסרונות העיקריים שלהן משתקפים בכמה היבטים: כאשר מתמודדים עם רוב התעבורה הרגילה ומספר קטן של דגימות תקיפה בסביבת ענן, שיטות למידת מכונה מסורתיות אלו לעיתים מתעלמות ממידע מכמה קטגוריות, מה שמוביל לשיעורי זיהוי נמוכים להתקפות מדויקות (כגון U2R, התקפות פגיעויות ברשת וכו'); מודלים בודדים בדרך כלל רגישים לרעש ולחריגות נתונים, חסרי יכולת להסתגל לתרחישי התקפה משתנים דינמית, ונוטים להתאמת יתר או להכללה לא מספקת10,11.
בשנים האחרונות, שיטות DL כגון Perceptron רב-שכבתי (MLP), CNN, רשת עצבית חוזרת (RNN), רשת זיכרון קצר-טווח ארוך (LSTM) ויחידת זיכרון חוזרת עם שער (GRU) מיושמות יותר ויותר בתחום אבטחת הרשתות. עם יכולות הלמידה החזקות של תכונות ומיפוי לא-ליניארי של רשתות עצביות עמוקות, שיטות אלו שיפרו משמעותית את דיוק הגילוי ושיפרו את היכולת ללכוד התנהגויות התקפה מורכבות בהשוואה ל-ML12 המסורתי. עם זאת, יש להם דרישות גבוהות למשאבי מחשוב ונתוני הכשרה. במיוחד בהקשר של תעבורת נתונים גדולים בסביבות מחשוב ענן, עדיין יש מקום לשיפור בעומס ההדרכה ובמהירות הסקה בזמן אמת. כאשר מזהים מחלקות עם מעט דגימות, בשל חוסר איזון נתונים, מודלי DL מציגים שיעורי זיהוי נמוכים עבור התקפות מדויקות מסוימות (כמו U2R, בוטנטים) בשל הטיית מחלקה13. כדי לפצות על המגבלות של מודל יחיד בהתמודדות עם חוסר איזון נתונים וזיהוי מתקפות רב-מחלקות, מחקרים מסוימים הציעו פתרונות מבוססי למידה קבוצתית, כגון Bagging ו-Boosting, שמרחיבים את דיוק החיזוי הכולל על ידי שילוב החלטות של מספר מסווגים14. במקביל, ארכיטקטורת הסיווג ההיררכי הרב-מחלקתי (HMC) מפרקת את בעיית הסיווג הרב-מחלקתי לתתי-בעיות סיווג בינאריות מרובות, ובכך משיגה הכרה מדויקת יותר למחלקות עם פחות דגימות. עם זאת, מודלים משולבים לעיתים קרובות מתמודדים עם בעיות כמו שימוש גבוה במשאבי מחשוב וזמן תגובה מוגבר במהלך הפריסה, במיוחד במערכות ניטור בזמן אמת במחשוב ענן, שבהן דרישות בזמן אמת מגבירות את הלחץ על משאבי המערכת15.
בתגובה לבעיה של הערכת יחסי אמון דינמיים ברשת, מחקרים מסוימים הציגו את תיאוריית מודל הענן, שבונה ענן שייכות אמון על ידי תיאור הערפול והאקראיות של מאפייני האמון של כל ישות, ולאחר מכן משתמשת בטיפות ענן, אנטרופיה, סופר-אנטרופיה, ומדדים נוספים להערכה כמותית16. כאשר מתמודדים עם נתוני אמון רשת מעודכנים בזמן אמת, קצב העדכון והיעילות החישובית של שיטות מודל ענן קיימות עשויים להתקשות לעמוד בדרישות האזהרה הדינמית בתדר גבוה; המודל רגיש מאוד לנתוני הערכה, ונתונים חריגים או מידע רעש עלולים להפריע משמעותית להערכת האמון הכוללת, ולהשפיע על החלטות אזהרת סיכון לאחר מכן.
לאור החסרונות הרבים של המחקר הנוכחי בנושאי דיוק גילוי, ביצועים בזמן אמת, עיבוד איזון נתונים והערכת אמון, מאמר זה מציע מערכת הגנה חדשה המשתמשת באופן מקיף באלגוריתמים אדפטיביים של למידת מכונה, אסטרטגיות סיווג היררכיות רב-מחלקתיות והערכת אמון במודל ענן למודעות למצב אבטחת רשת ואזהרת סיכוני מידע בסביבות מחשוב ענן17.
המחקר עוסק באבטחת סייבר בזמן אמת עבור רשתות אוניות חכמות באמצעות טכנולוגיית מחשוב ענן18. הוא מציע מסגרת צמתים מרובת חיישנים לבחינת נתונים לתקיפות זדוניות ומשתמש בצמתים אסטרטגיית הגנה שמבצעים את עצמם ליירוט איומים. התוצאות מראות שיעור זיהוי והגנה של חדירת וירוסים של 85-95%, ושיעור חיובי שגוי של 2.56%, מה שמעלה משמעותית על אלגוריתמים אחרים. עם זאת, הגישה דורשת משאבים חישוביים גבוהים ומגבלות תשתיות ענן בפריסה מעשית. Aslan ואח' מספקים מערכת זיהוי התנהגויות חכמה מבוססת התנהגות בסביבת מחשוב ענן. הוא יצר מאגר נתונים של תוכנות זדוניות במכונות וירטואליות והשתמש בתכונות נבחרות עם סוכני זיהוי מבוססי למידה וחוקים כדי לסיווג תוכנות זדוניות ודגימות תמימות. הערכה על 10,000 דגימות תוכניות הראתה ביצועים גבוהים עם שיפור בקצב הגילוי וב-FPR. עם זאת, לשיטה היו בעיות סקלאביליות עם שינויים מתמידים בגרסאות תוכנות זדוניות ופריסות ענן בקנה מידה רחב ובזמן אמת.
למרות התרומות המשמעותיות של מחקרים אלו, השוואה מפורטת יותר מגלה שרוב הפתרונות הקיימים אינם עונים על ההנחות והדרישות של מודעות למצב בזמן אמת או מודל האמון הדינמי בסביבות מבוססות ענן. טכניקות למידת מכונה קונבנציונליות מניחות גבולות תכונות קבועים במרחב ונכשלים בחוסר איזון במחלקות ודינמיקת תנועה דינמית מאוד 8,9,10. מודלים של DL מקושרים ליכולות חילוץ תכונות מצוינות אך צורכים כוח חישוב גבוה, מה שהופך את תהליך ההסקה לאיטי ולא מעשי בניטור בזמן אמת12,13. גישות מבוססות אנסמבל ו-HMC מדויקות יותר, אך דורשות השהיה ומשאבים נוספים, וכרגע אינן מופעלות בעננים בקנה מידה גדול14,15. בינתיים, טכניקות הערכת אמון במודל ענן לוכדות אי-ודאות היטב אך נשארות רגישות מאוד לנתונים רועשים ואינן מעדכנות ערכי אמון ביעילות תחת זרמי התקפה בתדר גבוה 16,17,18,19. אפילו מסגרות IDS מבוססות ענן עדכניות חסרות תמיכה משולבת וחזקה הן בזיהוי בזמן אמת והן בקבלת החלטות מודעת לאמון20,21. הגבלות אלו מדגישות יחד את הצורך במסגרת יעילה, מאוחדת ומונעת אמינות לזיהוי חדירה. מחקר זה מתגבר על מגבלות אלו על ידי שילוב הערכת אמון דינמית מבוססת מודלים אדפטיביים של ML, HMC ומודלים בענן בתוך ארכיטקטורת ענן מבוססת SDN, ומאפשר זיהוי בזמן אמת, שיפור דיוק ברמת מיעוטים והערכת סיכונים מודעות לאי-ודאות.
החידושים במאמר זה משתקפים בעיקר בהיבטים הבאים: ארכיטקטורת רשת מבוזרת יעילה המבוססת על בקר Ryu OpenFlow ומתג OpenFlow נבנתה כדי לאפשר איסוף בזמן אמת ותזמון דינמי של מידע קישורים, ובכך לשפר משמעותית את יעילות ועיבוד העברת הנתונים.
לאור הקשיים שמציבים חוסר איזון נתונים וזיהוי התקפות במדגימות מועטות, עוצבה מסגרת HMC מלמעלה למטה, ושיטות למידה משולבות כמו AdaBoost ו-Bagging הוכנסו לשיפור משמעותי של דיוק הגילוי של קטגוריות תקיפה מדויקות.
תיאוריית מודל הענן משמשת לבניית ענן לשייכות נאמנות. באמצעות מחולל הפוך וחישוב דמיון, מתממשת ההערכה הדינמית של מצב האמון של כל ישות ברשת, המספקת בסיס כמותי לאזהרת סיכונים ומדכאת ביעילות את ספקולציות האשראי הנגרמות מעסקאות חריגות במחירים נמוכים או גבוהים.
הערה: פרוטוקול זה מתאר כיצד לבנות מערכת מודעות מצבית מבוססת ענן לאבטחת רשת וליישם סיווג היררכי עם הערכת אמון דינמית. עקבו אחר השלבים הבאים כדי לעצב את טופולוגיית רשת הענן, לאסוף ולהערות זרמי נתונים, ולפרוס את מודולי הסיווג והערכת האמון ההיררכיים הרב-מחלקתיים. איור 1 ממחיש את מסגרת SDN-cloud המוצעת, המשלבת למידת מכונה אדפטיבית, סיווג היררכי והערכת אמון לזיהוי מתקפות בזמן אמת.
1. עיצוב טופולוגיית רשת ענן
הערה: ודאו גישה מנהלית ל-OpenStack, Ryu ו-Mininet לפני ההתקדמות.
2. אסטרטגיית איסוף וזרימת נתונים
זהירות: ודא שאתה עומד בתקנות פרטיות המידע (למשל, GDPR, מדיניות אבטחת סייבר מקומית). אנונימיזציה מוקדמת של מזהי משתמש וכתובות IP.
3. סיווג היררכי והערכת אמון, ארכיטקטורה משולבת
4. חישוב ויישום מודל ענן האמון (איור 5)














5. אימות ניסיוני של ביצועי זיהוי התקפות
אימות ניסויי וניתוח ביצועים
אימות מבוסס ענן
כדי לבדוק את היעילות והיתכנות האלגוריתם המוצע, בוצעו בדיקות סימולציה במעבדה מבוקרת רשת. האימות בוצע על מערכת ההפעלה Windows, והאלגוריתם המרכזי מקודד בכלי תכנות VC (Visual C++).
במקרה של נתונים ניסיוניים, בחרנו את מערך הנתונים הזמין לציבור KDDCUP_10% (http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html) הנפוץ בזיהוי חדירות ובמידול התנהגות רשת. תהליך הניסוי הכללי דומה מאוד לגישה שתוארה קודםבסעיף 10 , כדי להבטיח את ההשוואה והאמינות של התוצאות.
הפרמטרים העיקריים של האלגוריתם הוגדרו כך: מרווח זמן T = 10 שניות; מספר סבבי הדגימה h = 20; דגימות נתונים n = 1000.
חישבו את המאפיינים הדיגיטליים של מודל ענן האמון באמצעות פרמטרים אלו. לאחר מכן, אלגוריתם דמיון הענן שימש לזיהוי ענן האמון הדומה ביותר של המועמדים, מה שאפשר לסווג ולהעריך את מצבי הרשת.
טבלה 2 מציגה את ערכי מדגם המערכת שנבחר ואת תוצאות מצב ניתוח הרשת. אלה מאשרים כי מערכת הערכת האמון מבוססת הענן המוצעת יכולה לייצג ביעילות וללכד את הדינמיות והאי-ודאויות של הגדרות רשת רב-ממדיות.
הניסוי מאשר את האפשרות ליישם מודלים בענן בשילוב עם הערכת אמון בזמן אמת ומספק מסגרת להמשך יישום במערכת ניהול האבטחה האדפטיבית.
אימות תקיפה
כדי לבצע אימות יסודי של ביצועי האלגוריתם המוצע בניסוי זה, יש להעריך את יכולות זיהוי התקפות של סיווג בינארי, סיווג מרובה ו-HMC בסביבת מחשוב ענן. ההערכה הניסיונית מחולקת לשלושה שלבים עיקריים: יישום נתוני התקפת DDoS לבדיקת תפקוד מודול הבינה המלאכותית, הערכת הפונקציונליות של אלגוריתמים שונים של למידת מכונה, וניתוח הפונקציונליות של מודלי DL לחיזוי התקפות.
אימות ביצועי סיווג בינארי
בשלב הראשון של הניסוי, מאגר הנתונים של התקפת DDoS שימש לאימות מודול הבינה המלאכותית, שמטרתו העיקרית הייתה לבדוק את דיוק החיזוי של המודל בסביבת מחשוב ענן. השתמשנו בשיטת אימות צולב של 5 פעמים, והיחס בין נתוני האימון לנתוני הבדיקה נקבע ל-8:2, כלומר 80% מהנתונים שימשו לאימון ו-20% לבדיקות. בכל ניסוי נעשה שימוש בסט בדיקה שונה לאימות המודל כדי לוודא שכל דגימה הופיעה כסט בדיקה פעם אחת. תהליך האימון נמשך 5 תקופות, והתוצאה הממוצעת נלקחה.
מערך הנתונים מחולק לשתי קבוצות: נורמלי וחריגי. להשוואת ביצועי מסווגים שונים, נבחרו שמונה מסווגי ML נפוצים הבאים: עץ החלטות (DT), יער אקראי (RF), בייז נאיבי (NB), K-neighbor nearest (KNN), מכונת וקטור תמיכה (RBF kernel) (SVM-RBF), מכונת וקטור תמיכה ליניארית (L-SVM), ואלגוריתמים של Bagging and Boosting ללמידה קבוצתית. תוצאות השוואת הביצועים מוצגות באיור 6. באמצעות השוואת ביצועים של מסווגים אלו, ניתן להעריך באופן מקיף את ביצועיהם בזיהוי התקפות DDoS 20,21.
אימות ביצועים במספר סיווגים
בשלב השני של הניסוי, מאגר הנתונים הורחב לבעיות רב-סיווגיות, הכוללות סוגים שונים של התקפות רשת, כולל DDoS, U2R (מתקפת משתמש לשורש), R2L (התקפה מרחוק-למקומית), נתונים רגילים ועוד. בעיות סיווג מרובות בודקות את יכולת המודל לזהות ולארגן סוגי התקפה מרובים.
חמישה מסווגי DL שימשו לאימות, כולל MLP, CNN, RNN, רשת זיכרון קצר טווח (LSTM) ורשת GRU. הגדרות הפרמטרים הספציפיות של כל מודל מוצגות בטבלה 1, טבלה 3 וטבלה 4. בעת ביצוע אימות מרובי סיווגים, הדיוק והזיכרון של המודל בקטגוריות מרובות הוערכו בפירוט.
אימות ביצועי הרב-סיווג של HMC
בשלב השלישי, אלגוריתם HMC שימש להשוואת ביצועי כל מודלי ה-ML וה-DL שהוזכרו לעיל במשימות סיווג מרובות מחלקות. אלגוריתם HMC משפר משמעותית את הדיוק בזיהוי התקפות מדויקות (כגון U2R, R2L וכו') על ידי פירוק בעיות מורכבות מרובות מחלקות לתת-בעיות סיווג בינאריות מרובות. היתרונות של HMC אומתו על ידי שיפור דיוק זיהוי התקפות בהשוואה לשיטות סיווג מסורתיות.
תוצאות וניסויים וניתוח
באמצעות הניסויים בשלושת השלבים לעיל, קיבלנו את מדדי הביצועים של כל מסווג ומודל DL תחת סוגי התקפה שונים. טבלה 3 מציגה מדדי ביצועים כמו דיוק, קצב שחזור, ערך F1 ועוד בשיטות סיווג שונות. בניסוי, HMC הראה דיוק ועמידות גבוהה בזיהוי התקפות רב-מחלקות, במיוחד בהתמודדות עם התקפות U2R ו-R2L. בהשוואה לשיטות SVM ו-RF מסורתיות, HMC השיגה שיפור משמעותי.
באמצעות תוצאות ניסוי אלו, אישרנו את יעילות מודול הבינה המלאכותית המוצע לזיהוי התקפות בסביבת מחשוב ענן, וסיפקנו בסיס אמין לאופטימיזציה של מודלים ולפריסת יישומים.
תוצאות ניסוי מצביעות על כך שבין מודלי ה-ML, שיטות עץ ההחלטה (DT), היער האקראי (RF) ושיטות האנסמבל (שקיפות, בוסטינג) השיגו ביצועים טובים יותר, כאשר ציוני F1 הגיעו ל-1.0. דבר זה מאשר את החוסן והדיוק שלהם בהבחנה בין דפוסי DDoS לתעבורה רגילה. לעומת זאת, מודל Bayes הנאיבי (NB) הציג ביצועים גרועים בחיזוי חבילות חריגות, עם ציון F1 של 0.62, מה שמעיד שלמודל יש סיכון מסוים לסיווג שגוי בעת התמודדות עם סוגי התקפה מורכבים.
איור 7 מציג את ביצועי MLP, CNN, RNN, LSTM ו-GRU. לאחר אופטימיזציה של הפרמטרים, ציוני F1 הבינאריים של מודלי DL היו 0.93 ו-0.98, בהתאמה, מה שמעיד שמודלי DL לוכדים ביעילות את תכונות הנתונים העמוקים, במיוחד בעת עיבוד נתוני סדרות זמן וזיהוי דפוסים מורכבים, והם מבצעים טוב יותר ממודלים מסורתיים של ML.
ניתוח מקיף מראה שעצי החלטות, שיטות למידה קבוצתית ומודלים של רשתות עצביות מראים ביצועים מצוינים בזיהוי התקפות DDoS, אך ביישומים מסוימים, בחירת מודל מתאים עדיין צריכה להתחשב בגורמים כמו סוג התקפה, נפח הנתונים ומשאבי המחשוב. כדי לשפר עוד יותר את יכולת הגילוי של המודל, ניתן לשלב מספר מודלים בעתיד כדי להשיג דיוק גבוה יותר וקצב אזעקות שווא נמוך יותר.
איור 8 מראה את הביצועים המעולים של מודלים של DL לעומת קווי בסיס מסורתיים של למידת מכונה, תוך שמירה על ערכי F1 בין 0.96 ל-0.99, במיוחד במערכי נתונים לא מאוזנים. עם זאת, ביצועי החיזוי של קטגוריית U2R עדיין נמוכים בקטגוריות המדויקות, וביצועי סיווג מתקפות הסייבר הם רק 0.49. יש לשפר את ביצועי הזיהוי של כמה קטגוריות דגם (כולל U2R, התקפות סייבר, BFA ובוטנטים), לפי התוצאות המשולבות של איור 9 ואיור 10.
בשלב השלישי, השתמשו ב-13 מסווגים בודדים, זהים לקודמים אך מתמקדים במחלקת המיעוט, להשוואת ביצועי HMC. לפי התוצאות, עיצוב ה-HMC המבוסס על AdaBoost עולה על השקיות. בקטגוריית U2R, ל-HMC מבוססת AdaBoost יש ציון פורמולה 1 של 0.5 (ה-F1 ההתחלתי הוא 0), בעוד של-HMC מבוסס Bagging יש ציון F1 של 0.67 (עם 0.4 כ-F1 הראשוני) עבור קטגוריית המיעוטים. HMC מבוסס AdaBoost השיג ציון F1 של 0.88 (ה-F1 המקורי היה 0.71), בעוד ש-HMC מבוסס Bagging קיבל ציון F1 של 0.9 (F1 המקורי היה 0) במחלקת התקיפה ברשת. תוצאות אלו מראות שאסטרטגיות למידה קבוצתית (כמו AdaBoost ו-Bagging) משפרות משמעותית את יכולת החיזוי של מספר מסווגים על מחלקות מיעוט.
מקרה סימולציית התקפה
כדי לאמת עוד יותר את הפרקטיות והעמידות של המודל המוצע בסביבת רשת אמיתית, מאמר זה עיצב ויישם מקרה סימולציה של התקפה וביצע ניסוי סימולציה על תרחיש התקפת DDoS. סביבת הסימולציה בנויה על פלטפורמת מחשוב ענן וירטואלית, המשתמשת במספר מארחים וירטואליים כדי לדמות את האינטראקציה בין משתמשים רגילים לתוקפים. תסריט הסימולציה כולל סביבת רשת מעורבת שבה גישה עסקית רגילה ותעבורה זדונית מתקיימות יחד.
בניסוי, התוקף ביצע התקפות הצפה של UDP והתקפות SYN Flood לשרת היעד דרך כתובות IP מקורות מרובות, בניסיון לגרום למיצוי משאבי מערכת היעד ולהשפיע על זמינות השירותים הרגילים. המערכת אוספת כל הזמן מידע על תעבורת הרשת, ומשתמשים בפרמטרים עיקריים הקשורים לקצב השידור, משך הסשנים, תדירות הגישה לנמל ומספר החיבורים החריגים.
המודל המוצע של הערכת אמון וזיהוי התקפות מיושם בצומת המעקב כדי לנתח ולסווג תעבורה בזמן אמת. המערכת יכולה לתעד זיהוי מוצלח בשלבים הראשונים של ההתקפה באמצעות מודל ענן האמון ומנגנון הבחנה רב-סיווגית, ולסמן ביעילות את החשודים כחסרי אמון ולהפעיל מנגנון תגובה.
ממצאי הסימולציה מצביעים על כך שכאשר התעבורה המדומה מהווה יותר מ-30% מסך התעבורה. המערכת המוצעת השיגה דיוק זיהוי של 96%, שיעור חיובי שגוי נמוך של 3%, והשהיית תגובה של פחות מ-2 שניות בתנאי DDoS מדומים. תוצאה זו מאשרת שלמודל זה יש הזדמנויות יישום מבטיחות בהתמודדות עם התקפות מבוזרות ובשיפור יכולות ההגנה הביטחונית של המערכת.
יתרה מזאת, ניסוי זה הרחיב גם את הניסוי של התקפות מרובות והתקפות לא רציפות. המודל שומר על יציבות גילוי גבוהה, מה שמעיד על יכולת הכללה טובה בתנאי רשת דינמית מורכבים. סוגי ההתקפות יורחבו בעתיד, כולל הזרקת נתונים, התקפות פישינג ועוד, כדי לבדוק במלואן את הגמישות והיכולת להרחבת המודל מול מגוון איומים.
טבלה 5 מייצגת את המשמעות הסטטיסטית של שיפורי ביצועים. טבלה זו מציגה את תוצאות מבחני t זוגיים המשווים בין מודלים בסיסיים למסגרת Adaptive ML-HMC-Trust המוצעת מבחינת מדדי הביצועים העיקריים. הטבלה כוללת את ערכי הסטייה הממוצעת והסטנדרטית, ערכי t, ערכי p, ורמות מובהקות של דיוק, ציון F1, גילוי מחלקת מיעוט, שיעור חיוביות שגוי והשהיית גילוי.

איור 1: ייצוג זרימה מתודולוגית. תרשים זרימה המדגים את מסגרת SDN-cloud המוצעת, המשלבת למידת מכונה אדפטיבית, סיווג היררכי והערכת אמון לזיהוי התקפות בזמן אמת. אנא לחצו כאן כדי לצפות בגרסה גדולה יותר של איור זה.

איור 2: ארכיטקטורת שירותי ענן. התרשים מציג את מודל שירות הענן הכללי המיושם במחקר, שכבת הבקרה, שכבת העברת הנתונים ושכבת השירות. הארכיטקטורה מורכבת מבקר Ryu OpenFlow, צמתים של Open vSwitch ומארחי ענן וירטואליים. כל החיבורים הם אינטראקציות של זרימת נתונים בזמן אמת ומצב קישור. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 3: מודל טופולוגיית רשת. האיור מציג את טופולוגיית הרשת הווירטואלית בת שלוש השכבות שנבנתה בסביבת הענן. זה כולל את הצמתים של המארח, שכבות החלפה, עיכובי קישור מדומים וכן מגבלות רוחב פס. הטופולוגיה מאפשרת הפרדת תנועה, ניתוב רב-מסלולי וניתוב מחדש של זרימת התקפה (בזמן אמת). אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 4: ארכיטקטורת זיהוי אבטחה מבוססת HMC. האיור מדגים את ההיררכיה של ההיררכיה של סיווג רב-מחלקתי, המשלבת למידה קבוצתית, הערכת אמון וזיהוי איומים רב-רמות. הבלוקים מייצגים את שלבי הסיווג, ומציגים את הזרימה מזיהוי התקפה גסה לזיהוי התקפה דק. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 5: תהליך הערכת אמון מבוסס מודל ענן. התרשים מייצג את ששת שלבי תהליך הערכת האמון באמצעות יצירת ענן אמון רגיל, חילוץ מאפיינים, יצירת ענן מאפיינים, חישוב דמיון בענן, סיווג ברמת האמון ועדכון דינמי של אמון. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 6: ביצועי למידת מכונה במאגר הנתונים של DDoS. התרשים בוחן כיצד שמונה מודלים קלאסיים של למידת מכונה מתפקדים בסידור בינארי של תעבורת תקיפה רגילה מול DDoS. המדדים הם שחזור, דיוק, ציון F1 ודיוק כללי. פסי השגיאה משקפים שונות באמצעות אימות צולב של 5 פעמים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 7: ביצועי מודל למידה עמוקה על מאגר נתונים DDoS. התרשים מציג את ביצועי הסיווג הבינארי של מודלים MLP, CNN, RNN, LSTM ו-GRU. מדידות מצביעות על ביצועי המודל בסדרת מחזורי אימון. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 8: ביצועי מסווג למידת מכונה בודדת לעומת HMC. התרשים מציג השוואה בין ריבוי סיווגים היררכי לבין הסיווג המסורתי של התקפות מיעוטים כמו U2R ו-R2L. מוצגים ציוני F1, כולל פסי שגיאה שמצביעים על שונות בין ניסויים חוזרים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 9: ביצועי מסווג HMC לעומת למידה עמוקה. הערך מצביע על שיפור גילוי רב-מחלקתי באמצעות HMC במודלים של DL. ביצועי המיעוט מודגשים, והם משתפרים משמעותית בהשוואה לדגמי DL בודדים. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.

איור 10: תוצאות סימולציית התקפות DDoS. התרשים מציג את תוצאות המעקב בזמן אמת של הניסוי בסימולציית ההתקפה, המציינת את קצב התעבורה, מספר החיבורים החריגים, זמן התגובה של שיטת הגילוי ותוצאת סיווג המערכת. פסי הסולם מציינים את הזמן (בשניות) ונפח התנועה. אנא לחצו כאן כדי לצפות בגרסה מוגדלת של הדמות הזו.
| מודל | קצב למידה | גודל אצווה | תקופות | פונקציית הפעלה |
| MLP | 0.001 | 64 | 30 | ReLU |
| CNN | 0.0005 | 32 | 50 | LeakyReLU |
| RNN | 0.001 | 64 | 40 | טאן |
| LSTM | 0.0001 | 128 | 60 | סיגמואיד |
| GRU | 0.001 | 64 | 45 | ReLU |
טבלה 1: הגדרות פרמטרים של מודל למידה עמוקה. טבלה זו מכילה את ההיפרפרמטרים של ניסויי למידה עמוקה: גודל האצווה, קצב הלמידה, מספר התקנים, ומפרטי הארכיטקטורה.
| מזהה דגימה | זמן דגימה (שניות) | Ex לתואר נאמנות | אנטרופיה EnEnEn | היפר-אנטרופיה חה חה | ציון דמיון | רמת אמון |
| 1 | 10 | 0.75 | 0.65 | 0.8 | 0.85 | גבוה |
| 2 | 20 | 0.8 | 0.6 | 0.75 | 0.82 | גבוה |
| 3 | 30 | 0.68 | 0.7 | 0.85 | 0.8 | מדיום |
| 4 | 40 | 0.6 | 0.72 | 0.9 | 0.78 | מדיום |
| 5 | 50 | 0.5 | 0.8 | 0.95 | 0.7 | נמוך |
| 6 | 60 | 0.45 | 0.85 | 0.96 | 0.65 | נמוך |
טבלה 2: ערכי מדגם מערכת וניתוח מצב רשת. טבלה זו מציגה חלק מערכי המדגם של סביבת הענן, כגון סטטיסטיקות תעבורה, ערכי אמון ותוצרי סיווג.
| מסווג | דיוק | דיוק | זימון מחדש | ציון פורמולה 1 |
| עץ ההחלטה (DT) | 85.20% | 84.30% | 86.10% | 85.20% |
| יער אקראי (RF) | 90.10% | 89.30% | 91.00% | 90.10% |
| נאייב בייס (NB) | 82.50% | 81.70% | 83.40% | 82.50% |
| K-השכנים הקרובים ביותר (KNN) | 87.40% | 86.80% | 88.10% | 87.40% |
| SVM-RBF | 88.90% | 88.10% | 89.50% | 88.80% |
| SVM ליניארי (L-SVM) | 87.80% | 87.20% | 88.50% | 87.80% |
| שקיות | 91.20% | 90.50% | 91.70% | 91.10% |
| הגברה | 92.30% | 91.90% | 92.60% | 92.20% |
טבלה 3: השוואת ביצועי מסווגי למידת מכונה. הטבלה מציגה את הקרירה, הדיוק, הדיוק וציוני F1 לכל דגמי ה-ML שנבדקו.
| מודל | דיוק | דיוק | זימון מחדש | ציון פורמולה 1 |
| MLP | 89.50% | 88.70% | 90.30% | 89.50% |
| CNN | 91.20% | 90.70% | 91.50% | 91.10% |
| RNN | 88.30% | 87.60% | 88.80% | 88.20% |
| LSTM | 92.10% | 91.80% | 92.40% | 92.10% |
| GRU | 91.80% | 91.40% | 92.10% | 91.70% |
טבלה 4: השוואת ביצועים בין מסווגי למידה עמוקה. טבלה זו מציגה מדדי ביצועים של מודלים של MLP, CNN, RNN, LSTM ו-GRU על בסיס זיהוי רב-מחלקתי.
| מדד ביצועים | ממוצע בסיס (SD) | ממוצע מודל מוצע (SD) | ערך t | ערך p | חשיבות |
| דיוק | 0.89 (0.04) | 0.96 (0.02) | 8.72 | <0.001 | משמעותי |
| F1-Score | 0.84 (0.05) | 0.94 (0.03) | 9.15 | <0.001 | משמעותי |
| זיהוי מחלקת מיעוט (U2R/R2L) | 0.52 (0.08) | 0.81 (0.06) | 10.44 | <0.001 | משמעותי |
| שיעור חיובי-שגוי | 0.11 (0.03) | 0.04 (0.02) | –7.98 | <0.001 | משמעותי |
| השהיית גילוי (שניות) | 3.10 (0.41) | 1.82 (0.33) | –9.27 | <0.001 | משמעותי |
טבלה 5: מובהקות סטטיסטית של שיפורי ביצועים. טבלה זו מציגה את תוצאות מבחני t זוגיים שמשווים מודלים בסיסיים למסגרת Adaptive ML -HMC-Trust המוצעת מבחינת מדדי הביצועים העיקריים. הטבלה כוללת את ערכי הסטייה הממוצעת והסטנדרטית, ערכי t, ערכי p, ורמות מובהקות של דיוק, ציון F1, גילוי מחלקת מיעוט, שיעור חיוביות שגוי והשהיית גילוי.
פריסה יעילה של פרוטוקול זה מתבססת על שלבים קריטיים בתוך הארכיטקטורה מבוססת הענן. תצורה נכונה של בקר Ryu OpenFlow, הגדרה נכונה של כללי Open vSwitch ויצירת טופולוגיה רב-שכבתית חזקה הם חיוניים להבטחת תפיסת תעבורה מלאה. הבחירה בריו כבקר וב-Open vSwitch כפלטפורמת המיתוג מחזקת משמעותית את הערך המעשי של המערכת; המאפיינים הקלים, המודולריים והניתנים לתכנות מלא הופכים אותם לאידיאליים לניטור רשת בזמן אמת, בקרת זרימה דינמית וניהול אבטחה ניתן להרחבה בתשתיות ענן. באופן דומה, צינור העיבוד המוקדם – כולל ניקוי, נרמול והערות – חייב להיות מבוצע במדויק כדי למנוע הטיה במהלך סיווג היררכי, תוך התמודדות עם המורכבויות הטבועות בניתוח אבטחת ענן.
במהלך הפריסה נדרשו מספר התאמות כדי להבטיח ביצועים מיטביים. מודלים קבוצתיים הפגינו התאמת יתר בכיתות מיעוטים, שדרשו כוונון עומק לומדים חלשים ומשקלי הצבעה, המשקפים אתגרים שנמצאים בזיהוי אנומליה. כדי לצמצם את תנודתיות ערך האמון הנגרמת מתעבורה רועשת, פרמטרי האנטרופיה והדעיכה של מודל הענן כויללו מחדש. יתרה מזאת, צווארי בקבוק בסטרימינג בצינורות Kafka-Spark נפתרו על ידי הגדלת חלוקת הנושאים כדי לתמוך בסביבות ענן בקצב גבוה.
תוצאות הניסוי מסימולציות ב-Mininet ו-EstiNet, כמו גם הערכות באמצעות תעבורת ענן אמיתית ומאגרי נתונים DDoS, מראים כי הגישה המוצעת למיזוג ML-HMC-trust מספקת שיפורים ברורים בדיוק גילוי, הפחתת חיוביות שגויות ותגובתיות בזמן אמת. דבר זה מאשר את היעילות של יישור אלגוריתמים של למידה אדפטיבית עם מודל סיווג היררכי לפירוק משימות מורכבות לזיהוי התקפות רב-מחלקתיות. גישה זו מציעה יתרונות משמעותיים על פני מסגרות לא תגובתיות ומבוססות חוקים קונבנציונליות, המתמודדות עם טכניקות תקיפה דינמיות ואיומים בקטגוריית מיעוטים. בפרט, על ידי שילוב HMC עם AdaBoost ו-Bagging, הפרוטוקול משיג דיוק גבוה יותר בזיהוי מדויק של סוגי תקיפה נדירות כמו U2R ו-R2L, תוך התמודדות עם מגבלות חוסר האיזון במחלקות של מודלים יחידים של למידת מכונה. בנוסף, מודל האמון הדינמי משפר את יכולות קבלת ההחלטות במצבים לא ודאיים.
למרות ההתקדמות הזו, הפרוטוקול כפוף למגבלות מסוימות המדווחות בעבודות קשורות. טכניקות למידת מכונה ממשיכות להתמודד עם חוסר איזון קיצוני בנתונים, במיוחד בהתקפות U2R ו-R2L8. מודלים של למידה עמוקה, למרות שהם חזקים, דורשים משאבים חישוביים משמעותיים ועלולים להציג השהיה בתרחישי ענן בזמן אמת12,13. למידה קבוצתית משפרת הכללה אך מגדילה את צריכת המשאבים וזמן ההסקה14. באופן דומה, מערכות אמון במודל ענן הראו פגיעות לקלטים התנהגותיים רועשים או מתפתחים דינמית, בהתאם לממצאים קודמים16. השיטה המוצעת כוללת עיצוב מודולרי המתאים לסביבות ענן וקצה גדולות יותר, המאפשר אינטגרציה עם למידה פדרטיבית, מחשוב ערפל ומערכות ענן IoT מבוזר. בעוד שהמחקר הנוכחי מתמקד באימות פונקציונלי בתרחישים בקנה מידה בינוני, מחקר עתידי יתרחב לסביבות ענן רחבות היקף ומפוזרות מאוד ולארכיטקטורות SDN מרובות בקרים כדי לשפר את סבילות התקלות. ההארכות המתוכננות כוללות גם חקירת התאמת אמון מבוססת למידת חיזוק, יכולות יום אפס, ואינטגרציה עמוקה יותר עם פידים מודיעין איומים כדי להתמודד עם איומים מתפתחים כמו פישינג ובוטנטים. על ידי איחוד הערכת ML, HMC ואמון אדפטיבית בתוך מערכת SDN, מחקר זה מספק מסלול אסטרטגי למערכות הגנה בענן חכמות, עמידות ופרואקטיביות יותר.
למחברים אין מה לחשוף.
המחברים מביעים את תודתם למחלקת המידע במרכז הפרוטונים והיונים הכבדים של שנגחאי על מתן משאבי המחשוב והסביבה המחקרית החיוניים הנדרשים למחקר זה. אנו גם מעריכים את עמיתינו על התובנות הטכניות החשובות שלהם במהלך שלבי עיצוב המערכת והבדיקות.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| AdaBoost (ספריית למידה קבוצתית) | Scikit-learn, פייתון | https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html | תוכנה |
| מסווג שקיות | Scikit-learn, פייתון | https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html | תוכנה |
| קוד הערכת אמון מודל ענן | מימוש מותאם אישית | לא זמין | אלגוריתם/תוכנה |
| רשת עצבית קונבולוציונית (CNN) | TensorFlow / PyTorch | https://www.tensorflow.org/tutorials/images/cnn | תוכנה |
| מסגרות למידה עמוקה (MLP, RNN, LSTM, GRU) | TensorFlow / PyTorch | תוכנה | |
| סימולטור רשת EstiNet | אסטינט טכנולוגיות | https://sites.google.com/view/estinet-network-simulator | תוכנה |
| קפקה (פלטפורמת סטרימינג נתונים) | קרן אפאצ'י | https://kafka.apache.org/ | תוכנה |
| מערך נתונים KDD CUP 10% | מאגר למידת מכונה של UCI | http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html | מערך נתונים |
| אמולטור מינינט | פרויקט מינינט | מינינט 2.3.1 | אמולציית רשת לטופולוגיית SDN, רוחב פס וסימולציה של התקפה מעורבת. |
| פתח vSwitch (OVS) | Open vSwitch Org | OVS 3.2.2 | מתג וירטואלי שמיישם שליטה בטבלת זרימה וניתוב תעבורת התקפה. |
| פלטפורמת הענן OpenStack | קרן התשתיות הפתוחות | https://www.openstack.org/ | תוכנת ענן |
| פייתון 3.x | קרן התוכנה של פייתון | https://www.python.org/downloads/ | שפת תכנות |
| בקר SDN של ריו | NTT R& D | ריו 4.34 | בקר SDN ללכידת תעבורת רשת בזמן אמת ומודעות למצב. |
| מסגרת Spark Streaming | קרן אפאצ'י | https://spark.apache.org/docs/latest/streaming-programming-guide.html | תוכנה |
| קומפיילר Visual C++ (VC++) | מיקרוסופט | https://visualstudio.microsoft.com/ | תוכנה |
| תחנת עבודה של Windows 11 | מיקרוסופט | Windows 11 Pro 23H2 | מערכת הפעלה שימשה לקומפילציית מודלים, אימון ובדיקות. |
Request permission to reuse the text or figures of this JoVE article
Request Permission