Van der Waerden Rank Score Kullanan Destek Vektör Makineleri ile Spam Sınıflandırması Dikkat

Nenghui Zhu; Jiaxin Cai

doi:10.3791/69082

Method Article

Van der Waerden Rank Score Kullanan Destek Vektör Makineleri ile Spam Sınıflandırması Dikkat

DOI:

10.3791/69082

⸱

October 31st, 2025

Nenghui Zhu^*¹ , Jiaxin Cai^*¹

¹School of Mathematics and Statistics, Xiamen University of Technology

^* These authors contributed equally

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma, yüksek boyutlu seyrek spam verilerinin zorluklarını ele almayı ve spam tespitinin sınıflandırma performansını iyileştirmeyi amaçlayan, Van der Waerden sıralama puanı geliştirilmiş özellik dikkat mekanizmasıyla entegre Destek Vektör Makinesine dayalı yenilikçi bir yaklaşım önermektedir.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

E-posta kullanımı arttıkça spam, ağ güvenliğini tehdit eden ve iletişim verimliliğini azaltan kritik bir sorun haline geldi. Geleneksel tespit yöntemleri kalıcı sınırlamalarla karşı karşıyadır: Geleneksel makine öğrenimi modelleri genellikle yüksek boyutlu seyrek verilerle mücadele ederken, derin öğrenme önemli miktarda hesaplama kaynağı gerektirir.

Bu çalışma, bu sorunları ele almak için bir Van der Waerden sıralama puanı özelliği olan dikkati artırılmış Destek Vektör Makinesi'ni (VWR-Attn-SVM) tanıtmaktadır. Yöntem, metin özelliklerini normalleştirmek, aykırı değerlere karşı sağlamlığı artırmak ve sıralı ilişkileri korumak için Van der Waerden sıralama dönüşümünü uygular. Gelişmiş bir dikkat mekanizması, spam tespitiyle en alakalı özellikleri vurgulayarak, düzenlileştirme ile doğrusal olmayan işleme yoluyla özellik seçimini daha da optimize eder.

UCI Spambase ve Endonezya Spam veri kümeleri üzerinde yapılan deneyler, VWR-Attn-SVM'nin doğruluk, kesinlik, geri çağırma, F1 puanı ve AUC açısından geleneksel sınıflandırıcılardan daha iyi performans gösterdiğini göstermektedir. Yüksek performansı azaltılmış hesaplama maliyetiyle birleştiren yöntem, spam sınıflandırması için etkili ve yorumlanabilir bir çözüm sunar ve mesajlaşma ve sosyal medya gibi diğer metin tabanlı platformlara potansiyel olarak genişletilebilir.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

İnternetin ve dijital teknolojilerin hızlı gelişimi ile karakterize edilen çağdaş dijital çağda, anlık mesajlaşma ve sosyal medya platformlarının sürekli ortaya çıkmasına ve yeniliğine rağmen, e-posta elektronik işlemler ve kurumsal iletişim alanlarında vazgeçilmez bir temel taşı olmaya devam etmiştir¹. Zamansal ve mekansal sınırları aşma yeteneği, ona benzersiz avantajlar kazandırıyor ve dünya çapında her an kesintisiz iletişime olanak tanıyor. Ancak bu kapsamlı benimseme, acil ve zararlı bir soruna, yani spam'in yaygın yayılmasına yol açtı. Kötü niyetli aktörler, büyük miktarlarda istenmeyen ticari reklamlar, kötü amaçlı yazılımlar ve yasa dışı içerik dağıtmak için e-posta sistemlerini araç olarak kullandılar. Araştırmaya göre, 2012'den 2023'e kadar küresel spam'in toplam e-posta trafiği içindeki ^{oranı %}7700 oranında ^arttı2,3. Bu spam akışı, yalnızca kullanıcıların normal e-posta işlemlerini ciddi şekilde kesintiye uğratmakla kalmıyor, aynı zamanda çok yönlü tehditler de oluşturuyor. Potansiyel olarak hassas bilgileri açığa çıkararak kişisel gizliliği baltalar, veri ihlalleri ve kötü amaçlı yazılım bulaşma riski yoluyla kurumsal güvenliği tehlikeye atar ve hatta dolandırıcılık faaliyetlerini kolaylaştırarak ekonomik düzeni istikrarsızlaştırır ^4,5. Etkili spam sınıflandırması^{, kimlik} avıyla ilgili mali kayıpları @-60 oranında azaltır6, etkili, doğru filtreleme yöntemlerinin pratik değerini vurgulayarak. Sonuç olarak, verimli ve doğru bir spam tespit modeli geliştirmek, ağ güvenliğini sağlamak ve verimliliği artırmak için çok önemli bir araştırma alanı olarak ortaya çıkmıştır.

Spam tespitine ilişkin mevcut araştırmaların önemli bir kısmı, makine öğrenimi ve derin öğrenme metodolojilerine odaklanmıştır. Geleneksel makine öğrenimi alanında çok çeşitli teknikler araştırılmış ve uygulanmıştır. Karar ağaçları⁷ gibi kural tabanlı yöntemler, veri özelliklerinden türetilen önceden tanımlanmış kurallara dayalı olarak sınıflandırma kararları vermek için kullanılmıştır. Birden fazla zayıf öğreniciyi güçlü bir öğrenicide toplayan güçlendirme yöntemleri ^8,9,10 ve verilerdeki belirsizlik ve belirsizlikle ilgilenen kaba küme teorisi¹¹ de potansiyel göstermiştir. Ek olarak, lojistik regresyon, K-en yakın komşular (KNN) ^12,13, Naive Bayes 14,15,16 ve SVM ^17,18,19gibi istatistiksel yöntemler yaygın olarak kullanılmaktadır. Bu yaklaşımlar genellikle TF-IDF gibi geleneksel özellik çıkarma yöntemlerine dayanır. TF-IDF, bir belgedeki kelimelerin önemini ölçmede etkili olsa da, e-posta metinlerinin doğasında bulunan karmaşık anlamsal ilişkileri ve bağlamsal nüansları yakalamakta zorlanır. Üstelik, e-posta özellik alanlarında tipik olan yüksek boyutlu ve seyrek verilerle karşılaşıldığında, bu yöntemler sıklıkla hesaplama darboğazlarıyla karşılaşır. Sınırlı sağlamlıkları, eğitim süreci sırasında yerel optimal çözümlere takılıp kalmaya yol açabilir ve böylece modellerin sınıflandırma doğruluğunu ve genelleme yeteneğini ciddi şekilde kısıtlayabilir.

Derin öğrenme, otomatik özellik çıkarma konusundaki olağanüstü kapasitesiyle spam tespitinde güçlü bir alternatif olarak ortaya çıktı. Evrişimli Sinir Ağları (CNN) 20,21,22, Tekrarlayan Sinir Ağları (RNN) ²³ ve Uzun Kısa Süreli Bellek ağları (LSTM) ^24,25 gibi algoritmaların yanı sıra Word2vec ve BERT^26,27 gibi daha yeni Transformer tabanlı modeller, sınıflandırma performansını iyileştirmede önemli adımlar atmıştır. CNN'ler verilerden yerel özellikleri çıkarma konusunda ustadır, RNN'ler ve LSTM'ler sıralı verileri iyi işleyebilir, metindeki zamansal bağımlılıkları yakalayabilir ve Transformer tabanlı modeller karmaşık anlamsal ilişkiler ve bağlam bilgileri madenciliğinde mükemmeldir. TinyML tabanlı metin sınıflandırıcıları²⁸ gibi son zamanlardaki verimli NLP yöntemleri, spam sınıflandırması için güçlü temeller sunar. TinyML modelleri, sınırlı belleğe sahip uç cihazlar için optimize edilmiştir. Yöntemimizi Sonuçlar bölümünde bu yaklaşımlarla karşılaştırarak doğruluk, hesaplama verimliliği ve dağıtım esnekliği arasındaki dengeleri vurguluyoruz. Ancak, bu derin öğrenme modelleri kendi sınırlamalarıyla birlikte gelir. Genellikle çok sayıda eğitim parametresi gerektirirler, bu da yüksek hesaplama kaynağı taleplerine ve uzun eğitim sürelerine neden olur. BERT gibi derin öğrenme modelleri, geleneksel SVM'lere göre 3-5 kat daha fazla bellek ve 10 kat daha uzun eğitim süreleri gerektirir²⁹, bu da onları kaynakların kısıtlı olduğu ortamlar için daha az uygun hale getirir. Bu, onları mobil cihazlar veya düşük kaliteli sunucular gibi kaynakların kısıtlı olduğu ortamlarda dağıtım için daha az pratik hale getirir. Ayrıca, karmaşık mimarileri genellikle onları daha az yorumlanabilir hale getirir, bu da modelin karar verme sürecini anlamanın önemli olduğu uygulamalarda önemli bir dezavantaj olabilir.

Bu çerçevede, bu çalışmanın genel amacı, mevcut yöntemlerin sınırlamalarının üstesinden gelebilecek ve spam verilerinin yüksek boyutlu ve seyrek doğasının yarattığı zorlukları etkili bir şekilde ele alabilecek yenilikçi bir yaklaşım geliştirmektir. Önerilen Van der Waerden Sıralama Puanı Özelliği Dikkat Geliştirilmiş SVM (VWR-Attn-SVM), spam tespit performansını artırmayı amaçlayan tekniklerin yeni bir entegrasyonunu temsil etmektedir (Şekil 1). VWR-Attn-SVM'nin arkasındaki temel prensip, birden fazla bileşenin güçlü yönlerini birleştiren benzersiz tasarımında yatmaktadır.

figure-introduction-1
Şekil 1: VWR-Attn-SVM ile spam sınıflandırmasına ilişkin araştırmanın genel akış şeması. Bu akış şeması, veri hazırlama (yükleme, bölme, ön işleme), deneysel hazırlık, TF-IDF özellik etiketi istatistiksel korelasyonlarının doğrulanması, dikkat artırılmış SVM tabanlı spam tespiti ve çoklu sınıflandırıcı karşılaştırmasını kapsayan, Van der Waerden sıralama puanına ve özellik geliştirilmiş SVM'ye dayalı spam sınıflandırmasının iş akışını göstermektedir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Temel Gelişmiş Özellik Dikkat Mekanizması, bireysel e-posta örneklerini belirli bir boyutlulukla işler. Van der Waerden sıralama dönüşümünü uygulayarak, anormal kelime frekansları tarafından bozulan e-posta metni özelliklerini standart normal dağılım benzeri bir forma normalleştirir. Bu dönüşüm, modelin sağlamlığını önemli ölçüde artırarak e-posta verilerinin değişkenliğini daha iyi ele almasını sağlar. Van der Waerden sıralama puanları, üç nedenden dolayı log ölçeklendirme ve nicelik dönüşümlere göre tercih edildi: (1) Düşük frekanslı gürültüyü artıran log ölçeklendirmenin aksine, özellik aykırı değerlerini (örneğin, aşırı kelime frekansları) spam'e karşı dayanıklı; (2) Özellik sıralı ilişkilerini koruyun ("ücretsiz" ve "kazan" gibi spam göstergesi hiyerarşisi için kritik), oysa nicelik dönüşümleri dağılımları düzleştirir; (3) [0,1]'e normalleştirin, dikkat mekanizması entegrasyonunu kolaylaştırın ve tutarlı ağırlıklandırma sağlayın (Şekil 2).

figure-introduction-2
Şekil 2: Deneysel Akış Şeması. (A-C) Veri işleme, özellik seçimi, model eğitimi, değerlendirme ve Van der Waerden sıralama puanı dönüşümü ile/olmadan karşılaştırmayı kapsayan spam sınıflandırması için iş akışları. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Yapısal olarak mekanizma, doğrusal olmayan özellik dönüşümü için iki katmanlı, tamamen bağlı bir ağa sahiptir (Şekil 2). LeakyReLU aktivasyon fonksiyonuyla donatılmış ilk katman, doğrusal olmama özelliğini getirirken giriş boyutlarını azaltır ve aşırı uyumu azaltmak için bir Bırakma katmanı içerir. Sigmoid işlevini kullanan ikinci katman, her özelliğin önemini tam olarak ölçebilen dikkat ağırlıkları verir. L1 düzenlemesinin seyrekliği teşvik ettiği, daha az alakalı özellikleri etkili bir şekilde taradığı ve L2 düzenlemesinin ağırlıkların büyüklüğünü kısıtlayarak aşırı uyumu önlediği özellik seçimini optimize etmek için modele bir L1/L2 düzenleme stratejisi entegre edilmiştir. Eğitim aşamasında, model parametrelerini optimize etmek için özellik yeniden yapılandırma kaybını ve sınıflandırma kaybını birleştiren çok görevli bir öğrenme çerçevesi benimsenir. Bu, VWR-Attn-SVM'nin, e-posta içeriğinin karmaşık doğasının özelliği olan e-posta metinlerinin yüksek boyutlu, seyrek TF-IDF özelliklerine tam olarak uyum sağlamasına olanak tanır.

Yöntemimiz, birkaç bin ila on bin arasında değişen metin tabanlı spam veri kümeleri için optimize edilmiştir (örneğin, Spambase, Endonezya Spam veri kümesi (Ek Dosya 1)) ve eğitim için standart hesaplama kaynakları (Intel Core i7 işlemci, 16 GB RAM) gerektirir; çıkarım, standart bir dizüstü bilgisayarda (Intel Core i5, 8 GB RAM) saniyenin altında gecikme süresiyle çalıştırılabilir. Temel kısıtlamalar arasında metin dışı spam'de (örneğin, resim gömülü spam) sınırlı performans ve yapılandırılmış metin özelliklerine bağımlılık yer alır. Mevcut alternatif teknolojilerle karşılaştırıldığında, VWR-Attn-SVM'nin birçok dikkate değer avantajı vardır. Geleneksel makine öğrenimi yöntemlerinden farklı olarak, yalnızca temel özellik çıkarımına dayanmaz, aynı zamanda spam sınıflandırmasıyla daha alakalı özellikleri daha iyi yakalamak için gelişmiş dikkat mekanizması aracılığıyla özellikleri önemlerine göre ağırlıklandırmayı aktif olarak öğrenir. Derin öğrenme modellerinin aksine, performans ve hesaplama verimliliği arasında olumlu bir denge sağlar. Daha az hesaplama kaynağı ve daha kısa eğitim süreleri gerektirir, bu da onu özellikle sınırlı kaynaklara sahip olanlar olmak üzere çok çeşitli uygulamalar için daha uygun hale getirir. Bu yenilikçi yaklaşım, yalnızca e-posta sistemlerindeki spam tespiti gibi belirli bir görev için geçerli olmakla kalmaz, aynı zamanda istenmeyen ve kötü amaçlı içerik yayılımına ilişkin benzer sorunların mevcut olduğu anlık mesajlaşma uygulamaları, sosyal medya platformları ve SMS hizmetleri gibi diğer metin tabanlı iletişim kanallarına da yayılma potansiyeline sahiptir. Genel olarak VWR-Attn-SVM, spam tespiti alanında önemli bir ilerlemeyi temsil ediyor ve dijital iletişim ortamındaki kalıcı spam sorunuyla mücadele etmek için daha pratik, verimli ve çok yönlü bir çözüm sunuyor.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Deneysel hazırlık (Ek Dosya 2 ve Ek Dosya 3)

Veri açıklaması: Spam e-posta algılama³⁰ için UCI Machine Learning Repository'den açık kaynaklı spam veri kümesini yükleyin. Veri kümesinin, 1.813 spam (9,4) ve 2.788 spam olmayan (`,6) örnek dahil olmak üzere 57 sürekli özellik ve 1 sınıf etiketine sahip 4.601 örnek içerdiğini belgeleyin (Tablo 1).
Kitaplık içe aktarma
1. Temel kitaplıkları içe aktarın ( Malzeme Tablosuna bakın).
2. Sonuçların tekrarlanabilirliğini sağlamak için genel bir rastgele çekirdeği 42 olarak ayarlayın.
Çizim ayarlarını yapılandırın: İngilizce metin için Times New Roman kullanın, eksi işareti görüntüleme sorunlarını çözün ve daha iyi okunabilirlik için yazı tipi boyutunu 16 olarak ayarlayın.

Tablo 1: Veri kümesi istatistiklerinin ve özellik tanımlarının özeti. Bu tablo, kelime sıklığı (word_freq_WORD), karakter sıklığı (char_freq_CHAR), sermaye çalıştırma uzunluğu metrikleri ve hedef sınıf değişkeni dahil olmak üzere spam sınıflandırması için değişkenleri, her bir değişken türü ve anlamının açıklamalarıyla birlikte sunar. Bu Tabloyu indirmek için lütfen buraya tıklayın.

2. TF-IDF özellikleri ve etiketleri arasındaki istatistiksel ilişkiyi doğrulamak için deney yapın (Ek Dosya 2 ve Ek Dosya 3)

Veri ön işleme
1. Veri kümelerini yükleyin (Ek Dosya 1): ilk veri kümesi: spambase.csv; İkinci veri kümesi: spam_indonesian.csv.
2. Spam ve spam olmayan e-posta etiketlerinin dağılımını inceleyin ve her kategorinin oranını hesaplayın.
3. Yaklaşan ki-kare testi için eşik olarak ortalamayı kullanarak bu özellikleri ikilileştirin.
  NOT: Spam dosyasının doğru çalışma dizininde olduğundan emin olun veya read komutunu kullanırken tam dosya yolunu sağlayın.
Veri testi ön işleme (Ek Dosya 2 ve Ek Dosya 3)
1. İkili TF-IDF özelliklerinde ki-kare testi için sklearn.feature_selection.chi2 kullanın:
  Kod çağrısı:
  sklearn.feature_selection'den Chi2'yi içe aktar
  chi2_values, p_values = chi2(df_binary, df['spam'])
  significant_features_chi2 = [feature_cols[i] np.where(p_values < 0.05)[0]] içinde i için
  print(f"Önemli özellik sayısı: {len(significant_features_chi2)}")
  Beklenen çıktı: "Ücretsiz" veya "kaldır" gibi anahtar kelimeler de dahil olmak üzere, spam etiketleriyle istatistiksel ilişkisi olan özelliklerin bir alt kümesi (örneğin, 57 özellikten 35'i).
2. sklearn.feature_selection.f_classif kullanarak bir uygulama gerçekleştirin:
  Kod çağrısı:
  sklearn.feature_selection içe aktarma f_classif
  f_values, f_p_values = f_classif(df[feature_cols], df['spam'])
  significant_features_f = [feature_cols[i] np.where(f_p_values < 0.05)[0]] içinde i için
  print(f"Korunan özellikler: {len(significant_features_f)}")
  NOT: Bu genellikle 40-50 özelliği korur (veri kümesine bağlıdır), ki-kare sonuçlarıyla kısmen örtüşür.
  İstatistiksel testleri çalıştırmadan önce, doğru sonuçları garanti etmek için veri formatını ve parametreleri doğrulayın.
Görsel -leştirme
1. Ki-kare test sonuçlarından en küçük p değerlerine sahip ilk 20 özelliği seçin.
2. seaborn.heatmap kullanarak oluşturun:
  Kod çağrısı:
  Seaborn'u SNS olarak içe aktarın
  top_indices = np.argsort(p_values)[:20]
  top_features = [feature_cols[i] en üstteki i için$\_$endeksler]
  corr_matrix = df[top_features + ['spam']].corr()
  plt.figure(figsize=(12, 10))
  sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
  plt.göster()
  NOT: Beklenen model: Spam ile ilgili özellikler, spam etiketi kırmızı olacak şekilde kümelenir (pozitif korelasyon).

3. İstenmeyen e-posta tespiti için dikkat çekici SVM sınıflandırması (Ek Dosya 2 ve Ek Dosya 3)

Veri ön işleme
1. Veri yükleme: Sabit tohum ile sklearn.model selection.train test bölmesini kullanarak verileri bölün:
  Kod çağrısı:
  Sklearn.model seçiminden import train test split
  X treni, X testi, y treni, y testi = tren testi bölümü(X, y, test boyutu=0.3, rastgele durum=42)
2. Standardizasyon ve sınıf dengeleme: imblearn.over örnekleme yoluyla uygulayın. SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği (SMOTE)³¹):
  Kod çağrısı:
  imblearn.over örnekleme içe aktarma SMOTE'den
  # Varsayılan: örnekleme stratejisi='otomatik', k komşu=5
  smote=SMOTE(rastgele durum=42)
  X tren vuruşu, y tren vuruşu = smote.fit resample(X treni, y treni)
  Sınıf dağılımını dengeler (örneğin, 85:15'ten 50:50'ye kadar).
Gelişmiş özellik dikkat modeli mimarisi: Çok katmanlı doğrusal olmayan dönüşümler aracılığıyla özellik önem ağırlıklarını öğrenen bir mekanizma tasarlayın. Etkilerini artırmak için kritik özelliklere daha yüksek dikkat ağırlıkları atayın.
1. Özellik ön işleme (İsteğe bağlı)
  1. Giriş özelliklerine Van der Waerden normal rank dönüşümünü uygulayın. Model sağlamlığını artırmak için ham özellikleri yaklaşık normal dağılıma dönüştürün. Formülü kullanın:
    
    Burada x, bir numunenin TF-IDF özellik vektörünü temsil eder, R(x) özellik değerinin sırasıdır, d vektör uzunluğudur (d=57) ve ^φ-1, standart normal dağılımın ters kümülatif dağılım fonksiyonudur.
    NOT:Özellik işleme için normal sıra dönüşümünün etkinleştirilmesini kontrol etmek için use_rank_transform (Boolean) parametresini kullanın.
2. Çok katmanlı doğrusal olmayan dönüşüm: İki katmanlı, tamamen bağlı bir ağ aracılığıyla özelliklerin doğrusal olmayan bir temsilini öğrenin.
  1. İlk katman dönüşümü: Şu formülü kullanın:
    
    Nerede W₁ ^{R k×d} ve k=64 (gizli nöronlar).
    LeakyReLU ile Keras'ta uygulandı:
    Kod çağrısı:
    tensorflow.keras.layers'tan içe aktar Yoğun
    self.dense1=Dense(birimler=64, VWR-Attn-SVM için # 256
    activation='leaky relu', # Varsayılan negatif eğim=0.01
    çekirdek düzenleyici=düzenlileştiriciler.l1 l2(l1=0.0002, l2=0.0002))
    NOT: Aşırı uyumu önlemek için bırakma oranı 0,2 olan bir bırakma katmanı ekleyin.
  2. İkinci katman dönüşümü: [0,1] aralığında dikkat ağırlıkları oluşturmak için Sigmoid kullanarak ikinci katman dönüşümünü uygulayın. Formülü kullanın:
    
    Burada W₂ R^d×k ve bir R^k her özellik için dikkat ağırlıklarıdır. Birden çok özelliğin öneminin bağımsızlığını korumak için SoftMax yerine Sigmoid'i seçin.
    Dikkat ağırlıkları için Keras Sigmoid aktivasyonunu uygulayın:
    Kod çağrısı:
    self.dense2 = Dense(giriş şekli[-1], aktivasyon='sigmoid',
    çekirdek düzenleyici=düzenlileştiriciler.l1 l2(l1=0.0002, l2=0.0002))
3. Özellik ağırlıklandırma: Dikkat ağırlıklarıyla öğe bazında çarpma gerçekleştirerek önemli özellikleri geliştirin. Formülü kullanın:
  
  Burada eleman bazında çarpmayı belirtir.
Gelişmiş özellik dikkat modelini eğitme
1. Çoklu görev hedefi optimizasyonu: Modeli eğitmek için yeniden yapılandırma kaybı ve çapraz entropi kaybını birleştiren ağırlıklı kayıp fonksiyonunu en aza indirin. Dikkat mekanizmasının, sınıflandırmayla ilgili özelliklere odaklanırken kritik bilgileri koruduğundan emin olun. Formülü kullanın:
  
  Ortalama kare hata kaybını kullanın
  girdi özelliklerini yeniden yapılandırmak ve çapraz entropi kaybını uygulamak için
  sınıflandırma görevine.
  PyTorch'ta özel çoklu görev kaybı uygulayın: Keras'ta alfa=0.5 ile özel kayıp:
  Kod çağrısı:
  model.compile(optimizer='adam',kayıp={
  'enhanced_feature_attention':'mse','classification':
  'binary_crossentropy'},loss_weights={
  'enhanced_feature_attention': 0.5, 'sınıflandırma': 0.5})
  alfa=0.5 dengeleri, yeniden yapılandırma (MSE) ve sınıflandırma (çapraz entropi) özelliklerine sahiptir ve 50-100 dönem içinde istikrarlı yakınsamaya yol açar.
  NOT: Özellik seçimini ve genellemeyi geliştirmek için her iki tam bağlı katmana da L1/L2 karma düzenlileştirme (Elastik Ağ, varsayılan güç 0,001) uygulayın.
2. Parametre ayarları: İki kaybın göreceli önemini kontrol etmek için ağırlık katsayısını α ayarlayın ve kodda α = 0,5 kullanın. Toplu iş boyutunu 64 olarak yapılandırın, dönem sayısını 200 olarak ayarlayın ve doğrulama kümesi için verilerin 'unu ayırın.
3. Geri arama işlevleri ekleyin.
  Varsayılan parametrelerle Keras callback'leri:
  Kod çağrısı:
  tensorflow.keras.callbacks'ten EarlyStopping, ReduceLROnPlateau'yu içe aktarın
  geri aramalar = [EarlyStopping(monitor='val_loss', sabır=5, mod='min', restore_best_weights
  =Doğru), ReduceLROnPlateau(monitor='val_loss', faktör=0.5, sabır=5, min_lr=0.0005, ayrıntılı=1)]
  1. Doğrulama kaybı art arda 5 dönem boyunca düzelmediğinde eğitim sürecini durdurmak için EarlyStop geri çağırmasını ekleyin.
  2. Öğrenme oranını uyarlanabilir bir şekilde ayarlamak için ReduceLROnPlateau geri çağrısını ekleyin. Bozulma faktörünü 0,5 ve minimum öğrenme oranını 0,0002 olarak ayarlayın.
4. Dikkat ağırlığı özellikleri oluşturma: Eğitimden sonra, Geliştirilmiş Özellik Dikkat katmanından dikkat ağırlıklarını çıkarın. Hem eğitim hem de test setleri için ağırlıklı özellikler oluşturun. Bu özellikleri SVM sınıflandırıcısına besleyin.
Model değerlendirmesi
NOT: 70-30 antrenman-test bölümü, eğitim ve değerlendirmeyi dengeler. SMOTE, sınıf dengesizliğini gidererek dengesiz metin verilerinde performansı artırır. MinMaxScaler, mesafeye dayalı modelleri stabilize eder. Üniteler: 64 (Attn-SVM) ve 128 (VWR-Attn-SVM) denge kapasitesi; 128, Van-der-Waerden rütbe dönüşümü karmaşıklığını barındırır. Bırakma (0,2), küçük ve orta ölçekli veri kümeleri için standart olan aşırı uyumu önler. L1/L2 düzenliliği (0.0002-0.002): L1 seyrekliğe neden olur; L2 ağırlık büyüklüğünü sınırlar. Eşit kayıp ağırlıkları (MSE: 0.5, çapraz entropi: 0.5) yeniden yapılandırma ve sınıflandırma öğrenimini dengeler. Dönemler: 200 (Attn-SVM), 300 (VWR-Attn-SVM) ve aşırı uyumu önlemek için erken durdurma (sabır=5). Parti boyutu 64, verimliliği ve kararlılığı dengeler. ReduceLROnPlateau (faktör=0,5, sabır=5-10), daha iyi yakınsama için öğrenme oranlarını (min 0,0001-0,0005) ayarlar.
1. Ablasyon çalışması tasarımı ve karşılaştırmaları: Karşılaştırma için aşağıdaki modelleri tanımlayın: Temel SVM: Radyal Temel Fonksiyon (RBF) çekirdeğine sahip geleneksel SVM; Dikkat-SVM: Gelişmiş özellik dikkat mekanizmasına sahip SVM; VWR-Attn-SVM: Van der Waerden dönüşümünü ve gelişmiş özellik dikkatini birleştiren SVM.
2. Değerlendirme metrikleri (Tablo 2): Doğruluk, kesinlik, geri çağırma, F1 puanı ve AUC kullanarak model performansını değerlendirin.
Dikkat görselleştirme ve model yorumlama
1. Temel özelliklerin dikkat ağırlıklarını görselleştirme
  En iyi 15 özellik için Matplotlib barplot:
  Kod çağrısı:
  matplotlib.pyplot'u plt olarak içe aktarın
  top_indices = np.argsort(-avg_weights)[:15]
  top_features = [feature_names[i] top_indices]'deki i için
  top_weights = avg_weights[top_indices]
  plt.figure(figsize=(12, 8))
  plt.barh(top_features, top_weights, color='gök mavisi')
  plt.xlabel('Dikkat Ağırlığı')
  plt.title('En İyi Özellik Dikkat Ağırlıkları')
  plt.göster()
2. Normal sıra dönüşümünün etkisini karşılaştırma: use_rank_transform etkinleştirilmiş ve etkinleştirilmemiş model performansını (doğruluk, kesinlik, geri çağırma, F1 puanı, AUC) karşılaştırın. Biçimlendirilmiş bir tablodaki temel metrik farklılıklarını vurgulayın.
3. Özellik önemi karşılaştırması: İstatistiksel testlerle (örneğin, ki-kare) belirlenen önemli özellikler ile dikkat mekanizması arasındaki tutarlılığı analiz edin.
  NOT: Hesaplama kaynakları sınırlıysa, birim sayısını (örneğin 32'ye) veya dönem sayısını (örneğin 100'e) azaltın. Model karmaşıklığını dengelemek için l1_reg/l2_reg ayarlayın (daha yüksek değerler düzenlileştirmeyi artırır).

4. Çoklu sınıflandırıcıların karşılaştırılması (Ek Dosya 2 ve Ek Dosya 3)

Sınıflandırıcı sözlüğünü tanımlayın. Karşılaştırma için KNN, Lojistik Regresyon, AdaBoost, Naive Bayes ve RBF çekirdeğine sahip SVM (varsayılan parametreler) dahil olmak üzere bir sınıflandırıcılar sözlüğü oluşturun.
Sonuç DataFrame'lerini başlatın. Değerlendirme ölçümlerini depolamak için sütunlarla dört DataFrame oluşturun: Sınıflandırıcı, Doğruluk, Duyarlık, Geri Çağırma, F1-Score ve AUC.
Sınıflandırıcıları eğitin ve değerlendirin. Her sınıflandırıcı için aşağıdaki adımları gerçekleştirin.
Parametreler ve tohumlar içeren örnek sınıflandırıcılar:
Kod çağrısı:
sklearn.linear_model içe aktarmadan LogisticRegression
sklearn.svm'den SVC'yi içe aktar
lr = LojistikRegresyon(random_state=RANDOM_SEED, max_iter=1000)
svm = GridSearchCV(SVC(random_state=RANDOM_SEED, olasılık=Doğru),
param_grid={'C': [0,001,0,01 1, 10.100.1000], 'gama': [0,001,0,01 1, 10.100.1000],
çekirdek': ['rbf', 'doğrusal']}, cv=5, puanlama='f1')
NOT: Tüm modeller tekrarlanabilirlik için random_state=42 kullanır.
1. Sınıflandırıcıyı ölçeklendirilmiş eğitim verileri üzerinde eğitin.
2. Hem eğitim hem de test setlerindeki olasılıkları tahmin edin ve hesaplayın.
3. Sınıflandırma raporları oluşturun ve ölçümleri ilgili DataFrame'lerde depolayın.
Gelişmiş özellik dikkati SVM sonuçlarını entegre edin. Attn-SVM ve VWR-Attn-SVM'den (Deney 3'ten) performans ölçümlerini mevcut DataFrame'lere dahil edin.
Karşılaştırmalı sonuçları yazdırın. Hem eğitim hem de test kümelerinde istenmeyen posta olmayan ve istenmeyen e-postalar için değerlendirme tablolarını görüntüleyin.
Sonuçları görselleştirin. Sınıflandırıcı performans ölçümlerini çizmek için sns.barplot kullanın. Okunabilirlik için x ekseni etiketlerini 45° döndürün. Düzeni optimize edin ve plt.show() kullanarak grafiği görüntüleyin.
sns.barplot çıktılarının yorumlanması:
Kod çağrısı:
Seaborn'u SNS olarak içe aktarın
sns.barplot(x='Sınıflandırıcı', y='F1-Puanı', data=sonuçlar)

5. Farklı sınıflandırıcıların eğitim/test süresi ve hafızadaki çoklu metrik performansının karşılaştırma tablosu (Ek Dosya 4)

Veri ön işleme: Yük spambase.csv veya spam_indonesian.csv; p eğitim/0 test setlerine bölünmüştür; MinMaxScaler ile özellikleri standartlaştırın.
Model eğitimi: KNN, Lojistik Regresyon, AdaBoost, Naive Bayes, SVM (ızgara aramalı), Attn-SVM ve VWR-Attn-SVM'yi eğitin.
Performans değerlendirmesi: Doğruluk, Kesinlik, Geri Çağırma, F1 puanı ve AUC'yi hesaplayın.
Kaynak analizi: Eğitim süresini, test süresini ve bellek kullanımını kaydedin.
Görselleştirme: Çoklu metrik performans grafikleri ve kaynak tüketim grafikleri oluşturun.
Anahtar Parametreler: Rastgele tohum=42; SVM ızgarası (C:[0.01,0.1,1,10,100]; gama:[0.01,0.1,1,10,100]; çekirdek:['rbf','doğrusal']); dikkat modelleri 2 katmanlı tam bağlı ağlar, L1/L2 düzenleme ve Bırakma kullanır.
Çıktı: Performans tabloları, kaynak tabloları, çoklu metrik çizelgeler, zaman/bellek çizelgeleri, dikkat ağırlığı görselleştirmeleri.

6. CNN, RNN, LSTM veya Transformatörlerin deneysel sonuçları (Ek Dosya 5)

Ön işleme: Yük spambase.csv veya spam_indonesian.csv, gerekirse sınıf dengesizliği için SMOTE uygulayın, eğitim/test (70/30) olarak bölün.
Eğitim: CNN, RNN, LSTM, Transformer oluşturun; Adam(0.001), ikili çapraz entropi, batch_size=32, dönemler=10, erken durma (sabır=5) ve öğrenme hızı planlaması.
Değerlendirme: Hesaplama Doğruluğu, Duyarlık, Geri Çağırma, F1, AUC; Eğitim/test süresini ve bellek kullanımını kaydedin.
Görselleştirme: Performans ve kaynak karşılaştırma grafikleri oluşturun; CSV sonuçlarını kaydedin.
Çıktı: Performans ölçümleri tablosu, kaynak tüketimi tablosu, karşılaştırma grafikleri, CSV dosyaları.

7. Ek kod talimatları

Kodu çalıştırmak ve şekilleri çoğaltmak için: spam.csv veya spam_indonesian.csv aynı dizine yerleştirin. Bağımlılıkları pip install numpy pandas matplotlib seaborn scikit-learn tensorflow dengesiz-learn psutil aracılığıyla yükleyin. Komut dosyasını çalıştırın; Yürütme sırasında verileri otomatik olarak işleyecek, modelleri eğitecek ve tüm rakamları (ısı haritaları, performans grafikleri) oluşturacak/görüntüleyecektir.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Başlangıç olarak, yerleşik deneysel protokole göre, Şekil 1 bu çalışmanın genel akış şemasına genel bir bakış sunmaktadır. Şekil 2, Deney 2'nin çalışma akış şemalarını sırayla göstermektedir. Ek olarak, Tablo 1 öncelikle spam e-posta veri kümesi spam.csv içindeki kelime ve karakter sıklıklarını sunmaktadır.

Model performans değerlendirmesiyle ilgili olarak beş temel ölçüm kullanıldı: doğruluk, kesinlik, geri çağırma, ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma, Spambase veri setine dayalı olarak VWR-Attn-SVM'nin etkinliğini doğruladı ve spam verilerinin yüksek boyutlu ve seyrek doğasını ele almak için içgörüler sağladı. Deneyler, spam verilerindeki yalnızca birkaç özelliğin etiketlerle güçlü bir korelasyona sahip olduğunu ortaya çıkardı; Geleneksel modeller tüm özelliklere eşit davranarak performansın düşmesine neden olurken, bu modelin dikkat mekanizması temel özellikleri dinamik olarak ağırlıklandırabilir. Van der Waerden (VWR) sı...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarların açıklayacak herhangi bir çıkar çatışması yoktur.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Fujian Matematik İttifakı'na (Hibe No. 2023SXLMMS10) ve Fujian Eyaleti Doğa Bilimleri Vakfı'na (2023J05083, 2022J011396, 2023J011434) bu çalışmayı finanse ettikleri için teşekkür ederiz.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
Ek Dosya 2: code_new.py; Ek Dosya 3: code_indonesian.py.
numpy	NumPy Geliştiricileri	Python'da sayısal hesaplama için kütüphane
Pandalar	pandas Geliştirme Ekibi	Veri işleme ve analiz kütüphanesi
matplotlib	Matplotlib Geliştiriciler	Statik, animasyonlu ve etkileşimli görselleştirmeler oluşturmak için kütüphane
Seaborn	Michael Waskom ve diğerleri.	Matplotlib tabanlı istatistiksel veri görselleştirme kütüphanesi
scikit-learn	scikit-learn Geliştirici Ekibi	Çeşitli sınıflandırma, regresyon ve kümeleme algoritmaları içeren makine öğrenimi kütüphanesi
tensor flow	Google	Açık kaynaklı makine öğrenimi çerçevesi, sinir ağları oluşturmak için Keras API'si dahil
imblearn	dengesiz-öğren Geliştiriciler	Dengesiz veri setlerini işlemek için kütüphane, oversampling için SMOTE dahil
Uyarı	Python Standart Kütüphanesi	Uyarı mesajları vermek için modül
Ek Dosya 4: code_compute_time.py
numpy	NumPy Geliştiricileri	Python için sayısal hesaplama kütüphanesi
Pandalar	pandas Geliştirme Ekibi	Veri işleme ve analiz kütüphanesi
matplotlib	Matplotlib Geliştiricileri	Hikaye ve şekiller oluşturmak için görselleştirme kütüphanesi
Seaborn	Michael Waskom ve diğerleri.	Matplotlib üzerine inşa edilmiş istatistiksel veri görselleştirme kütüphanesi
scikit-learn	scikit-learn Geliştirici Ekibi	Sınıflandırma, regresyon ve ön işleme araçları içeren makine öğrenimi kütüphanesi
tensor flow	Google	Sinir ağları için Keras API ile açık kaynaklı makine öğrenimi çerçevesi
imblearn	dengesiz-öğren Geliştirici Ekibi	Dengesiz veri setlerini işlemek için kütüphane (SMOTE dahil)
Uyarı	Python Standart Kütüphanesi	Uyarı mesajları vermek için modül
Saat	Python Standart Kütüphanesi	Zamanla ilgili fonksiyonlar için modül
Psutil	Giampaolo Rodola	Sistem bilgisini almak ve kaynak kullanımını izlemek için kütüphane
işletim sistemi	Python Standart Kütüphanesi	İşletim sistemiyle etkileşim için modül
Ek Dosya 5: DNN.py.
Pandalar	pandas Geliştirme Ekibi	Veri işleme ve analiz kütüphanesi
numpy	NumPy Geliştiricileri	Python için sayısal hesaplama kütüphanesi
Saat	Python Standart Kütüphanesi	Zamanla ilgili fonksiyonlar için modül
Psutil	Giampaolo Rodola	Sistem bilgi alımı ve kaynak izleme için kütüphane
matplotlib	Matplotlib Geliştiricileri	Hikaye ve şekiller oluşturmak için görselleştirme kütüphanesi
scikit-learn	scikit-learn Geliştirici Ekibi	Veri ön işleme, model seçimi ve metrik araçlarıyla makine öğrenimi kütüphanesi
imblearn	dengesiz-öğren Geliştirici Ekibi	Dengesiz veri setlerini işlemek için kütüphane (SMOTE dahil)
tensor flow	Google	Sinir ağları oluşturmak için Keras API'si ile açık kaynak makine öğrenimi çerçevesi

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ayo, F. E., Ogundele, L. A., Olakunle, S., Awotunde, J. B., Kasali, F. A. A hybrid correlation-based deep learning model for email spam classification using fuzzy inference system. Decis Anal J. 10, 100390(2024).
Douzi, S., AlShahwan, F. A., Lemoudden, M., Ouahidi, B. Hybrid email spam detection model using artificial intelligence. Int J Mach Learn Comput. 10 (2), 316-322 (2020).
Maqsood, U., et al. An intelligent framework based on deep learning for SMS and e-mail spam detection. Appl Comput Intell Soft Comput. 2023, 6648970(2023).
Yang, Z., Nie, X., Xu, W., Guo, J. An approach to spam detection by naive Bayes ensemble based on decision induction. Proc IEEE Comput Soc. , 861-866 (2006).
Nazirova, S., Alguliyev, R. Two approaches on implementation of CBR and CRM technologies to the spam filtering problem. J Inf Secur. 3 (1), 11-17 (2012).
Consumer Sentinel Network Data Book. , Federal Trade Commission. (2022).
DeSouza, M., Fitzgerald, J., Kemp, C., Truong, G. A decision tree-based spam filtering agent. , Available at: http://www.cs.mu.oz.au/481/2001_projects/gntr/index.html (2001).
Boosting trees for anti-spam email filtering. Carreras, X., Marque, L. Proc RANLP-01, 4th Int Conf Recent Adv Nat Lang Process, , INCOMA Ltd. (2001).
Androutsopoulos, I. Learning to filter unsolicited commercial e-mail. Int Proc Comput Sci Inf Tech. , (2025).
XGBoost: a scalable tree boosting system. Chen, T., Guestrin, C. Proc 22nd ACM SIGKDD Int Conf Knowl Discov Data Min, , ACM. 785-794 (2016).
Intelligent analysis, filtering, and rough set discussions of spam. Liu, Y., et al. Proc 12th Annu Conf Comput Netw Data Commun China Comput Fed, , (2002).
Androutsopoulos, I., et al. Learning to filter spam e-mail: a comparison of a naive Bayesian and memory-based approach. Comput Sci. 97 (2), 1-13 (2000).
Cai, J., et al. Fibrosis and inflammatory activity diagnosis of chronic hepatitis C based on extreme learning machine. Sci Rep. 15 (1), 11(2025).
Zhou, Y., Li, Y., Xia, S. An improved KNN text classification algorithm based on clustering. J Comput. 4 (3), 230-237 (2009).
Rapacz, S., Cholda, P., Natkaniec, M. A. Method for fast selection of machine-learning classifiers for spam filtering. Electronics. 10 (17), 2083(2021).
Fu, S., Nizar, B. A. Soft computing model based on asymmetric Gaussian mixtures and Bayesian inference. Soft Comput. 24 (1), 4841-4853 (2020).
Text categorization with support vector machines: learning with many relevant features. Joachims, T. Proc Eur Conf Mach Learn, , Springer. 137-142 (1998).
Drucker, H., Wu, D., Vapnik, V. N. Support vector machines for spam categorization. IEEE Trans Neural Netw. 10 (5), 1048-1054 (2002).
Yuan, Y., Fan, W., Pu, D. Spline function smooth support vector machine for classification. J Ind Manag Optim. 3 (3), 529-542 (2017).
Cai, J., et al. A residual joint antenna network for joint transmit-receive antenna subset selection in MIMO systems. IEEE Trans Antennas Propag. , (2025).
Zhu, S., et al. Singular pooling: a spectral pooling paradigm for second-trimester prenatal level II ultrasound standard fetal plane identification. IEEE Trans Circuits Syst Video Technol. , (2025).
Zhu, S., et al. Contrast and gain-aware attention: a plug-and-play feature fusion attention module for torso region fetal plane identification. Ultrasound Med Biol. , (2025).
Mikolov, T., Karafiat, M., Burget, L., Cernock, J., Khudanpur, S. Recurrent neural network based language model. Proc Interspeech, Int Speech Commun Assoc. , (2015).
Hochreiter, S., Schmidhuber, J. Long short-term memory. Neural Comput. 9 (8), 1735-1780 (1997).
Cai, J., et al. Developing deep LSTMs with later temporal attention for predicting COVID-19 severity, clinical outcome, and antibody level by screening serological indicators over time. IEEE J Biomed Health Inform. 28 (7), 4204-4215 (2024).
Vaswani, A., et al. Attention is all you need. Adv Neural Inf Process Syst. , (2017).
Xian, L. Application of an improved TF-IDF method in literary text classification. Adv Multimed. 2022, 9285324(2022).
Alajlan, N., Ibrahim, D. M. TinyML: enabling inference of deep learning models on ultra-low-power IoT edge devices for AI applications. Micromachines. 13 (6), 851(2022).
Devlin, J., Chang, M. W., Lee, K., Toutanova, K. BERT: pre-training of deep bidirectional transformers for language understanding. Proc North Am Chapter Assoc Comput Linguist. , (2019).
Hopkins, M., Reeber, E., Forman, G., Suermondt, J. Spambase dataset. UCI Mach Learn Repos. , (1999).
Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. SMOTE: synthetic minority over-sampling technique. J Artif Intell Res. 16, 321-357 (2002).
Cuk, A., et al. Tuning attention-based long short-term memory neural networks for Parkinson's disease detection using modified metaheuristics. Sci Rep. 14, 4309(2024).
Mizdrakovic, V., et al. Forecasting bitcoin: decomposition-aided long short-term memory-based time series modeling and its explanation with Shapley values. Knowl Based Syst. 299 (5), 112026(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Van der Waerden Rank Score Kullanan Destek Vektör Makineleri ile Spam Sınıflandırması Dikkat

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles