Method Article

Van der Waerden Rank Score Kullanan Destek Vektör Makineleri ile Spam Sınıflandırması Dikkat

DOI:

10.3791/69082

October 31st, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma, yüksek boyutlu seyrek spam verilerinin zorluklarını ele almayı ve spam tespitinin sınıflandırma performansını iyileştirmeyi amaçlayan, Van der Waerden sıralama puanı geliştirilmiş özellik dikkat mekanizmasıyla entegre Destek Vektör Makinesine dayalı yenilikçi bir yaklaşım önermektedir.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

E-posta kullanımı arttıkça spam, ağ güvenliğini tehdit eden ve iletişim verimliliğini azaltan kritik bir sorun haline geldi. Geleneksel tespit yöntemleri kalıcı sınırlamalarla karşı karşıyadır: Geleneksel makine öğrenimi modelleri genellikle yüksek boyutlu seyrek verilerle mücadele ederken, derin öğrenme önemli miktarda hesaplama kaynağı gerektirir.

Bu çalışma, bu sorunları ele almak için bir Van der Waerden sıralama puanı özelliği olan dikkati artırılmış Destek Vektör Makinesi'ni (VWR-Attn-SVM) tanıtmaktadır. Yöntem, metin özelliklerini normalleştirmek, aykırı değerlere karşı sağlamlığı artırmak ve sıralı ilişkileri korumak için Van der Waerden sıralama dönüşümünü uygular. Gelişmiş bir dikkat mekanizması, spam tespitiyle en alakalı özellikleri vurgulayarak, düzenlileştirme ile doğrusal olmayan işleme yoluyla özellik seçimini daha da optimize eder.

UCI Spambase ve Endonezya Spam veri kümeleri üzerinde yapılan deneyler, VWR-Attn-SVM'nin doğruluk, kesinlik, geri çağırma, F1 puanı ve AUC açısından geleneksel sınıflandırıcılardan daha iyi performans gösterdiğini göstermektedir. Yüksek performansı azaltılmış hesaplama maliyetiyle birleştiren yöntem, spam sınıflandırması için etkili ve yorumlanabilir bir çözüm sunar ve mesajlaşma ve sosyal medya gibi diğer metin tabanlı platformlara potansiyel olarak genişletilebilir.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

İnternetin ve dijital teknolojilerin hızlı gelişimi ile karakterize edilen çağdaş dijital çağda, anlık mesajlaşma ve sosyal medya platformlarının sürekli ortaya çıkmasına ve yeniliğine rağmen, e-posta elektronik işlemler ve kurumsal iletişim alanlarında vazgeçilmez bir temel taşı olmaya devam etmiştir1. Zamansal ve mekansal sınırları aşma yeteneği, ona benzersiz avantajlar kazandırıyor ve dünya çapında her an kesintisiz iletişime olanak tanıyor. Ancak bu kapsamlı benimseme, acil ve zararlı bir soruna, yani spam'in yaygın yayılmasına yol açtı. Kötü niyetli aktörler, büyük miktarlarda istenmeyen ticari reklamlar, kötü amaçlı yazılımlar ve yasa dı....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Deneysel hazırlık (Ek Dosya 2 ve Ek Dosya 3)

  1. Veri açıklaması: Spam e-posta algılama30 için UCI Machine Learning Repository'den açık kaynaklı spam veri kümesini yükleyin. Veri kümesinin, 1.813 spam (9,4) ve 2.788 spam olmayan (`,6) örnek dahil olmak üzere 57 sürekli özellik ve 1 sınıf etiketine sahip 4.601 örnek içerdiğini belgeleyin (Tablo 1).
  2. Kitaplık içe aktarma
    1. Temel kitaplıkları içe aktarın ( Malzeme Tablosuna bakın).
    2. Sonuçların tekrarlanabilirliğini sağlamak için genel bir rastgele çekirdeği 42 olarak ayarlayın....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Başlangıç olarak, yerleşik deneysel protokole göre, Şekil 1 bu çalışmanın genel akış şemasına genel bir bakış sunmaktadır. Şekil 2, Deney 2'nin çalışma akış şemalarını sırayla göstermektedir. Ek olarak, Tablo 1 öncelikle spam e-posta veri kümesi spam.csv içindeki kelime ve karakter sıklıklarını sunmaktadır.

Model performans değerlendirmesiyle ilgili olarak beş temel ölçüm kullanıldı: doğruluk, kesinlik, geri çağırma, .......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Bu çalışma, Spambase veri setine dayalı olarak VWR-Attn-SVM'nin etkinliğini doğruladı ve spam verilerinin yüksek boyutlu ve seyrek doğasını ele almak için içgörüler sağladı. Deneyler, spam verilerindeki yalnızca birkaç özelliğin etiketlerle güçlü bir korelasyona sahip olduğunu ortaya çıkardı; Geleneksel modeller tüm özelliklere eşit davranarak performansın düşmesine neden olurken, bu modelin dikkat mekanizması temel özellikleri dinamik olarak ağırlıklandırabilir. Van der Waerden (VWR) sı.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Yazarların açıklayacak herhangi bir çıkar çatışması yoktur.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Fujian Matematik İttifakı'na (Hibe No. 2023SXLMMS10) ve Fujian Eyaleti Doğa Bilimleri Vakfı'na (2023J05083, 2022J011396, 2023J011434) bu çalışmayı finanse ettikleri için teşekkür ederiz.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Ek Dosya 2: code_new.py; Ek Dosya 3: code_indonesian.py.
numpyNumPy GeliştiricileriPython'da sayısal hesaplama için kütüphane
Pandalarpandas Geliştirme EkibiVeri işleme ve analiz kütüphanesi
matplotlibMatplotlib Geliştiriciler Statik, animasyonlu ve etkileşimli görselleştirmeler oluşturmak için kütüphane
SeabornMichael Waskom ve diğerleri.Matplotlib tabanlı istatistiksel veri görselleştirme kütüphanesi
scikit-learnscikit-learn Geliştirici EkibiÇeşitli sınıflandırma, regresyon ve kümeleme algoritmaları içeren makine öğrenimi kütüphanesi
tensor flowGoogleAçık kaynaklı makine öğrenimi çerçevesi, sinir ağları oluşturmak için Keras API'si dahil
imblearndengesiz-öğren GeliştiricilerDengesiz veri setlerini işlemek için kütüphane, oversampling için SMOTE dahil
UyarıPython Standart KütüphanesiUyarı mesajları vermek için modül
Ek Dosya 4: code_compute_time.py
numpyNumPy GeliştiricileriPython için sayısal hesaplama kütüphanesi
Pandalarpandas Geliştirme EkibiVeri işleme ve analiz kütüphanesi
matplotlibMatplotlib GeliştiricileriHikaye ve şekiller oluşturmak için görselleştirme kütüphanesi
SeabornMichael Waskom ve diğerleri.Matplotlib üzerine inşa edilmiş istatistiksel veri görselleştirme kütüphanesi
scikit-learnscikit-learn Geliştirici EkibiSınıflandırma, regresyon ve ön işleme araçları içeren makine öğrenimi kütüphanesi
tensor flowGoogleSinir ağları için Keras API ile açık kaynaklı makine öğrenimi çerçevesi
imblearndengesiz-öğren Geliştirici EkibiDengesiz veri setlerini işlemek için kütüphane (SMOTE dahil)
UyarıPython Standart KütüphanesiUyarı mesajları vermek için modül
SaatPython Standart KütüphanesiZamanla ilgili fonksiyonlar için modül
PsutilGiampaolo RodolaSistem bilgisini almak ve kaynak kullanımını izlemek için kütüphane
işletim sistemiPython Standart Kütüphanesiİşletim sistemiyle etkileşim için modül
Ek Dosya 5: DNN.py.
Pandalarpandas Geliştirme EkibiVeri işleme ve analiz kütüphanesi
numpyNumPy GeliştiricileriPython için sayısal hesaplama kütüphanesi
SaatPython Standart KütüphanesiZamanla ilgili fonksiyonlar için modül
PsutilGiampaolo RodolaSistem bilgi alımı ve kaynak izleme için kütüphane
matplotlibMatplotlib GeliştiricileriHikaye ve şekiller oluşturmak için görselleştirme kütüphanesi
scikit-learnscikit-learn Geliştirici EkibiVeri ön işleme, model seçimi ve metrik araçlarıyla makine öğrenimi kütüphanesi
imblearndengesiz-öğren Geliştirici EkibiDengesiz veri setlerini işlemek için kütüphane (SMOTE dahil)
tensor flowGoogleSinir ağları oluşturmak için Keras API'si ile açık kaynak makine öğrenimi çerçevesi

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Ayo, F. E., Ogundele, L. A., Olakunle, S., Awotunde, J. B., Kasali, F. A. A hybrid correlation-based deep learning model for email spam classification using fuzzy inference system. Decis Anal J. 10, 100390(2024).
  2. Douzi, S., AlShahwan, F. A., Lemoudden, M., Ouahidi, B.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Spam ClassificationSupport Vector MachinesVan Der WaerdenRank Score AttentionFeature SelectionText NormalizationOutlier RobustnessAttention MechanismHigh Dimensional DataText Based Platforms

Related Articles