Method Article

Spam Classificatie met Ondersteuning Vector Machines Met behulp van Van der Waerden Rank Score Let op

DOI:

10.3791/69082

October 31st, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deze studie stelt een innovatieve aanpak voor op basis van Support Vector Machine geïntegreerd met een Van der Waerden rank-score-verbeterd aandachtsmechanisme, met als doel de uitdagingen van hoogdimensionale schaarse spamgegevens aan te pakken en de classificatieprestaties van spamdetectie te verbeteren.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Naarmate het gebruik van e-mail toeneemt, is spam een kritieke uitdaging geworden, die de netwerkbeveiliging bedreigt en de communicatie-efficiëntie vermindert. Conventionele detectiemethoden hebben te maken met hardnekkige beperkingen: traditionele machine learning-modellen worstelen vaak met hoogdimensionale schaarse gegevens, terwijl deep learning aanzienlijke rekenkracht vereist.

Deze studie introduceert een Van der Waerden rank score-functie attention-enhanced Support Vector Machine (VWR-Attn-SVM) om deze problemen aan te pakken. De methode past Van der Waerden rangtransformatie toe om tekstkenmerken te normaliseren, de robuustheid tegen uitschieters te verbeteren en ordinale relaties te behouden. Een verbeterd aandachtsmechanisme optimaliseert de selectie van functies verder door middel van niet-lineaire verwerking met regularisatie, waarbij de functies worden gemarkeerd die het meest relevant zijn voor spamdetectie.

Experimenten met de UCI Spambase en Indonesische spam-datasets tonen aan dat VWR-Attn-SVM beter presteert dan traditionele classificaties op het gebied van nauwkeurigheid, precisie, herinnering, F1-score en AUC. Door hoge prestaties te combineren met lagere rekenkosten, biedt de methode een efficiënte en interpreteerbare oplossing voor spamclassificatie, met mogelijke uitbreiding naar andere op tekst gebaseerde platforms zoals messaging en sociale media.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In het hedendaagse digitale tijdperk, dat wordt gekenmerkt door de snelle evolutie van het internet en digitale technologieën, is e-mail een onmisbare hoeksteen gebleven op het gebied van elektronische transacties en bedrijfscommunicatie, ondanks de voortdurende opkomst en innovatie van instant messaging en sociale mediaplatforms1. Het vermogen om tijdelijke en ruimtelijke grenzen te overstijgen, geeft het unieke voordelen, waardoor naadloze communicatie over de hele wereld op elk moment mogelijk is. Deze grootschalige acceptatie heeft echter geleid tot een urgent en schadelijk probleem: de ongebreidelde verspr....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Experimentele voorbereiding (Aanvullend Dossier 2 en Aanvullend Dossier 3)

  1. Gegevensbeschrijving: Laad de open-source spamgegevensset uit de UCI Machine Learning Repository voor detectie van spam-e-mail30. Documenteer dat de dataset 4.601 exemplaren bevat met 57 continue functies en 1 klasselabel, waaronder 1.813 spam (39,4%) en 2.788 niet-spam (60,6%) samples (Tabel 1).
  2. Bibliotheek importeren
    1. Importeer de essentiële bibliotheken (zie de Materiaaltabel).
    2. Stel een globale willekeurige seed in op

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Om te beginnen, volgens het vastgestelde experimentele protocol, geeft figuur 1 een overzicht van het algemene stroomschema van deze studie. Figuur 2 geeft achtereenvolgens de werkingsstroomschema's van experimenten 2 weer. Bovendien presenteert tabel 1 voornamelijk de woord- en tekenfrequenties binnen de spam-e-maildataset, spam.csv.

Met betrekking tot de evaluatie van de modelpresta.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit onderzoek verifieerde de effectiviteit van VWR-Attn-SVM op basis van de Spambase-dataset en bood inzichten voor het aanpakken van de hoogdimensionale en schaarse aard van spamgegevens. Experimenten hebben aangetoond dat slechts enkele functies in spamgegevens een sterke correlatie hebben met labels; Traditionele modellen behandelen alle kenmerken gelijk, wat leidt tot slechte prestaties, terwijl het aandachtsmechanisme van dit model de belangrijkste kenmerken dynamisch kan wegen. Na .......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs hebben geen belangenconflicten te onthullen.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

We danken de Fujian Alliance of Mathematics (Grant No. 2023SXLMMS10) en de Natural Science Foundation of Fujian Province (2023J05083, 2022J011396, 2023J011434) voor het financieren van dit werk.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Supplemental File 2: code_new.py; Supplemental File 3: code_indonesian.py.
numpyNumPy DevelopersLibrary for numerical computing in Python
pandaspandas Development TeamLibrary for data manipulation and analysis
matplotlibMatplotlib Developers Library for creating static, animated, and interactive visualizations
seabornMichael Waskom et al.Statistical data visualization library based on matplotlib
scikit-learnscikit-learn Developers TeamMachine learning library featuring various classification, regression, and clustering algorithms
tensorflowGoogleOpen-source machine learning framework, including Keras API for building neural networks
imblearnimbalanced-learn DevelopersLibrary for handling imbalanced datasets, including SMOTE for oversampling
warningsPython Standard LibraryModule for issuing warning messages
Supplemental File 4: code_compute_time.py
numpyNumPy DevelopersNumerical computing library for Python
pandaspandas Development TeamData manipulation and analysis library
matplotlibMatplotlib DevelopersVisualization library for creating plots and figures
seabornMichael Waskom et al.Statistical data visualization library built on matplotlib
scikit-learnscikit-learn Developers TeamMachine learning library with classification, regression, and preprocessing tools
tensorflowGoogleOpen-source machine learning framework with Keras API for neural networks
imblearnimbalanced-learn Developers TeamLibrary for handling imbalanced datasets (includes SMOTE)
warningsPython Standard LibraryModule for issuing warning messages
timePython Standard LibraryModule for time-related functions
psutilGiampaolo RodolaLibrary for retrieving system information and monitoring resource usage
osPython Standard LibraryModule for interacting with the operating system
Supplemental File 5: DNN.py.
pandaspandas Development TeamData manipulation and analysis library
numpyNumPy DevelopersNumerical computing library for Python
timePython Standard LibraryModule for time-related functions
psutilGiampaolo RodolaLibrary for system information retrieval and resource monitoring
matplotlibMatplotlib DevelopersVisualization library for creating plots and figures
scikit-learnscikit-learn Developers TeamMachine learning library with data preprocessing, model selection, and metrics tools
imblearnimbalanced-learn Developers TeamLibrary for handling imbalanced datasets (includes SMOTE)
tensorflowGoogleOpen-source machine learning framework with Keras API for building neural networks

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Ayo, F. E., Ogundele, L. A., Olakunle, S., Awotunde, J. B., Kasali, F. A. A hybrid correlation-based deep learning model for email spam classification using fuzzy inference system. Decis Anal J. 10, 100390(2024).
  2. Douzi, S., AlShahwan, F. A., Lemoudden, M., Ouahidi, B.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Spam ClassificationSupport Vector MachinesVan Der WaerdenRank Score AttentionFeature SelectionText NormalizationOutlier RobustnessAttention MechanismHigh Dimensional DataText Based Platforms

Related Articles