Method Article

Spam-Klassifizierung mit Support Vector Machines unter Verwendung des Van-der-Waerden-Rangs Score Achtung

DOI:

10.3791/69082

October 31st, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie schlägt einen innovativen Ansatz vor, der auf Support Vector Machine basiert, die in einen durch den Van-der-Waerden-Rang erweiterten Feature-Aufmerksamkeitsmechanismus integriert ist, der darauf abzielt, die Herausforderungen hochdimensionaler spärlicher Spam-Daten anzugehen und die Klassifizierungsleistung der Spam-Erkennung zu verbessern.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mit der zunehmenden E-Mail-Nutzung ist Spam zu einer kritischen Herausforderung geworden, die die Netzwerksicherheit bedroht und die Kommunikationseffizienz verringert. Herkömmliche Detektionsmethoden stoßen an anhaltende Grenzen: Herkömmliche Modelle des maschinellen Lernens haben oft Probleme mit hochdimensionalen, spärlichen Daten, während Deep Learning erhebliche Rechenressourcen erfordert.

In dieser Studie wird eine Van der Waerden Rank Score Feature Attention-Enhanced Support Vector Machine (VWR-Attn-SVM) vorgestellt, um diese Probleme zu lösen. Die Methode wendet die Van-der-Waerden-Rangtransformation an, um Textfeatures zu normalisieren, die Robustheit gegenüber Ausreißern zu verbessern und ordinale Beziehungen beizubehalten. Ein verbesserter Aufmerksamkeitsmechanismus optimiert die Merkmalsauswahl durch nichtlineare Verarbeitung mit Regularisierung, wobei die für die Spam-Erkennung relevantesten Merkmale hervorgehoben werden.

Experimente mit der UCI Spambase und den indonesischen Spam-Datensätzen zeigen, dass VWR-Attn-SVM herkömmliche Klassifikatoren in Bezug auf Genauigkeit, Präzision, Erinnerung, F1-Score und AUC übertrifft. Durch die Kombination von hoher Leistung und reduzierten Rechenkosten bietet die Methode eine effiziente und interpretierbare Lösung für die Spam-Klassifizierung mit potenzieller Erweiterung auf andere textbasierte Plattformen wie Messaging und soziale Medien.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Im heutigen digitalen Zeitalter, das durch die rasante Entwicklung des Internets und der digitalen Technologien gekennzeichnet ist, ist E-Mail trotz des kontinuierlichen Aufkommens und der Innovation von Instant Messaging- und Social-Media-Plattformen ein unverzichtbarer Eckpfeiler in den Bereichen elektronische Transaktionen und Unternehmenskommunikation geblieben1. Seine Fähigkeit, zeitliche und räumliche Grenzen zu überschreiten, verleiht ihm einzigartige Vorteile, die eine nahtlose Kommunikation rund um den Globus zu jeder Zeit ermöglichen. Diese umfassende Einführung hat jedoch zu einem dringenden und schädlichen Problem geführt - der unge....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Versuchsvorbereitung (Ergänzungsdatei 2 und Ergänzungsdatei 3)

  1. Datenbeschreibung: Laden Sie den Open-Source-Spam-Datensatz aus dem UCI Machine Learning Repository für die Spam-E-Mail-Erkennung30. Dokumentieren Sie, dass das Dataset 4.601 Instanzen mit 57 kontinuierlichen Features und 1 Klassenbezeichnung enthält, darunter 1.813 Spam- (39,4 %) und 2.788 Nicht-Spam-Stichproben (60,6 %) (Tabelle 1).
  2. Import von Bibliotheken
    1. Importieren Sie die wesentlichen Bibliotheken (siehe Materialtabelle).
    2. Legen Sie einen globalen Zufallswert auf

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Zu Beginn gibt Abbildung 1 gemäß dem etablierten Versuchsprotokoll einen Überblick über das Gesamtflussdiagramm dieser Studie. Abbildung 2 zeigt sequenziell die Ablaufdiagramme der Vorgänge in Versuch 2. Darüber hinaus enthält Tabelle 1 in erster Linie die Wort- und Zeichenhäufigkeiten innerhalb des Spam-E-Mail-Datensatzes spam.csv.

Bei der Bewertung der Modellleistung wurden fünf Schlüsselmetriken verwendet: Genauigk.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie verifizierte die Wirksamkeit von VWR-Attn-SVM auf der Grundlage des Spambase-Datensatzes und lieferte Erkenntnisse für den Umgang mit der hochdimensionalen und spärlichen Natur von Spam-Daten. Experimente zeigten, dass nur wenige Merkmale in Spam-Daten eine starke Korrelation mit Labels aufweisen. Herkömmliche Modelle behandeln alle Funktionen gleich, was zu einer schlechten Leistung führt, während der Aufmerksamkeitsmechanismus dieses Modells wichtige Funktionen dynamisch g.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren haben keine Interessenkonflikte offenzulegen.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wir danken der Fujian Alliance of Mathematics (Fördernummer 2023SXLMMS10) und der Natural Science Foundation der Provinz Fujian (2023J05083, 2022J011396, 2023J011434) für die Finanzierung dieser Arbeit.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Ergänzungsakte 2: code_new.py; Ergänzende Akte 3: code_indonesian.py.
NumpyNumPy-EntwicklerBibliothek für numerisches Rechnen in Python
PandasPandas EntwicklungsteamBibliothek für Datenmanipulation und -analyse
matplotlibMatplotlib Developers Bibliothek zur Erstellung statischer, animierter und interaktiver Visualisierungen
SeabornMichael Waskom et al.Statistische Datenvisualisierungsbibliothek basierend auf Matplotlib
scikit-learnscikit-learn EntwicklerteamMaschinelle Lernbibliothek mit verschiedenen Klassifikations-, Regressions- und Clustering-Algorithmen
TensorflowGoogelnOpen-Source-Machine-Learning-Framework, einschließlich der Keras-API zum Aufbau neuronaler Netzwerke
imblearnEntwickler mit ungleichem LernenBibliothek zur Behandlung unausgeglichener Datensätze, einschließlich SMOTE für Übersampling
WarnungenPython StandardbibliothekModul zum Aussenden von Warnmeldungen
Ergänzungsakte 4: code_compute_time.py
NumpyNumPy-EntwicklerNumerische Rechenbibliothek für Python
PandasPandas EntwicklungsteamDatenmanipulations- und Analysebibliothek
matplotlibMatplotlib-EntwicklerVisualisierungsbibliothek zum Erstellen von Diagrammen und Figuren
SeabornMichael Waskom et al.Statistische Datenvisualisierungsbibliothek basierend auf Matplotlib
scikit-learnscikit-learn EntwicklerteamMaschinelle Lernbibliothek mit Klassifikations-, Regressions- und Vorverarbeitungswerkzeugen
TensorflowGoogelnOpen-Source-Machine-Learning-Framework mit Keras-API für neuronale Netze
imblearnEntwicklerteam für unausgewogenes LernenBibliothek zur Behandlung unausgeglichener Datensätze (einschließlich SMOTE)
WarnungenPython StandardbibliothekModul zum Aussenden von Warnmeldungen
ZeitPython StandardbibliothekModul für zeitbezogene Funktionen
PsutilGiampaolo RodolaBibliothek zum Abrufen von Systeminformationen und Überwachung des Ressourcenverbrauchs
OsPython StandardbibliothekModul zur Interaktion mit dem Betriebssystem
Ergänzungsakte 5: DNN.py.
PandasPandas EntwicklungsteamDatenmanipulations- und Analysebibliothek
NumpyNumPy-EntwicklerNumerische Rechenbibliothek für Python
ZeitPython StandardbibliothekModul für zeitbezogene Funktionen
PsutilGiampaolo RodolaBibliothek für Systeminformationsabruf und Ressourcenüberwachung
matplotlibMatplotlib-EntwicklerVisualisierungsbibliothek zum Erstellen von Diagrammen und Figuren
scikit-learnscikit-learn EntwicklerteamMaschinelle Lernbibliothek mit Datenvorverarbeitung, Modellauswahl und Metrik-Tools
imblearnEntwicklerteam für unausgewogenes LernenBibliothek zur Behandlung unausgeglichener Datensätze (einschließlich SMOTE)
TensorflowGoogelnOpen-Source-Machine-Learning-Framework mit Keras API zum Aufbau neuronaler Netzwerke

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Ayo, F. E., Ogundele, L. A., Olakunle, S., Awotunde, J. B., Kasali, F. A. A hybrid correlation-based deep learning model for email spam classification using fuzzy inference system. Decis Anal J. 10, 100390(2024).
  2. Douzi, S., AlShahwan, F. A., Lemoudden, M., Ouahidi, B.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Spam ClassificationSupport Vector MachinesVan Der WaerdenRank Score AttentionFeature SelectionText NormalizationOutlier RobustnessAttention MechanismHigh Dimensional DataText Based Platforms

Related Articles