$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Mit der zunehmenden E-Mail-Nutzung ist Spam zu einer kritischen Herausforderung geworden, die die Netzwerksicherheit bedroht und die Kommunikationseffizienz verringert. Herkömmliche Detektionsmethoden stoßen an anhaltende Grenzen: Herkömmliche Modelle des maschinellen Lernens haben oft Probleme mit hochdimensionalen, spärlichen Daten, während Deep Learning erhebliche Rechenressourcen erfordert.
In dieser Studie wird eine Van der Waerden Rank Score Feature Attention-Enhanced Support Vector Machine (VWR-Attn-SVM) vorgestellt, um diese Probleme zu lösen. Die Methode wendet die Van-der-Waerden-Rangtransformation an, um Textfeatures zu normalisieren, die Robustheit gegenüber Ausreißern zu verbessern und ordinale Beziehungen beizubehalten. Ein verbesserter Aufmerksamkeitsmechanismus optimiert die Merkmalsauswahl durch nichtlineare Verarbeitung mit Regularisierung, wobei die für die Spam-Erkennung relevantesten Merkmale hervorgehoben werden.
Experimente mit der UCI Spambase und den indonesischen Spam-Datensätzen zeigen, dass VWR-Attn-SVM herkömmliche Klassifikatoren in Bezug auf Genauigkeit, Präzision, Erinnerung, F1-Score und AUC übertrifft. Durch die Kombination von hoher Leistung und reduzierten Rechenkosten bietet die Methode eine effiziente und interpretierbare Lösung für die Spam-Klassifizierung mit potenzieller Erweiterung auf andere textbasierte Plattformen wie Messaging und soziale Medien.