Spam-Klassifizierung mit Support Vector Machines unter Verwendung des Van-der-Waerden-Rangs Score Achtung

Nenghui Zhu; Jiaxin Cai

doi:10.3791/69082

Method Article

Spam-Klassifizierung mit Support Vector Machines unter Verwendung des Van-der-Waerden-Rangs Score Achtung

DOI:

10.3791/69082

⸱

October 31st, 2025

Nenghui Zhu^*¹ , Jiaxin Cai^*¹

¹School of Mathematics and Statistics, Xiamen University of Technology

^* These authors contributed equally

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie schlägt einen innovativen Ansatz vor, der auf Support Vector Machine basiert, die in einen durch den Van-der-Waerden-Rang erweiterten Feature-Aufmerksamkeitsmechanismus integriert ist, der darauf abzielt, die Herausforderungen hochdimensionaler spärlicher Spam-Daten anzugehen und die Klassifizierungsleistung der Spam-Erkennung zu verbessern.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mit der zunehmenden E-Mail-Nutzung ist Spam zu einer kritischen Herausforderung geworden, die die Netzwerksicherheit bedroht und die Kommunikationseffizienz verringert. Herkömmliche Detektionsmethoden stoßen an anhaltende Grenzen: Herkömmliche Modelle des maschinellen Lernens haben oft Probleme mit hochdimensionalen, spärlichen Daten, während Deep Learning erhebliche Rechenressourcen erfordert.

In dieser Studie wird eine Van der Waerden Rank Score Feature Attention-Enhanced Support Vector Machine (VWR-Attn-SVM) vorgestellt, um diese Probleme zu lösen. Die Methode wendet die Van-der-Waerden-Rangtransformation an, um Textfeatures zu normalisieren, die Robustheit gegenüber Ausreißern zu verbessern und ordinale Beziehungen beizubehalten. Ein verbesserter Aufmerksamkeitsmechanismus optimiert die Merkmalsauswahl durch nichtlineare Verarbeitung mit Regularisierung, wobei die für die Spam-Erkennung relevantesten Merkmale hervorgehoben werden.

Experimente mit der UCI Spambase und den indonesischen Spam-Datensätzen zeigen, dass VWR-Attn-SVM herkömmliche Klassifikatoren in Bezug auf Genauigkeit, Präzision, Erinnerung, F1-Score und AUC übertrifft. Durch die Kombination von hoher Leistung und reduzierten Rechenkosten bietet die Methode eine effiziente und interpretierbare Lösung für die Spam-Klassifizierung mit potenzieller Erweiterung auf andere textbasierte Plattformen wie Messaging und soziale Medien.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Im heutigen digitalen Zeitalter, das durch die rasante Entwicklung des Internets und der digitalen Technologien gekennzeichnet ist, ist E-Mail trotz des kontinuierlichen Aufkommens und der Innovation von Instant Messaging- und Social-Media-Plattformen ein unverzichtbarer Eckpfeiler in den Bereichen elektronische Transaktionen und Unternehmenskommunikation geblieben¹. Seine Fähigkeit, zeitliche und räumliche Grenzen zu überschreiten, verleiht ihm einzigartige Vorteile, die eine nahtlose Kommunikation rund um den Globus zu jeder Zeit ermöglichen. Diese umfassende Einführung hat jedoch zu einem dringenden und schädlichen Problem geführt - der ungezügelten Verbreitung von Spam. Böswillige Akteure haben E-Mail-Systeme als Vehikel genutzt, um große Mengen an unerwünschter kommerzieller Werbung, bösartiger Software und illegaler Inhalte zu verbreiten. Untersuchungen zufolge ist der Anteil des weltweiten Spams am gesamten E-Mail-Verkehr von 2012 bis 2023 um 7700 %^2,3 in die Höhe geschnellt. Diese Spam-Flut stört nicht nur den normalen E-Mail-Betrieb der Benutzer erheblich, sondern birgt auch vielfältige Bedrohungen. Sie untergräbt die Privatsphäre, indem sie potenziell sensible Informationen preisgibt, gefährdet die Unternehmenssicherheit durch das Risiko von Datenschutzverletzungen und Malware-Infektionen und destabilisiert sogar die Wirtschaftsordnung, indem sie betrügerische Aktivitäten erleichtert ^4,5. Eine effektive Spam-Klassifizierung reduziert die finanziellen Verluste im Zusammenhang mit Phishing um 40 bis 60 %⁶ und unterstreicht den praktischen Wert effizienter, genauer Filtermethoden. Folglich hat sich die Entwicklung eines effizienten und genauen Spam-Erkennungsmodells zu einem entscheidenden Forschungsbereich für die Gewährleistung der Netzwerksicherheit und die Steigerung der Effizienz entwickelt.

Ein erheblicher Teil der bestehenden Forschung zur Spam-Erkennung konzentriert sich auf maschinelles Lernen und Deep-Learning-Methoden. Im Bereich des traditionellen maschinellen Lernens wurde eine Vielzahl von Techniken erforscht und angewendet. Regelbasierte Methoden, wie z. B. Entscheidungsbäume⁷, wurden verwendet, um Klassifizierungsentscheidungen auf der Grundlage vordefinierter Regeln zu treffen, die von Datenmerkmalen abgeleitet wurden. Die Boosting-Methoden⁸^, ⁹ ^und ¹⁰, die mehrere schwache Lernende zu einem starken zusammenführen, und die grobe Mengenlehre¹¹, die sich mit Unsicherheit und Ungenauigkeit in Daten befasst, haben ebenfalls Potenzial gezeigt. Darüber hinaus wurden statistische Methoden wie logistische Regression, K-nächste Nachbarn (KNN)^12,13, Naive Bayes 14,15,16 und SVM 17,18,19 in großem Umfang eingesetzt. Diese Ansätze stützen sich in der Regel auf traditionelle Methoden zur Merkmalsextraktion wie TF-IDF. Während TF-IDF die Bedeutung von Wörtern in einem Dokument effektiv quantifizieren kann, hat es Schwierigkeiten, die komplizierten semantischen Beziehungen und kontextuellen Nuancen zu erfassen, die E-Mail-Texten innewohnen. Darüber hinaus stoßen diese Methoden bei der Konfrontation mit hochdimensionalen und spärlichen Daten, wie sie in E-Mail-Merkmalsräumen typisch sind, häufig auf Rechenengpässe. Ihre eingeschränkte Robustheit kann dazu führen, dass sie während des Trainingsprozesses in lokalen optimalen Lösungen gefangen bleiben, wodurch die Klassifikationsgenauigkeit und Verallgemeinerungsfähigkeit der Modelle stark eingeschränkt wird.

Deep Learning mit seiner bemerkenswerten Fähigkeit zur automatischen Merkmalsextraktion hat sich zu einer leistungsstarken Alternative bei der Spam-Erkennung entwickelt. Algorithmen wie Convolutional Neural Networks (CNN)20,21,22, Recurrent Neural Networks (RNN)²³ und Long Short-Term Memory Networks (LSTM)^24,25 sowie neuere Transformer-basierte Modelle wie Word2vec und BERT^26,27 haben erhebliche Fortschritte bei der Verbesserung der Klassifizierungsleistung gemacht. CNNs sind versiert darin, lokale Merkmale aus Daten zu extrahieren, RNNs und LSTMs können gut mit sequenziellen Daten umgehen und zeitliche Abhängigkeiten in Text erfassen, und Transformer-basierte Modelle zeichnen sich durch das Mining komplexer semantischer Beziehungen und Kontextinformationen aus. Neuere effiziente NLP-Methoden, wie z. B. TinyML-basierte Textklassifikatoren²⁸, bieten starke Grundlagen für die Spam-Klassifizierung. TinyML-Modelle sind für Edge-Geräte mit begrenztem Arbeitsspeicher optimiert. Wir vergleichen unsere Methode mit diesen Ansätzen im Abschnitt "Ergebnisse" und heben die Kompromisse zwischen Genauigkeit, Recheneffizienz und Einsatzflexibilität hervor. Diese Deep-Learning-Modelle haben jedoch ihre eigenen Einschränkungen. Sie erfordern in der Regel eine große Anzahl von Trainingsparametern, was zu einem hohen Bedarf an Rechenressourcen und längeren Trainingszeiten führt. Deep-Learning-Modelle wie BERT benötigen 3- bis 5-mal mehr Speicher und 10-mal längere Trainingszeiten als herkömmliche SVMs²⁹, wodurch sie für Umgebungen mit begrenzten Ressourcen weniger geeignet sind. Dies macht sie weniger praktisch für den Einsatz in Umgebungen mit begrenzten Ressourcen, wie z. B. mobilen Geräten oder Low-End-Servern. Darüber hinaus sind sie aufgrund ihrer komplexen Architekturen oft weniger interpretierbar, was bei Anwendungen, bei denen das Verständnis des Entscheidungsprozesses des Modells von entscheidender Bedeutung ist, ein erheblicher Nachteil sein kann.

Vor diesem Hintergrund ist es das übergeordnete Ziel dieser Studie, einen innovativen Ansatz zu entwickeln, der die Grenzen bestehender Methoden überwinden und die Herausforderungen, die sich aus der hochdimensionalen und spärlichen Natur von Spam-Daten ergeben, effektiv bewältigen kann. Die vorgeschlagene Van der Waerden Rank Score Feature Attention-Enhanced SVM (VWR-Attn-SVM) stellt eine neuartige Integration von Techniken dar, die darauf abzielen, die Leistung der Spam-Erkennung zu verbessern (Abbildung 1). Das Grundprinzip des VWR-Attn-SVM liegt in seinem einzigartigen Design, das die Stärken mehrerer Komponenten vereint.

figure-introduction-1
Abbildung 1: Gesamtablaufdiagramm der Forschung zur Spam-Klassifizierung mit VWR-Attn-SVM. Dieses Flussdiagramm veranschaulicht den Arbeitsablauf der Spam-Klassifizierung auf der Grundlage des Van-der-Waerden-Rank-Scores und der aufmerksamkeitsverstärkten SVM, einschließlich der Datenaufbereitung (Laden, Aufteilen, Vorverarbeitung), der experimentellen Vorbereitung, der Überprüfung statistischer TF-IDF-Merkmals-Label-Korrelationen, der aufmerksamkeitsverstärkten SVM-basierten Spam-Erkennung und des Vergleichs mehrerer Klassifikatoren. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Der zentrale Enhanced Feature Attention Mechanism verarbeitet einzelne E-Mail-Stichproben mit einer bestimmten Dimensionalität. Durch die Anwendung der Van-der-Waerden-Rangtransformation werden die durch abnormale Worthäufigkeiten verzerrten E-Mail-Textmerkmale in eine normalverteilungsähnliche Standardform normalisiert. Diese Transformation verbessert die Robustheit des Modells erheblich und ermöglicht es ihm, die Variabilität von E-Mail-Daten besser zu bewältigen. Van-der-Waerden-Rangwerte wurden aus drei Gründen gegenüber logarithmischen Skalierungs- und Quantiltransformationen bevorzugt: (1) Robust gegenüber Spam-Feature-Ausreißern (z. B. extremen Worthäufigkeiten), im Gegensatz zur logarithmischen Skalierung, die niederfrequentes Rauschen verstärkt; (2) Beibehaltung von Merkmalsordinalbeziehungen (entscheidend für die Hierarchie von Spam-Indikatoren wie "kostenlos" vs. "gewinnen"), während Quantiltransformationen die Verteilungen abflachen; (3) Normalisieren Sie auf [0,1], um die Integration des Aufmerksamkeitsmechanismus zu erleichtern und eine konsistente Gewichtung zu gewährleisten (Abbildung 2).

figure-introduction-2
Abbildung 2: Experimentelles Flussdiagramm. (A-C) Workflows für die Spam-Klassifizierung, die Datenverarbeitung, Merkmalsauswahl, Modelltraining, Bewertung und Vergleich mit/ohne Van-der-Waerden-Rank-Score-Transformation umfassen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Strukturell verfügt der Mechanismus über ein zweischichtiges, vollständig verbundenes Netzwerk für die nichtlineare Merkmalstransformation (Abbildung 2). Die erste Schicht, die mit einer LeakyReLU-Aktivierungsfunktion ausgestattet ist, reduziert die Eingangsabmessungen und führt gleichzeitig zu Nichtlinearität und enthält eine Dropout-Schicht, um eine Überanpassung zu vermeiden. Die zweite Schicht gibt mithilfe einer Sigmoid-Funktion Aufmerksamkeitsgewichtungen aus, mit denen die Wichtigkeit jedes Merkmals genau quantifiziert werden kann. Eine L1/L2-Regularisierungsstrategie wird in das Modell integriert, um die Merkmalsauswahl zu optimieren, wobei die L1-Regularisierung die Sparsamkeit fördert und weniger relevante Merkmale effektiv aussortiert, und die L2-Regularisierung eine Überanpassung verhindert, indem sie die Größe der Gewichte einschränkt. Während der Trainingsphase wird ein Multitasking-Lernframework eingesetzt, das den Verlust der Merkmalsrekonstruktion und den Verlust der Klassifizierung kombiniert, um die Modellparameter zu optimieren. Dadurch passt sich das VWR-Attn-SVM präzise an die hochdimensionalen, spärlichen TF-IDF-Eigenschaften von E-Mail-Texten an, die für die Komplexität von E-Mail-Inhalten charakteristisch sind.

Unsere Methode ist für textbasierte Spam-Datensätze von mehreren tausend bis zehntausend optimiert (z. B. Spambase, Indonesian Spam dataset (Supplemental File 1)) und erfordert Standard-Rechenressourcen (Intel Core i7 Prozessor, 16 GB RAM) für das Training; Die Inferenz kann auf einem Standard-Laptop (Intel Core i5, 8 GB RAM) mit einer Latenz von weniger als einer Sekunde ausgeführt werden. Zu den wichtigsten Einschränkungen gehören die eingeschränkte Leistung bei Nicht-Text-Spam (z. B. Spam mit eingebetteten Bildern) und die Abhängigkeit von strukturierten Textfunktionen. Im Vergleich zu bestehenden alternativen Technologien hat VWR-Attn-SVM mehrere bemerkenswerte Vorteile. Anders als bei herkömmlichen Methoden des maschinellen Lernens verlässt es sich nicht nur auf die grundlegende Merkmalsextraktion, sondern lernt durch den Mechanismus der erweiterten Aufmerksamkeit aktiv, Merkmale nach ihrer Wichtigkeit zu gewichten, um Merkmale, die für die Spam-Klassifizierung relevanter sind, besser zu erfassen. Im Gegensatz zu Deep-Learning-Modellen wird eine günstige Balance zwischen Leistung und Recheneffizienz erreicht. Es erfordert weniger Rechenressourcen und kürzere Trainingszeiten, wodurch es für eine Vielzahl von Anwendungen besser geeignet ist, insbesondere für solche mit begrenzten Ressourcen. Dieser innovative Ansatz ist nicht nur auf die spezifische Aufgabe der Spam-Erkennung in E-Mail-Systemen anwendbar, sondern birgt auch das Potenzial für eine Ausweitung auf andere textbasierte Kommunikationskanäle wie Instant-Messaging-Apps, Social-Media-Plattformen und SMS-Dienste, bei denen ähnliche Probleme der Verbreitung unerwünschter und bösartiger Inhalte bestehen. Insgesamt stellt der VWR-Attn-SVM einen bedeutenden Fortschritt auf dem Gebiet der Spam-Erkennung dar und bietet eine praktischere, effizientere und vielseitigere Lösung, um das anhaltende Problem von Spam in der digitalen Kommunikationslandschaft zu bekämpfen.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Versuchsvorbereitung (Ergänzungsdatei 2 und Ergänzungsdatei 3)

Datenbeschreibung: Laden Sie den Open-Source-Spam-Datensatz aus dem UCI Machine Learning Repository für die Spam-E-Mail-Erkennung³⁰. Dokumentieren Sie, dass das Dataset 4.601 Instanzen mit 57 kontinuierlichen Features und 1 Klassenbezeichnung enthält, darunter 1.813 Spam- (39,4 %) und 2.788 Nicht-Spam-Stichproben (60,6 %) (Tabelle 1).
Import von Bibliotheken
1. Importieren Sie die wesentlichen Bibliotheken (siehe Materialtabelle).
2. Legen Sie einen globalen Zufallswert auf 42 fest, um die Reproduzierbarkeit der Ergebnisse sicherzustellen.
Konfigurieren Sie die Ploteinstellungen: Verwenden Sie Times New Roman für englischen Text, beheben Sie Probleme mit der Anzeige von Minuszeichen und legen Sie die Schriftgröße auf 16 fest, um die Lesbarkeit zu verbessern.

Tabelle 1: Zusammenfassung der Datensatzstatistiken und Feature-Definitionen. Diese Tabelle enthält Variablen für die Spam-Klassifizierung, einschließlich Worthäufigkeit (word_freq_WORD), Zeichenhäufigkeit (char_freq_CHAR), Metriken zur Länge des Hauptbuchstabens und die Zielklassenvariable mit Beschreibungen der einzelnen Variablentypen und Bedeutungen. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.

2. Experiment zur Überprüfung des statistischen Zusammenhangs zwischen TF-IDF-Merkmalen und Beschriftungen (Ergänzende Datei 2 und Ergänzende Datei 3)

Vorverarbeitung von Daten
1. Laden Sie die Datensätze (Ergänzungsdatei 1): erster Datensatz: spambase.csv; Zweiter Datensatz: spam_indonesian.csv.
2. Untersuchen Sie die Verteilung von Spam- und Nicht-Spam-E-Mail-Labels und berechnen Sie den Anteil der einzelnen Kategorien.
3. Binarisieren Sie diese Features mit dem Mittelwert als Schwellenwert für den bevorstehenden Chi-Quadrat-Test.
  HINWEIS: Stellen Sie sicher, dass sich die Spam-Datei im richtigen Arbeitsverzeichnis befindet, oder geben Sie den vollständigen Dateipfad an, wenn Sie den Befehl read verwenden.
Vorverarbeitung von Datentests (Zusatzdatei 2 und Zusatzdatei 3)
1. Verwenden Sie sklearn.feature_selection.chi2 für den Chi-Quadrat-Test mit binarisierten TF-IDF-Funktionen:
  Code-Aufruf:
  von sklearn.feature_selection Import Chi2
  chi2_values, p_values = chi2(df_binary, df['Spam'])
  significant_features_chi2 = [feature_cols[i] für i in np.where(p_values < 0.05)[0]]
  print(f"Anzahl der signifikanten Merkmale: {len(significant_features_chi2)}")
  Erwartete Ausgabe: Eine Teilmenge von Merkmalen (z. B. 35 von 57) mit statistischer Assoziation zu Spam-Labels, einschließlich Schlüsselwörtern wie "kostenlos" oder "entfernen".
2. Führen Sie eine Implementierung mit sklearn.feature_selection.f_classif durch:
  Code-Aufruf:
  aus sklearn.feature_selection Import f_classif
  f_values, f_p_values = f_classif(df[feature_cols], df['Spam'])
  significant_features_f = [feature_cols[i] für i in np.where(f_p_values < 0.05)[0]]
  print(f"Beibehaltene Funktionen: {len(significant_features_f)}")
  HINWEIS: Dabei werden in der Regel 40 bis 50 Features beibehalten (abhängig vom Dataset), die sich teilweise mit Chi-Quadrat-Ergebnissen überlappen.
  Überprüfen Sie vor der Durchführung statistischer Tests das Datenformat und die Parameter, um genaue Ergebnisse zu gewährleisten.
Visualisierung
1. Wählen Sie die 20 wichtigsten Merkmale mit den kleinsten p-Werten aus den Chi-Quadrat-Testergebnissen aus.
2. Generieren Sie mit seaborn.heatmap:
  Code-Aufruf:
  Import Seaborn als SNS
  top_indices = np.argsort(p_values)[:20]
  top_features = [feature_cols[i] für i in den Top$\_$Indizes]
  corr_matrix = df[top_features + ['Spam']].corr()
  plt.figure(figsize=(12, 10))
  sns.heatmap(corr_matrix, annot=Wahr, cmap='kühlwarm')
  plt.show()
  HINWEIS: Erwartetes Muster: Spam-bezogene Funktionen werden mit dem Spam-Label in Rot geclustert (positive Korrelation).

3. Attention-enhanced SVM-Klassifizierung zur Spam-Erkennung (Supplemental File 2 und Supplemental File 3)

Vorverarbeitung von Daten
1. Laden von Daten: Splitten von Daten mit sklearn.model selection.train Testsplit mit festem Startwert:
  Code-Aufruf:
  aus sklearn.model selection import train test split
  X-Zug, X-Test, y-Zug, y-Test = Trainingstest-Split(X, y, Testgröße=0,3, Zufallszustand=42)
2. Standardisierung und Klassenausgleich: Implementieren Sie über imblearn.over Sampling. SMOTE (Synthetische Minderheits-Oversampling-Technik (SMOTE)³¹):
  Code-Aufruf:
  von imblearn.over Stichprobenimport SMOTE
  # Standard: Stichprobenstrategie='auto', k Nachbarn=5
  smote=SMOTE(Zufallszustand=42)
  X Zug geschlagen, y Zug geschlagen = smote.fit resample(X Zug, y Zug)
  Gleicht die Klassenverteilung aus (z. B. von 85:15 bis 50:50).
Verbesserte Modellarchitektur für die Merkmalsaufmerksamkeit: Entwerfen Sie einen Mechanismus, der die Gewichtung der Merkmalsbedeutung über nichtlineare Transformationen auf mehreren Ebenen lernt. Weisen Sie kritischen Merkmalen eine höhere Aufmerksamkeitsgewichtung zu, um ihre Wirkung zu verbessern.
1. Feature-Vorverarbeitung (optional)
  1. Wenden Sie die Van-der-Waerden-Transformation für den normalen Rang auf Eingabe-Features an. Konvertieren Sie Roh-Features in eine ungefähre Normalverteilung, um die Robustheit des Modells zu verbessern. Verwenden Sie die Formel:
    
    Dabei steht x für den TF-IDF-Merkmalsvektor einer Stichprobe, R(x) für den Rang des Merkmalswerts, d für die Vektorlänge (d=57) und ^φ-1 für die inverse kumulative Verteilungsfunktion der Standardnormalverteilung.
    HINWEIS:Verwenden Sie use_rank_transform Parameter (boolescher) Parameter, um die Aktivierung der normalen Rangtransformation für die Feature-Verarbeitung zu steuern.
2. Nichtlineare Transformation auf mehreren Ebenen: Lernen Sie eine nichtlineare Darstellung von Features über ein vollständig verbundenes Netzwerk mit zwei Schichten kennen.
  1. Transformation der ersten Ebene: Verwenden Sie die Formel:
    
    Wobei W_{, 1}, R^{, k×d} und k=64 (verborgene Neuronen).
    Implementiert in Keras mit LeakyReLU:
    Code-Aufruf:
    von tensorflow.keras.layers importieren Dicht
    self.dense1=Dicht(Einheiten=64, # 256 für VWR-Attn-SVM
    activation='Leaky relu', # Standardmäßig negative Steigung=0.01
    kernel regularizer=regularizers.l1 l2(l1=0,0002, l2=0,0002))
    HINWEIS: Fügen Sie eine Dropout-Schicht mit einer Dropout-Rate von 0,2 hinzu, um eine Überanpassung zu verhindern.
  2. Transformation der zweiten Ebene: Wenden Sie die Transformation der zweiten Ebene mit Sigmoid an, um Aufmerksamkeitsgewichte im Bereich [0,1] zu erzeugen. Verwenden Sie die Formel:
    
    Dabei sind W₂ R^d×k und a R^k die Aufmerksamkeitsgewichte für jedes Merkmal. Wählen Sie Sigmoid anstelle von SoftMax, um die Unabhängigkeit von der Wichtigkeit mehrerer Funktionen zu erhalten.
    Wenden Sie Keras Sigmoid activation für Aufmerksamkeitsgewichte an:
    Code-Aufruf:
    self.dense2 = Dicht(input shape[-1], activation='sigmoid',
    kernel regularizer=regularizers.l1 l2(l1=0,0002, l2=0,0002))
3. Merkmalsgewichtung: Verbessern Sie wichtige Merkmale, indem Sie eine elementweise Multiplikation mit Aufmerksamkeitsgewichtungen durchführen. Verwenden Sie die Formel:
  
  Wobei die elementweise Multiplikation bezeichnet wird.
Trainieren des erweiterten Feature-Attention-Modells
1. Multitasking-Zieloptimierung: Minimieren Sie eine gewichtete Verlustfunktion, die den Rekonstruktionsverlust und den Kreuzentropieverlust kombiniert, um das Modell zu trainieren. Stellen Sie sicher, dass der Aufmerksamkeitsmechanismus kritische Informationen beibehält, während er sich auf klassifizierungsrelevante Merkmale konzentriert. Verwenden Sie die Formel:
  
  Nutzen Sie den mittleren quadratischen Fehlerverlust
  zur Rekonstruktion von Eingabe-Features und zur Anwendung des Kreuzentropieverlusts
  zur Klassifizierungsaufgabe.
  Implementieren Sie einen benutzerdefinierten Multitasking-Verlust in PyTorch: Benutzerdefinierter Verlust in Keras mit alpha=0,5:
  Code-Aufruf:
  model.compile(Optimierer='Adam',Verlust={
  'enhanced_feature_attention':'','klassifizierung':
  'binary_crossentropy'},loss_weights={
  'enhanced_feature_attention': 0,5, 'Klassifizierung': 0,5})
  alpha=0,5 Salden der Feature-Rekonstruktion () und Klassifikation (Kreuzentropie), was zu einer stabilen Konvergenz innerhalb von 50-100 Epochen führt.
  HINWEIS: Wenden Sie die gemischte L1/L2-Regularisierung (Elastic Net, Standardstärke 0,001) auf beide vollständig verbundenen Layer an, um die Feature-Auswahl und Generalisierung zu verbessern.
2. Parametereinstellungen: Legen Sie den Gewichtungskoeffizienten α fest, um die relative Bedeutung der beiden Verluste zu steuern, und verwenden Sie α = 0,5 im Code. Konfigurieren Sie die Batchgröße auf 64, legen Sie die Anzahl der Epochen auf 200 fest, und ordnen Sie 10 % der Daten für den Validierungssatz zu.
3. Fügen Sie Callback-Funktionen hinzu.
  Keras-Callbacks mit Standardparametern:
  Code-Aufruf:
  von tensorflow.keras.callbacks importieren EarlyStopping, ReduceLROnPlateau
  callbacks = [EarlyStopping(monitor='val_loss', patience=5, mode='min', restore_best_weights
  =True), ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=5, min_lr=0.0005, ausführlich=1)]
  1. Integrieren Sie den EarlyStoping-Callback , um den Trainingsprozess zu beenden, wenn sich der Validierungsverlust in 5 aufeinanderfolgenden Epochen nicht verbessert.
  2. Fügen Sie den ReduceLROnPlateau-Callback hinzu, um die Lerngeschwindigkeit adaptiv anzupassen. Legen Sie den Abklingfaktor auf 0,5 und die minimale Lernrate auf 0,0002 fest.
4. Generieren von Aufmerksamkeitsgewichtungs-Features: Extrahieren Sie nach dem Training die Aufmerksamkeitsgewichtungen aus dem Layer "Enhanced Feature Attention". Generieren Sie gewichtete Features sowohl für den Trainings- als auch für den Testsatz. Geben Sie diese Merkmale in den SVM-Klassifikator ein.
Evaluierung des Modells
HINWEIS: Ein Trainings-Test-Split von 70:30 gleicht Training und Bewertung aus. SMOTE behebt das Klassenungleichgewicht und verbessert die Leistung bei unausgewogenen Textdaten. MinMaxScaler stabilisiert entfernungsbasierte Modelle. Einheiten: 64 (Attn-SVM) und 128 (VWR-Attn-SVM) Ausgleichskapazität; 128 bietet Platz für die Komplexität der Van-der-Waerden-Rangtransformation. Dropout (0,2) verhindert eine Überanpassung, Standard für kleine bis mittlere Datensätze. L1/L2-Regularisierung (0,0002-0,002): L1 induziert Sparsität; L2 begrenzt die Gewichtsgröße. Gleiche Verlustgewichte (: 0,5, Kreuzentropie: 0,5) gleichen die Rekonstruktion und das Klassifikationslernen aus. Epochen: 200 (Attn-SVM), 300 (VWR-Attn-SVM) mit frühem Stopp (Geduld=5), um eine Überanpassung zu vermeiden. Losgröße 64 bringt Effizienz und Stabilität in Einklang. ReduceLROnPlateau (Faktor = 0,5, Geduld = 5-10) passt die Lernraten (min 0,0001-0,0005) für eine bessere Konvergenz an.
1. Design und Vergleiche von Ablationsstudien: Definieren Sie die folgenden Modelle für den Vergleich: Baseline-SVM: Traditionelle SVM mit RBF-Kern (Radial Basis Function); Attn-SVM: SVM mit erweitertem Feature-Attention-Mechanismus; VWR-Attn-SVM: SVM kombiniert Van-der-Waerden-Transformation mit verbesserter Feature-Aufmerksamkeit.
2. Auswertungsmetriken (Tabelle 2): Bewerten Sie die Modellleistung anhand von Genauigkeit, Präzision, Abruf, F1-Score und AUC.
Achtung Visualisierung und Modellinterpretation
1. Visualisierung der Aufmerksamkeitsgewichtung von Schlüsselmerkmalen
  Matplotlib Barplot für die Top 15 Funktionen:
  Code-Aufruf:
  Importieren Sie matplotlib.pyplot als plt
  top_indices = np.argsort(-avg_weights)[:15]
  top_features = [feature_names[i] für i in top_indices]
  top_weights = avg_weights[top_indices]
  plt.figure(figsize=(12, 8))
  plt.barh(top_features, top_weights, color='himmelblau')
  plt.xlabel('Achtung Gewicht')
  plt.title('Aufmerksamkeitsgewichte für Top-Funktionen')
  plt.show()
2. Vergleichen der Auswirkungen der Transformation für den normalen Rang: Vergleichen Sie die Modellleistung (Genauigkeit, Genauigkeit, Abruf, F1-Score, AUC) mit und ohne aktivierte use_rank_transform . Heben Sie wichtige Unterschiede zwischen Metriken in einer formatierten Tabelle hervor.
3. Vergleich der Wichtigkeit von Merkmalen: Analysieren Sie die Konsistenz zwischen wichtigen Merkmalen, die durch statistische Tests (z. B. Chi-Quadrat) identifiziert wurden, und dem Aufmerksamkeitsmechanismus.
  HINWEIS: Wenn die Rechenressourcen begrenzt sind, reduzieren Sie die Anzahl der Einheiten (z. B. auf 32) oder Epochen (z. B. auf 100). Passen Sie l1_reg/l2_reg an, um die Komplexität des Modells auszugleichen (höhere Werte verbessern die Regularisierung).

4. Vergleich mehrerer Klassifikatoren (Ergänzende Akte 2 und Ergänzende Akte 3)

Definieren Sie das Klassifikator-Wörterbuch. Erstellen Sie ein Wörterbuch mit Klassifikatoren zum Vergleich, einschließlich KNN, Logistic Regression, AdaBoost, Naive Bayes und SVM mit RBF-Kernel (Standardparameter).
Initialisieren Sie die Ergebnis-DataFrames. Erstellen Sie vier DataFrames zum Speichern von Auswertungsmetriken mit den Spalten: Klassifikator, Genauigkeit, Genauigkeit, Abruf, F1-Score und AUC.
Trainieren und Auswerten von Klassifikatoren. Führen Sie für jeden Klassifikator die folgenden Schritte aus.
Beispiel-Klassifikatoren mit Parametern und Seeds:
Code-Aufruf:
aus sklearn.linear_model Import LogisticRegression
aus sklearn.svm SVC importieren
lr = Logistische Regression(random_state=RANDOM_SEED, max_iter=1000)
svm = GridSearchCV(SVC(random_state=RANDOM_SEED, Wahrscheinlichkeit=Wahr),
param_grid={'C': [0,001,0,01 1, 10,100,1000], 'gamma': [0,001,0,01 1, 10,100,1000],
kernel': ['rbf', 'linear']}, cv=5, scoring='f1')
HINWEIS: Alle Modelle verwenden random_state=42 für die Reproduzierbarkeit.
1. Trainieren Sie den Klassifizierer mit skalierten Trainingsdaten.
2. Vorhersagen und Berechnen von Wahrscheinlichkeiten sowohl für Trainings- als auch für Testsätze.
3. Generieren Sie Klassifizierungsberichte und speichern Sie die Metriken in den entsprechenden DataFrames.
Integrieren Sie verbesserte SVM-Ergebnisse zur Berücksichtigung von Funktionen. Integrieren Sie Leistungsmetriken aus Attn-SVM und VWR-Attn-SVM (aus Experiment 3) in die vorhandenen DataFrames.
Drucken Sie Vergleichsergebnisse. Anzeige von Auswertungstabellen für Nicht-Spam- und Spam-E-Mails sowohl in Trainings- als auch in Testsätzen.
Visualisieren Sie die Ergebnisse. Verwenden Sie sns.barplot , um Leistungsmetriken für Klassifikatoren darzustellen. Drehen Sie die Beschriftungen der X-Achse um 45°, um die Lesbarkeit zu verbessern. Optimieren Sie das Layout und zeigen Sie den Plot mit plt.show() an.
Interpretation der sns.barplot-Ausgaben:
Code-Aufruf:
Import Seaborn als SNS
sns.barplot(x='Klassifikator', y='F1-Punkt', data=Ergebnisse)

5. Vergleichsdiagramm der multimetrischen Leistung verschiedener Klassifikatoren in Bezug auf Trainings-/Testzeit und Gedächtnis (Ergänzende Datei 4)

Datenvorverarbeitung: Laden Sie spambase.csv oder spam_indonesian.csv; Aufgeteilt in 70 % Trainings-/30 % Testsätze; Standardisieren Sie Funktionen mit MinMaxScaler.
Modelltraining: Train KNN, Logistic Regression, AdaBoost, Naive Bayes, SVM (mit Grid-Suche), Attn-SVM und VWR-Attn-SVM.
Leistungsbewertung: Berechnen Sie Genauigkeit, Präzision, Abruf, F1-Punktzahl und AUC.
Ressourcenanalyse: Erfassen Sie die Trainingszeit, die Testzeit und die Speicherauslastung.
Visualisierung: Generieren Sie multimetrische Leistungsdiagramme und Diagramme zum Ressourcenverbrauch.
Schlüsselparameter: Zufälliger Startwert = 42; SVM-Gitter (C:[0.01,0.1,1,10,100]; gamma:[0.01,0.1,1,10,100]; kernel:['rbf','linear']); Achtung: Modelle verwenden 2-Layer-Netzwerke, vollständig verbundene Netzwerke, L1/L2-Regularisierung und Dropout.
Ausgabe: Leistungstabellen, Ressourcentabellen, multimetrische Diagramme, Zeit-/Speicherdiagramme, Visualisierungen der Aufmerksamkeitsgewichtung.

6. Experimentelle Ergebnisse von CNN, RNN, LSTM oder Transformatoren (Ergänzende Datei 5)

Vorverarbeitung: Laden Sie spambase.csv oder spam_indonesian.csv, wenden Sie bei Bedarf SMOTE für Klassenungleichgewicht an, aufgeteilt in Training/Test (70/30).
Ausbildung: Build CNN, RNN, LSTM, Transformer; Adam (0,001), binäre Kreuzentropie, batch_size = 32, Epochen = 10, frühes Stoppen (Geduld = 5) und Planung der Lerngeschwindigkeit.
Auswertung: Rechengenauigkeit, Präzision, Abruf, F1, AUC; Zeichnen Sie die Trainings-/Testzeit und die Speicherauslastung auf.
Visualisierung: Generieren Sie Leistungs- und Ressourcenvergleichsdiagramme; CSV-Ergebnisse speichern.
Ausgabe: Tabelle mit Leistungsmetriken, Tabelle mit Ressourcenverbrauch, Vergleichsdiagramme, CSV-Dateien.

7. Ergänzende Code-Anweisungen

So führen Sie den Code aus und replizieren Abbildungen: Platzieren Sie spam.csv oder spam_indonesian.csv im selben Verzeichnis. Installieren Sie Abhängigkeiten über pip install numpy pandas matplotlib seaborn scikit-learn tensorflow imbalanced-learn psutil. Führen Sie das Skript aus. Es verarbeitet automatisch Daten, trainiert Modelle und generiert/zeigt alle Zahlen (Heatmaps, Performance-Plots) während der Ausführung an.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Zu Beginn gibt Abbildung 1 gemäß dem etablierten Versuchsprotokoll einen Überblick über das Gesamtflussdiagramm dieser Studie. Abbildung 2 zeigt sequenziell die Ablaufdiagramme der Vorgänge in Versuch 2. Darüber hinaus enthält Tabelle 1 in erster Linie die Wort- und Zeichenhäufigkeiten innerhalb des Spam-E-Mail-Datensatzes spam.csv.

Bei der Bewertung der Modellleistung wurden fünf Schlüsselmetriken verwendet: Genauigk...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie verifizierte die Wirksamkeit von VWR-Attn-SVM auf der Grundlage des Spambase-Datensatzes und lieferte Erkenntnisse für den Umgang mit der hochdimensionalen und spärlichen Natur von Spam-Daten. Experimente zeigten, dass nur wenige Merkmale in Spam-Daten eine starke Korrelation mit Labels aufweisen. Herkömmliche Modelle behandeln alle Funktionen gleich, was zu einer schlechten Leistung führt, während der Aufmerksamkeitsmechanismus dieses Modells wichtige Funktionen dynamisch g...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren haben keine Interessenkonflikte offenzulegen.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wir danken der Fujian Alliance of Mathematics (Fördernummer 2023SXLMMS10) und der Natural Science Foundation der Provinz Fujian (2023J05083, 2022J011396, 2023J011434) für die Finanzierung dieser Arbeit.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
Ergänzungsakte 2: code_new.py; Ergänzende Akte 3: code_indonesian.py.
Numpy	NumPy-Entwickler	Bibliothek für numerisches Rechnen in Python
Pandas	Pandas Entwicklungsteam	Bibliothek für Datenmanipulation und -analyse
matplotlib	Matplotlib Developers	Bibliothek zur Erstellung statischer, animierter und interaktiver Visualisierungen
Seaborn	Michael Waskom et al.	Statistische Datenvisualisierungsbibliothek basierend auf Matplotlib
scikit-learn	scikit-learn Entwicklerteam	Maschinelle Lernbibliothek mit verschiedenen Klassifikations-, Regressions- und Clustering-Algorithmen
Tensorflow	Googeln	Open-Source-Machine-Learning-Framework, einschließlich der Keras-API zum Aufbau neuronaler Netzwerke
imblearn	Entwickler mit ungleichem Lernen	Bibliothek zur Behandlung unausgeglichener Datensätze, einschließlich SMOTE für Übersampling
Warnungen	Python Standardbibliothek	Modul zum Aussenden von Warnmeldungen
Ergänzungsakte 4: code_compute_time.py
Numpy	NumPy-Entwickler	Numerische Rechenbibliothek für Python
Pandas	Pandas Entwicklungsteam	Datenmanipulations- und Analysebibliothek
matplotlib	Matplotlib-Entwickler	Visualisierungsbibliothek zum Erstellen von Diagrammen und Figuren
Seaborn	Michael Waskom et al.	Statistische Datenvisualisierungsbibliothek basierend auf Matplotlib
scikit-learn	scikit-learn Entwicklerteam	Maschinelle Lernbibliothek mit Klassifikations-, Regressions- und Vorverarbeitungswerkzeugen
Tensorflow	Googeln	Open-Source-Machine-Learning-Framework mit Keras-API für neuronale Netze
imblearn	Entwicklerteam für unausgewogenes Lernen	Bibliothek zur Behandlung unausgeglichener Datensätze (einschließlich SMOTE)
Warnungen	Python Standardbibliothek	Modul zum Aussenden von Warnmeldungen
Zeit	Python Standardbibliothek	Modul für zeitbezogene Funktionen
Psutil	Giampaolo Rodola	Bibliothek zum Abrufen von Systeminformationen und Überwachung des Ressourcenverbrauchs
Os	Python Standardbibliothek	Modul zur Interaktion mit dem Betriebssystem
Ergänzungsakte 5: DNN.py.
Pandas	Pandas Entwicklungsteam	Datenmanipulations- und Analysebibliothek
Numpy	NumPy-Entwickler	Numerische Rechenbibliothek für Python
Zeit	Python Standardbibliothek	Modul für zeitbezogene Funktionen
Psutil	Giampaolo Rodola	Bibliothek für Systeminformationsabruf und Ressourcenüberwachung
matplotlib	Matplotlib-Entwickler	Visualisierungsbibliothek zum Erstellen von Diagrammen und Figuren
scikit-learn	scikit-learn Entwicklerteam	Maschinelle Lernbibliothek mit Datenvorverarbeitung, Modellauswahl und Metrik-Tools
imblearn	Entwicklerteam für unausgewogenes Lernen	Bibliothek zur Behandlung unausgeglichener Datensätze (einschließlich SMOTE)
Tensorflow	Googeln	Open-Source-Machine-Learning-Framework mit Keras API zum Aufbau neuronaler Netzwerke

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ayo, F. E., Ogundele, L. A., Olakunle, S., Awotunde, J. B., Kasali, F. A. A hybrid correlation-based deep learning model for email spam classification using fuzzy inference system. Decis Anal J. 10, 100390(2024).
Douzi, S., AlShahwan, F. A., Lemoudden, M., Ouahidi, B. Hybrid email spam detection model using artificial intelligence. Int J Mach Learn Comput. 10 (2), 316-322 (2020).
Maqsood, U., et al. An intelligent framework based on deep learning for SMS and e-mail spam detection. Appl Comput Intell Soft Comput. 2023, 6648970(2023).
Yang, Z., Nie, X., Xu, W., Guo, J. An approach to spam detection by naive Bayes ensemble based on decision induction. Proc IEEE Comput Soc. , 861-866 (2006).
Nazirova, S., Alguliyev, R. Two approaches on implementation of CBR and CRM technologies to the spam filtering problem. J Inf Secur. 3 (1), 11-17 (2012).
Consumer Sentinel Network Data Book. , Federal Trade Commission. (2022).
DeSouza, M., Fitzgerald, J., Kemp, C., Truong, G. A decision tree-based spam filtering agent. , Available at: http://www.cs.mu.oz.au/481/2001_projects/gntr/index.html (2001).
Boosting trees for anti-spam email filtering. Carreras, X., Marque, L. Proc RANLP-01, 4th Int Conf Recent Adv Nat Lang Process, , INCOMA Ltd. (2001).
Androutsopoulos, I. Learning to filter unsolicited commercial e-mail. Int Proc Comput Sci Inf Tech. , (2025).
XGBoost: a scalable tree boosting system. Chen, T., Guestrin, C. Proc 22nd ACM SIGKDD Int Conf Knowl Discov Data Min, , ACM. 785-794 (2016).
Intelligent analysis, filtering, and rough set discussions of spam. Liu, Y., et al. Proc 12th Annu Conf Comput Netw Data Commun China Comput Fed, , (2002).
Androutsopoulos, I., et al. Learning to filter spam e-mail: a comparison of a naive Bayesian and memory-based approach. Comput Sci. 97 (2), 1-13 (2000).
Cai, J., et al. Fibrosis and inflammatory activity diagnosis of chronic hepatitis C based on extreme learning machine. Sci Rep. 15 (1), 11(2025).
Zhou, Y., Li, Y., Xia, S. An improved KNN text classification algorithm based on clustering. J Comput. 4 (3), 230-237 (2009).
Rapacz, S., Cholda, P., Natkaniec, M. A. Method for fast selection of machine-learning classifiers for spam filtering. Electronics. 10 (17), 2083(2021).
Fu, S., Nizar, B. A. Soft computing model based on asymmetric Gaussian mixtures and Bayesian inference. Soft Comput. 24 (1), 4841-4853 (2020).
Text categorization with support vector machines: learning with many relevant features. Joachims, T. Proc Eur Conf Mach Learn, , Springer. 137-142 (1998).
Drucker, H., Wu, D., Vapnik, V. N. Support vector machines for spam categorization. IEEE Trans Neural Netw. 10 (5), 1048-1054 (2002).
Yuan, Y., Fan, W., Pu, D. Spline function smooth support vector machine for classification. J Ind Manag Optim. 3 (3), 529-542 (2017).
Cai, J., et al. A residual joint antenna network for joint transmit-receive antenna subset selection in MIMO systems. IEEE Trans Antennas Propag. , (2025).
Zhu, S., et al. Singular pooling: a spectral pooling paradigm for second-trimester prenatal level II ultrasound standard fetal plane identification. IEEE Trans Circuits Syst Video Technol. , (2025).
Zhu, S., et al. Contrast and gain-aware attention: a plug-and-play feature fusion attention module for torso region fetal plane identification. Ultrasound Med Biol. , (2025).
Mikolov, T., Karafiat, M., Burget, L., Cernock, J., Khudanpur, S. Recurrent neural network based language model. Proc Interspeech, Int Speech Commun Assoc. , (2015).
Hochreiter, S., Schmidhuber, J. Long short-term memory. Neural Comput. 9 (8), 1735-1780 (1997).
Cai, J., et al. Developing deep LSTMs with later temporal attention for predicting COVID-19 severity, clinical outcome, and antibody level by screening serological indicators over time. IEEE J Biomed Health Inform. 28 (7), 4204-4215 (2024).
Vaswani, A., et al. Attention is all you need. Adv Neural Inf Process Syst. , (2017).
Xian, L. Application of an improved TF-IDF method in literary text classification. Adv Multimed. 2022, 9285324(2022).
Alajlan, N., Ibrahim, D. M. TinyML: enabling inference of deep learning models on ultra-low-power IoT edge devices for AI applications. Micromachines. 13 (6), 851(2022).
Devlin, J., Chang, M. W., Lee, K., Toutanova, K. BERT: pre-training of deep bidirectional transformers for language understanding. Proc North Am Chapter Assoc Comput Linguist. , (2019).
Hopkins, M., Reeber, E., Forman, G., Suermondt, J. Spambase dataset. UCI Mach Learn Repos. , (1999).
Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. SMOTE: synthetic minority over-sampling technique. J Artif Intell Res. 16, 321-357 (2002).
Cuk, A., et al. Tuning attention-based long short-term memory neural networks for Parkinson's disease detection using modified metaheuristics. Sci Rep. 14, 4309(2024).
Mizdrakovic, V., et al. Forecasting bitcoin: decomposition-aided long short-term memory-based time series modeling and its explanation with Shapley values. Knowl Based Syst. 299 (5), 112026(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Spam-Klassifizierung mit Support Vector Machines unter Verwendung des Van-der-Waerden-Rangs Score Achtung

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles