Spam Classificatie met Ondersteuning Vector Machines Met behulp van Van der Waerden Rank Score Let op

Nenghui Zhu; Jiaxin Cai

doi:10.3791/69082

Method Article

Spam Classificatie met Ondersteuning Vector Machines Met behulp van Van der Waerden Rank Score Let op

DOI:

10.3791/69082

⸱

October 31st, 2025

Nenghui Zhu*¹ , Jiaxin Cai*¹

¹School of Mathematics and Statistics, Xiamen University of Technology

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deze studie stelt een innovatieve aanpak voor op basis van Support Vector Machine geïntegreerd met een Van der Waerden rank-score-verbeterd aandachtsmechanisme, met als doel de uitdagingen van hoogdimensionale schaarse spamgegevens aan te pakken en de classificatieprestaties van spamdetectie te verbeteren.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Naarmate het gebruik van e-mail toeneemt, is spam een kritieke uitdaging geworden, die de netwerkbeveiliging bedreigt en de communicatie-efficiëntie vermindert. Conventionele detectiemethoden hebben te maken met hardnekkige beperkingen: traditionele machine learning-modellen worstelen vaak met hoogdimensionale schaarse gegevens, terwijl deep learning aanzienlijke rekenkracht vereist.

Deze studie introduceert een Van der Waerden rank score-functie attention-enhanced Support Vector Machine (VWR-Attn-SVM) om deze problemen aan te pakken. De methode past Van der Waerden rangtransformatie toe om tekstkenmerken te normaliseren, de robuustheid tegen uitschieters te verbeteren en ordinale relaties te behouden. Een verbeterd aandachtsmechanisme optimaliseert de selectie van functies verder door middel van niet-lineaire verwerking met regularisatie, waarbij de functies worden gemarkeerd die het meest relevant zijn voor spamdetectie.

Experimenten met de UCI Spambase en Indonesische spam-datasets tonen aan dat VWR-Attn-SVM beter presteert dan traditionele classificaties op het gebied van nauwkeurigheid, precisie, herinnering, F1-score en AUC. Door hoge prestaties te combineren met lagere rekenkosten, biedt de methode een efficiënte en interpreteerbare oplossing voor spamclassificatie, met mogelijke uitbreiding naar andere op tekst gebaseerde platforms zoals messaging en sociale media.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In het hedendaagse digitale tijdperk, dat wordt gekenmerkt door de snelle evolutie van het internet en digitale technologieën, is e-mail een onmisbare hoeksteen gebleven op het gebied van elektronische transacties en bedrijfscommunicatie, ondanks de voortdurende opkomst en innovatie van instant messaging en sociale mediaplatforms¹. Het vermogen om tijdelijke en ruimtelijke grenzen te overstijgen, geeft het unieke voordelen, waardoor naadloze communicatie over de hele wereld op elk moment mogelijk is. Deze grootschalige acceptatie heeft echter geleid tot een urgent en schadelijk probleem: de ongebreidelde verspreiding van spam. Kwaadwillenden hebben e-mailsystemen misbruikt als middel om enorme hoeveelheden ongevraagde commerciële advertenties, kwaadaardige software en illegale inhoud te verspreiden. Volgens onderzoek is het aandeel van de wereldwijde spam in het totale e-mailverkeer van 2012 tot 2023 met 7700%^2,3 omhooggeschoten. Deze stortvloed aan spam verstoort niet alleen de normale e-mailactiviteiten van gebruikers ernstig, maar vormt ook veelzijdige bedreigingen. Het ondermijnt de persoonlijke privacy door mogelijk gevoelige informatie bloot te leggen, brengt de veiligheid van het bedrijf in gevaar door het risico van datalekken en malware-infecties, en destabiliseert zelfs de economische orde door frauduleuze activiteiten te vergemakkelijken ^4,5. Effectieve spamclassificatie vermindert phishing-gerelateerde financiële verliezen met 40-60%⁶, wat de praktische waarde van efficiënte, nauwkeurige filtermethoden benadrukt. Daarom is de ontwikkeling van een efficiënt en nauwkeurig spamdetectiemodel een cruciaal onderzoeksgebied geworden om de netwerkbeveiliging te waarborgen en de efficiëntie te verbeteren.

Een aanzienlijk deel van het bestaande onderzoek naar spamdetectie is gericht op machine learning en deep learning-methodologieën. Op het gebied van traditionele machine learning is een breed scala aan technieken verkend en toegepast. Op regels gebaseerde methoden, zoals beslissingsbomen⁷, zijn gebruikt om classificatiebeslissingen te nemen op basis van vooraf gedefinieerde regels die zijn afgeleid van gegevenskenmerken. Boosting methoden ^8,9,10, die meerdere zwakke leerlingen samenvoegen tot een sterke, en ruwe verzamelingenleer¹¹, die zich bezighoudt met onzekerheid en onnauwkeurigheid in gegevens, hebben ook potentieel aangetoond. Daarnaast zijn statistische methoden, waaronder logistische regressie, K-nearest neighbours (KNN)^12,13, Naive Bayes 14,15,16 en SVM 17,18,19, op grote schaal gebruikt. Deze benaderingen zijn vaak gebaseerd op traditionele methoden voor het extraheren van functies, zoals TF-IDF. Hoewel TF-IDF effectief is in het kwantificeren van het belang van woorden in een document, worstelt het met het vastleggen van de ingewikkelde semantische relaties en contextuele nuances die inherent zijn aan e-mailteksten. Bovendien stuiten deze methoden vaak op computationele knelpunten wanneer ze worden geconfronteerd met hoogdimensionale en schaarse gegevens, wat typisch is voor e-mailfuncties. Hun beperkte robuustheid kan ertoe leiden dat ze tijdens het trainingsproces vast komen te zitten in lokale optimale oplossingen, waardoor de classificatienauwkeurigheid en het generalisatievermogen van de modellen ernstig worden beperkt.

Deep learning, met zijn opmerkelijke vermogen om automatisch functies te extraheren, is naar voren gekomen als een krachtig alternatief voor spamdetectie. Algoritmen, zoals Convolutional Neural Networks (CNN)^20,21,22, Recurrent Neural Networks (RNN)²³ en Long Short-Term Memory networks (LSTM)^24,25, evenals recentere op Transformer gebaseerde modellen zoals Word2vec en BERT^26,27, hebben aanzienlijke vooruitgang geboekt bij het verbeteren van de classificatieprestaties. CNN's zijn bedreven in het extraheren van lokale kenmerken uit gegevens, RNN's en LSTM's kunnen goed omgaan met sequentiële gegevens, waarbij temporele afhankelijkheden in tekst worden vastgelegd, en op transformatoren gebaseerde modellen blinken uit in het ontginnen van complexe semantische relaties en contextinformatie. Recente efficiënte NLP-methoden, zoals op TinyML gebaseerde tekstclassificaties²⁸, bieden sterke basislijnen voor spamclassificatie. TinyML-modellen zijn geoptimaliseerd voor edge-apparaten met beperkt geheugen. We vergelijken onze methode met deze benaderingen in de sectie Resultaten, waarbij we de nadruk leggen op compromissen tussen nauwkeurigheid, rekenefficiëntie en implementatieflexibiliteit. Deze deep learning-modellen hebben echter hun eigen beperkingen. Ze vereisen doorgaans een groot aantal trainingsparameters, wat resulteert in een hoge vraag naar rekenkracht en langere trainingstijden. Deep learning-modellen zoals BERT vereisen 3-5x meer geheugen en 10x langere trainingstijden dan traditionele SVM's²⁹, waardoor ze minder geschikt zijn voor omgevingen met beperkte middelen. Dit maakt ze minder praktisch voor implementatie in omgevingen met beperkte resources, zoals mobiele apparaten of low-end servers. Bovendien maken hun complexe architecturen ze vaak minder interpreteerbaar, wat een aanzienlijk nadeel kan zijn in toepassingen waar inzicht in het besluitvormingsproces van het model cruciaal is.

Tegen deze achtergrond is het overkoepelende doel van deze studie het ontwikkelen van een innovatieve aanpak die de beperkingen van bestaande methoden kan overwinnen en de uitdagingen van de hoogdimensionale en schaarse aard van spamgegevens effectief kan aanpakken. De voorgestelde Van der Waerden Rank Score Feature Attention-Enhanced SVM (VWR-Attn-SVM) vertegenwoordigt een nieuwe integratie van technieken die gericht zijn op het verbeteren van de prestaties op het gebied van spamdetectie (Figuur 1). Het fundamentele principe achter de VWR-Attn-SVM ligt in het unieke ontwerp dat de sterke punten van meerdere componenten combineert.

figure-introduction-1
Figuur 1: Algemeen stroomschema van onderzoek naar spamclassificatie met VWR-Attn-SVM. Dit stroomdiagram illustreert de workflow van spamclassificatie op basis van de Van der Waerden-rangschikkingsscore en functie-aandachtsversterkte SVM, met betrekking tot gegevensvoorbereiding (laden, splitsen, voorverwerking), experimentele voorbereiding, verificatie van statistische correlaties van TF-IDF-kenmerklabels, aandachtsversterkte SVM-gebaseerde spamdetectie en vergelijking van meerdere classificaties. Klik hier om een grotere versie van deze figuur te bekijken.

Het kernmechanisme voor verbeterde functie-aandacht verwerkt individuele e-mailvoorbeelden met een specifieke dimensionaliteit. Door de Van der Waerden rank transformation toe te passen, normaliseert het de e-mailtekstkenmerken die vervormd zijn door abnormale woordfrequenties in een standaard normale verdelingsachtige vorm. Deze transformatie verbetert de robuustheid van het model aanzienlijk, waardoor het beter kan omgaan met de variabiliteit van e-mailgegevens. Van der Waerden rangscores hadden om drie redenen de voorkeur boven log-scaling en kwantieltransformaties: (1) Robuust tegen uitschieters van spamfuncties (bijv. extreme woordfrequenties), in tegenstelling tot log-scaling die laagfrequente ruis versterkt; (2) Behoud van ordinale relaties (cruciaal voor spam-indicatorhiërarchie zoals "free" vs. "win"), terwijl kwantieltransformaties verdelingen afvlakken; (3) Normaliseren naar [0,1], waardoor de integratie van het aandachtsmechanisme wordt vergemakkelijkt en een consistente weging wordt gegarandeerd (Figuur 2).

figure-introduction-2
Figuur 2: Experimenteel stroomschema. (A-C) Workflows voor spamclassificatie, waaronder gegevensverwerking, functieselectie, modeltraining, evaluatie en vergelijking met/zonder transformatie van de Van der Waerden-rangschikkingsscore. Klik hier om een grotere versie van deze figuur te bekijken.

Structureel beschikt het mechanisme over een tweelaags, volledig verbonden netwerk voor niet-lineaire functietransformatie (Figuur 2). De eerste laag, uitgerust met een LeakyReLU-activeringsfunctie, vermindert de invoerafmetingen terwijl niet-lineariteit wordt geïntroduceerd en bevat een Dropout-laag om overfitting te verminderen. De tweede laag, die gebruik maakt van een Sigmoïde-functie, voert aandachtsgewichten uit die het belang van elk kenmerk nauwkeurig kunnen kwantificeren. Een L1/L2-regularisatiestrategie is in het model geïntegreerd om de functieselectie te optimaliseren, waarbij L1-regularisatie schaarste bevordert, waardoor minder relevante kenmerken effectief worden gescreend, en L2-regularisatie overfitting voorkomt door de grootte van de gewichten te beperken. Tijdens de trainingsfase wordt een multi-task leerkader aangenomen, waarbij verlies van functiereconstructie en classificatieverlies worden gecombineerd om de modelparameters te optimaliseren. Hierdoor kan de VWR-Attn-SVM zich precies aanpassen aan de hoogdimensionale, schaarse TF-IDF-functies van e-mailteksten, die kenmerkend zijn voor de complexe aard van e-mailinhoud.

Onze methode is geoptimaliseerd voor op tekst gebaseerde spam-datasets variërend van enkele duizenden tot tienduizenden (bijv. Spambase, Indonesische spam-dataset (aanvullend bestand 1)) en vereist standaard rekenkracht (Intel Core i7-processor, 16 GB RAM) voor training; inferentie kan worden uitgevoerd op een standaard laptop (Intel Core i5, 8 GB RAM) met een latentie van minder dan een seconde. Belangrijke beperkingen zijn onder meer de beperkte prestaties op niet-tekstuele spam (bijv. in afbeeldingen ingesloten spam) en het vertrouwen op gestructureerde tekstfuncties. Vergeleken met bestaande alternatieve technologieën heeft VWR-Attn-SVM een aantal opmerkelijke voordelen. Anders dan traditionele machine learning-methoden, vertrouwt het niet alleen op basisfunctie-extractie, maar leert het actief om functies te wegen op basis van hun belang via het verbeterde aandachtsmechanisme, om functies die relevanter zijn voor spamclassificatie beter vast te leggen. In tegenstelling tot deep learning-modellen bereikt het een gunstige balans tussen prestaties en rekenefficiëntie. Het vereist minder rekenkracht en kortere trainingstijden, waardoor het geschikter is voor een breed scala aan toepassingen, vooral die met beperkte middelen. Deze innovatieve aanpak is niet alleen van toepassing op de specifieke taak van spamdetectie in e-mailsystemen, maar kan ook worden uitgebreid naar andere op tekst gebaseerde communicatiekanalen, zoals instant messaging-apps, sociale-mediaplatforms en sms-diensten, waar soortgelijke problemen van ongewenste en kwaadaardige verspreiding van inhoud bestaan. Al met al vertegenwoordigt de VWR-Attn-SVM een aanzienlijke vooruitgang op het gebied van spamdetectie en biedt het een meer praktische, efficiënte en veelzijdige oplossing om het hardnekkige probleem van spam in het digitale communicatielandschap te bestrijden.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Experimentele voorbereiding (Aanvullend Dossier 2 en Aanvullend Dossier 3)

Gegevensbeschrijving: Laad de open-source spamgegevensset uit de UCI Machine Learning Repository voor detectie van spam-e-mail³⁰. Documenteer dat de dataset 4.601 exemplaren bevat met 57 continue functies en 1 klasselabel, waaronder 1.813 spam (39,4%) en 2.788 niet-spam (60,6%) samples (Tabel 1).
Bibliotheek importeren
1. Importeer de essentiële bibliotheken (zie de Materiaaltabel).
2. Stel een globale willekeurige seed in op 42 om de reproduceerbaarheid van de resultaten te garanderen.
Configureer plotinstellingen: gebruik Times New Roman voor Engelse tekst, los problemen met de weergave van mintekens op en stel de lettergrootte in op 16 voor een betere leesbaarheid.

Tabel 1: Samenvatting van datasetstatistieken en functiedefinities. Deze tabel bevat variabelen voor spamclassificatie, waaronder woordfrequentie (word_freq_WORD), tekenfrequentie (char_freq_CHAR), metrische gegevens voor de oplage van hoofdletters en de doelklassevariabele, met beschrijvingen van elk variabeletype en elke betekenis. Klik hier om deze tabel te downloaden.

2. Experiment om de statistische associatie tussen TF-IDF-kenmerken en labels te verifiëren (aanvullend bestand 2 en aanvullend bestand 3)

Voorverwerking van gegevens
1. Laad de datasets (aanvullend bestand 1): eerste dataset: spambase.csv; Tweede dataset: spam_indonesian.csv.
2. Onderzoek de verspreiding van spam- en niet-spam-e-maillabels en bereken het aandeel van elke categorie.
3. Binariseer deze kenmerken met behulp van het gemiddelde als drempel voor de komende chikwadraattoets.
  OPMERKING: Zorg ervoor dat het spambestand zich in de juiste werkmap bevindt of geef het volledige bestandspad op wanneer u de leesopdracht gebruikt.
Voorverwerking van gegevenstests (aanvullend bestand 2 en aanvullend bestand 3)
1. Gebruik sklearn.feature_selection.chi2 voor de chi-kwadraattest op gebinariseerde TF-IDF-functies:
  Code aanroepen:
  Vanaf sklearn.feature_selection import Chi2
  chi2_values, p_values = chi2(df_binary, df['spam'])
  significant_features_chi2 = [feature_cols[i] voor i in np.where(p_values < 0.05)[0]]
  print(f"Aantal belangrijke kenmerken: {len(significant_features_chi2)}")
  Verwachte output: een subset van functies (bijv. 35 van de 57) met statistische associatie met spamlabels, inclusief trefwoorden als 'gratis' of 'verwijderen'.
2. Voer een implementatie uit met behulp van sklearn.feature_selection.f_classif:
  Code aanroepen:
  van sklearn.feature_selection import f_classif
  f_values, f_p_values = f_classif(df[feature_cols], df['spam'])
  significant_features_f = [feature_cols[i] voor i in np.where(f_p_values < 0.05)[0]]
  print(f"Behouden functies: {len(significant_features_f)}")
  OPMERKING: Dit behoudt doorgaans 40-50 kenmerken (afhankelijk van de dataset), gedeeltelijk overlappend met chi-kwadraatresultaten.
  Voordat u statistische tests uitvoert, moet u het gegevensformaat en de parameters controleren om nauwkeurige resultaten te garanderen.
Visualisatie
1. Selecteer de top 20 kenmerken met de kleinste p-waarden uit de chi-kwadraat testresultaten.
2. Genereer met seaborn.heatmap:
  Code aanroepen:
  Import Seaborn als SNS
  top_indices = np.argsort(p_values)[:20]
  top_features = [feature_cols[i] voor i in top$\_$indices]
  corr_matrix = df[top_features + ['spam']].corr()
  plt.figuur(figsize=(12, 10))
  sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
  plt.show()
  OPMERKING: Verwacht patroon: Spam-gerelateerde kenmerken worden geclusterd met het spamlabel in rood (positieve correlatie).

3. Verbeterde SVM-classificatie ter attentie voor spamdetectie (aanvullend bestand 2 en aanvullend bestand 3)

Voorverwerking van gegevens
1. Gegevens laden: Gegevens splitsen met behulp van sklearn.model selection.train test splitsen met vaste seed:
  Code aanroepen:
  Van sklearn.Model Selection Importeer Train Test Split
  X trein, X test, y trein, y test = trein test splitsen (X, y, testgrootte = 0.3, willekeurige toestand = 42)
2. Standaardisatie en klassenbalancering: Implementeren via imblearn.over sampling. SMOTE (Synthetic Minority Over-sampling Technique (SMOTE)³¹):
  Code aanroepen:
  van imblearn.over sampling import SMOTE
  # Standaard: sampling strategy='auto', k neighbors=5
  smote=SMOTE(willekeurige toestand=42)
  X trein smote, y trein smote = smote.fit resample(X trein, y trein)
  Brengt de klassenverdeling in evenwicht (bijvoorbeeld van 85:15 tot 50:50).
Verbeterde modelarchitectuur voor functieaandacht: ontwerp een mechanisme dat gewichten voor functiebelang leert via niet-lineaire transformaties met meerdere lagen. Wijs hogere aandachtsgewichten toe aan kritieke functies om hun impact te vergroten.
1. Voorverwerking van functies (optioneel)
  1. Pas Van der Waerden normale rangtransformatie toe op invoerfuncties. Zet onbewerkte kenmerken om in een normale verdeling bij benadering om de robuustheid van het model te verbeteren. Gebruik de formule:
    
    Waarbij x de TF-IDF-kenmerkvector van een steekproef voorstelt, R(x) de rang van de kenmerkwaarde is, d de vectorlengte (d=57) en ^φ-1 de inverse cumulatieve verdelingsfunctie van de standaard normale verdeling.
    OPMERKING: Gebruik use_rank_transform parameter (Booleaans) om de inschakeling van de normale rangtransformatie voor functieverwerking te regelen.
2. Meerlaagse niet-lineaire transformatie: leer een niet-lineaire weergave van functies via een volledig verbonden netwerk met twee lagen.
  1. Transformatie van de eerste laag: Gebruik de formule:
    
    Waarbij,_{W, 1}, R^{, k×d} en k=64 (verborgen neuronen).
    Geïmplementeerd in Keras met LeakyReLU:
    Code aanroepen:
    van tensorflow.keras.layers importeren Dicht
    self.dense1=Dense(units=64, # 256 voor VWR-Attn-SVM
    activation='lekkende relu', # Standaard negatieve helling=0.01
    kernel regularizer=regularizers.l1 l2(l1=0.0002, l2=0.0002))
    OPMERKING: Voeg een dropout-laag toe met een dropout-percentage van 0,2 om overfitting te voorkomen.
  2. Transformatie van de tweede laag: Pas de transformatie van de tweede laag toe met behulp van Sigmoid om aandachtsgewichten in het bereik [0,1] te genereren. Gebruik de formule:
    
    Waarbij W_{, 2}, R^{, d×k} en een R,^k de aandachtsgewichten zijn voor elk kenmerk. Selecteer Sigmoid in plaats van SoftMax om de onafhankelijkheid van het belang van meerdere functies te behouden.
    Breng Keras Sigmoid activatie aan voor aandachtsgewichten:
    Code aanroepen:
    self.dense2 = Dicht(invoer vorm[-1], activatie='sigmoïd',
    kernel regularizer=regularizers.l1 l2(l1=0.0002, l2=0.0002))
3. Functieweging: Verbeter belangrijke functies door elementgewijze vermenigvuldiging uit te voeren met aandachtsgewichten. Gebruik de formule:
  
  Waar staat voor elementgewijze vermenigvuldiging.
Het verbeterde functieattentiemodel trainen
1. Optimalisatie van multi-task doelstellingen: Minimaliseer een functie voor gewogen verlies die reconstructieverlies en verlies van kruisentropie combineert om het model te trainen. Zorg ervoor dat het aandachtsmechanisme kritieke informatie bewaart, terwijl het zich concentreert op classificatierelevante kenmerken. Gebruik de formule:
  
  Gebruik maken van gemiddeld kwadratisch foutverlies
  voor het reconstrueren van invoerfuncties en het toepassen van het verlies van kruisentropie
  naar de classificatietaak.
  Implementeer aangepast verlies van meerdere taken in PyTorch: Aangepast verlies in Keras met alpha=0.5:
  Code aanroepen:
  model.compile(optimizer='Adam',verlies={
  'enhanced_feature_attention':'MSE','Classificatie':
  'binary_crossentropy'},loss_weights={
  'enhanced_feature_attention': 0,5, 'classificatie': 0,5})
  alpha=0,5 saldi hebben reconstructie (MSE) en classificatie (cross-entropie), wat leidt tot stabiele convergentie binnen 50-100 tijdperken.
  OPMERKING: Pas L1/L2 gemengde regularisatie (Elastic Net, standaardsterkte 0,001) toe op beide volledig verbonden lagen om de selectie en generalisatie van kenmerken te verbeteren.
2. Parameterinstellingen: Stel de gewichtscoëfficiënt α in om het relatieve belang van de twee verliezen te bepalen en gebruik α = 0,5 in de code. Configureer de batchgrootte als 64, stel het aantal epochs in op 200 en wijs 10% van de gegevens toe voor de validatieset.
3. Voeg terugbelfuncties toe.
  Keras callbacks met standaard parameters:
  Code aanroepen:
  van tensorflow.keras.callbacks importeren EarlyStopping, ReduceLROnPlateau
  callbacks = [EarlyStopping(monitor='val_loss', patience=5, mode='min', restore_best_weights
  =Waar), ReduceLROnPlateau(monitor='val_loss', factor=0,5, patience=5, min_lr=0,0005, verbose=1)]
  1. Neem de EarlyStoping-callback op om het trainingsproces te stoppen wanneer het validatieverlies gedurende 5 opeenvolgende perioden niet verbetert.
  2. Voeg de ReduceLROnPlateau callback toe om de leersnelheid adaptief aan te passen. Stel de vervalfactor in op 0,5 en de minimale leersnelheid op 0,0002.
4. Aandachts-gewichtskenmerken genereren: Haal na de training de aandachtsgewichten uit de Enhanced Feature Attention-laag. Genereer gewogen functies voor zowel de trainings- als de testset. Voer deze functies in de SVM-classificatie in.
Model evaluatie
OPMERKING: Een 70-30 train-test split balanceert training en evaluatie. SMOTE pakt onevenwichtigheid in de klasse aan en verbetert de prestaties op onevenwichtige tekstgegevens. MinMaxScaler stabiliseert op afstand gebaseerde modellen. Eenheden: 64 (t.a.v.t.n.) en 128 (vvr-t.a.v.n.) SVM) balanscapaciteit; 128 biedt plaats aan de complexiteit van de Van-der-Waerden rangtransformatie. Dropout (0,2) voorkomt overfitting, standaard voor kleine tot middelgrote datasets. L1/L2-regularisatie (0,0002-0,002): L1 induceert schaarste; L2 beperkt de gewichtsgrootte. Gelijke verliesgewichten (MSE: 0,5, cross-entropie: 0,5) evenwichtsreconstructie en classificatieleren. Tijdperken: 200 (Attn-SVM), 300 (VWR-Attn-SVM) met vroeg stoppen (patience=5) om overfitting te voorkomen. Batchgrootte 64 balanceert efficiëntie en stabiliteit. ReduceLROnPlateau (factor=0.5, patience=5-10) past de leersnelheid aan (min 0.0001-0.0005) voor een betere convergentie.
1. Opzet en vergelijkingen van ablatiestudies: Definieer de volgende modellen ter vergelijking: Baseline SVM: Traditionele SVM met Radial Basis Function (RBF) kernel; T.a.v.: SVM met verbeterd attentiemechanisme voor functies; VWR-Attn-SVM: SVM die de transformatie van Van der Waerden combineert met verbeterde aandacht voor functies.
2. Evaluatiestatistieken (tabel 2): Beoordeel de modelprestaties met behulp van nauwkeurigheid, precisie, herinnering, F1-score en AUC.
Aandacht visualisatie en modelinterpretatie
1. Visualisatie van aandachtsgewichten van belangrijke functies
  Matplotlib barplot voor top 15 functies:
  Code aanroepen:
  Importeer matplotlib.pyplot als plt
  top_indices = np.argsort(-avg_weights)[:15]
  top_features = [feature_names[i] voor i in top_indices]
  top_weights = avg_weights[top_indices]
  plt.figuur(figsize=(12, 8))
  plt.barh(top_features, top_weights, color='hemelsblauw')
  plt.xlabel('Attentie Gewicht')
  plt.title("Gewichten voor de belangrijkste functie")
  plt.show()
2. Vergelijking van de impact van normale rangtransformatie: Vergelijk modelprestaties (nauwkeurigheid, precisie, herinnering, F1-score, AUC) met en zonder ingeschakelde use_rank_transform . Markeer belangrijke verschillen in metrische gegevens in een opgemaakte tabel.
3. Vergelijking van het belang van kenmerk: Analyseer de consistentie tussen belangrijke kenmerken die door statistische tests zijn geïdentificeerd (bijv. chi-kwadraat) en het aandachtsmechanisme.
  OPMERKING: Als de rekenkracht beperkt is, verminder dan het aantal eenheden (bijv. tot 32) of epochs (bijv. tot 100). Pas l1_reg/l2_reg aan om de complexiteit van het model in evenwicht te brengen (hogere waarden verbeteren de regularisatie).

4. Vergelijking van meerdere classificaties (aanvullend bestand 2 en aanvullend bestand 3)

Definieer classificatiewoordenboek. Maak een woordenboek met classificaties ter vergelijking, waaronder KNN, Logistic Regression, AdaBoost, Naive Bayes en SVM met RBF-kernel (standaardparameters).
Initialiseer resultaat DataFrames. Maak vier DataFrames om evaluatiestatistieken op te slaan, met de kolommen: Classifier, Accuracy, Precision, Recall, F1-Score en AUC.
Train en evalueer classificatoren. Voer voor elke classificatie de volgende stappen uit.
Voorbeeld van classificatoren met parameters en zaden:
Code aanroepen:
van sklearn.linear_model import LogisticRegression
van sklearn.svm SVC importeren
lr = Logistische regressie(random_state=RANDOM_SEED, max_iter=1000)
svm = GridSearchCV(SVC(random_state=RANDOM_SEED, waarschijnlijkheid=Waar),
param_grid={'C': [0.001,0.01 1, 10,100,1000], 'gamma': [0.001,0.01 1, 10,100,1000],
kernel': ['rbf', 'lineair']}, cv=5, score='f1')
OPMERKING: Alle modellen gebruiken random_state=42 voor reproduceerbaarheid.
1. Train de classificatie op geschaalde trainingsgegevens.
2. Voorspel en bereken waarschijnlijkheden op zowel trainings- als testsets.
3. Genereer classificatierapporten en sla de metrische gegevens op in de bijbehorende DataFrames.
Integreer verbeterde SVM-resultaten voor functieaandacht. Neem prestatiegegevens van Attn-SVM en VWR-Attn-SVM (uit experiment 3) op in de bestaande DataFrames.
Vergelijkende resultaten afdrukken. Geef evaluatietabellen weer voor niet-spam- en spam-e-mails in zowel trainings- als toetssets.
Visualiseer resultaten. Gebruik sns.barplot om metrische gegevens over de prestaties van de classificator te plotten. Draai de labels op de x-as 45° voor leesbaarheid. Optimaliseer de lay-out en geef de plot weer met plt.show().
Interpretatie van de uitvoer van sns.barplot:
Code aanroepen:
Import Seaborn als SNS
sns.barplot(x='Classificatie', y='F1-Score', data=resultaten)

5. Vergelijkingstabel van multimetrische prestaties van verschillende classificatoren in trainings-/testtijd en geheugen (aanvullend bestand 4)

Voorverwerking van gegevens: Laad spambase.csv of spam_indonesian.csv; Opgesplitst in 70% training/30% testsets; standaardiseer functies met MinMaxScaler.
Modeltraining: Train KNN, Logistic Regression, AdaBoost, Naive Bayes, SVM (met grid search), Attn-SVM en VWR-Attn-SVM.
Prestatie-evaluatie: Bereken nauwkeurigheid, precisie, herinnering, F1-score en AUC.
Resource-analyse: registreer trainingstijd, testtijd en geheugengebruik.
Visualisatie: Genereer grafieken met meerdere metrische prestaties en grafieken voor resourceverbruik.
Belangrijkste parameters: Willekeurig zaad = 42; SVM-raster (C:[0.01,0.1,1,1,10,100]; gamma:[0.01,0.1,1,10,100]; kernel:['rbf','lineair']); aandachtsmodellen gebruiken 2-laags volledig verbonden netwerken, L1/L2-regularisatie en Dropout.
Uitvoer: prestatietabellen, resourcetabellen, multimetrische grafieken, tijd-/geheugengrafieken, visualisaties van aandachtsgewicht.

6. Experimentele resultaten van CNN, RNN, LSTM of Transformers (aanvullend bestand 5)

Voorbewerking: Laad spambase.csv of spam_indonesian.csv, pas SMOTE toe voor onbalans in de klas indien nodig, opgesplitst in trein/test (70/30).
Training: Bouw CNN, RNN, LSTM, Transformer; Adam (0,001), binaire kruisentropie, batch_size=32, epochs=10, vroeg stoppen (geduld=5) en planning van de leersnelheid.
Evaluatie: Rekennauwkeurigheid, precisie, terugroepen, F1, AUC; Registreer de trainings-/toetstijd en het geheugengebruik.
Visualisatie: Genereer prestatie- en resourcevergelijkingsplots; sla CSV-resultaten op.
Uitvoer: tabel met prestatiestatistieken, tabel met resourceverbruik, vergelijkingsplots, CSV-bestanden.

7. Instructies voor aanvullende codes

Om de code uit te voeren en figuren te repliceren: Plaats spam.csv of spam_indonesian.csv in dezelfde map. Installeer afhankelijkheden via pip install numpy panda's matplotlib seaborn scikit-learn tensorflow ongebalanceerd-learn psutil. Voer het script uit; Het zal automatisch gegevens verwerken, modellen trainen en alle cijfers (heatmaps, prestatiegrafieken) genereren/weergeven tijdens de uitvoering.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Om te beginnen, volgens het vastgestelde experimentele protocol, geeft figuur 1 een overzicht van het algemene stroomschema van deze studie. Figuur 2 geeft achtereenvolgens de werkingsstroomschema's van experimenten 2 weer. Bovendien presenteert tabel 1 voornamelijk de woord- en tekenfrequenties binnen de spam-e-maildataset, spam.csv.

Met betrekking tot de evaluatie van de modelpresta...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit onderzoek verifieerde de effectiviteit van VWR-Attn-SVM op basis van de Spambase-dataset en bood inzichten voor het aanpakken van de hoogdimensionale en schaarse aard van spamgegevens. Experimenten hebben aangetoond dat slechts enkele functies in spamgegevens een sterke correlatie hebben met labels; Traditionele modellen behandelen alle kenmerken gelijk, wat leidt tot slechte prestaties, terwijl het aandachtsmechanisme van dit model de belangrijkste kenmerken dynamisch kan wegen. Na ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteurs hebben geen belangenconflicten te onthullen.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

We danken de Fujian Alliance of Mathematics (Grant No. 2023SXLMMS10) en de Natural Science Foundation of Fujian Province (2023J05083, 2022J011396, 2023J011434) voor het financieren van dit werk.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
Supplemental File 2: code_new.py; Supplemental File 3: code_indonesian.py.
numpy	NumPy Developers	Bibliotheek voor numerieke berekeningen in Python
pandas	pandas Development Team	Bibliotheek voor gegevensmanipulatie en -analyse
matplotlib	Matplotlib Developers	Bibliotheek voor het maken van statische, geanimeerde en interactieve visualisaties
seaborn	Michael Waskom et al.	Statistische datavisualisatiebibliotheek gebaseerd op matplotlib
scikit-learn	scikit-learn Developers Team	Machine learning bibliotheek met verschillende classificatie-, regressie- en clusteringalgoritmen
tensorflow	Google	Open-source machine learning framework, inclusief Keras API voor het bouwen van neurale netwerken
imblearn	imbalanced-learn Developers	Bibliotheek voor het omgaan met onevenwichtige datasets, inclusief SMOTE voor oversampling
warnings	Python Standard Library	Module voor het geven van waarschuwingsberichten
Supplemental File 4: code_compute_time.py
numpy	NumPy Developers	Numerieke berekeningsbibliotheek voor Python
pandas	pandas Development Team	Bibliotheek voor gegevensmanipulatie en -analyse
matplotlib	Matplotlib Developers	Visualisatiebibliotheek voor het maken van grafieken en figuren
seaborn	Michael Waskom et al.	Statistische datavisualisatiebibliotheek gebouwd op matplotlib
scikit-learn	scikit-learn Developers Team	Machine learning bibliotheek met classificatie-, regressie- en voorverwerkingstools
tensorflow	Google	Open-source machine learning framework met Keras API voor neurale netwerken
imblearn	imbalanced-learn Developers Team	Bibliotheek voor het omgaan met onevenwichtige datasets (omvat SMOTE)
warnings	Python Standard Library	Module voor het geven van waarschuwingsberichten
time	Python Standard Library	Module voor tijdgerelateerde functies
psutil	Giampaolo Rodola	Bibliotheek voor het ophalen van systeeminformatie en het monitoren van resourcegebruik
os	Python Standard Library	Module voor interactie met het besturingssysteem
Supplemental File 5: DNN.py.
pandas	pandas Development Team	Bibliotheek voor gegevensmanipulatie en -analyse
numpy	NumPy Developers	Numerieke berekeningsbibliotheek voor Python
time	Python Standard Library	Module voor tijdgerelateerde functies
psutil	Giampaolo Rodola	Bibliotheek voor het ophalen van systeeminformatie en het monitoren van resources
matplotlib	Matplotlib Developers	Visualisatiebibliotheek voor het maken van grafieken en figuren
scikit-learn	scikit-learn Developers Team	Machine learning bibliotheek met hulpmiddelen voor gegevensvoorverwerking, modelselectie en metrische gegevens
imblearn	imbalanced-learn Developers Team	Bibliotheek voor het omgaan met onevenwichtige datasets (omvat SMOTE)
tensorflow	Google	Open-source machine learning framework met Keras API voor het bouwen van neurale netwerken

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ayo, F. E., Ogundele, L. A., Olakunle, S., Awotunde, J. B., Kasali, F. A. A hybrid correlation-based deep learning model for email spam classification using fuzzy inference system. Decis Anal J. 10, 100390(2024).
Douzi, S., AlShahwan, F. A., Lemoudden, M., Ouahidi, B. Hybrid email spam detection model using artificial intelligence. Int J Mach Learn Comput. 10 (2), 316-322 (2020).
Maqsood, U., et al. An intelligent framework based on deep learning for SMS and e-mail spam detection. Appl Comput Intell Soft Comput. 2023, 6648970(2023).
Yang, Z., Nie, X., Xu, W., Guo, J. An approach to spam detection by naive Bayes ensemble based on decision induction. Proc IEEE Comput Soc. , 861-866 (2006).
Nazirova, S., Alguliyev, R. Two approaches on implementation of CBR and CRM technologies to the spam filtering problem. J Inf Secur. 3 (1), 11-17 (2012).
Consumer Sentinel Network Data Book. , Federal Trade Commission. (2022).
DeSouza, M., Fitzgerald, J., Kemp, C., Truong, G. A decision tree-based spam filtering agent. , Available at: http://www.cs.mu.oz.au/481/2001_projects/gntr/index.html (2001).
Boosting trees for anti-spam email filtering. Carreras, X., Marque, L. Proc RANLP-01, 4th Int Conf Recent Adv Nat Lang Process, , INCOMA Ltd. (2001).
Androutsopoulos, I. Learning to filter unsolicited commercial e-mail. Int Proc Comput Sci Inf Tech. , (2025).
XGBoost: a scalable tree boosting system. Chen, T., Guestrin, C. Proc 22nd ACM SIGKDD Int Conf Knowl Discov Data Min, , ACM. 785-794 (2016).
Intelligent analysis, filtering, and rough set discussions of spam. Liu, Y., et al. Proc 12th Annu Conf Comput Netw Data Commun China Comput Fed, , (2002).
Androutsopoulos, I., et al. Learning to filter spam e-mail: a comparison of a naive Bayesian and memory-based approach. Comput Sci. 97 (2), 1-13 (2000).
Cai, J., et al. Fibrosis and inflammatory activity diagnosis of chronic hepatitis C based on extreme learning machine. Sci Rep. 15 (1), 11(2025).
Zhou, Y., Li, Y., Xia, S. An improved KNN text classification algorithm based on clustering. J Comput. 4 (3), 230-237 (2009).
Rapacz, S., Cholda, P., Natkaniec, M. A. Method for fast selection of machine-learning classifiers for spam filtering. Electronics. 10 (17), 2083(2021).
Fu, S., Nizar, B. A. Soft computing model based on asymmetric Gaussian mixtures and Bayesian inference. Soft Comput. 24 (1), 4841-4853 (2020).
Text categorization with support vector machines: learning with many relevant features. Joachims, T. Proc Eur Conf Mach Learn, , Springer. 137-142 (1998).
Drucker, H., Wu, D., Vapnik, V. N. Support vector machines for spam categorization. IEEE Trans Neural Netw. 10 (5), 1048-1054 (2002).
Yuan, Y., Fan, W., Pu, D. Spline function smooth support vector machine for classification. J Ind Manag Optim. 3 (3), 529-542 (2017).
Cai, J., et al. A residual joint antenna network for joint transmit-receive antenna subset selection in MIMO systems. IEEE Trans Antennas Propag. , (2025).
Zhu, S., et al. Singular pooling: a spectral pooling paradigm for second-trimester prenatal level II ultrasound standard fetal plane identification. IEEE Trans Circuits Syst Video Technol. , (2025).
Zhu, S., et al. Contrast and gain-aware attention: a plug-and-play feature fusion attention module for torso region fetal plane identification. Ultrasound Med Biol. , (2025).
Mikolov, T., Karafiat, M., Burget, L., Cernock, J., Khudanpur, S. Recurrent neural network based language model. Proc Interspeech, Int Speech Commun Assoc. , (2015).
Hochreiter, S., Schmidhuber, J. Long short-term memory. Neural Comput. 9 (8), 1735-1780 (1997).
Cai, J., et al. Developing deep LSTMs with later temporal attention for predicting COVID-19 severity, clinical outcome, and antibody level by screening serological indicators over time. IEEE J Biomed Health Inform. 28 (7), 4204-4215 (2024).
Vaswani, A., et al. Attention is all you need. Adv Neural Inf Process Syst. , (2017).
Xian, L. Application of an improved TF-IDF method in literary text classification. Adv Multimed. 2022, 9285324(2022).
Alajlan, N., Ibrahim, D. M. TinyML: enabling inference of deep learning models on ultra-low-power IoT edge devices for AI applications. Micromachines. 13 (6), 851(2022).
Devlin, J., Chang, M. W., Lee, K., Toutanova, K. BERT: pre-training of deep bidirectional transformers for language understanding. Proc North Am Chapter Assoc Comput Linguist. , (2019).
Hopkins, M., Reeber, E., Forman, G., Suermondt, J. Spambase dataset. UCI Mach Learn Repos. , (1999).
Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. SMOTE: synthetic minority over-sampling technique. J Artif Intell Res. 16, 321-357 (2002).
Cuk, A., et al. Tuning attention-based long short-term memory neural networks for Parkinson's disease detection using modified metaheuristics. Sci Rep. 14, 4309(2024).
Mizdrakovic, V., et al. Forecasting bitcoin: decomposition-aided long short-term memory-based time series modeling and its explanation with Shapley values. Knowl Based Syst. 299 (5), 112026(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Spam Classificatie met Ondersteuning Vector Machines Met behulp van Van der Waerden Rank Score Let op

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles