Method Article

Классификация спама с помощью метода опорных векторов с использованием метода Ван дер Вардена Rank Score Attention

DOI:

10.3791/69082

October 31st, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В этом исследовании предлагается инновационный подход, основанный на методе опорных векторов, интегрированном с механизмом Ван дер Вардена с улучшенным вниманием к признакам, направленный на решение проблем многомерных разреженных данных о спаме и повышение производительности классификации при обнаружении спама.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

По мере роста использования электронной почты спам становится серьезной проблемой, угрожающей безопасности сети и снижающей эффективность связи. Традиционные методы обнаружения сталкиваются с постоянными ограничениями: традиционные модели машинного обучения часто испытывают трудности с многомерными разреженными данными, в то время как глубокое обучение требует значительных вычислительных ресурсов.

В этом исследовании представлена функция оценки рангов Ван дер Вардена с улучшенным вниманием Метод опорных векторов (VWR-Attn-SVM) для решения этих проблем. Метод применяет преобразование рангов Ван дер Вардена для нормализации текстовых объектов, повышения устойчивости к выбросам и сохранения порядковых отношений. Улучшенный механизм внимания дополнительно оптимизирует выбор признаков за счет нелинейной обработки с регуляризацией, выделяя функции, наиболее важные для обнаружения спама.

Эксперименты на наборах данных UCI Spambase и Indonesian Spam показали, что VWR-Attn-SVM превосходит традиционные классификаторы по точности, точности, запоминаемости, F1-score и AUC. Сочетая высокую производительность со сниженными вычислительными затратами, метод обеспечивает эффективное и интерпретируемое решение для классификации спама с потенциальным расширением на другие текстовые платформы, такие как обмен сообщениями и социальные сети.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

В современную цифровую эпоху, характеризующуюся быстрым развитием Интернета и цифровых технологий, электронная почта остается незаменимым краеугольным камнем в области электронных транзакций и корпоративной коммуникации, несмотря на постоянное появление и инновации платформ мгновенного обмена сообщениями и социальных сетей1. Его способность преодолевать временные и пространственные границы наделяет его уникальными преимуществами, обеспечивая бесперебойную связь по всему миру в любое время. Тем не менее, такое широкое внедрение породило насущную и пагубную проблему - безудержное распространение спама. Злоумышленники использовали системы электрон....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Подготовка к эксперименту (Дополнительный файл 2 и Дополнительный файл 3)

  1. Описание данных: Загрузите набор данных о спаме с открытым исходным кодом из репозитория машинного обучения UCI для обнаружения спама по электронной почте30. Задокументируйте, что набор данных содержит 4 601 экземпляр с 57 непрерывными признаками и 1 меткой класса, включая 1 813 образцов спама (39,4%) и 2 788 образцов, не являющихся спамом (60,6%) (Таблица 1).
  2. Импорт библиотеки
    1. Импортируйте необходимые библиотеки (см. Таблицу материалов).
    2. Установите глобальное случайно....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Для начала, в соответствии с установленным протоколом эксперимента, на рисунке 1 представлен обзор общей блок-схемы данного исследования. На рисунке 2 последовательно изображены блок-схемы операций экспериментов 2. Кроме того, в таблице 1 в основном представлены частоты употребления слов и символов в наборе данных спам-писем spam.csv.

Что касается оценки производительности модели, использовались пять ключевых метрик: .......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Это исследование подтвердило эффективность VWR-Attn-SVM на основе набора данных Spambase, что дало представление о многомерном и разреженном характере данных о спаме. Эксперименты показали, что только некоторые признаки в данных о спаме имеют сильную корреляцию с метками; Традиционные модели одинаково обрабатывают все функции, что приводит к снижению производительности, в то время как механизм внимания этой модели может динамически оценивать ключевые функции. После интеграции рангового п.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

У авторов нет конфликта интересов, который можно было бы раскрыть.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Мы благодарим Фуцзяньский математический альянс (грант No 2023SXLMMS10) и Фонд естественных наук провинции Фуцзянь (2023J05083, 2022J011396, 2023J011434) за финансирование этой работы.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
<Сильный>Дополнительный файл 2: code_new.py; Дополнительный файл 3: code_indonesian.py.
numpyРазработчики NumPyБиблиотека для численных вычислений на Python
ПандыКоманда разработки пандБиблиотека для обработки и анализа данных
matplotlibMatplotlib Developers Библиотека для создания статичных, анимированных и интерактивных визуализаций
СиборнМайкл Уаском и др.Библиотека визуализации статистических данных на базе matplotlib
scikit-learnКоманда разработчиков scikit-learnБиблиотека машинного обучения, включающая различные алгоритмы классификации, регрессии и кластеризации
тензорный потокGoogleОткрытый фреймворк машинного обучения, включая API Keras для построения нейронных сетей
imblearnРазработчики с дисбалансированным обучениемБиблиотека для работы с несбалансированными наборами данных, включая SMOTE для перевыборки
ПредупрежденияСтандартная библиотека PythonМодуль для выдачи предупреждающих сообщений
Дополнительный файл 4: code_compute_time.py
numpyРазработчики NumPyЧисленная вычислительная библиотека для Python
ПандыКоманда разработки пандБиблиотека обработки и анализа данных
matplotlibРазработчики MatplotlibБиблиотека визуализации для создания сюжетов и фигур
СиборнМайкл Уаском и др.Библиотека визуализации статистических данных, построенная на matplotlib
scikit-learnКоманда разработчиков scikit-learnБиблиотека машинного обучения с инструментами классификации, регрессии и предобработки
тензорный потокGoogleОткрытый фреймворк машинного обучения с API Keras для нейронных сетей
imblearnкоманда разработчиков с несбалансированным обучениемБиблиотека для обработки несбалансированных наборов данных (включает SMOTE)
ПредупрежденияСтандартная библиотека PythonМодуль для выдачи предупреждающих сообщений
ВремяСтандартная библиотека PythonМодуль для функций, связанных со временем
psutilДжампаоло РодолаБиблиотека для получения информации о системе и мониторинга использования ресурсов
ОССтандартная библиотека PythonМодуль для взаимодействия с операционной системой
Дополнительный файл 5: DNN.py.
ПандыКоманда разработки пандБиблиотека обработки и анализа данных
numpyРазработчики NumPyЧисленная вычислительная библиотека для Python
ВремяСтандартная библиотека PythonМодуль для функций, связанных со временем
psutilДжампаоло РодолаБиблиотека для поиска информации о системе и мониторинга ресурсов
matplotlibРазработчики MatplotlibБиблиотека визуализации для создания сюжетов и фигур
scikit-learnКоманда разработчиков scikit-learnБиблиотека машинного обучения с инструментами предварительной обработки данных, выбора моделей и метрик
imblearnкоманда разработчиков с несбалансированным обучениемБиблиотека для обработки несбалансированных наборов данных (включает SMOTE)
тензорный потокGoogleОткрытый фреймворк машинного обучения с API Keras для построения нейронных сетей

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Ayo, F. E., Ogundele, L. A., Olakunle, S., Awotunde, J. B., Kasali, F. A. A hybrid correlation-based deep learning model for email spam classification using fuzzy inference system. Decis Anal J. 10, 100390(2024).
  2. Douzi, S., AlShahwan, F. A., Lemoudden, M., Ouahidi, B.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Spam ClassificationSupport Vector MachinesVan Der WaerdenRank Score AttentionFeature SelectionText NormalizationOutlier RobustnessAttention MechanismHigh Dimensional DataText Based Platforms

Related Articles