MULTINOMIAL NAÏVE BAYES UNTUK DETEKSI PHISHING URL DENGAN PERBANDINGAN REPRESENTASI FITUR BAG OF WORDS DAN TF-IDF

Bonai, Georel Jeferson Fransiskus (2026) MULTINOMIAL NAÏVE BAYES UNTUK DETEKSI PHISHING URL DENGAN PERBANDINGAN REPRESENTASI FITUR BAG OF WORDS DAN TF-IDF. S1 - Sarjana thesis, Universitas AMIKOM Yogyakarta.

[img] Text (COVER-ABSTRAK)
COVER.pdf - Published Version

Download (642kB)
[img] Text (BAB I)
BAB I.pdf - Published Version

Download (225kB)
[img] Text (BAB II)
BAB II.pdf - Published Version
Restricted to Registered users only

Download (1MB)
[img] Text (BAB III)
BAB III.pdf - Published Version
Restricted to Registered users only

Download (530kB)
[img] Text (BAB IV)
BAB IV.pdf - Published Version
Restricted to Registered users only

Download (979kB)
[img] Text (BAB V)
BAB V.pdf - Published Version

Download (70kB)
[img] Text (DAFTAR PUSTAKA - LAMPIRAN)
Daftar Pustaka dan Lampiran.pdf - Published Version
Restricted to Registered users only

Download (257kB)
[img] Archive (SOURCE CODE)
Sourcecode - 22.83.0833.zip - Published Version
Restricted to Repository staff only

Download (2kB)
[img] Text (PUBLIKASI)
Publikasi.pdf - Published Version
Restricted to Repository staff only

Download (827kB)

Abstract

Phishing merupakan salah satu bentuk serangan siber yang memanfaatkan URL palsu untuk menipu pengguna agar memberikan informasi sensitif. Seiring meningkatnya jumlah serangan phishing, diperlukan metode deteksi otomatis yang efektif dan efisien. Penelitian ini bertujuan untuk membangun dan mengevaluasi model deteksi phishing URL menggunakan algoritma Multinomial Naïve Bayes dengan dua metode representasi teks, yaitu Bag of Words (BoW) dan Term Frequency–Inverse Document Frequency (TF-IDF). Dataset yang digunakan terdiri dari beberapa kelas URL, yaitu benign, phishing, malware, dan defacement, yang memiliki distribusi data tidak seimbang. Untuk mengatasi permasalahan tersebut, diterapkan teknik Synthetic Minority Over-sampling Technique (SMOTE) pada data latih. Proses penelitian meliputi tahapan preprocessing teks, representasi fitur menggunakan character n-gram, pelatihan model, serta evaluasi menggunakan metrik accuracy, precision, recall, dan F1-score. Selain itu, dilakukan 5-Fold Cross Validation untuk mengukur stabilitas dan kemampuan generalisasi model. Hasil pengujian menunjukkan bahwa kedua metode representasi teks mampu menghasilkan performa klasifikasi yang baik. Representasi BoW menghasilkan accuracy sebesar (78,20%) dan F1-score sebesar (78,59%), sedangkan TF-IDF memperoleh accuracy sebesar (77,90%) dan F1-score sebesar (79,16%). Dari sisi stabilitas, hasil validasi menunjukkan nilai CV-Mean yang konsisten pada kedua metode. Selain itu, BoW memiliki waktu komputasi vektorisasi yang lebih rendah dibandingkan TF-IDF, sehingga lebih efisien dalam pemrosesan data skala besar. Berdasarkan evaluasi kinerja, stabilitas model, dan efisiensi waktu komputasi, model Multinomial Naïve Bayes dengan representasi BoW dan penerapan SMOTE dipilih sebagai model terbaik dalam penelitian ini.

Item Type: Thesis (S1 - Sarjana)
Contributor:
Pembimbing
Hidayat, Tonny
Uncontrolled Keywords: Phishing URL, Multinomial Naïve Bayes, Bag of Words, TF-IDF, SMOTE.
Subjects: 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 000 Ilmu komputer, informasi dan pekerjaan umum
Divisions: Fakultas Ilmu Komputer > Teknik Komputer
Depositing User: RC Universitas AMIKOM Yogyakarta
Date Deposited: 02 Jul 2026 04:02
Last Modified: 02 Jul 2026 04:02
URI: http://eprints.amikom.ac.id/id/eprint/31884

Actions (login required)

View Item View Item