ANALISIS KINERJA DAN PENGEMBANGAN MODEL HYBRID TF-IDF DAN SENTENCE EMBEDDING (SBERT/E5) UNTUK MENINGKATKAN AKURASI SIMILARITY TEKS PADA REPOSITORY INSTITUSI BERBAHASA INDONESIA (Studi Kasus: eprints.amikom.ac.id)

Pratomo, Ero Wahyu (2026) ANALISIS KINERJA DAN PENGEMBANGAN MODEL HYBRID TF-IDF DAN SENTENCE EMBEDDING (SBERT/E5) UNTUK MENINGKATKAN AKURASI SIMILARITY TEKS PADA REPOSITORY INSTITUSI BERBAHASA INDONESIA (Studi Kasus: eprints.amikom.ac.id). S2 - Magister thesis, Universitas AMIKOM Yogyakarta.

[img] Text (THESIS)
24.55.1583 Ero Wahyu Pratomo.pdf - Published Version

Download (3MB)

Abstract

Penelitian ini mengembangkan dan menganalisis performa model hybrid antara metode TF-IDF dan sentence embedding berbasis transformer (SBERT dan E5) untuk meningkatkan akurasi pengukuran kemiripan (text similarity) pada dokumen akademik berbahasa Indonesia. Permasalahan utama yang diangkat adalah keterbatasan TF-IDF dalam menangkap konteks semantik serta tingginya biaya komputasi apabila model embedding diterapkan secara penuh pada repositori berskala besar (28.575 dokumen). Untuk mengatasi hal tersebut, penelitian ini mengusulkan arsitektur hybrid dua tahap: TF-IDF digunakan sebagai filter leksikal agresif dengan lost ratio sebesar 0,9965 untuk mereduksi ruang pencarian, diikuti oleh reranking semantik menggunakan SBERT dan E5. Hasil eksperimen menunjukkan bahwa model SBERT unggul dalam stabilitas struktur klaster dengan skor ARI tertinggi (0,3444) dan Davies-Bouldin Index terendah (2,7506), sedangkan E5 unggul dalam aspek kelengkapan semantik dengan NMI sebesar 0,5183. Dari sisi efisiensi, arsitektur hybrid berhasil memangkas waktu pemrosesan secara signifikan. Metode Hybrid TF-IDF + E5 (3,71 detik) terbukti 47,7% lebih cepat dibandingkan Hybrid TF-IDF + SBERT (7,10 detik). Secara keseluruhan, pendekatan hybrid mampu meningkatkan kualitas similarity dan struktur klaster dibandingkan penggunaan model tunggal. Model ini terbukti mampu menyeimbangkan efisiensi komputasi dan ketepatan semantik, sehingga sangat relevan untuk diimplementasikan pada sistem rekomendasi dokumen akademik berskala besar di repositori institusi.

Item Type: Thesis (S2 - Magister)
Contributor:
Pembimbing
Utami, Ema
Uncontrolled Keywords: TF-IDF, SBERT, E5, Text similarity, Hybrid model, Ground truth, Repositori akademik, Academic repository
Subjects: 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 000 Ilmu komputer, informasi dan pekerjaan umum
Divisions: Pascasarjana Magister Informatika > PJJ Magister Informatika
Depositing User: RC Universitas AMIKOM Yogyakarta
Date Deposited: 29 Jun 2026 02:50
Last Modified: 29 Jun 2026 03:52
URI: http://eprints.amikom.ac.id/id/eprint/31772

Actions (login required)

View Item View Item