eprintid: 31772 rev_number: 8 eprint_status: archive userid: 12 dir: disk0/00/03/17/72 datestamp: 2026-06-29 02:50:34 lastmod: 2026-06-29 03:52:57 status_changed: 2026-06-29 02:50:34 type: thesis metadata_visibility: show creators_name: Pratomo, Ero Wahyu creators_nim: 24.55.1583 contributors_name: Utami, Ema corp_creators: Universitas AMIKOM Yogyakarta title: ANALISIS KINERJA DAN PENGEMBANGAN MODEL HYBRID TF-IDF DAN SENTENCE EMBEDDING (SBERT/E5) UNTUK MENINGKATKAN AKURASI SIMILARITY TEKS PADA REPOSITORY INSTITUSI BERBAHASA INDONESIA (Studi Kasus: eprints.amikom.ac.id) ispublished: pub subjects: 000.000.000A divisions: PJJ full_text_status: public keywords: TF-IDF, SBERT, E5, Text similarity, Hybrid model, Ground truth, Repositori akademik, Academic repository abstract: Penelitian ini mengembangkan dan menganalisis performa model hybrid antara metode TF-IDF dan sentence embedding berbasis transformer (SBERT dan E5) untuk meningkatkan akurasi pengukuran kemiripan (text similarity) pada dokumen akademik berbahasa Indonesia. Permasalahan utama yang diangkat adalah keterbatasan TF-IDF dalam menangkap konteks semantik serta tingginya biaya komputasi apabila model embedding diterapkan secara penuh pada repositori berskala besar (28.575 dokumen). Untuk mengatasi hal tersebut, penelitian ini mengusulkan arsitektur hybrid dua tahap: TF-IDF digunakan sebagai filter leksikal agresif dengan lost ratio sebesar 0,9965 untuk mereduksi ruang pencarian, diikuti oleh reranking semantik menggunakan SBERT dan E5. Hasil eksperimen menunjukkan bahwa model SBERT unggul dalam stabilitas struktur klaster dengan skor ARI tertinggi (0,3444) dan Davies-Bouldin Index terendah (2,7506), sedangkan E5 unggul dalam aspek kelengkapan semantik dengan NMI sebesar 0,5183. Dari sisi efisiensi, arsitektur hybrid berhasil memangkas waktu pemrosesan secara signifikan. Metode Hybrid TF-IDF + E5 (3,71 detik) terbukti 47,7% lebih cepat dibandingkan Hybrid TF-IDF + SBERT (7,10 detik). Secara keseluruhan, pendekatan hybrid mampu meningkatkan kualitas similarity dan struktur klaster dibandingkan penggunaan model tunggal. Model ini terbukti mampu menyeimbangkan efisiensi komputasi dan ketepatan semantik, sehingga sangat relevan untuk diimplementasikan pada sistem rekomendasi dokumen akademik berskala besar di repositori institusi. date: 2026-01-06 date_type: published institution: Universitas AMIKOM Yogyakarta department: PJJ Magister Teknik Informatika thesis_type: masters thesis_name: tesis citation: Pratomo, Ero Wahyu (2026) ANALISIS KINERJA DAN PENGEMBANGAN MODEL HYBRID TF-IDF DAN SENTENCE EMBEDDING (SBERT/E5) UNTUK MENINGKATKAN AKURASI SIMILARITY TEKS PADA REPOSITORY INSTITUSI BERBAHASA INDONESIA (Studi Kasus: eprints.amikom.ac.id). S2 - Magister thesis, Universitas AMIKOM Yogyakarta. document_url: https://eprints.amikom.ac.id/id/eprint/31772/1/24.55.1583%20Ero%20Wahyu%20Pratomo.pdf