<mods:mods version="3.3" xsi:schemaLocation="http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-3.xsd" xmlns:mods="http://www.loc.gov/mods/v3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"><mods:titleInfo><mods:title>ANALISIS KINERJA DAN PENGEMBANGAN MODEL HYBRID TF-IDF &#13;
DAN SENTENCE EMBEDDING (SBERT/E5) UNTUK MENINGKATKAN &#13;
AKURASI SIMILARITY TEKS PADA REPOSITORY INSTITUSI &#13;
BERBAHASA INDONESIA &#13;
(Studi Kasus: eprints.amikom.ac.id)</mods:title></mods:titleInfo><mods:name type="personal"><mods:namePart type="given">Ero Wahyu</mods:namePart><mods:namePart type="family">Pratomo</mods:namePart><mods:role><mods:roleTerm type="text">author</mods:roleTerm></mods:role></mods:name><mods:abstract>Penelitian ini mengembangkan dan menganalisis performa model hybrid&#13;
antara metode TF-IDF dan sentence embedding berbasis transformer (SBERT dan&#13;
E5) untuk meningkatkan akurasi pengukuran kemiripan (text similarity) pada&#13;
dokumen akademik berbahasa Indonesia. Permasalahan utama yang diangkat&#13;
adalah keterbatasan TF-IDF dalam menangkap konteks semantik serta tingginya&#13;
biaya komputasi apabila model embedding diterapkan secara penuh pada repositori&#13;
berskala besar (28.575 dokumen).&#13;
Untuk mengatasi hal tersebut, penelitian ini mengusulkan arsitektur hybrid&#13;
dua tahap: TF-IDF digunakan sebagai filter leksikal agresif dengan lost ratio&#13;
sebesar 0,9965 untuk mereduksi ruang pencarian, diikuti oleh reranking semantik&#13;
menggunakan SBERT dan E5. Hasil eksperimen menunjukkan bahwa model&#13;
SBERT unggul dalam stabilitas struktur klaster dengan skor ARI tertinggi (0,3444)&#13;
dan Davies-Bouldin Index terendah (2,7506), sedangkan E5 unggul dalam aspek&#13;
kelengkapan semantik dengan NMI sebesar 0,5183.&#13;
Dari sisi efisiensi, arsitektur hybrid berhasil memangkas waktu pemrosesan&#13;
secara signifikan. Metode Hybrid TF-IDF + E5 (3,71 detik) terbukti 47,7% lebih&#13;
cepat dibandingkan Hybrid TF-IDF + SBERT (7,10 detik). Secara keseluruhan,&#13;
pendekatan hybrid mampu meningkatkan kualitas similarity dan struktur klaster&#13;
dibandingkan penggunaan model tunggal. Model ini terbukti mampu&#13;
menyeimbangkan efisiensi komputasi dan ketepatan semantik, sehingga sangat&#13;
relevan untuk diimplementasikan pada sistem rekomendasi dokumen akademik&#13;
berskala besar di repositori institusi.</mods:abstract><mods:classification authority="lcc">000 Ilmu komputer, informasi dan pekerjaan umum</mods:classification><mods:originInfo><mods:dateIssued encoding="iso8061">2026-01-06</mods:dateIssued></mods:originInfo><mods:originInfo><mods:publisher>Universitas AMIKOM Yogyakarta;PJJ Magister Teknik Informatika</mods:publisher></mods:originInfo><mods:genre>Thesis</mods:genre></mods:mods>