KLUSTERISASI TOPIK SKRIPSI MAHASISWA PROGRAM STUDI INFORMATIKA MENGGUNAKAN METODE LDA (LATENT DIRICHLET ALLOCATION) DAN BERT (BIDIRECTIONAL ENCODER REPRESENTATIONS FROM TRANSFORMERS)

Handarestanto, Yahya (2025) KLUSTERISASI TOPIK SKRIPSI MAHASISWA PROGRAM STUDI INFORMATIKA MENGGUNAKAN METODE LDA (LATENT DIRICHLET ALLOCATION) DAN BERT (BIDIRECTIONAL ENCODER REPRESENTATIONS FROM TRANSFORMERS). S1 - Sarjana thesis, Universitas AMIKOM Yogyakarta.

[img] Text (COVER-ABSTRAK)
COVER.pdf

Download (1MB)
[img] Text (BAB I)
BAB I.pdf

Download (173kB)
[img] Text (BAB II)
BAB II.pdf
Restricted to Registered users only

Download (1MB)
[img] Text (BAB III)
BAB III.pdf
Restricted to Registered users only

Download (682kB)
[img] Text (BAB IV)
BAB IV.pdf
Restricted to Registered users only

Download (1MB)
[img] Text (BAB V)
BAB V.pdf

Download (73kB)
[img] Text (DAFTAR PUSTAKA-LAMPIRAN)
Daftar Pustaka dan Lampiran.pdf
Restricted to Registered users only

Download (247kB)
[img] Archive (SOURCE CODE)
Sourcecode - 21.11.4365.zip
Restricted to Repository staff only

Download (564kB)
[img] Text (PUBLIKASI)
Publikasi.pdf
Restricted to Repository staff only

Download (633kB)

Abstract

Penelitian ini bertujuan untuk melakukan pemodelan topik pada kumpulan skripsi mahasiswa Studi Informatika di Universitas Amikom Yogyakarta dengan menggunakan metode Latent Dirichlet Allocation (LDA) dan BERTopic. Analisis dilakukan terhadap abstrak skripsi dari tahun 2020 hingga 2024, yang diolah melalui beberapa tahap preprocessing, seperti penghapusan nilai null, normalisasi teks, tokenisasi, dan penghapusan stopwords. Sebagai langkah awal, analisis TFIDF dilakukan untuk mengidentifikasi kata-kata kunci yang paling berpengaruh dalam dataset. Metode LDA digunakan untuk mengidentifikasi topik utama dalam dokumen dengan memandang setiap dokumen sebagai campuran dari beberapa topik tersembunyi. Sementara itu, BERTopic diterapkan dengan pendekatan berbasis BERT untuk menangkap representasi semantik yang lebih dalam dari teks. Evaluasi hasil pemodelan pada penilitian ini dilakukan dengan mencari parameter tebaik yaitu dengan melakukan pencarian skor koherensi tertinggi dengan rentang jumlah topik dari 2 hingga 20. Untuk model LDA menghasilkan skor koherensi sebesar 0.5933 dengan 5 topik, nilai Beta 0.6 dan nilai Alpha nya auto. Dan untuk model BERT/BERTopic menggunakan paraphrase all-MiniLM-L6-v2 menghasilkan skor koherensi 0.7502 dengan ukuran topik 16. Temuan ini menunjukkan bahwa model BERT/BERTopic lebih efektif dalam mengidentifikasi dan mengelompokkan topik pada dataset skripsi mahasiswa Studi Informatika di Universitas Amikom Yogyakarta. Hasil penelitian ini diharapkan dapat memberikan wawasan tentang arah penelitian dan minat mahasiswa, serta menjadi referensi bagi topik penelitian selanjutnya.

Item Type: Thesis (S1 - Sarjana)
Contributor:
Pembimbing
Hanafi, Hanafi
Uncontrolled Keywords: LDA, BERTopic, TF-IDF, Skripsi, Topic Modeling
Subjects: 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 004 Pemrosesan data dan ilmu komputer
000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 006 Metode komputer khusus
Divisions: Fakultas Ilmu Komputer > Informatika
Depositing User: RC Universitas AMIKOM Yogyakarta
Date Deposited: 14 Apr 2025 02:39
Last Modified: 14 Apr 2025 02:39
URI: http://eprints.amikom.ac.id/id/eprint/29330

Actions (login required)

View Item View Item