@phdthesis{universitasamikomyogyakarta29681, month = {February}, school = {Universitas AMIKOM Yogyakarta}, title = {PEMODELAN TOPIK MELALUI MEDIA X MENGGUNAKAN APACHE SPARK (STUDI KASUS COVID-19 DI INDONESIA TAHUN 2020-2022)}, year = {2025}, author = {Hanif Tofa Darussalam}, keywords = {Latent Dirichlet Allocation, Pemodelan Topik, Skor Koherensi, COVID-19, Perplexity}, url = {https://eprints.amikom.ac.id/id/eprint/29681/}, abstract = {Pandemi COVID-19 yang terjadi di Indonesia selama periode 2020?2022 telah mendorong berbagai diskusi serta pertukaran opini di media sosial, termasuk Media X. Platform ini menghasilkan data dalam jumlah besar dan bersifat tidak terstruktur, sehingga dibutuhkan metode yang efektif untuk menganalisis serta mengidentifikasi pola topik yang muncul. Penelitian ini berfokus pada pemodelan topik dari data Media X dengan memanfaatkan Apache Spark sebagai kerangka kerja pemrosesan big data. Metode yang digunakan dalam penelitian ini adalah Latent Dirichlet Allocation (LDA), yang diterapkan dalam lingkungan Apache Spark untuk menangani data dalam jumlah besar secara paralel dan terdistribusi. Proses analisis meliputi pengumpulan data, penyimpanan data, pra-pemrosesan data, vektorisasi teks, pemodelan topik, evaluasi dan visualisasi. Hasil penelitian menunjukkan bahwa metode ini mampu mengidentifikasi topik-topik utama yang berkembang selama pandemi COVID-19 di Indonesia, seperti kesehatan, vaksinasi, kebijakan pemerintah, serta persepsi masyarakat terhadap pandemi. Sebanyak 10 topik ditentukan untuk dianalisis dalam penelitian ini. Model dievaluasi menggunakan dua metrik utama, yaitu perplexity dan coherence score, dengan hasil masing-masing 5.5987700238050815 dan 0.6061784364959958. Hasil ini menunjukkan bahwa coherence score lebih relevan dalam menilai kualitas topik yang dihasilkan, karena memberikan gambaran yang lebih jelas tentang keterkaitan dan kebermaknaan kata-kata dalam setiap topik dibandingkan perplexity.} }