ANALISIS PERBANDINGAN METODE BAG OF WORDS, TF-IDF, WORD2VEC DAN DOC2VEC PADA KLASIFIKASI TEKS SENTIMEN MASYARAKAT TERHADAP PRODUK LOKAL DI INDONESIA

Hendrawan, Ivan Rifky (2022) ANALISIS PERBANDINGAN METODE BAG OF WORDS, TF-IDF, WORD2VEC DAN DOC2VEC PADA KLASIFIKASI TEKS SENTIMEN MASYARAKAT TERHADAP PRODUK LOKAL DI INDONESIA. S2 - Magister thesis, Universitas AMIKOM Yogyakarta.

[img] Text (THESIS)
21.51.1002 Ivan Rifky Hendrawan.pdf

Download (4MB)

Abstract

Review online sangat penting dalam mendukung keputusan pembelian karena dengan berkembangnya e-commerce, semakin banyak ulasan palsu, sehingga semakin banyak konsumen yang khawatir tertipu belanja online. Penelitian ini bertujuan untuk membandingkan performa (accuracy, presicion, recall dan f1-score) yang dihasilkan oleh model Algoritma XGBoost saat menggunakan Bag of Word, TF-IDF, Word2vec, dan Doc2vec pada dataset teks ulasan produk local di Shopee berbahasa Indonesia. Metode yang digunakan dalam penelitian ini adalah pengumpulan data, pembersihan data, pelabelan data, pra-pemrosesan data, klasifikasi dan evaluasi. Proses pengikisan data menghasilkan 22.624 data yang terbagi menjadi 80% data latih dan 20% data uji. Data tersebut dibagi menjadi dua kelas, yaitu sentimen baik dan sentimen buruk. Hasil dari penelitian didapatkan metode Bag of Words menghasilkan F1 Score 0.932, TFIDF menghasilkan F1 Score 0.932, Word2vec menghasilkan F1 Score 0.934 dan untuk metode Doc2vec menghasilkan nilai F1-Score 0.933. Pada keempat model ektrasi tersebut diketahui bahwa Word2vec memilik nilai F1-Score tertinggi. Pada kasus penelitian ini untuk uji coba menggunakan empat metode tidak terlalu signifikan pada XGBoost, hal ini dikarenakan setiap metode menghasilkan nilai F1-Score yang tidak terlalu jauh untuk jarak perbedaan. Penelitian yang akan datang penulis menyarankan untuk memaksimalkan peforma Doc2vec jika ingin meneliti permasalahan yang berkaitan dengan ulasan produk pada penelitian yang akan datang diperluhkan dataset yang lebih beragam agar hal ini dikarenakan metode Doc2vec ini masih bisa optimal jika didukung oleh jumlah kosakata yang beragam dengan cara mengubah vector_size dari 100 menjadi sesuatu yang lebih kecil atau lebih besar.

Item Type: Thesis (S2 - Magister)
Contributor:
Pembimbing
Utami, Ema
Hartanto, Anggit Dwi
Uncontrolled Keywords: Bag of Words, TFIDF, Word2vec, Doc2vec, XGBoost
Subjects: 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 003 Sistem-sistem
000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 004 Pemrosesan data dan ilmu komputer
Divisions: Pascasarjana MTI > Magister Teknik Informatika
Depositing User: RC Universitas AMIKOM Yogyakarta
Date Deposited: 04 Oct 2023 01:53
Last Modified: 04 Oct 2023 02:15
URI: http://eprints.amikom.ac.id/id/eprint/21595

Actions (login required)

View Item View Item