Hendrawan, Ivan Rifky (2022) ANALISIS PERBANDINGAN METODE BAG OF WORDS, TF-IDF, WORD2VEC DAN DOC2VEC PADA KLASIFIKASI TEKS SENTIMEN MASYARAKAT TERHADAP PRODUK LOKAL DI INDONESIA. S2 - Magister thesis, Universitas AMIKOM Yogyakarta.
Text (THESIS)
21.51.1002 Ivan Rifky Hendrawan.pdf Download (4MB) |
Abstract
Review online sangat penting dalam mendukung keputusan pembelian karena dengan berkembangnya e-commerce, semakin banyak ulasan palsu, sehingga semakin banyak konsumen yang khawatir tertipu belanja online. Penelitian ini bertujuan untuk membandingkan performa (accuracy, presicion, recall dan f1-score) yang dihasilkan oleh model Algoritma XGBoost saat menggunakan Bag of Word, TF-IDF, Word2vec, dan Doc2vec pada dataset teks ulasan produk local di Shopee berbahasa Indonesia. Metode yang digunakan dalam penelitian ini adalah pengumpulan data, pembersihan data, pelabelan data, pra-pemrosesan data, klasifikasi dan evaluasi. Proses pengikisan data menghasilkan 22.624 data yang terbagi menjadi 80% data latih dan 20% data uji. Data tersebut dibagi menjadi dua kelas, yaitu sentimen baik dan sentimen buruk. Hasil dari penelitian didapatkan metode Bag of Words menghasilkan F1 Score 0.932, TFIDF menghasilkan F1 Score 0.932, Word2vec menghasilkan F1 Score 0.934 dan untuk metode Doc2vec menghasilkan nilai F1-Score 0.933. Pada keempat model ektrasi tersebut diketahui bahwa Word2vec memilik nilai F1-Score tertinggi. Pada kasus penelitian ini untuk uji coba menggunakan empat metode tidak terlalu signifikan pada XGBoost, hal ini dikarenakan setiap metode menghasilkan nilai F1-Score yang tidak terlalu jauh untuk jarak perbedaan. Penelitian yang akan datang penulis menyarankan untuk memaksimalkan peforma Doc2vec jika ingin meneliti permasalahan yang berkaitan dengan ulasan produk pada penelitian yang akan datang diperluhkan dataset yang lebih beragam agar hal ini dikarenakan metode Doc2vec ini masih bisa optimal jika didukung oleh jumlah kosakata yang beragam dengan cara mengubah vector_size dari 100 menjadi sesuatu yang lebih kecil atau lebih besar.
Item Type: | Thesis (S2 - Magister) | |||
---|---|---|---|---|
Contributor: |
|
|||
Uncontrolled Keywords: | Bag of Words, TFIDF, Word2vec, Doc2vec, XGBoost | |||
Subjects: | 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 003 Sistem-sistem 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 004 Pemrosesan data dan ilmu komputer |
|||
Divisions: | Pascasarjana MTI > Magister Teknik Informatika | |||
Depositing User: | RC Universitas AMIKOM Yogyakarta | |||
Date Deposited: | 04 Oct 2023 01:53 | |||
Last Modified: | 04 Oct 2023 02:15 | |||
URI: | http://eprints.amikom.ac.id/id/eprint/21595 |
Actions (login required)
View Item |