Ridlo, Nur Muhammad (2025) ANALISIS SENTIMEN MULTIMODAL BERBASIS BERT DAN VISION TRANSFORM. S1 - Sarjana thesis, Universitas AMIKOM Yogyakarta.
|
Text (COVER-ABSTRAK)
COVER.pdf Download (800kB) |
|
|
Text (BAB I)
BAB I.pdf Download (131kB) |
|
|
Text (BAB II)
BAB II.pdf Restricted to Registered users only Download (796kB) |
|
|
Text (BAB III)
BAB III.pdf Restricted to Registered users only Download (183kB) |
|
|
Text (BAB IV)
BAB IV.pdf Restricted to Registered users only Download (390kB) |
|
|
Text (BAB V)
BAB V.pdf Download (41kB) |
|
|
Text (DAFTAR PUSTAKA-LAMPIRAN)
Daftar Pustaka dan Lampiran.pdf Restricted to Registered users only Download (177kB) |
|
|
Archive (SOURCE CODE)
Sourcecode - 21.11.4508.zip Restricted to Repository staff only Download (35kB) |
|
|
Text (PUBLIKASI)
Publikasi.pdf Restricted to Repository staff only Download (526kB) |
Abstract
Penelitian ini bertujuan untuk mengevaluasi kinerja model analisis sentimen multimodal berbasis Bidirectional Encoder Representations from Transformers (BERT) dan Vision Transformer (ViT) dalam memahami emosi pengguna pada data media sosial berbentuk teks dan gambar. Dataset yang digunakan adalah MVSA-Single, yang terdiri dari 4.869 pasangan teks dan gambar berbahasa Inggris dari platform Twitter. Data diproses melalui beberapa tahap penting, termasuk tokenization, padding, konversi ke tensor (untuk teks), serta augmentation dan feature extraction (untuk gambar). Model dilatih dengan konfigurasi optimal berupa pembekuan enam layer bawah pada backbone, learning rate sebesar 2e-5, dropout sebesar 20%, dan pembagian data 70:15:15 untuk pelatihan, validasi, dan pengujian. Hasil evaluasi menunjukkan bahwa model multimodal BERT + ViT mampu mencapai akurasi pengujian sebesar 70,59% dan skor F1 validasi tertinggi sebesar 0,7247. Temuan ini mengindikasikan bahwa penggabungan dua modalitas secara simultan dapat meningkatkan kinerja klasifikasi sentimen dibandingkan pendekatan unimodal. Meskipun demikian, penelitian ini masih memiliki beberapa keterbatasan yang dapat menjadi arah pengembangan selanjutnya. Pertama, ukuran dataset MVSA-Single tergolong kecil dan terbatas pada satu domain (Twitter), sehingga disarankan untuk menggunakan dataset multimodal yang lebih besar dan beragam agar model dapat belajar representasi yang lebih umum. Kedua, eksperimen ini hanya menggunakan satu metode fusi sederhana (early fusion), sehingga eksplorasi teknik fusi lain seperti attention-based fusion atau late fusion berpotensi meningkatkan kemampuan model dalam mengintegrasikan informasi dari dua modalitas secara lebih efektif.
| Item Type: | Thesis (S1 - Sarjana) | ||
|---|---|---|---|
| Contributor: |
|
||
| Uncontrolled Keywords: | Analisis Sentimen, Multimodal, BERT, Vision Transformer, MVSA-Single | ||
| Subjects: | 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 006 Metode komputer khusus | ||
| Divisions: | Fakultas Ilmu Komputer > Informatika | ||
| Depositing User: | RC Universitas AMIKOM Yogyakarta | ||
| Date Deposited: | 04 Dec 2025 06:18 | ||
| Last Modified: | 04 Dec 2025 06:18 | ||
| URI: | http://eprints.amikom.ac.id/id/eprint/31458 |
Actions (login required)
![]() |
View Item |

