Kursus/Pelatihan Data Science ~ Analisis Sentimen Multibahasa pada Twitter Menggunakan Transformer Multilingual

Berikut adalah silabus 20 sesi (masing-masing 1,5 jam) untuk kursus atau penelitian berjudul:
“Analisis Sentimen Multibahasa pada Twitter Menggunakan Transformer Multilingual”, dengan fokus pada Natural Language Processing (NLP) menggunakan Python dan model seperti mBERT atau XLM-RoBERTa.
🗂️ Silabus 20x Sesi (1,5 jam per sesi)
🔹 Fase 1: Dasar-Dasar NLP dan Sentiment Analysis (Sesi 1–5)
Sesi 1: Pengenalan NLP dan Analisis Sentimen
-
Definisi NLP, Sentiment Analysis, dan aplikasinya
-
Tantangan dalam analisis sentimen multibahasa
-
Tools dan pustaka Python yang digunakan (NLTK, Hugging Face, Transformers)
Sesi 2: Pengenalan Twitter API dan Data Crawling
-
Mendaftar dan menggunakan Twitter API v2
-
Crawling tweet multibahasa dengan
tweepy
/snscrape
-
Penyimpanan data dalam CSV/JSON
Sesi 3: Preprocessing Data Teks Multibahasa
-
Cleaning tweet (stopwords, hashtags, emojis, URL)
-
Tokenisasi dan normalisasi teks
-
Bahasa Indonesia dan multilingual preprocessor
Sesi 4: Exploratory Data Analysis (EDA)
-
Visualisasi data: wordcloud, distribusi label
-
Analisis frekuensi kata per bahasa
-
Deteksi bahasa otomatis
Sesi 5: Dasar Analisis Sentimen Konvensional
-
Sentiment analysis dengan TextBlob dan SentiStrength (bahasa Inggris & Indonesia)
-
Kelebihan dan kekurangan metode lexicon-based
🔹 Fase 2: Penerapan Transformer Multilingual (Sesi 6–12)
Sesi 6: Pengenalan Transformer dan BERT
-
Arsitektur Transformer dan konsep Attention
-
BERT dan varian multilingual (mBERT, XLM-RoBERTa)
-
Hugging Face Transformers library
Sesi 7: Tokenisasi dan Encoding dengan Transformers
-
Tokenizer multilingual
-
Padding, truncation, dan encoding input text
Sesi 8: Fine-tuning mBERT untuk Analisis Sentimen
-
Membuat dataset label sentimen (positive, neutral, negative)
-
Struktur input/output model
-
Fine-tuning dengan PyTorch atau TensorFlow
Sesi 9: Training dan Evaluasi Model
-
Training loop dan loss function
-
Evaluasi model (accuracy, F1-score, confusion matrix)
-
Validasi silang (cross-validation)
Sesi 10: Penerapan XLM-RoBERTa untuk Perbandingan
-
Instalasi dan setup model XLM-R
-
Training dan evaluasi model XLM-R vs mBERT
-
Visualisasi hasil klasifikasi
Sesi 11: Penanganan Ketidakseimbangan Data
-
Analisis distribusi label
-
Teknik oversampling dan undersampling (SMOTE, class weight)
Sesi 12: Penggunaan Model Pretrained (Zero-shot Classification)
-
Zero-shot sentiment classification dengan
pipeline()
dari HuggingFace -
Evaluasi hasil pada bahasa minoritas
🔹 Fase 3: Evaluasi, Integrasi, dan Deployment (Sesi 13–20)
Sesi 13: Error Analysis dan Model Tuning
-
Identifikasi kesalahan klasifikasi
-
Tuning hyperparameter: learning rate, batch size, epoch
-
Optimizer dan scheduler
Sesi 14: Evaluasi Multibahasa
-
Performa model berdasarkan bahasa (ID, EN, JP, dll.)
-
Perbandingan performa antar model
Sesi 15: Visualisasi Hasil Model
-
T-SNE dan PCA untuk embedding visual
-
Interpretasi hasil dan interaksi antar bahasa
Sesi 16: Explainable AI (XAI) untuk Transformer
-
Menggunakan
LIME
danSHAP
untuk interpretasi hasil model -
Visualisasi kata penting dalam prediksi
Sesi 17: Integrasi Model ke Aplikasi Streamlit
-
Membangun antarmuka sederhana dengan Streamlit
-
Input teks, deteksi bahasa, dan prediksi sentimen
Sesi 18: Analisis Sentimen Real-Time dengan Twitter Streaming API
-
Streaming tweet real-time
-
Prediksi dan update hasil sentimen secara langsung
Sesi 19: Deployment ke Cloud (Hugging Face Space / Gradio / Heroku)
-
Menyiapkan model untuk deployment
-
Membuat endpoint dan testing aplikasi live
Sesi 20: Review, Diskusi & Presentasi Proyek Akhir
-
Evaluasi keseluruhan proyek
-
Saran pengembangan lebih lanjut (multi-label, emotion detection)
-
Presentasi hasil masing-masing peserta