Programming

Kursus/Pelatihan Data Science ~ Analisis Sentimen Multibahasa pada Twitter Menggunakan Transformer Multilingual

Berikut adalah silabus 20 sesi (masing-masing 1,5 jam) untuk kursus atau penelitian berjudul:
“Analisis Sentimen Multibahasa pada Twitter Menggunakan Transformer Multilingual”, dengan fokus pada Natural Language Processing (NLP) menggunakan Python dan model seperti mBERT atau XLM-RoBERTa.


🗂️ Silabus 20x Sesi (1,5 jam per sesi)

🔹 Fase 1: Dasar-Dasar NLP dan Sentiment Analysis (Sesi 1–5)

Sesi 1: Pengenalan NLP dan Analisis Sentimen

  • Definisi NLP, Sentiment Analysis, dan aplikasinya

  • Tantangan dalam analisis sentimen multibahasa

  • Tools dan pustaka Python yang digunakan (NLTK, Hugging Face, Transformers)

Sesi 2: Pengenalan Twitter API dan Data Crawling

  • Mendaftar dan menggunakan Twitter API v2

  • Crawling tweet multibahasa dengan tweepy / snscrape

  • Penyimpanan data dalam CSV/JSON

Sesi 3: Preprocessing Data Teks Multibahasa

  • Cleaning tweet (stopwords, hashtags, emojis, URL)

  • Tokenisasi dan normalisasi teks

  • Bahasa Indonesia dan multilingual preprocessor

Sesi 4: Exploratory Data Analysis (EDA)

  • Visualisasi data: wordcloud, distribusi label

  • Analisis frekuensi kata per bahasa

  • Deteksi bahasa otomatis

Sesi 5: Dasar Analisis Sentimen Konvensional

  • Sentiment analysis dengan TextBlob dan SentiStrength (bahasa Inggris & Indonesia)

  • Kelebihan dan kekurangan metode lexicon-based


🔹 Fase 2: Penerapan Transformer Multilingual (Sesi 6–12)

Sesi 6: Pengenalan Transformer dan BERT

  • Arsitektur Transformer dan konsep Attention

  • BERT dan varian multilingual (mBERT, XLM-RoBERTa)

  • Hugging Face Transformers library

Sesi 7: Tokenisasi dan Encoding dengan Transformers

  • Tokenizer multilingual

  • Padding, truncation, dan encoding input text

Sesi 8: Fine-tuning mBERT untuk Analisis Sentimen

  • Membuat dataset label sentimen (positive, neutral, negative)

  • Struktur input/output model

  • Fine-tuning dengan PyTorch atau TensorFlow

Sesi 9: Training dan Evaluasi Model

  • Training loop dan loss function

  • Evaluasi model (accuracy, F1-score, confusion matrix)

  • Validasi silang (cross-validation)

Sesi 10: Penerapan XLM-RoBERTa untuk Perbandingan

  • Instalasi dan setup model XLM-R

  • Training dan evaluasi model XLM-R vs mBERT

  • Visualisasi hasil klasifikasi

Sesi 11: Penanganan Ketidakseimbangan Data

  • Analisis distribusi label

  • Teknik oversampling dan undersampling (SMOTE, class weight)

Sesi 12: Penggunaan Model Pretrained (Zero-shot Classification)

  • Zero-shot sentiment classification dengan pipeline() dari HuggingFace

  • Evaluasi hasil pada bahasa minoritas


🔹 Fase 3: Evaluasi, Integrasi, dan Deployment (Sesi 13–20)

Sesi 13: Error Analysis dan Model Tuning

  • Identifikasi kesalahan klasifikasi

  • Tuning hyperparameter: learning rate, batch size, epoch

  • Optimizer dan scheduler

Sesi 14: Evaluasi Multibahasa

  • Performa model berdasarkan bahasa (ID, EN, JP, dll.)

  • Perbandingan performa antar model

Sesi 15: Visualisasi Hasil Model

  • T-SNE dan PCA untuk embedding visual

  • Interpretasi hasil dan interaksi antar bahasa

Sesi 16: Explainable AI (XAI) untuk Transformer

  • Menggunakan LIME dan SHAP untuk interpretasi hasil model

  • Visualisasi kata penting dalam prediksi

Sesi 17: Integrasi Model ke Aplikasi Streamlit

  • Membangun antarmuka sederhana dengan Streamlit

  • Input teks, deteksi bahasa, dan prediksi sentimen

Sesi 18: Analisis Sentimen Real-Time dengan Twitter Streaming API

  • Streaming tweet real-time

  • Prediksi dan update hasil sentimen secara langsung

Sesi 19: Deployment ke Cloud (Hugging Face Space / Gradio / Heroku)

  • Menyiapkan model untuk deployment

  • Membuat endpoint dan testing aplikasi live

Sesi 20: Review, Diskusi & Presentasi Proyek Akhir

  • Evaluasi keseluruhan proyek

  • Saran pengembangan lebih lanjut (multi-label, emotion detection)

  • Presentasi hasil masing-masing peserta

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button