Kursus/Pelatihan Data Science ~ Integrasi Python dan BigQuery untuk Analisis Data Big Data Real-Time

Berikut adalah silabus 20 sesi (masing-masing 1,5 jam) untuk kursus “Integrasi Python dan BigQuery untuk Analisis Data Big Data Real-Time”. Silabus ini dirancang untuk peserta yang sudah menguasai Python dasar dan ingin mendalami integrasi BigQuery untuk analisis data skala besar dan real-time.
📘 Silabus 20 Sesi – Integrasi Python dan BigQuery untuk Analisis Data Big Data Real-Time
📌 MODUL 1: Pengantar Big Data & BigQuery
🟢 Sesi 1: Pengenalan Big Data dan BigQuery
-
Konsep Big Data dan kebutuhan akan BigQuery
-
Arsitektur dan kelebihan Google BigQuery
-
Use case real-world: BigQuery di industri
🟢 Sesi 2: Arsitektur Google Cloud Platform (GCP)
-
Komponen GCP yang mendukung BigQuery
-
IAM & Billing (akses pengguna dan manajemen proyek)
-
Setup akun GCP & proyek
🟢 Sesi 3: Dasar-Dasar SQL di BigQuery
-
Format dataset, tabel, dan skema
-
Dasar SQL: SELECT, WHERE, GROUP BY, JOIN
-
Query pada public dataset Google
📌 MODUL 2: Python untuk BigQuery
🟢 Sesi 4: Instalasi dan Setup Python Environment
-
Google Cloud SDK
-
Instalasi
google-cloud-bigquery
-
Autentikasi ke GCP (service account / key file)
🟢 Sesi 5: Koneksi BigQuery dengan Python
-
Membuat koneksi dan client BigQuery dengan Python
-
Query sederhana dari Python
-
Menampilkan hasil dalam DataFrame (pandas)
🟢 Sesi 6: Query Lanjutan dan Fungsi Agregasi
-
Fungsi agregasi: COUNT, SUM, AVG, MAX, MIN
-
Subquery dan nested query
-
Eksekusi query kompleks dari Python
🟢 Sesi 7: Mengambil dan Menyimpan Data ke BigQuery
-
Menyimpan hasil query sebagai CSV/Excel
-
Menyimpan data hasil preprocessing ke BigQuery
-
Membuat tabel dan schema secara dinamis
📌 MODUL 3: Analisis Data Real-Time
🟢 Sesi 8: Konsep Analisis Data Real-Time di BigQuery
-
Streaming vs Batch Processing
-
Alur real-time analytics dengan BigQuery dan Pub/Sub
-
Studi kasus
🟢 Sesi 9: Integrasi Python dengan BigQuery Streaming API
-
Menyisipkan data real-time via Python
-
Simulasi data streaming (misalnya dari sensor/IoT/logs)
-
Validasi data masuk ke BigQuery
🟢 Sesi 10: Penggunaan Google Cloud Pub/Sub (opsional)
-
Konsep Pub/Sub untuk real-time pipeline
-
Menghubungkan Pub/Sub dengan BigQuery
-
Simulasi pengiriman data dari Python
📌 MODUL 4: Data Visualization dan Exploratory Data Analysis
🟢 Sesi 11: Visualisasi Data dengan Pandas dan Matplotlib
-
Menampilkan hasil query sebagai grafik
-
Pie chart, bar chart, line chart dari hasil BigQuery
-
Penggunaan seaborn untuk visualisasi eksploratif
🟢 Sesi 12: Integrasi Python dengan Google Data Studio / Looker Studio
-
Menghubungkan BigQuery ke Looker Studio
-
Menyusun dashboard untuk hasil query real-time
-
Sharing & embedding dashboard
📌 MODUL 5: Machine Learning dengan Data BigQuery
🟢 Sesi 13: Persiapan Data untuk Machine Learning
-
Data preprocessing dari BigQuery
-
Mengatur pipeline ETL: ambil, olah, latih model
-
Cleaning & feature engineering
🟢 Sesi 14: Pelatihan Model Machine Learning dengan Scikit-Learn
-
Linear regression, classification (logistic, random forest)
-
Latih model dari data BigQuery
-
Evaluasi model
🟢 Sesi 15: Deployment Model ML Sederhana (Opsional)
-
Simpan model dengan
joblib
-
Prediksi real-time dari input baru
-
Integrasi hasil prediksi ke BigQuery
📌 MODUL 6: Proyek Mini & Studi Kasus
🟢 Sesi 16: Studi Kasus 1 – Analisis Penjualan Real-Time
-
Dataset penjualan (real-time atau simulasi)
-
Analisis tren, perilaku pelanggan, dan produk terlaris
🟢 Sesi 17: Studi Kasus 2 – Log Monitoring dan Deteksi Anomali
-
Dataset log/error
-
Deteksi lonjakan, pola aneh dengan Python + BigQuery
-
Alert sederhana dengan notifikasi Python
🟢 Sesi 18: Studi Kasus 3 – Analisis Media Sosial
-
Dataset Twitter (via API atau scraping)
-
Simpan dan analisis di BigQuery
-
Visualisasi topik & trending
📌 MODUL 7: Penutup dan Evaluasi
🟢 Sesi 19: Optimasi Query dan Biaya BigQuery
-
Tips mengurangi biaya eksekusi
-
Estimasi biaya kueri
-
Best practice pengelolaan data besar
🟢 Sesi 20: Presentasi Proyek Akhir + Uji Kompetensi
-
Setiap peserta mempresentasikan proyek integrasi Python + BigQuery
-
Penilaian: kualitas data, efisiensi query, analisis, dan visualisasi
-
Umpan balik dan rencana pengembangan lanjutan