Programming

Kursus/Pelatihan Data Science ~ Integrasi Python dan BigQuery untuk Analisis Data Big Data Real-Time

Berikut adalah silabus 20 sesi (masing-masing 1,5 jam) untuk kursus “Integrasi Python dan BigQuery untuk Analisis Data Big Data Real-Time”. Silabus ini dirancang untuk peserta yang sudah menguasai Python dasar dan ingin mendalami integrasi BigQuery untuk analisis data skala besar dan real-time.


📘 Silabus 20 Sesi – Integrasi Python dan BigQuery untuk Analisis Data Big Data Real-Time

📌 MODUL 1: Pengantar Big Data & BigQuery


🟢 Sesi 1: Pengenalan Big Data dan BigQuery

  • Konsep Big Data dan kebutuhan akan BigQuery

  • Arsitektur dan kelebihan Google BigQuery

  • Use case real-world: BigQuery di industri

🟢 Sesi 2: Arsitektur Google Cloud Platform (GCP)

  • Komponen GCP yang mendukung BigQuery

  • IAM & Billing (akses pengguna dan manajemen proyek)

  • Setup akun GCP & proyek

🟢 Sesi 3: Dasar-Dasar SQL di BigQuery

  • Format dataset, tabel, dan skema

  • Dasar SQL: SELECT, WHERE, GROUP BY, JOIN

  • Query pada public dataset Google


📌 MODUL 2: Python untuk BigQuery


🟢 Sesi 4: Instalasi dan Setup Python Environment

  • Google Cloud SDK

  • Instalasi google-cloud-bigquery

  • Autentikasi ke GCP (service account / key file)

🟢 Sesi 5: Koneksi BigQuery dengan Python

  • Membuat koneksi dan client BigQuery dengan Python

  • Query sederhana dari Python

  • Menampilkan hasil dalam DataFrame (pandas)

🟢 Sesi 6: Query Lanjutan dan Fungsi Agregasi

  • Fungsi agregasi: COUNT, SUM, AVG, MAX, MIN

  • Subquery dan nested query

  • Eksekusi query kompleks dari Python

🟢 Sesi 7: Mengambil dan Menyimpan Data ke BigQuery

  • Menyimpan hasil query sebagai CSV/Excel

  • Menyimpan data hasil preprocessing ke BigQuery

  • Membuat tabel dan schema secara dinamis


📌 MODUL 3: Analisis Data Real-Time


🟢 Sesi 8: Konsep Analisis Data Real-Time di BigQuery

  • Streaming vs Batch Processing

  • Alur real-time analytics dengan BigQuery dan Pub/Sub

  • Studi kasus

🟢 Sesi 9: Integrasi Python dengan BigQuery Streaming API

  • Menyisipkan data real-time via Python

  • Simulasi data streaming (misalnya dari sensor/IoT/logs)

  • Validasi data masuk ke BigQuery

🟢 Sesi 10: Penggunaan Google Cloud Pub/Sub (opsional)

  • Konsep Pub/Sub untuk real-time pipeline

  • Menghubungkan Pub/Sub dengan BigQuery

  • Simulasi pengiriman data dari Python


📌 MODUL 4: Data Visualization dan Exploratory Data Analysis


🟢 Sesi 11: Visualisasi Data dengan Pandas dan Matplotlib

  • Menampilkan hasil query sebagai grafik

  • Pie chart, bar chart, line chart dari hasil BigQuery

  • Penggunaan seaborn untuk visualisasi eksploratif

🟢 Sesi 12: Integrasi Python dengan Google Data Studio / Looker Studio

  • Menghubungkan BigQuery ke Looker Studio

  • Menyusun dashboard untuk hasil query real-time

  • Sharing & embedding dashboard


📌 MODUL 5: Machine Learning dengan Data BigQuery


🟢 Sesi 13: Persiapan Data untuk Machine Learning

  • Data preprocessing dari BigQuery

  • Mengatur pipeline ETL: ambil, olah, latih model

  • Cleaning & feature engineering

🟢 Sesi 14: Pelatihan Model Machine Learning dengan Scikit-Learn

  • Linear regression, classification (logistic, random forest)

  • Latih model dari data BigQuery

  • Evaluasi model

🟢 Sesi 15: Deployment Model ML Sederhana (Opsional)

  • Simpan model dengan joblib

  • Prediksi real-time dari input baru

  • Integrasi hasil prediksi ke BigQuery


📌 MODUL 6: Proyek Mini & Studi Kasus


🟢 Sesi 16: Studi Kasus 1 – Analisis Penjualan Real-Time

  • Dataset penjualan (real-time atau simulasi)

  • Analisis tren, perilaku pelanggan, dan produk terlaris

🟢 Sesi 17: Studi Kasus 2 – Log Monitoring dan Deteksi Anomali

  • Dataset log/error

  • Deteksi lonjakan, pola aneh dengan Python + BigQuery

  • Alert sederhana dengan notifikasi Python

🟢 Sesi 18: Studi Kasus 3 – Analisis Media Sosial

  • Dataset Twitter (via API atau scraping)

  • Simpan dan analisis di BigQuery

  • Visualisasi topik & trending


📌 MODUL 7: Penutup dan Evaluasi


🟢 Sesi 19: Optimasi Query dan Biaya BigQuery

  • Tips mengurangi biaya eksekusi

  • Estimasi biaya kueri

  • Best practice pengelolaan data besar

🟢 Sesi 20: Presentasi Proyek Akhir + Uji Kompetensi

  • Setiap peserta mempresentasikan proyek integrasi Python + BigQuery

  • Penilaian: kualitas data, efisiensi query, analisis, dan visualisasi

  • Umpan balik dan rencana pengembangan lanjutan

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button