Kursus/Pelatihan Data Science ~ Penerapan PCA (Principal Component Analysis) untuk Reduksi Dimensi Data Kesehatan

Berikut adalah silabus lengkap 20 sesi @1,5 jam untuk topik:
“Penerapan PCA (Principal Component Analysis) untuk Reduksi Dimensi Data Kesehatan”
Cocok untuk skripsi, pelatihan, atau pembelajaran mandiri berbasis Python dan dataset kesehatan.
🧠Tujuan Umum:
Memahami konsep dan implementasi Principal Component Analysis (PCA) untuk reduksi dimensi dalam data kesehatan, serta mengintegrasikan hasil PCA dalam analisis lebih lanjut seperti klasifikasi, visualisasi, atau diagnosis.
📚 Silabus 20 Sesi (masing-masing 1,5 jam)
🔹 Sesi 1 – Pengenalan Data Science di Bidang Kesehatan
-
Apa itu data science?
-
Peran data science dalam bidang kesehatan
-
Contoh kasus nyata: prediksi penyakit, klasifikasi hasil lab
🔹 Sesi 2 – Konsep Dasar Reduksi Dimensi
-
Pengertian dimensi dan curse of dimensionality
-
Mengapa reduksi dimensi penting?
-
Teknik reduksi dimensi: PCA vs LDA vs Autoencoder (overview)
🔹 Sesi 3 – Pengenalan PCA
-
Konsep statistik PCA (varians, kovarians)
-
Apa yang dilakukan PCA pada data?
-
Studi kasus sederhana (2D visualisasi PCA)
🔹 Sesi 4 – Instalasi dan Persiapan Tools
-
Instalasi Python, Jupyter, Pandas, Scikit-learn, Matplotlib
-
Review dasar-dasar Python (opsional untuk peserta baru)
-
Setup dataset kesehatan (misalnya: dataset diabetes, kanker, jantung)
🔹 Sesi 5 – Pembersihan dan Eksplorasi Data Kesehatan
-
Memahami dataset: fitur, target, outlier
-
Data wrangling: missing value, encoding
-
Statistik deskriptif dan visualisasi awal
🔹 Sesi 6 – Korelasi dan Multikolinearitas
-
Apa itu korelasi antar fitur?
-
Deteksi multikolinearitas
-
Analisis korelasi dan heatmap
🔹 Sesi 7 – Persiapan Data untuk PCA
-
Normalisasi dan standarisasi data
-
MinMaxScaler vs StandardScaler
-
Latihan transformasi data
🔹 Sesi 8 – Implementasi PCA Pertama
-
Langkah-langkah PCA manual dengan NumPy
-
Implementasi PCA dengan Scikit-learn
-
Visualisasi komponen utama
🔹 Sesi 9 – Interpretasi Hasil PCA
-
Variance explained ratio
-
Scree plot dan pemilihan jumlah komponen
-
Komponen utama sebagai fitur baru
🔹 Sesi 10 – Visualisasi 2D dan 3D dengan PCA
-
Visualisasi PCA 2D dan 3D
-
Warna berdasarkan label (sehat/sakit)
-
Plot interaktif dengan Plotly
🔹 Sesi 11 – PCA pada Dataset Diabetes
-
Penerapan PCA pada dataset diabetes
-
Komparasi model sebelum dan sesudah PCA
-
Evaluasi performa model
🔹 Sesi 12 – PCA pada Dataset Penyakit Jantung
-
Studi kasus klasifikasi penyakit jantung
-
Efek PCA terhadap akurasi model
-
Diskusi jumlah fitur optimal
🔹 Sesi 13 – PCA + KNN
-
Latihan klasifikasi menggunakan KNN
-
Performa model pada data asli vs data PCA
-
Confusion matrix dan akurasi
🔹 Sesi 14 – PCA + SVM
-
Latihan klasifikasi SVM dengan data PCA
-
Uji performa dan visualisasi decision boundary
-
Interpretasi hasil
🔹 Sesi 15 – PCA + Logistic Regression
-
Kombinasi PCA dengan regresi logistik
-
Evaluasi ROC-AUC dan precision-recall
-
Pemilihan jumlah komponen berdasarkan performa
🔹 Sesi 16 – Bandingkan PCA dengan Teknik Lain
-
Bandingkan PCA dengan SelectKBest, LDA
-
Kapan sebaiknya memilih PCA?
-
Analisis trade-off performa vs interpretabilitas
🔹 Sesi 17 – Evaluasi Proyek Mini
-
Membangun pipeline dari preprocessing → PCA → klasifikasi
-
Dataset bebas (penyakit ginjal, kanker, dll.)
-
Diskusi hasil dan evaluasi performa
🔹 Sesi 18 – Membuat Dashboard Analitik PCA
-
Visualisasi hasil PCA dengan Dash atau Streamlit
-
Antarmuka untuk pemilihan komponen
-
Visualisasi hasil klasifikasi
🔹 Sesi 19 – Optimasi dan Dokumentasi Proyek
-
Penulisan dokumentasi dan laporan analisis
-
Pembagian modul kode dan pipeline
-
Tips debugging dan validasi hasil
🔹 Sesi 20 – Presentasi dan Ujian Akhir
-
Presentasi proyek mini tiap peserta
-
Review pemahaman PCA dan aplikasinya
-
Diskusi terbuka & umpan balik