Kursus Skripsi Tesis Disertasi Data Science ~ Prediksi Kelulusan Mahasiswa Menggunakan Algoritma Decision Tree
Berikut silabus 20 sesi × 1,5 jam untuk topik:
“Prediksi Kelulusan Mahasiswa Menggunakan Algoritma Decision Tree dengan Python”
Sesi 1: Pendahuluan Data Science & Proyek Prediksi
Menjelaskan konsep dasar data science, supervised learning, dan bagaimana algoritma digunakan untuk prediksi kelulusan mahasiswa.
Sesi 2: Pengenalan Python untuk Data Science
Pengenalan dasar Python: variabel, tipe data, fungsi, dan instalasi pustaka penting seperti pandas, numpy, dan matplotlib.
Sesi 3: Import Dataset dan Eksplorasi Data Awal
Mengimpor dataset mahasiswa (dalam format CSV atau Excel), melihat struktur data, dan mengenali fitur-fitur yang tersedia.
Sesi 4: Data Cleaning
Membersihkan data dari nilai kosong (missing values), data duplikat, dan outlier. Normalisasi awal data dilakukan jika diperlukan.
Sesi 5: Visualisasi Data dan EDA (Exploratory Data Analysis)
Menggunakan matplotlib dan seaborn untuk membuat grafik, diagram batang, boxplot, dan heatmap guna memahami pola hubungan antar fitur.
Sesi 6: Feature Engineering
Mengolah fitur seperti konversi nilai kategorik menjadi numerik (menggunakan LabelEncoder atau OneHotEncoder), serta membuat fitur baru yang relevan.
Sesi 7: Train-Test Split dan Normalisasi Data
Membagi data menjadi training dan testing set menggunakan train_test_split. Penjelasan pentingnya membedakan data latih dan data uji.
Sesi 8: Pengenalan Decision Tree
Teori tentang Decision Tree, cara kerja pemisahan node, konsep entropy, information gain, dan gini index.
Sesi 9: Implementasi Decision Tree
Membangun model Decision Tree pertama menggunakan scikit-learn dan melatih model pada data mahasiswa.
Sesi 10: Evaluasi Model – Akurasi dan Confusion Matrix
Menggunakan metrik evaluasi seperti accuracy, precision, recall, F1-score, dan confusion matrix untuk menilai performa model.
Sesi 11: Visualisasi Struktur Pohon Keputusan
Menampilkan struktur Decision Tree menggunakan plot_tree dan graphviz agar lebih mudah dipahami.
Sesi 12: Hyperparameter Tuning
Mengatur parameter penting seperti max_depth, min_samples_split, criterion, untuk meningkatkan performa model.
Sesi 13: Cross Validation
Mempelajari dan menerapkan K-Fold Cross Validation untuk menghindari overfitting dan meningkatkan validitas model.
Sesi 14: Penanganan Data Tidak Seimbang
Jika dataset memiliki kelas tidak seimbang (misalnya lebih banyak mahasiswa lulus dibanding tidak lulus), akan digunakan metode seperti SMOTE atau undersampling.
Sesi 15: Perbandingan dengan Algoritma Lain
Menguji performa Decision Tree dibandingkan dengan algoritma lain seperti Logistic Regression.
Sesi 16: Menyimpan dan Mengekspor Model
Menyimpan model dengan joblib atau pickle agar dapat digunakan kembali tanpa melatih ulang.
Sesi 17: Studi Kasus – Data Kelulusan Perguruan Tinggi
Menggunakan dataset dari universitas di Indonesia (bisa dummy), melakukan analisis dan prediksi secara menyeluruh.
Sesi 18: Pembuatan Aplikasi Prediksi Sederhana
Membuat aplikasi berbasis antarmuka menggunakan Streamlit untuk menampilkan hasil prediksi kelulusan secara interaktif.
Sesi 19: Evaluasi Proyek dan Interpretasi Hasil
Menarik kesimpulan dari hasil prediksi model dan membahas implementasinya sebagai alat bantu monitoring akademik.
Sesi 20: Presentasi dan Ujian Proyek
Peserta mempresentasikan proyek akhir berupa sistem prediksi kelulusan mahasiswa berbasis Python dan Decision Tree.



