Problem Set: Ensemble Learning & Meta-Algorithms

Mata Pelajaran: IF3270 Pembelajaran Mesin

Estimasi Waktu: 90 menit

Total Nilai: 100 poin

Tujuan Pembelajaran

Setelah menyelesaikan problem set ini, mahasiswa diharapkan dapat:

Mengidentifikasi dan menjelaskan prinsip dasar ensemble learning, termasuk wisdom of the crowds dan dekomposisi bias-variance.
Membedakan mekanisme kerja, kelebihan, dan keterbatasan dari metode paralel (Bagging, Random Forest) dan metode sekuensial (AdaBoost, Gradient Boosting).
Mengaplikasikan proses inferensi dan agregasi dari berbagai skema ensemble (Majority Voting, Weighted Voting, Stacking) pada data numerik.
Menganalisis strategi penanganan overfitting dan data leakage dalam perancangan arsitektur heterogen (Stacking meta-learning).

Petunjuk Umum

Problem set ini terdiri dari 3 Bagian: Fundamental (I), Aplikasi (II), dan Lanjutan (III).
Bacalah setiap instruksi dengan teliti. Beberapa soal menuntut Anda untuk menunjukkan proses perhitungan (langkah demi langkah).
Untuk soal esai/analisis, berikan argumentasi teknis yang solid berdasarkan konsep pembelajaran mesin (hindari jawaban yang terlalu umum).

BAGIAN I: Soal Fundamental (30 poin)

Fokus: Recall dan Comprehension - Membangun fondasi pemahaman dasar

Soal 1. Evaluasi Konsep Dasar Ensemble (10 poin)

Tentukan apakah pernyataan berikut terkait prinsip dasar ensemble learning bernilai Benar atau Salah.


No	Pernyataan	Benar	Salah
1	Konsep wisdom of the crowd dalam ensemble akan efektif meskipun semua base learner memiliki tingkat kesalahan yang saling berkorelasi tinggi (kesalahan tumpang tindih).
2	Bootstrap sampling pada proses Bagging bertujuan untuk menciptakan variasi data latih guna menurunkan varians dari model secara keseluruhan.
3	Pada AdaBoost, sebuah weak learner yang memiliki tingkat error ( $ε_{t}$ ) sebesar 0.7 akan diberikan bobot ( $α_{t}$ ) yang tinggi karena model tersebut sangat membutuhkan perbaikan.
4	OOB (Out-of-Bag) error estimation memungkinkan model Random Forest untuk memperkirakan generalization error tanpa memerlukan dataset validasi yang terpisah.

Soal 2. Pemetaan Karakteristik Algoritma (10 poin)

Klasifikasikan karakteristik atau teknik berikut ini ke dalam algoritma Ensemble yang paling tepat. Berikan tanda centang ( $✓$ ) pada kolom yang sesuai (satu baris bisa memiliki lebih dari satu centang jika relevan).

No	Pernyataan/Karakteristik	Bagging	Random Forest	AdaBoost	XGBoost
1	Menggunakan random subspace (fitur acak) pada setiap split node.
2	Model dilatih untuk memprediksi residual (error) dari kombinasi model sebelumnya.
3	Mengubah distribusi data latih dengan meng-update probabilitas/bobot tiap instance secara sekuensial.
4	Dapat diproses secara komputasi paralel sepenuhnya (Homogeneous parallel ensemble).

Soal 3. Anatomi Random Forest (10 poin)

Jelaskan mekanisme Randomisasi Ganda untuk membentuk Model Diversity pada Random Forest:

[Komponen A - Level Data]: _____________
[Komponen B - Level Fitur]: _____________

BAGIAN II: Soal Aplikasi (40 poin)

Fokus: Application dan Analysis - Menerapkan konsep ke situasi komputasional

Soal 4. Studi Kasus Inferensi Multi-Model (20 poin)

Kasus: Diberikan sebuah model ensemble klasifikasi biner (kelas POSITIF atau NEGATIF) yang terdiri dari 3 base classifiers. Setiap base classifier memberikan prediksi berupa peluang kelas Positif. Pada saat inferensi untuk satu instance baru $X$ , diperoleh hasil sebagai berikut:


Base-classifier	Bobot Model (wt)	Prediksi (P(Pos))
Model 1	0.25	0.20
Model 2	0.45	0.75
Model 3	0.30	0.40

Catatan: Ambang batas klasifikasi kelas (threshold) adalah $> 0.5$ untuk kelas POSITIF.

Berdasarkan data di atas, tentukan hasil prediksi akhir untuk $X$ (apakah POSITIF atau NEGATIF) beserta nilai perhitungannya untuk skema berikut:

a. Bagging (menggunakan agregasi Majority Vote dari label kelas keras/hard voting)

b. Random Forest (menggunakan mean predicted class probabilities / soft voting)

c. Heterogeneous Ensemble (menggunakan kombinasi linear berbobot / weighted sum dari probabilitas)

d. Stacking (jika arsitektur Level 1 adalah Model 1 & 2, dan Level 2/Meta-learner adalah Model 3)

Soal 5. Komparasi Solusi Model (20 poin)

Anda bekerja sebagai Data Scientist untuk memprediksi fraud kartu kredit (data sangat tidak seimbang/imbalanced, fitur berdimensi sangat tinggi). Anda sedang mempertimbangkan antara Random Forest dan XGBoost. Lengkapi tabel komparatif berikut untuk melakukan justifikasi.


Metode/Konsep	Penanganan Imbalance Class secara alami	Kecepatan/Paralelisasi Training	Justifikasi Pemilihan untuk Kasus Ini
Random Forest
XGBoost

BAGIAN III: Soal Lanjutan (30 poin)

Fokus: Synthesis dan Evaluation - Integrasi konsep dan arsitektur

Soal 6. Merancang Arsitektur Stacking yang Kuat (30 poin)

Kasus: Anda merancang Heterogeneous Parallel Ensemble menggunakan teknik Stacking. Sebagai Base Learners (Level-1), Anda menggunakan SVM, K-Nearest Neighbors, dan Multi-Layer Perceptron (MLP). Sebagai Meta-Learner (Level-2), Anda menggunakan Logistic Regression.

Saat mengevaluasi model pada data latih, akurasinya mencapai 99%, namun saat diuji pada test set, akurasinya anjlok menjadi 65%. Anda mencurigai terjadinya Data Leakage pada tahap pembuatan Level-one dataset.

Evaluasi masalah tersebut dan selesaikan menggunakan scaffolding berikut:


Langkah	Instruksi	Jawaban / Analisis
a. Identifikasi	Jelaskan secara spesifik bagaimana data leakage dapat terjadi dalam proses ekstraksi prediksi dari Base Learners ke Meta-Learner jika Anda hanya melakukan `.fit()` dan `.predict()` pada set data latih yang sama.
b. Solusi	Rancang dan jelaskan prosedur k-fold cross-validation blending yang benar untuk membangun Level-one dataset tanpa membocorkan data target.
c. Justifikasi Meta-Learner	Mengapa Logistic Regression sering direkomendasikan sebagai Meta-Learner alih-alih algoritma yang sangat kompleks (seperti Deep Neural Network berukuran besar)? Hubungkan dengan Bias-Variance tradeoff.

Kunci Jawaban & Rubrik Penilaian

Bagian I (Total: 30 Poin)

Soal 1. Evaluasi Konsep Dasar (10 poin - @2.5 poin)

Salah. (Rasional: Wisdom of the crowd bergantung pada independensi dan keragaman model. Jika kesalahan tumpang tindih / korelasi tinggi, maka ansambel akan mengulangi kesalahan yang sama).
Benar. (Rasional: Bootstrap sampling menciptakan variasi data untuk melatih base learner secara independen, menurunkan varians total).
Salah. (Rasional: Pada AdaBoost, jika error > 0.5, performa lebih buruk dari acak, $α_{t}$ akan bernilai negatif, dan algoritma biasanya membatalkan/mengabaikan learner tersebut).
Benar. (Rasional: Out-of-Bag menggunakan sampel data (~37%) yang tidak terambil dalam bootstrap sebagai representasi tak bias untuk validasi).

Soal 2. Pemetaan Karakteristik (10 poin - @2.5 poin per baris sempurna)

Random Forest
Gradient Boosting, XGBoost (keduanya menggunakan residual-based additive modeling)
AdaBoost
Bagging, Random Forest

Soal 3. Anatomi Random Forest (10 poin)

[Komponen A - Level Data]: Bootstrap Sampling (Sampling dengan pengembalian pada data baris/observasi, menciptakan dataset bervariasi untuk tiap pohon). [5 poin]
[Komponen B - Level Fitur]: Random Subspace / Feature Randomization (Pada setiap split/node pohon, pemilihan fitur hanya dibatasi pada subset acak dari total fitur, bukan seluruh fitur). [5 poin]

Bagian II (Total: 40 Poin)

Soal 4. Studi Kasus Inferensi Multi-Model (20 poin - @5 poin)

Langkah awal: Konversi probabilitas ke Kelas berdasarkan Threshold > 0.5

Model 1: 0.20 → Negatif
Model 2: 0.75 → Positif
Model 3: 0.40 → Negatif

a. Bagging (Majority Vote dari label)

Suara Positif: 1 (Model 2)
Suara Negatif: 2 (Model 1, Model 3)
Hasil: Mayoritas = NEGATIF

b. Random Forest (Mean Predicted Class Probabilities)

Rata-rata peluang = $(0.20 + 0.75 + 0.40) /3 = 1.35/3 = 0.45$
Karena $0.45 \leq 0.5$ , maka Hasil: NEGATIF

c. Heterogeneous Ensemble (Weighted Voting / Kombinasi Linear)

Perhitungan: $\sum (w_{t} \cdot P_{t}) = (0.25 \cdot 0.20) + (0.45 \cdot 0.75) + (0.30 \cdot 0.40)$
$= 0.05 + 0.3375 + 0.12 = 0.5075$
Karena $0.5075 > 0.5$ , maka Hasil: POSITIF

d. Stacking (Level 2/Meta-learner = Model 3)

Pada inferensi stacking, prediksi akhir 100% ditentukan oleh keluaran dari meta-learner (Level 2).
Karena meta-learner adalah Model 3 dan prediksinya adalah 0.40 (Negatif), maka Hasil: NEGATIF

Soal 5. Komparasi Solusi Model (20 poin)

Penilaian berfokus pada ketepatan analisis komparatif.

Random Forest:
- Imbalance: Tidak menangani imbalance secara alami (meskipun bisa diakali dengan class weighting). Cenderung bias ke kelas mayoritas. [3 poin]
- Kecepatan: Sangat cepat dan embarrassingly parallel karena tiap pohon dibangun secara independen. [3 poin]
XGBoost:
- Imbalance: Sangat baik, karena secara sekuensial akan memberi fokus (lewat gradien/Hessian) pada observasi minoritas yang memiliki residual tinggi karena sering salah diprediksi. [4 poin]
- Kecepatan: Secara konseptual sekuensial (pohon berikutnya bergantung pada sebelumnya), namun XGBoost mengimplementasikan Histogram-based splitting dan paralelisasi di level penentuan node split, membuatnya kompetitif. [4 poin]
Justifikasi (6 poin): XGBoost lebih direkomendasikan untuk kasus fraud karena kemampuan optimasi second-order-nya secara alami fokus pada presisi klasifikasi pada error/residual tinggi (seperti kelas fraud yang minoritas), dan regularization term-nya mencegah overfitting pada data berdimensi tinggi.

Bagian III (Total: 30 Poin)

Soal 6. Merancang Arsitektur Stacking yang Kuat (30 poin - @10 poin)


Langkah	Analisis yang Diharapkan (Kunci Jawaban & Rubrik)
a. Identifikasi	Data Leakage terjadi karena base learners dilatih di data $X$ dan langsung melakukan prediksi pada data $X$ yang sama untuk melatih meta-learner. Karena base learner telah “melihat” $X$ saat training, prediksinya sangat optimistik (terutama MLP/KNN yang mudah overfit). Meta-learner akhirnya belajar dari prediksi overfit tersebut (belajar dari noise data latih, bukan generalisasinya). (Rubrik: 10 poin jika menjelaskan konsep prediksi pada data yang sudah dilihat oleh model / optimisme bias).
b. Solusi	Solusinya adalah k-fold cross-validation blending. Data latih dibagi $K$ fold. Base learner dilatih pada $K - 1$ fold, lalu memprediksi 1 fold tersisa (out-of-fold). Proses ini diulang $K$ kali hingga semua observasi memiliki out-of-fold prediction. Prediksi gabungan inilah yang menjadi Level-one dataset bagi Meta-learner, sehingga Meta-learner dipastikan belajar dari output data yang unseen oleh base learner. (Rubrik: 10 poin jika menjabarkan siklus training out-of-fold secara logis).
c. Justifikasi Meta-Learner	Meta-learner seperti Logistic Regression adalah model yang sangat sederhana (Bias tinggi, Varians rendah). Base learners di level 1 (MLP, KNN) sudah sangat kompleks (menangkap non-linearitas tingkat tinggi). Jika meta-learner juga kompleks, model ansambel keseluruhan akan memiliki total varians yang ekstrim dan langsung overfit. Regresi Logistik mengkombinasikan prediktor dengan linear bounds yang menekan varians (bertindak sebagai regularisator). (Rubrik: 10 poin jika mengaitkan kompleksitas base learner vs kesederhanaan meta learner melalui dekomposisi Bias-Varians).

Tips Pengerjaan untuk Peserta

Bagian I: Pahami betul terminologi. Ingat perbedaan utama metode Paralel (mengurangi Varians) vs metode Sekuensial (mengurangi Bias).
Bagian II: Pada saat menghitung agregasi voting, selalu perhatikan tipe thresholding-nya. Perhitungan linier harus teliti, terutama saat menjumlahkan probabilitas dikalikan bobot.
Bagian III: Saat membahas konsep Meta-Learning, pikirkan proses ini sebagai sistem “dua tahap”. Pastikan Anda bisa membayangkan pipeline pergerakan matriks data dari Level 1 menuju Level 2 agar terhindar dari bias desain arsitektur.

IF Notes

Explorer

Latihan Soal Ensemble Learning I