Adaptive Boosting (AdaBoost) - Sequential Weak Learner Fusion via Instance Weighting

Back to IF3270 Pembelajaran Mesin

AdaBoost: Perbandingan Freund & Schapire / Kunapuli vs Han & Kamber

Questions/Cues

Mengapa contoh yang salah diberi bobot lebih tinggi?

Bagaimana cara menghitung bobot model $α_{t}$ pada tiap iterasi?

Apa perbedaan rumus $α_{t}$ antara Kunapuli dan Han & Kamber?

Bagaimana cara kerja inferensi di masing-masing versi?

Apa yang terjadi bila $ε_{t} > 0.5$ di kedua versi?

Reference Points

Kunapuli, G. (2023). Ensemble methods for machine learning (Halaman 38–44)

Han, J., Pei, J., & Tong, H. (2022). Data mining: concepts and techniques (Halaman 38–43)

Prinsip Dasar AdaBoost

AdaBoost (Adaptive Boosting) adalah metode ensemble sekuensial yang menggabungkan sejumlah weak learner menjadi satu strong learner. Berbeda dengan Bagging dan Random Forest yang melatih model secara paralel, AdaBoost melatih model satu per satu — setiap model berikutnya berfokus pada kesalahan model sebelumnya.

Cara AdaBoost “fokus pada kesalahan” adalah dengan memaintain distribusi bobot $D_{t} (i)$ untuk setiap instance data. Instance yang salah diklasifikasi akan diberi bobot lebih tinggi, sehingga weak learner berikutnya lebih memperhatikannya. Bobot ini selalu memenuhi $\sum_{i} D_{t} (i) = 1$ sehingga dapat diperlakukan sebagai probabilitas.

Weak learner yang dipakai biasanya sangat sederhana, misalnya decision stump (Decision Tree dengan kedalaman 1). Kesederhanaan ini disengaja — bias tinggi tapi varians rendah — sehingga ketika digabungkan, bias total berkurang tanpa meningkatkan varians secara berlebihan.

Training: Freund & Schapire / Kunapuli (2023)

Inisialisasi bobot: $D_{i}^{(1)} = 1/ N$ (semua instance sama rata)

Untuk setiap iterasi $t$ :

Latih weak learner $h_{t}$ menggunakan weighted dataset $⟨ x_{i}, y_{i}, D_{i} ⟩$

Hitung training error:

$ε_{t} = \sum_{i :, h_{t} (x_{i}) \neq = y_{i}} D_{i}^{(t)}$

Hitung bobot model ( $α_{t}$ besar jika error kecil):

$α_{t} = \frac{1}{2} ln (\frac{1 - ε _{t}}{ε _{t}})$

Update instance weights:

Benar: $D_{i}^{(t + 1)} = D_{i}^{(t)} / e^{α_{t}}$ → bobot turun

Salah: $D_{i}^{(t + 1)} = D_{i}^{(t)} \cdot e^{α_{t}}$ → bobot naik

Normalisasi bobot: $\sum_{i} D_{i}^{(t + 1)} = 1$

Jika $ε_{t} > 0.5$ → weak learner dibatalkan

Training: Han & Kamber (2022)

Inisialisasi bobot: $w_{i} = 1/ N$

Untuk setiap iterasi $t$ :

Sample dataset berdasarkan distribusi bobot saat ini (berbeda dari Kunapuli yang langsung pakai weighted dataset)

Latih weak learner $h_{t}$ dari sample tersebut

Hitung error: $ε_{t} = \sum_{i} w_{i} \cdot 1 [h_{t} (x_{i}) \neq = y_{i}]$

Jika $ε_{t} > 0.5$ → reset bobot, ulangi iterasi (berbeda dari Kunapuli yang langsung batalkan)

Hitung bobot model ( $α_{t}$ kecil jika model bagus — interpretasi terbalik):

$α_{t} = \frac{ε _{t}}{1 - ε _{t}}$

Update instance weights:

Benar: $w_{i} \leftarrow w_{i} \cdot α_{t}$ → bobot turun (karena $α_{t} < 1$ )

Salah: bobot tetap

Normalisasi bobot

Inferensi

Freund & Schapire / Kunapuli:

$\overset{y}{^} = sign (\sum_{t = 1}^{T} α_{t} \cdot h_{t} (x))$

Setiap weak learner memberikan vote $- 1, + 1$ , dikali $α_{t}$ , lalu dijumlahkan. Tanda dari total menentukan kelas akhir. Karena $α_{t}$ logaritmik terhadap rasio error, model dengan error kecil berkontribusi dominan.

Han & Kamber:

$\overset{y}{^} = ar g max_{c} \sum_{t :, h_{t} (x) = c} ln \frac{1}{α _{t}}$

Tiap model vote kelas, dikali $ln (1/ α_{t})$ . Karena di Han & Kamber $α_{t}$ kecil = model bagus, maka $lo g (1/ α_{t})$ besar = kontribusi lebih besar. Logika sama, notasi terbalik.

Contoh praktis (Kunapuli): Tiga weak learner menghasilkan output $[+ 1, - 1, + 1]$ dengan bobot $[α_{1} = 0.8, α_{2} = 0.2, α_{3} = 0.5]$ . Penjumlahan: $0.8 (+ 1) + 0.2 (- 1) + 0.5 (+ 1) = 1.1 > 0$ , sehingga prediksi akhir adalah kelas $+ 1$ .

Perbandingan Ringkas

Freund & Schapire / Kunapuli Han & Kamber
Input model Weighted dataset langsung Sample berdasarkan bobot
Rumus $α_{t}$ $\frac{1}{2} ln \frac{1 - ε}{ε}$ $\frac{ε}{1 - ε}$
Interpretasi $α_{t}$ Besar = model bagus Kecil = model bagus
Update bobot Salah naik, benar turun Benar turun, salah tetap
Jika $ε_{t} > 0.5$ Weak learner dibatalkan Reset bobot, ulangi
Inferensi $sign (\sum α_{t} h_{t})$ $ar g max \sum ln (1/ α_{t})$

Kelebihan dan Keterbatasan AdaBoost

Kelebihan utama AdaBoost meliputi:

Tidak memerlukan penyesuaian parameter yang rumit; hanya jumlah iterasi dan jenis weak learner yang perlu dipilih.

Kemampuan adaptif yang kuat dalam menangani data tidak seimbang, karena contoh‑contoh minoritas yang sering salah akan secara otomatis memperoleh bobot lebih tinggi.

Teori margin yang menunjukkan bahwa peningkatan margin (jarak antara contoh yang benar dan keputusan) berhubungan langsung dengan generalisasi yang lebih baik.

Keterbatasan yang perlu diwaspadai:

Sensitivitas terhadap noise: Jika data mengandung banyak label yang salah, bobot pada contoh‑contoh noisy akan terus meningkat, menyebabkan overfitting.

Kebutuhan weak learner yang sedikit lebih baik dari acak; bila weak learner tidak dapat mencapai error < 0,5, algoritma akan gagal.

Kompleksitas komputasi meningkat seiring jumlah iterasi, terutama bila dataset besar dan weak learner tidak trivial.

	Freund & Schapire / Kunapuli	Han & Kamber
Input model	Weighted dataset langsung	Sample berdasarkan bobot
Rumus $α_{t}$	$\frac{1}{2} ln \frac{1 - ε}{ε}$	$\frac{ε}{1 - ε}$
Interpretasi $α_{t}$	Besar = model bagus	Kecil = model bagus
Update bobot	Salah naik, benar turun	Benar turun, salah tetap
Jika $ε_{t} > 0.5$	Weak learner dibatalkan	Reset bobot, ulangi
Inferensi	$sign (\sum α_{t} h_{t})$	$ar g max \sum ln (1/ α_{t})$

Summary

AdaBoost membangun strong learner secara sekuensial dengan memberi bobot lebih tinggi pada instance yang salah di setiap iterasi. Versi Kunapuli/Freund & Schapire menggunakan weighted dataset langsung dengan $α_{t} = \frac{1}{2} ln \frac{1 - ε}{ε}$ (besar = bagus), sementara Han & Kamber melakukan sampling terlebih dahulu dengan $α_{t} = \frac{ε}{1 - ε}$ (kecil = bagus). Keduanya mencapai tujuan yang sama — model dengan error kecil berkontribusi lebih besar pada prediksi akhir — hanya dengan jalur dan notasi yang berbeda.

Additional Information

Formal Derivation of Weight Update

Dari perspektif optimisasi fungsi loss eksponensial, AdaBoost dapat diturunkan dengan meminimalkan:
$L = i = 1 \sum N exp (- y_{i} F_{t - 1} (x_{i}))$
di mana $F_{t - 1} (x) = \sum_{k = 1}^{t - 1} α_{k} h_{k} (x)$ adalah model gabungan hingga iterasi $t - 1$ . Menambahkan weak learner baru $h_{t}$ dengan bobot $α_{t}$ menghasilkan fungsi loss baru:
$L^{'} = i = 1 \sum N exp (- y_{i} (F_{t - 1} (x_{i}) + α_{t} h_{t} (x_{i})))$
Mengoptimalkan $L^{'}$ terhadap $α_{t}$ dengan menurunkan turunan pertama dan menyamakan dengan nol menghasilkan persamaan:
$α_{t} = \frac{1}{2} ln (\frac{1 - ε _{t}}{ε _{t}})$
di mana $ε_{t}$ adalah error terberat pada distribusi bobot $D_{t}$ . Pembaruan distribusi bobot $D_{t + 1}$ muncul secara alami dari normalisasi faktor $Z_{t}$ yang memastikan bahwa $L^{'}$ diminimalkan pada setiap langkah. Derivasi ini menegaskan bahwa AdaBoost secara implisit melakukan gradient descent pada loss eksponensial, meskipun tidak secara eksplisit menyebutkan gradien.

Statistik View: AdaBoost sebagai Additive Logistic Regression

Friedman, Hastie, dan Tibshirani (2000) menunjukkan bahwa AdaBoost dapat dipandang sebagai regresi logistik aditif. Jika kita mengubah label menjadi ${0, 1}$ dan mendefinisikan fungsi margin $m_{i} = y_{i} F_{T} (x_{i})$ , maka probabilitas kelas positif dapat dituliskan sebagai:
$P (y_{i} = 1 ∣ x_{i}) = \frac{1}{1 + exp ( - 2 m _{i} )}$
Dengan menambahkan weak learner secara bertahap, algoritma memaksimalkan likelihood logistik secara additive. Pendekatan ini menjelaskan mengapa margin yang lebih besar (nilai $m_{i}$ jauh dari nol) berhubungan dengan generalization error yang lebih rendah. Margin theory, yang dipelopori oleh Schapire et al., menyatakan bahwa probabilitas kesalahan pada data tak terlihat dapat dibatasi oleh distribusi margin pada data pelatihan, memberikan landasan teoretis kuat bagi keefektifan AdaBoost.

Generalisasi dan Margin Theory

Salah satu kontribusi paling signifikan dalam literatur AdaBoost adalah teori margin.

IF Notes

Explorer

Adaptive Boosting (AdaBoost) - Sequential Weak Learner Fusion via Instance Weighting

Questions/Cues

Reference Points

Prinsip Dasar AdaBoost

Training: Freund & Schapire / Kunapuli (2023)

Training: Han & Kamber (2022)

Inferensi

Perbandingan Ringkas

Kelebihan dan Keterbatasan AdaBoost

Formal Derivation of Weight Update

Statistik View: AdaBoost sebagai Additive Logistic Regression

Generalisasi dan Margin Theory

Graph View

Table of Contents

Backlinks