Gradient Boosting and XGBoost - Residual‑Based Additive Modeling and Gradient‑Descent Optimization

Back to IF3270 Pembelajaran Mesin

Gradient Boosting and XGBoost: Residual‑Based Additive Modeling and Gradient‑Descent Optimization

Questions/Cues

Mengapa residual dipakai dalam Gradient Boosting?

Bagaimana proses pembaruan model pada tiap iterasi?

Apa peran learning rate (shrinkage) dalam XGBoost?

Bagaimana XGBoost menangani regularisasi pohon?

Apa perbedaan antara gradient boosting dan gradient descent klasik?

Bagaimana cara menghitung gradient untuk fungsi loss kuadrat?

Mengapa XGBoost disebut “extreme” dibandingkan gradient boosting standar?

Reference Points

Lecture_Ensemble_Methods.pdf (Pages 46‑64)

Kunapuli, G. (2023). Ensemble methods for machine learning (Pages 46‑64)

“Basic ensemble learning – gradient boosting” – Towards Data Science (Page 58)

“Gradient Boosting” – GeeksforGeeks (Page 59)

Gradient Boosting: Ide Dasar Additive Modeling

Gradient Boosting merupakan metode ensemble sekuensial yang membangun model kuat dengan menambahkan model lemah secara bertahap. Ide dasarnya adalah memperbaiki kesalahan (residual) yang masih tersisa setelah setiap iterasi. Pada iterasi ke‑ $t$ , model lemah $h_{t} (x)$ dilatih untuk memprediksi residual $r_{i}^{(t)} = y_{i} - \overset{y}{^}_{i}^{(t - 1)}$ dari model gabungan sebelumnya $\overset{y}{^}^{(t - 1)} (x) = \sum_{k = 0}^{t - 1} γ_{k} h_{k} (x)$ . Dengan cara ini, setiap model baru “mengisi lubang” yang belum terjangkau, sehingga fungsi prediksi akhir menjadi penjumlahan aditif dari semua model lemah.

Contoh konkret: misalkan kita memiliki data rumah dengan harga aktual $y$ dan prediksi awal $\overset{y}{^}^{(0)}$ berupa rata‑rata harga. Residual pertama adalah selisih antara harga aktual dan rata‑rata. Pohon keputusan kecil (depth 1) kemudian dipelajari untuk memetakan fitur‑fitur (mis. ukuran rumah) ke residual tersebut. Setelah penambahan, prediksi menjadi rata‑rata plus kontribusi pohon pertama; proses berulang hingga residual menjadi sangat kecil atau batas iterasi tercapai.

Pendekatan additive ini berbeda dengan bagging atau random forest yang menggabungkan model secara paralel; di sini urutan pelatihan penting karena setiap model bergantung pada kesalahan model sebelumnya.

Gradient Descent sebagai Kerangka Optimasi

Secara matematis, Gradient Boosting dapat dipandang sebagai gradient descent pada ruang fungsi. Misalkan kita memiliki fungsi loss $L (y, \overset{y}{^})$ (mis. squared error $\frac{1}{2} (y - \overset{y}{^})^{2}$ ). Tujuan training adalah menemukan fungsi $F (x)$ yang meminimalkan $\sum_{i} L (y_{i}, F (x_{i}))$ . Pada setiap iterasi, kita menghitung gradient negatif terhadap prediksi saat ini:
$g_{i}^{(t)} = - \frac{\partial L ( y _{i} , y ^ )}{\partial y ^}_{\overset{y}{^} = F^{(t - 1)} (x_{i})}$
Untuk squared error, gradient negatif sama dengan residual $y_{i} - \overset{y}{^}_{i}^{(t - 1)}$ . Kemudian, alih‑alih menggunakan gradient secara langsung, kita melatih model lemah $h_{t} (x)$ untuk mengaproksimasi gradient tersebut. Setelah itu, model gabungan diperbarui:
$F^{(t)} (x) = F^{(t - 1)} (x) + η h_{t} (x)$
di mana $η$ adalah learning rate (atau shrinkage). Dengan kata lain, setiap langkah gradient descent diimplementasikan oleh sebuah pohon keputusan yang belajar memetakan fitur ke arah penurunan loss.

Pendekatan ini menjelaskan mengapa gradient boosting disebut “gradient‑descent‑based boosting”: ia menggabungkan kekuatan boosting (penambahan model lemah) dengan optimasi gradient (menggunakan arah penurunan loss).

Pohon Keputusan sebagai Learner Lemah

Pada praktik umum, regression tree (pohon regresi) dipilih sebagai learner lemah karena kemampuannya menangkap interaksi non‑linear antar fitur dengan kompleksitas komputasi yang relatif rendah. Setiap pohon biasanya dibatasi kedalaman (mis. depth 3‑5) sehingga model lemah tidak terlalu kuat; hal ini penting agar proses boosting tetap “lemah” dan dapat memperbaiki kesalahan secara bertahap.

Proses pembentukan pohon pada iterasi $t$ meliputi:

Menghitung residual (atau gradient) untuk semua contoh pelatihan.

Menentukan split terbaik yang meminimalkan loss reduction pada residual tersebut (mis. mengurangi variansi residual dalam setiap leaf).

Menetapkan nilai leaf sebagai rata‑rata residual dalam leaf tersebut (atau nilai yang meminimalkan loss secara lokal).

Menyimpan pohon sebagai $h_{t} (x)$ dan melanjutkan ke iterasi berikutnya.

Karena setiap pohon hanya mempelajari pola pada residual, model akhir dapat mengekspresikan fungsi yang sangat kompleks meskipun setiap komponen individualnya sederhana.

Learning Rate (Shrinkage) dan Regularisasi

Learning rate $η$ (biasanya antara 0.01‑0.3) mengontrol seberapa besar kontribusi tiap pohon lemah terhadap model akhir. Nilai kecil memperlambat konvergensi tetapi biasanya meningkatkan akurasi karena mengurangi risiko over‑fitting. Secara intuitif, shrinkage menurunkan “langkah” yang diambil dalam ruang fungsi, mirip dengan step size pada gradient descent klasik.

XGBoost memperluas konsep ini dengan menambahkan regularisasi struktural pada setiap pohon:
$Ω (h) = γ T + \frac{1}{2} λ j = 1 \sum T w_{j}^{2}$
di mana $T$ adalah jumlah leaf, $w_{j}$ adalah nilai leaf, $γ$ mengontrol penalti jumlah leaf, dan $λ$ mengontrol penalti L2 pada nilai leaf. Regularisasi ini mencegah pohon menjadi terlalu dalam atau leaf memiliki nilai ekstrem, sehingga meningkatkan generalisasi.

Key Points for Gradient Boosting

Training

Inisialisasi prediksi awal: $F_{0} (x)$ = nilai konstan (misal: mean y)

Untuk setiap iterasi t:

Hitung pseudo-residual (gradient negatif): $r_{i} = y_{i} - F_{t - 1} (x_{i})$

Latih weak learner $h_{t}$ untuk memprediksi $r_{i}$

Update model: $F_{t} (x) = F_{t - 1} (x) + η \cdot h_{t} (x)$

Inferensi : Lihat paling bawah (Sama seperti XGBoost)

XGBoost: Optimasi Second‑Order dan Histogram‑Based Splitting

XGBoost memperkenalkan dua inovasi utama dibandingkan implementasi gradient boosting tradisional:

Approximation second‑order: selain gradient pertama ( $g_{i}$ ), XGBoost menghitung Hessian kedua ( $h_{i} = \partial^{2} L / \partial \overset{y}{^}^{2}$ ). Dengan menggunakan Taylor expansion orde dua, objektif pada iterasi $t$ menjadi:

$\tilde{L}^{(t)} = i \sum [g_{i}^{(t)} h_{t} (x_{i}) + \frac{1}{2} h_{i}^{(t)} h_{t} (x_{i})^{2}] + Ω (h_{t})$
Ini memungkinkan pemilihan split yang lebih akurat karena mempertimbangkan kelengkungan loss, bukan hanya kemiringan.

Histogram‑based split finding: alih‑alih mengevaluasi semua nilai unik fitur, XGBoost mengkuantisasi nilai menjadi histogram (biasanya 256 bin). Split terbaik dipilih berdasarkan skor gain yang dihitung dari histogram, sehingga kompleksitas pencarian turun dari $O (N \cdot unique)$ menjadi $O (N \cdot bins)$ . Pendekatan ini mempercepat training pada dataset besar dan memori‑efisien.

Kedua teknik tersebut menjadikan XGBoost “extreme”: lebih cepat, lebih akurat, dan lebih mudah di‑tune dibandingkan gradient boosting standar.

Key Points for XGBoost

Training

Inisialisasi prediksi awal: $F_{0} (x) =$ bias (mean y)

Untuk setiap iterasi $t:

Hitung gradient pertama ( $g_{i}$ ) DAN Hessian kedua ( $h_{i}$ )

Latih pohon $h_{t}$ dengan objektif:

Minimasi loss berbasis $g_{i}$ dan $h_{i}$ (second-order)

Ditambah regularisasi: $γ T + ½ λ Σ w_{j}^{2}$

(penalti jumlah leaf + penalti nilai leaf)

Update model: $F_{t} (x) = F_{t - 1} (x) + η \cdot h_{t} (x)$

Proses Inference pada Gradient Boosting dan XGBoost

Setelah model selesai dilatih, prediksi pada contoh baru $x$ dilakukan dengan menjumlahkan kontribusi semua pohon:
$\overset{y}{^} (x) = F^{(0)} (x) + η t = 1 \sum T h_{t} (x)$
Pada XGBoost, nilai awal $F^{(0)} (x)$ biasanya berupa bias (rata‑rata target) yang dipelajari secara otomatis. Setiap pohon dievaluasi secara leaf‑wise: fitur pada node dipilih, nilai leaf di‑lookup, dan hasilnya dikalikan dengan learning rate sebelum dijumlahkan. Karena semua operasi bersifat deterministik, inference dapat dioptimalkan dengan teknik vectorization atau GPU acceleration, yang menjadi keunggulan praktis XGBoost pada produksi.

Perbedaan Utama

Gradient Boosting XGBoost
Order optimasi First-order (gradient) Second-order (gradient + Hessian)
Regularisasi ❌ ✅ penalti leaf + L2
Subsampling ❌ ✅ row + column subsampling
Split finding Exact (semua nilai unik) Histogram-based (lebih cepat)
Inferensi Sama Sama

	Gradient Boosting	XGBoost
Order optimasi	First-order (gradient)	Second-order (gradient + Hessian)
Regularisasi	❌	✅ penalti leaf + L2
Subsampling	❌	✅ row + column subsampling
Split finding	Exact (semua nilai unik)	Histogram-based (lebih cepat)
Inferensi	Sama	Sama

Summary

Gradient Boosting membangun model kuat dengan menambahkan pohon lemah yang mempelajari residual (gradient negatif) pada setiap iterasi, sehingga prosesnya dapat dipandang sebagai gradient descent pada ruang fungsi. Learning rate mengatur ukuran langkah, sementara regularisasi (penalti leaf dan L2) mencegah over‑fitting. XGBoost memperluas kerangka ini dengan menggunakan informasi Hessian (second‑order), teknik histogram‑based split, serta subsampling fitur dan contoh, menjadikannya algoritma yang lebih cepat dan akurat untuk data berskala besar.

Additional Information

Formal Derivation of Gradient Boosting as Functional Gradient Descent

Misalkan ruang fungsi $F$ berisi semua fungsi yang dapat direpresentasikan oleh pohon keputusan terbatas. Tujuan kita adalah meminimalkan risiko empirik:
$R (F) = \frac{1}{n} i = 1 \sum n L (y_{i}, F (x_{i}))$
Dengan functional gradient descent, pada iterasi ke‑ $t$ kita mencari arah penurunan:
$g^{(t)} = - \frac{\partial R}{\partial F}_{F = F^{(t - 1)}} = - \frac{1}{n} i = 1 \sum n \frac{\partial L ( y _{i} , F ^{(t - 1)} ( x _{i} ))}{\partial F ^{(t - 1)} ( x _{i} )} δ_{x_{i}}$
Di mana $δ_{x_{i}}$ adalah fungsi Dirac pada titik $x_{i}$ . Karena fungsi ini tidak dapat direpresentasikan secara eksplisit, kita mengaproksimasi $g^{(t)}$ dengan pohon regresi $h_{t}$ yang meminimalkan:
$i = 1 \sum n (g_{i}^{(t)} - h_{t} (x_{i}))^{2}$
Setelah memperoleh $h_{t}$ , langkah pembaruan menjadi:
$F^{(t)} (x) = F^{(t - 1)} (x) + η h_{t} (x)$
Bukti konvergensi dapat diturunkan dengan asumsi loss konveks dan $η$ cukup kecil, mirip dengan analisis klasik gradient descent. Referensi: Friedman (2001) “Greedy Function Approximation: A Gradient Boosting Machine”.

IF Notes

Explorer

Gradient Boosting and XGBoost - Residual‑Based Additive Modeling and Gradient‑Descent Optimization

Questions/Cues

Reference Points

Gradient Boosting: Ide Dasar Additive Modeling

Gradient Descent sebagai Kerangka Optimasi

Pohon Keputusan sebagai Learner Lemah

Learning Rate (Shrinkage) dan Regularisasi

Key Points for Gradient Boosting

XGBoost: Optimasi Second‑Order dan Histogram‑Based Splitting

Key Points for XGBoost

Proses Inference pada Gradient Boosting dan XGBoost

Perbedaan Utama

Formal Derivation of Gradient Boosting as Functional Gradient Descent

Graph View

Table of Contents

Backlinks