Back to IF3270 Pembelajaran Mesin

Supervised Learning Techniques: Regression and Classification

Questions/Cues

  • Apa perbedaan utama regresi dan klasifikasi?
  • Bagaimana proses induktif supervised learning bekerja?
  • Komponen utama dalam dataset supervised learning?
  • Alur umum desain sistem machine learning?
  • Contoh aplikasi regresi dan klasifikasi?

Reference Points

  • Course Slides (Slides 19-25, 28)
  • Raschka et al. (2022) (Pages referenced in Slides 18,23,28)

Regresi vs Klasifikasi

Regresi dan klasifikasi merupakan dua jenis tugas utama dalam supervised learning. Regresi bertujuan memprediksi nilai numerik kontinu (misalnya harga rumah, suhu harian), sementara klasifikasi memprediksi label kategori diskrit (misalnya spam/bukan spam, jenis penyakit). Perbedaan mendasar terletak pada jenis output yang dihasilkan: regresi menghasilkan nilai kontinu, klasifikasi menghasilkan label kategori tertentu.

Contoh aplikasi regresi: prediksi harga saham berdasarkan faktor ekonomi, estimasi waktu perjalanan berdasarkan kondisi lalu lintas. Contoh klasifikasi: deteksi fraud transaksi, diagnosis penyakit berdasarkan gejala. Visualisasi sederhana dapat membantu: regresi biasanya digambarkan dengan garis/gradien, sedangkan klasifikasi dengan batas keputusan (decision boundary) yang memisahkan kategori berbeda.

Proses Supervised Learning

Supervised learning melibatkan pembelajaran fungsi target (target function) f yang memetakan data input ke label output. Proses ini diawali dengan kumpulan data latih (training set) berisi pasangan <data, label>. Melalui pembelajaran induktif, algoritma menghasilkan hipotesis h yang mendekati fungsi target f.

Tahapan kunci meliputi: (1) Penyiapan dataset berfitur dan label, (2) Pemilihan model algoritma, (3) Proses pelatihan untuk menemukan pola, (4) Inferensi menggunakan model untuk prediksi data baru. Contoh sederhana: sistem rekomendasi film yang mempelajari preferensi user dari riwayat rating untuk memprediksi rating film baru.

Terminologi Dasar

  • Fitur (Feature): Atribut atau karakteristik data yang digunakan untuk membuat prediksi (misalnya usia, pendapatan dalam prediksi kredit).
  • Label (Target): Variabel yang ingin diprediksi (misalnya status layak/tidak layak kredit). Contoh Latih (Training Example): Satu instansi data lengkap dengan fitur dan labelnya.
  • Fungsi Kerugian (Loss Function): Mengukur kesalahan antara prediksi model dan nilai sebenarnya. Pada regresi sering digunakan Mean Squared Error (MSE), sementara klasifikasi menggunakan Cross-Entropy Loss.
  • Pola (Pattern): Hubungan statistik yang dipelajari model antara fitur dan label.

Alur Desain Sistem ML

Meskipun detail implementasi spesifik dikecualikan, alur umum desain sistem ML mencakup: (1) Pemahaman masalah bisnis/riset, (2) Pengumpulan dan pembersihan data, (3) Pemilihan dan pelatihan model, (4) Validasi kinerja model, (5) Deployment ke lingkungan produksi.

Proses ini bersifat iteratif - model mungkin perlu disesuaikan berkali-kali berdasarkan evaluasi kinerja. Misalnya dalam sistem klasifikasi teks, setelah deployment mungkin diperlukan pembaruan model ketika muncul kosakata baru atau perubahan konteks penggunaan.

Summary

Regresi dan klasifikasi merupakan dua pendekatan utama dalam supervised learning yang dibedakan berdasarkan jenis output (kontinu vs diskrit). Proses pembelajaran melibatkan pembentukan hipotesis dari contoh latih untuk mengaproksimasi fungsi target. Desain sistem ML yang efektif memerlukan pemahaman menyeluruh terhadap masalah, data, dan algoritma yang sesuai, dengan proses iteratif untuk meningkatkan kinerja model secara berkelanjutan.