Back to Pembelajaran Mesin IF3270

Reinforcement Learning Fundamentals and Motivation

Questions/Cues

  • Apa beda RL dengan pembelajaran terawasi?
  • Mengapa umpan balik RL bersifat tertunda?
  • Bagaimana RL terkait dengan ilmu kontrol optimal?
  • Kapan RL lebih unggul dari metode ML lain?
  • Mengapa eksplorasi penting dalam RL?

Reference Points

  • RL_Slides_IF3270.pptx (Slides 5-11, 27)
  • cs224r.stanford.edu/slides (Slide 9, 11)

Definisi Reinforcement Learning

Reinforcement Learning (RL) merupakan paradigma pembelajaran mesin di mana agen belajar membuat keputusan optimal melalui interaksi dengan lingkungan. Berbeda dengan pembelajaran terawasi yang memerlukan dataset berlabel, RL hanya mengandalkan sinyal reward yang mungkin diterima secara tertunda. Contoh analogi: seperti bayi belajar berjalan dengan mencoba berbagai gerakan dan menerima umpan balik (jatuh atau berhasil) untuk menyesuaikan strateginya. RL bersifat goal-oriented dengan fokus pada maksimalisasi reward kumulatif jangka panjang. Sistem ini tidak memerlukan contoh perilaku optimal seperti pada pembelajaran terawasi, melainkan menemukan strategi optimal melalui trial-and-error. Contoh aplikasi nyata termasuk robotika (belajar berjalan secara mandiri) atau sistem rekomendasi (mempelajari preferensi pengguna dari interaksi).

Perbandingan dengan Paradigma ML Lain

RL memiliki tiga karakteristik pembeda utama:

  1. Tidak ada supervisi langsung, hanya sinyal reward yang mungkin jarang dan tertunda
  2. Konsekuensi temporal di mana keputusan sekarang mempengaruhi keadaan masa depan
  3. Ketergantungan urutan waktu yang membuat data tidak independen dan identik terdistribusi (non-IID) Berbeda dengan unsupervised learning yang fokus pada pola data tanpa tujuan spesifik, RL memiliki tujuan kumulatif yang jelas. Contoh: Sistem klasifikasi gambar (supervised) vs. agen game yang belajar strategi menang (RL).

Motivasi Penggunaan RL

Empat alasan utama menggunakan RL:

  1. Solusi masalah keputusan berurutan seperti kontrol robot atau manajemen portofolio investasi
  2. Kemampuan belajar tanpa dataset berlabel yang mahal untuk dikumpulkan
  3. Potensi menemukan strategi baru yang tidak terpikirkan oleh desainer manusia
  4. Aplikasi luas mulai dari optimasi logistik hingga sistem dialog cerdas Contoh implementasi sukses: AlphaGo yang mengalahkan juara dunia Go dengan strategi inovatif yang belum pernah ada dalam literatur permainan.

Dilema Eksplorasi vs Eksploitasi

Agen RL menghadapi trade-off fundamental:

  • Eksploitasi: Memanfaatkan pengetahuan saat ini untuk memaksimalkan reward
  • Eksplorasi: Mencoba tindakan baru untuk memperoleh informasi lebih Contoh restoran: Eksploitasi berarti selalu ke restoran favorit, sedangkan eksplorasi mencoba restoran baru yang mungkin lebih baik. Kedua strategi diperlukan karena eksploitasi berlebihan menyebabkan suboptimal, sementara eksplorasi berlebihan mengurangi efisiensi.

Summary

Reinforcement Learning adalah paradigma pembelajaran mesin yang memungkinkan agen belajar melalui interaksi dengan lingkungan menggunakan sinyal reward tertunda tanpa supervisi langsung. RL unggul untuk masalah keputusan berurutan dengan efek jangka panjang seperti kontrol robot atau strategi game, serta memungkinkan penemuan solusi inovatif. Tantangan utama meliputi penyeimbangan eksplorasi-eksploitasi dan pengelolaan ketergantungan temporal dalam data pembelajaran.