Back to IF3270 Pembelajaran Mesin

Optimal Policy Formulation

Questions/Cues

  • Apa perbedaan antara kebijakan dan kebijakan optimal?
  • Bagaimana diskonto γ memengaruhi perhitungan return?
  • Mengapa horizon waktu penting dalam formulasi RL?
  • Bagaimana kriteria optimalitas diukur dalam RL?
  • Apa hubungan antara state-value dan kebijakan optimal?

Reference Points

  • IF3270_Pembelajaran_Mesin_RL.pptx (Slides 31-34)
  • Reinforcement Learning, 2nd Ed. Sutton & Barto (Chapter 3)

Konsep Kebijakan (Policy)

Kebijakan (policy) dalam reinforcement learning adalah pemetaan π dari state ke probabilitas pemilihan aksi. Secara matematis, π(a|s) merepresentasikan probabilitas agent memilih aksi a ketika berada pada state s. Kebijakan menentukan perilaku agent dan bersifat adaptif terhadap perubahan environment. Contoh sederhana: dalam permainan catur, kebijakan mungkin memberi probabilitas tinggi untuk menggerakkan bidak ratu ketika posisi lawan terbuka. Kebijakan berbeda dengan urutan aksi karena bersifat kondisional terhadap state saat ini. Dua tipe utama kebijakan adalah deterministik (satu aksi per state) dan stokastik (distribusi probabilitas atas aksi). Dalam kasus maze, kebijakan deterministik mungkin selalu memilih arah kanan ketika berada di persimpangan.

Return dan Nilai Diskonto

Return (G_t) adalah total reward yang diharapkan agent dari waktu t hingga akhir episode. Untuk masalah dengan horizon tak hingga, digunakan discount factor γ (0 ≤ γ < 1) untuk memastikan konvergensi. Formulasi matematisnya: G_t = R_{t+1} + γR_{t+2} + γ²R_{t+3} + … Diskonto γ berfungsi sebagai parameter untuk menyeimbangkan antara reward jangka pendek dan jangka panjang. γ mendekati 1 membuat agent sangat mempertimbangkan konsekuensi masa depan, sedangkan γ mendekati 0 membuat agent lebih fokus pada reward segera. Contoh: dalam investasi saham, γ tinggi akan memprioritaskan keuntungan jangka panjang, γ rendah lebih mencari keuntungan cepat.

Definisi Kebijakan Optimal

Kebijakan optimal π* adalah kebijakan yang menghasilkan nilai return harapan tertinggi dari semua state. Secara formal, π* ≥ π’ jika dan hanya jika v_π*(s) ≥ v_π’(s) untuk semua s ∈ S. Kebijakan optimal memaksimalkan nilai state-value function v_π(s) untuk setiap state dalam environment. Dalam contoh maze, kebijakan optimal adalah urutan gerakan yang mencapai exit dalam langkah paling sedikit. Untuk masalah stokastik, kebijakan optimal mungkin tidak selalu menghasilkan jalur terpendek setiap saat, tetapi rata-rata langkah terkecil dalam jangka panjang. Eksistensi kebijakan optimal dijamin dalam MDP terhingga melalui teorema optimalitas Bellman.

Kriteria Optimalitas

Kriteria optimalitas dalam RL ditentukan melalui perbandingan nilai state-value atau action-value function. Terdapat tiga prinsip utama:

  1. Optimalitas Global: Kebijakan harus optimal untuk semua states
  2. Konsistensi Temporal: Keputusan optimal sekarang harus konsisten dengan keputusan optimal masa depan
  3. Prinsip Optimalitas Bellman: Solusi optimal dapat didekomposisi menjadi solusi optimal untuk subproblem Contoh penerapan: Dalam robotik, kebijakan pengisian daya optimal mungkin mempertimbangkan tidak hanya level baterai saat ini, tetapi juga prediksi kebutuhan energi untuk tugas selanjutnya dan ketersediaan stasiun pengisian di lingkungan.

Summary

Kebijakan optimal dalam RL didefinisikan sebagai pemetaan dari state ke aksi yang memaksimalkan return harapan kumulatif dengan mempertimbangkan diskonto γ. Kriteria optimalitas mensyaratkan konsistensi temporal dan kepatuhan terhadap prinsip optimalitas Bellman. Formulasi matematis kebijakan optimal bergantung pada perbandingan nilai state-value function di seluruh ruang state, dengan menjamin eksistensi solusi dalam MDP terhingga. Implementasi praktis memerlukan pertimbangan trade-off antara eksplorasi dan eksploitasi.