Back to IF3270 Pembelajaran Mesin

LSTM Architecture: Components and Gates

Questions/Cues

  • Mengapa LSTM memiliki cell state tambahan?
  • Bagaimana gerbang lupa mengontrol informasi?
  • Peran gerbang input dalam update state?
  • Bagaimana gerbang output menghasilkan hidden state?
  • Apa perbedaan struktural RNN vs LSTM?

Reference Points

Konsep Dasar Arsitektur LSTM

Long Short-Term Memory (LSTM) adalah jenis khusus Recurrent Neural Network (RNN) yang dirancang untuk mengatasi keterbatasan memori jangka panjang pada RNN konvensional. Cell state (Ct) berfungsi sebagai “memori jangka panjang” yang mengalir melalui seluruh rantai pemrosesan, mempertahankan informasi relevan dari langkah sebelumnya. Berbeda dengan RNN biasa yang hanya memiliki hidden state (ht), LSTM memperkenalkan tiga gerbang (gate) yang mengatur aliran informasi: Forget Gate, Input Gate, dan Output Gate. Arsitektur LSTM terdiri dari empat lapisan neural network yang saling berinteraksi dalam setiap modul berulang. Setiap gerbang menggunakan fungsi aktivasi sigmoid (menghasilkan nilai 0-1) untuk menentukan proporsi informasi yang dilewatkan. Sistem gerbang ini memungkinkan LSTM secara selektif mengingat atau melupakan informasi dari input baru dan state sebelumnya.

Mekanisme Forget Gate

Forget Gate bertanggung jawab untuk menentukan informasi mana yang akan dipertahankan atau dibuang dari cell state sebelumnya. Gerbang ini menerima input dari hidden state sebelumnya (ht-1) dan input saat ini (xt), kemudian menghasilkan vektor nilai antara 0 dan 1 melalui fungsi sigmoid:

ft = σ(Wf · [ht-1, xt] + bf)

Nilai 1 menunjukkan “pertahankan seluruh informasi” sementara 0 berarti “buang seluruh informasi”. Misalnya, dalam analisis sentimen kalimat, forget gate dapat memutuskan untuk membuang informasi tentang subjek kalimat sebelumnya jika konteks sudah berubah.

Operasi Input Gate dan Kandidat Update

Input Gate mengatur penambahan informasi baru ke cell state melalui dua komponen:

  1. Lapisan sigmoid memutuskan nilai mana yang akan diupdate
  2. Lapisan tanh membuat vektor nilai kandidat baru (Čt)
it = σ(Wi · [ht-1, xt] + bi)
Čt = tanh(WC · [ht-1, xt] + bC)

Kombinasi kedua komponen ini menentukan seberapa besar informasi baru akan mempengaruhi cell state. Analoginya seperti editor yang memutuskan bagian mana dari draf baru yang layak dimasukkan ke dokumen final.

Update Cell State

Proses update cell state menggabungkan operasi dari forget gate dan input gate:

Ct = ft * Ct-1 + it * Čt

Perkalian antara ft dan Ct-1 memfilter informasi lama yang tidak relevan, sementara penambahan it*Čt memasukkan informasi baru yang penting. Proses linear ini memungkinkan transfer informasi yang stabil tanpa degradasi gradien.

Output Gate dan Hidden State

Output Gate mengontrol informasi yang akan ditampilkan pada hidden state (ht) berdasarkan cell state saat ini:

ot = σ(Wo · [ht-1, xt] + bo)
ht = ot * tanh(Ct)

Hidden state berfungsi sebagai “memori jangka pendek” yang digunakan untuk prediksi dan diteruskan ke langkah berikutnya. Proses filtering melalui tanh memastikan nilai output berada dalam rentang [-1, 1]. Contoh aplikasi: dalam prediksi urutan teks, ht menentukan probabilitas karakter berikutnya berdasarkan konteks saat ini.

Summary

LSTM memperkenalkan cell state sebagai memori jangka panjang yang diatur oleh tiga gerbang spesialis: Forget Gate bertugas menyaring informasi tidak relevan, Input Gate mengontrol penambahan informasi baru, dan Output Gate menentukan representasi hidden state. Model empat lapisan interaktif ini memungkinkan retensi informasi jarak jauh yang lebih baik dibanding RNN konvensional. Implementasi parameter menggunakan formula (m+n+1)*4*n + (n+1)*k dimana m dimensi input, n neuron tersembunyi, dan k dimensi output.