Model sequence-to-sequence (seq2seq) dirancang untuk memetakan input berurutan dengan panjang tetap ke output berurutan yang mungkin memiliki panjang berbeda. Pendekatan ini menjadi dasar untuk berbagai tugas pemrosesan bahasa alami seperti terjemahan mesin, penjawab pertanyaan otomatis, dan generasi teks deskriptif untuk video. Berbeda dengan model RNN tradisional yang memerlukan panjang input-output sama, arsitektur ini memungkinkan fleksibilitas dalam struktur data.
Contoh aplikasi nyata:
Terjemahan: “Mary eats apples” (Bahasa Inggris) → “Marie mange des pommes” (Bahasa Prancis)
QA System: “Tim is playing in his room.||Where is Tim?” → “Tim is in his room”
Video captioning: Deretan frame video → “Seorang wanita sedang memasak di dapur”
Arsitektur Encoder
Bagian encoder terdiri dari beberapa unit recurrent (biasanya RNN atau variannya) yang memproses setiap elemen input secara berurutan. Setiap unit:
Menerima satu elemen input (misalnya kata dalam kalimat)
Mengumpulkan informasi kontekstual
Meneruskan state tersembunyi (hidden state) ke unit berikutnya
Proses ini analog dengan penerjemah manusia yang mendengarkan seluruh kalimat sebelum mulai menerjemahkan. Setelah memproses seluruh input, encoder menghasilkan encoder vector (state tersembunyi akhir) yang mengkapsulasi informasi esensial dari seluruh urutan input.
Encoder Vector sebagai Memori Kontekstual
Encoder vector berfungsi sebagai:
Representasi terpadu seluruh input
State awal untuk decoder
“Memori kerja” yang menyimpan dependensi jangka panjang
Dalam implementasi teknis, vector ini dihitung melalui fungsi:
h_encoder = f(W * x_t + U * h_{t-1} + b)
di mana f adalah fungsi aktivasi, W dan U matriks berat, x_t input timestep-t, dan b bias.
Mekanisme Decoder
Decoder merupakan jaringan recurrent yang menggunakan encoder vector sebagai state awal untuk memulai generasi output. Pada setiap timestep:
Menerima state tersembunyi sebelumnya
Menghasilkan prediksi output
Memperbarui state tersembunyi untuk timestep berikutnya
Contoh proses terjemahan:
Encoder vector (yang menyimpan makna “Mary eats apples”) diinisialisasi sebagai h_0 decoder
Decoder menghasilkan “Marie” sebagai output pertama
State tersembunyi diperbarui dengan mempertimbangkan output sebelumnya
Proses berlanjut hingga menghasilkan tanda akhir kalimat
Aplikasi dan Variasi Model
Selain terjemahan mesin, arsitektur ini digunakan untuk:
Text Summarization: Input dokumen panjang → output ringkasan
Speech Recognition: Input sinyal audio → output transkripsi teks
Image Captioning: Input citra → deskripsi tekstual
Variasi modern meliputi:
Attention Mechanism: Memungkinkan decoder fokus pada bagian spesifik encoder vector
Transformer Architecture: Menggantikan RNN dengan self-attention untuk penangkapan konteks lebih baik
Summary
Model encoder-decoder memungkinkan pemrosesan urutan dengan panjang input-output berbeda melalui dua komponen utama: encoder yang mengompresi input menjadi representasi vektor, dan decoder yang menggunakan vektor tersebut untuk membangkitkan output berurutan. Arsitektur ini menjadi landasan sistem terjemahan mesin modern dan aplikasi NLP lanjutan, dengan kemampuan menangani dependensi jangka panjang melalui mekanisme state tersembunyi. Encoder vector berperan kritis sebagai pembawa informasi kontekstual antar komponen.
Additional Information
Evaluasi Kinerja Model
Metrik evaluasi utama untuk model seq2seq:
BLEU Score: Mengukur kecocokan n-gram antara output model dan referensi manusia
ROUGE: Fokus pada recall n-gram untuk tugas summarization
METEOR: Mempertimbangkan sinonim dan stemming dalam evaluasi
Tantangan utama meliputi masalah penyusutan kosa kata (vocabulary bottleneck) dan generasi output repetitif yang diatasi dengan teknik seperti beam search dan sampling stokastik.