Back to IF3270 Pembelajaran Mesin

Neural Network Architectures for Specialized Tasks

Questions/Cues

  • Mengapa CNN cocok untuk pemrosesan gambar?
  • Bagaimana RNN menangani data sekuensial?
  • Apa fungsi mekanisme attention dalam Transformer?
  • Kapan menggunakan LSTM vs GRU?
  • Bagaimana transfer learning diaplikasikan pada CNN?

Reference Points

  • Course Overview (Slides 10, 26-28)
  • Prince, S.J. (2023) Understanding Deep Learning (Chapter 9, 12)
  • Kunapuli, G. (2023) Ensemble Methods (Page 142-150)

Convolutional Neural Networks (CNN)

CNN dirancang khusus untuk memproses data grid seperti gambar. Lapisan konvolusi menggunakan filter yang bergerak melintasi gambar untuk mendeteksi fitur lokal seperti tepi atau tekstur. Setiap filter mempelajari pola spasial tertentu melalui proses training, memungkinkan ekstraksi fitur hierarkis dari level rendah ke tinggi.

Contoh aplikasi: Pada klasifikasi gambar kucing vs anjing, lapisan awal mungkin mendeteksi tepi dan sudut, sementara lapisan lebih dalam mengenali pola seperti telinga atau ekor. Arsitektur khas seperti ResNet menggunakan “residual connections” untuk melatih jaringan yang sangat dalam (>100 layer) tanpa masalah vanishing gradient.

Keunggulan utama CNN adalah parameter sharing yang mengurangi kompleksitas komputasi dibanding jaringan fully-connected. Untuk gambar 1000x1000, lapisan konvolusi dengan 100 filter hanya membutuhkan ~1 juta parameter, sementara lapisan fully-connected memerlukan 10^9 parameter.

Recurrent Neural Networks (RNN)

RNN memproses data sekuensial (teks, deret waktu) dengan mempertahankan state internal yang menyimpan informasi kontekstual. Arsitektur ini menggunakan loop berulang dimana output langkah sebelumnya menjadi input langkah saat ini, memungkinkan pemodelan ketergantungan temporal.

Contoh konkret: Pada analisis sentimen tweet, RNN memproses setiap kata secara berurutan sambil memperbarui state internalnya. State akhir digunakan untuk memprediksi sentimen keseluruhan. Namun, RNN dasar mengalami masalah vanishing gradient untuk sequence panjang (>50 langkah).

Aplikasi umum meliputi: prediksi saham, generasi teks, dan terjemahan mesin. Variasi seperti Bidirectional RNN mengakses konteks masa lalu dan masa depan dengan menjalankan dua RNN paralel (maju dan mundur).

Transformer Networks

Transformer memperkenalkan mekanisme attention untuk memodelkan dependensi jarak jauh tanpa rekursi. Arsitektur ini menggunakan multi-head attention yang memungkinkan model fokus pada bagian relevan input secara paralel. Tidak seperti RNN, Transformer memproses seluruh sequence sekaligus sehingga lebih efisien secara komputasi.

Contoh implementasi: Model BERT untuk pemrosesan bahasa alami menggunakan Transformer encoder untuk menghasilkan representasi kontekstual kata. Pada tugas question answering, mekanisme attention membantu model menghubungkan kata kunci dalam pertanyaan dengan bagian relevan dalam dokumen.

Kelebihan utama: Paralelisasi tinggi selama training dan kemampuan menangkap konteks jarak jauh. Transformer menjadi fondasi untuk model bahasa besar seperti GPT-3 dan T5.

Specialized RNN Variants

LSTM (Long Short-Term Memory) memperkenalkan cell state dan gerbang (forget, input, output) untuk mengontrol aliran informasi. Forget gate menentukan informasi mana yang dibuang dari state sebelumnya, sementara input gate menambahkan informasi baru. Struktur ini efektif untuk sequence dengan dependensi jangka panjang.

GRU (Gated Recurrent Unit) menyederhanakan LSTM dengan menggabungkan forget dan input gate menjadi update gate, serta menghilangkan cell state. ReGU (Rectified Gated Unit) menambahkan aktivasi ReLU untuk meningkatkan non-linearitas. Pemilihan arsitektur bergantung pada kompleksitas tugas dan sumber daya komputasi.

Studi kasus: Pada prediksi harga saham harian, LSTM mungkin lebih akurat untuk pola kompleks, sementara GRU lebih efisien untuk dataset kecil. Implementasi praktis di Python menggunakan library TensorFlow/Keras dengan lapisan LSTM/GRU siap pakai.

Summary

CNN memanfaatkan operasi konvolusi untuk ekstraksi fitur spasial hierarkis, optimal untuk tugas visi komputer. RNN dan variannya (LSTM/GRU) mengolah data sekuensial dengan mempertahankan memori internal, cocok untuk deret waktu dan NLP dasar. Transformer merevolusi pemrosesan sequence melalui mekanisme attention paralel, menjadi fondasi model bahasa modern. Pemilihan arsitektur ditentukan oleh jenis data, kebutuhan kontekstual, dan sumber daya komputasi.