Back to IF3270 Pembelajaran Mesin

Motivasi dan Konsep Dasar CNN

Questions/Cues

  • Mengapa ANN tidak efektif untuk klasifikasi gambar?
  • Bagaimana CNN mengatasi masalah dimensi tinggi?
  • Apa keunggulan model dalam dibanding dangkal?
  • Mengapa CNN lebih efisien secara komputasi?
  • Bagaimana cara kerja visi komputer vs manusia?

Reference Points

  • Lecture_CNN.pptx (Halaman 6-19, 34-37)
  • Deep Learning Book Reference (Halaman 8-10)
  • Khan Survey Paper (Halaman 12)

Keterbatasan ANN untuk Pemrosesan Gambar

Jaringan saraf tiruan tradisional (ANN) menghadapi tantangan signifikan saat memproses data gambar. Gambar digital direpresentasikan sebagai array multidimensi piksel (tinggi × lebar × saluran warna). Untuk gambar beresolusi 1024×1024 RGB, ANN harus memproses lebih dari 3 juta parameter input. Pendekatan flattening (meratakan gambar menjadi vektor 1D) menyebabkan hilangnya fitur spasial penting seperti tepi, pola lokal, dan hubungan geometris antar objek.

Contoh konkret: Gambar kucing 32x32 piksel RGB akan menjadi vektor input dengan 3.072 fitur (32×32×3). Lapisan tersembunyi pertama dengan 1.000 neuron akan menghasilkan lebih dari 3 juta parameter yang harus dilatih. Ini menyebabkan masalah komputasi dan berpotensi overfitting ketika dataset terbatas. Masalah ini dikenal sebagai kutukan dimensionalitas (curse of dimensionality), di mana kompleksitas model tumbuh secara eksponensial dengan dimensi input.

Peran Deep Learning dan CNN

Convolutional Neural Network (CNN) muncul sebagai solusi biologis yang terinspirasi dari sistem visual mamalia. Berbeda dengan ANN tradisional, CNN mempertahankan struktur spasial gambar melalui operasi konvolusi hierarkis. Lapisan awal mendeteksi fitur dasar seperti tepi dan tekstur, sementara lapisan yang lebih dalam mengkombinasikannya menjadi bentuk kompleks seperti mata atau bulu.

Keunggulan utama CNN terletak pada kemampuan ekstraksi fitur otomatis. Contoh praktis: Tanpa pemrograman eksplisit, CNN dapat mempelajari bahwa keberadaan kombinasi tepi melengkung dan garis vertikal mungkin mengindikasikan keberadaan roda mobil. Efisiensi komputasi CNN berasal dari penggunaan kernel yang dibagi parameter (parameter sharing) dan konektivitas lokal, walau mekanisme ini telah dibahas di materi lain.

Keuntungan Arsitektur Dalam

Teorema Universal Approximator menyatakan bahwa jaringan saraf dengan satu lapisan tersembunyi dapat mengaproksimasi fungsi apa pun. Namun praktik menunjukkan bahwa model dalam (deep) memiliki keunggulan generalisasi lebih baik. Pada eksperimen LeCun (1989), CNN dengan 4 lapisan mencapai akurasi 98.4% pada pengenalan digit tulisan tangan, sementara ANN dangkal hanya 87% dengan parameter 3x lebih banyak.

Alasan utama kedalaman meningkatkan performa: (1) Representasi hierarkis fitur yang analog dengan cara korteks visual mamalia memproses informasi, (2) Penggunaan kembali parameter melalui operasi konvolusi mengurangi risiko overfitting, dan (3) Kemampuan menangkap abstraksi bertingkat dari piksel → tepi → pola → objek parsial → objek utuh.

Efisiensi Komputasional CNN

CNN mencapai efisiensi melalui dua prinsip utama (tanpa menjelaskan mekanisme teknis). Untuk gambar 320×280, operasi deteksi tepi dengan kernel 3×3 hanya memerlukan ~268.000 operasi, sangkan ANN memerlukan >8 miliar operasi. Pengurangan kompleksitas ini memungkinkan pelatihan model pada hardware konsumen modern.

Contoh historis: Arsitektur LeNet-5 (1998) untuk pengenalan digit tulisan tangan hanya membutuhkan 60.000 parameter dibandingkan jutaan pada ANN setara. Model ini memanfaatkan pola lokal dalam gambar melalui operasi konvolusi berlapis, yang kemudian menjadi fondasi arsitektur CNN modern seperti AlexNet dan ResNet.

Summary

Convolutional Neural Network (CNN) merupakan terobosan penting dalam deep learning untuk pemrosesan data grid-like seperti gambar. Keunggulan utama CNN terletak pada preservasi fitur spasial dan efisiensi komputasi melalui operasi konvolusi berlapis. Dibanding ANN tradisional, CNN mengurangi parameter secara signifikan sambil meningkatkan akurasi pada tugas visi komputer. Arsitektur dalam CNN memungkinkan ekstraksi fitur hierarkis otomatis dari level rendah (tepi, tekstur) hingga tinggi (bentuk kompleks).