Back to IF3151 Interaksi Manusia Komputer

Affective Computing and Emotional AI: Sensing, Classification, and Application

Questions/Cues

  • Bagaimana sistem mendeteksi ekspresi wajah?
  • Mengapa GSR penting untuk mengukur emosi?
  • Apa perbedaan antara emosi dasar dan aksi wajah?
  • Bagaimana model AI mengklasifikasikan kemarahan?
  • Contoh aplikasi adaptif berbasis emosi apa saja?

Reference Points

  • Lecture_21_Affective_Computing.pptx (Slides 1‑4)
  • Lecture_22_Emotional_AI.pptx (Slides 1‑3)
  • Lecture_23_Techniques.pptx (Slides 1‑2)
  • Lecture_24_Classification.pptx (Slides 1‑3)
  • Lecture_25_Application.pptx (Slides 1‑4)
  • Lecture_26_Ethics.pptx (Slides 1‑2)

Definisi dan Ruang Lingkup Affective Computing

Affective Computing (Komputasi Afektif) didefinisikan oleh Rosalind Picard (1998) sebagai bidang yang menggunakan komputer untuk mengenali, menafsirkan, dan mengekspresikan emosi manusia secara serupa dengan cara manusia melakukannya. Pada dasarnya, bidang ini berusaha menjembatani kesenjangan antara sinyal fisiologis atau perilaku manusia dengan model komputasional yang dapat diproses secara otomatis. Tujuan utamanya bukan sekadar menambah “sentuhan manusia” pada antarmuka, melainkan meningkatkan kualitas interaksi, mengurangi kesalahpahaman, dan memungkinkan sistem untuk menyesuaikan responsnya berdasarkan keadaan afektif pengguna.

Dalam konteks Artificial Intelligence (AI), istilah Emotional AI merujuk pada penggunaan teknik‑teknik pembelajaran mesin untuk mengotomatisasi inferensi emosi dari data sensorik. Berbeda dengan pendekatan tradisional yang mengandalkan aturan statis, Emotional AI memanfaatkan model statistik dan jaringan saraf dalam untuk menangkap pola kompleks yang tersembunyi dalam sinyal wajah, suara, atau gerakan tubuh. Kedua konsep ini saling melengkapi: Affective Computing menyediakan kerangka konseptual, sementara Emotional AI menyediakan alat algoritmik untuk implementasinya.

Modalitas Sensorik untuk Pengukuran Emosi

Kamera visual merupakan sensor paling umum untuk mendeteksi ekspresi wajah. Dengan memanfaatkan teknik deteksi titik wajah (landmark detection) dan analisis aksi‑aksi wajah (Facial Action Units, FAU), sistem dapat menilai perubahan otot-otot wajah yang terkait dengan emosi tertentu. Contoh praktisnya adalah penggunaan kamera pada smartphone untuk menilai kebahagiaan pengguna saat menonton video.

Galvanic Skin Response (GSR) atau respons kulit galvanik mengukur konduktansi listrik kulit yang berubah seiring dengan aktivitas kelenjar keringat. Karena keringat dipicu oleh sistem saraf otonom yang responsif terhadap stres atau kegembiraan, GSR menjadi indikator fisiologis yang kuat untuk emosi arousal (tingkat kegairahan). Sensor GSR biasanya dipasang pada ujung jari atau telapak tangan, dan data yang dihasilkan dapat diintegrasikan dengan sinyal lain untuk meningkatkan akurasi klasifikasi.

Analisis suara mengekstrak fitur‑fitur akustik seperti pitch, intonasi, kecepatan bicara, dan energi. Misalnya, suara yang lebih tinggi dan cepat sering dikaitkan dengan kegembiraan, sementara pitch rendah dan tempo lambat dapat menandakan kesedihan atau kemarahan. Kombinasi fitur prosodik ini dapat diproses oleh model pembelajaran mendalam (deep learning) untuk menghasilkan prediksi emosi secara real‑time.

Gerakan tubuh dan gestur diukur melalui akselerometer, giroskop, atau sistem motion‑capture. Pola postur, kecepatan gerakan tangan, atau frekuensi langkah dapat mengindikasikan keadaan afektif; misalnya, gerakan tubuh yang cepat dan tidak teratur sering muncul pada keadaan cemas atau marah. Sensor ini biasanya terintegrasi dalam perangkat wearable seperti smartwatch atau headset VR.

Representasi Emosi dan Klasifikasi

Enam emosi dasar yang paling sering diukur dalam literatur adalah: sadness (kesedihan), disgust (jijik), fear (takut), anger (marah), contempt (cemoohan), dan joy (kebahagiaan). Model ini berakar pada teori psikologi Paul Ekman, yang menyatakan bahwa ekspresi wajah untuk emosi‑emosi ini bersifat universal. Pada level yang lebih halus, sistem mengidentifikasi aksi‑aksi wajah (misalnya, senyum, pembesaran mata, kerutan alis) yang menjadi indikator visual bagi masing‑masing emosi.

Proses klasifikasi biasanya melibatkan tiga tahap: (1) Ekstraksi fitur (misalnya, koordinat titik wajah, koefisien mel‑frequency cepstral (MFCC) untuk suara, atau nilai GSR), (2) Representasi (misalnya, vektor fitur atau embeddings yang dihasilkan oleh jaringan saraf konvolusional), dan (3) Pengklasifikasian (misalnya, Support Vector Machine, Random Forest, atau jaringan saraf dalam). Pendekatan multimodal menggabungkan sinyal‑sinyal tersebut melalui teknik late fusion (menggabungkan keputusan akhir) atau early fusion (menggabungkan fitur sebelum klasifikasi), yang secara signifikan meningkatkan akurasi dibandingkan dengan penggunaan satu modalitas saja.

Contoh konkret: sebuah sistem mobil otonom dapat menggabungkan data GSR (menunjukkan tingkat stres), ekspresi wajah (menunjukkan kemarahan), dan suara (menunjukkan nada tinggi) untuk mendeteksi pengemudi yang marah. Sistem kemudian dapat menyesuaikan suara navigasi menjadi lebih tenang atau menyarankan istirahat sejenak.

Pendekatan Pembelajaran Mesin dalam Emotional AI

Jaringan Saraf Konvolusional (CNN) menjadi standar de‑facto untuk analisis citra wajah karena kemampuannya mengekstrak pola spasial secara otomatis. Model‑model populer seperti VGG‑Face, ResNet‑50, atau arsitektur khusus EmotionNet telah dilatih pada dataset besar (misalnya, FER‑2013, AffectNet) untuk mengenali enam emosi dasar dengan akurasi di atas 70 %.

Untuk audio, arsitektur Recurrent Neural Network (RNN) atau Long Short‑Term Memory (LSTM) efektif menangkap dinamika temporal pada sinyal suara. Kombinasi CNN‑LSTM memungkinkan sistem memproses spektrum mel‑frequency secara spasial sekaligus memodelkan perubahan temporal, menghasilkan prediksi emosi yang lebih stabil pada percakapan panjang.

Pembelajaran multimodal mengintegrasikan kedua jenis data dengan jaringan Transformer atau Multimodal Compact Bilinear Pooling (MCB). Pendekatan ini memungkinkan model untuk belajar korelasi lintas‑modal, misalnya, menghubungkan gerakan alis (visual) dengan perubahan pitch (audio) untuk membedakan antara surprise dan fear.

Seluruh pipeline biasanya dilatih dengan loss function yang memperhitungkan ketidakseimbangan kelas (misalnya, focal loss) karena beberapa emosi (seperti joy) muncul jauh lebih sering daripada yang lain (misalnya, contempt). Teknik augmentasi data (rotasi gambar, penambahan noise pada sinyal audio) juga penting untuk meningkatkan generalisasi pada kondisi dunia nyata.

Aplikasi Praktis dan Implikasi

Sistem rekomendasi adaptif: Platform e‑commerce dapat menyesuaikan iklan atau rekomendasi produk berdasarkan emosi pengguna yang terdeteksi melalui webcam. Jika pengguna tampak sedih, sistem dapat menampilkan produk yang bersifat menghibur atau menawarkan diskon khusus untuk meningkatkan mood.

Kesehatan mental: Aplikasi mobile yang memantau GSR, ekspresi wajah, dan suara dapat memberikan umpan balik real‑time kepada pengguna yang mengalami kecemasan atau depresi, serta menyarankan teknik pernapasan atau menghubungkan ke profesional kesehatan.

Keamanan dan transportasi: Sistem monitoring pengemudi dapat mendeteksi tanda‑tanda kelelahan atau kemarahan, kemudian mengaktifkan peringatan suara atau mengurangi kecepatan kendaraan secara otomatis untuk mencegah kecelakaan.

Pembelajaran dan pendidikan: Lingkungan belajar berbasis AI dapat menilai kebahagiaan atau frustrasi siswa melalui kamera kelas, kemudian menyesuaikan tingkat kesulitan materi atau memberikan pujian yang tepat waktu untuk meningkatkan motivasi.

Etika dan privasi: Karena data emosional bersifat sangat pribadi, penting bagi sistem untuk memperoleh persetujuan eksplisit, menyimpan data secara terenkripsi, dan memberikan opsi bagi pengguna untuk menonaktifkan pelacakan. Kebijakan transparansi serta audit algoritma diperlukan untuk mencegah bias budaya atau diskriminasi.

Summary

Affective Computing dan Emotional AI memanfaatkan sensor visual, fisiologis, audio, dan gerakan untuk mengukur dan mengklasifikasikan emosi manusia secara otomatis. Dengan menggunakan model pembelajaran mesin—terutama CNN untuk citra wajah, LSTM untuk audio, dan arsitektur multimodal untuk integrasi—sistem dapat menghasilkan prediksi real‑time yang mendukung aplikasi adaptif di bidang e‑commerce, kesehatan, transportasi, dan pendidikan. Namun, aspek etika seperti privasi, persetujuan, dan mitigasi bias harus menjadi bagian integral dari setiap implementasi.