Xception Dan Gated Recurrent Unit Pada Image Captioning

Authors

  • Josua Sirait Teknik Informatika, Institut Teknologi Nasional Bandung

Keywords:

Xception, Gated Recurrent Unit (GRU), BLEU score, Computer Vision (ComVis), Natural Language Processing (NLP), Beam Search

Abstract

ABSTRAK
Image Captioning adalah proses menghasilkan deskripsi tekstual untuk gambar yang diberikan. Dengan melibatkan area dari Computer Vision untuk memahami konten gambar dan model bahasa dari bidang Natural Language Processing (NLP) untuk mengubah pemahaman gambar menjadi kata-kata dalam urutan yang benar. Berdasarkan dari penelitian-penelitian yang ada, penelitian ini mencoba mengimplementasikan arsitektur encoder-decoder melihat dari penelitian sebelumnya pada Image Captioning. Metode yang digunakan yaitu image based model; Xception (Extreme Inception) dan caption based model; GRU (Gated Recurrent Unit). Pengujian dilakukan dengan parameter skor BLEU pada setiap model yang terbentuk dari epoch. Pengukuran skor BLEU menggunakan 4-gram yang terdiri dari skor BLEU-1, BLEU-2, BLEU-3, dan BLEU-4. Dengan proses epoch yang dilakukan sebanyak 10 kali, maka didapatkan skor BLEU-1 yang dimana nilai paling mendekati 1.0 merupakan kalimat yang sama dengan kalimat kandidat yaitu skor BLEU-1 tertinggi ada pada epoch ke-15 dengan skor BLEU-1, BLEU-2, BLEU-3, dan BLEU-4 yaitu (0.642851, 0.449463, 0.347998, 0.212118).

ABSTRACT
Image Captioning is the process of generating a textual description for a given image. By involving areas of Computer Vision to understand image content and language models from the field of Natural Language Processing (NLP) to transform understanding images into words in the correct order. Based on the existing studies, this research tries to implement the encoder-decoder architecture based on previous research on Image Captioning. The method used is image based model; Xception (Extreme Inception) and caption based models; GRU (Gated Recurrent Units). The test is carried out with the BLEU score parameter on each model that is formed from epochs. BLEU score measurement using 4-grams consisting of BLEU-1, BLEU-2, BLEU-3, and BLEU-4 scores. With the epoch process carried out 10 times, a BLEU-1 score is obtained where the value closest to 1.0 is the same sentence as the candidate sentence, namely the highest BLEU-1 score is in the 15th epoch with a BLEU-1, BLEU-2, and BLEU-2 score. BLEU-3, and BLEU-4 are (0.642851, 0.449463, 0.347998, 0.212118).

Published

2022-06-21 — Updated on 2022-07-06

Versions