Image Captioning Menggunakan Transformer Dan Area Attention

Authors

  • DHIKI ROMADINUR INSTITUT TEKNOLOGI NASIONAL FAKULTAS TEKNIK INDUSTRI
  • JASMAN PARDEDE INSTITUT TEKNOLOGI NASIONAL FAKULTAS TEKNIK INDUSTRI

Keywords:

Image Caption-ing, Transformer, Attention, MobilenetV3Small, BLEU

Abstract

ABSTRAK
Image Captioning adalah menghasilkan deskripsi teks yang akurat dan relevan dari sebuah gambar. Penelitian dilakukan dengan menggunakan dataset dari MS COCO 2014. Metode yang diterapkan pada penelitian ini adalah Transformer dengan Area Attention MobilenetV3Small untuk membangun model. Dalam penelitian ini menggunakan ekstraksi fitur MobilenetV3Small. Pengujian yang dilakukan dengan evaluasi skor BLEU. Pengukuran BLEU menggunakan 4-gram terdiri skor BLEU-1, BLEU-2, BLEU-3, BLEU-4. Dengan proses epoch sebanyak 100 kali, Dengan hasil skor BLEU yang dihasilkan dengan rata-rata skor yang didapatkan adalah {0.557348, 0.354169, 0.183363, 0.098632}.

ABSTRACT
Image Captioning is producing an accurate and relevant text description of an image. The research was conducted using the dataset from MS COCO 2014. The method used in this study was Transformer with MobilenetV3Small Attention Area to build the model. In this study using MobilenetV3Small feature extraction. The test was carried out by evaluating the BLEU score. The BLEU measurement uses 4-grams consisting of BLEU-1, BLEU-2, BLEU-3, BLEU-4 scores. With an epoch process of 100 times, the resulting BLEU score results with an average score obtained is {0.557348, 0.354169, 0.183363, 0.098632}.

Published

2024-12-09