Image Captioning Menggunakan Metode Inception-V3 dan Transformer
Kata Kunci:
Inception-V3, Transformer, BLEU, Computer Vision, Natural Language Processing (NLP)Abstrak
ABSTRAK
Pada bidang Computer Vision terdapat masalah yang muncul, seperti objek yang dideteksi pada gambar tidak dapat memberikan pemahaman secara konteks. Dengan memanfaatkan object detection yang telah digunakan sebelumnya, hal tersebut dapat dimanfaatkan untuk menghasilkan satu atau beberapa kalimat yang mendeskripsikan konteks gambar. Hal ini disebut Image Captioning yang merupakan proses menghasilkan teks deskripsi yang diberikan pada suatu gambar. Untuk melakukan Image Captioning dibutuhkan dua ilmu yaitu Computer Vision untuk mengenali objek dan Natural Language Processing (NLP) untuk menghasilkan kalimat deskripsi. Metode yang digunakan pada penelitian ini yaitu Inception-V3 dan Transformer. Penelitian dilakukan menggunakan dataset Flickr8k yang memiliki 8000 gambar dan 40000 kalimat caption. Model dievaluasi dengan cara menghitung skor BLEU. Berdasarkan model tersebut, nilai rata-rata skor BLEU-1, BLEU-2, BLEU-3, dan BLEU-4 yang didapatkan adalah (0.306, 0.184, 0.123, 0.084).
ABSTRACT
Some problems arise as the field of computer vision advances, such as objects detected in images cannot provide contextual understanding. Utilizing the previously used object detection, it can generate one or more sentences describing the image context. It is known as image captioning, the process of producing descriptive text for an image based on what someone sees. Two fields are required for image captioning: computer vision to recognize objects and natural language processing (NLP) to produce descriptive sentences. The study’s methods used were Inception-V3 and Transformer. The study was conducted using the Flickr8k dataset, which contains 8000 images and 40000 caption sentences. The model was evaluated by calculating the BLEU (Bilingual Evaluation Understudy) score. Based on the model, the obtained average scores of BLEU-1, BLEU-2, BLEU-3, and BLEU-4 using the model were (0.306, 0.184, 0.123, 0.084).