CNN dan Transformer pada Image Captioning
Kata Kunci:
Image Captioning, CNN, transformerAbstrak
Artificial intelligence technology is now developing rapidly and is widely used to support human activities. The use of artificial intelligence technology to create text from an image is one of them. Captioning is an automated process for creating captions. Captions display natural language captions based on images. Image captioning is defined as the process of generating a textual description for an image. Starting with computer vision which is used to identify objects, attributes, and substitutions, then Natural Language Processing is used to monitor syntax and semantics, and finally machine learning is used to generate text. The research was conducted to build a model that can perform image captioning with the CNN feature extractor and generate the sentence using the Transformer architecture. The dataset used is Flickr8k which has a total dataset of 8000 images and their respective captions. The research tested the ability of the models resulting from the training process to use both methods in generating sentences. The ability of the model is measured using the BLEU score. The test yielded a value of BLEU-1 0.718427, BLEU-2 0.608269, BLEU-3 0.563714, and BLEU-4 0.472956.
Abstrak
Teknologi kecerdasan buatan kini berkembang pesat dan dimanfaatkan secara luas untuk mendukung aktivitas manusia. Penggunaan teknologi kecerdasan buatan untuk pembuatan teks dari suatu gambar adalah salah satunya. Image captioning adalah proses otomatis untuk membuat keterangan gambar. Caption menampilkan teks bahasa alamiah berdasarkan gambar. Image captioning didefinisikan sebagai proses menghasilkan deskripsi tekstual untuk sebuah gambar. Dimulai dengan computer vision yang digunakan untuk mengidentifikasi objek, atribut, dan hubungannya, kemudian Natural Language Processing digunakan untuk memonitor sintaks dan semantik, dan terkahir machine learning digunakan untuk menghasilkan teks. Penelitian dilakukan untuk membangun model yang dapat melakukan image captioning dengan pengekstrak fitur CNN dan membangkitkan kalimatnya menerapkan arstektur Transformer. Dataset yang digunakan adalah Flickr8k yang memiliki total dataset 8000 citra beserta masing-masing captionnya. Penelitian menguji kemampuan model yang dihasilkan dari proses pelatihan menggunakan kedua metode dalam membangkitkan kalimat. Kemampuan model diukur menggunakan skor BLEU. Pengujian menghasilkan nilai BLEU-1 0.718427, BLEU-2 0.608269, BLEU-3 0.563714, dan BLEU-4 0.472956.