Image Captioning Menggunakan Metode Resnet50 Dan Long Short Term Memory

Penulis

  • Marius Raka Satria Institut Teknologi Nasional Bandung
  • JASMAN PARDEE Institut Teknologi Nasional Bandung

Kata Kunci:

Ambiguity, LSTM, ResNet50, Image Captioning

Abstrak

ABSTRAK
Kesalahpahaman manusia dalam mencari makna arti dari sebuah gambar menimbulkan kebingungan. Hanya karena struktur kalimat atau penggunaan kata bermakna makna lebih dari satu yang biasa disebut ambiguitas. Ambiguitas terjadi apabila arti dari kata, frasa, atau kalimat tidak pasti, maknanya lebih dari satu. Karena adanya keterkatian dengan kecerdasan buatan dalam membantu klasifikasi gambar untuk menghindari ambiguitas, penggunaan Image Captioning dimanfaatkan pada penelitian ini. Image Captioning menghasilkan deskripsi berbahasa alami. Permasalahan yang muncul dapat diselesaikan dengan penggabungan antara kecerdasan buatan dan jaringan syaraf tiruan. Kedua metode yang digunakan dalam penelitian ini adalah Resnet50 dan Long Short Term Memory. Resnet50 berfungsi untuk klasifikasi gambar dan LSTM jaringan syaraf tiruan untuk generate caption. Penelitian ini menggunakan BLEU scoring satu gram untuk memberi nilai pada caption yang telah dibuat. Score BLEU tertinggi adalah 79,7455% dan akurasi tertinggi yang didapat adalah 85,74% pada 100 epoch.


ABSTRACT
Human misunderstanding in finding the meaning of an image causes confusion. Just because the structure of the sentence or the use of words means more than one meaning which is usually called ambiguity. Ambiguity occurs when the meaning of a word, phrase, or sentence is uncertain, it has more than one meaning. Because of the connection with artificial intelligence in helping image classification to avoid ambiguity, the use of Image Captioning is utilized in this study. Image Captioning produces natural language descriptions. The problems that arise can be solved by combining artificial intelligence and artificial neural networks. The two methods used in this research are Resnet50 and Long Short Term Memory. Resnet50 functions for image classification and artificial neural network LSTM to generate captions. This study uses a one gram BLEU scoring to give a value to the caption that has been made. The highest BLEU score was 79.7455% and the highest accuracy obtained was 85.74% at 100 epochs.

Diterbitkan

2023-02-23