28.5 C
Jakarta
Rabu, Maret 11, 2026
BerandaKATA TEKNOTEKNEWSPenelitian Ungkap AI Kesulitan dalam Menjawab Pertanyaan Sejarah Tingkat Lanjut

Penelitian Ungkap AI Kesulitan dalam Menjawab Pertanyaan Sejarah Tingkat Lanjut

Para peneliti baru-baru ini membuat tolok ukur baru yang menguji tiga model bahasa besar (LLM) teratas — GPT-4 dari OpenAI, Llama dari Meta, dan Gemini dari Google — dengan pertanyaan-pertanyaan sejarah. Tolok ukur yang disebut Hist-LLM ini menguji kebenaran jawaban dengan mengacu pada Seshat Global History Databank, sebuah basis data besar yang mengumpulkan pengetahuan historis, yang dinamai menurut dewi kebijaksanaan Mesir kuno.

Hasil penelitian yang dipresentasikan pada konferensi AI NeurIPS menunjukkan bahwa meskipun GPT-4 Turbo memiliki kinerja terbaik, akurasinya hanya sekitar 46%, yang tidak jauh berbeda dari tebakan acak.

“Penelitian ini menunjukkan bahwa meskipun LLM dapat mengesankan dalam beberapa hal, mereka masih kekurangan pemahaman mendalam yang diperlukan untuk menjawab pertanyaan sejarah tingkat lanjut. Mereka baik dalam menjawab fakta dasar, tetapi saat menghadapi penyelidikan sejarah yang lebih rumit, mereka belum cukup mampu,” kata Maria del Rio-Chanona, salah satu penulis makalah dan profesor madya ilmu komputer di University College London.

Beberapa contoh pertanyaan yang dijawab salah oleh LLM juga dibagikan, seperti ketika GPT-4 Turbo ditanya apakah baju besi bersisik ada di Mesir kuno pada periode tertentu. Jawaban yang diberikan adalah ya, padahal baju besi bersisik baru muncul 1.500 tahun kemudian di Mesir.

Mengapa LLM kesulitan menjawab pertanyaan sejarah meskipun dapat menjawab pertanyaan teknis seperti pengodean dengan baik? Del Rio-Chanona menjelaskan bahwa LLM sering kali mengekstrapolasi dari data yang sangat menonjol dalam sejarah, sehingga mereka kesulitan memahami pengetahuan yang lebih terperinci dan kurang mencolok.

Sebagai contoh, saat ditanya apakah Mesir kuno memiliki pasukan tetap selama periode tertentu, LLM menjawab salah bahwa mereka memiliki pasukan tetap, padahal kenyataannya tidak. Jawaban ini mungkin dipengaruhi oleh data dari kekaisaran kuno lainnya, seperti Persia, yang memang memiliki pasukan tetap.

“Jika Anda diberi tahu A dan B 100 kali, dan C hanya sekali, Anda mungkin hanya mengingat A dan B dan mencoba mengekstrapolasi dari situ,” jelas Del Rio-Chanona.

Selain itu, peneliti menemukan bahwa model OpenAI dan Llama cenderung lebih buruk dalam menjawab soal terkait wilayah seperti Afrika sub-Sahara, yang menunjukkan potensi bias dalam data pelatihan mereka.

Meskipun hasil penelitian ini menunjukkan bahwa LLM masih jauh dari menggantikan manusia di bidang tertentu, peneliti berharap teknologi ini dapat membantu sejarawan di masa depan. Mereka berencana untuk menyempurnakan tolok ukur ini dengan menambahkan lebih banyak data dari wilayah yang kurang terwakili serta pertanyaan yang lebih kompleks.

“Secara keseluruhan, meskipun hasil kami mengidentifikasi kekurangan dalam LLM, penelitian ini juga menyoroti potensi besar model ini dalam membantu penelitian sejarah,” tulis makalah tersebut.

Baca Juga

Pendampingan Intensif Berbuah Hasil, Strategi Cegah Stunting Ini Terbukti Efektif

Jakarta - Nestlé Indonesia resmi menutup rangkaian Program Pendampingan...

Siap Mudik Lewat Laut? 841 Kapal Disiagakan untuk Lebaran 2026

Jakarta - Kementerian Perhubungan menyiapkan sebanyak 841 kapal dengan...

SIG Gandeng Taiheiyo Cement Jepang Kembangkan Teknologi Stabilitas Tanah

Jakarta - Perbedaan kontur tanah di berbagai wilayah Indonesia...

Serenity Aura Warnai Ramadan di Lippo Mall Nusantara dengan Dekorasi Timur

Jakarta - Lippo Mall Nusantara menghadirkan rangkaian program bertema...

Menag Soroti Kualitas Speaker di Masjid, ITS Tawarkan Bantuan Teknologi

Surabaya -  Menteri Agama Nasaruddin Umar menyoroti kualitas pengeras...

Ikuti kami

- Notifikasi berita terupdate

Terkini

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini