Penelitian: AI Kesulitan dalam Menjawab Pertanyaan Sejarah

Para peneliti baru-baru ini membuat tolok ukur baru yang menguji tiga model bahasa besar (LLM) teratas — GPT-4 dari OpenAI, Llama dari Meta, dan Gemini dari Google — dengan pertanyaan-pertanyaan sejarah. Tolok ukur yang disebut Hist-LLM ini menguji kebenaran jawaban dengan mengacu pada Seshat Global History Databank, sebuah basis data besar yang mengumpulkan pengetahuan historis, yang dinamai menurut dewi kebijaksanaan Mesir kuno.

Hasil penelitian yang dipresentasikan pada konferensi AI NeurIPS menunjukkan bahwa meskipun GPT-4 Turbo memiliki kinerja terbaik, akurasinya hanya sekitar 46%, yang tidak jauh berbeda dari tebakan acak.

“Penelitian ini menunjukkan bahwa meskipun LLM dapat mengesankan dalam beberapa hal, mereka masih kekurangan pemahaman mendalam yang diperlukan untuk menjawab pertanyaan sejarah tingkat lanjut. Mereka baik dalam menjawab fakta dasar, tetapi saat menghadapi penyelidikan sejarah yang lebih rumit, mereka belum cukup mampu,” kata Maria del Rio-Chanona, salah satu penulis makalah dan profesor madya ilmu komputer di University College London.

Beberapa contoh pertanyaan yang dijawab salah oleh LLM juga dibagikan, seperti ketika GPT-4 Turbo ditanya apakah baju besi bersisik ada di Mesir kuno pada periode tertentu. Jawaban yang diberikan adalah ya, padahal baju besi bersisik baru muncul 1.500 tahun kemudian di Mesir.

Mengapa LLM kesulitan menjawab pertanyaan sejarah meskipun dapat menjawab pertanyaan teknis seperti pengodean dengan baik? Del Rio-Chanona menjelaskan bahwa LLM sering kali mengekstrapolasi dari data yang sangat menonjol dalam sejarah, sehingga mereka kesulitan memahami pengetahuan yang lebih terperinci dan kurang mencolok.

Sebagai contoh, saat ditanya apakah Mesir kuno memiliki pasukan tetap selama periode tertentu, LLM menjawab salah bahwa mereka memiliki pasukan tetap, padahal kenyataannya tidak. Jawaban ini mungkin dipengaruhi oleh data dari kekaisaran kuno lainnya, seperti Persia, yang memang memiliki pasukan tetap.

“Jika Anda diberi tahu A dan B 100 kali, dan C hanya sekali, Anda mungkin hanya mengingat A dan B dan mencoba mengekstrapolasi dari situ,” jelas Del Rio-Chanona.

Selain itu, peneliti menemukan bahwa model OpenAI dan Llama cenderung lebih buruk dalam menjawab soal terkait wilayah seperti Afrika sub-Sahara, yang menunjukkan potensi bias dalam data pelatihan mereka.

Meskipun hasil penelitian ini menunjukkan bahwa LLM masih jauh dari menggantikan manusia di bidang tertentu, peneliti berharap teknologi ini dapat membantu sejarawan di masa depan. Mereka berencana untuk menyempurnakan tolok ukur ini dengan menambahkan lebih banyak data dari wilayah yang kurang terwakili serta pertanyaan yang lebih kompleks.

“Secara keseluruhan, meskipun hasil kami mengidentifikasi kekurangan dalam LLM, penelitian ini juga menyoroti potensi besar model ini dalam membantu penelitian sejarah,” tulis makalah tersebut.

Penelitian Ungkap AI Kesulitan dalam Menjawab Pertanyaan Sejarah Tingkat Lanjut

Melihat Pertarungan Sengit FAJI di Arung Progo Festival 2025

DENZA D9 Bikin Gebrakan Kuasai Segmen EV Premium, Apa Rahasianya?

MILO Activ Indonesia Race 2025 Siap Pecahkan Rekor 25.000 Pelari

Rumah Pendidikan Hadirkan Fitur Baru yang Bikin Pembelajaran Lebih Efektif

Mentan Amran Bongkar Alasan Aceh Tak Butuh Impor Beras

ASN Wajib Tahu, Pemprov DKI Ingatkan Bahaya Medsos di Era Digital

Ada Call Center SAGI 127, BGN Perkuat Pengawasan Makan Bergizi Gratis

BMKG Peringatkan Potensi Megathrust di Sulawesi, Dua Kabupaten Diminta Waspada

Gandeng Dukcapil, DANA Premium Mini Bantu Anak Kelola Uang Sejak Dini

MILO Activ Indonesia Race 2025 Siap Pecahkan Rekor 25.000 Pelari

Kakao Bali Diakui Dunia, Ini Rahasia Pendampingan Cau Chocolates ke Petani

Indonesia Banjir Wisatawan Rumania, Promosi di Bucharest Berbuah Manis

TINGGALKAN KOMENTAR Batal membalas

Ikuti Kami

Informasi

Sitemap