Para peneliti baru-baru ini membuat tolok ukur baru yang menguji tiga model bahasa besar (LLM) teratas — GPT-4 dari OpenAI, Llama dari Meta, dan Gemini dari Google — dengan pertanyaan-pertanyaan sejarah. Tolok ukur yang disebut Hist-LLM ini menguji kebenaran jawaban dengan mengacu pada Seshat Global History Databank, sebuah basis data besar yang mengumpulkan pengetahuan historis, yang dinamai menurut dewi kebijaksanaan Mesir kuno.
Hasil penelitian yang dipresentasikan pada konferensi AI NeurIPS menunjukkan bahwa meskipun GPT-4 Turbo memiliki kinerja terbaik, akurasinya hanya sekitar 46%, yang tidak jauh berbeda dari tebakan acak.
“Penelitian ini menunjukkan bahwa meskipun LLM dapat mengesankan dalam beberapa hal, mereka masih kekurangan pemahaman mendalam yang diperlukan untuk menjawab pertanyaan sejarah tingkat lanjut. Mereka baik dalam menjawab fakta dasar, tetapi saat menghadapi penyelidikan sejarah yang lebih rumit, mereka belum cukup mampu,” kata Maria del Rio-Chanona, salah satu penulis makalah dan profesor madya ilmu komputer di University College London.
Beberapa contoh pertanyaan yang dijawab salah oleh LLM juga dibagikan, seperti ketika GPT-4 Turbo ditanya apakah baju besi bersisik ada di Mesir kuno pada periode tertentu. Jawaban yang diberikan adalah ya, padahal baju besi bersisik baru muncul 1.500 tahun kemudian di Mesir.
Mengapa LLM kesulitan menjawab pertanyaan sejarah meskipun dapat menjawab pertanyaan teknis seperti pengodean dengan baik? Del Rio-Chanona menjelaskan bahwa LLM sering kali mengekstrapolasi dari data yang sangat menonjol dalam sejarah, sehingga mereka kesulitan memahami pengetahuan yang lebih terperinci dan kurang mencolok.
Sebagai contoh, saat ditanya apakah Mesir kuno memiliki pasukan tetap selama periode tertentu, LLM menjawab salah bahwa mereka memiliki pasukan tetap, padahal kenyataannya tidak. Jawaban ini mungkin dipengaruhi oleh data dari kekaisaran kuno lainnya, seperti Persia, yang memang memiliki pasukan tetap.
“Jika Anda diberi tahu A dan B 100 kali, dan C hanya sekali, Anda mungkin hanya mengingat A dan B dan mencoba mengekstrapolasi dari situ,” jelas Del Rio-Chanona.
Selain itu, peneliti menemukan bahwa model OpenAI dan Llama cenderung lebih buruk dalam menjawab soal terkait wilayah seperti Afrika sub-Sahara, yang menunjukkan potensi bias dalam data pelatihan mereka.
Meskipun hasil penelitian ini menunjukkan bahwa LLM masih jauh dari menggantikan manusia di bidang tertentu, peneliti berharap teknologi ini dapat membantu sejarawan di masa depan. Mereka berencana untuk menyempurnakan tolok ukur ini dengan menambahkan lebih banyak data dari wilayah yang kurang terwakili serta pertanyaan yang lebih kompleks.
“Secara keseluruhan, meskipun hasil kami mengidentifikasi kekurangan dalam LLM, penelitian ini juga menyoroti potensi besar model ini dalam membantu penelitian sejarah,” tulis makalah tersebut.