Evaluasi Hybrid Retrieval Berbasis Reciprocal Rank Fusion untuk Pencarian Informasi pada Dokumen Peraturan Daerah

Authors

  • Achmad Yusuf Yulestiono UPN "Veteran" Jawa Timur
  • Anggraini Puspita Sari UPN "Veteran" Jawa Timur
  • Ardhon Rakhmadi UPN "Veteran" Jawa Timur

DOI:

https://doi.org/10.33005/santika.v6i1.1233

Keywords:

Hybrid Retrieval, Reciprocal Rank Fusion, BM25, Dense Retrieval, Dokumen Regulasi Daerah

Abstract

Penelitian ini mengevaluasi hybrid retrieval berbasis Reciprocal Rank Fusion RRF untuk pencarian informasi pada dokumen Peraturan Daerah Kota Surabaya. Evaluasi dilakukan dengan membandingkan dense retrieval, BM25, dan hybrid RRF pada korpus regulasi daerah yang diekstraksi dari dokumen PDF. Korpus terdiri atas 106 PDF, dengan 104 dokumen berhasil diekstraksi menjadi teks nonkosong. Setelah proses chunking fixed-size 200 kata dengan overlap 50 kata, diperoleh 9.763 chunk. Evaluasi menggunakan 100 pertanyaan faktual singlehop dengan TopK lima dokumen. Komponen dense menggunakan model intfloatmultilinguale5small, sedangkan komponen sparse menggunakan BM25. Hybrid retrieval dibentuk dengan menggabungkan peringkat dense dan BM25 menggunakan RRF dengan konstanta 60. Hasil doc-level menunjukkan BM25 dan hybrid RRF menghasilkan Precision5 sebesar 0,172, Recall5 sebesar 0,86, dan F15 sebesar 0,2867, lebih tinggi dibanding dense retrieval dengan F15 sebesar 0,2667. Pada chunklevel, BM25 memperoleh F15 tertinggi sebesar 0,2133, diikuti hybrid RRF sebesar 0,2000 dan dense retrieval sebesar 0,1433. Temuan ini menunjukkan bahwa pada konfigurasi dan karakteristik pertanyaan yang digunakan, penggabungan peringkat dengan RRF belum melampaui BM25, namun tetap mampu mempertahankan kinerja doc-level dan mengungguli dense retrieval murni.

References

Anggraini Puspita Sari, M. M. Al Haromainy, and Ryan Purnomo, “Implementasi Metode Rapid Application Development Pada Aplikasi Sistem Informasi Monitoring Santri Berbasis Website,” Decode: Jurnal Pendidikan Teknologi Informasi, vol. 4, no. 1, pp. 316–325, Mar. 2024, doi: 10.51454/decode.v4i1.348.

P. Lewis et al., “Retrieval-Augmented generation for Knowledge-Intensive NLP Tasks,” Apr. 2021, [Online]. Available: http://arxiv.org/abs/2005.11401

M. Buffa, A. Ferrara, S. Picascia, D. Riva, and S. Castano, “Enhancing legal document building with Retrieval-Augmented generation,” Computer Law & Security Review, vol. 59, p. 106229, Nov. 2025, doi: 10.1016/j.clsr.2025.106229.

S. Robertson and H. Zaragoza, “The probabilistic relevance framework: BM25 and beyond,” Foundations and Trends in Information Retrieval, vol. 3, no. 4, pp. 333–389, 2009, doi: 10.1561/1500000019.

Suharyadi and I. Saputra, “Hybrid Ensemble Retrieval-Augmented generation for Indonesian Legal Consultation with Keyword Boosting,” Journal of Novel Engineering Science and Technology, vol. 4, no. 02, pp. 71–85, Jul. 2025, doi: 10.56741/jnest.v4i02.1042.

Z. Rackauckas, “RAG-Fusion: a New Take on Retrieval-Augmented generation,” Feb. 2024, doi: 10.5121/ijnlc.2024.13103.

M. Hendriksen, G. Vries, and A. P. De; Potthast, “Open Web Search at LongEval 2023: Reciprocal Rank Fusion on Automatically Generated Query Variants Notebook for the LongEval Lab at CLEF 2023,” 2023.

B. Merchant, A. Khazi, and S. S. Sonawane, “Reciprocal Rank Fusion Based Hybrid Dense-Sparse Information Retrieval on Code-Mixed Banglish Social Media Text,” 2025.

L. Gao, Z. Dai, T. Chen, Z. Fan, B. Van Durme, and J. Callan, “Complementing Lexical Retrieval with Semantic Residual Embedding,” Mar. 2021, Online. Available: http://arxiv.org/abs/2004.13969

M. Hindi, L. Mohammed, O. Maaz, and A. Alwarafy, “Enhancing the Precision and Interpretability of Retrieval-Augmented generation (RAG) in Legal Technology: A Survey”, doi: 10.1109/ACCESS.2024.0429000.

G. Cormack, C. Clarke, and S. Büttcher, Reciprocal Rank Fusion outperforms Condorcet and Individual Rank Learning Methods. 2009. doi: 10.1145/1571941.1572114.

Downloads

Published

2026-07-01

How to Cite

Yulestiono, A. Y., Sari, A. P., & Rakhmadi, A. (2026). Evaluasi Hybrid Retrieval Berbasis Reciprocal Rank Fusion untuk Pencarian Informasi pada Dokumen Peraturan Daerah. Prosiding Seminar Nasional Informatika Bela Negara (SANTIKA), 6(1), 148–153. https://doi.org/10.33005/santika.v6i1.1233

Most read articles by the same author(s)

Obs.: This plugin requires at least one statistics/report plugin to be enabled. If your statistics plugins provide more than one metric then please also select a main metric on the admin's site settings page and/or on the journal manager's settings pages.

Similar Articles

1 2 3 > >> 

You may also start an advanced similarity search for this article.