宇航计测技术 ›› 2024, Vol. 44 ›› Issue (6): 1-13.doi: 10.12060/j.issn.1000-7202.2024.06.01
• 人工智能计量测试专栏 • 下一篇
游新冬,张旭,吕学强,董志安,马登豪
YOU Xindong,ZHANG Xu,LYU Xueqiang,DONG Zhian,MA Denghao
摘要: 实体搜索旨在从大量文档中准确找到与用户查询相关的实体,是信息检索中一个重要任务。实体搜索任务在提升用户体验、跨领域应用、大数据分析和智能服务中发挥着关键作用。随着大语言模型(LLM)的发展,其在多个领域中展现了卓越的性能。LLM的强大语义理解和生成能力能有效提升实体搜索的准确度,但目前针对实体搜索任务的LLM效果评测尚未充分展开。因此,提出了一种面向实体搜索任务的LLM评测框架,通过构建并公开发布跨领域中文实体搜索测试集,不仅能够完善该评测体系,还能为进一步优化和应用这些模型提供有价值的参考。此体系在九个开源LLM上进行了测试,展示了这些LLM在实体搜索中的实际效果。通过对比试验,从不同角度评估并分析了LLM的性能,为其在实体搜索领域的应用提供实证依据,并为未来的研究提供新思路。
中图分类号: