摘要: 随着大语言模型的迅速发展,其广泛的应用前景引起了学术界和产业界的高度关注。大语言模型在实际应用前,需要对其性能和潜在风险进行全面评估。近年来,已有研究从多个角度讨论了大语言模型的评估方法。文中系统地总结了大语言模型在性能、鲁棒性和对齐方面的评估指标、方法和基准,分析了各种评估指标和方法的优劣,最后探讨了大语言模型的未来研究方向和面临的挑战。
中图分类号:
宋佳磊 , 左兴权, 张修建, 黄海. 大语言模型评估方法综述[J]. 宇航计测技术, 2025, 45(2): 1-30.
SONG Jialei, ZUO Xingquan, ZHANG Xiujian, HUANG Hai . A Review of Large Language Model Evaluation Methods[J]. Journal of Astronautic Metrology and Measurement, 2025, 45(2): 1-30.