Please wait a minute...

当期目录

    2025年 第45卷 第2期    刊出日期:2025-04-15
    上一期   
    大语言模型评估方法综述
    宋佳磊 , 左兴权, 张修建, 黄海
    2025, 45(2):  1-30.  doi:10.12060/j.issn.1000-7202.2025.02.01
    摘要 ( )   PDF (2852KB) ( )  
    相关文章 | 多维度评价
    随着大语言模型的迅速发展,其广泛的应用前景引起了学术界和产业界的高度关注。大语言模型在实际应用前,需要对其性能和潜在风险进行全面评估。近年来,已有研究从多个角度讨论了大语言模型的评估方法。文中系统地总结了大语言模型在性能、鲁棒性和对齐方面的评估指标、方法和基准,分析了各种评估指标和方法的优劣,最后探讨了大语言模型的未来研究方向和面临的挑战。
    类脑智能测评:内涵、方法与应用
    廖元浩, 苏春旺, 江卫国, 文华, 李尤君, 张四平, 黄子罡
    2025, 45(2):  31-48.  doi:10.12060/j.issn.1000-7202.2025.02.02
    摘要 ( )   PDF (4086KB) ( )  
    相关文章 | 多维度评价
    为客观、全面地评估类脑智能系统的综合性能,亟待建立一套科学的类脑智能测评体系。在本文中,阐述了类脑智能测评的理论基础,包括脑科学理论、类脑计算理论、脑科学与类脑计算的协同发展以及类脑智能测评的关键问题;详细讨论了类脑智能测评方法,包括基于脑机制的测评方法和基于类脑模型的测评方法,并提出了相应的类脑测评指标,构建了分级的测评标准数据集;此外,进一步考虑了类脑智能系统的软硬件一体化测评,提出了测评方法的集成应用方法,并结合类脑定位与导航任务进行了系统化测评实践。
    光学神经网络研究进展
    冯佳楠, 胡建阳, 张修建, 林杰, 金鹏
    2025, 45(2):  49-62.  doi:10.12060/j.issn.1000-7202.2025.02.03
    摘要 ( )   PDF (11030KB) ( )  
    相关文章 | 多维度评价
    近年来,以深度学习为代表的人工智能技术快速发展,人工智能深度赋能传统行业,引领实现新一轮产业技术革命。然而,电子芯片晶体管的尺寸正逐步接近物理极限,导致传统电子神经网络无法满足指数增长的算力需求。受益于光子的独特优势,光计算技术将光电子技术与神经网络模型相结合,具有并行化、高速度、低功耗、多维度处理优势。文章对光学神经网络研究过程进行了梳理,重点对光学衍射神经网络的计算架构进行了分析讨论,最后总结了大规模光学衍射神经网络实用化面临的挑战,并对未来发展趋势进行了展望。
    大语言模型辅助的知识图谱渐进式错误修复方法
    郑旭, 刘静, 张栗粽, 闫科, 宋发仁, 常清雪
    2025, 45(2):  63-71.  doi:10.12060/j.issn.1000-7202.2025.02.04
    摘要 ( )   PDF (1038KB) ( )  
    相关文章 | 多维度评价
    知识图谱是有效整合和组织信息的重要知识表示形式,广泛应用于搜索引擎、智能问答和推荐系统。传统知识图谱构建依赖于人工标注和规则系统,规模巨大,质量参差,难以适应海量数据的动态变化。近年来,大模型在知识生成方面表现突出,但提升知识图谱错误检测以及修正的研究仍然缺乏。为此,提出了一种大语言模型辅助的知识图谱渐进式错误修复方法。该方法利用嵌入模型评估知识三元组质量,以高质量三元组作为提示学习内容,实现了基于大语言模型的知识修复。基于大量试验分析,所提出的方法能够显著提升知识图谱的推理能力。
    基于决策路径的DNN模型鲁棒性测试样本扰动生成方法
    吴际, 聂彦凯, 曹鸿宇, 樊湘钰, 孙青, 杨海燕
    2025, 45(2):  72-82.  doi:10.12060/j.issn.1000-7202.2025.02.05
    摘要 ( )   PDF (1439KB) ( )  
    相关文章 | 多维度评价
    随着深度神经网络(DNN)内部结构日益复杂化,人们对其内部运行机理很难有直观的了解,模型出错的概率也大大增加,因此需要一种有效的DNN鲁棒性测试方法来解决模型的信任危机,以保证软件系统的可靠性和安全性。现有DNN鲁棒性测试方法多以神经元覆盖率为目标进行扰动样本的生成,并没有引入更多有关模型内部的信息,导致扰动程度过高,且生成的扰动样本存在大量冗余,对模型鲁棒性的提升能力十分有限。为此,提出了基于DNN 决策路径的鲁棒性测试样本扰动生成方法(DEPIPE),用待测模型最后一层卷积层构造决策树,对决策树中决策路径涉及的滤波器进行归因分析并求出影响因子,最后利用决策路径和影响因子来指导扰动样本的生成。试验结果表明,所生成的扰动样本在扰动程度上平均比现有更先进的模糊测试方法DLFuzz 降低了78%,在扰动的原始样本数量上平均增加27.7%。
    面向无人机感知与决策能力测量的虚拟仿真平台构建方法
    耿钰轩, 王立宏, 王潇潇, 汪思彤, 卢奕南, 伍铁如, 马锐
    2025, 45(2):  83-90.  doi:10.12060/j.issn.1000-7202.2025.02.06
    摘要 ( )   PDF (1880KB) ( )  
    相关文章 | 多维度评价
    随着无人机技术的发展,如何有效测量无人机的智能化水平成为重要问题。传统的实地测量方法成本高、效率低,且易受环境影响。因此,基于虚幻引擎和AirSim平台,提出了一种面向无人机感知与决策能力测量的虚拟仿真平台构建方法,通过虚拟环境中的任务执行表现来评估无人机的感知与决策能力。该平台利用高精度场景和动态天气、交通等因素,模拟复杂环境下无人机的飞行任务,支持多种无人机感知与决策算法的测试和评估。与实地测量相比,测量成本和时间都得到大幅降低,且增强了灵活性。试验结果表明,该平台在交互性和仿真效果方面具有显著优势,能够为无人机算法的优化和发展提供有效支持,展现出广泛的应用前景和实用价值。
    人工智能数字水印测评方法研究与测评平台构建
    荣先进, 王垚飞, 胡东辉
    2025, 45(2):  91-96.  doi:10.12060/j.issn.1000-7202.2025.02.07
    摘要 ( )   PDF (789KB) ( )  
    相关文章 | 多维度评价
    数字水印技术通过在数据中嵌入唯一标识,实现了数据的可追溯性,不仅提升了智能模型输出的可靠性,还增强了公众对人工智能系统的信任。然而,当前,特别是在人工智能领域,数字水印技术还缺乏科学统一的评价指标和规范的测评流程。本研究聚焦于图像水印技术和音频水印技术在人工智能领域的应用,结合智能模型的实际使用场景,设计了科学的测评指标,实现了测评的规范化。同时,构建了测评平台,实现了测试自动化和评估一体化,为提升水印技术在人工智能模型应用领域的溯源能力和应用水平提供了有力支撑,对确保人工智能的安全和可控发展具有重要意义。
    人工智能数据计量测试探索
    林杰, 孙静, 冯佳楠, 胡建阳, 张修建, 金鹏
    2025, 45(2):  97-102.  doi:10.12060/j.issn.1000-7202.2025.02.08
    摘要 ( )   PDF (669KB) ( )  
    相关文章 | 多维度评价
    当前,人工智能技术蓬勃发展,国内外推出了多种人工智能模型与产品,人工智能正在不断地影响人们的生活。数据是人工智能的核心要素之一,人工智能技术的发展离不开高质量数据的支撑,因此,对人工智能数据开展测量与评估是人工智能技术合法、安全和公平的重要前提。本研究围绕数据计量测试探讨了以数据的合法性、真实性、多样性、平衡性、数据隐私保护和伦理及数据量作为人工智能数据测量与评估的依据,并进行了讨论和分析。