引用格式:权晓文,汪连连,韩卫东,等. 两阶段物联网资产识别模型的研究[J].网络安全与数据治理,2025,44(4):10-18.
引言
物联网(IoT)作为信息科技产业的第三次革命,正迅速扩展,尤其在工业物联网、车联网、卫星互联网等领域[1]。然而,伴随物联网设备的激增,传统的设备资产管理方式不仅需要大量人力物力,还对管理员的专业能力提出了更高要求。物联网设备通过多种无线方式接入网络,使用多种协议,其中许多为专有或非标准协议,如何快速、准确地识别和管理这些设备成为亟待解决的难题。
传统的主被动资产摸底检测方式容易将物联网设备误分类,忽略其独特属性。同时,物联网设备的安全问题不容忽视,受攻击的设备不仅会丧失功能,还可能被利用作为跳板威胁整个网络的安全[2]。因此,有效识别物联网设备显得尤为紧迫。
物联网资产识别技术在物联网系统中具有重要作用[3]:它帮助管理员建立全面的设备清单,支持漏洞管理、补丁分发和访问控制;能够发现未授权或异常设备,有效降低安全风险;同时,精准识别和跟踪设备活动是满足隐私保护法规的前提。
近年来,物联网设备识别和异常检测工作成为研究热点,主要针对以下几个方面:
(1)针对物联网特征提取问题,文献[4]提出了一种称为DPFEN的独特双相特征提取技术,用于对IoT设备上的网络攻击进行分类,但所提出的方法在数据集的选择和应用范围上存在一定的局限性,会影响其在实际IoT环境中的有效性和可靠性。文献[5]使用云计算的多特征提取极限学习机(MFEELM)算法,检测和发现对云节点的网络入侵。但MFE-ELM算法只在特定的云环境上进行训练和测试,无法很好地泛化到其他不同的网络环境和攻击类型。
(2)针对样本不均衡问题,文献[6]根据语义边界检测任务的特点,提出了一种损失函数来解决样本不平衡的问题,可以以不同的方式处理样本,让网络更加关注难以分类的样本。文献[7]提出了样本平衡策略模块来优化训练样本之间的不平衡,尤其是正和负、简单和困难样本之间的不平衡。但这两种方法,在处理极端不平衡的数据集时,会限制模型的泛化能力,导致预测精度较低。
(3)针对物联网资产识别问题,文献[8]提出一种基于流量特征的两层物联网设备类型定义和识别方法,可以训练物联网设备类型并识别每种类型下的设备。文献[9]提出一种基于网络流量的物联网设备识别方法,此方法通过提取协议统计特征和流级统计特征,有效降低了特征提取的成本。IoT设备类型众多,特征构造复杂,但当新的设备类型被引入网络或现有设备的行为因制造商的合法固件升级而发生变化时,文献[8]需要为每种设备类型定制特征模型,而文献[9]则必须针对所有类别重新训练所有型号。上述两种方法均表现了其在实现上具有较高的算法复杂度。
上述方法虽然能够识别出网络中的物联网设备,但依旧存在局限性:(1)随着物联网设备种类和特征的增加,模型计算复杂度和资源需求显著提高;(2)设备加密通信的普及,流量内容特征无法直接获取;(3)设备流量分布不均,某些设备流量稀少,导致训练数据不平衡,影响模型性能,可能导致过拟合。
为解决上述问题,本文提出了两阶段物联网资产识别技术。第一阶段,采用异构协议融合的流量特征选择算法,从网络流量中提取关键特征,有效应对多样化协议环境和加密流量特征提取困难问题。同时,利用轻量化SqueezeNet模型过滤非物联网设备,减少不必要的计算资源消耗。第二阶段,引入GAN模型生成稀缺类别样本,平衡数据分布,提升模型的泛化能力。在此基础上,结合XLNet-Attention模型进一步对物联网资产类型进行识别。该方法有效应对了计算复杂度、加密流量分析和数据不均衡问题,为物联网资产管理和安全防护提供了可行技术路径。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006407
作者信息:
权晓文1,2,汪连连2,韩卫东2,任高峰2,杨家海1
(1.清华大学网络科学与网络空间研究院,北京100084;
2.远江盛邦(北京)网络安全科技股份有限公司,北京100085)