两阶段物联网资产识别模型的研究-AET-电子技术应用

两阶段物联网资产识别模型的研究

网络安全与数据治理

权晓文1,2，汪连连2，韩卫东2，任高峰2，杨家海1

1.清华大学网络科学与网络空间研究院； 2.远江盛邦（北京）网络安全科技股份有限公司

摘要： 提出了一种两阶段的物联网资产识别模型。首先，对异构协议进行分析，解决多样化协议流量特征提取困难问题。其次，利用轻量级模型SqueezeNet过滤非物联网设备，提高识别效率并降低计算负担。为进一步解决数据不均衡问题，引入生成对抗网络（GAN）生成合成样本数据，平衡数据分布。最后，采用 XLNet与注意力机制结合的模型来识别物联网设备的类型，有效提升了模型在大规模物联网网络环境中的识别精度和效率。实验结果表明，模型在公开数据集上的准确率达到99.48%，召回率提升2.02%，F1分数提高1.85%，并在真实环境中保持99.01%的准确率。该模型为物联网资产管理和安全管理提供了有效的解决方案。

关键词： 物联网特征选择设备过滤资产识别样本均衡

中图分类号：TP309文献标识码：ADOI:10.19358/j.issn.2097-1788.2025.04.002
引用格式：权晓文，汪连连，韩卫东，等. 两阶段物联网资产识别模型的研究［J］.网络安全与数据治理，2025，44（4）：10-18.

Research on two-stage IoT asset identification model

Quan Xiaowen1,2， Wang Lianlian2， Han Weidong2， Ren Gaofeng2， Yang Jiahai1

1. Institute of Network Science and Cyberspace, Tsinghua University; 2. WebRay(Beijing) Technology Co., Ltd.

Abstract： This article proposes a two-stage IoT asset identification model. Firstly, this article analyzes heterogeneous protocols to address the difficulty of extracting traffic characteristics from diverse protocols. Secondly, this article utilizes the lightweight model SqueezeNet to filter non IoT devices, improving recognition efficiency and reducing computational burden. To further address the issue of data imbalance, a Generative Adversarial Network (GAN) is introduced to generate synthetic sample data and balance the data distribution. Finally, this article adopts a model combining XLNet and attention mechanism to identify the types of IoT devices, effectively improving the recognition accuracy and efficiency of the model in large-scale IoT network environments. The experimental results show that the accuracy of the model on public datasets reaches 99.48%, the recall rate increases by 2.02%, the F1 score increases by 1.85%, and maintains an accuracy of 99.01% in real environments. This model provides an effective solution for IoT asset management and security management.

Key words : IoT；feature selection; equipment filtering; asset recognition; sample balancing; deep learning

引言

物联网（IoT）作为信息科技产业的第三次革命，正迅速扩展，尤其在工业物联网、车联网、卫星互联网等领域［1］。然而，伴随物联网设备的激增，传统的设备资产管理方式不仅需要大量人力物力，还对管理员的专业能力提出了更高要求。物联网设备通过多种无线方式接入网络，使用多种协议，其中许多为专有或非标准协议，如何快速、准确地识别和管理这些设备成为亟待解决的难题。

传统的主被动资产摸底检测方式容易将物联网设备误分类，忽略其独特属性。同时，物联网设备的安全问题不容忽视，受攻击的设备不仅会丧失功能，还可能被利用作为跳板威胁整个网络的安全［2］。因此，有效识别物联网设备显得尤为紧迫。

物联网资产识别技术在物联网系统中具有重要作用［3］：它帮助管理员建立全面的设备清单，支持漏洞管理、补丁分发和访问控制；能够发现未授权或异常设备，有效降低安全风险；同时，精准识别和跟踪设备活动是满足隐私保护法规的前提。

近年来,物联网设备识别和异常检测工作成为研究热点，主要针对以下几个方面：

（1）针对物联网特征提取问题，文献［4］提出了一种称为DPFEN的独特双相特征提取技术，用于对IoT设备上的网络攻击进行分类，但所提出的方法在数据集的选择和应用范围上存在一定的局限性，会影响其在实际IoT环境中的有效性和可靠性。文献［5］使用云计算的多特征提取极限学习机（MFEELM）算法，检测和发现对云节点的网络入侵。但MFE-ELM算法只在特定的云环境上进行训练和测试，无法很好地泛化到其他不同的网络环境和攻击类型。

（2）针对样本不均衡问题，文献［6］根据语义边界检测任务的特点，提出了一种损失函数来解决样本不平衡的问题，可以以不同的方式处理样本，让网络更加关注难以分类的样本。文献［7］提出了样本平衡策略模块来优化训练样本之间的不平衡，尤其是正和负、简单和困难样本之间的不平衡。但这两种方法，在处理极端不平衡的数据集时，会限制模型的泛化能力，导致预测精度较低。

(3)针对物联网资产识别问题，文献［8］提出一种基于流量特征的两层物联网设备类型定义和识别方法，可以训练物联网设备类型并识别每种类型下的设备。文献［9］提出一种基于网络流量的物联网设备识别方法，此方法通过提取协议统计特征和流级统计特征，有效降低了特征提取的成本。IoT设备类型众多，特征构造复杂，但当新的设备类型被引入网络或现有设备的行为因制造商的合法固件升级而发生变化时，文献［8］需要为每种设备类型定制特征模型，而文献［9］则必须针对所有类别重新训练所有型号。上述两种方法均表现了其在实现上具有较高的算法复杂度。

上述方法虽然能够识别出网络中的物联网设备，但依旧存在局限性：（1）随着物联网设备种类和特征的增加，模型计算复杂度和资源需求显著提高；（2）设备加密通信的普及，流量内容特征无法直接获取；（3）设备流量分布不均，某些设备流量稀少，导致训练数据不平衡，影响模型性能，可能导致过拟合。

为解决上述问题，本文提出了两阶段物联网资产识别技术。第一阶段，采用异构协议融合的流量特征选择算法，从网络流量中提取关键特征，有效应对多样化协议环境和加密流量特征提取困难问题。同时，利用轻量化SqueezeNet模型过滤非物联网设备，减少不必要的计算资源消耗。第二阶段，引入GAN模型生成稀缺类别样本，平衡数据分布，提升模型的泛化能力。在此基础上，结合XLNet-Attention模型进一步对物联网资产类型进行识别。该方法有效应对了计算复杂度、加密流量分析和数据不均衡问题，为物联网资产管理和安全防护提供了可行技术路径。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000006407

作者信息：

权晓文1,2，汪连连2，韩卫东2，任高峰2，杨家海1

（1.清华大学网络科学与网络空间研究院，北京100084；

2.远江盛邦（北京）网络安全科技股份有限公司，北京100085）

Magazine.Subscription.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容