《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 基于双模型的半监督流形混合流量分类方法
基于双模型的半监督流形混合流量分类方法
网络安全与数据治理
马可1,何明枢1,蔡晶晶2,王小娟1
1.北京邮电大学电子工程学院;2.永信至诚科技集团股份有限公司
摘要: 深度学习技术在网络流量分类领域中得到广泛应用,但存在对大量数据的依赖以及过拟合问题。为解决该问题,提出了一种结合双模型协作与流形混合的半监督深度学习方法。该方法使用教师-学生架构,通过移动指数平均辅助模型学习过程,从而提升模型的泛化性能,并于模型的特征空间中进行数据的流形混合,能够有效改善模型的决策边界,进一步增强模型的鲁棒性。实验结果表明,在不同数据类别,数据量为1 000的条件下,方法在三种网络流量数据集上都能达到90%以上的准确率,并在更少量数据的条件下保持较高的分类精度。
中图分类号:TP393.08文献标志码:ADOI:10.19358/j.issn.2097-1788.2026.01.001
中文引用格式:马可,何明枢,蔡晶晶,等. 基于双模型的半监督流形混合流量分类方法[J].网络安全与数据治理,2026,45(1):1-8.
英文引用格式:Ma Ke,He Mingshu,Cai Jingjing, et al. A semi-supervised manifold mixup traffic classification method based on MeanTeacher[J].Cyber Security and Data Governance,2026,45(1):1-8.
A semi-supervised manifold mixup traffic classification method based on Mean-Teacher
Ma Ke1,He Mingshu1,Cai Jingjing2,Wang Xiaojuan1
1. School of Electronic Engineering, Beijing University of Posts and Telecommunications; 2. Integrity Technology Group Inc.
Abstract: Deep Learning techniques have been widely applied in the field of network traffic classification. However, there still exist various challenges, including dependency on large scale data and overfitting. To address these issues, a semisupervised deep learning method combining mean teacher and manifold mixup is proposed. This method employs a teacher-student architecture, utilizing Exponential Moving Average (EMA) to assist the model learning process and to enhance the generalization capability of model. Additionally, manifold mixup in the feature space effectively refines the model′s decision boundary, strengthening robustness. Experimental results demonstrate that with only 1 000 samples per class, the method achieves over 90% accuracy across three network traffic datasets while maintaining outstanding performance under fewshot condition.
Key words : traffic classification; semisupervised learning; manifold mixup; teacher-student model

引言

网络流量分类(Traffic Classification)技术能够精准识别不同应用程序或服务所产生的网络流量,同时探测出潜在的威胁流量,这对于维护网络安全与稳定运行具有关键意义。如今,互联网技术呈现出日新月异的发展态势,网络流量也随之呈现出爆炸式增长以及复杂化的特点。流量加密技术,诸如广泛运用的TLS/SSL协议,在切实保障用户隐私和数据安全方面成效显著。然而,这种加密技术的广泛应用也给网络流量分类带来了前所未有的挑战。传统的流量分类方法,例如基于端口的方法,主要依据流量五元组中的端口号信息来推断应用类型。然而,面对当下动态端口和端口伪装技术,尤其是针对日益复杂的加密流量,这类简单依赖端口或明文载荷的方法已经暴露出明显的局限性,难以满足实际需求。随着研究的不断深入,机器学习(Machine Learning)方法被引入到流量分类领域。但目前的机器学习方法大多依赖于人工设计的流量特征,这在很大程度上限制了其泛化能力,使其难以应对复杂多变的网络环境。而深度学习(Deep Learning)方法虽具备自动从原始数据中提取有效特征的优势,但对大量标记数据存在高度依赖性,而在网络安全领域,获取大规模、高质量的标记流量数据成本高昂。同时,当训练数据规模不足、代表性不强或存在偏差时,深度模型因其高复杂度和海量参数,极易学习到数据中的噪声而非普适规律,从而导致过拟合问题,降低了模型在真实网络环境中的泛化能力。鉴于上述问题,本文提出了一种基于教师-学生双模型的半监督流形混合流量分类方法(Manifold Mixup Mean Teacher,M3T)。教师-学生架构(Mean Teacher,MT)是一种利用双模型架构的先进方法。在该架构中,学生模型借助梯度下降方法,利用标记数据与无标记数据进行更新迭代;而教师模型则采用移动指数平均(Exponential Moving Average, EMA)方式更新参数,凭借其更为稳定的输出,对学生的模型学习过程进行有效监督,进而显著提升模型的泛化性能。在此基础上,本研究进一步引入由教师模型引导的流形特征混合机制,于教师模型的深层特征空间中运用流形混合(Manifold Mixup)方法,构建起“教师特征扰动-学生动态对齐”的双向优化框架,以此增强模型对特征扰动的鲁棒性,同时优化决策边界,使其更适应复杂的流量分类场景。综上所述,本文的主要贡献为:(1)提出教师模型引导的流形特征混合机制,将流形混合迁移至教师模型的深层特征空间,构建“教师特征扰动-学生动态对齐”双向优化框架。利用教师EMA参数提供的稳定特征表达,避免学生模型早期特征的不确定性干扰。(2)通过三项损失的协同,在模型框架中实现基础分类、一致性对齐与决策边界平滑的联合优化。交叉熵损失保证基础分类能力;一致性损失强制学生输出与教师输出对齐,实现一致性正则化,缓解模型过拟合问题;混合损失增强模型对特征扰动的鲁棒性,优化决策边界平滑。(3)提出一种基于教师-学生架构的半监督流形混合网络流量分类模型框架,在多个流量数据集上评估预训练模型,结果显示能够普遍取得90%以上的准确率。


本文详细内容请下载:

http://www.chinaaet.com/resource/share/2000006926


作者信息:

马可1,何明枢1,蔡晶晶2,王小娟1

(1.北京邮电大学电子工程学院,北京100876;

2.永信至诚科技集团股份有限公司,北京100089)

2.jpg

此内容为AET网站原创,未经授权禁止转载。