中文引用格式:马可,何明枢,蔡晶晶,等. 基于双模型的半监督流形混合流量分类方法[J].网络安全与数据治理,2026,45(1):1-8.
英文引用格式:Ma Ke,He Mingshu,Cai Jingjing, et al. A semi-supervised manifold mixup traffic classification method based on MeanTeacher[J].Cyber Security and Data Governance,2026,45(1):1-8.
引言
网络流量分类(Traffic Classification)技术能够精准识别不同应用程序或服务所产生的网络流量,同时探测出潜在的威胁流量,这对于维护网络安全与稳定运行具有关键意义。如今,互联网技术呈现出日新月异的发展态势,网络流量也随之呈现出爆炸式增长以及复杂化的特点。流量加密技术,诸如广泛运用的TLS/SSL协议,在切实保障用户隐私和数据安全方面成效显著。然而,这种加密技术的广泛应用也给网络流量分类带来了前所未有的挑战。传统的流量分类方法,例如基于端口的方法,主要依据流量五元组中的端口号信息来推断应用类型。然而,面对当下动态端口和端口伪装技术,尤其是针对日益复杂的加密流量,这类简单依赖端口或明文载荷的方法已经暴露出明显的局限性,难以满足实际需求。随着研究的不断深入,机器学习(Machine Learning)方法被引入到流量分类领域。但目前的机器学习方法大多依赖于人工设计的流量特征,这在很大程度上限制了其泛化能力,使其难以应对复杂多变的网络环境。而深度学习(Deep Learning)方法虽具备自动从原始数据中提取有效特征的优势,但对大量标记数据存在高度依赖性,而在网络安全领域,获取大规模、高质量的标记流量数据成本高昂。同时,当训练数据规模不足、代表性不强或存在偏差时,深度模型因其高复杂度和海量参数,极易学习到数据中的噪声而非普适规律,从而导致过拟合问题,降低了模型在真实网络环境中的泛化能力。鉴于上述问题,本文提出了一种基于教师-学生双模型的半监督流形混合流量分类方法(Manifold Mixup Mean Teacher,M3T)。教师-学生架构(Mean Teacher,MT)是一种利用双模型架构的先进方法。在该架构中,学生模型借助梯度下降方法,利用标记数据与无标记数据进行更新迭代;而教师模型则采用移动指数平均(Exponential Moving Average, EMA)方式更新参数,凭借其更为稳定的输出,对学生的模型学习过程进行有效监督,进而显著提升模型的泛化性能。在此基础上,本研究进一步引入由教师模型引导的流形特征混合机制,于教师模型的深层特征空间中运用流形混合(Manifold Mixup)方法,构建起“教师特征扰动-学生动态对齐”的双向优化框架,以此增强模型对特征扰动的鲁棒性,同时优化决策边界,使其更适应复杂的流量分类场景。综上所述,本文的主要贡献为:(1)提出教师模型引导的流形特征混合机制,将流形混合迁移至教师模型的深层特征空间,构建“教师特征扰动-学生动态对齐”双向优化框架。利用教师EMA参数提供的稳定特征表达,避免学生模型早期特征的不确定性干扰。(2)通过三项损失的协同,在模型框架中实现基础分类、一致性对齐与决策边界平滑的联合优化。交叉熵损失保证基础分类能力;一致性损失强制学生输出与教师输出对齐,实现一致性正则化,缓解模型过拟合问题;混合损失增强模型对特征扰动的鲁棒性,优化决策边界平滑。(3)提出一种基于教师-学生架构的半监督流形混合网络流量分类模型框架,在多个流量数据集上评估预训练模型,结果显示能够普遍取得90%以上的准确率。
本文详细内容请下载:
http://www.chinaaet.com/resource/share/2000006926
作者信息:
马可1,何明枢1,蔡晶晶2,王小娟1
(1.北京邮电大学电子工程学院,北京100876;
2.永信至诚科技集团股份有限公司,北京100089)

