基于特征序列的恶意代码静态检测技术-AET-电子技术应用

基于特征序列的恶意代码静态检测技术

网络安全与数据治理 4期

魏利卓，石春竹，许凤凯，张慕榕，郝娇

(中国电子信息产业集团有限公司第六研究所，北京100083)

摘要： 近年来，基于机器学习方法的恶意代码检测方法存在着无法自动和高效地提取恶意代码的问题，有些还需要人工对特征进行提取，但是提取的特征没有深层地描述恶意代码行为，存在检测的准确率较低、效率低等缺点。通过对静态恶意代码进行分析，从纹理特征和操作码特征入手，在提取纹理特征过程中，提出一种Simhash处理编译文件转换成灰度图像的方法，生成灰度图像后通过GIST算法和SIFT算法提取全局和局部图像纹理特征，并将全局和局部图像特征进行融合。

关键词： 恶意代码深度学习特征融合 API序列

中图分类号： TP391
文献标识码： A
DOI： 10.19358/j.issn.2097-1788.2022.04.009
引用格式：魏利卓，石春竹，许凤凯，等. 基于特征序列的恶意代码静态检测技术[J].网络安全与数据治理，2022，41(4)：56-64.

Static detection technique for malicious code based on feature sequences

Wei Lizhuo，Shi Chunzhu，Xu Fengkai，Zhang Murong，Hao Jiao

(The 6th Research Institute of China Electronice Corporation，Beijing 100083，China)

Abstract： In recent years, malicious code detection methods based on machine learning methods suffer from the problem of not being able to extract malicious code automatically and efficiently, and some of them require manual extraction of features, but the extracted features do not describe the malicious code behavior deeply, and there are disadvantages such as low accuracy and low efficiency of detection. In this paper, we analyze the static malicious code. Starting from texture features and opcode features, in the process of extracting texture features, this paper proposes a method of Simhash processing compiled files into grayscale images, generating grayscale images and then extracting global and local image texture features by GIST algorithm and SIFT algorithm, and fusing global and local image features.

Key words : malicious code；deep learning；feature fusion；API sequences

0 引言

在网络迅猛发展的今天，恶意代码已经成为网络安全的重要威胁，在网络信息安全中占有一席之地。当开源代码概念出现之后，产生了各种类型的代码，现在即使是新手也可以轻松地使用骇客工具创建恶意代码并发布到网络上，目前这种代码呈指数增长和扩散。现如今，国家网络安全问题受到了前所未有的关注。

日益严重的安全问题，已经渗入到人民日常生活乃至国家层面上，特别是在工业互联网中的网络攻击会给国家的工业造成巨额损失。例如，震网病毒曾于2010年大面积出现，是当今世界上第一个完全根据工业控制环境所产生的毁灭性蠕虫病毒，它在短时期内危及着许多公司的正常运营[3]。伊万诺-弗兰科夫斯克半数以上的家庭受到了停电影响，困扰持续了几个小时。在电站遭到攻击的同时，乌克兰的许多其他能源企业，如煤矿和石化等，也成为网络攻击的目标。

近年来，深度学习技术在人工智能应用领域受到了人们更多的关注。在语音识别、图形视觉效果及自然语言处理等应用领域，深度学习比浅层学习模型在特征提取、分类以及预测准确性方面有许多优势。鉴于其在其他领域的广泛应用，研究人员已经将深度学习用于恶意软件检测系统的开发，已有很好的检测结果，但也存在着不足之处。

比如，通过签名的恶意代码检测技术一般根据模式匹配的思路。2012年，Desnos提出了一种基于相似距离的检测软件之间的相似性和恶意软件的系统，从应用程序中提取签名，可以确定两个应用程序的相似性[5]。基于签名的恶意代码检测方法十分准确，但是对于未知的恶意代码来说却无能为力，因为需要有关人员不断地进行标记、更新病毒库，无法自动标记和更新，否则停歇之后，就会被逐渐淘汰下来，丧失其使用价值。

2020年，Kishore等人提出了一种利用沙盒辅助集成模型分析和检测JavaScript的新技术[6]。使用恶意软件沙箱提取有效载荷，以获得真实的脚本。将提取的脚本进行分析，以定义创建数据集所需的特征。但这种方法开销大，耗费大量的时间，需要保证虚拟环境下不被恶意代码攻击。

所以，针对以上恶意代码检测方法存在无法自动和高效提取恶意代码的问题，本文从纹理特征和操作码特征入手，提出了基于特征序列的恶意代码静态检测方法来实现自动、高效准确的恶意代码检测。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000004991。

作者信息：

魏利卓，石春竹，许凤凯，张慕榕，郝娇

(中国电子信息产业集团有限公司第六研究所，北京100083)

微信图片_20210517164139.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容