01 配景
恶意代码(Malicious/Unwanted Code)泛指所有会对网络或系统爆发威胁或潜在威胁的盘算机代码,,,,,,,,造成目的系统信息泄露、资源滥用、破损系统完整性及可用性、违交恶的系统清静战略等危害。。。。。。。。
近年来,,,,,,,,虽然恶意代码爆发式增添,,,,,,,,但清静研究职员发明,,,,,,,,许多新型恶意代码都是已有恶意代码的变种,,,,,,,,这些变种许多是黑客使用变形、加壳、多态、代码扰乱等手艺制造的,,,,,,,,可以逃避是非名单、特征码匹配等古板的检测手艺[1][10]。。。。。。。。现实上,,,,,,,,这些变种征象反应了恶意代码之间的同源关系。。。。。。。。例如,,,,,,,,2017年泛起的WannaCry现实上与已知病毒Wcy具有同源关系,,,,,,,,但该病毒绕过了种种检测工具,,,,,,,,造成了严重的经济损失。。。。。。。。因此,,,,,,,,发明同源关系逐渐成为网络清静领域关注焦点。。。。。。。。
恶意代码同源剖析(Homology Analysis)是指通过恶意代码内外部特征以及天生和撒播的纪律,,,,,,,,剖析恶意代码之间衍生的关联性。。。。。。。。同源关系有许多种,,,,,,,,包括:家族同源、开发者同源、类型同源或者攻击源同源等。。。。。。。。本文主要关注恶意代码类型同源剖析问题。。。。。。。;;;;;;;诙褚獯肜嘈屯雌饰,,,,,,,,可以资助检测、预警恶意代码,,,,,,,,制订应急响应计划以及展望事务生长趋势。。。。。。。。
本文首先先容了相关基础知识,,,,,,,,简朴回首了同源剖析剖析手艺现状,,,,,,,,然后先容了基于图像分类的同源剖析手艺计划设计,,,,,,,,最后通过详细实验验证了基于图像分类的同源剖析手艺的有用性。。。。。。。。
02 基础知识
2.1 类型同源
恶意代码类型多种多样,,,,,,,,包括盘算机病毒、蠕虫、木马程序、后门程序、逻辑炸弹等。。。。。。。。每一类恶意代码往往会在以下三个方面保存相似性。。。。。。。。
(1)要害代码段
指为了实现某一恶意功效,,,,,,,,同源恶意代码在要害代码片断(如DLL注入、RPC服务)具有相似性,,,,,,,,这些相似代码片断也被称为基因码。。。。。。。。
(2)系统函数挪用
恶意行为的操作通常依赖对操作系统函数的挪用,,,,,,,,同源恶意代码挪用的函数名称、频次、顺序等可能保存类似。。。。。。。。
(3)功效行为
每一类恶意代码都有针对性的破损行为,,,,,,,,如勒索软件会读写用户数据、远程控制木马会审查屏幕或摄像头,,,,,,,,功效行为的相似性反应在文件、历程、网络及注册表等方面。。。。。。。。
2.2 图像化
图像化即恶意代码字节约内容的可视化展示,,,,,,,,而流内容包括了一个组装恶意代码完整的信息,,,,,,,,例如PE名堂恶意代码的头部、数据节、代码节、尾部等。。。。。。。。
黑客经常使用开源的恶意代码片断,,,,,,,,经由进一步开发、包装之后,,,,,,,,形成恶意代码变种;;;;;;;相同功效或者统一家族的恶意代码,,,,,,,,也会共享代码片断。。。。。。。。因此,,,,,,,,共享片断体现为相似的的流内容,,,,,,,,进而映射为图像中相似的纹理。。。。。。。。
图1,,,,,,,,2展示某些流氓软件(Application)两个家族InstallMonster和Hacktool图像化效果。。。。。。。?????梢钥吹絀nstallMonster和Hacktool类的示例样本即便来自差别的家族,,,,,,,,纹理上却具有显着相似性。。。。。。。。

图1. Application-InstallMonster

图2. Application-Hacktool
3 现状剖析
与恶意代码检测手艺相同,,,,,,,,同源剖析所接纳的特征也分为静态特征和动态特征。。。。。。。。静态特征包括:恶意代码的组装结构特征、API序列特征、代码语义、二进制内容特征等[1]。。。。。。。。动态特征通常为控制流程图、读取及修改的相关资源工具特征、API动态挪用。。。。。。。;;;;;;;袢√卣髦,,,,,,,,可以接纳关联剖析、机械学习分类以及图剖析等要领完成溯源。。。。。。。。
关联剖析即盘算恶意代码特征的相似度,,,,,,,,例如Jaccard系数[14,15]、海明距离、余弦距离等,,,,,,,,凭证相似度判断恶意代码之间是否保存关联。。。。。。。;;;;;;;谙嗨贫绕饰,,,,,,,,以恶意代码为节点、相似度为边,,,,,,,,可以构建恶意代码关系网络,,,,,,,,主要用于族群可视化,,,,,,,,进一步溯源、挖掘大宗离散恶意代码之间的关联[18]。。。。。。。。SVM、XGBoost[14]、DBScan[10,15]、模糊哈希[14]等常见的分类算法,,,,,,,,都在恶意代码同源剖析中有响应的研究与应用。。。。。。。。
图剖析作用于恶意代码的控制流程图,,,,,,,,提取收支度(Out/In degree)、中心中心性(Betweenness centrality)、群集系数(Clustering coefficient)等图结构怀抱[16],,,,,,,,通过盘算这些怀抱的相似性,,,,,,,,判断恶意代码是否保存关联。。。。。。。。使用图剖析还可以在族群中挖掘相似子图形成族群基因,,,,,,,,通过基因比照判断恶意代码是否同源[12]。。。。。。。。赵等人运用了图卷积网络(Graph Convolutional Network,,,,,,,,GCN)手艺,,,,,,,,对恶意代码的API挪用图举行分类,,,,,,,,从而剖析同源性[17]。。。。。。。。
2011年,,,,,,,,Nataraj等人提出将恶意代码的流内容转换成灰度图像,,,,,,,,然后提取GIST、局部空间平均值等特征,,,,,,,,团结KNN算法对恶意代码举行分类[3]。。。。。。。。随后,,,,,,,,泛起了一些研究延续该思绪,,,,,,,,好比将字节熵[4]、API挪用[5]、opcode哈希[7]等转换为图像,,,,,,,,卷积神经网络(Conventional Neural Network,,,,,,,,CNN)[7]、是非期影象(Long-short Term Memory,,,,,,,,LSTM)网络[8,9]等深度学习要领相继被应用于恶意代码同源剖析。。。。。。。。
接纳图像分类手艺的同源剖析要领,,,,,,,,不要求剖析职员具备逆向工程专业知识,,,,,,,,并且无需人工提取特征,,,,,,,,因此应用起来较量无邪。。。。。。。。得益于盘算机视觉领域的快速生长,,,,,,,,这种要领也能够取得较高的准确性。。。。。。。。以下重点先容该类手艺。。。。。。。。
4 计划设计
基于图像分类的同源剖析计划中,,,,,,,,典范的实现手艺就是基于CNN的恶意代码同源剖析手艺计划,,,,,,,,主要包括以下部分组成:
(1)数据集构建:确定恶意代码的种别划分方法,,,,,,,,网络样本并标注种别,,,,,,,,作为训练数据。。。。。。。。本文以类型作为种别划分方法。。。。。。。。
(2)图像化处置惩罚:将训练样本转化为图像,,,,,,,,作为CNN网络的输入。。。。。。。。
(3)CNN网络构建:构建出CNN神经网络结构(如VGGNet、GoogleNet、ResNet等)。。。。。。。。
(4)模子训练:将训练数据输入CNN网络举行训练,,,,,,,,获得分类模子。。。。。。。。
(5)模子应用:将待测样本图像化,,,,,,,,输入分类模子,,,,,,,,凭证输出种别判断所属种别。。。。。。。。应用流程如图3所示:

图3. 基于CNN图像分类的恶意代码同源剖析流程
5 实验剖析
本实验中网络了7种类型的恶意代码样本,,,,,,,,详细见表1。。。。。。。。

表1. 实验数据集
数据集凭证比例4:1划分为训练集和测试集。。。。。。。;;;;;;;诠菇–NN网络结构,,,,,,,,经由200次迭代训练,,,,,,,,模子损失收敛至0.0088,,,,,,,,训练准确率抵达0.9957。。。。。。。。图4展示模子的训练历程。。。。。。。。

图4. 训练历程
表2列出了模子在测试集上的各项测试指标,,,,,,,,总体准确率为0.93。。。。。。。。
图5为测试的混淆矩阵。。。。。。。。在实验的7个种别中,,,,,,,,Trojan作为较重大的一种恶意代码类型,,,,,,,,测试准确性最低。。。。。。。。

表2. 测试性能

图5. 混淆矩阵
6 总结
恶意代码同源剖析,,,,,,,,一方面可追踪定位攻击泉源或攻击者,,,,,,,,阻止APT攻击,,,,,,,,对黑客爆发震慑攻击作用;;;;;;;另一方面,,,,,,,,恶意软件检测手艺保存疏漏,,,,,,,,同源剖析可协助检测、提防恶意软件。。。。。。。。本文通太过析及验证,,,,,,,,以为基于图像分类的恶意代码同源剖析具备可行性。。。。。。。。但恶意代码的类型之间错综重大,,,,,,,,没有明确的划分界线,,,,,,,,也是限制分类准确性的缘故原由之一。。。。。。。。家族显然是比类型越发准确的一种同源划分方法。。。。。。。。然而,,,,,,,,有些家族样本数目重大,,,,,,,,有些家族仅有少量可追溯的样本,,,,,,,,若以家族划分种别,,,,,,,,则需要解决样本不平衡问题。。。。。。。。通过起源判断,,,,,,,,若是增添种别划分的细粒度,,,,,,,,分类准确率会获得进一步提升,,,,,,,,虽然这些问题有待进一步探索。。。。。。。。
参考文献
[1]褚乾峰, 朱信宇, 刘功申. 恶意代码同源判断手艺综述[J]. 通讯手艺, 2017, 50(007):1484-1492.
[2]Goldberg L, Goldberg P, Phillips C, et al. Constructing Computer Virus Phylogenies[J]. Journal of
Algorithms,1998,26(01):188-208.
[3]Nataraj L, Karthikeyan S, Jacob G, et al. Malware images: visualization and automatic classification[C]. IEEE Symposium on Visualization for Cyber Security, Pittsburg, PA, USA, ACM. 2011.
[4]Han K S , Lim J H , Kang B , et al. Malware analysis using visualized images and entropy graphs[J]. International Journal of Information Security, 2015, 14(1):1-14.
[5]Kolosnjaji B , Zarras A , Webster G , et al. Deep Learning for Classification of Malware System Call Sequences[C]// Australasian Joint Conference on Artificial Intelligence. Springer International Publishing, 2016.
[6]Ni S , Qian Q , Zhang R . Malware identification using visualization images and deep learning[J]. Computers & Security, 2018, 77(AUG.):871-885.
[7]Raff E , Barker J , Sylvester J , et al. Malware Detection by Eating a Whole EXE. 2017.
[8]Quan, Boydell, Oisin, et al. Deep learning at the shallow end: Malware classification for non-domain experts[J]. Digital investigation: The internatnional journal of digital forensics & incident response, 2018.
[9]Venkatraman S , Alazab M , Vinayakumar R . A hybrid deep learning image-based analysis for effective malware detection[J]. Information Security Technical Report, 2019, 47(Aug.):377-389.
[10]钱雨村,,,,,,,,彭国军,,,,,,,,王滢等.恶意代码同源性剖析及家族聚类. 盘算机工程与应用,,,,,,,,2015,,,,,,,,56(18):76-81.
[11]Park L, Yu J, Kang H K, et al. Birds of a Feature: Intrafamily clustering for version identification of packed malware[J]. IEEE systems journal, 2020,14(3):4545-4556.
[12] Zhao B L, Shan Z, Liu F D, et al. Malware homology identification based on a gene perspective[J]. 信息与电子工程前沿:英文版, 2019(6):801-815.
[13]Li Y, Sundaramurthy S C, Bards A G, et al. Experimental study of fuzzy hashing in malware clustering analysis[C]. Usenix, Washington DC, USA, 2015: 1-8.
[14]Ahmadi M , Giacinto G , Ulyanov D , et al. Novel feature extraction, selection and fusion for effective malware family classification[DB]. 2015.
[15]Kinable J,Kostakis O.Malware Classification based on Call Graph Clustering[J].Journal of Computer Virology and Hacking Techniques,2011,7(04):233-245.
[16]Jang J W , Woo J , Mohaisen A , et al. Mal-Netminer: Malware Classification Approach Based on Social Network Analysis of System Call Graph[J]. Mathematical Problems in Engineering,2015,(2015-10-1), 2015, 2015(PT.18):731-734.
[17]赵炳麟, 孟曦, 韩金,等. 基于图结构的恶意代码同源性剖析[J]. 通讯学报, 2017, v.38;No.365(S2):86-93.
[18]Sanders H, Saxe J. Malware data science: Attack detection and attribution[M]. No Starch Press, 2018.
[19]Ronen R , Radu M , Feuerstein C , et al. Microsoft Malware Classification Challenge[DB]. 2018. https://arxiv.org/pdf/1802.10135.pdf.
版权声明
转载请务必注明来由。。。。。。。。
版权所有,,,,,,,,违者必究。。。。。。。。
- 要害词标签:
- 3377体育网官网入口 人工智能清静 AI清静应用 恶意代码同源剖析

京公网安备 11010802026257号