3377体育网官网入口

证券简称:3377体育网官网入口 证券代码:002212
7x24小时服务: 400-777-0777

人工智能清静|AI清静应用|基于图像分类的恶意代码同源剖析

恶意代码(Malicious/Unwanted Code)泛指所有会对网络或系统爆发威胁或潜在威胁的盘算机代码,,, ,,,,,造成目的系统信息泄露、资源滥用、破损系统完整性及可用性、违交恶的系统清静战略等危害 。。。。。。。。

人工智能清静|AI清静应用|基于图像分类的恶意代码同源剖析

宣布时间:2021-10-15
浏览次数:6780
分享:

01 配景

恶意代码(Malicious/Unwanted Code)泛指所有会对网络或系统爆发威胁或潜在威胁的盘算机代码,,, ,,,,,造成目的系统信息泄露、资源滥用、破损系统完整性及可用性、违交恶的系统清静战略等危害 。。。。。。。。

近年来,,, ,,,,,虽然恶意代码爆发式增添,,, ,,,,,但清静研究职员发明,,, ,,,,,许多新型恶意代码都是已有恶意代码的变种,,, ,,,,,这些变种许多是黑客使用变形、加壳、多态、代码扰乱等手艺制造的,,, ,,,,,可以逃避是非名单、特征码匹配等古板的检测手艺[1][10] 。。。。。。。。现实上,,, ,,,,,这些变种征象反应了恶意代码之间的同源关系 。。。。。。。。例如,,, ,,,,,2017年泛起的WannaCry现实上与已知病毒Wcy具有同源关系,,, ,,,,,但该病毒绕过了种种检测工具,,, ,,,,,造成了严重的经济损失 。。。。。。。。因此,,, ,,,,,发明同源关系逐渐成为网络清静领域关注焦点 。。。。。。。。

恶意代码同源剖析(Homology Analysis)是指通过恶意代码内外部特征以及天生和撒播的纪律,,, ,,,,,剖析恶意代码之间衍生的关联性 。。。。。。。。同源关系有许多种,,, ,,,,,包括:家族同源、开发者同源、类型同源或者攻击源同源等 。。。。。。。。本文主要关注恶意代码类型同源剖析问题 。。。。。。。;;;;;;;诙褚獯肜嘈屯雌饰,,, ,,,,,可以资助检测、预警恶意代码,,, ,,,,,制订应急响应计划以及展望事务生长趋势 。。。。。。。。

本文首先先容了相关基础知识,,, ,,,,,简朴回首了同源剖析剖析手艺现状,,, ,,,,,然后先容了基于图像分类的同源剖析手艺计划设计,,, ,,,,,最后通过详细实验验证了基于图像分类的同源剖析手艺的有用性 。。。。。。。。

02 基础知识

2.1 类型同源

恶意代码类型多种多样,,, ,,,,,包括盘算机病毒、蠕虫、木马程序、后门程序、逻辑炸弹等 。。。。。。。。每一类恶意代码往往会在以下三个方面保存相似性 。。。。。。。。

(1)要害代码段

指为了实现某一恶意功效,,, ,,,,,同源恶意代码在要害代码片断(如DLL注入、RPC服务)具有相似性,,, ,,,,,这些相似代码片断也被称为基因码 。。。。。。。。

(2)系统函数挪用

恶意行为的操作通常依赖对操作系统函数的挪用,,, ,,,,,同源恶意代码挪用的函数名称、频次、顺序等可能保存类似 。。。。。。。。

(3)功效行为

每一类恶意代码都有针对性的破损行为,,, ,,,,,如勒索软件会读写用户数据、远程控制木马会审查屏幕或摄像头,,, ,,,,,功效行为的相似性反应在文件、历程、网络及注册表等方面 。。。。。。。。

2.2 图像化

图像化即恶意代码字节约内容的可视化展示,,, ,,,,,而流内容包括了一个组装恶意代码完整的信息,,, ,,,,,例如PE名堂恶意代码的头部、数据节、代码节、尾部等 。。。。。。。。

黑客经常使用开源的恶意代码片断,,, ,,,,,经由进一步开发、包装之后,,, ,,,,,形成恶意代码变种;;;;;;;相同功效或者统一家族的恶意代码,,, ,,,,,也会共享代码片断 。。。。。。。。因此,,, ,,,,,共享片断体现为相似的的流内容,,, ,,,,,进而映射为图像中相似的纹理 。。。。。。。。

图1,,, ,,,,,2展示某些流氓软件(Application)两个家族InstallMonster和Hacktool图像化效果 。。。。。。。???? ?梢钥吹絀nstallMonster和Hacktool类的示例样本即便来自差别的家族,,, ,,,,,纹理上却具有显着相似性 。。。。。。。。

图1. Application-InstallMonster

图2. Application-Hacktool

3 现状剖析

与恶意代码检测手艺相同,,, ,,,,,同源剖析所接纳的特征也分为静态特征和动态特征 。。。。。。。。静态特征包括:恶意代码的组装结构特征、API序列特征、代码语义、二进制内容特征等[1] 。。。。。。。。动态特征通常为控制流程图、读取及修改的相关资源工具特征、API动态挪用 。。。。。。。;;;;;;;袢√卣髦,,, ,,,,,可以接纳关联剖析、机械学习分类以及图剖析等要领完成溯源 。。。。。。。。

关联剖析即盘算恶意代码特征的相似度,,, ,,,,,例如Jaccard系数[14,15]、海明距离、余弦距离等,,, ,,,,,凭证相似度判断恶意代码之间是否保存关联 。。。。。。。;;;;;;;谙嗨贫绕饰,,, ,,,,,以恶意代码为节点、相似度为边,,, ,,,,,可以构建恶意代码关系网络,,, ,,,,,主要用于族群可视化,,, ,,,,,进一步溯源、挖掘大宗离散恶意代码之间的关联[18] 。。。。。。。。SVM、XGBoost[14]、DBScan[10,15]、模糊哈希[14]等常见的分类算法,,, ,,,,,都在恶意代码同源剖析中有响应的研究与应用 。。。。。。。。

图剖析作用于恶意代码的控制流程图,,, ,,,,,提取收支度(Out/In degree)、中心中心性(Betweenness centrality)、群集系数(Clustering coefficient)等图结构怀抱[16],,, ,,,,,通过盘算这些怀抱的相似性,,, ,,,,,判断恶意代码是否保存关联 。。。。。。。。使用图剖析还可以在族群中挖掘相似子图形成族群基因,,, ,,,,,通过基因比照判断恶意代码是否同源[12] 。。。。。。。。赵等人运用了图卷积网络(Graph Convolutional Network,,, ,,,,,GCN)手艺,,, ,,,,,对恶意代码的API挪用图举行分类,,, ,,,,,从而剖析同源性[17] 。。。。。。。。

2011年,,, ,,,,,Nataraj等人提出将恶意代码的流内容转换成灰度图像,,, ,,,,,然后提取GIST、局部空间平均值等特征,,, ,,,,,团结KNN算法对恶意代码举行分类[3] 。。。。。。。。随后,,, ,,,,,泛起了一些研究延续该思绪,,, ,,,,,好比将字节熵[4]、API挪用[5]、opcode哈希[7]等转换为图像,,, ,,,,,卷积神经网络(Conventional Neural Network,,, ,,,,,CNN)[7]、是非期影象(Long-short Term Memory,,, ,,,,,LSTM)网络[8,9]等深度学习要领相继被应用于恶意代码同源剖析 。。。。。。。。

接纳图像分类手艺的同源剖析要领,,, ,,,,,不要求剖析职员具备逆向工程专业知识,,, ,,,,,并且无需人工提取特征,,, ,,,,,因此应用起来较量无邪 。。。。。。。。得益于盘算机视觉领域的快速生长,,, ,,,,,这种要领也能够取得较高的准确性 。。。。。。。。以下重点先容该类手艺 。。。。。。。。

4 计划设计

基于图像分类的同源剖析计划中,,, ,,,,,典范的实现手艺就是基于CNN的恶意代码同源剖析手艺计划,,, ,,,,,主要包括以下部分组成:

(1)数据集构建:确定恶意代码的种别划分方法,,, ,,,,,网络样本并标注种别,,, ,,,,,作为训练数据 。。。。。。。。本文以类型作为种别划分方法 。。。。。。。。

(2)图像化处置惩罚:将训练样本转化为图像,,, ,,,,,作为CNN网络的输入 。。。。。。。。

(3)CNN网络构建:构建出CNN神经网络结构(如VGGNet、GoogleNet、ResNet等) 。。。。。。。。

(4)模子训练:将训练数据输入CNN网络举行训练,,, ,,,,,获得分类模子 。。。。。。。。

(5)模子应用:将待测样本图像化,,, ,,,,,输入分类模子,,, ,,,,,凭证输出种别判断所属种别 。。。。。。。。应用流程如图3所示:

图3. 基于CNN图像分类的恶意代码同源剖析流程

5 实验剖析

本实验中网络了7种类型的恶意代码样本,,, ,,,,,详细见表1 。。。。。。。。

表1. 实验数据集

数据集凭证比例4:1划分为训练集和测试集 。。。。。。。;;;;;;;诠菇–NN网络结构,,, ,,,,,经由200次迭代训练,,, ,,,,,模子损失收敛至0.0088,,, ,,,,,训练准确率抵达0.9957 。。。。。。。。图4展示模子的训练历程 。。。。。。。。

图4. 训练历程

表2列出了模子在测试集上的各项测试指标,,, ,,,,,总体准确率为0.93 。。。。。。。。

图5为测试的混淆矩阵 。。。。。。。。在实验的7个种别中,,, ,,,,,Trojan作为较重大的一种恶意代码类型,,, ,,,,,测试准确性最低 。。。。。。。。

表2. 测试性能

图5. 混淆矩阵

6 总结

恶意代码同源剖析,,, ,,,,,一方面可追踪定位攻击泉源或攻击者,,, ,,,,,阻止APT攻击,,, ,,,,,对黑客爆发震慑攻击作用;;;;;;;另一方面,,, ,,,,,恶意软件检测手艺保存疏漏,,, ,,,,,同源剖析可协助检测、提防恶意软件 。。。。。。。。本文通太过析及验证,,, ,,,,,以为基于图像分类的恶意代码同源剖析具备可行性 。。。。。。。。但恶意代码的类型之间错综重大,,, ,,,,,没有明确的划分界线,,, ,,,,,也是限制分类准确性的缘故原由之一 。。。。。。。。家族显然是比类型越发准确的一种同源划分方法 。。。。。。。。然而,,, ,,,,,有些家族样本数目重大,,, ,,,,,有些家族仅有少量可追溯的样本,,, ,,,,,若以家族划分种别,,, ,,,,,则需要解决样本不平衡问题 。。。。。。。。通过起源判断,,, ,,,,,若是增添种别划分的细粒度,,, ,,,,,分类准确率会获得进一步提升,,, ,,,,,虽然这些问题有待进一步探索 。。。。。。。。

参考文献

[1]褚乾峰, 朱信宇, 刘功申. 恶意代码同源判断手艺综述[J]. 通讯手艺, 2017, 50(007):1484-1492.

[2]Goldberg L, Goldberg P, Phillips C, et al. Constructing Computer Virus Phylogenies[J]. Journal of

Algorithms,1998,26(01):188-208.

[3]Nataraj L, Karthikeyan S, Jacob G, et al. Malware images: visualization and automatic classification[C]. IEEE Symposium on Visualization for Cyber Security, Pittsburg, PA, USA, ACM. 2011.

[4]Han K S , Lim J H , Kang B , et al. Malware analysis using visualized images and entropy graphs[J]. International Journal of Information Security, 2015, 14(1):1-14.

[5]Kolosnjaji B , Zarras A , Webster G , et al. Deep Learning for Classification of Malware System Call Sequences[C]// Australasian Joint Conference on Artificial Intelligence. Springer International Publishing, 2016.

[6]Ni S , Qian Q , Zhang R . Malware identification using visualization images and deep learning[J]. Computers & Security, 2018, 77(AUG.):871-885.

[7]Raff E , Barker J , Sylvester J , et al. Malware Detection by Eating a Whole EXE. 2017.

[8]Quan, Boydell, Oisin, et al. Deep learning at the shallow end: Malware classification for non-domain experts[J]. Digital investigation: The internatnional journal of digital forensics & incident response, 2018.

[9]Venkatraman S , Alazab M , Vinayakumar R . A hybrid deep learning image-based analysis for effective malware detection[J]. Information Security Technical Report, 2019, 47(Aug.):377-389.

[10]钱雨村,,, ,,,,,彭国军,,, ,,,,,王滢等.恶意代码同源性剖析及家族聚类. 盘算机工程与应用,,, ,,,,,2015,,, ,,,,,56(18):76-81.

[11]Park L, Yu J, Kang H K, et al. Birds of a Feature: Intrafamily clustering for version identification of packed malware[J]. IEEE systems journal, 2020,14(3):4545-4556.

[12] Zhao B L, Shan Z, Liu F D, et al. Malware homology identification based on a gene perspective[J]. 信息与电子工程前沿:英文版, 2019(6):801-815.

[13]Li Y, Sundaramurthy S C, Bards A G, et al. Experimental study of fuzzy hashing in malware clustering analysis[C]. Usenix, Washington DC, USA, 2015: 1-8.

[14]Ahmadi M , Giacinto G , Ulyanov D , et al. Novel feature extraction, selection and fusion for effective malware family classification[DB]. 2015.

[15]Kinable J,Kostakis O.Malware Classification based on Call Graph Clustering[J].Journal of Computer Virology and Hacking Techniques,2011,7(04):233-245.

[16]Jang J W , Woo J , Mohaisen A , et al. Mal-Netminer: Malware Classification Approach Based on Social Network Analysis of System Call Graph[J]. Mathematical Problems in Engineering,2015,(2015-10-1), 2015, 2015(PT.18):731-734.

[17]赵炳麟, 孟曦, 韩金,等. 基于图结构的恶意代码同源性剖析[J]. 通讯学报, 2017, v.38;No.365(S2):86-93.

[18]Sanders H, Saxe J. Malware data science: Attack detection and attribution[M]. No Starch Press, 2018.

[19]Ronen R , Radu M , Feuerstein C , et al. Microsoft Malware Classification Challenge[DB]. 2018. https://arxiv.org/pdf/1802.10135.pdf.

版权声明

转载请务必注明来由 。。。。。。。。

版权所有,,, ,,,,,违者必究 。。。。。。。。

要害词标签:
3377体育网官网入口 人工智能清静 AI清静应用 恶意代码同源剖析
客户服务热线

400-777-0777
7*24小时服务

联系邮箱

servicing@topsec.com.cn

扫码关注
【网站地图】【sitemap】