3377体育网官网入口

人工智能清静|AI清静应用|基于图像分类的恶意代码同源剖析

恶意代码（Malicious/Unwanted Code）泛指所有会对网络或系统爆发威胁或潜在威胁的盘算机代码，，，，，，，，造成目的系统信息泄露、资源滥用、破损系统完整性及可用性、违交恶的系统清静战略等危害。。。。。。。。

新闻中心

人工智能清静|AI清静应用|基于图像分类的恶意代码同源剖析

宣布时间：2021-10-15

浏览次数：6780

分享：

01 配景

恶意代码（Malicious/Unwanted Code）泛指所有会对网络或系统爆发威胁或潜在威胁的盘算机代码，，，，，，，，造成目的系统信息泄露、资源滥用、破损系统完整性及可用性、违交恶的系统清静战略等危害。。。。。。。。

近年来，，，，，，，，虽然恶意代码爆发式增添，，，，，，，，但清静研究职员发明，，，，，，，，许多新型恶意代码都是已有恶意代码的变种，，，，，，，，这些变种许多是黑客使用变形、加壳、多态、代码扰乱等手艺制造的，，，，，，，，可以逃避是非名单、特征码匹配等古板的检测手艺[1][10]。。。。。。。。现实上，，，，，，，，这些变种征象反应了恶意代码之间的同源关系。。。。。。。。例如，，，，，，，，2017年泛起的WannaCry现实上与已知病毒Wcy具有同源关系，，，，，，，，但该病毒绕过了种种检测工具，，，，，，，，造成了严重的经济损失。。。。。。。。因此，，，，，，，，发明同源关系逐渐成为网络清静领域关注焦点。。。。。。。。

恶意代码同源剖析（Homology Analysis）是指通过恶意代码内外部特征以及天生和撒播的纪律，，，，，，，，剖析恶意代码之间衍生的关联性。。。。。。。。同源关系有许多种，，，，，，，，包括：家族同源、开发者同源、类型同源或者攻击源同源等。。。。。。。。本文主要关注恶意代码类型同源剖析问题。。。。。。。；；；；；；；诙褚獯肜嘈屯雌饰，，，，，，，，可以资助检测、预警恶意代码，，，，，，，，制订应急响应计划以及展望事务生长趋势。。。。。。。。

本文首先先容了相关基础知识，，，，，，，，简朴回首了同源剖析剖析手艺现状，，，，，，，，然后先容了基于图像分类的同源剖析手艺计划设计，，，，，，，，最后通过详细实验验证了基于图像分类的同源剖析手艺的有用性。。。。。。。。

02 基础知识

2.1 类型同源

恶意代码类型多种多样，，，，，，，，包括盘算机病毒、蠕虫、木马程序、后门程序、逻辑炸弹等。。。。。。。。每一类恶意代码往往会在以下三个方面保存相似性。。。。。。。。

（1）要害代码段

指为了实现某一恶意功效，，，，，，，，同源恶意代码在要害代码片断（如DLL注入、RPC服务）具有相似性，，，，，，，，这些相似代码片断也被称为基因码。。。。。。。。

（2）系统函数挪用

恶意行为的操作通常依赖对操作系统函数的挪用，，，，，，，，同源恶意代码挪用的函数名称、频次、顺序等可能保存类似。。。。。。。。

（3）功效行为

每一类恶意代码都有针对性的破损行为，，，，，，，，如勒索软件会读写用户数据、远程控制木马会审查屏幕或摄像头，，，，，，，，功效行为的相似性反应在文件、历程、网络及注册表等方面。。。。。。。。

2.2 图像化

图像化即恶意代码字节约内容的可视化展示，，，，，，，，而流内容包括了一个组装恶意代码完整的信息，，，，，，，，例如PE名堂恶意代码的头部、数据节、代码节、尾部等。。。。。。。。

黑客经常使用开源的恶意代码片断，，，，，，，，经由进一步开发、包装之后，，，，，，，，形成恶意代码变种；；；；；；；相同功效或者统一家族的恶意代码，，，，，，，，也会共享代码片断。。。。。。。。因此，，，，，，，，共享片断体现为相似的的流内容，，，，，，，，进而映射为图像中相似的纹理。。。。。。。。

图1，，，，，，，，2展示某些流氓软件（Application）两个家族InstallMonster和Hacktool图像化效果。。。。。。。？？？？？梢钥吹絀nstallMonster和Hacktool类的示例样本即便来自差别的家族，，，，，，，，纹理上却具有显着相似性。。。。。。。。

图1. Application-InstallMonster

图2. Application-Hacktool

3 现状剖析

与恶意代码检测手艺相同，，，，，，，，同源剖析所接纳的特征也分为静态特征和动态特征。。。。。。。。静态特征包括：恶意代码的组装结构特征、API序列特征、代码语义、二进制内容特征等[1]。。。。。。。。动态特征通常为控制流程图、读取及修改的相关资源工具特征、API动态挪用。。。。。。。；；；；；；；袢√卣髦，，，，，，，，可以接纳关联剖析、机械学习分类以及图剖析等要领完成溯源。。。。。。。。

关联剖析即盘算恶意代码特征的相似度，，，，，，，，例如Jaccard系数[14,15]、海明距离、余弦距离等，，，，，，，，凭证相似度判断恶意代码之间是否保存关联。。。。。。。；；；；；；；谙嗨贫绕饰，，，，，，，，以恶意代码为节点、相似度为边，，，，，，，，可以构建恶意代码关系网络，，，，，，，，主要用于族群可视化，，，，，，，，进一步溯源、挖掘大宗离散恶意代码之间的关联[18]。。。。。。。。SVM、XGBoost[14]、DBScan[10,15]、模糊哈希[14]等常见的分类算法，，，，，，，，都在恶意代码同源剖析中有响应的研究与应用。。。。。。。。

图剖析作用于恶意代码的控制流程图，，，，，，，，提取收支度（Out/In degree）、中心中心性（Betweenness centrality）、群集系数（Clustering coefficient）等图结构怀抱[16]，，，，，，，，通过盘算这些怀抱的相似性，，，，，，，，判断恶意代码是否保存关联。。。。。。。。使用图剖析还可以在族群中挖掘相似子图形成族群基因，，，，，，，，通过基因比照判断恶意代码是否同源[12]。。。。。。。。赵等人运用了图卷积网络（Graph Convolutional Network，，，，，，，，GCN）手艺，，，，，，，，对恶意代码的API挪用图举行分类，，，，，，，，从而剖析同源性[17]。。。。。。。。

2011年，，，，，，，，Nataraj等人提出将恶意代码的流内容转换成灰度图像，，，，，，，，然后提取GIST、局部空间平均值等特征，，，，，，，，团结KNN算法对恶意代码举行分类[3]。。。。。。。。随后，，，，，，，，泛起了一些研究延续该思绪，，，，，，，，好比将字节熵[4]、API挪用[5]、opcode哈希[7]等转换为图像，，，，，，，，卷积神经网络（Conventional Neural Network，，，，，，，，CNN）[7]、是非期影象（Long-short Term Memory，，，，，，，，LSTM）网络[8,9]等深度学习要领相继被应用于恶意代码同源剖析。。。。。。。。

接纳图像分类手艺的同源剖析要领，，，，，，，，不要求剖析职员具备逆向工程专业知识，，，，，，，，并且无需人工提取特征，，，，，，，，因此应用起来较量无邪。。。。。。。。得益于盘算机视觉领域的快速生长，，，，，，，，这种要领也能够取得较高的准确性。。。。。。。。以下重点先容该类手艺。。。。。。。。

4 计划设计

基于图像分类的同源剖析计划中，，，，，，，，典范的实现手艺就是基于CNN的恶意代码同源剖析手艺计划，，，，，，，，主要包括以下部分组成：

（1）数据集构建：确定恶意代码的种别划分方法，，，，，，，，网络样本并标注种别，，，，，，，，作为训练数据。。。。。。。。本文以类型作为种别划分方法。。。。。。。。

（2）图像化处置惩罚：将训练样本转化为图像，，，，，，，，作为CNN网络的输入。。。。。。。。

（3）CNN网络构建：构建出CNN神经网络结构（如VGGNet、GoogleNet、ResNet等）。。。。。。。。

（4）模子训练：将训练数据输入CNN网络举行训练，，，，，，，，获得分类模子。。。。。。。。

（5）模子应用：将待测样本图像化，，，，，，，，输入分类模子，，，，，，，，凭证输出种别判断所属种别。。。。。。。。应用流程如图3所示：

图3. 基于CNN图像分类的恶意代码同源剖析流程

5 实验剖析

本实验中网络了7种类型的恶意代码样本，，，，，，，，详细见表1。。。。。。。。

表1. 实验数据集

数据集凭证比例4：1划分为训练集和测试集。。。。。。。；；；；；；；诠菇–NN网络结构，，，，，，，，经由200次迭代训练，，，，，，，，模子损失收敛至0.0088，，，，，，，，训练准确率抵达0.9957。。。。。。。。图4展示模子的训练历程。。。。。。。。

图4. 训练历程

表2列出了模子在测试集上的各项测试指标，，，，，，，，总体准确率为0.93。。。。。。。。

图5为测试的混淆矩阵。。。。。。。。在实验的7个种别中，，，，，，，，Trojan作为较重大的一种恶意代码类型，，，，，，，，测试准确性最低。。。。。。。。

表2. 测试性能

图5. 混淆矩阵

6 总结

恶意代码同源剖析，，，，，，，，一方面可追踪定位攻击泉源或攻击者，，，，，，，，阻止APT攻击，，，，，，，，对黑客爆发震慑攻击作用；；；；；；；另一方面，，，，，，，，恶意软件检测手艺保存疏漏，，，，，，，，同源剖析可协助检测、提防恶意软件。。。。。。。。本文通太过析及验证，，，，，，，，以为基于图像分类的恶意代码同源剖析具备可行性。。。。。。。。但恶意代码的类型之间错综重大，，，，，，，，没有明确的划分界线，，，，，，，，也是限制分类准确性的缘故原由之一。。。。。。。。家族显然是比类型越发准确的一种同源划分方法。。。。。。。。然而，，，，，，，，有些家族样本数目重大，，，，，，，，有些家族仅有少量可追溯的样本，，，，，，，，若以家族划分种别，，，，，，，，则需要解决样本不平衡问题。。。。。。。。通过起源判断，，，，，，，，若是增添种别划分的细粒度，，，，，，，，分类准确率会获得进一步提升，，，，，，，，虽然这些问题有待进一步探索。。。。。。。。

参考文献

[1]褚乾峰, 朱信宇, 刘功申. 恶意代码同源判断手艺综述[J]. 通讯手艺, 2017, 50(007):1484-1492.

[2]Goldberg L, Goldberg P, Phillips C, et al. Constructing Computer Virus Phylogenies[J]. Journal of

Algorithms,1998,26(01):188-208.

[3]Nataraj L, Karthikeyan S, Jacob G, et al. Malware images: visualization and automatic classification[C]. IEEE Symposium on Visualization for Cyber Security, Pittsburg, PA, USA, ACM. 2011.

[4]Han K S , Lim J H , Kang B , et al. Malware analysis using visualized images and entropy graphs[J]. International Journal of Information Security, 2015, 14(1):1-14.

[5]Kolosnjaji B , Zarras A , Webster G , et al. Deep Learning for Classification of Malware System Call Sequences[C]// Australasian Joint Conference on Artificial Intelligence. Springer International Publishing, 2016.

[6]Ni S , Qian Q , Zhang R . Malware identification using visualization images and deep learning[J]. Computers & Security, 2018, 77(AUG.):871-885.

[7]Raff E , Barker J , Sylvester J , et al. Malware Detection by Eating a Whole EXE. 2017.

[8]Quan, Boydell, Oisin, et al. Deep learning at the shallow end: Malware classification for non-domain experts[J]. Digital investigation: The internatnional journal of digital forensics & incident response, 2018.

[9]Venkatraman S , Alazab M , Vinayakumar R . A hybrid deep learning image-based analysis for effective malware detection[J]. Information Security Technical Report, 2019, 47(Aug.):377-389.

[10]钱雨村，，，，，，，，彭国军，，，，，，，，王滢等.恶意代码同源性剖析及家族聚类. 盘算机工程与应用，，，，，，，，2015，，，，，，，，56（18）：76-81.

[11]Park L, Yu J, Kang H K, et al. Birds of a Feature: Intrafamily clustering for version identification of packed malware[J]. IEEE systems journal, 2020,14(3):4545-4556.

[12] Zhao B L, Shan Z, Liu F D, et al. Malware homology identification based on a gene perspective[J]. 信息与电子工程前沿:英文版, 2019(6):801-815.

[13]Li Y, Sundaramurthy S C, Bards A G, et al. Experimental study of fuzzy hashing in malware clustering analysis[C]. Usenix, Washington DC, USA, 2015: 1-8.

[14]Ahmadi M , Giacinto G , Ulyanov D , et al. Novel feature extraction, selection and fusion for effective malware family classification[DB]. 2015.

[15]Kinable J,Kostakis O.Malware Classification based on Call Graph Clustering[J].Journal of Computer Virology and Hacking Techniques,2011,7(04):233-245.

[16]Jang J W , Woo J , Mohaisen A , et al. Mal-Netminer: Malware Classification Approach Based on Social Network Analysis of System Call Graph[J]. Mathematical Problems in Engineering,2015,(2015-10-1), 2015, 2015(PT.18):731-734.

[17]赵炳麟, 孟曦, 韩金,等. 基于图结构的恶意代码同源性剖析[J]. 通讯学报, 2017, v.38;No.365(S2):86-93.

[18]Sanders H, Saxe J. Malware data science: Attack detection and attribution[M]. No Starch Press, 2018.

[19]Ronen R , Radu M , Feuerstein C , et al. Microsoft Malware Classification Challenge[DB]. 2018. https://arxiv.org/pdf/1802.10135.pdf.

版权声明

转载请务必注明来由。。。。。。。。

版权所有，，，，，，，，违者必究。。。。。。。。

要害词标签：: 3377体育网官网入口 人工智能清静 AI清静应用 恶意代码同源剖析

上一篇打造立异天府修建清静屏障｜3377体育网官网入口亮相2021天府国际网络清静岑岭论坛

下一篇精彩回首丨3377体育网官网入口2021年国家网络清静宣传周之旅完善收官

最新运动

公司声誉国家级声誉+1?3377体育网官网入口入选“国家知识产权树模企业建设工具”

2026-01-28

连忙审查

两会声音两会声音｜李雪莹代表：以场景开放促清静生长，，，，，，，，助力北京国际科创中心能级提升

2026-02-27

连忙审查

两会声音完善未来与战略工业人才政策，，，，，，，，李雪莹代表两会建言北京高水平人才高地建设

2026-01-27

连忙审查

推荐新闻

大模子清静网关周全升级，，，，，，，，护航大模子全生命周期清静

审查详情

国家级声誉+1?3377体育网官网入口入选“国家知识产权树模企业建设工具”

审查详情

天下仅三家！3377体育网官网入口入选工信部NVDB-CAVD优异手艺支持单位

审查详情

3377体育网官网入口一连五届入选CICSVD国家工业信息清静误差库手艺组成员单位

审查详情

推荐产品

解决计划

在线咨询

销售咨询>
手艺支持>
云服务支持>
售前支持>

在线留言

手艺支持>
售前支持>
培训营业>
清静服务>

客户服务热线

400-777-0777
7*24小时服务

联系邮箱

servicing@topsec.com.cn

扫码关注

【网站地图】【sitemap】