腾讯安全威胁情报中心“亮炉亮炉”项恶意域名自动化检测揭秘

  备案注销     |      2023-09-01
腾讯安全威胁情报中心“亮炉亮炉”项恶意域名自动化检测揭秘

00 导语

构建恶意域名检测引擎,自动检测识别大量域名,让威胁情报的检测和运营更加智能、高效,从而缓解威胁情报分析人员面对海量威胁数据的压力。分析压力。

01 应用背景

随着互联网量的快速增长,基于网络访问的各种网络攻击、木马、蠕虫等威胁隐藏在大量的网络事件中,这使得专注于情报的威胁情报分析师分析压倒性的。如果能够利用自动化威胁感知和检测技术,从海量数据中自动发现和检测威胁,将能够有效减轻威胁情报分析人员的运营负担,大幅提升威胁情报检测和运营的效率。

其中,恶意域名情报是威胁情报的重要组成部分,包括恶意域名检测[1]、DGA识别[2]等。与一般文本、图像等算法任务相比,安全中恶意域名的检测该领域缺乏可靠的评价数据,目前尚无突破性和可重复性的学术进展。

得益于腾讯安全在网络安全领域的海量数据积累和众多网络安全领域的专家,恶意域名检测的自动实现拥有丰富的数据和专家知识库。

本文介绍的恶意域名检测引擎(恶意域名检测引擎,MDDE)实现了恶意域名的自动检测,提高了威胁情报的智能检测和运行效率。

02 概述

黑、白、灰域名的手工判定需要较高的专家能力和经验。下图为可疑域名腾讯高级威胁追溯系统-安图的结果:

威胁情报分析专家通过追踪各种域名上下文,如可疑软件访问、知识图谱关联、关联威胁事件等,判断域名是否为恶意域名。这样,当面对大量的域名时,既费时又需要足够的专家人力,MDDE就应运而生了。

MDDE中的核心功能是判断域名是否恶意的。MDDE的核心组件是基于监督学习的三分类机器学习模型MDDE-core,该模型将域名判断为黑、白、灰三种类型。另外,针对特定的业务和任务(OSINT评估、白名单制作等),引擎提供了基于不同策略的接口。MDDE的整体架构如下。

引擎的建设主要分为四个部分:MDDE——核心建模、基于腾讯安全大脑的域名样本实时矢量化、域名威胁检测和反馈优化。下面将一一介绍。

03 MDDE-core建模

MDDE-core是一个三类机器学习模型,用于检测域名的黑、白、灰属性。本文将详细介绍建模过程中有价值的细节。

3.1 数据收集与抽样

MDDE-core是三类模型。在获取标签数据阶段,需要获取黑、白、灰三类域名标签数据。

白域名数据是从我们自己的域名白名单情报中采样的。这里简单介绍一下域名白名单智能的建设。在威胁情报知识体系建设中,白色域名是知名度较高、提供合法正常互联网服务的网站,如qq.com。现有域名白名单信息的构建是通过对Alexa top1m、Umbrella top1m等数据的分析和挖掘得到的。这里重要的一点是,Alexa top1m等列表中仍然存在恶意站点,例如piz7ohhujogi[。 ]com[7]。因此,公共高光域名仍需进一步挖掘。

黑灰域名标注数据源自安全分析师人工识别可疑域名数据。通过对安全事件、威胁访问等数据进行规则挖掘,获得大量的潜在恶意域名。安全专家对这些恶意域名进行追踪分析,判断这些域名是否为恶意域名。在MDDE-core的构建建模过程中,这些人工识别出的恶意域名被选择为黑色,非恶意域名选择为灰色。

同时,通过对恶意域名的结构分析发现,属于同一二级域名的一些子域名经常从事类似的威胁活动。在建设中,在同一个二级域名上,随机选择固定数量的子域名作为黑色域名。

通过上述采集和采样,构建的黑白灰标签数据基本覆盖了预测场景中待测试的域名类型。

3.2 原始特征数据获取

机器学习任务的上限是特征,而特征的基础是数据类型的丰富程度。受益于腾讯海量安全数据的积累,恶意域名溯源和分析拥有充足的背景知识和数据整合平台,为MDDE-core的建设提供了二维准备。一是丰富的样本特征,如DNS、URL等数据为威胁识别提供了足够的上下文。首先,全面覆盖各类域名、各类域名,威胁难以逃脱检测网。

这里涉及的具体数据是由训练时使用的特征决定的。通过对数据平台上原始数据的采集和整合,MDDE核实际特征构建所涉及的实时数据量已达到数千亿级别。

3.3 特征与建模

MDDE-core实际建模中用到的特征有四类:域名字符特征、样本关联特征、域名属性特征、网络访问特征。具体建模特点如下表所示。

域名字符特征

这类特征来自于DGA的识别。目前,DGA构建的域名普遍为恶意域名。另外,根据特定黑色域名的特征,构建子域名是否为数字等特征。

每种特征的具体含义如下:

域名字符熵,以域名字符串的字符熵作为特征值;域名字符长度;域名级别,从3级域名到6级域名,6级及以上映射为相同值,并进行虚拟变量转换;域名数量、数字字符数量及比例;特殊字符的数量和比例;字符类型的转换次数,数字序列、字母和特殊字符序列的转换次数;最长非顶级域名的长度及比例;数字子域名的数量及比例,如f(22.1867.jp)=2;单词子域的数量和比例,例如f(red.com)=1;是否为邮箱前缀,f(mail.qq.com)=1;黑、灰、白顶级域名,统计训练数据黑色:(白+灰)顶级域名分布,得到纯黑顶级域名集、纯白顶级域名集、部分白顶-一级域名集合、部分黑色顶级域名集合、相似顶级域名集合,并判断该顶级域名属于哪个集合,OOV为相似顶级域名集合;样本关联特征

这里的示例是指软件示例。黑色域名往往与黑色样本有着密切的联系。详情如下所示:

黑、白、灰样本访问域名,黑、白、灰软件样本访问域名的数量及比例;传播黑白灰样本,域名传输的黑白灰样本数量及比例;黑白灰样本中包含域名,以及黑白灰样本中包含域名的数量及比例;互联网接入情况、数据及互联网接入域名比例。域名属性特征:

黑白网址的数量及比例;黑白IP,黑白IP的数量及比例;注册国家,是否是东欧等; whois保护,是否启用whois保护;备案,是否有备案信息;数量;注册人关联,与注册人关联的域名数量;注册电话关联,与注册电话关联的域名数量; cname,cname 的数量。网络访问特征

以天为单位构建两周的域名访问系列,并计算最大值、最小值和方差。

以上是经过充分的特征分析实验后,实际用于建模的特征。最终特征集的建立是在特征选择和变换的基础上,通过反复迭代实验得到的。下图显示了一些特征和类别之间的皮尔逊相关系数。从图中可以看出,是否开启whois防护和黑色URL占比是类别强相关的两个特征。

同样,下图显示了黑、白、灰域名下载的黑色软件样本数量与所有样本下载数量的比例。可以看到,黑色域名下载的黑色样本比例明显高于灰白域名。

在模型的选择上,考虑到数据倾斜的影响,在比较各种模型的验证结果后,我们使用kNN(sklearn)、随机森林(sklearn)和梯度提升(microsoft)进行硬投票建模策略。最终测试结果中,三个类别的准确率为0.92933,详细结果如下。

从上表可以看出,黑白域名的查准率和查全率都比较高,而灰色域名的F1为0.86796,呈现出高端中低的特点,这为帖子提供了思路-MDDE的处理策略。

04 实时域名向量化

在第3节中,用于建模的域名会在数据平台上获取相关特征的原始数据,然后传输到关系数据库中,然后通过开发机进行测试编码,但在实际安全中分析和运维过程中,需要对当时遇到的域名进行实时评估和分析,但是从集群平台到本地会有比较强的滞后性,或者输入域名到本地集群,并在集群上搭建域名检测流程。

为了快速分析和评估域名,MDDE基于腾讯安全大脑实现了域名样本的实时矢量化。

腾讯安全大脑基于S2Graph构建的图数据库,已支持超200亿节点、1600亿边的安全知识图谱。安全大脑提供的图计算和图查询功能,让MDDE实现了域名的实时检测。

另外,即使有大量与域名相关的数据,仍然会有一些现有的特征数据没有覆盖某些待测试的域名,因为对于一个域名特征向量,会使用以下规则判断样本是否稀疏:Not Sparse if md5_visit 0 cnt_resolved 0 user_visit 0 last week 表示过去一周,该域名被样本访问、解析、浏览,则认为该样本的特征不稀疏,可以输入MDDE-core进行检测。

05 域名威胁检测

获得有效的域名特征向量后,MDDE-core会对域名进行威胁检测,通过网页分类、标头分析、专家规则、数据挖掘,将不同的检测结果与相关上下文相结合。在不同层次、不同维度上做出判断。

5.1 IOC检测

域名IOC主要来自MDDE-core检测为黑色的域名。MDDE-core 将被判断为黑色的域名进一步通过网页分类模型判断是正常网页还是过期域名。如果是正常网页,则判断为被盗域名。有效的情报。

此外,被MDDE-core判定为灰色的低风险域名中仍然存在有价值的信息。根据专家规则扫描过滤,然后通过手动操作判断黑白。

5.2 白名单生产

对于检测为白色的域名,MDDE会根据规则进一步判断是否可以加入白名单智能。首先,获取域名的广度。只有足够广度的域名才能添加到白名单中。其次,网页分类模型判断是正常网页还是过期域名。只有具有一定广度的正常网页才可以作为域名白名单智能。

5.3 情报标签

网页分类模型严格来说是一个基于规则和模型的网页分类器组件。对网页源代码进行建模,主要识别网页是否属于以下两种类型:过期网页、正常网页和异常网页;色情、赌博、矿池。两组类别在组内是互斥的。色情、赌博、矿池都可以用来丰富情报标签。这包括网页分类知识库的挖掘和建设,比如域名注册站点的挖掘。

5.4 开源情报评估

在威胁情报的生产过程中,开源情报的评估和存储是非常重要的内容。当有大量开源恶意域名需要评估时,MDDE可以对情报进行评估报告,评估可疑域名集合的威胁指数:高、中、低。通过评估报告为开源情报的处理提供有效的建议。

06 结果反馈与迭代

MDDE的整个开发过程是迭代、重复的。通过专家经验、统计分析、误报分析来评估整个MDDE的性能,从而扩展建模功能、优化专家规则、调整处理流程。积累高质量的标注数据,让域名检测更快、更轻、更智能。

07 总结

作为当前威胁情报检测和运营系统流程的一小部分,恶意域名检测引擎的实现大大简化了威胁情报中恶意域名的发现、检测和评估,提高了情报检测、可操作性效率。但需要注意的是,尽管现有特征数据的多样性在业界首屈一指,但对于恶意域名检测难度较大的机器学习任务来说,仍然需要更完整的数据信息和知识。可以实现域名检测真正的智能化、自动化。

MDDE衷心感谢腾讯威胁情报开源项目组对本文的支持。

致谢[1] Zhauniarovich Y,Khalil I,Yu T,等。基于DNS数据分析的恶意域名检测综述[J]. ACM 计算调查(CSUR),2018,51(4):1-36。 [2] Woodbridge J、Anderson H S、Ahuja A 等人。长短期记忆网络预测域生成算法[J]. arXiv 预印本arXiv:1611.00791, 2016。 [3] Fu Y, Yu L, Hambolu O, et al.隐身域生成算法[J] IEEE 信息取证与安全汇刊,2017,12(6):1430-1443。[4] Manadhata PK、Yadav S、Rao P 等人。通过图推理检测恶意域[C]//欧洲计算机安全研究研讨会。查姆施普林格,2014:1-18。[5] https://www.aqniu.com/news-views/28754.html