2024-05-17 11:41:20
上海辰童科技有限公司
垃圾邮件不是一个新的话题,针对垃圾邮件的检测技术已得到深入研究并广泛应用。但随着个人信息大量泄露,具有攻击、破坏性的精准钓鱼邮件日益增多,严重威胁邮件用户的安全。传统的垃圾邮件检测方法大多依赖于邮件中提取的静态特征,这些方法有很大的局限性,对于具有复杂性、攻击性、破坏性和针对性的新型恶意邮件攻击无法有效应对。本文主要对恶意邮件问题进行分析研究,同时发现当前检测方法存在的问题并提出相应的改进措施,指明未来研究方向。
邮件的特点和趋势
本文整理出近年垃圾邮件的发展和变化趋势,通过发现垃圾邮件的新特点,进而发现传统垃圾邮件检测方法的不足
邮件数量
图1为2009年至2017年全球电子邮件中垃圾邮件比例变化情况。由图1可以看出,全球电子邮件中垃圾邮件的比例从2009年的85.2%的高峰持续下降到2015年的55.28%。垃圾邮件比例一直呈下降趋势的主要原因是合法的中小企业逐渐放弃了通过垃圾邮件散发广告,而更多地采用合法的广告平台。2016年的垃圾邮件比例为58.31%,比2015年高出3.03%,这是自2009年以来的第一次增长,这一现象的主要原因是恶意邮件数量的激增。
全球电子邮件中垃圾邮件比例变化
垃圾邮件中的恶意邮件数量变化情况。恶意邮件数量从2015年12月开始增加,并在2016年持续增长。由图2可以看出,2017年恶意邮件的数量比2016年下降约39.2%,由于Necurs僵尸网络运行不稳定使得恶意邮件传播的数量大量减少。
垃圾邮件中的恶意邮件数量变化
图3为2015年至2017年垃圾邮件大小变化情况。由图3可知,超短垃圾邮件(小于2 KB)的比例在2016年有所下降,2~5 KB的垃圾邮件比例也下降了4.7%。同时5~50 KB的垃圾邮件的比例大幅增加,主要是由于垃圾邮件中的恶意附件比例急剧增加造成的。到2017年,超短垃圾邮件的比例再次大幅下降,比例约为43.40%,比2016年下降18.76%。总体来说,2017年依然保持超短垃圾邮件数量减少,5~50 KB的垃圾邮件比例增加的趋势。
垃圾邮件大小变化
1恶意附件
恶意代码大多通过邮件进行传播,恶意代码制作者经常将恶意代码作为邮件附件并配上诱惑性文字发送给受害者,附件运行后会下载一些高危病毒,给用户造成严重的经济损失。图4是2017年恶意邮件附件中的十大恶意软件家族。总体来看,恶意邮件使用了各种各样的恶意附件,通常这些附件包含用Java和JavaScript编写的程序,也包含宏的办公文档及经典的可执行文件。
恶意邮件附件中的十大恶意软件家族
综上所述,垃圾邮件的整体数量在经过大幅下降之后已经趋于平稳,但随着恶意邮件的大量涌现,将来一段时间内垃圾邮件的数量势必会出现一定幅度的增长。显然传统的垃圾邮件检测方法已经不适用于当前出现的各种恶意邮件,所以急需更加安全有效的专门针对恶意邮件的检测方法,从而弥补传统检测方法的不足。
垃圾邮件的分类
垃圾邮件是在互联网上转发的无关或匿名文本,目的是网络钓鱼、散发广告、传播恶意软件等,往往具有批量发送的特征[1]。一般来说,凡是未经用户许可就强行发送到用户邮箱中的电子邮件都可以归为垃圾邮件。根据垃圾邮件的攻击目标及危害程度,可以将垃圾邮件进一步划分为普通垃圾邮件和恶意邮件。
普通垃圾邮件
普通垃圾邮件的攻击目标是邮件接收者,目的主要是令其上当受骗。该类邮件内容一般为赚钱信息、商业广告和诈骗信息等垃圾信息,往往会给邮件接收者带来一定的困扰,甚至带来一定的金钱损失。普通垃圾邮件除了散布垃圾信息,还会在邮件中进行网络钓鱼。钓鱼邮件的目的是获取收件人的账号、密码等个人信息,该类邮件中包含一个指向特制网页的链接,这些特制网页通常被伪装成真实网页,使接收者相信该页面为正常界面,个人信息输入后则被盗。传统的垃圾邮件检测方法对这类普通垃圾邮件的检测具有很好的适用性。
恶意邮件
恶意邮件是垃圾邮件中危害程度最大,检测难度最高的一类邮件。与普通垃圾邮件不同,恶意邮件的攻击目标不再是单个的邮件接收者,而是邮件接收者的计算机系统,攻击者往往以该主机为切入点入侵更多与其相关联的主机。恶意邮件的危害性很强,经常会给被攻击单位甚至是国家造成巨大的损失。这类邮件大多是带毒邮件,攻击方式主要是向邮件中添加恶意的URL和恶意附件等。
由于互联网高度普及的同时对用户信息的保护不全面,使得个人隐私信息泄露较严重,攻击者可以通过各种渠道收集被攻击对象的详细信息,从而制作出信息关联度极高的新型恶意邮件。新型恶意邮件实施的是精准攻击,用户及传统的垃圾邮件检测系统都很难有效识别出这类恶意邮件,所以这类恶意邮件的攻击成功率非常高。
现有的垃圾邮件检测技术
基于规则的检测方法
这类方法使用一组规则将邮件划分为垃圾邮件和正常邮件,优点是操作简单、处理时间较短且不需要训练。基于规则的检测方法中有代表性的是黑白名单过滤方法。黑白名单过滤方法经常涉及一些特征集,大多基于邮件的发件人地址和邮件正文中包含的URL的IP地址进行过滤。
基于发件人地址和涉及的IP地址的过滤技术是使用较早且较广泛的一种过滤技术,这种过滤技术简单方便。WEST等人提出了一个PreSTA模型,该模型可以将黑名单的历史信息和垃圾邮件的空间关系结合起来,实验结果显示,PreSTA模型可以减少93%的垃圾邮件。MOURA[4]等人评估了第三方BadHood黑名单保护目标系统免受垃圾邮件攻击的有效性,结果显示较大的黑名单列表包含大量的无关条目,这会给资源受限的安全机制造成负担,黑名单大小决定了垃圾邮件检测的有效性。
基于内容的检测方法
基于内容的检测方法主要基于邮件文本内容、邮件内含的URL及附件中提取的有用静态特征信息进行检测。HIJAWI等人整理了关于内容的一些比较重要的特征,并将它们分为头部特征、主体特征和附件特征3类,通过提取的关于内容的静态特征实现分类模型的构建。本文将提取的关于邮件内容的静态特征进行整理,如表1所示。
邮件内容静态特征
PATIL[等人使用SVM和混淆URL的检测算法实现了对钓鱼邮件的有效检测,同时整理了混淆URL具有的一些静态特征。表2是可以提取到的URL的一些静态特征信息。
邮件URL静态特征
基于行为的检测方法
基于行为的检测方法捕获的是邮件中包含的恶意附件和恶意URL在主机中运行时产生的一些系统行为。与基于规则的检测方法和基于内容的检测方法不同,该方法提取的是邮件的动态行为特征。ALAZAB[7]等人从每封邮件中提取出附件和URL,然后将它们上传到VirusTotal,从而扫描病毒和可疑的内容。VirusTotal是一个免费的在线病毒检测器,它使用40多种不同的病毒扫描器,如果有一个或多个扫描器显示异常,则附件或URL将被认为是恶意的。
目前基于动态行为分析的安全防御方案多采用安全沙箱技术。传统的沙箱技术提供一个安全且隔离的环境来检测可执行文件,但现在也用于运行包含可疑代码的应用数据,如PDF和Office文档。因为沙箱技术可用于监控和分析邮件中未知附件被打开的行为,且不依赖于基于特征码的检测,所以沙箱技术被广泛用于邮件的动态行为异常检测。例如,腾讯的御界邮件安全防御系统的核心就是哈勃沙箱分析模块。
恶意邮件检测技术的不足
传统静态特征的有效性降低
恶意邮件包含的邮件文本内容与受害者的关联度极高,传统的检测方法常会将此类恶意邮件判定为正常邮件,所以误报率较高。另外,随着攻击者的攻击策略越来越先进,检测系统捕获的邮件发件人信息和邮件的部分静态特征信息通常是攻击者伪造的,基于伪造的静态特征的检测势必导致高误报率。
基于规则的检测方法的优点是具有良好的空间特性,规则可以很容易地在邮件服务器之间共享。然而仅依赖于静态规则的检测是不充分的,因为恶意邮件总是不断地调整内容以改变规则,所以必须经常更新规则库以应对恶意邮件制作者的策略[8]。由于恶意邮件的迷惑性变强,传统的部分静态特征的区分度变弱,检测结果的可信度下降,所以必须相应地调整可能被攻击者伪造的静态特征在整体静态检测中的比例。通过降低区分度变弱的静态特征在检测中所占的比重,可以降低检测的误报率。
4.2 缺乏有效的动态行为特征
当前针对邮件中恶意URL和附件的动态行为特征的捕获,大多是将其上传至现有的恶意代码分析平台或在沙箱中点击URL并运行附件文件,以获取需要的动态行为特征信息。基于沙箱的动态行为特征获取是目前主流的分析方法。
虽然沙箱可以提供一个安全且隔离的环境来检测邮件中存在的恶意URL和附件,但由于沙箱规避技术和性能问题,使得目前的沙箱产品很难提供有效的保护,如GFISandbox。通过检查系统的配置信息,黑客可以了解恶意软件是否运行在一个沙箱环境中,一些恶意软件家族经常会使用反沙箱技术逃避动态分析。一旦恶意软件发现其处于沙箱中,它将会隐藏自己的恶意行为躲避检测。因此,许多主流的沙箱工具可能做出不正确的评估,因为它们无法检测到任何可疑行为。
为了有效解决沙箱容易被反查的缺点,可以使用VMI技术捕获邮件的动态行为特征信息。2003年,GARFINKEL[等人提出了VMI的概念,在虚拟机外部监控虚拟机内部的运行状态。由于VMI技术带来的强隔离性和在VMM层的可干预性,VMI技术在安全领域受到了广泛的关注[1VMI技术可以实现位于特权域的系统观察记录位于非特权域的系统的运行状态,并能得到非特权域磁盘空间、内存使用情况、操作系统日志文件等相关的运行数据[VMI技术可以防范恶意代码的环境感知,由于硬件辅助虚拟化没有改变异常处理句柄与初始指令流程,因此可以基于硬件辅助虚拟化对恶意代码进行透明化监控
未来研究方向
智能的恶意邮件检测过程通常可以分为特征提取和分类两个阶段。该方法的性能主要依赖于提取的特征和分类算法,所以未来的研究方向主要是优化提取的特征和分类算法。
特征优化
恶意邮件检测提取的特征可以分为静态特征和动态特征两类。当前对邮件安全的检测大多依赖于静态特征,对动态特征的使用较少,所以当前对特征的优化主要是获取强有效的静态特征以及丰富动态特征的种类。
动态特征捕获的是恶意代码在系统中真实发生的行为,相比静态特征更加真实,所以必须丰富动态特征的种类以弥补静态特征有效性的缺失。虽然部分静态特征的有效性降低,但是不能否认静态特征对恶意邮件检测的重要作用。静态特征尽管没有动态特征的准确性强,但基于静态特征的检测效率比动态特征要高很多。所以未来必须在静态特征和动态特征之间做出一个权衡,使得准确性和效率都达到最优。
分类算法优化
BINDU[13]等人使用基准数据集对多种垃圾邮件检测的分类算法性能做出了评估。表3比较了常用的几种分类算法的性能,表明了SVM、Voted Perceptron、Lazy-K star、J48、Random Tree、Random Forest和ADA Boost等算法的分类效果较好。因为集成学习方法可以将一组弱分类器组合成一个强分类器,故表3中ADA Boost集成算法的正确率、精度及召回率均最高,但由于组合了多个基分类器(Base Classifier),所以模型构建所需的时间较长。
性能比较
成分类器比单个分类器的分类效果好,故可以使用集成学习方法检测恶意邮件。由于不同的基分类器组合的分类效果有所差异,所以在选择基分类器时要选择分类效果较好的基分类器进行组合。另外,随着添加的基分类器数量的增多,集成分类器的效率会逐渐降低,所以基分类器选取的数量也要适当。
邮件安全形势日趋复杂,当前面临的恶意邮件安全威胁亟需解决。本文首先整理了近年垃圾邮件的发展变化;然后将恶意邮件与传统的垃圾邮件进行划分;接着总结了当前主流的垃圾邮件检测方法;最后指出现有的检测方法对恶意邮件检测的不足并给出了未来研究方向。下一步工作主要是在传统的静态特征基础上获取更有效的动态行为特征,进一步丰富恶意邮件的特征种类,同时选取高效的分类算法,实现对恶意邮件的精准检测。