本文分析数据主要来自从CCERT垃圾邮件蜜罐网获取的中文垃圾邮件,用户举报信息以及CCERT应急响应系统接收和处理的垃圾邮件事件信息。CCERT反垃圾邮件小组利用“CCERT垃圾邮件蜜罐网”将发送到ccert.edu.cn域,而又不存在实际对应用户的方式获取垃圾邮件,经过统计分析后创建了CCERT中文垃圾邮件过滤规则集(Chinese_rules.cf),目前该规则集已被上千个邮件服务器以及客户端有效地使用。我们认为通过分析CCERT本年的垃圾邮件数据,能够在某种程度上体现出目前中文垃圾邮件(GB2312)的一些典型特性。以下,我们将针对2005年中文垃圾邮件的数量发展趋势、工作日与节假日情况比较、垃圾邮件生命力以及典型的垃圾邮件关键词TOP20、IP地址分布等情况进行逐一的分析。
同比数量增多
节假日活动趋缓
2005年1月至12月,垃圾邮件数量发展按月统计如图1所示。整体看来,用户收到的垃圾邮件数量全年呈现增多的趋势。年底每天收到的垃圾邮件数量约是年初的两倍。另一方面,我们发现了一个有趣的现象:在个别月份内垃圾邮件数量有所减少,例如2月、5月,这些月份的共同特征是有比较长的公众假期,例如2月的春节、5月的“黄金周”。因此,我们进一步的统计和分析了垃圾邮件在工作日与节假日期间的数量变化情况。
如图2所示,垃圾邮件数目在周六和周日两天比在周一至周五明显下降。
如图3所示,随着春节假期的临近,垃圾邮件数量开始明显下降,到了大年初一(2005年2月9日),垃圾邮件数目达到最少。随着春节假期的过去,垃圾邮件又逐渐变多起来。
我国除了春节,另外两个黄金周长假是“五一”和“十一”。在此期间,垃圾邮件数量也明显变少,如图4、5所示。因此,结论之一是垃圾邮件在假期期间呈现明显变少的趋势。垃圾邮件的这个趋势特性跟蠕虫完全相反:一些著名的蠕虫都在假期爆发,如震荡波(Sasser)在“五一”爆发,红码蠕虫(CodeRed II)在7月底爆发,以及冲击波/冲击波杀手在8月份爆发。我们认为,也许因为发垃圾邮件和蠕虫的动机不同:发垃圾邮件者希望看到的人越多越好(不论是为了获取舆论效益还是经济利益),而蠕虫的创建者希望被发现的几率越小越好(这样才能使蠕虫传得更快、影响力更大)。从另一角度看,我们还可以假设发垃圾邮件者和我们一样有工作日也有假期。如果这个假设成立,那么发垃圾邮件者是有组织的,也有自己的企业、公司。这样会使反垃圾邮件工作变得更加艰巨。
生命期小于3天
垃圾邮件的生命力指发送垃圾邮件的IP地址或者垃圾邮件内容本身的存活时间,在我们的计算方法中,垃圾邮件的生命力指标是用该垃圾邮件第一次出现到最后一次出现的时间来表示。垃圾邮件生命力的概率密度分布如图6所示。统计结果表明,大部分垃圾邮件的生命期小于3天。换而言之,发送垃圾邮件的IP地址过了3天以后,其本上就不再发垃圾邮件了。我们认为,这一方面由于我国反垃圾邮件的应急响应措施的实施较为及时。另一方面,垃圾邮件的实时黑名单过滤技术(RBL)主要通过处理发送邮件的IP进行垃圾邮件过滤。从结果来看,大部分的IP地址在RBL列表中出现的时间少于3天,也就是说,为了使RBL更加有效,至少以每3天1次的频率清理RBL的列表。图6还表明垃圾邮件的主题内容的生命力比发垃圾邮件的IP稍长一些,因此基于内容的垃圾邮件过滤规则不需要像RBL更新那么频繁。
发送者使用直发软件
垃圾邮件信头中的Received个数是一个值得关注的特征,因为它表示垃圾邮件所经过的邮件服务器个数。在统计到达用户服务器的Received个数时,垃圾邮件信头中包含的Received个数如图7所示。我们发现,大多数垃圾邮件的Received个数为1(占80%),即从一个MTA直接发送到用户邮件服务器。这种情况主要包括:垃圾邮件发送者使用直发软件;垃圾邮件发送者使用Webmail。由于大部分Webmail不允许短时间内大量发送邮件,因此,我们认为大多数垃圾邮件(80%)是通过直发软件发送的。除此以外,Received个数为2,占20%左右。这种情况主要包含:垃圾邮件发送者使用一个客户端软件经过一个MTA发送垃圾邮件,这个MTA可能是一个真实的邮件服务器,可能是开Openrelay。由于目前默认开Openrelay的机器很少,因此我们假设这些开Openrelay的机器都是被黑客控制的机器。图7表明从2005年后半年以来,这种机器越来越多,值得我们关注和研究。
“代开发票”
内容比例最大
2005年最常见(top20)的垃圾邮件关键词如表1所示。我们分别统计主体和信体的关键词。我们选择垃圾邮件关键词的原则是计算该关键词在垃圾邮件中出现的概率除以在合法邮件中出现的概率的比例。表1就是该比例最大的垃圾邮件关键词。从2005年作常见的垃圾邮件关键词列表得出,2005年的垃圾邮件主要还是以“代开发票”的内容为主。
来自广州的IP最多
经过统计,我们发现大多数(98.6%)中文垃圾邮件来自中国境内的IP地址。将IP所在的地理位置按国家分布显示如图8所示。
通过对每个发垃圾邮件的IP查询APNIC的whois数据库中的netname字段,一般指ISP,如中国电信,中国网通。表2列出2005年垃圾邮件来源的topN。依据我们的统计数据,2005年广州CHINANET-GD所辖IP发送垃圾邮件的数量最多,占总数的50.8%。其次是北京CNCGROUP-BJ以及上海CHINANET-SH。
|