无标题文档
|
|
|
|
|
|
|
|
下一代互联网
  当前位置: 首页 > 网络建设 > 网络管理 >
校园网安全关键技术解析三
--CCERT中文邮件样本集
http://www.media.edu.cn 中国教育网络 作者:陈光英等

CCERT中文邮件样本集

随着互联网不断发展和普及,电子邮件成为人们生活中便捷的通信手段之一。然而,垃圾邮件的出现和蔓延已严重影响网络的正常通信,是网络安全研究领域需要解决的重要问题之一。《第十四次中国互联网络发展状况统计报告》显示,我国网民在20047月份每周收到13.8封电子邮件,其中正常电子邮件为4.6封,垃圾邮件数却达到9.2封。垃圾邮件数量多、传播快,以及它的强制性、内容的不健康和可能的欺骗行为、病毒特征等,一方面占用了大量的网络带宽、存储资源;另一方面严重损害了单位和个人的利益,造成巨大的人力、财力直接损失。据2003年统计,中国邮件服务器总计接收到的垃圾邮件为1500亿封,用户实际共计收到垃圾邮件470亿封,经济损失48亿。

反垃圾邮件技术可分为3大类:一、发送者认证如SPF, Domain-Keys, SenderID rDNS等;二、基于内容过滤技术,如基于规则过滤,基于贝叶斯过滤 ;三、 以及基于行为过滤技术如动态行为白名单等技术。无论采用什么技术,一个先决的条件就是需要一个有效的样本集。样本集可以用来做算法研究如学习机的训练和测试。此外,标准样本集还可以被用来做评估产品,比较不同方法,技术之间的性能。

国际上已经有一些英文的垃圾邮件样本集,如由希腊学者Androutsopoulos提供的PU系列和Ling-spam样本集。PU样本集只保留了邮件的标题和正文的纯文本内容。为了保护提供者的隐私,样本集中将邮件中的不同词汇用不同整数代替。Ling-Spam由提供者收到的垃圾邮件和来自于语言学家列表(Linguist list)的非垃圾邮件组成,因此Ling-Spam样本集的邮件内容没有象PU系列样本集一样加密。除此以外,SpamAssassin的开发组也提供垃圾邮件和正常邮件样本集,与Ling-Spam有些类似,其正常邮件来自公众论坛。

目前还没有一个公开、标准的中文垃圾邮件样本集。因此,CCERT小组以长期在反垃圾邮件领域的研究积累,推出一个公开的垃圾邮件和正常邮件样本集。生成一个样本集的难度在于垃圾邮件的定义还有很多争议,如样本集的时间是否过期、正常邮件难以收集等问题。本文将描述CCERT在生成和对维护中文邮件样本集的过程,样本集的格式,特性其应用举例。

垃圾邮件和正常邮件的收集

普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件, SPAM, UBE(Unsolicited Bulk Email), UCE (Unsolicited Commercial Email)。一般来说,收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒收的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件都被认为是垃圾邮件。我们收集垃圾邮件样本的原则是:

一、ccert.edu.cn 域中不存在用户所收到的邮件被视为要收集的垃圾邮件。

二、ccert.edu.cn 域中真实用户收到但接受者认为不是他()所希望收到的也被视为要收的集垃圾邮件。

另外,我们只收集简体中文的垃圾邮件,即主题或者内容中包含至少一个国标(Gb2312)的汉字。

我们使用SPAMPOT,即垃圾邮件蜜罐技术来收集垃圾邮件。{SPAMPOT收录发送到xxx@ccert.edu.cn的所有邮件(xxx可为任何字符串)}。这样可以收到更多、更广泛的垃圾邮件。我们收集公开论坛所发表的最新帖子用来模仿正常邮件的主题和内容。这样可以避免公布正常邮件时涉及到个人隐私问题。

收集到的垃圾邮件和正常帖子存放在一个临时数据库中。我们采用人工判别方式,对临时数据库中的内容进行人工分类。来自SPAMPOT的邮件,如果被认为是中文垃圾邮件则存放到垃圾邮件数据库;如果被认为是正常邮件则把该邮件的信头信息存放到数据库,删除内容,确保不侵犯个人隐私问题。来自公开论坛的内容,如果符合正常邮件的要求则存放到正常邮件内容数据库。该内容将与以上正常邮件的信头一起构造一个正常邮件。由于垃圾邮件和正常邮件都是实时更新,因此我们的中文邮件数据库中能够体现出中文邮件最新的特性。CCERT中文垃圾邮件过滤规则集(Chinese_rules.cf) 就是由该中文邮件数据库生成的。

我们根据需求,从中文邮件数据库生成并发布一个中文垃圾和正常邮件样本集,并计划定期更新该样本集的版本。

样本集的描述

20058月公布的样本集包含从200561731收到的垃圾邮件和正常邮件(http://www.ccert.edu.cn/spam/sa/datasets.htm)。该样本集包含两集合:“2005-Jun”和 2005-Jul”,分别记录20056月和7月的中文邮件。每个集合中包含两个目录:spamham。分别存放垃圾邮件和正常邮件,其中每一封邮件(垃圾或正常)的原始信头和内容保存在一个文件,文件名为从1开始编号的数字。

我们提供的样本集大小远远大于现有的公开英文邮件样本集(Ling-Spam提供481垃圾邮件和2412正常邮件,PU提供481垃圾邮件和618正常邮件)。另外我们提供的垃圾邮件和正常邮件的比例也更切实际。

样本集只保存文本信息(包括原始信头),邮件的平均大小如表2所示。我们不删除重复的垃圾邮件,因为我们认为邮件的重复信息能体现出垃圾邮件的统计行为。另外,除了接受邮件地址被替换以外(隐蔽个人信息),我们保留邮件的原始信头,因此我们的样本集可以被用来研究邮件的统计行为。

为了评估每个样本被视为垃圾邮件的程度,我们利用SpamAssassin-3.0.4的缺省安装规则和CCERT中文垃圾邮件过滤规则(Chinese_rules.cf, 2005-Aug-14) 来对各个邮件进行打分,分数越高表示样本的垃圾邮件特性就越大。邮件的平均分数如表3所示。样本集也提供每封邮件的参考分值。

垃圾邮件和正常邮件的分数的概率密度函数曲线如图2所示。从大趋势上看,正常邮件的分布有两个峰值,表示正常邮件集中在分值为0和分值为12期间。垃圾邮件的分布也出现两个峰,表示垃圾邮件集中在分值为30以上和分值为720期间。

根据图2的分布,我们发现如果检测阈值选为6左右能使错误率最小。实际上,我们更希望正常邮件的误判率越小越好。对于不同阈值,垃圾邮件的查全率和正常邮件的误判率(2005-Jun)如表4所示。当阈值设为9,正常邮件的误判率为0.003的同时,能检测出垃圾邮件比例为76.9%

CCERT标准中文邮件样本集包含已标识类别的垃圾邮件和正常邮件,给研究反垃圾邮件的技术和算法提供一个公开、标准的训练和测试样本集。其中垃圾邮件由CCERT垃圾邮件蜜罐系统所捕获的,正常邮件来自公开的中文论坛。这两类邮件实时更新使得我们的样本集能够保证最新内容。本文还以一种常用的垃圾邮件分析方法:SpamAssassin + CCERT中文垃圾邮件过滤规则集来分析邮件样本集的特性,给将来的算法研究做参考。样本集中保留原始信头和文本内容,因此不但可以用来研究邮件内容过滤技术,而且还可以研究垃圾邮件发送行为等技术。此外,该样本集还可以被用来重构邮件的发送和接收过程,这样可以实现垃圾邮件的实时测试模型。

(作者单位为中国教育和科研计算机网紧急响应组)

校园网安全关键技术解析四

出口流量的分析与管理

中国农业大学校园网于20029月升级为千兆以太网。千兆到楼、百兆到桌面,校园网覆盖了校园的教学、科研、管理、学生宿舍区、教工家属区等领域,校园网以千兆与中国教育网相连。校园网出口的进出流量峰值,2002年为200~300Mbps,现在增长到1.5Gbps左右。以20034月至20054月为例,依据校园网出口计费系统采集的用户数据,同期对比这三年来中国农业大学上网人数与出口下载量、不同下载量的用户数占总用户数的比例用户不同下载量的总量占总下载量的比例

三年来,月上网人数增加了1倍,可是人均月下载量却增长了8倍、月总下载量增长了20倍;不同下载量的用户数占总用户数的比例、不同下载量的累计量占总下载量的比例也不断增长,月下载量>20G字节的用户比例从20034月的0.59%增加到20054月的11.92%,月下载量>20G字节的累计量占总下载量的比例从22.15%增加到59.66%;由表2、表3可得出,少数用户的大量下载,消耗了校园网出口的大部分带宽。

利用cisco SE1000流量控制设备来分析校园出口的网络应用,常规网络应用(HTTPEmailFTP)所占的带宽并不高,而点与点应用占总应用的50%以上,其中大部分应用是BT应用。

 

校园网出口流量的控制措施

校园网出口带宽大部分被BT应用所消耗。针对BT应用,许多高校想出不少应对措施,归纳起来,主要有以下几种办法:

BT应用进行封锁,大致有三种封锁方法

方法一,针对BT客户软件的应用端口6880-6890,在出口路由器或防火墙上,利用ACL访问控制方法将此范围的应用禁止使用。以cisco路由器为例,说明实现方法。

先建ACL访问控制列表:

access-list 101 deny tcp any any range 6880 6890

access-list 101 deny tcp any range 6880 6890 any

access-list 101 permit ip any any

接着在相应的接入端口上,输入ip access-group 101 out 使此访问控制生效。

但新一代的BT软件如比特精灵,BITCOMET,其应用端口会根据端口的可用性,随机更改当前的应用端口,使ACL控制失效。

方法二,对BT种子发布服务器、BT跟踪(TRACKER)服务器进行封锁。这种方法,不需要考虑BT软件的应用端口范围,只要求管理员了解当前网络中使用了哪些BT服务器,在出口封锁这些BT服务器,可大范围的控制BT应用。但要求网管员随时跟踪了解BT服务器,存在管理繁锁等问题。

方法三,对出口使用CISCO路由器的网络,可利用CISCO公司出品的PDLM模块,针对BT应用服务标识封锁BT等点对点应用。

CISCO在其官方网站提供了三个PDLM模块,分别为KAZAA2.pdlmbittorrent.pdlmemonkey.pdlm,可用来封锁KAZAABT、电驴。以封锁BT应用为例,说明实现方法。

先建立一个TFTP站点,将bittorrent.pdlm复制到该站点,在出口路由器中使用ip nbar pdlm tftp://TFTP站点的IP/bittorrent.pdlm命令加载bittorrent.pdlm模块;

接下来设置路由器策略,具体命令如下:

//创建一个CLASS_MAP名为BIT

class-map match-any bit

//要求符合模块bittorrent的标准!

match protocol bittorrent

//创建一个POLICY-MAP名为LIMIT-BIT

policy-map limit-bit

//要求符合刚才定义的名为BITCLASS-MAP

class bit

//如果符合则丢数据包!

drop

//进入网络出口那个接口

interface gigabitEthernet0/2

//当有数据包进入时启用LIMIT-BIT路由策略

service-policy input limit-bit

//数据包外出启用LIMIT-BIT路由策略

service-policy output limit-bit

该方法能够从应用层来识别BT应用标识,有针对性地对BT应用进行封锁,网管员操作起来简单易行。但路由器分析7层数据包,会消耗路由器的大量CPU资源,影响数据包的传输率。

BT应用进行带宽限制

方法一,利用校园网出口三层交换机或路由器提供的QOS质量服务功能,对不同应用给予一定的带宽限制,并对不同的应用给予不同的优先级,以保障重要应用的服务质量。

方法二,利用专用流量控制设备。

面对点对点应用对网络传输造成的影响,许多网络商家推出了针对点对点应用的专用流量控制设备。这些流控设备能够从应用层来识别点到点应用,并根据管理策略有针对性地对点对点应用加以带宽限制,保障用户合理使用网络资源。

利用管理手段来控制校外下载

由于现有的网络设备,难以对端口可变的点对点应用加以有效控制,面对校园网出口日渐严重的带宽过度消耗问题,许多高校改变计费策略来控制校外下载。有的高校取消原来的包月制,完全按出口流量大小来计费;也有的高校在原有包月制基础上,增加流量下载限额,在限额内的下载流量免费使用,超过限额部分,按一定价格加收额外费用。

按流量计费,用经济手段来调节用户的下载行为,控制效果明显;但也存在计费系统复杂,流量统计不准确,用户上网的明细记录量大、难以保存明细记录供用户查询,异常流量争议等问题。

流量控制手段与效果分析

从去年下半年,中国农业大学千兆校园网出口出现了严重的拥挤现象,出口网络设备(防火墙、计费网关)的运行能力难以满足日益增长的大流量需求,相继对出口设备进行了升级,以提高出口的传输能力,增强出口设备的稳定性。但新升级的出口设备资源很快被用完,又达到了饱和状态。出口流量不加以适当控制,难以保障校园网出口的正常运转。

我们对出口流量控制的思路,首先是利用现有设备的功能来调节出口流量。出口的核心设备是extreme BD6808三层交换机。利用三层交换机的QOS质量服务功能对出口的应用带宽进行控制。实现方法为:

先定义两条带宽限制策略:低优先级带宽为0%-10%、高优先级带宽为0%-40%

config qp3 minbw 0 % maxbw 10 % priority low

config qp5 minbw 0 % maxbw 40 % priority high

然后,在校园网接入端口上,对TCP端口在0-1023范围内的外出常规应用使用qp5策略,对TCP端口在1024-65535范围内的外出应用使用qp3策略:

create access-list qos_t0 tcp destination any ip-port range 0 1023 source any ip-port any permit qosprofile qp5 ports 2:8 precedence 480

create access-list qos_t1 tcp destination any ip-port range 1024 65535 source any ip-port any permit qosprofile qp3 ports 2:8 precedence 490

QOS实施效果如图2所示,绿色为流入量,蓝线曲线为流出量。对流出的高端口应用带宽限制为10%时,校园网出口的流出量明显下降,经一天观察后,对TCP高端口应用的带宽提升为30%,流出量被平稳地限制在指定的范围内。

QOS质量服务的带宽限制功能,能起一定的出口流量控制作用,减轻出口设备的压力;但对应用端口可变的点对点应用而言,难以有针对性的控制,只好在一个较宽的端口范围内加以控制,影响了相关应用端口的服务质量。

鉴于这种QOS质量服务调控措施存在的问题,我们选用许多厂家的流量控制测试设备,有针对性地对出口网络应用加以控制,以cisco SE1000流量控制设备为例来介绍出口流量的控制效果。

CISCO SE1000流量控制设备是二层透明的网络设备,将其串连在校园网接入线路上,对现有网络配置不需要做任何改动。对BT应用分配100Mbps带宽,并对每个IP限制BT上、下载速率为256Kbps。如图3所示,BT应用被有效地控制在指定范围内,其它的网络应用不受影响。

高校校园网的网络规模正在不断扩大,校园网内部数据传输率越来越高,上网用户数量多,上网时间比较集中,并且网络应用越来越丰富,这些因素对校园网的出口压力越来越大。部分用户的过度下载,占用了校园网出口的大部分网络带宽,也使网络设备严重地超负荷运转。如何让用户合理使用网络,已成为高校校园网管理面临的新课题。利用技术手段禁止或限制某些不合理网络应用,利用流量计费等管理措施,限制用户过度下载,在校园网运行管理中得到使用,效果明显。在流量控制的基础上,鼓励校内用户建设校内资源库,丰富校内网络应用,减少校外资源重复下载,把有限的校园网出口带宽合理运用到教学、科研工作中。

页面功能 【字体:   】 【打印】 【关闭】 【联系我们
相关链接
·校园网络的流量监控和分析
·校园网安全关键技术解析之二
·校园网络的流量监控和分析
·校园网安全关键技术解析四
·校园网安全关键技术解析之一
无标题文档
主管单位:中华人民共和国教育部  主办单位:教育部科技发展中心  承办单位:中国教育和科研计算机网CERNET
《中国教育网络》编辑部 京ICP证060236号 联系电话:010-62603869
建议使用800*600分辨率及Microsoft IE5.0版本以上浏览器
copyright © 北京赛尔时代传媒文化有限公司 All Rights Reserved