,欢迎光临!
加入收藏设为首页请您留言
您当前位置:网站首页 >> 西北地区 >> 垃圾邮件过滤技术的发展与现状-上海联兵环保免费电话:400-600-5030

垃圾邮件过滤技术的发展与现状-上海联兵环保免费电话:400-600-5030

2011-09-13 13:57:46 来源:中国过滤器网 浏览:1

摘要:电子邮件随着Internet的发展给人们带来了方便,随之而来的垃圾邮件却给人们带来无尽的烦恼。本文针对反垃圾邮件技术发展与现状,对目前已应用或正在研究的垃圾邮件过滤技术进行了分析,为项目组改进垃圾邮件过滤方法的下一步工作做前期准备。
关键词:垃圾邮件;过滤器;贝叶斯;SVM;KNN
中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)21-40708-02
1引言
电子邮件是Internet中最善及,最普遍的应用,成为人们生活、学习、工作中必不可少的通讯工具。电子邮件在为人类服务的同时,随之而来的垃圾邮件却给人们带来无尽的烦恼。研究垃圾邮件及反垃圾邮件技术有着深远的社会意义和巨大的经济价值,帮助人们更有效地远离垃圾邮件的骚扰,营造一个健康、和谐、有序的互联网社会环境。目前,过滤技术是最为广泛使用的反垃圾邮件技术,也是当前众多学者研究的热点。本文对目前垃圾邮件过滤技术发展及现状作了简要的分析,提出了下一步研究工作。
2 过滤技术
对抗垃圾邮件的最重要的技术是过滤技术,主要用于MDA(MailDeliverAgent)和MUA(MailUserAgent),典型的邮件过滤技术有黑白名单、规则过滤、概率统计分类等。
2.1黑白名单过滤
黑白名单是一个简单有效而最为常用的过滤方法,国内外已成立权威性的反垃圾邮件联盟,提供实时的黑白名单服务,如中国反垃圾邮件联盟的实时黑名单RBL,包括近期中国国内的主要垃圾邮件发送源、中国国内动态分配地址。其优点是对垃圾邮件处理能力的要求较低,它能够节省大量的带宽、存储容量和处理时间。缺点是不够灵活,对垃圾邮件的判别准确度不高。
2.2基于规则过滤
设置一些过滤规则,这些规则通常有信头分析、群发过滤、关键词精确匹配以及邮件内容中的其它特征。通过查找已有的垃圾邮件的匹配模式来过滤垃圾邮件,这需要依赖开发商不断的更新邮件规则。基于规则过滤方法的优点是规则较易理解和修改、易推广。如SpamAssassin工具,经过合适的参数调整,可以过滤90%的垃圾邮件。其缺点是在规律性不明显的应用领域效果较差。
2.3统计过滤方法
对邮件内容统计分类过滤方法,过滤正确率高,而且速度很快,是垃圾邮件处理技术中很受欢迎的一种方法,具有广泛的应用前景。如贝叶斯,SVM,KNN,神经网络。
2.3.1贝叶斯分类
贝叶斯分类基于贝叶斯定理,利用已知的邮件,建立垃圾邮件和非垃圾邮件关键词的贝叶斯概率模型,然后利用该模型判断邮件是否为垃圾邮件。M.Sahami等人[1]早在98年就验证贝叶斯算法在垃圾邮件过滤中成功的应用效果。而朴素贝叶斯分类算法及其变体的发展及其应用,扩展了贝叶斯算法。
贝叶斯过滤方法优势表现为:效率较优,对训练样本的进行一次扫描,再进行统计分析;占用存储空间少。因此,贝叶斯算法得到广泛应用于现有邮件安全产品中。但他也具有一定的局限性:对训练样本依赖性大,对中文邮件处理效果不显著。基于其优越性,许多学者对基于贝叶斯分类算法进行研究改进,以提高贝叶斯过滤方法的性能。自学习的贝叶斯算法,基于多级属性集规则的贝叶斯分类新算法,基于有监督Bayesian网络,使用一种高斯分布模型的Flexible-Bayes模型[2]等通过实验验证有效地提高贝叶斯算法的性能。
2.3.2自学习K邻近算法(KNN)
KNN基于类比学习,训练样本用n维数值属性描述,每个样本代表一个点。给定一个未知样本,KNN分类法搜索模式空间,找出最接近未知样本的K个训练样本。它是基于要求的或懒散的学习方法,它所存放的样本,直到新样本需要分类时才建立分类,这使得训练集合随着多变的垃圾邮件而随时变化,有利于邮件精确识别。[3]
2.3.3神经网络
人工神经网络是在对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统,是基于生物学中的神经网络的基本原理而建立的。神经网络的优点在于自适应性、学习能力和大规模平行计算能力。缺点就是消耗大量时间,在处理在线或需快速反馈的问题时不易使用此算法。[4]
2.3.4支持向量机(SVM)
建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,提供了一个与问题维数无关的刻画函数复杂性的方法,它引入高维特征空间,将输入空间的非线性决策边界转化为高维特征空间的线性决策边界,利用线性函数的对偶核,解决了数值优化的二次规划求解问题,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力,在两类分类问题上效果最佳。
垃圾邮件分类,可看作简单两类分类问题,垃圾及非垃圾邮件两类。Drucker[5]将线性SVM用于垃圾邮件过滤,得到的结果印证了这一点。采用二值表示的SVM的性能稍高于采用多值表示的SVM。[6]实验证明了,与前面提到的贝叶斯、神经网络算法进行比较,SVM得到结果效果最佳。但计算量大、速度慢、参数选择经验性强、不能得到很优的解决,一般需借助其它方法进行结合弥补。
2.4 其它垃圾邮件过滤方法
垃圾邮件的格式特征多样性,所要应对的反垃圾邮件技术方法也多样性。
对邮件文本内容进行语义分析来判断其发件者的言语行为从而进行邮件分类、过滤。[7]
为减少邮件过滤的负载和检测效率,通过分布代理的方式进行垃圾邮件过滤,邮件过滤可并行性处理,每一邮件子过滤器同时检测多封邮件,提高检测效率。[8]
垃圾邮件的多变性,反垃圾邮件技术也需要不断发展。垃圾邮件指纹检测(Spam Fingerprint Check),邮件实名签名,图象分析(Image Analysis)等过滤技术都已得到一定的发展并应用到现有的邮件安全产品中。
由于机器学习方法的高效率,及各方法的局限性,多种算法结合进行过滤,能达到更佳的效果。如将神经网络与决策树算法的结合,遗传算法与贝叶斯算法相结合,多个机器学习算法结合的投票式算法等。
3 小结
随着反垃圾邮件技术不断地提出新方法,狡猾的垃圾邮件制造者为谋取私利,不断地改变垃圾邮件特征,垃圾邮件的危害性,在网络中的泛滥,使得反垃圾邮件与垃圾邮件的斗争成为长期过程,需要不断地改进、完善反垃圾邮件技术来抵抗其危害。本文所概述的反垃圾邮件技术的现状与发展,为反垃圾邮件技术的研究提供一定的帮助。仔细研究垃圾邮件的传输机制,在原有的反垃圾邮件方法基础上进行改进,找到更好的垃圾邮件判别方法和过滤方法,是本文下一步的工作内容。

 

上海联兵环保科技有限公司
地址:上海市松江区工业区茸北分区茸阳路69号
总机:021-51691929
传真:021-57784244
免费电话:400-600-5030
技术支持:13641659499
E-mail:zhanglianbing@126.com
http://www.shlbhb.com

发表评论
网名:
评论:
验证:
共有0人对本文发表评论查看所有评论(网友评论仅供表达个人看法,并不表明本站同意其观点或证实其描述)
赞助商链接
关于我们 - 联系我们 - 咨询联兵