电子邮件之外的垃圾十篇

2024-08-06

电子邮件之外的垃圾 篇1

关键词:垃圾,电子邮件,发送,安全

1 垃圾电子邮件的定义

包括下述属性的电子邮件称为垃圾邮件:

1) 收件人事先没有提出要求或者同意接收的电子邮件;

2) 收件人无法拒收的电子邮件;

3) 隐藏发件人身份、地址、标题等信息的电子邮件;

4) 含有虚假的信息源、发件人、路由等信息的电子邮件。

2 垃圾电子邮件的危害

1) 占有网络带宽, 造成服务器拥塞;

2) 侵犯收件人的隐私权, 耗费收件人的时间和空间;

3) 被黑客所利用, 从而造成一系列的危害;

4) 严重影响ISP的形象。

3 垃圾电子邮件的分类

从发送内容上看, 主要分为商业广告邮件和政治团体宣传邮件;

从发送方式上看, 分为直接发送和第三方转发。

4 垃圾电子邮件工具的发展

我们选取了当代流行的三个垃圾邮件发送工具, 对其做了一个比较, 重点是分析随着时间地推移它们是如何发展的。

4.1 Dark Mailer

Dark M ailer是一个简单的软件程序, 它运行在安装了微软操作系统的电脑上。当Dark Mailer在2003年发布后, 它迅速成为了最流行的垃圾邮件发送工具。尽管易于使用, 不过Dark Mailer仍然需要一个有经验的操作者, 来避免那些容易察觉的错误。Dark Mailer的新手用户消息来源容易成为反垃圾邮件软件的目标, 因此, Dark Mailer的新手用户自己本身就容易成为其他垃圾邮件发送者的目标。

该邮件的主体内容没有对用户执行语法检查, 甚至没有一个基本的预览功能, 因此, Dark Mailer发送的消息经常带有很明显的错误。

Dark M ailer可以通过许多种方式传递消息:简单邮件传输协议、超文本传输协议或者代理协议。为了提高邮件速度, 它可以将消息发送给多个收件人以及传送给多个相互连接的邮件。

4.2 Send Safe

Send Safe是目前流行的垃圾邮件发送工具。与Dark M ailer相比, Send Safe的的管理系统配置更加优化。Dark Mailer的配置只支持单配置单邮件的模板, Send Safe的配置则由运动和消息组成。

Send Safe提供了一些高级的方法来实现连接、中继和基于代理的信息传输。为了避免被列入黑名单, 并避开网络服务提供商的检测, Send Safe可以更改所使用的IP地址来连接到收件人的邮件服务器。Send Safe通过一系列中介连接到信任代理, 而不是直接连接到其代理列表。

另一个改进体现在所谓的“代理锁”。Send Safe使用域名系统的查询系统来为代理的互联网服务供应商查找有关的记录。为了减少与DNS有关的延迟, Send Safe可以保持数据库映射域名到进入的IP和发送邮件服务器。这会同时用于信息传递以及代理锁定。

Send Safe拥有先进的消息模板系统, 该模板对用户是透明的。它可以模仿MUA, 例如Microsoft Outlook Express和Mozilla Thunderbird。在发送电子邮件的时候, Send Safe通过这一系列的模板旋转, 使得发送的消息看上去是使用不同的MUA发送。这是一个对于Dark Mailer特设头系统的重大改进, 大部分用户表明他们自己无法创建令人信任的邮件标题。

4.3 R eactor Mailer

Reactor M ailer是到现在为止速度最快的垃圾邮件系统。Dark M ailer和Send Safe在服务器上生成消息, 然后通过代理传播邮件, 而Reactor Mailer是使用分布式计算模型。受Reactor Mailer客户端软件感染的个人电脑定期下载包含消息模板和电子邮件地址列表的原子, 这一特点完全消除了带宽的影响。

赛门铁克公司已经把Reactor Mailer客户端软件命名为Trojan.Srizbi。这是一款非常隐蔽的恶意软件, 它在内核中运行自定义网络驱动程序, 来逃避主机上的软件防火墙。

自2007年10月以来, IronPort就使用专门的方法一直在跟踪这个僵尸网络。平均来说, 每24小时内有110, 000的僵尸, 尽管其中可能会因为动态IP地址而有所重复。经过测试, IronPort估计这个僵尸网络可能占有高达60%的垃圾流量。

Reactor M ailer有一个与DarkM ailer的头系统相似的模板系统, 但是其功能更加强大。最流行的模板生成邮件主体乎与包含在微软操作系统中的Microsoft Outlook Express 6几乎没有区别。

虽尽管Send Safe用户可以创建自己的图像, Reactor Mailer拥有一个更加强大的图像文本系统。它可以创建基于HTML格式的图像, 并且可以对这些图像进行模糊处理。

Reactor M ailer拥有先进的DNSM X系统, 在传输的消息时, 客户端不用尽可能多的发送DNS查询, 从而大大加快了发送的速度。

5 结论

随着时间的推移, Dark Mailer不再是先进的垃圾邮件技术, 但是仍然是一个可行的技术;由于持续的发展以及独特的功能集, Send Safe仍然是一个可行的垃圾邮件工具;Reactor M ailer的分布式体系结构使得它是最有效的邮件系统。

曾经使用SOCKS代理作为中介, 被恶意软件感染的计算机发送的垃圾邮件, 现在由恶意软件产生并且直接发送。

邮件标题已经从企图绕过垃圾邮件过滤器, 发展到模仿流行邮件用户代理, 这就很难区分单一基于消息结构的合法电子邮件。

宏引擎, 原先是被创建出来增加邮件的随机性, 现在已经发展到包含先进的模糊处理技术, 例如字洗牌和随机噪音插入。这些新技术进一步提高了消息的随机性, 减少了基于特征的检测算法其有效性。

由于垃圾邮件的增加成为了一个更加国际化的问题, 宏引擎已经开始支持多字符设置。随着新市场的出现以及本地化的反垃圾邮件技术的发展, 很可能会使得更多垃圾邮件工具将纳入新的区域特定文本生成方式。

现在, 模板驱动的垃圾邮件发送工具已经很成熟了, 反垃圾邮件技术需要进一步的改进, 因为这些工具生成的如此庞大的数据以及排列数足以淹没传统的防垃圾邮件系统。

参考文献

[1]IronPort.Image spam:The email epidemic of 2006.

电子邮件之外的垃圾 篇2

1 垃圾邮件的相关概述

所谓垃圾邮件是一些对邮箱用户本身没有价值的邮件,而且这部分邮件是没有经过邮箱用户同意的,属于“不请自来”的邮件,而且,这类邮件都是带有一定目的性的,这些垃圾邮件可以分为良性和恶性的。其中良性的垃圾邮件主要是以广告信息为主,并不会对邮箱用户的邮箱安全造成影响。而恶性的垃圾邮件,其会威胁邮箱用户的个人信息和的财产安全,恶性的垃圾邮件会给邮箱用户的正常使用造成影响,严重时可能会危及用户的财产安全和信息安全。另外,部分不法分子可以借由垃圾邮件,传播一些不良的信息情况,使得国家利益和人们的生活环境造成影响。而且,由于垃圾邮件的传播者想要大面积散播垃圾信息,经常采用多台计算机同时巨量发送的方式攻击服务器,这也就导致服务器的带宽损失增加,严重影响邮件的正常工作,制约邮箱用户的稳定应用。

为此,需要重视垃圾邮件的过滤工作,加强对垃圾邮件的控制工作。针对智能垃圾邮件过滤系统进行建设和完善,发挥其功能性,实现对垃圾邮件的拦截和处理,为人们提供一个健康、积极的网络环境。

2 智能垃圾邮件过滤系统

2.1 垃圾邮件过滤技术

垃圾邮件过滤技术是实现垃圾邮件过滤系统的关键内容,为此,需要强化对垃圾邮件过滤技术的分析和解读,发挥技术的功能性,使得垃圾邮件过滤系统可以得到有效开发。

(1)基于黑名单和白名单的垃圾邮件过滤技术。邮箱用户可以根据邮箱发件人的基本情况,对发件人进行处理,将不良发件人拉入黑名单中,并对黑名单和白名单的地址进行分析,并将这一地址所发送的信息进行进一步隔离和分析,从而完成对垃圾邮件的过滤。

(2)基于规则过滤的的垃圾邮件过滤。结合邮件的实际情况,设置一些规则,完成对不同类型垃圾邮件过滤,相比黑白名单过滤,规则过滤的覆盖面积更广,实现对部分垃圾邮件的处理。

(3)基于内容的垃圾邮件过滤。将实际垃圾邮件过滤技术应用过程汇总,基于内容过滤的垃圾邮件过滤技术,可以有效对内容进行分析,实现对垃圾邮件的过滤,其功能性明显优于黑白名单的垃圾邮件过滤和规则的邮件过滤。垃圾邮件智能分析、过滤系统框图如图1所示:

2.2 智能邮件过滤的分析与设计

智能邮件组主要是由四个模块子系统构成的,各类不同的子系统,实现不同的功能,从而使得智能邮件过滤系统的功能性可以得到全面发挥。智能邮件过滤系统主要是由知识库子系统、邮件导入子系统和关键词获取子系统以及简约子系统等子系统构成。

2.2.1 邮件导入子系统

邮件导入子系统是完成邮件进入到系统中,其中主要是对外界数据库中的信息进行分析,并实现对信息数据库的信息读入,并完成对信息的量化和转化,使其成为系统能够读取的数据信息,将其存入到系统内部的数据库中,为信息的内容和关键词获取提供基础保障。

2.2.2 知识库子系统

知识库子系统主要负责存储信息,其主要是由专家知识库、领域规则库和结果规则库等部分构成,不同部分承担不同的功能。专家知识库主要对领域专家的知识进行存储,领域规则库可以实现对分类知识的基本概念、数学和实体等知识的存储。

2.2.3 关键词获取子系统

关键词获取子系统是基于内容智能垃圾邮件过滤技术的子系统,主要是对导入数据库的数据信息进行分析,实现对关键词的获取,并结合基于空间的向量模型,实现对邮件的预处理,配合属性约简子系统,完成对信息内容的获取。

2.2.4 属性约简子系统

属性约简子系统主要完成对关键词集合的二次过滤,实现对关键词的有效筛选,并结合邮件内部关键词的基本情况对其进行智能判断,如果关键词中出现一些敏感词汇,或是无意义的相关关键词,由系统实现对邮件的智能化判断,从而使得邮件的过滤系统功能性可以得到全面发挥,避免各类垃圾邮件对用户产生影响。

3 智能垃圾邮件过滤系统实现

智能垃圾邮件过滤系统的基本目的是先对大量邮件进行快速判断和分析,实现对垃圾邮件的隔离和控制,避免垃圾邮件对用户的正常邮箱应用造成影响,保证用户的交流和信息传递质量。

在实际的智能垃圾邮件过滤系统构建的过程中,需要重视智能化垃圾邮件过滤系统的学习能力,使得系统可以完成各类学习能力,从而完成对垃圾邮件的有效分析,并保障系统的测试内容可以随着新的内容不断填入而不断优化和更新,从而使得垃圾邮件可以得到有效控制。客户端程序垃圾过滤的界面如图2所示:

(1)数据载入。需要根据垃圾邮件过滤系统的基本运行情况,结合系统序列图,从而使得智能垃圾邮件可以得到有效输入和识别,从而使得数据可以顺利载入,完成对智能垃圾邮件过滤系统的控制,为邮件的测试提供参考。

(2)测试。针对数据载入的情况,需要科学展开数据的测试工作,测试界面也就是系统的判断界面。借由测试界面,可以有效对邮件的性质进行分析,从而完成对邮件的判断,从而判断邮件是垃圾邮件和非垃圾邮件,进而智能化实现对垃圾邮件的过滤和控制,减少垃圾邮件对用户生活造成的影响。

4 结语

智能垃圾邮件过滤系统可以有效根据用户的基本邮件情况,完成对用户垃圾信息的判断,结合智能垃圾邮件过滤系统,可以实现基于邮件内容的邮件判断工作,从而完成对邮件性质的判断,如果邮件的性质属于无用或是传播无意义信息等,由系统完成对其的隔离,从而完成对垃圾邮件的处理和控制,保障网络用户的邮箱安全使用,避免钓鱼等情况发生,推动用户网络体验水平的提升,减少垃圾邮箱用户造成的影响。

参考文献

[1]李玉峰.基于Spam Assassin的中文垃圾邮件过滤系统的设计与实现[J].内蒙古农业大学学报(自然科学版),2012(3):245-249.

[2]汪洁,朱军.基于Linux的中文垃圾邮件过滤系统设计与实现[J].安徽农业大学学报,2011(2):309-314.

[3]奚建荣.基于综合过滤技术的邮件过滤终端研究[J].计算机应用与软件,2011(6):186-188.

电子邮件之外的垃圾 篇3

如果想找到Spam 感染操作系统的确凿罪证,可以单击 Windows 的“开始”按钮,选择“运行”,输入“msconfig”,单击“确定”,然后单击“启动”选项卡(如果你运行Windows 95 或Windows 2000,只能通过第三方应用程序察看启动程序设置情况),你就能找到一长串儿程序列表,它们都将在引导PC 时启动。

在Windows XP 中,这个列表不能完整显示,因为微软那些极为“聪明”的程序员重新设计了显示窗口,使得窗口不能最大化,也不能调整大小或者卷滚显示。不过,糟糕的界面并不能遮盖真相:一系列的不在启动程序组内的神秘程序被添加到系统引导过程中,甚至被添加到Windows的系统任务栏。你认为这样的PC 能健康稳定地运行吗?

有时候这种不幸的事儿或许能避免,比如你的防病毒程序或者防火墙软件已经神不知鬼不觉地把入侵者拒之门外。但是,如果你在启动列表中发现了像“srmclean.exe”这样的程序,怎么处置呢?

靠Google来解决吧: 通过文件名称搜索,Google 把你带到了一个英国网站,网站提供一个巨大的启动程序列表说明。这个网站揭开了“srmclean.exe”的面纱,原来它是某些Compaq PC 板载声卡驱动程序的一个文件,按照Compaq 的说明解释,“如果从启动列表中删除了这个程序,将不能使用声卡的某些功能”。也就是说,这是一个内存驻留的监视程序。但是,有些启动程序根本查不出所以然,也不敢贸然删除,于是这样的程序就一直在内存中驻留着吧,唉!

其实启动程序列表中大量的程序都是你不需要或者根本没用的。有一类驻留程序是你新安装软件的注册程序——通过弹出窗口提醒你注册。还有一类驻留程序是PDA、数码相机、打印机之类外设的连接检测程序(检测到连接后就调用相关应用程序)。这些软件真是设计得太周到了,周到得让我不太习惯,有时我还是宁愿在需要的时候自己手动启动相关软件。

我不想从任何像RealNetworks、Musicmatch之类的网站接受强制性的选择——在我的系统中添加程序。我的同事们已经几乎看不到 Windows桌面的本来面目了,桌面上到处都塞满了令人们深恶痛绝的五花八门的“精致”程序。卖家们应该慎重,不要在没得到我们允许的时候就把我们的注册表和系统任务栏等弄得和垃圾邮件肆虐的邮箱一样糟糕。还有,不要使用那些莫名其妙的程序名称,搞得我们这些可怜的用户摸不着头脑。

电子邮件之外的垃圾 篇4

你认识垃圾邮件吗?

我相信每一个拥有邮箱的用户都曾经见过垃圾邮件,有的人可能一天能收到几封,也有些人一天可能收到近百封而且垃圾邮件的格式各有不同。有的垃圾邮件是个简单的html格式的网页里面凌乱的字符,有的垃圾邮件是广告或是宣传页,有的垃圾邮件是些非法、暴力或色情的图片,有的垃圾邮件只是一个url地址,但是这个地址链接的内容却是和前面提到的三种内容相似,随着时间的推移越来越多的各种样式的垃圾邮件还会源源不断地出现在你的眼前。

中国互联网协会在《中国互联网协会反垃圾邮件规范》中是这样定义垃圾邮件的,本规范所称垃圾邮件,包括下述属性的电子邮件:

(一)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;

(二)收件人无法拒收的电子邮件;

(三)隐藏发件人身份、地址、标题等信息的电子邮件;

(四)含有虚假的信息源、发件人、路由等信息的电子邮件。

垃圾邮件的由来

这么多的垃圾邮件是从何而来的呢?internet使用的是tcp/ip协议,在internet诞生的时候只考虑了他的功能和方便性而忽视他的安全问题,所以才导致了如今大量的网络攻击。电子邮件使用的是smtp协议进行邮件的发送,他是基于tcp/ip的,因此他也同样存在了安全性问题。smtp协议缺少认证的过程,任何用户在没有严格的身份确认的情况下,都可以和smtp服务器进行通信。

sender: helo 1313s.com

receiver: 220 server.com simple mail transfer service ready

通过上面的命令就可以建立和smtp服务器间的通信,一些非法的用户(主要还是垃圾邮件的发送者)利用了这个缺陷随意发送各种形式的对接受者毫无意义的邮件,这就是现在这么多垃圾邮件的原因。

垃圾邮件解决措施

1、协议

垃圾邮件的是由什么引起的?协议。那么我们就从这个最根本的问题出发进行解决。目前的smtp协议缺少认证的过程,我们可以使用另一种有认证过程的邮件传输协议来取代他的位置,这样垃圾邮件的发送者就不会再在没有认证情况下就可以和smtp服务器进行通信了。

2、邮件服务器配置

垃圾邮件在网络大肆传播,在一定程度上和邮件服务提供商邮件系统的设置也有着直接的关系。应该关闭邮件系统的open relay功能,这是防范垃圾邮件最基本的。

3、产品

现在的邮件服务器用的都是smtp协议,人们用的比较习惯已经被人们深深地接受了。如果要全部更换成一种带有认证的邮件协议,将需要很长的时间和金钱,目前较好的一种解决方式是采用专用的反垃圾邮件功能模块。常用的反垃圾邮件功能模块主要存在于三种产品当中:

1)邮件客户端软件,特点是可以防止最普通的垃圾邮件,不用另外付费购买但是由于反垃圾邮件技术单一所以不能很好地防范垃圾邮件;

2)邮件服务器程序,和第一种情况差不多,不过这种方法将可能影响邮件系统的处理能力;

3)专用的反垃圾邮件产品,这应该是最好的一种反垃圾邮件的方法,功能比较强大,能够识别防范大多数的垃圾邮件当然具体情况还要与不同厂家采用的技术相关。

反垃圾邮件技术

1、关键字

使用的最早的反垃圾邮件技术之一。将一些会在垃圾邮件中经常出现

基于贝叶斯过滤的反垃圾邮件技术 篇5

关键词:垃圾邮件,贝叶斯过滤,训练过程,邮件分类

1 垃圾邮件现状

来自Commtouch公司的世界垃圾邮件来源统计如图1.1所示, 美国是全球最大的垃圾邮件发送国, 全球的垃圾邮件约一半来自美国, 而中国已经成为第二大垃圾邮件发送国, 占到全部的12.6%。韩国、德国和法国分别依次排在后面, 各占2-4%左右。

2 垃圾邮件的危害

时至今日, 中国拥有上亿的庞大网络用户, 由于中文用户使用率的增加, 中文的垃圾邮件数量与日俱增, 再加之中国网络用户大都懂中英文两种语言, 中国正成为垃圾邮件的重灾区。最新的反垃圾邮件调查问卷统计显示, 有37%的用户每天都会收到5~20封垃圾邮件, 还有54%的用户每天收到1~5封垃圾邮件。据估计, 全世界的企业每年要花费大约80亿至100亿美元来解决垃圾邮件问题。不仅处理垃圾邮件要花费人们大量时间和金钱, 而且, 这些垃圾邮件往往还是各种网络病毒的载体, 为人们带来的危害更是防不胜防。

垃圾邮件给用户带来了巨大的危害, 主要表现在:降低网络运行效率、占据了太多的邮箱空间、降低生产力、传播病毒、泄漏用户隐私、死循环邮件、占据了太多的网络带宽等方面。

3 反垃圾邮件的常用方法

按照网络层次结构的不同层面, 反垃圾邮件技术可以划分为:基于IP层、基于SMTP协议和基于内容过滤3类方法。

3.1 IP层的反垃圾邮件技术

基于IP层的反垃圾邮件技术中, 常见的技术有:黑名单、白名单、实时黑名单 (RBL) 、实时白名单服务等。

3.2 SMTP层的反垃圾邮件技术

SMTP层的反垃圾邮件技术目前应用得较为广泛, 在RFC2505:《反垃圾邮件建议》中有比较详细的描述。SMTP层的处理集中在对基本的SMTP指令的分析和判断上面, 所以与文本内容分析相比, 计算量很少且处理结果很好。主要的技术有:域名反向解析和SMTP交互行为的检测两大类。

3.3 基于内容过滤技术

基于内容过滤技术是目前反垃圾邮件用到的主要技术。电子邮件通常具有几个重要特征, 标准电子邮件地址 (包括收发件人邮箱名、收发人邮箱服务器IP地址或域名) 、主题、信件内容 (包括正文、关键字、附件) 等相关字段, 这些特征是过滤技术判断、分析、统计和提取的依据。目前的主要过滤技术有邮件来源特征过滤和内容过滤。根据来源特征进行过滤的方式可以在邮件完全提交之前就进行阻断, 通过对信头的分析进行垃圾邮件的判断, 使用这种方法可减少网上传输, 能有效保护网络资源。内容过滤就是对邮件正文进行内容匹配。从原理来看, 提取邮件特征、获得关键词是过滤技术的关键。基于内容的过滤方法主要有基于规则的过滤方法和贝叶斯过滤方法。本文只介绍贝叶斯过滤方法。

4 基于贝叶斯概率模型的过滤

贝叶斯统计源于英国学者贝叶斯 (Bayes) 撰写发表 (1763年) 的一篇具有哲学性的论文:An Essay Towards solving a problem in the doctrine of chances, 后来发展形成了贝叶斯学派。

贝叶斯方法是从传统的概率理论中分离出来, 以概率理论为基础的, 专门用于处理统计学中的不确定性问题的方法。

首先介绍一下全概率公式和贝叶斯定理:

全概率公式:设A1, A2, ..., An是试验E的一个完备事件组, 则对E的任一事件B, 有 (Ai) p (B│Ai) , 其中p (Ai) 是每个Ai事件发生的概率, p (B│Ai) 表示在Ai发生的条件下B发生的概率, 称为条件概率。

贝叶斯公式:设A1, A2, ..., An是试验E的一个完备事件组, B (p (B) >0) 是E的任一事件, 则事件B发生的条件下Ai事件发生的概率为:

i=1, 2, ..., n, 这里, p (Ai) 为先验概率, p (Ai│B) 为后验概率。

先验概率是指根据历史的资料或主观判断所确定的各种事件发生的概率, 该概率没能经过实验证实, 属于检验前的概率, 称之为先验概率。

后验概率一般是指利用贝叶斯公式, 结合调查等方式获取了新的附加信息, 对先验概率进行修正后得到的更符合实际的概率。

贝叶斯决策是指这种由贝叶斯公式计算概率, 再由最大概率做出判断的方法。贝叶斯决策用于文本分类时, 通过计算文本dx属于各个类别cj的概率p (cj│dx) , 将该文本归为概率最大的一类。

代入贝叶斯公式3.1后p (cj│dx) 可以表示为:

其中, p (cj) 是类的先验概率, p (dx│cj) 是类条件概率。对同一篇文本, p (dx) 不变。根据全概率公式,

dx表示为特征集合 (t1, t2, …, tn) , n为特征个数。

所谓Naive Bayes (朴素贝叶斯) 是指假设各特征ti之间相互独立, 则有:

这里的特征一般选取为单词, 而我们中文系统中, 一般选取词语。

将公式 (4) 代入公式 (2) 得到:

其中p (cj) , p (ti│cj) 可以从训练集中估计。

Naive Bayes文本分类存在多种变形模型, 如二元独立模型 (Binary Independence Model) 、多项式模型 (Multinomial Model) 、泊松分布模型 (Poisson Model) 、负二元独立模型 (Negative Binary Model) , 其中多项式模型具有最佳的效果。

在训练集上估计p (ti│cj) 时, 采用词频统计法:

为避免出现0概率, 对其进行简单的平滑处理:

对于垃圾邮件过滤, cj可分为两类:c0表示正常邮件类, ci表示垃圾邮件类。

则计算邮件dx属于正常邮件类c0的概率可表示为:

贝叶斯过滤主要分为两个过程:训练过程和邮件分类过程, 简单流程如图2、图3所示:

5 结束语

贝叶斯过滤器与以前收到的垃圾邮件和合法邮件的中相同词语及短语出现的概率对比来确定垃圾邮件的可能性。贝叶斯过滤法强大, 是阻断垃圾邮件最为精确的技术, 但过滤准确性依赖大量的历史数据。使用贝叶斯过滤法过滤垃圾邮件之前, 需要首先学习垃圾邮件和非垃圾邮件。通过学习垃圾邮件和非垃圾邮件, 收集邮件中的特征词语, 生成垃圾词库和非垃圾词库。判别邮件时, 根据“垃圾词语”和“非垃圾词语”在邮件中出现的频率, 运用一定的算法, 判定邮件是否为垃圾邮件。

参考文献

[1]University of Virginia Grid Computing Group, WSRF.NET Develop-er Tutorial, http://www.cs.virginia.edu/~gsw2c/WSRFdotNet/WS-RF.NET_Developer_Tutorial.pdf.

[2]吴爽, 蒋昌俊.OGSA安全体系及其在GT3中的实现[J].计算机应用研究, 2004 (5) .

[3]王江云, 彭晓源, 王行仁.基于网格技术的先进分布仿真协同环境[J].计算机工程, 2004 (8) .

电子邮件之外的垃圾 篇6

随着Internet的普及, 电子邮件已经成为人们最常用的一种通信手段。然而垃圾邮件的泛滥却给电子邮件应用带来严重的危害并造成巨大损失。根据中国互联网协会对“垃圾邮件”的正式定义[1], 所谓垃圾邮件是指批量发送的没有经过接收人同意的各种电子邮件, 垃圾邮件具有欺骗、强制、不健康和传播速度快等特点。在垃圾邮件跟踪机构Spamhaus不久前评出的2006年度垃圾邮件最多的国家中, 中国仅次于美国而位居第二, 中文垃圾邮件处理问题变得日益突出。

基于机器学习的邮件过滤是抑制中文垃圾邮件传播的有效方法之一, 目前在中文垃圾邮件处理中进入实际应用的机器学习方法主要是贝叶斯算法, 其过滤性能取决于用于学习的正常邮件和垃圾邮件样本中特征的数量及其分布, 因此在邮件学习样本较少时其准确性和稳定性难以得到保证, 例如集成在FOXMAIL5.0中的贝叶斯垃圾邮件过滤就要求用于学习的垃圾邮件和非垃圾邮件数量都在1000个以上, 在邮件学习样本较多的情况下, 贝叶斯方法判断垃圾邮件具有很高的准确率和实用性。由于对一般用户来说要获得大量的邮件学习样本仍然是一件较为困难的事, 所以如何保证在邮件学习样本有限情况下的中文垃圾邮件过滤性能显得尤为重要。

支持向量机是基于统计学习理论[2]的一种模式识别方法, 该方法以结构风险最小化原则为基础, 通过构造与两类样本点距离最大的最优超平面, 以获得最佳的分类性能。最优超平面只与离它最近的两类样本中的少数样本点 (称为支持向量) 有关, 并且在有限样本集中获得的最优超平面在全局也是最优的, 因而适合解决邮件学习样本有限时的垃圾邮件过滤问题。

1支持向量机解决中文垃圾邮件过滤中的主要问题

1.1中文邮件文本的表示

根据SVM算法的特点, 我们可以采用向量空间模型 (VSM) 表示中文邮件文本信息, 其基本思想[3]是以向量来表示文本: (W1, W2, W3, …, Wn) , 其中 Wi 为第 i 个词 (特征项) 的权重, 若Wi =0则表示文本中没有出现该特征项。

1.2中文邮件特征的抽取

与英文不同, 中文文本的字词之间没有天然的分隔符, 因此在对中文邮件内容抽取特征词时需要使用中文自动分词技术, 其方法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等几种, 从分词性能和所需时间综合考虑, 我们采用了基于字符串匹配的分词, 其基本方法是:首先准备一个“充分大的”机器词典, 然后利用HASH算法和二分查找将待分析的汉字串与词典中的词条进行匹配, 若在词典中找到这个字符串, 则匹配成功 (识别出一个词) 。

收件人和发件人地址字段中包含有帐号、地址等对分类有意义的信息, 也需要抽取出来作为特征项, 由于有明显的分隔标记, 抽取较为容易。

1.3中文特征的选择

不同的特征对中文邮件分类的作用大小是不同的, 并且不相关的和过多的特征可能给学习算法带来过适应问题, 因此需要对抽取出的中文特征进行选择。其方法是:首先利用中文的停用词表去除那些对邮件内容无关紧要的词, 然后利用评估函数对每个特征的作用独立打分, 并按分值高低排序, 最后通过设定的阈值选取预定数目的特征。可用于特征选择的评估函数主要有文本频数、信息增益、互信息、X2估计、文本证据权和优势率等[4], 在系统中我们选择了X2估计作为特征选择的依据:如果A表示特征t在类别c中出现的次数, B表示特征t不在类c中出现的次数, C表示类c中没有出现特征t的文本数, D表示非c类中没有出现特征t的文本数, N表示总文本数, 那么特征t的X2估计值为:

undefined (1)

1.4特征权重的计算

中文特征权重的计算可以采用绝对词频和相对词频两种方法[3]:绝对词频即特征项在邮件文本中出现的次数;相对词频为归一化的词频, 相对词频的计算可以运用 TF-IDF 公式, 我们在过滤系统中采用了TF-IDF 公式中较为常用的一种:

undefined

其中, undefined为词t在文本undefined中的权重, 而undefined为词t在文本undefined中的词频, N为训练文本的总数, nt 为训练文本集中出现t的文本数, 分母为归一化因子。

2基于SVM中文垃圾邮件过滤系统的实现

SVM方法经过国内外学者多年的研究, 算法相对成熟, 我们在用VC++6.0实现过滤系统的实验统计时直接调用了Thorsten Joachims的SVM-light 5.0版本, 其实现请看参考文献[5]。SVM的中文垃圾邮件过滤系统的框架结构如图1所示。

基于SVM的中文垃圾邮件过滤系统由向量空间构造模块、学习模块和过滤模块三部分组成。

2.1向量空间构造模块算法实现

第一步:准备一定数量的垃圾邮件样本;第二步:利用特征抽取对垃圾邮件样本中的FROM、TO、SUBJECT、BODY字段中的内容抽取特征, 生成一个垃圾邮件的特征集;第三步:利用特征评估函数为垃圾邮件特征集中的每一个特征打分, 按分值从高到低从中选择预定数量的特征作为向量空间的各维, 以此构造向量空间。

2.2学习模块算法实现

第一步:准备一定数量的垃圾邮件和非垃圾邮件作为训练学习的样本;第二步:样本经过特征抽取和邮件文本处理后表示成向量的形式;第三步:利用SVM学习机对向量形式的样本学习后生成过滤模板 (支持向量) 。

2.3过滤模块算法实现

第一步:新电子邮件经过抽取特征和邮件文本处理后表示成向量形式;第二步:利用SVM过滤器和过滤模板对向量形式的新邮件进行计算;第三步:根据计算结果判断该邮件是垃圾邮件还是正常邮件。

3实验测试与结果分析

3.1邮件样本准备

实验所用中文邮件样本来自于CCERT中文邮件样本集[6], 学习样本包括600封邮件 (其中垃圾邮件样本500个, 正常邮件样本100个) , 测试样本包括500封邮件 (其中垃圾邮件样本400个, 正常邮件样本50个) 。

3.2评估标准

垃圾邮件过滤系统性能的好坏主要体现在查全率和误判率两个方面:

· 查全率 即系统过滤垃圾邮件的比例。查全率越高说明垃圾邮件过滤性能越好。其数学公式为:

查全率 = 实际过滤的垃圾邮件数 / 垃圾邮件的总数。

· 误判率 即系统将正常邮件误判为垃圾邮件的比例。该比例显然越低越好, 因为正常邮件一旦被误判为垃圾邮件, 有可能会给用户带来意想不到的损失, 其数学公式为:

误判率 = 被误判为垃圾邮件的正常邮件数 / 正常邮件的总数

垃圾邮件过滤系统要想具有一定的实用价值, 首先必须保证非常低的误判率, 在此基础上提高查全率。下面我们就从查全率和误判率两个方面对基于SVM的中文垃圾邮件过滤系统进行评测。

3.3查全率测试

我们将实验分成十组, 实验中的正常邮件学习样本保持最大规模 (100个) 不变, 垃圾邮件学习样本规模逐步增加 (每次增加50个) , 测试样本集保持不变, 实验结果如图2所示。从实验结果看, 在固定正常邮件学习样本的情况下, 随着垃圾邮件学习样本规模的逐步增大, SVM系统的查全率在提高, 当学习样本规模达到一定程度后, 查全率达到最高值 (90%) , 并且最高查全率可以通过对整个学习样本集的学习获得 (即第十组实验) 。这说明SVM系统在有限学习样本集中能够获得最高的查全率。

3.4误判率测试

在误判率测验中, 我们让垃圾邮件学习样本规模保持最大 (500个) 不变, 同时让正常邮件学习样本规模逐步增大 (每次增加10个) , 测试样本保持不变。实验所用的邮件样本与3.2节完全相同, 实验也是分成十组, 实验结果如图3所示。

从实验结果看, 在垃圾邮件学习样本不变的情况下, 随着正常邮件学习样本的增加, 正常邮件误判率逐步降低, 当正常邮件学习样本规模达到一定程度后, 误判率达到最低值0, 并且最低误判率可以通过对整个邮件学习样本集的学习获得 (第十组实验) 。这说明SVM系统在有限学习样本集中能够达到最低的误判率。

3.5SVM与贝叶斯过滤方法的比较试验

比较实验是通过设置阈值使两种方法误判率为0, 在此基础上比较两种方法的查全率, 实验数据与实验方法与查全率实验相同, 实验如果图4所示。

从实验结果可以看出, 在邮件学习样本较少的情况下, SVM方法其过滤性能要好于贝叶斯方法。

3.6实验的总体结论

综合上述实验可以看出, 基于SVM的中文垃圾邮件过滤系统在给定的邮件学习样本集中能够达到最高查全率和最低误判率, 和目前常用的贝叶斯方法相比, 在邮件学习样本较少时也能达到比较好的过滤效果, 并且具有很好的稳定性和准确率。

4结束语

机器学习方法是解决中文垃圾邮件过滤的一种有效途径, 如何确保在邮件学习样本较少时垃圾邮件过滤的准确性和稳定性对于基于机器学习的垃圾邮件过滤具有十分重要的现实意义。本文对基于支持向量机的中文垃圾邮件过滤方法进行了探讨, 并给出了系统的设计实现方法。实验表明, 该方法在邮件学习样本较少时具有很好的准确性和稳定性, 适合解决有限样本情况下中文垃圾邮件的过滤问题。

参考文献

[1]梁宏.垃圾邮件困扰全球用户[J].网络安全技术与应用, 2004 (2) :78-79.

[2]Vapnic V.The Nature of Statistical Learining Theory[M].New York:Springer-Verlag, 1995.

[3]庞剑锋, 卜东波, 白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究, 2001 (9) :23-26.

[4]周茜, 赵明生, 扈?.中文文本分类中的特征选择研究[J].中文信息学报, 2004 (3) :17-23.

[5]Thorsten Joachims.Learning to Classify Text Using Support Vector Ma-chine.Dissertation s[M].Kluwer, 2002.

电子邮件之外的垃圾 篇7

关键词:垃圾邮件,邮件过滤,贝叶斯,行为识别

0 引言

中国互联网协会2008年1月公布的《中国互联网协会反垃圾邮件调查报告》显示, 中国网民平均每周收到16.71封垃圾邮件, 并有进一步增长的趋势。之所以造成垃圾邮件泛滥, 是因为近几年来宽带网络的快速发展、网络通信成本的不断下降以及硬件性能的提高并且成本不断降低给垃圾邮件提供了很好的环境。垃圾邮件的泛滥会造成很多危害, 不仅影响国家的政治稳定、用户的正常工作, 还会影响网络的安全性、稳定性、高效性;占用网络带宽和存储空间。所以对于垃圾邮件的防范及过滤技术的研究很有意义。

1 研究现状

目前存在的反垃圾邮件系统, 主要有两个大的方向:核心基于内容的反垃圾邮件系统;核心基于行为识别的反垃圾邮件系统。从技术角度来看, 单一的技术不能有效的识别垃圾邮件。同样, 基于邮件单一属性的反垃圾邮件系统也不可能完全有效的杜绝垃圾邮件的泛滥。这也正是以上两个系统的缺陷所在。

2 系统设计

2.1 设计目标

目标是设计一个基于SMTP的、位于服务器前端的、具有较高识别精度的反垃圾邮件系统。对于垃圾邮件的识别与过滤, 精度是最重要的问题, 因为一方面要确保邮件服务器尽量少的接收到垃圾邮件, 另一方面又要减少垃圾邮件的误判率。该系统位于邮件服务器的前端, 代替邮件服务器接收邮件, 完成邮件的识别与过滤后, 把邮件转发给邮件服务器, 再由邮件服务器完成以后的功能。

2.2 系统总体框架

系统的总体框架, 如图1所示。主要分为两个部分:基于垃圾邮件行为属性的识别过滤;基于垃圾邮件内容的多重技术过滤。根据邮件发送的频率、邮件的目的、每次发送连接的数量等行为属性进行先期处理。内容过滤模块则采用多重过滤技术:黑名单、白名单和智能贝叶斯过滤。黑名单和白名单是动态更新的;贝叶斯过滤部分是针对大量的垃圾邮件进行有效过滤的高效技术。

3 模块设计

3.1 预处理模块

主要完成的工作包括:信头、信体分离, 分词处理。

(1) 信头、信体分离:两者之间用空行来分隔, 可以分别提取信头和信体的信息。电子邮件的信头包括:发件人地址、收件人地址、主题、邮件列表等信息, 这些信息常可以判断一封邮件是否是垃圾邮件。

(2) 分词处理:对于主题和信体中的内容, 需要经过分词处理。分词的精度是影响系统准确率的一个重要因素。我们采用机械匹配法 (向右减字最大匹配和向左增字最小匹配) 相结合, 然后再用互信息消除歧义得到比较精确的分词结果, 这个过程需要借助分词词典。

3.2 行为识别模块

和正常的电子邮件相比, 垃圾邮件的发送在通信流方面具有许多共性, 结合邮件发送过程原理, 提取垃圾邮件的行为属性:持续性━发送的频率, 目标━邮件的目的, 密度━每连接的邮件数, 重复性━邮件的重复性, 数量━发送的数量。行为特征的识别可以防止垃圾邮件的大规模发送、持续性发送和DDo S攻击, 进而实现垃圾邮件的高效识别和过滤, 提高整个系统的效率。

3.3 内容过滤模块

内容过滤主要包括:基于黑名单、白名单技术的信头部分过滤;基于信体分词后的贝叶斯过滤。“白名单”是用户或MTA (Mail Transfer Agent, 邮件传输代理) 设置和维护一系列名单, 上面记录着可以信任的IP地址和域名, 从这些名单发送过来的邮件都被认为是合法邮件。“黑名单”与“白名单”相反, 这是一个不受欢迎的IP地址和域名的列表, 用户希望阻止它们发来的邮件。过滤系统在处理新到达的邮件时, 首先查看邮件头部的发送方地址, 对于地址处于白名单中的邮件将全盘接收, 而对于处于黑名单中的邮件则直接拒收。优点是速度快、效率高。黑名单技术上最流行的是实时黑名单 (Realtime Blackhole List, RBL) 技术, 由一些著名的志愿者组织在他们的网站上维护着一系列的IP级的黑名单, 它们或者是垃圾邮件发送者的地址, 或者是那些具有严重安全漏洞的邮件服务器地址。任何ISP都可以订阅这些服务, 使这类邮件在到达之前就自动被拒绝。目前比较值得信任的组织有Spamhaus以及中国反垃圾邮件联盟维护的RBL服务。

贝叶斯算法是基于统计方法的垃圾邮件过滤技术。基于统计的方法的优点就是分类器由程序自动学习出来, 只要及时更新样本学习集就可以使分类机更新的速度跟得上垃圾邮件出现的速度, 即它的时效性很强。贝叶斯算法的基本思想是通过对邮件头部和邮件信体中的单词进行概率计算, 从整体上判断是否为垃圾邮件。单词的概率计算依赖于已知的垃圾邮件和正常邮件中单词出现的频率来完成, 因此必须经过一段时间的学习之后才能开始为用户工作, 它的工作流程包括两个阶段:学习阶段和判别阶段。过滤后的结果分为正常邮件和垃圾邮件。为提高整个系统的精度, 提供了邮件客户端接口。

4 结束语

反垃圾邮件系统正在不断的完善, 目前的反垃圾邮件系统都是基于邮件单一属性开发的, 依旧不能从根本上杜绝垃圾邮件的泛滥。本文正是将垃圾邮件的行为属性和内容属性进行有效的结合。在垃圾邮件发送过程的通信流中提取行为特征进行有效的阻断;在邮件的信头和信体的内容上采用主流的垃圾邮件过滤技术进行过滤处理。当然, 作为一个完善的反垃圾邮件系统, 依然需要在图片垃圾邮件和病毒垃圾邮件的过滤部分进行完善。进一步增强整个反垃圾邮件系统的高效性、准确性、安全性。

参考文献

[1]胡道远, 闵京华.网络安全.北京:清华大学出版社.2005.

[2]曹麒麟, 张千里.垃圾邮件与反垃圾邮件技术.人民邮电出版社.2003.

[3]Richard Blum.开放源码邮件系统安全.人民邮电出版社.2002.

[4]行为识别垃圾邮件.计算机世界.2005.

[5]孙东红.反垃圾邮件技术发展分析.人民邮电报.2004.

[6]Quinlan, J.R.Induction of decision trees.Machine Learning.1986.

电子垃圾的环境影响分析 篇8

摘要:

市场经济的飞速发展带来电子产品的更新换代,电子垃圾已成为目前增速最快的垃圾,如何解决其污染问题,充分利用其中的宝贵资源,并不影响电子市场经济的发展,是摆在人们面前的一个不容忽视的环境问题。

关键词:

背景:

当今世界发展迅速,不管是从人类社会的建设、人类科技成果还是人类思想意识等,都是在不断的飞速发展。人类社会的发展,从一开始的掠夺自然,吞噬自然到后来的思想意识转变,认识到人与自然是相辅相成的,是共存的,任何一者不可以吞噬另一者。也就是说,人在发展的时候要注意保护自然,保护环境。在目前众多的环境问题中,其中电子垃圾正在越来越受到人们关注。所谓电子垃圾就是已经废弃的、或者已经不能再使用的电子产品,都属于电子垃圾。比如:旧电视机,旧电脑、旧冰箱、旧微波炉,旧手机、年久失效的集成电路板等。

电子垃圾为什么越来越受到世人的关注?首先,电子垃圾的成分很复杂,混合了多种化学有毒物质。其次,电子产品更新换代速度飞快,产生的量也是很大的。这两点使电子垃圾越来越受到重视,治理电子垃圾也是迫在眉睫,刻不容缓!

现状:

从上世纪90年代开始,全球经济在以电子信息产业为领军的新经济带动下快速发展,取得了显著的经济效益,电子信息产业在新经济中比重与日俱增,其生产的电子产品因具有泛在性和短生命周期性而带来一些负面影响,其中对人类生存环境影响较大的是因到期报废和更新换代被人们弃用的废旧电子产品,这就是电子垃圾。电子垃圾主要来源于家庭、公司和政府相关部门及设备制造等各个行业。其中家庭淘汰的废旧电子电器是电子垃圾的最大来源。

进入21世纪以来,电子垃圾已经成为全球增长最快的垃圾,有泛滥趋势。造成电子垃圾数量剧增的原因有两方面:一是随着人们生活水平的不断提高,对电子产品的需求不断膨胀,其普及率迅速提高,因而废弃量也急剧增加。例如,1993~2000年中国个人电脑数量增加了52%,约6倍于世界平均增长率。二是电子产品更新换代越来越快,使用周期缩短。以美国为例,电脑使用寿命周期从1992年的4.5年降到2006年的不到2年。近年来,随着市场经济飞速发展,电子信息产业也在迅猛发展,电子产品更新换代日新月异,电子产品及家用电器的使用率不断增长,由此产生的电子废弃物污染问题也日益突出。世界各国每年产生几百万乃至上千万吨“电子垃圾”,并且这个数字在逐年攀升。

我国电子产品产量更呈快速增长趋势。2003年起,我国已进入家用电器淘汰高峰,据统计,2008年我国电视机产量为9 015万台、冰箱4 600万台、洗衣机3 900万台、空凋6 850万台、电脑l3 800万台、打印机6 167万台、移动电话6亿部。目前,全国每年至少有500万台电视机、400万台冰箱、600万台洗衣机、1000万部手机要报废,并以每年5%至10%的增速产生大量的电子垃圾。据不完全统计,2010年上半年移动电话、笔记本电脑、集成电路等增长率达30%以上甚至接近50%,联合国报告称全世界电子垃圾以每年3 600万t的速度增长。其中中国年产230万t电子垃圾,仅次于美国的300万t。

同时,我国还遭遇国外电子垃圾的侵入。1992年签署的《巴塞尔公约》明确规定,各国产生的有害物质必须在其境内处理,不能以任何理由向其它国家转移。然而许多国家并未履行该公约。据统计,全球每年产生的电子垃圾近4000万吨中有80%被运到亚洲,其中90%丢弃在中国。就是说,我国每年要容纳全世界70%的电子垃圾,即2700万吨。

电子垃圾同时也具有很高的利用价值,如电子垃圾中含有多种贵金属、塑料、玻璃及其它有用材料。一项研究显示,电子垃圾中含24%的铁、3%的铜、2%的铝、4%的铅、11%的其它金属、15%的玻璃、9%的木质。1t电脑中黄金的含量相当于7t金矿石。全球稀有金属大部分用于电子产品制造,80%的铟用于液晶显示屏,80%的钌用于硬盘,50%锑用于生产阻燃剂。这些珍贵的资源如果能够科学回收,将产生极大的经济和环境效益。目前世界各国电子垃圾资源回收利用技术还不成熟,大量电子垃圾无法得到无害化、资源化处理。影响:

环境健康方面:

电子垃圾不仅量大而且危害严重。如果处理不当对人和环境造成严重危害。特别是电视、电脑、手机、音响等产品,含大量有毒有害物质。废旧家用电器中主要含有六种有害物质:铅、镉、汞、六价铬、聚氯乙烯塑料、溴化阻燃剂。电视机阴极射线管、印刷电路板上的焊锡和塑料外壳等都是有毒物质。一台电视机的阴极射线管中含有4至8磅铅。制造一台电脑需要700多种化学原料,其中含有300多种对人类有害的化学物质。一台电脑显示器中铅含量平均达1公斤多。铅元素可破坏人的神经、血液系统和肾脏。电脑的电池和开关含有铬化物和水银,铬化物透过皮肤,经细胞渗透,可引发哮喘;水银则会破坏脑部神经;机箱和磁盘驱动器中的铬、汞等元素对人体细胞的DNA和脑组织有巨大的破坏作用。如果将这些电子垃圾随意丢弃或掩埋,大量有害物质渗入地下,造成地下水严重污染;如果进行焚烧,会释放大量有毒气体,造成空气污染。

目前我国尚未建立电子垃圾回收的正常渠道,小商小贩已成为我国回收电子垃圾的主力军。普通电池有些地方已采取措施进行回收,但仍有很大一部分被随意丢弃,废旧手机电池的回收寥寥无几,这些都是污染环境的隐患。对于废旧家用电器的回收,一是被简单处理后又流入低收入家庭或农村;二是被拆解后其中仍有一定使用价值的元件被翻新改装,再次流入市场,而没有利用价值的部件扔掉后被填埋或焚烧,大量有毒物质因此污染土壤和地下水。

在国外,电子产品的拆解是专业性很强、技术含量很高的工作。而在国内,浙江、福建、广东沿海一些农民仅靠一把锤子和一个酸池即能在电子垃圾中不断“淘金”。尤其用加热等 粗犷的手段从废家用电器中拆解电子元件,提取贵重金属,并随意排放由此产生的大量废气、废液、废渣,严重破坏了周边环境,危害了人体健康,造成十分 恶劣的影响。如在我国被称为“电子垃圾之都”的广东贵屿.它用非常原始的电子垃圾处理方式支撑着产值将近10亿元的产业。为了获取可以回收利用的金属和元件并从中获利,数万人从事着焚烧废电器和所料的回收和分解工作,用硫酸水冲洗电路板,他们用自己赖以生存的环境在换取利润,殊不知,同换取利润的还有自己的健康。

由于成本低、吸纳劳动力多,当地政府部门多报以宽容甚至支持的态度。几年之后,被污染的村庄内,当地农民盖起了小洋楼,却遭遇癌症高发、村民烂手烂脚、妇女不孕或者屡屡流产等危及人身健康的恶果,同时,耕地污染寸草不生,水源污染危及下游。《华尔街日报》上的一条新闻——美国折扣店销售的有毒、含铅首饰,就是来自于中国工人们烧烤电路板后收集的铅焊料。

经济方面:

从2006年7月7日起,欧盟正式实施电子电气产品环保RoHS指令,该指令规定所有在欧盟市场上出售的电子电气设备必须禁止使用铅、汞、镉、六价铬 多溴联苯和多溴联苯醚等六种有害物质。加上WEEE指令,两个指令涉及的产品包括10大类,近20万种,几乎涵盖了所有电子信息产品。两个指令对中国电器和电子行业出口影响巨大。根据WEEE的要求,所有出口欧盟的电器和电子产品都要支付一笔回收处理费用,大约相当于售价的3%-5%。对于一向以价格低廉作为主要竞争优势的中国产品而言,必定会在一定程度上削弱产品的竞争力,对于生产元器件、品牌代加工为主的企业影响将更大,而对于技术革新力量薄弱的中小企业更会是致命的打击。据悉RoHS指令实行的当月,中国广西输欧机电产品就猛降两成,作为家电出口大户广东中山市对欧盟出口也出现首次下滑。

从经济贸易角度来看,这些指令可以看作是环保贸易壁垒。但是客观地讲,欧盟这两项指令的本意都是积极的,是有利于人类生存环境可持续发展的,能够促进企业投入资金进行技术革新和生产线改造。

面对由电子垃圾而引起的这些贸易壁垒,我们应当认真研究国外相关法律对电子产品制造业提出的新要求,研究这些新要求将对我国电子产品制造业产生的新影响,及时调整产品生产制造工艺,减少有毒有害物质的使用,防止这些政策和法律成为阻碍中国电子产品出口的新贸易壁垒。

处理现状:

国际上回收处理电子垃圾的方法和经验

目前,欧盟、美国、日本和瑞士等国家在电子垃圾的回收利用和处理方面立法相对比较完善,也有很多有效措施和成功经验可供参考或借鉴。

美国出台了一系列推动包括旧家电在内的废弃物的回收利用法规,并通过征收填埋和焚烧税来促进废弃物的回收利用;日本于2001年开始实施《家用电器回收法》,要求家电生产商和进口商对制造、进口的家电有回收的义务,并需要按照一定的比例进行资源回收利用。消费者在废弃大件家电时,要同销售或厂家指定的回收企业联系,由其负责回收,同时支付一定的费用;德国实行公共废物管理组织与生产商双回收系统;欧盟通过公布《废弃电子电气设备指令》和《关于在电气电子设备中禁止使用某些有害物质指令》两项法案来加强废弃电器及电子产品的重复使用和回收再利用,减少处理过程中的环境影响和风险;而法国更强调全社会共同尽责,规定每人每年要回收4kg电子垃圾;瑞士实施了“电子电气产品回收、收集和处置法”,遵循“谁污染谁负责”和生产者延伸制两个原则,另外瑞士信息、通讯和组织技术协会(SWICO)制定了预付处理费用标准并对该费用进行管理。

据了解,我国还没有建立完善的电子垃圾回收体制,电子垃圾回收的主力军主要是一些小商贩。调查显示,这些产品的每年以4 千万吨的数量增长。这些人为了得到值钱的零部件--铜和金,用不当的方式燃烧电子产品,这个过程中会产生有毒物质。如果对之进行焚烧,又会释放出二恶英等大量有害气体,威胁人类的身体健康。

对于废旧家用电器的回收,一是被简单处理后又流入低收入家庭或农村;二是被拆解后其中仍有一定使用价值的元件被翻新改装,再次流入市场,而没有利用价值的部件扔掉后被填埋或焚烧,而且填埋要占用大量土地,且大多填埋场没有7层以上严密防渗漏措施,长时间暴露在较为开放的空间中,随着雨水的渗入,电子废弃物渗出液会污染地下水及土壤,其中含有难以生物降解的萘等非氯化芳香族化合物、氯化芳香族化合物、磷酸酯、酚类化合物

和苯胺类化合物;其中还含有大量金属离子,同时垃圾堆放产生的气体严重影响场地周边的空气质量。

中国在电子垃圾回收处理和利用方面存在的问题:

法规尚不健全且可操作性不强:

解决电子垃圾问题的一个关键因素是专项立法。相对于西方发达国家,中国在电子垃圾污染控制方面的专项立法还比较滞后。近年来,虽已制定了《电子信息产品污控制管理办法》、《废弃家电与电子产品污染防治技术政策》、《电子废弃物污染环境防治管理办法》和《废旧家电及电子产品回收处理管理条例》等一系列相关条例,积极推动了电子垃圾的无害化、资源化处理。但是,电子垃圾的管理涉及诸如工业和信息化部、商务部、海关总署、质检总局、环境保护部等多个部门,存在职能交叉、职责不清等诸多问题;此外,法规中制定的措施也不详实,可操作性不强。仅以《废旧家电及电子产品回收处理管理条例》为例,尽管其将电视机、电冰箱、洗衣机、空调器、电脑等定为必须回收处理的电子产品,并提出对电子垃圾实行多元化回收,由国家建立废旧家电回收处理专项资金,对生产者、销售商、消费者和回收公司在各个环节中的义务也作了规定,但由谁来为电子垃圾回收支付费用、如何实施回收及如何使用专项资金等问题都还没有具体落实。

回收与处理体系不健全:

电子垃圾的回收处理是一项专业性强、技术含量高的工作。国外消费者在报废电子产品时需支付一定费用。而中国消费者卖出废弃电子产品时还能获得一些收益,所以在我国推行电子垃圾回收付费制还很困难。研究表明,约60%的电子垃圾被收购小贩以低价收购后,一部分翻新作为二手产品出售,另一部分则送至地下小作坊,进行简单处理(如手工拆解、焚烧和酸洗等)以回收有价物质,而将处理后残物作普通垃圾直接丢弃,造成了严重的二次污染。而具有一定处理能力的电子垃圾回收处理企业却因回收成本和处理费用过高而作为不大。

国外电子垃圾大量涌入中国:

1992年签署的《巴塞尔公约》明确规定,各国产生的有害物质必须在其境内处理,不能以任何理由向其它国家转移。然而许多国家并未履行该公约。例如,美国只有5%~15%的电子垃圾被回收利用,而大部分被运往亚洲国家,其中90%被输入中国。

法律观念不强及环保意识淡薄:

当前,中国电子产品生产者和消费者对电子垃圾的相关法规和条例普遍了解不够,环保意识也普遍比较薄弱,对电子垃圾的危害性更是认识不足,一部分人更是不了解电子垃圾为何物。

建议:

在环境恶化,资源消耗量大和全球资本主义化的今天.高科技垃圾问题将越来越严重。如何处理电子垃圾是全社会应该共同关注的问题。目前,由于利润的考虑.我国尚无回收资源和处理垃圾的有效办法,但有效的控制是必不可少的。处理对策应该从政策制定者、制造商、专业废物处理企业和电子产品使用者这几个方面共同着手改善电子垃圾污染问题。针对以上问题.电子垃圾处理可有如下对策:

(1)利用新闻媒体广泛宣传高科技垃圾对人类和环境的危害,提高广大群众的环保意识。

(2)组织专家、技术人员调研、评估高科技产品对我国环境污染现状及将来的走势.制定高科技产品制造和处理的相关计划,避免涌现大量电子垃圾,争取在电子垃圾处理上走可持续发展道路。

(3)制定相应法律、法规,鼓励电子产品生产厂家使用无污染原料.或对使用含毒性强的生产原料的厂家征收高额的环境保护税。

(4)在沿海及经济发达的城市和地区应设立电子垃圾处理试点,对高科技垃圾处理课题设立政府资助的研究项目.突出国际通用的三“R”原则(Reduce节约材料,Reuse旧物利用,Recycle废物再生),在国内招标,调动专家、学者的积极性,开展废电器回收、利用研究,寻求符合中国国情,“多、快、好、省”的解决办法。开发电子垃圾回收再利用新技术。

(5)把电子垃圾交给由电子产品企业设立并负责无污染的电子垃圾回收处理系统。电子产品企业负责电子垃圾回收处理,能使企业有动力改善产品设计,使用更少的有毒物质,使产品更容易被升级回收。而且,设计制造了这些电子产品的企业也才是最了解自己的产品构造与物质使用情况,是最适合对它们的电子垃圾回收处理的。电子产品企业对自己的产品承担全部责任直至产品的废弃阶段。是电子产业的大势所趋.也是从源头上预防电子垃圾污染的最有效手段。

(6)交给第三方设立的正规电子垃圾回收处理机构。这种方法是暂时能提供的处理电子垃圾的最快速有效的方法.虽然能避免电子垃圾因为不当的处理方式造成二次污染,但却不能激励电子产品企业改善产品设计,不能从根源上解决电子垃圾污染问题,只是在电子产品企业为产品承担全部责任与相关法规落实前的过渡之策。

总之,建立行之有效的电子垃圾处理体系迫在眉睫,实现电子废物的减量化、资源化和无害化势在必行。电子垃圾回收需要引起全社会关注,并在立法、物流、企业及公民环境意识等方面形成相互配合的完整体系。

展望

从电子垃圾中挖出“城市矿山” 篇9

——山东中绿资源再生有限公司总经理许来永

“政策、技术、经营环境和渠道, 是决定再生资源利用行业发展的四大要素。”

——唐山中再生资源开发有限公司总经理张伟

十八大报告提出, 发展循环经济, 促进生产、流通、消费过程的减量化、再利用、资源化。最近, 《“十二五”循环经济发展规划》讨论通过, 推动再生资源利用产业化成为今后重要任务之一。“城市矿山”作为循环经济的一个新兴领域, 正日益受到各方关注。

电子垃圾, 被称为继化工、冶金、造纸、印染等之后又一新的环境杀手。但是如果能够做好再生资源化利用, 它们又可以变为一座独特的“城市矿山”。

据统计, 一吨报废手机可以提炼280克黄金, 而开采一吨金砂仅能提炼出5克黄金。目前, 我国手机用户已经达到7亿户, 每年更新淘汰的手机重达数万吨。我国已进入电子产品、家用电器等报废高峰期, 预计到2015年, 废弃电器电子产品产生量将超过600万吨。

“充分开发蕴藏在各种废弃产品中的庞大资源, 形成资源—产品—废弃物—再生资源的循环经济发展模式, 能有效缓解资源约束、减轻环境污染、保障经济可持续发展。”中国再生资源回收利用协会相关负责人表示。

“城市矿山”有宝藏

“从一定程度上说, ‘城市矿山’要比天然形成的真正矿山更具开发价值。推进再生资源利用, 最终将实现资源有限、循环无限。”山东中绿资源再生有限公司总经理许来永说。

“发展循环经济, 加快再生资源回收利用, 促进生产、流通、消费过程的减量化、再利用、资源化, 是推进生态文明建设的一项重大战略。”在前不久召开的首届“城市矿产”博览会上, 中华全国供销合作总社理事会副主任李春生说。

近年来, 我国对“城市矿山”的开发利用发展很快。“十一五”期间, 我国“城市矿产”资源利用总量已达6.3亿吨。每回收利用1万吨再生资源, 便可节约4.12万吨自然资源, 减少6万至10万吨垃圾处理量。“十二五”期间, 预计将通过开发“城市矿产”节能11.55亿吨标准煤, 减排7.2亿吨二氧化碳。

为推进再生资源利用, 目前我国已经批准设立了29个国家级“城市矿产”示范基地, 形成了每年3 500万吨的再生资源聚集加工能力。“十二五”期间, 将建设100个资源综合利用示范基地、50个“城市矿产”示范基地。

技术不再是制约瓶颈

2012年7月, 《废弃电器电子产品处理基金征收使用管理办法》正式启动, 进一步推动了电子垃圾资源化利用进程。山东中绿资源再生有限公司是中国再生资源开发有限公司的废弃电器电子产品拆解处理基地, 总经理许来永说:“中国再生资源开发有限公司作为我国最大的专业性再生资源回收利用企业, 目前已在全国投产8个废家电处理厂, 年处理能力1 000万台, 销售收入5亿元。虽然废家电板块在公司整体业务中的占比不大, 但在国家积极的政策导向和财政补贴下, 有着很好的利润空间。未来, 废家电拆解将成为企业新的增长点。”

“政策、技术、经营环境和渠道, 是决定再生资源利用行业发展的四大要素。其中政策是核心。对于废旧家电的回收利用政府有补贴, 成效十分明显。”唐山中再生资源开发有限公司总经理张伟告诉记者。唐山中再生资源开发有限公司是第二批国家“城市矿产”示范基地, 主要经营范围包括废旧塑料、废弃电器电子产品、废旧钢铁、报废汽车等。

技术已经不是制约再生资源利用行业发展的关键问题。“以前, 在广东处理电子垃圾大多采取焚烧和水洗等手工拆解方式, 处理技术落后, 回收率低, 电子垃圾中的铅、汞、镉、铬等重金属流入水体和土壤, 既污染环境, 也危害健康。”张伟说, “现在我们可以采用先进的技术, 在一个完全密闭的容器里, 采用环保溶液回收, 这边把线路板放进去, 那边就可以出金银。这种新技术在国外已经开始采用, 国内也开始引进。随着技术的不断突破, 未来所有材料都可以再利用、再循环, 几乎没有废料产生。”

电子邮件之外的垃圾 篇10

随着信息技术的快速发展,在互联网得到普及的同时,大量的病毒、入侵、欺诈、垃圾也随之而来。小到杀毒软件、大到国家机密,信息安全问题正得到越来越多的关注。仅以垃圾邮件为例,据联合国贸易和发展会议报告称,截至2007年底,在世界范围,约57%的邮件都是不请自来的,由此可能造成价值435亿美元的损失。在我国,中国互联网协会反垃圾邮件中心2008年第四季度数据显示,中国互联网用户收到的垃圾邮件数已经占邮件总数的57.89%,已高于世界平均水平。

在这样的背景下,亟需通过最新的技术对不良信息进行提前预防,维护信息安全。数据挖掘(Data Mining)技术是从海量数据中通过一定的处理和方法找寻知识与规律的过程。该技术非常适合处理互联网络中与大量数据有关的问题,数据挖掘算法当中又以神经网络(Neural Network)算法尤为突出。Taeho(2010)[1]从神经网络方法的角度对文本分类问题进行了讨论,通过改进神经网络的算法和使用方式,使文本输入向量的维度大幅下降,维度容忍度超过SVM。Xu和Yu(2010)[2]在垃圾邮件识别问题中介绍了最传统的前馈神经网络(BP网络),在肯定其优势的基础上充分分析了其解释性差、模拟语言方面有其极限等缺点,并指出通过对垃圾邮件特征词库的调整以及引入解释性好的改进算法可以解决这一问题。Zhang和Wang(2009)[3]探讨了能够优化传统分类算法的遗传算法(Genetic Algorithm),针对中文垃圾邮件的大量输入维度以及算法本身参数的设定都可以使用GA方法进行处理。许哲万等(2011)[4]针对T-S模糊推理的模糊神经网络进行了改进,并介绍了常见的模糊推理方法:Mamdani模糊推理、Larsen模糊推理、Takagi-Sugeno(T-S)模糊推理等。对于模糊逻辑、神经网络以及遗传优化三者的结合,邱兴兴(2007)[5]对其详细的实现过程作出了阐述,其中提到的模糊化处理方式是采用参数尽量少的隶属度函数进行处理,尽可能的提高运行效率。但是,该方法最终采用距离来分类文本,这种做法实则是靠近KNN方法,与数据权值关系减弱。熊志斌(2010)[6]克服了这一问题,而且在许多技术细节上做出了自己的改进。最大的缺点就是其设计的模型只能支持6维以下的数据输入,不适合垃圾邮件识别。

研究中最突出的不足之处就在于对三层多分类器的实现并未给出明确的方式,而两层的多分类器中又存在着不同细节的技术问题,寻找一种有效的算法组合并作出适当的改进是十分有必要的。本文在数据挖掘技术的基础上,研究人工神经网络算法,加以模糊化,再通过遗传算法优化,从而消除单纯的神经网络算法存在的弊端,克服遗传算法收敛的问题,模仿人脑识别,提高了神经网络算法的效率,最终实现提高邮件系统处理垃圾邮件的效率和正确率。

1 神经网络算法的改进

传统的神经网络在进行训练时处于随机赋予初始权值的状态,因此就很有可能陷入局部极小值状态。遗传算法具有良好的全局搜索性,能够克服神经网络所存在的问题,因此本文采用遗传算法来为神经网络赋予初值。

然而,遗传算法又可能陷入“早熟”问题,即由于缺乏多样性而过早结束优化。所以本文采用多子群遗传算法来保持种群多样性。同时遗传算法需要合适的适应度函数来计算,本文选取自身构建的模糊神经网络作为适应度函数,使用训练样本与期望输出MSE的倒数作为输出适应度,在保证误差小的基因适应度大的前提下,将遗传算法与目标神经网络紧密结合。

在整体数据处理时,针对邮件中某些词语既出现在垃圾邮件类,也出现在正常邮件中,因此引入模糊隶属度函数进行二分,每一个权值分为偏上值和偏下值,目标输出为0和1,分别代表垃圾邮件和正常邮件。从而增强了神经网络的解释性,解决了一定程度上的语义问题。

模糊理论也有其本身的问题,基于模糊规则的模糊神经网络是无法处理海量数据的,这受限于模糊规则的数量,其数量越多,占用资源越多,处理效率越低。因此本文采用具有模糊产生器和模糊消除器的模糊系统,即Mamdani型模糊系统。此外,传统的加乘型模糊系统会面临“维数灾难”的问题,无法处理高维数据。其中一部分原因在于计算高维输入连乘时很可能导致系统无法计算或溢出而崩溃。本文针对这一问题保持了BP神经网络原本的计算方式,取消了连乘的存在,同时不影响函数的逼近,这样就较好地解决了“维数灾难”的问题。

综合以上算法改进的考虑,发现这一多分类器的构建弥补了不同算法本身的缺陷,结合不同算法的流程,构建了如图1所示的算法结构,下面对每一层的输入输出进行表述。

(1)第一层(输入层):这一层有m个节点,仅仅是将所有输入值传递到第二层。

(2)第二层(模糊化层):这一层接收第一层的数据,并根据模糊隶属度函数π函数进行二分,得到输出为2m维的向量。

(3)第三层(模糊推理层):模糊推理层是以模糊产生器的结果为输入,同时相当于传统BP神经网络层次中的隐层,需要对数据首先进行如式(1)处理:

之后将阶段输出值O输入正切sigmoid函数,得到这一过程的总输出。其中正切sigmoid函数是输入范围为全体实数、输出范围映射在[-1,1]的激活函数。权值和偏置范围均为[-1,1],初始权值由遗传算法输出提供。

此外,这一层的节点数为n,取值为模糊化层和去模糊化层节点数目乘积平方根在向上取整。公式如下:

(4)第四层(去模糊化层)重复第三层的输出过程,其中激活函数用对数Sigmoid函数代替,确保函数输出值为[0,1],符合分类的最终要求。权值和偏置范围均为[-1,1],初始权值由遗传算法输出提供。

以上就是算法计算的流程,综合来看算法的实施克服了神经网络解释性差、遗传算法“早熟”问题以及模糊理论存在的“维数灾难”问题,在数据预处理并赋予初始权值偏置之后,算法会显现出明显的效率提高、准确性增强等特点。

2 邮件过滤模型设计

基于已将改进的算法,本文构建了如图2所示的邮件过滤模型。该邮件系统可以分为训练网络阶段和过滤系统测试阶段两部分。下面对这两部分的流程加以介绍。

训练网络阶段流程如下:

(1)将邮件样本库中的训练数据依据内容进行分词处理,得到训练样本的特征项。

(2)将分词得到的特征项按照互信息计算和人工审核相结合的方式进行特征提取,选取400个词作为特征项。存入特征库中。

(3)对特征库中的特征项进行权重计算。

(4)把训练样本集合表示成400维的高维向量集合。

(5)对400维高维向量进行模糊化处理,每个维度向量获得接近正常邮件和垃圾邮件的不同隶属度值,再合成800维的向量。

(6)将部分向量输入到已经建立起来的神经网络中,同时启动遗传算法赋予初始权值,用训练数据测试出最优的初始权值。

(7)在初始权值的基础上对神经网络进行训练,得到全局最小值的训练网络。

过滤系统测试阶段流程如下:

(1)对测试样本邮件按照内容进行分词处理。

(2)按照特征库对分词结果进行特征提取。

(3)按照训练阶段步骤(3)的方法计算特征项的权重。

(4)把测试样本集合表示成400维的高维向量集合。经过以模糊化处理后,就可以利用挖掘算法过滤垃圾邮件,得到仿真输出。

(5)评价输出结果。

综合来看本文设计的邮件过滤系统与一般的过滤系统存在着一定的不同,其中大部分存在于技术细节。比如对于分词系统的处理,本文对互信息方法的计算结果作出调整。互信息方法只能计算出样本频数相差较大的特征词,却缺乏对频数接近词汇分类的能力,这使得某些对分类有帮助的词被排除在外。同样道理,对于稀有词汇会对分类产生较大作用,本身稀有词汇就可能判断出邮件类别,而当无法判断邮件类别时又会被已知的类别做上标记,之后测试文本中一旦出现,将会导致分类错误。本文针对这样的技术细节加入了人工审核部分,对于词汇出现次数小于10的特征词以及词汇频数接近相等的特征词进行了人工判断,这一步骤在输入维数较少时是行之有效的。

还有,特征词在计算权值时本文采取了TFIDF法,但是该方法在特征词无法覆盖测试样本时权值无法计算,这就导致了系统存在可能崩溃的隐患。原本在训练阶段计算TFIDF,不可能存在特征词不出现的情况。然而在测试阶段特征词阶段这种情况确实存在,为了使计算得以继续,必须对这种情况的取值进行补充。取值思路包括0、1、0.5以及可以消弭该特征词权值影响的特殊值。由于本文权值计算之后要进行模糊化处理,实际上是二分处理,因此补充权值取0.5看似合理,但是这使得原本的函数出现间断点,函数不连续。基于以上考虑本文特征词不出现时权值一律补充0值,这也是针对本文算法系统所进行的选择。

3 邮件过滤模型的实现

3.1 数据选取与预处理

本文的数据均为中文邮件,其中共计402封邮件,201封正常邮件,201封垃圾邮件,编码方式相同。在数据的分配中,选择100封正常邮件、100封垃圾邮件进行网络训练。再选择剩下的202封邮件作为模型的测试文档。

接下来对文档进行分词处理。本文用ROST中文词频统计软件采用最大匹配法进行分词匹配,得到了200行、801列的训练样本和202行、801列的测试文本,其中最后一列为目标值列。将这些值输入算法即可实现对垃圾邮件的识别。

3.2 算法实现与仿真输出

本文通过MATLAB工具箱中的GA工具箱进行了遗传算法的实现,其中适应度函数为所建模型对应的神经网络。根据计算可以判断出神经网络的隐层数目为28,所需要的权值和偏置值共计22457个,本文采用实数编码,因此每个基因有22457个变量,依此可以构建完整的遗传算法并进行计算。具体过程中使用了GA工具箱,因此最重要的是参数选择,在workplace中输入optimtool即可进行操作,表1为遗传算法中所选择的参数,构建了多子群的遗传算法,剩余参数采用工具箱默认值。

构建完遗传算法,将训练数据输入,点击开始获得22457维的最优初始输出值。将初始值输入所构建的神经网络,训练神经网络并最终保存训练好的神经网络,该网络不以数值形式存在,只可阅读基本信息,可重复使用。其中神经网络训练的初始参数如表2所示。

将仿真输出的结果与目标列值进行对比,将0.5以下的值确定为垃圾邮件,0.5及以上的值确定为正常邮件,最终得出结论并评价算法及过滤系统。

3.3 算法改进效果与分析

遗传算法的改进效果可以从图3和图4中看出。在适应度变化趋势中可以看出,最佳染色体呈现平滑收敛,说明遗传算法搜索的鲁棒性很好。与此同时,在原先设定好的100代算法中,仅用了50代就达到了稳定的收敛,说明算法的效率也不错。当然,过早收敛可能是“早熟”问题,不过通过遗传算法多样性变化图可以看出,虽然多样性在逐渐降低,但是在50代结束的时候依然保持着很高的多样性,这也说明达到收敛时,遗传算法有效地避免了这一问题。此外,系统较早地获得了最优输出值却仍进行着进化,进一步说明算法没有因为“早熟”而停止。

针对神经网络算法,实际训练效果可以从图5和图6中看出。神经网络在第42次训练时达到了目标精确度1e-10。在此之前,对同样的数据设定不同的目标精确度得到结果为:当精度为1e-3,需要训练7次;当精度为1e-7时,需要训练35次。对比最高目标值所需要的训练次数,神经网络训练的效率非常之高,其梯度值的变化则进一步表明这一过程的细节,在训练的后半段梯度平滑且快速下降。造成这种现象的主要原因是遗传算法已经优化过神经网络的搜索范围,极大的减少了神经网络的训练时间。

因此,无论是遗传算法还是神经网络都得到了改进。

3.4 分类器结果与分析

多分类器的构建基本已经实现,可以说这种算法在理论上是可用的,在实际上是可实现的。但是是否是可行的还需要对邮件分类结果加以分析。再通过测试数据输入与神经网络仿真输出后,将输出结果目标值进行对比得到如表3所示的结果。

从邮件分类的结果可以看出,本文设计的邮件过滤系统还是有效地将垃圾邮件和正常邮件分开,准确率高达89.11%和99.01%,这已经可以称得上是有效的系统了,算法、系统均得以实现并且具有一定的现实意义。

4 结束语

本文结合前人在垃圾邮件识别、数据挖掘算法等方面的成果,深入研究了神经网络、遗传算法和模糊理论的结合算法,构造了多分类器并加以实现。通过在实际邮件分类问题上的实验验证,分析结果表明本文提出的算法提高了效率,并保证了分类准确率。

参考文献

[1]Taeho J.NTC(Neural Text Categorizer):Neural Network for Text Categorization[J].International Journal of Information Studies,2010,2(2):83-96.

[2]Xu H,Yu B.Automatic thesaurus construction for spam filtering using revised back propagation neural network[J].Expert Systems with Applications,2010,37(1):18-23.

[3]Zhang Y Q,Wang W.E-mail classification by SVM optimized with genetic algorithm[J].Journal of Computer Applications,2009,29(10):2755-2757.

[4]徐哲万,李晶皎,王爱侠,等.一种基于改进T-S模糊推理的模糊神经网络学习算法[J].计算机科学,2011,38(11):196-219.

[5]邱兴兴.基于模糊逻辑和神经网络的文本分类方法[D].南昌:南昌大学,2007.

上一篇:报表查询论文下一篇:小学语文新教师