首页 > 文章中心 > 神经网络文本分类

神经网络文本分类

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇神经网络文本分类范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

神经网络文本分类

神经网络文本分类范文第1篇

法,并介绍了在TMS320C540

>> 一种新的基于改进的ADALINE神经网络的DTHF解码器方案 AVS解码器流水线控制机制的一种改进设计 一种SoC架构的AVS硬件解码器设计方案 一种基于BP神经网络整定的PID控制器的算法改进 一种基于改进的BP神经网络的入侵检测方法 基于一种改进BP神经网络算法的教学质量评价研究 一种基于ART2神经网络的算法改进 一种基于改进BP神经网络预测T/R组件温度的方法 一种基于改进神经网络的高效模糊聚类算法 一种基于模糊神经网络的印刷品字符识别器 一种基于遗传神经网络文本分类器的研究 一种新的基于灰色关联分析的BP神经网络剪枝算法 一种新的基于神经网络的IRT项目参数估计模型 一种基于短语统计机器翻译的高效柱搜索解码器 一种基于SOM神经网络的污水处理工艺方案比选方法 一种基于BP神经网络的数控机床伺服系统控制器 一种改进的BP神经网络算法在入侵检测中的应用 一种改进的BP神经网络车牌识别算法的研究 一种改进的BP神经网络算法分析 一种ART2神经网络的改进算法 常见问题解答 当前所在位置:中国 > 科技 > 一种新的基于改进的ADALINE神经网络的DTHF解码器方案 一种新的基于改进的ADALINE神经网络的DTHF解码器方案 杂志之家、写作服务和杂志订阅支持对公帐户付款!安全又可靠! document.write("作者:未知 如您是作者,请告知我们")

申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。 摘 要:本文提出了一种新的基于改进的AD址INE神经网络DTMF信号检测算

法,并介绍了在TMS320C5402和TLV320AICl0上采用此算法的DTMF

神经网络文本分类范文第2篇

关键词:模糊神经网络;蔬菜;病害;诊断

中图分类号:TP182;S435 文献标识码:A 文章编号:0439-8114(2013)17-4224-04

Research on vegetables Disease Diagnosis Model Based on Fuzzy Neural Network

WEI Qing-feng,LUO Chang-shou,CAO Cheng-zhong,GUO Qiang

(Institute of Agriculture Science and Technology Information, Beijing Academy of Agriculture and Forestry Sciences, Beijing, 100097)

Abstract: To explore the effective method for the diagnosis of vegetables diseases, through reasonable division of symptoms, using input vector construction method which contained characteristics of symptoms and membership grade, a vegetables disease diagnosis of fuzzy neural network model was constructed. The experimental results showed that the input vector construction method had effectively expressed the disease diagnosis rule, the model had strong fault tolerant ability, and the average diagnostic accuracy was 85.5%.

Key words: fuzzy neural network; vegetable; disease; diagnosis

收稿日期:2013-01-30

基金项目:国家现代农业科技城综合信息“三农”服务平台建设项目(PT01);北京市自然科学基金项目(9093019);北京农业科学院信息所

创新基金项目(SJJ201203)

作者简介:魏清凤(1983-),女,湖北武汉人,助理研究员,硕士,主要从事农业信息技术的研究工作,(电话)13439026360(电子信箱)

;通讯作者,罗长寿,副研究员,(电话)010-51503387(电子信箱)。

病害是影响蔬菜优质生产的重要制约因素之一。我国农村基层还相对缺乏有经验的病害诊断专家,对蔬菜病害不能正确判断,不但延误了防治最佳时机,还严重降低了蔬菜品质。

当前农业病害诊断技术方法主要有图像分析诊断[1-4]、专家系统诊断[5-7]以及人工神经网络诊断[8]等。基于图像分析的病害诊断方法其图像的获取受环境光照的影响较大,且需要专业人员在室内进行数据分析和识别,时效性差,无法实时满足具体生产实践的要求。基于专家系统的诊断方法,采用 IF-THEN产生式推理,存在诊断知识获取有瓶颈、推理规则更新难、容错能力差、串行搜索运行效率低等不足。近年基于人工神经网络的方法无需建立推理规则,具有自学习及并行处理能力,较引人注目,但存在对病害症状的典型性、非典型性模糊特点无法区分度量,样本诊断规律学习不充分等问题。模糊神经网络可以将不确定的症状信息通过模糊隶属集来表示,能解决诊断系统中的不确定性知识表示、并行推理等问题,对具有模糊性复杂性的蔬菜病害诊断非常适用。此文利用模糊系统和神经网络相结合的方法,在对病害特征模糊量化方法研究的基础上,建立能够实际应用的蔬菜病害模糊神经网络诊断模型,为蔬菜病虫害防治提供依据。

1 蔬菜病害诊断知识整理

一般研究中,将植株的发病部位划分为根、茎、叶、花、果5个部分[9]。由于部分蔬菜病害(如猝倒病)在苗期即表现出典型症状,因此,为提高诊断的全面性和准确性,将蔬菜植株发病表现最终划分为根、茎蔓、叶、花、果、苗6个部分。表示如下:

S={Si | i=1,2,3,4,5,6}

式中,Si表示根、茎蔓、叶、花、果、苗6个部分中的1个。

以“北京农业数字资源中心”中蔬菜病害数据库的知识为基础,结合文献资料、植保专家咨询及案例分析,对病害特征知识根据根、茎蔓、叶、花、果、苗6个部分进行分别提取,建立二维知识表。

2 病害症状重要性划分及隶属函数

不同症状对病害诊断的贡献程度不同,一些特征明显的症状表现往往是确定某种病害的重要依据。通常用模糊的自然语言来描述症状对于病害识别的重要程度,这里将其划分为典型症状、主要症状、一般症状3个层次(表1)。

将症状重要性隶属函数定义为模糊语言值,根据专家经验法,确定不同层次的隶属度如下:

L(Si)=1.0 Si∈a0.7 Si∈b0.4 Si∈c i={1,2,3,4,5,6}

L为Si的隶属度,a、b、c为症状类型。

3 基于术语统一描述的病害症状向量构建

一般方法中,直接利用诊断资料的原始文本,以症状表现部位为单元赋权值(或隶属度)作为样本分量构建输入向量[10],不仅存在向量携带信息量少、向量模长短不一、诊断规律体现不明显等问题,还容易产生相同的样本向量对应不同病害种类的错误情况,不能较好地对病害原因进行区分,这也势必影响到诊断的准确性。对此,本方法将原始资料的自然语言样本映射到共同语义空间中,统一利用病状病症的相关术语对症状资料的原始文本进行描述,并根据术语的定义值以及症状重要性隶属度来确定语义样本的样本值,从而构建输入向量,能有效丰富向量信息承载量,充分表达诊断规律,具体如下。

3.1 自然语言症状的术语映射

本环节即是对原始自然语言病害症状资料在共同语义空间中利用相关术语进行统一描述。根据植物学知识,感病植株的外观病态表现可分为病状和病征两大类。共同语义空间的病害症状术语如表2所示。

根据病害症状表,症状的自然语言描述转化为术语描述。如辣椒枯萎病茎蔓部自然语言症状={水浸状腐烂,后全株枯萎,病部白色霉状物},经语义空间映射后,S2={湿腐,枯死,霉状物},其样本定义值D(S2)为{0,0,2,2,0,1}。

3.2 输入向量的构建

综合样本定义值和症状重要性隶属度,形成具有症状特征和症状重要性信息的向量。为了降低输入向量维度,对矩阵中同列均为0值的列进行简约,形成最终输入向量矩阵。输入向量表示为:

Xi={D(S1)×L(S1),D(S2)×L(S2),……,D(Si)×L(Si)}

其中,D(Si)为Si症状的样本定义值,L(Si)为Si症状的重要性隶属度。

4 蔬菜病害诊断模型建立

蔬菜病害诊断神经网络模型采用模糊BP神经网络构建(图1)。模糊系统和神经网络按串联方式连接,用模糊系统对原始知识进行前处理,用神经网络进行病害诊断。

第一层为输入层,其每一个节点代表一个输入变量,它将样本定义值传递到模糊层。

第二层为模糊层,基于症状样本定义值和症状隶属度构建输入向量。

第三层为隐含层,实现输入变量模糊值到输出变量模糊值映射。隐含层节点数确定方法如下:

l=■+a 0

式中,l为隐含层神经元个数,n为输入层神经元个数,m为输出层神经元个数,a为取值0~10之间的常数。

第四层为输出层,输出向量采用“n中取1”的二进制编码法。其中n为编码长度,即病害总数。每组编码中仅有1位为1,其余n-1位为0,表示某一种病害。诊断过程中,最大向元值对应着可疑病害。该最大值若接近0, 则表示发生相对应病害的可能性很小;若接近1,则表明发生相对应病害的可能性极大。

5 诊断测试分析

以番茄白绢病、番茄猝倒病、番茄根霉果腐病、番茄青枯病等19种病害为例,经上文方法构建20维输入向量(部分输入如表3),19维输出向量(部分输出向量如表4)。设隐层单元15个,目标误差0.000 1,循环1 000次,采用Levenberg-Marquardt 算法进行训练,并开发系统界面,对训练好的模型从诊断容错性和诊断准确性两个角度进行分析。

5.1 模型诊断容错性测试

在实际应用过程中,用户提供的病害症状无法与样本完全一致,病害典型症状被选的可能性最大,但部分主要症状和一般症状存在A-误选(提供症状与样本症状不一致)、B-多选(提供症状多于样本症状)、C-少选(提供症状少于样本症状)、A+B-多选及误选、A+C-少选及误选的情况,据此选取用户5组具有代表性测试数据(表5),以番茄溃疡病为例来检验模型的容错性,输出结果如表6。

样本输出向量中第17位为向元最大值,则表明该输出结果为番茄溃疡病。在5组具有代表性的用户测试数据中,输出向量的向元最大值始终在第17位,说明诊断模型具有较强的容错能力。同时,当用户“误选”、“多选”,以及“多选+误选”时,输出向量第17位向元值分别为0.999 9、0.987 6、0.921 6,接近样本模拟值1;当用户“少选”以及“少选+误选”时,输出向量第17位向元值分别为0.778 6、0.594 6,较之其他组测试数据,较远离样本模拟值1,说明用户提供的病害症状信息越多,进行正确诊断的可能性越大。

5.2 模型诊断准确性测试

将本研究与一般方法中直接利用症状权值作为输入向量的一般神经网络诊断模型进行准确性比较。测试数据包括两类,即实验室根据田间数据资料生成的数据,以及涉农用户根据实际生产情况进行症状选择操作生成的数据。经植保专家验证,获得测试结果平均值见表7。

统计结果显示,室内室外测试中,基于模糊神经网络的诊断方法较一般神经网络在正确率方面均有所提高,说明本研究的思路方案是有效的。其中,实验室所利用的田间数据资料测试结果好于农户实际应用。其原因在于,实验室所使用的田间数据资料较接近文献资料中的诊断知识,且基于模糊神经网络的蔬菜病害模型具有较好的容错性,因此诊断正确率较高。外部基层农户则完全按照自己在生产中见到的症状表现进行选择操作而形成测试数据,更为真实地反映了模型的实际应用情况。由于实际生产中存在多个病害夹杂同时表现的复杂情况,这一定程度上影响了诊断正确率,因此也说明在该方面努力能进一步提高模型的实用性。

6 小结

利用基于术语统一描述的病害症状量化方法,能构建既能描述症状特征又能反映症状重要性的输入向量,更能有效地体现病害诊断规律。经过误选、多选、少选、多选+误选、少选+误选的5组测试中,诊断结果仍然能指向正确的病害,模型容错推理能力较强。将模糊数学方法引入神经网络中,结合基于术语统一描述的病害症状量化方法,建立基于模糊神经网络的蔬菜病害诊断模型,较之一般基于神经网络的病害模型,诊断准确性得到了有效提高。

由于农业生产中病害作用的复杂性,今后将在多个病害同时作用的诊断方面进一步努力探索,以提高模型的生产实用性。同时,随着移动网络技术的迅猛发展以及移动设备终端的日益普及,将进行蔬菜病害诊断系统的研究,以期为蔬菜病虫害防治咨询提供更加便捷、灵活、有效的服务。

参考文献:

[1] LAI J C, MING B, LI S K, et al. An image-based diagnostic expert system for corn diseases[J]. Agricultural Sciences in China,2010(8):1221-1229.

[2] 李 旺,唐少先.基于图像处理的农作物病害识别研究现状[J].湖南农机(学术版),2012,39(1):176-178.

[3] 刘连忠,张 武,朱 诚. 基于改进颜色特征的小麦病害图像识别技术研究[J]. 安徽农业科学,2010,40(26):12877-12879.

[4] 邹修国. 基于计算机视觉的农作物病虫害识别研究现状[J]. 计算机系统应用,2011,20(6):238-242.

[5] MANSINGH G, REICHGELT H, BRYSON K O. CPEST: An expert system for the management of pests and diseases in the Jamaican coffee industry[J]. Expert Systems with Applications,2007,32(1):184-192.

[6] 林 潇,李绍稳,张友华,等.基于本体的水稻病害诊断专家系统研究[J].数字技术与应用,2010(11):109-111.

[7] GHOSH I, SAMANTA R K. Teapest:An expert system for insect pest management in tea[J].Applied Engineering in Agriculture,2003,19(5):619-625.

[8] 王军英.基于BP神经网络的葡萄病害诊断方法研究[J].农业网络信息,2010(6):21-23,36.

神经网络文本分类范文第3篇

1、首先打开趣头条APP,切换到“任务”页面。

2、然后向下滑动屏幕,即可看到“走路赚金币”选项。用户点击该选项后,页面就会显示当天的行走步数。一般情况下,50步数等于1金币,连续兑换7天就会有500金币。

“趣头条”是一款上海基分文化传播有限公司开发的APP。团队致力通过大数据算法和云计算等技术,为用户提供内容及服务。趣头条致力于打造一款新形式的资讯阅读软件,以平台、媒体和共赢的方式。以移动应用为载体进行内容创造、资讯阅读,提供更多有用、有趣、有益的内容给大家。

神经网络文本分类范文第4篇

[关键词]搜索引擎 主题爬行 爬行策略 爬行算法

[分类号]TP391

搜索引擎技术自诞生之日起就成为互联网中最吸引人的技术之一,各种商业化的搜索引擎已经成了人们使用互联网时不可缺少的工具。传统搜索引擎的工作原理是服务提供商利用网络爬虫(Web crawler,也被称作网络蜘蛛(Web spider)或网络机器人(robot),通过一些种子站点按照深度优先或者广度优先的搜索策略对可以爬行到的资源进行扫描、下载,并将下载的信息以快照或全文方式存储在数据库中,建立相关索引,当用户在搜索引擎的用户界面中输入搜索关键字后,搜索引擎访问数据库,返回数据库中与搜索关键字匹配的纪录。随着互联网中网页资源的快速增长,传统的搜索引擎在某些方面的缺陷也越来越明显:①搜索结果不够全面。传统搜索引擎希望镜像整个Web世界,搜索引擎追求的是尽量多的处理及存储网络爬虫爬回的网页,但不同的搜索引擎由于受到服务器位置、网络带宽、爬行算法、服务器容量等因素的影响,服务器中存储的资源是有限的,任何一个搜索引擎不可能存储并索引网络上所有的网页信息。即使是全球最大的搜索引擎Google,其索引的页面数量也仅占Web总量的40%左右。②搜索周期增加,影响信息的实效性。随着Web资源的快速增长,传统搜索引擎网络爬虫的爬行周期不断增加,数据库更新时间越来越长。每一个网页都有自己的生命周期,网页的更新速度可能会快于搜索引擎数据库的更新速度,当搜索引擎把数据库中已经过期的信息反馈给用户时,用户可能根本无法打开相关链接或者打开的是过期的网页。③搜索结果的针对性不强。用户输入一个关键字后返回很多结果,但存在大量重复,很多结果并不是用户需要的。通过对欧洲和美国9个主要的搜索引擎日志的统计分析,认为用户对于搜索结果的查看呈减少趋势。普通用户仅仅会察看搜索引擎返回的前若干条数据,对于其他搜索结果,很多用户没有耐性全部看完。不同专业背景的人,对于同一个关键词的理解可能大相径庭,同样的“苹果”一词,有人可能理解成为食品,有人可能理解成为苹果公司或者其IT产品。

鉴于传统搜索引擎的这些缺陷,一些学者提出了垂直式搜索引擎的概念,即该搜索引擎不以爬行所有的Web页面为目标,仅仅在互联网中快速爬行某一部分Web页面并存储,这样的搜索引擎既可以节约网络带宽资源,又可以缩短搜索引擎数据库的更新周期,使搜索引擎得到实时性更好的网页。De Bra等最先提出的主题爬行(topic crawling)搜索引擎通过限定爬行主题,提高了搜索精度,成为垂直式搜索引擎的代表。主题爬行技术的核心是爬行策略与算法,本文从主题爬行技术的基本原理出发,对其策略进行分类,沿着爬行策略及算法的改进,分析了主题爬行策略与算法的研究热点,为主题爬行技术的进一步研究提供参考。

1 主题爬行原理

主题爬行是在传统网络爬行技术基础上,加入文本分类、聚类以及Web挖掘等相关技术用于捕获特定主题的Web信息。主题爬行技术的应用可以提高搜索精度,降低搜索引擎对网络资源的占用,缩短搜索引擎数据库的更新周期。基于主题爬行技术的搜索引擎与传统搜索引擎最大的区别在于:该搜索引擎的网络爬虫是面向主题的。传统搜索引擎的网络爬虫在爬行过程中采用的是“通吃”策略,不分类别、不分内容全部爬行并下载;基于主题的网络爬虫在爬行前或者爬行过程中根据已经爬行的结果有选择性的进行预测下一步爬行并下载。

主题爬行过程通常由三部分构成:①分类器(clas―sifter),主要对已抓取网页的元素进行计算,判断其主题相关度,确定是否对该网页中所包含的超级链接进一步抓取;②提取器(distilIer),该模块存储待下载队列,并确定待下载队列的优先级;③爬行器(crawler),该模块在分类器和提取器的指导下,执行网页抓取工作。主题爬虫的爬行过程为爬行器根据不同的爬行策略执行爬行操作,抓取网页送人分类器中,分类器对已经抓取的网页进行处理,根据设定主题及其域值判断该网页的主题相关性,结合其他参数,确定是否对该网页包含的超级链接进一步爬行。如果爬行,则送入提取器中的队列,由提取器根据队列规则确定其爬行优先极。Chakrabarti等人 1999年正式提出了个性化主题搜索引擎的概念,该搜索引擎不以传统的关键词作为搜索内容,而是在某一限定范围内,通过计算Web页面内容与主题的相关性,决定主题爬虫是否值得进一步搜索。其中,主题是由一些范例文档来确定的,该主题爬虫实时查找与文档词典有相关性的网页,保证了搜索页面的时效性与针对性。

2 主题爬行基本爬行策略与算法

主题爬行技术的核心是爬行的策略与算法,由于主题爬虫与传统网络爬虫在爬行目标上有很大差别,因此,除了采用传统网络爬虫的爬行策略之外,主题爬虫在爬行过程中还要采用有效爬行策略与算法尽快爬到并抓取与主题相关的网页。Sotiris Batsakis等人将主题爬行策略分成三类:经典主题爬行策略、改进的主题爬行策略、基于语义的主题爬行策略。经典爬行策略主要指主题爬行的“鱼群搜索策略”(fish search),改进的主题爬行策略主要指“鲨鱼搜索策略”(sharksearch)、“最优最先(best first)搜索策略”等。

鱼群搜索策略是以“鱼群搜索算法”(fish algo―rithm)为基础的主题爬行策略,鱼群搜索算法是一种基于群体动物行为的智能优化算法,该算法模仿鱼群在觅食和繁殖时的表现,动态调整种群的个数。在鱼群搜索策略中,每个网页相当于一条鱼,如果遇到满足给定条件的相关网页,则该鱼繁殖小鱼,并对该网页发出的链接进一步探索;否则食物减少,如果一条鱼的食物减为零,则该鱼将停止寻食并放弃对该链接的爬行。鱼群搜索策略中某一超级链接是否放人提取器中待下载,取决于该链接的父链接与主题的相关性。关于待下载链接与主题的相关性,De Bra L”提出了通过比较已下载网页内容与主题关键字是否匹配,引入二元分类方法(1代表相关,O代表不相关)来计量相关性。

改进的主题爬行策略是基于鱼群搜索策略基础的改进,Hersoviei M”。提出采用向量空间模型(vectorspace model)来计量相关性,向量空间模型不以整数0、1来计量相关性,而是通过多个参数比较,采用O一1之间的实数来计量。该方法除了用已下载网页内容和主题关键词是否简单匹配来判断相关性,还通过计算

锚文本(anchor)等其他参数与主题的相关性来计量。这种改进的搜索策略比鱼群搜索策略在爬行的准确率(precision rate)和召回率(recall rate)上有很大的进步,该搜索策略被称之为“鲨鱼搜索策略”(shark search)。在“鲨鱼搜索策略”中,已下载网页中页面内容、锚文本内容、链接内容(URL)及父页(指向包含链接页面的Web页)的相关性等都作为主要参数用来计量待下载网页与主题的相关性,通过计算确定待下载网页是否进人提取器队列中。关于参数向量的选择,Cho J等提出了重要度向量,该重要度向量由几个部分构成:①已下载页面逆文献频率法(inverse document frequency,IDF)的关键词相关度;②已下载Web页的重要链接指向个数(backlink count);③已下载页面指向链接的重要度值(pagerank);⑧URL位置矩阵(10cation metrics)等四个参数作为衡量相关性的向量。

随着研究的不断深入,“鲨鱼搜索策略”也不断完善,该方法中向量空间模型的参数越多,相关性计量越准确,但参数增加使计算量也随之增加,因此,过多的参数对爬行速度有一定影响。但Zhumin Chen等”。对各种主题爬虫的运行时间进行了实验分析比较,该学者认为,相对于网络中的下载等待时间来说,相关性计算的时间很少,有时甚至不到下载时间的十分之一,因此页面相关性的计算对爬行速度的影响是可以忽略的。在“鲨鱼搜索策略”的基础上,Menczer F等提出了“最优最先”(best first)搜索策略,这一策略通过计算向量空间的相关性,把相关性“最好”的页面放入最优先下载的队列,另外,“最优最先”搜索策略采用了术语频度(TF)值计算文本相似度,减少了部分计算量。根据文献,由于只选择与主题相关性很大的链接,而忽略某些当前相关性不高但下级链接中包含很高相关性链接的网页,最优最先算法具有很大的贪婪性,该算法只能找到局部范围内的最优解,难以得到全局范围内的最优解。因此,该搜索策略只适用于小范围内的主题爬行,对于大范围的主题爬行,容易过早地陷入Web空间中局部最优子空间的陷阱。

作为一种有效表现概念层次结构和语义的模型,本体论(ontology)被广泛地应用到计算机科学的众多领域。美国斯坦福大学的知识系统实验室学者TomGruber提出了本体是概念化的显式表示,Studer在Gruber的基础上扩展了本体的概念,提出本体是共享概念模型的明确形式化规范说明。本体具有良好的概念层次结构和对逻辑推理的支持,可以解决信息源之间结构和语义的异构,W3C在2004年提出了Web本体语言(Web ontology language,OWL)的标准。基于本体的网络爬虫认为概念上使用相似术语的页面应具有一定的相关性。M.Ehrig等学者将本体应用于主题爬虫的分离器中,首先通过定义术语的相关性,建立本体术语集合,通过对已下载网页处理并对本体库的比较分析,计算其相关性,确定是否将待下载链接放入分离器,提高了主题爬行的准确度与召回率。Jason J.Jung提出基于语义主题爬行的开放式决策支持系统,该开放系统主要包括基于上下文语义的主题爬虫通过域内链接进行区域内知识发现及知识的处理,为开放式决策支持系统迅速提供知识。基于语义的主题爬行技术中,本体库的构建及完善是一项复杂的工作,因此应用范围有限。

3 爬行策略与爬行算法的改进

虽然鱼群搜索策略、鲨鱼搜索策略、最优最先搜索策略是主题爬虫常用的搜索策略,但由于互联网中网站结构的多样性及复杂性,很多学者在主题爬行算法中尝试采用其他的搜索算法实现较高准确率与召回率。相继提出了采用模糊算法、人工神经网络、遗传算法、粗集理论等方法指导主题爬虫的爬行过程。

作为最优最先搜索策略的改进,李学勇等采用模拟退火算法作为爬行的启发式搜索算法,与爬行中的“隧道技术”结合改进主题爬虫。模拟退火算法从某一较高初温出发,伴随温度参数的不断下降,结合概率突跳特性在解空间中随机寻找目标函数的全局最优解。该算法在选择优化解方面具有非贪婪性,在爬虫搜索过程中,每次除了选择评价值最优的链接,还以一定概率有限度地接收评价值次优的链接,确保有一定价值的链接有机会被选中。“隧道技术”使爬虫有机会穿过相关性低的区域进入相关性高的区域,当页面内容的相关度低于设定的阈值时,通过扩大主题范围,使更多的相关链接加入到链接优先级队列,提高相关网页的召回率。模拟退火算法是一种随机算法,虽然可以比较快地找到问题的近似最优解,但不一定能找到全局的最优解。因此,将模拟退火算法应用于最优最先搜索策略并不能完全保证主题爬行的鲁棒性。

遗传算法(genetic algorithm)是模拟生物进化论与遗传学结合的计算模型,在最优解搜索领域具有一定优势,自从密西根大学的Holland教授提出该算法后,由于其鲁棒性、自组织性强等优点,在很多方面有广泛的应用。Jialun Qin等学者采用遗传算法实现主题爬虫在特定域内的爬行,通过初始化、内容分析选择、链接分析杂交、变异等几个步骤实现主题爬虫在特定域内的爬行。根据文献,该算法的应用在某些Web页的主题爬行中具有较好的准确率与召回率。遗传算法应用于主题爬行技术中存在编码方式的确定、适应性函数的确定等问题,由于网站结构、网页类型的不同需要采取不同的标准。遗传算法也存在局部最优陷阱问题,单纯使用遗传算法进行主题爬行时也会存在无法穿越隧道的问题。

隐马尔柯夫模型(HMM)作为一种统计分析模型,在信号识别等领域有广泛的应用,隐马尔柯夫链在相关性评估应用中具有一定优势。Hongyu Liu等提出基于隐马尔柯夫模型的算法来评估待下载页面与主题之间的相关性。该系统包括三个步骤:①进行数据收集;②依据相关性模式建模;③根据模型对待下载页面评估并进行主题爬行。该算法的应用可以提高主题爬虫在分离器中的处理精度,但由于计算量的增加,会降低处理效率。

人工神经网络近来日益受到人们的关注,因为它特有的非线性、自适应性、自学习性为解决复杂问题提供了一种相对比较有效的简单方法。Hai-Tao Zhengr提出采用基于本体的人工神经网络(ANN)实现自学习爬行,系统框架分为三个步骤:①进行数据准备;②通过现有的数据集对人工神经网络进行训l练;③将训练过的主题爬虫应用于实际爬行,取得较高的准确率与召回率。人工神经网络存在训练时间长、学习算法的通用性低等缺点,所以,将人工神经网络应用于主题爬行中,也存在样本学习时间长,学习算法不具有通用性等缺点。因此,人工神经网络仅仅适用于小范围的主题爬行。

除以上算法的改进,很多学者还尝试采用其他计

算方法改善主题爬虫的搜索性能,Suman Saha等。应用粗集理论对未下载的Web页面进行预测,判断其与主题相关性,该方法提高了爬行页面的准确率,降低了噪声。Huaxiang Zhang等提出利用Q学习及在线半监督学习理论在待访问的URL列表中选择与主题最相关的URL,相关值的计算基于模糊理论及Q值理论。

虽然很多学者尝试通过不同的软计算方法改进主题爬虫,但由于互联网中网站结构与网站内容多样复杂,这些算法往往应用于某些网站时具有较高的准确率与召回率,但是应用于另一些网站时准确率与召回率会下降。主题爬虫的准确率与召回率除了受网站结构、主题爬虫的爬行策略与算法等因素的影响,还受爬行入口位置、Web服务器性能等其他相关因素影响。

4 主题爬行策略与算法的研究热点

鉴于主题爬行技术的不断发展,主题爬行策略及算法也在不断完善。目前关于主题爬行策略与算法的研究主要集中于以下几个方面:①爬行策略与爬行算法的通用性研究。互联网中不同类型网站的网页间组织形式相差很大,如何从已经下载的网页中高效、准确地判断待下载页面与主题的相关性,并根据相关性修改下载队列,是主题爬行技术能否成功的关键。目前主要通过修改爬行策略及利用各种软计算方法来实现,但很多时候对于某些网站具有很高的召回率和准确率的方法,对于另一些网站可能并不适用。主题爬行的准确率与召回率有时候与种子URL的起始位置等其他相关因素有很大关系。②“隧道技术”的研究。很多时候主题爬虫需要穿过若干个与爬行主题相关性很低的页面后才会发现一组与主题相关性很高的页面群,穿越中间相关性很低的页面需要隧道技术,如何实现隧道穿越、提高主题爬行准确度是目前很多学者研究的内容。③对于深度Web(deep Web)资源爬行策略的研究。许多深度Web资源存放在数据库中,这些数据库的访问需要用户名、密码等信息,目前常采用半人工辅助方法使主题爬虫访问数据库,如何快速、自动地发现这些数据库并访问这些深度Web资源,也是当前主题爬行技术的研究热点。

神经网络文本分类范文第5篇

关键词:文本分类;遗传算法;适应度函数

中图分类号:TP18 文献标识码:A文章编号:1009-3044(2011)22-5425-02

The Technology of Text Classification Based on Genetic Algorithm

WU Mou-shuo

(Compute and Experiment Center, South Central University for Nationality, Wuhan 430074, China)

Abstract: For the puzzle of parameter ascertainment in text classification, this paper proposed genetic algorithm. In the period of encoding, we used float encoding. In the period of population initiation, fitness function and stop criterion, we optimized several parameters and strategies to obtain better result. Experiments of three text classifications showed that our method performed the best.

Key words: text classification; genetic algorithm; fitness function

人们需要从海量信息中快速、准确地获取有用信息。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有广泛的应用。现在主流的文本分类方法是基于机器学习的方法, 此方法首先使用训练样本进行特征选择和分类器训练, 然后把特征形式化,待分类样本输人到分类器进行类别判定, 最终得到输人样本的类别。文本分类的方法有很多种,如Rocchio 方法[1] 早就提出了、K-近邻(K-Nearest Neighbours)方法[2] 早就提出了、贝叶斯(Naive Bayes)方法[3] 早就提出了、而且支持向量机(Support Vector Machine, SVM)算法[4]、还有决策树(Decision Tree)方法[5]和以及神经网络(Neural Networks)方法[6]等都已经有了。

文本分类中的许多问题,如果进行适当的转换,可以看作优化问题。本文将遗传算法引入文本分类的过程中,在种群的初始化、适应度函数和遗传算法的停止标准等方面进行优化,得到更好的文本分类结果。

本文第二部分详细描述了基于遗传算法的文本分类技术,第三部分是本文的实验与结果分析部分,第四部分是结论与将来的工作。

1 基于遗传算法的文本分类算法

文本特征表示时经常是采用向量空间模型方法来表示文本,对文本的特征进行刻画。文本特征权重计算的前提是进行文本特征抽取。

相似性的计算公式有相关系数法,还有距离函数法等。本文相似度仍然采用向量夹角余弦公式来计算。具体计算公式如下:

(1)

用遗传算法进行分类时,要考虑遗传因子、适应度函数和遗传算法的停止标准等关键因素。

在种群初始化的时候,我们并不采用随机数生成算法,而是通过随机选择样本点,避免了随机数生成法必须人为确定随机数上下限的缺点。

如果类中心已经确定,那类的划分算法可以采用最邻近算法进行计算。

我们将遗传算法的适应度函数定义如下:

(2)

选择策略对遗传算法的效果有比较重的影响。第i文本Indi可以按照概率Ps(Indi)选择出来,这样可以提高种群的适应度。第i文本Ps(Indi)可以用下面的公式进行计算。

(3)

在遗传算法中,当文本类别划分不再发生变化,或者是迭代次数达到最大值时停止。

2 实验结果与分析

为了使本文提出的文本分类技术得到的结果具有可比性,本文将Naive Bayes分类方法和支持向量机算法引入,进行对比实验。

Naive Bayes算法可以说是一种有效的分类方法。假设在某种语境环境里,文档之间是相互独立的。令di为文档标志,该文档di包含于文档类别集合C={c1, c2,…, ck}中间的某一个类别cj里面。根据Naive Bayes算法有下面公式:

(4)

(5)

在这种情况下,需要计算在di已经知道的情况下的条件概率,取最后概率值最大的类别作为di所在的类别,也就是:

(6)

采用多项式模型进行计算,则在文档类别情况已经知道的情况下文档di的概率计算公式为:

(7)

但是,上面的概率可能会出现0,所以使用+1平滑技术对其进行处理。

几种常用的文本分类评价指标包括准确率、召回率、F-measure,用这三个参数对系统进行客观评测,这三个参数具体含义如下:

准确率的定义。对于一个文档集i和一个分类j, 假设N为在文档集i中属于类别j的数目, M为文档集i中所有文档的数目,则准确率P定义为:

P = N/M(8)

召回率的定义。对于一个文档集i和一个分类j, 假设N为在文档集i中属于分类j的数目, K为分类j中所有文档的数目,则召回率R定义为:

R = N/K(9)

准确率P衡量的是所有被分到类别j的文档中,正确文档的比率; 召回率R衡量的是所有实际属于类别j的文档被分到该类别中的比率。只用其中之一进行评价可能有失偏颇,F-measure指标是上述召回率和准确率的综合,能正确反映文本分类在召回率和准确率平衡方面的效果,其具体计算公式可以表达成:

(10)

对于中文语料的实验,我们从新浪、腾讯等网站上下载了2000个网页,从中提取出2000篇文档,根据语料主题分为10类:军事(200篇) 、体育(200篇) 、政治(200篇) 、环境(200篇) 、交通(200篇) 、艺术( 200篇) 、医药 (200篇) 、经济(200篇) 、教育(200篇) 、健康(200篇)。实验结果如表1所示。

3 结论与将来的工作

文本分类是文本挖掘中的一个重要工具,应用非常广泛,针对常用的文本分类算法参数难以确定的问题,本文引入遗传算法,在编码方案、种群的初始化、适应度函数和停止标准等方面进行优化,得到更好的文本分类结果。通过三种文本分类算法的对比实验,本文提出的算法效果最好。

在下一步的工作中,我们将继续研究不同环境下适应度函数的合适表达方式,同时,进一步研究和分析选择策略,让遗传算法的收敛速度更快,效果更好。

参考文献:

[1] Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization.Proc of ICML'97,1997.

[2] Yang Y.Expert network: Effective and efficient learning from human decisions in text categorization and retrieval.Proc of SIGIR'94,1994:13-22.

[3] Baker L D,Mccallum A K.Distributional clustering of words for text categorization.Proc of SIGIR'98,1998:96-103.

[4] Cortes C,Vapnik V.Sup of event models for naive port vector networks.Machine Learning,1995(20):1-25.

[5] Lewis D D,Ringuette parison of two learning algorithms for text categorization.Proc of SDAIR,1994:81-93.