前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇积累的名言范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
2.Everymanisthearchitectofhisownfortune.每一个人都是自身幸福的建筑师。
3.Thehonestmantakespains,andthenenjoyspleasure.正直的人先经历痛苦,然后享受欢乐。
4.Allmankindarebeholdentohimthatiskindtothegood.行善者,人人铭记之。
5.Loveishardtogetinto,buthardertogetoutof.爱很难投入,但一旦投入,便更难走出。
6.Behonestratherclever.诚实比聪明更要紧。
7.Betteranemptypursethananemptyhead.宁可钱袋瘪,不要脑袋空
8.Geniusonlymeanshard-workingallone'slife.天才只意味着终身不懈的努力。
9.Themanwhohasmadeuphismindtowinwillneversay"impossible".凡是决心取得胜利的人绝不说“不可能”。
10.Agoodmotherisworthahundredschoolmasters.一个好母亲相当于百个好老师。
点击查看:英语写作指导
11.Amother'svoiceisthemostbeautifulsoundintheworld.
世界上有一种最美丽的声音,那便是母亲的呼唤。
12.IfIhadasingleflowerforeverytimeIthinkaboutyou,Icouldwalkforeverinmygarden.
假如每次想起你我都会得到一朵鲜花,那么我将永远在花丛中徜徉。
13.Allthingsintheirbeingaregoodforsomething.天生我才必有用.
14.Lifeliesnotinlivingbutinliking.生活的意义并不在于活着,而在于爱好人生.
15.Slothturneththeedgeofwit.懒散能磨去才智的锋芒。
16.Greatworksareperformednotbystrength,butbyperseverance完成伟大的事业不在于体力,而在于坚韧不拔的毅力。
17.Roughistheroadthatleadstotheheightsofgreatness.通往巅峰的路必定崎岖不平。
18.Allwhatyoudo,doitwithyourmight;thingsdonebyhalvesareneverdoneright.做一切事情都应尽力而行,半途而废永远不行。
1、培根:只有顺从自然,才能驾驭自然。
2、牛顿:真理的大海,让未发现的一切事物躺卧在我的眼前,任我去探寻。
3、狄德罗:谬误的好处是一时的,真理的好处是永久的,真理有弊病时,这些弊病是很快就会消灭的,而谬误的弊病则与谬误始终相随。
4、爱迪生:天才是百分之一的灵感加上百分之九十九的汗水。
关键词:名实体分类; 神经网络; DBN; 字特征
中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2014)02-
Study on Chinese Named Entity Categorization based on Deep Belief Nets
CHEN Yu, ZHENG Dequan, ZHAO Tiejun
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: DBN is a classification of fast and global optimum neural network. It contains several layers of unsupervised networks and one layer of supervised network. The paper approves this novelty machine learning approach is suitable to the domain of named entity categorization. The paper applies RBM,an unsupervised learning method, to reconstruct more representative features from character-based features. Subsequently, the paper utilizes BP, a supervised learning method, to fine-tune parameters in whole network and accomplish the categorization task. In the end, the paper tests DBN on ACE 04 Chinese corpus and achieve 91.45% precision, which is much better than Support Vector Machine and Back-propagation neural network.
Key words: Named Entities Categorization; Neural Network; DBN; Character-based Feature
0引 言
传统的信息抽取任务包括名实体抽取、关系抽取和事件抽取,而名实体抽取又可分为两个子任务:一是识别消息文本中的名实体,二是将已识别的名实体进行分类,本文主要关注名实体抽取的第二个子任务。名实体是一个事物或事物集合的名称,在消息文本中,往往是信息的主要载体,所以名实体抽取是信息抽取的基础任务。名实体分类对名实体的语义表述具有重要指示意义,是名实体抽取准确与否的标准之一。按照Automatic Context Extraction (ACE)大会的定义,名实体一般分为人名、地名和机构名等。早期,研究主要聚焦于利用基于模式匹配的方法进行名实体分类,并取得了较高的准确率。Mcdonald[1]利用名词的内外部信息组成的模式对名词进行分类,Wacholder[2]则利用对不同名词类别进行聚类的方式辅助人工撰写的模式实现名词分类。但是上述方法都需要大量人工统计的模式,而一旦名实体抽取范围或者对象语言变化,即要费时费力地修改甚至重写相应的模式。此后,基于统计的机器学习方法显示了所具备的强大自学习能力,克服了基于模式方法的缺点。同时,支持向量机和反向传播神经网络是传统的机器学习分类器,可通过利用足够大量的实例进行自训练,并用训练好的模型未知实例进行分类。Zhou和Su[3]提取了4种不同的词性和句法特征表示名词的语义特征,再用隐马尔科夫模型进行分类,Isozaki[4]利用5-gram结合3种词法特征组成特征向量用于支持向量机训练模型并对名实体分类。此外,对于名词分类的研究大多只是集中于英文语料,对中文语料的研究仍相对较少,其名词分类的难度要远大于英文,主要原因是[5]:
(1词语之间没有明显的分割标志;
(2)汉语中的词存在更多歧义现象;
(3)汉语词语由字组合而成,组合的复杂度高;
(4)汉语的词法语态信息不如英语丰富[6]。例如:汉语词语没有时态、字母大小写的特征等。在已有研究中,Jing[7]提出了利用基于字的特征表征名词信息,结果表明,基于字的特征结果要优于基于词的特征,且克服了以上大部分的汉语难点。
本文提出一种基于字特征提取名词特征向量,并利用Deep Belief Nets(DBN)神经网络构造分类器进行名实体分类的方法。方法中,首先对直接反映名实体的字特征向量进行特征提取,得到更加复杂、更具表征能力的特征,再利用有监督过程对这些特征向量进行分类,获得了较直接对字特征向量进行分类更好的效果。实验结果表明,DBN方法分类效果明显优于其他传统的机器学习算法。
1 Deep Belief Nets 神经网络的介绍
DBN神经网络是一种全局最优的快速神经网络分类方法,由若干层RBM网络(Restricted Boltzmann machine)和一层反向传递网络(Back-Propagation,简称BP网络)组成,因而是一种多层神经网络[8]。DBN结合了无监督学习方法的特征提取能力和有监督学习方法的分类能力。总体来说,DBN具有以下如下几点优势:
(1)无监督的RBM方法提取输入特征向量的结构化信息,组成表征能力更好的特征向量;
(2)有监督的BP方法将错误信息反向传播到整个网络以修改网络的参数,使特征向量映射到其他空间时更为准确;
(3)DBN的多层网络结构能够自我弱化学习过程中产生的错误信息,并对特征向量在各个相异空间的重要特征信息实行优化组合,使无监督过程产生的信息更加结构化;
(4)DBN是一个快速的学习算法,RBM将整个网络的参数快速定位到最优参数的邻域,与传统的BP算法相比,收敛速度更快。
DBN的结构如图1所示,在训练模型的过程中主要可分为两步。第一步,分别单独、且无监督地训练每一层RBM,确保特征向量映射到不同特征空间时,可最多地保留特征信息。RBM网络只能确保层内的权值对该层特征向量映射达到最优,而非对整个DBN的特征向量映射均能达到最优。第二步,利用反向传播网络有监督地微调整个DBN网络,克服RBM仅能保证层间参数只对该层最优化的弊端,并对特征向量进行分类。RBM训练模型的过程可以看作是初始化BP的权值参数,使DBN方法克服了传统反向传播神经网络容易陷入局部最优和训练时间长的缺点。
图1 DBN结构图
Fig.1 The structure of a DBN
DBN方法是一种多层神经网络,底层的神经网络接收直接表示(多数为二元值)的特征向量值,在自底向上的传递过程中,从具体的特征向量逐渐转化为抽象的特征向量,在顶层的神经网络形成更易于分类的组合特征向量,增加网络层数能够将特征向量更加抽象化。而且,虽然RBM确保训练后的层内参数对特征向量映射达到最优,但是不能完全消除映射过程中产生的错误和不重要的特征信息。尤其是,多层神经网络的每一层网络均会弱化上一层网络产生的错误特征信息和次要特征信息,因此多层网络较单层网络精确度更高。在名实体分类问题中,基于特征方法的一个重要特性是特征向量的稀疏问题,DBN方法对特征的提取与结构化对稀疏特征向量具有很好的辨别能力,能很好地解决这类问题[9,10]。
2 特征选取
基于字的特征非常适用于中文信息抽取领域,因其避免了汉语词语没有边界信息等的缺点,将字与字如何组合成词语,交由机器学习模型去决定。例如:“老”与“李”组合成“老李”,并被分类为人名;“老”与“挝”组合成“老挝”,并被分类为国家。即使是在小规模的语料中,这种组合方式是极其复杂的,表示名词的特征向量的维数高。本文将语料中名词出现的字组成字典 ,将每一个名词e的基于字的特征向量表示为 ,特征向量与字典具有相同的维数,其中 的值满足等式(1),可具体表示为:
(1)
除了基于字的特征外,本文也加入了ACE语料里标注的名实体的指称信息作为特征。名实体的指称分三类,分别是命名性指称、名词性指称和代词性指称。最后,本文将名词的基于字特征和指称信息特征结合,作为名实体的特征向量。虽然名实体还有其他词法及句法特征,但是本文重在验证DBN方法在自然语言处理领域的适用性,故未涉及更多特征信息。
3 实验与分析
本文选用ACE 04的语料作为测试数据,按照语料标注说明,名实体可分为五类,每一个名词属于且只属于一类,分别为人名(Person)、组织机构名(Organization)、行政区名(Geo-political entity)、地名(Location)和设施名(Facility)。对名实体分类,即是对名实体指代进行分类。名实体指代是名实体在文档中的表述,每一个名实体指代包含主体(head)和扩展(extent)两部分,指代主体包含名实体主要信息。虽然指代的扩展部分能提供更多信息,但是也扩大了字符字典的规模,带来噪音。相关文献证明,只利用指代的主体部分的效果优于结合扩展部分[9]。
本文从语料中提取出10 228个名实体指代,利用4折交叉验证法训练模型,也就是说,7 746个指代作为训练语料用于训练模型,2 482个指代作为测试语料用于测试模型,其分布如表1所示。字符字典的维数为1 185,测试语料在本文中使用了准确率评价模型,由于本文的实验是对已识别的名实体分类,其召回率等于准确率。
本文共进行了三组不同的实验,第一组实验用于验证DBN分类器的效果,第二组实验用于验证RBM的层数对DBN提取特征的作用,第三组实验用于比较层内节点数对DBN网络效果的影响。
在第一组实验中,本文将DBN、SVM和传统的反向传播算法的名实体分类效果进行了比较,其中,DBN的网络结构是3层RBM加一层反向传播网络,进行了多组实验,选取最好的DBN模型结构,每层RBM的节点数由下至上依次为900,600,300;SVM利用的是线性核函数,惩罚系数为1,其余参数为默认值,这种结构的SVM分类效果也是比其他结构的SVM更优;反向传播算法的网络结构与DBN相同,利于与DBN的结果相比较,结果如表2所示。实验证明,DBN的效果较其他两种模型具有明显的提高,说明DBN能从基于字特征向量中对字与字之间的关系进行正确的组合与识别,提取出更具代表性的特征用于分类。
在第二组实验中,本文比较了一层、两层和三层RBM的效果,一层RBM层内节点为900,两层RBM层内节点分别为900和600,三层RBM的层内节点分别为900,600和300,结果如表3所示[10]。实验结果证明,随着层数的增加效果越来越好,说明更多的层数能够提取出更多准确的特征。另一方面,三层RBM比两层RBM的效果提高不明显,说明两层RBM对于名实体分类已经提取足够的分类特征,Hinton[8]也在其相关研究中指出,三层RBM网络已经能提取足够的特征用于分类。
在第三组实验中,本文利用一层RBM网络结合BP的模型,改变RBM层内节点数,结果如表4所示。实验结果表明,第一层RBM层内节点数为900的分类器效果最好,因为900接近输入特征向量的维数,说明神经网络节点数应对输入特征向量降维,且不宜下降过快,导致震荡和难以收敛,并且,只包含一层RBM的DBN的效果依然优于SVM和反向传播算法。
本文最后观察了每一个类别的分类效果,并用准确率,召回率和F系数去衡量,结果如表5所示。结果表明,人名、行政区名和组织结构名的效果最好,因为语料中这三个类别的实例比例较大,地名和设施名的效果较差,因为语料中这两个类别的实例比例较小,每一类别的分类的效果与此类别的实例在语料中比例成正比。
4 结论及将来的工作
DBN对于名实体分类是一种全新的机器学习算法,对高维特征向量具有很强的提取特征和进行特征分类能力。本文将基于字特征和指称特征作为表述名实体指代的特征向量,并用DBN对其进行分类,实验结果表明,DBN的分类效果要明显好于SVM和反向传播算法,是一种在信息抽取领域具有良好实用性的优秀算法。将来的工作拟在以下几个方面展开:(1) 将本文提出的方法在其它数据集上测试,以进一步验证方法的有效性;(2) 将该方法应用于关系识别方面;(3) 利用该方法多任务地进行名实体抽取与关系抽取。
参考文献:
[1] MACDONALD D. Internal and external evidence in the identification and semantic categorization of proper names[M]. Corpus Processing for Lexical Acquisition, MIT Press. 1993:61-76.
[2] WACHOLDER N, RAVIN Y, CHOI M. Disambiguation of proper names in text[C]// Proceedings of the Fifth Conference on Applied Natural Language Processing,1997.
[3] ZHOU GuoDong, SU Jian. Named entity recognition using an hmm-based chunk tagger[C]//proceedings of ACL,2002:473-480.
[4] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//proceedings of IJCNLP,2002:1-7.
[5] ZHAO Jian, WANG Xiaolong, GUAN Yi. Comparing features combination with features fusion in Chinese named entity recognition[J]. Computer Applications. 2005, 25(11).
[6] ZHAO Jun. A survey on named entity recognition, disambiguation and cross-lingual coreferences resolution. Journal of Chinese Information Processing[J]. 2009, 23(2).
[7] JING Hongyan, FLORIAN R, LUO Xiaoqiang, et al. How to get a Chinese name (entity): Segmentation and combination issues[C]//proceedings of EMNLP. 2003:200-207.
[8] HINTON G, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation. 2006,18:15271554.
论文关键词:城市,金融竞争力,因子分析法,聚类分析
金融是现代经济的核心,已成为全国各城市提高城市档次、增强城市竞争力的重要因素。在一个开放的全球经济体系中,金融运行效率在很大程度上决定着经济的竞争力,关系到黑龙江省全面建设和谐社会和实现经济可持续发展目标的实现。黑龙江省要想全面提高自身的经济实力,其管辖的13个地级市及地区的持续健康发展的金融是必不可少的,这就需要进一步研究黑龙江省13个地级市及地区的金融竞争力情况,这样才能搞清楚黑龙江省各城市的金融竞争力的相对地位与相对差异,以及黑龙江省的金融发展的总体状况,为金融资源的合理流动提供参考依据,从而使各城市明确自己的合理定位,制定出正确的城市发展战略和建设规划。本文将采用因子分析法来解决黑龙江省城市金融竞争力排名问题,运用聚类分析解决城市金融竞争力分档问题。
一、城市金融竞争力评价指标体系
城市金融竞争力,它反映了一个城市配置资源的效率,是一个城市的金融综合实力的整体情况的表现,其规模和活跃度对提升城市竞争力构成最直接的推动力,因此,构建城市金融竞争力评价的指标体系,评估城市金融竞争力,对于推动城市综合竞争力的提高至关重要,其应包括评估城市的金融现状和未来金融发展潜力两个部分的优势。目前在国内缺少一个公认的像衡量一家银行那样容易的效率指标体系。针对我国以及黑龙江省的实际情况,本文将从金融市场环境竞争力和金融机构竞争力两部分进行研究。
金融市场环境竞争力反映了一个城市潜在的金融规模、经济的外向性程度和活跃程度、金融市场的效率高低,以及经济运行环境等多方面。GDP、固定资产投资、进出口总额,人口等指标均可以用来描述金融市场环境竞争力。金融机构竞争力表现为银行、保险、证券及其他金融机构的综合实力。金融机构年末存款和贷款余额可以反映银行的业务规模,保费收入可以反映城市保险实力,由于证券机构的属地行较弱,且没有任何统计年鉴能提供关于各个城市的证券机构业务规模的数据,金融业从业人数能够从另一方面反映出证券业的部分信息,根据实际情况,暂不将证券业指标进行评价指标体系中。
根据黑龙江实际情况,构建的城市金融竞争力评价指标体系如图1所示:
图1城市金融竞争力评价指标体系
指标具体说明:1.GDP:它能反映城市经济规模和实力;2.固定资产投资:反映储蓄转化成生产资本的能力力;3.进出口总额:反映了经济的外向性程度;4.外商直接投资:反映的是一个城市融通外来资金的能力;5.城市人口:描述金融区位力,反映城市在区域经济中的重要程度;6.职工平均工资:反映一定时期职工工资收入的高低程度,也反映地区经济发展水平的高低;7.金融机构贷款年末余额:反映城市资金的总量实力,特别是银行部门对该区经济发展的支持程度;8.金融机构存款年末余额:一个地区在一定时期能够提供的储蓄量越多,可用于投资的储蓄量也就越多,从而影响地区经济未来的发展潜力;9.保费收入:该指标反映保险市场的发展状况,衡量该城区保险业务发展规模的客观尺度;10.金融保险从业人员数:从就业方面反映金融发展水平。
二、黑龙江城市金融竞争力排名
在上部分构建的城市金融竞争力评价指标体系中,多个变量之间可能存在一定程度的相关性,可以通过因子分析法来减少解释变量,即用少数几个主因子来描述诸多因子之间的关系,在尽可能保持解释能力的前提下,将更容易掌握和测度解释变量。
黑龙江省13个地级市及地区的10个指标数据如表1所示:
表1黑龙江省城市金融竞争力指标数据
X
X
X3
X4
X5
X6
X7
X8
X9
X10
哈
2868
10305543
298043
92412
990.1
33395116
23844594
25237
87.5528
37214
齐
666
1602955
26879
9692
569.2
5161137
3345495
22192
28.2359
10869
鸡
316
652445
36588
7185
190.8
3174914
1315958
20124
16.0335
4409
鹤
185
554848
3625
808
109.4
1749914
1302450
22796
10.5659
2732
双
260
1002826
73698
1265
150.5
2009239
1541775
22130
10.4172
3926
庆
2220
4859958
67907
15982
277.2
11179187
2511552
34153
35.0690
7431
伊
179
507179
13508
1868
127.6
1989059
738250
12115
7.2199
3432
佳
399
888148
169955
16987
251.7
3606653
1781020
19380
18.0778
5717
七
187
692752
2775
172
90.2
1403828
1019088
21748
5.4679
2304
牡
501
1562781
763857
9321
269.9
5287927
1803485
20699
24.3427
8370
黑
206
410115
236423
5791
173.9
2234528
940466
19841
11.2874
3835
绥
534
935936
4461
3543
577.2
3139441
2307483
15987
17.7695
7819
大
70
181018
1288
3153
52.9
1137939
200290
17857
一、记字词,奠语文之基础
字词是学习语言的根本,不认识、不理解字词当然谈不上使用,语文的工具性就无法体现,其人文性更无从谈起。《语文课程标准》中明确要求:喜欢学习汉字,有主动识字的愿望,累计认识常用汉字3000个,其中会写2500个左右字,能工整地书写汉字,并有一定的速度。因此,小学阶段的字词积累在语文教学中十分重要。为了掌握、积累词语,每篇文章我都让学生画出自己认为重要的字词来进行学习,不作硬性规定。因为机械的、硬性的抄写,学生是不感兴趣的,不利于培养学生的自主意识。为了督促他们,上完一单元后,我利用一点时间组织听写,对表现好的学生给予适当的奖励。有时给出几个词让他们充分发挥想象造一个句子或写一段话,这样学生既感兴趣又达到了积累的目的,同时也培养了他们的思维能力,奠定了学生的语文基础。
二、积名言,陶自身之情操
阳光能照亮江河山川,照亮物质的世界;而思想之光则能照亮人的思想道路,照亮人的精神世界。名言警句便是这思想之光,有的格言传诵千古,激励一代又一代的仁人志士。因此,我要求学生每天早课前按学号顺序由一位同学在黑板的右端,工整地写上一句名言警句,并向大家简单介绍一下自己的体会,然后带领全体同学齐读这句名言。有的写“为中华之崛起而读书――”,有的写“锲而舍之,朽木不折;锲而不舍,金石可镂――荀子”,有的写“长风破浪会有时,直挂云帆济沧海――李白”,有的写“如烟往事俱忘却,心底无私天地宽――”,等等。,名人伟人往往经历了比常人更多的磨难,他们的名言曾鼓舞自己在磨难面前矢志不渝、奋力拼搏。他们的名言经过时间长河的冲刷,仍散发着迷人的光芒,不仅使学生受到启迪,也常常使我受到启示。记得有位学生抄过这样一句“比大地更宽阔的是海洋,比海洋更宽阔的是天空,比天空更宽阔的是人的胸怀”,每当我遇到不愉快的事便背诵这句名言,让自己的心胸开阔乐观起来。
除了抄写之外,有时伴随上课的内容随机安排一些专题收集,比如上《和时间赛跑》时,我让学生收集一些有关珍惜时间的名言,由组长汇总后在学习园地里交流。每天与这些名言相伴,既丰富了学生的知识,又陶冶了学生的道德情操,也提升了学生的语文素养。
三、做文摘,取他人之精华
新《语文课程标准》指出:“阅读是搜集处理信息、认识世界、发展思维、获得审美体验的重要途径。”有效的阅读手段和方法,将大大提高小学生的知识储量和质量。阅读教学的宗旨是培养学生综合性的语文素养,也就是培养学生语文诸方面的能力和素养。对高年级的学生,我要求他们每学年阅读两三部名著。为达到这个要求,我规定学生每周六、周日两天,自由读一点文章,并把自己认为好的文章片段摘抄下来,周一互相交流后上交,再由老师亲自批阅。有时做一些专题文摘,如以“爱国”为主题的文摘,学生们摘抄了爱国诗词、名人的爱国故事,这无形中对他们的道德情感有了深刻的影响。寒暑假期间我给学生开列书目,让他们任选1~2部读读,并做好读书文摘,开学后再举行读书交流会。此外,在平时也要求他们勤读勤摘,注意积累。这样帮助学生树立了榜样,在摘抄中加深了印象,对其语言的积累和写作等都有很大的益处。
四、读名著,拓阅读之空间
现在的孩子多数沉迷于电脑,阅读空间十分有限,除了课本还是课本。语文阅读的空间应是无边的,当然语文教材的权威性应得到尊重,特别是教材中的经典篇目更应熔铸学生的精神海洋。但仅仅靠教材上的课文,学生不可能形成真正的语文素养。所以我坚持把课外的文学作品引入语文课教学,经常利用课余时间给学生读一些小说、散文、诗歌等,像鲁迅、冰心、毕淑敏等人的作品。长期坚持为学生读课外书,有助于拓展他们的阅读范围,增强他们的语文素养,同时也有助于净化他们的灵魂,陶冶他们的情操,引导他们接触优秀的文学作品,像《红岩》《林海雪原》《爱的教育》《钢铁是怎样炼成的)等,让美的形象、美的情感、美的思想、占领学生的精神空间,从而自觉抵制不良读物的影响。