前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇机器学习范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
Phase Transitions in
Machine Learning
2011,416pp
Hardback
ISBN9780521763912
学习涉及意识在不同层次上的重要功能,从感官刺激到对高级抽象推理复杂概念的获取。尽管对学习尚缺精确的定义,但是有一个被广泛接受的由Langley 提出的定义,它把学习看作是一组机理,通过它们,智能能随着时间的推移而改善它们的行为。但凡采用了有关的足够宽泛的观点,这个定义似乎是合理的。机器学习根植于好几个学科之中,其中值得一提的是统计学、模式识别、认知科学及控制理论。机器学习的主要目的是为人类学习提供计算模型,支持学习的认知研究。尽管机器学习具有吸引力,它还是遇到了几个困难,甚至在今天,仍然阻碍着它的全面利用。主要的障碍在于多数机器学习算法对计算资源有很高的要求,特别是那些较为接近人类学习过程的算法。从上世纪30年代孕育机器学习的时期起,计算机科学这个内容丰富而又严格的领域就一直关注进行计算时所需要的时间和存储器资源。核心问题是,无论采用怎样的输入方式,一个给定的算法是否能够在有限的时间内结束计算。如果能够的话,在它展现的复杂类中,所给出的控制变量是多项式的,还是指数的等等。
1991年,Cheseman等三人发表的题为《实际的难题在那里?》的论文有如晴天霹雳。他们提出尽管分析最坏情况是重要的,寻求计算的典型复杂性同样是必须的。本书内容的构建就是围绕着学习中的计算复杂性概念这一核心的。本书把计算机科学、统计物理及机器学习的基本观点编织在一起,向读者提供了足够的数学和物理背景,使得人工智能以及其他计算机科学社团的研究人员可以理解这个课题。作者还对公开的研究作了讨论,并且对进一步研究中有希望的方向给出了他们的建议。
本书共有14章,还有2个附录。1.绪论,对机器学习、计算复杂性及二者关系作了简介;2.统计物理与相转变;3.可满足性问题;4.约束满足问题;5.机器学习;6.搜寻假设空间;7.统计物理与机器学习;8.学习、可满足性问题(SAT)及约束满足问题(CSP);9.FOL覆盖测试中的相转变;10.相转变与关系学习;11.语法推理中的相转变;12.复杂系统中的相转变;13.自然系统中的相转变;14.讨论及公开问题。附录A 在二个实例证中检测到的相转变。附录B 一个引起兴趣的观点。
本书的第一、二位作者均为意大利Piemonte Orientale 大学计算机科学系的教授。第三作者是法国巴黎AgroParisTech工程学校计算机科学系的教授。本书可供人工智能以及其他计算机科学专业的从业人员阅读。
胡光华,
退休高工
(原中国科学院物理学研究所)
关键词:机器学习;计算机科学;学习机理;策略研究
随着计算机技术的飞速发展,人们尝试着使计算机具有和我们一样或类似的学习能力,从而产生了一个新的研究学科-机器学习。总体而言,机器学习是指令计算机通过对目标的识别,利用人类提供的现有知识来获取新知识和新技能,不断改善性能,实现自我完善。
1 机器学习发展史
统计学习理论创始人之一的Vapnik将机器学习归结为如下四个阶段。
1.1 学习机器的产生
第一个学习机器的模型是F.Rosenblatt在1962年提出的感知器。它借鉴了神经生理学领域中感知器的思想,将其模型表示为一个计算程序,并通过简单的实验说明了这个模型的结果可以进行推广和泛化。感知器通过给定的样本构造一条判断准则来区分不同类别的数据,因此可以用来解决模式识别问题。
1.2 学习理论基础的创立
1968年,Vapnik和Chervonenkis提出VC维和VC熵来解决模式识别问题。利用这些概念学者发现了大数定律和关于收敛速率的非渐近界。1989年,Vapnik和Chervonenkis提出的经验风险最小化原则、正则化理论、解决密度估计问题的非参数方法,以及算法复杂度思想,都对学习理论的发展产生了深远的影响。
1.3 神经网络的产生
1986年,LeCun和Rumelhart各自独立地提出了后向传播方法。该方法采用连续的Sigmoid逼近函数代替了感知器神经元中的不连续符号函数,使人们可用任何基于梯度的方法来逼近预期函数。它的出现标志着学习机器历史进入了一个新纪元。
1.4 统计学习理论的创立
为了根本解决传统统计学理论中过学习等弊端,Vapnik于20世纪60-70年代创立了统计学习理论。与传统统计学相比,它是一种专门研究有限样本下机器学习规律的理论,不仅考虑了对渐近性能的要求,并且追求在有限信息下获得最优结果,在理论研究和实际应用中都取得了良好效果。
2 机器学习策略分类
在众多机器学习策略中,可从不同角度,根据不同原则对其进行分类。本文按照分类原则提出的先后顺序以及所用推理策略的繁简程度将其分为以下两大类。
2.1 传统策略
⑴机械式学习。该方法是一种最简单、原始,也最基本的学习策略。它通过记忆和评价外部环境所提供的信息达到学习的目的。学习系统要做的工作就是把经过评价所获取的知识存储到知识库中,求解问题时就从知识库中检索出相应的知识直接用来求解问题。
⑵指导式学习。该方法通过由外部环境向系统提供一般性的指示或建议,把它们具体地转换为细节知识并送入知识库。在学习过程中要反复对形成的知识进行评价,使系统的知识库不断完善。
⑶归纳学习。该方法应用归纳推理进行学习。归纳推理指从足够多的事例中归纳出一般性的知识,是一种从个别到一般的推理。常用的方法有枚举归纳、联想归纳、类比归纳、逆推理归纳和消除归纳等。
⑷类比学习。类比是人类认识世界的一种重要方法,也是诱导人们学习新事物、进行创造性思维的重要手段。类比学习就是通过对相似事物进行比较所进行的一种学习。
⑸基于解释的学习。该方法通过运用相关领域知识,对当前提供的实例进行分析,从而构造解释并产生相应知识。
2.2 现代策略
⑴基于神经网络的学习。神经网络由神经元单元及其间带权重的连接组成,每个单元的状态由与其相连接其他单元的输入共同决定。该方法使用样本来训练网络,产生网络的内部表示,并用来识别新样本。
⑵基于统计学习理论的学习。Vapnik创立的统计学习理论针对有限样本统计问题建立了一套新的理论体系,不仅考虑了对渐近性能的要求,并且追求在有限的信息条件下获得最优的结果。其典型代表SVM,具有许多传统统计学方法不具备的优点。
⑶强化学习。该理论是在上世纪80年代,基于试错方法、动态规划和瞬时误差方法形成的。
⑷集成学习。该方法集成若干单分类器的分类结果来综合决定最终分类,可取得比单分类器更好的性能。其主要方法有Bagging、Boosting、Stacking、朴素贝叶斯集成、决策树集成、人工神经网络集成、K-近邻集成、在线集成等等。
⑸主动学习。该方法模拟人的学习过程,选择标记部分样例加入训练集,迭代提高分类器的泛化性能。
[参考文献]
关键词:机器学习
数据挖掘
人工智能
中图分类号:TP181
文献标识码:A
文章编号:1002-2422(2010)03-0093-02
1机器学习概述及方法分类
1,1机器学习的概念、应用及发展概况
机器学习是一种使获取知识自动化的计算方法的学习。机器学习在人工智能的研究中具有十分重要的地位。其应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
对机器学习的研究大致经过以下四个阶段:
(1)20世纪50年代的神经模拟和决策理论技术,学习系统在运行时还很少具有结构或知识。主要方法是建造神经网络和自组织学习系统,学习表现为阈值逻辑单元传送信号的反馈调整。
(2)20世纪60年代早期开始研究面向概念的学习,即符号学习。使用的工具是语义网络或谓词逻辑,不再是数值或者统计方法。在概念获取中,学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。
(3)20世纪70年代中期,研究活动日趋兴旺。1980年在卡内基・梅隆大学召开的第一届机器学习专题研讨会,标志着机器学习正式成为人工智能的一个独立研究领域。
(4)20世纪80年代中后期至今,机器学习研究进入一个新阶段,已趋向成熟。神经网络的复苏,带动着各种非符号学习方法与符号学习并驾齐驱,并且已超越人工智能研究范围,进入到自动化及模式识别等领域,各种学习方法开始继承,多策略学习已经使学习系统愈具应用价值,而运用机器学习的数据挖掘在商业领域中的应用则是最好的例子。
1,2机器学习方法的分类
Bose和Mahapatra归纳了数据挖掘中使用的机器学习技术主要有以下五种:
(1)规则归纳:规则归纳从训练集中产生一棵决策树或一组决策规则来进行分类。决策树可以转化成一组规则,分类规则通常用析取范式表示。规则归纳主要优点是处理大数据集的能力强,适合分类和预测型的任务,结果易于解释,技术上易于实施。
(2)神经网络:由类似人脑神经元的处理单元组成,输入节点通过隐藏节点与输出节点相连接从而组成一个多层网络结构。节点的输入信号等于所有通过其输入链接到达此节点的信号的加权和。神经网络由相互连接的输入层、中间层、输出层组成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结果。
神经网络的最大优点是能精确地对复杂问题进行预测。其缺点是处理大数据集时效率较低,用户在使用这种方法的时候需要具备相当的建立和运行该系统的工具知识。
(3)事例推理:每个事例都由问题描述和问题的解决方法两部分构成。提出问题后,系统会寻找匹配事例和解决方法。其优点是能够较好地处理污染数据和缺失数据,非常适用于有大量事例的领域。
(4)遗传算法:是一种基于生物进化过程的组合优化方法。其基本思想是适者生存,基本操作包括繁殖、杂交和变异三个过程。繁殖过程是从一个整体中选择基于某种特定标准的信息并对要求解的问题编码,产生初始群体,计算个体的适应度。杂交过程是把一个信息的某一部分与另一个信息的相关的部分进行交换。变异过程随机改变信息的某一部分以得到一个新的个体。重复这个操作,直到求得最佳或较佳的个体。遗传算法的优点是能够较好地处理污染数据和缺失数据,易于和其它系统集成。
(5)归纳性逻辑程序:用一级属性逻辑来定义、描述概念。首先定义正面和负面的例子,然后对新例子进行等级划分。这一方法具有较强的概念描述机制,能较好地表达复杂关系,体现专业领域知识,因而用该方法得出的模型易于理解。
2数据挖掘中机器学习技术的特性
商业数据库往往含有噪音,体现在存在错误和不一致性。如果数据验证过程不够充分,则可能允许用户输入不正确的数据,而数据迁移也可能产生破坏。
商业数据库的另一个常见问题是数据的缺失,尤其是当数据来自于不同的数据源时。由于数据编码标准和聚集策略的不同,有可能将导致无法对所有的属性进行分析。
另外,在商业数据挖掘中,数据集的大小从几吉到几兆不等,并往往还有大量的属性,所以可测量性是数据挖掘技术的一个重要方面。商业数据库含有多种属性类型,如果机器学习技术能够处理不同的数据类型,则将对数据挖掘产生更大的作用。
数据挖掘技术的预测精度是评价挖掘效果的一个非常重要的因素。遵循监督学习过程的机器学习系统首先被训练,但是系统对真实数据的预测精度往往低于对训练数据的预测精度。所以,能对真实数据得到较高的预测精度显然是一个所需的特性。
结果的可解释性是另一个重要的所需特性。在商业数据挖掘应用中往往需要使用不同的DSS或DBMS,所以与其他信息系统的易整合性也是一个需要的特性。不同的机器学习技术需要终端用户具有一定程度的工具知识和领域知识,一些技术还需要对数据进行大量的预处理工作,因此对于终端用户来说,易于理解和需要较少预处理工作的机器学习技术是比较好的。
3机器学习方法与数据挖掘任务类型
Bose和Mahapatra把运用于数据挖掘的机器学习方法在商业应用时的任务类型可以归结为如下;
(1)分类:利用一个训练集来确定最大可区分属性,当分类确定好之后,新的实例可以通过分析进行合适的分类。
(2)预测:根据已观测到的数据来找出可能的将来值和/或属性的分布。主要的任务之一是确定对要预测的属性影响最大的属性。
(3)关联:在寻找实体之间或者实体属性之间的潜在联系规律的关联分析当中,最常见的就是市场菜篮子分析。
(4)侦察:侦察的目的在于寻找异常的现象、离群数据、异常模式等等,并且给出支持决策的解释。
机器学习方法及其所对应解决的数据挖掘中的任务类型总结如表1所示。
近期,印第安纳大学与普渡大学印第安纳波利斯联合分校的研究人员开发了一种机器学习算法,可以90%预测急性骨髓性白血病(AML)的复发,以及100%准确预测缓解,当患者在初诊时,白血病细胞为1012,经过导入疗法的化学治疗以后,白血病细胞减少到大约109以下时,就不能再从血液和骨髓中发现白血病细胞,这时候,病人即可以达到完全缓解的程度。这项小型研究凸显了机器学习具备取代传统诊断方法的潜力,研究者使用的是来自AML患者的骨髓细胞、病史数据以及其他健康个体的信息。
传统诊断方式主要是手动分析来自流式细胞术(流式细胞术是对悬液中的单细胞或其他生物粒子,通过检测标记的荧光信号,实现高速、逐一的细胞定量分析和分选的技术)的数据,而机器学习方法体现了它的高准确率和及时性。
普渡大学生物科学中心计算生物学研究助理教授Bindley Bartek Rajwa解释,他的计算系统采用流式细胞术的数据作为输入。流式细胞术是一种广泛使用的技术,可以快速地提供样本中单个细胞的特性,如血液或骨髓细胞。
Rajwa是该研究的第一作者,该论文已经被IEEE 生物医学工程学期刊收录。
“魍车牧魇较赴术的结果是由受过高度培训的人类专家评估,而不是机器学习算法,”他补充说,“但是计算机通常比人类更擅长从复杂数据中提取知识。”
斯坦福大学医学院教授和遗传学教授Michael Snyder博士,同意计算机在复杂癌症病例诊断中是关键的辅助工具,也许最终会取代人类医生。
在8月份的时候,他使用机器学习来区分不同类型的肺癌,他认为病理学的观点非常主观,“两个高度熟练的病理学家评估同一张幻灯片时,只有60%的部分是共同认可的。使用机器学习的方法,可以用复杂、定量的测量结果来取代主观性,我们认为很有希望改善患者的诊断结果。
机器学习正在迅速地成为许多疾病类别预测分析和诊断的流行工具,包括脓毒症、创伤护理、心脏病、人群健康管理、视力保健和精神卫生保健。
2015年,来自哥伦比亚大学,布宜诺斯艾利斯大学和IBM计算生物学中心的一项研究也使用机器学习实现准确无误的预测诊断记录,他们使用自然语言处理技术来标记可能进入精神病发作的心理健康患者。
随着开发人员和研究人员改进他们的机器学习方法,以及供应商更多工具,从事高级分析的机构可以访问庞大的计算能力,诊断准确率会普遍得到显著提升。
印第安纳大学与普渡大学印第安纳波利斯联合分校的病毒进展研究的高级作者、计算机副教授Murat Dundar表示,教会计算机识别AML是非常简单的,一旦你开发了一个强大的鲁棒算法,能将以前的工作提升到接近100%的准确率。
“有挑战性的是如何超越确诊AML工作本身。我们要让计算机准确地预测AML患者的疾病变化方向,从新的数据中理解并预测未知走向,知道哪些新的AML患者将进入缓解状态,哪些会进入复发状态。
作者简介:靳雪茹(1986-),女,河北邢台人,硕士研究生,主要研究方向:分类法映射; 齐建东(1976-),男,内蒙古赤峰人,副教授,博士,主要研究方向:计算机网络、智能信息处理; 王立臣(1982-),男,吉林敦化人, 硕士研究生, 主要研究方向:虚拟现实、智能信息处理; 周林志(1984-),男,浙江台州人,硕士研究生,主要研究生方向:计算机网络、智能信息处理。
文章编号:1001-9081(2011)07-1781-04doi:10.3724/SP.J.1087.2011.01781
(1.北京林业大学 信息学院,北京 100083; 2.北京信息科技大学 自动化学院,北京 100192;
3.北京航空航天大学 网络信息与计算中心,北京 100191)
()
摘 要:专利和期刊隶属于不同的知识组织体系,要实现专利与期刊文献的交叉浏览和检索必须解决两种分类法(中国图书馆分类法(CLC)和国际专利分类法(IPC))之间的映射问题。在调研现有分类法类目映射方法的基础上,讨论了基于机器学习实现中国图书馆分类法和国际专利分类法之间类目映射的方法。通过对中图法某个类目标识的语料进行训练得到该类目的分类器,然后用其对国际专利分类法标识的语料进行分类,对分类结果进行分析得出类目间的映射关系。对比实验证明了该方法的有效性。
关键词:类目映射; 国际专利分类法; 中国图书馆分类法; 朴素贝叶斯方法; 决策树
中图分类号:TP181;TP391文献标志码:A
Approach of classification mapping between international patent
classification and chinese library classification based on machine learning
JIN Xue-ru1,QI Jian-dong1,WANG Li-chen2,ZHOU Lin-zhi3
(1. School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China;
2. School of Automation,Beijing Information Science and Technology University,Beijing 100192,China;
3. Network Center,Beihang University,Beijing 100191,China)
Abstract: Patents and journals belong to different knowledge organization systems. To achieve the cross-browsing and cross-retrieval between journal literature and patents,the mapping problem between two classifications Chinese Library Classification (CLC) and International Patent Classification (IPC), must be addressed. According to the survey of the existing methods of classification mapping, this paper discussed a method to achieve the mapping between CLC and IPC based on machine learning. The learner was got by training the corpus identified by the CLC category, with which to classify the corpus identified by the IPC category. The mapping relations can be found after analyzing the classification results. And the comparison experiment proves the effectiveness of this method.
Key words: classification mapping; International Patent Classification (IPC); Chinese Library Classification(CLC); Nave Bayes (NB) method; decision tree
0 引言
互联网的迅猛发展,信息化的不断推进使得文献信息处理网络化、全球化已成为潮流,这为文献资源的共享创造了条件;与此同时,由于文献资源加工、处理方法及检索语言的多种多样,又为文献资源的共享带来了障碍。交叉浏览是指用户可以通过一种知识组织体系,可以浏览另一种体系中的信息,可以将不同体系中相同或相似的信息以某种方式呈现给用户,为用户提供一个集成式的服务,实现不同知识组织体系间的互操作。
专利反映了解最新科研动态、研究课题开发现状、技术水平和法律状态。而期刊文献作为信息传递和交换的产物,是科研信息的重要来源。在专利信息越来越受关注的今天,实现专利与期刊文献的互操作以获取更加准确、详细、全面的信息具有重要的意义。专利文献和期刊文献是按照不同的组织方式进行组织管理的,其中国际专利分类法(International Patent Classification,IPC)是一种国际通用的管理和使用专利文献的工具,而中文期刊库以及其他中文文献信息则更普遍地使用中国图书馆分类法(Chinese Library Classification,CLC)。通过找到IPC与CLC类目间的映射关系可以实现这两种分类体系之间的互操作。
国内外信息领域都已经致力于不同知识组织系统间的互操作研究,并取得一定的研究成果。例如,英国高层叙词表项目(High-Level Thesaurus Project,HILT),欧盟Renardus项目,我国山西省图书馆等联合研制了“计算机文献标引对照系统”,由戴剑波、侯汉清研制的CLC4和DDC21自动映射系统等[1]。另外,国家“十一五” 科技支持计划项目研究的知识组织系统是由多个领域词表构成的,每个词表包含了该领域的词汇,并且定义、规范了词汇间的各种语义关系,是该实验以及其他自然语言处理过程中的重要支撑工具。目前,有关分类法映射的研究中采用的方法主要有以下几种:
1)基于同现统计[2]。
分类法的实质是一系列文献情报内容概念及其相关关系的号码标识系统,可以用不同分类法的分类号来标识同一文献;反之,标识同一文献或图书的不同分类号之间必定具有一定的关联,所以可以基于不同分类法的同现信息来确定类目之间的映射关系。
2)基于类目相似度[2-3]。
体系分类法一般是通过类目名称、注释、上下位类等来表达各种复杂概念,在进行类目映射时,不仅要考虑类目的表达形式,还要考虑类目所表达的概念在外延和内涵上的相符程度。通过选择类目对应的类名词、注释词及其上下位类名词等词汇作为类目概念词并进行相似度计算,可以确定类目之间的映射关系。
3)交叉浏览[4]。
通过使用一种分类法在一个使用另外一种分类法来组织的语料库中进行检索,通过对检索结果的分析从而建立这两种分类法之间的映射。
以上三种方法是当前分类法类目映射中常用的方法。从其他角度考虑,类目映射的问题实质上就是分类的问题[5-6],即能否将两个类目看做是“同类”的,由此本文提出了基于机器学习中分类算法的类目映射方法。
1 基于机器学习的映射方法
本文提出的基于机器学习的类目映射方法的基本原理是:类目映射可以看做是一个分类的问题,将其中一个分类法(以下称为“源分类法”)中某个类目(如类目A)标识的语料信息作为训练集,训练得到该类目的分类器(如LearnersA),然后用该分类器测试由另一分类法(以下称为“目标分类法”)的类目(如类目Ⅰ)标识的语料是否可以归类到类目A。如果可以,则表明类目A与类目Ⅰ之间存在一定的映射关系。
图1 基于机器学习的映射过程
本方法对文档的标题和内容分开进行处理,首先经过预处理得到文本标题和内容向量集合,然后由训练得到的标题和内容分类器对目标分类法的文档(与训练集同一维度空间的向量集合)进行分类,最后分析分类结果得到目标分类法的哪些类目可以与源分类法的类目进行映射。
1.1 预处理
由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可由计算机处理的结构化形式。
1.1.1分词
词条是信息表达的最小单位,是自然语言中重要的知识载体与基本操作单元。所有涉及中文内容处理的系统,如果没有一个好的中文词法分析系统支持,正确率都会受很大影响。本实验使用中国科学院计算技术研究所研制的开源ICTCLAS[7]系统的Java版本ictclas4j来完成文本分词。
1.1.2 提取特征词
对文本分词以后,进一步使用中国科学技术信息研究所建设的“汽车领域主题词”作为词典筛选出关键词语,将文本中承载的与分类无关或关联较少的信息,如停用词、数字、标点符号等都过滤掉,可以提高特征词的质量、计算的效率和分类的准确度。
1.2 特征选择
目前人们通常采用向量空间模型来描述文本信息,但是如果直接用分词算法和词频统计方法得到的词汇来表示文本向量中的各个维,那么这个特征空间的维数将高达几万,甚至更高。这不仅会降低分类效率也会降低分类精度,因此需要从原始特征空间中选出部分特征,来降低原始特征空间的维数,也就是特征选择的过程。
特征选择的常用标准有文本频度(Document Frequency,DF)、信息增益(Information Gain,IG)、互信息(Mutual Information,MI)、CHI统计及TFIDF(Term Frequency Inverse Document Frequency)等[8]。其中,TFIDF是一种权重计算方法,因其算法简单并且准确率较高,文本分类的特征选择也常常基于此算法完成。但此算法只反映特征与页面间的关系,具有一定的局限性,而MI标准反映了特征与类别间的关系,在一定程度上弥补了TFIDF的不足,因此本实验将采用TFIDF和MI两种标准进行特征词选取。
1)TFIDF标准。
TFIDF用特征的TF×IDF值来评估一个特征。TF指特征频度,TF值表示一个特征和某个文档的相关性,反映了该特征相对于这个页面的重要程度,默认为出现的次数越多越重要。IDF 因子表示逆文档频度,即包含某特征的文档越多,则该特征越不重要。TFIDF计算公式如下:
TFIDF(termi,documentj)TF(termi,documentj)×
IDF(termi)TF(termi,documentj)×lg(1)
其中,TF(termi,documentj)定义为特征termi在文档documentj中出现的次数(1≤i≤|V|, 1≤j≤N,V为所有训练文档中的特征构成的集合,N 为训练文档总数)。IDF(termi)定义为lg,DF(termi)为含有特征termi的文档数。
2)MI标准。
互信息在统计语言模型中被广泛应用,它可以度量特征词和类别的共现关系,反映了特征和类别之间的关联程度,MI值为0就代表特征的分布和类别无关。MI计算公式如下:
MI(term,class)lb
lb(2)
其中:P(term,class)表示特征term在类别class中出现的概率,P(term)表示特征term在整个训练集中出现的概率。
本实验采用以上两种标准来对特征词进行选择。首先,计算每个文档中所有词条的TFIDF值以及这些词条与当前类别的MI值,然后选取MI值大于0且TFIDF值大于设定阈值的词条作为最终的特征词将该文档表示为一个向量。
1.3 训练分类器
用语料信息训练源分类法某个类目的分类器时,选择由该类目标识的文档作为训练集的正面样本,其他类目标识的文档作为负面样本。从这些样本集中可以得到两个分类器:标题分类器和内容分类器。标题分类器就是用文档的标题作为训练集来进行训练得到的,采用标题作为训练集的理由是:标题是一个文档最简单、最准确的概括,在对文档进行分类时,甚至只看到标题就知道应该将该文档归到哪一类。文档的内容可以提供更加详细、更加深入的主题思想,但与此同时文档携带的信息也随之增多,可能会影响文档的正确分类。因此,在本实验中将文档标题和文档内容结合起来考虑,以提高分类的准确度。
目前,文本分类的经典算法有:朴素贝叶斯分类(Nave Bayes,NB)[10]、决策树方法(Decision Tree,DT)、Rocchio方法、K近邻算法(K-Nearest Neighbors,KNN)和支持向量机(Support Vector Machine,SVM)等[9]。其中,朴素贝叶斯和决策树因其较高的分类性能和简单性,是当前使用最广泛的两种分类模型。本实验也将采用这两种算法完成分类工作。
朴素贝叶斯以概率统计中的贝叶斯定理为理论基础,基于特征独立性假设,根据已知的先验概率以及条件概率得到后验概率。文本d属于某类别C的概率可表述如式(3)。最终文本将分类到概率最大的那个类别中。
P(C|d) (3)
其中:P(d)为常数,可以忽略;P(C)为类别C的先验概率,由类别C的文本数与训练集的文本总数的比值得到。文档d由特征向量表示后,其条件概率可表述如下:
P(d|C)P((w1,w2,…,wn)|C)∏ni1P(wi|C)(4)
决策树[11]又称判定树,通过构造树,产生一定的规则来解决分类问题。树的每个非叶子节点都是对训练文本向量中的一个非类别属性的测试或决策,根据属性的取值,建立树的分支。每个叶子节点表示一个类别或类分布。从根节点一直向下判定,当到达一个叶子节点时,一个决策或规则便形成了。目前,决策树典型算法有:ID3、C4.5、CART、SLIQ、SPRINT等。
1.4 对目标分类法的文档进行分类
用训练好的源分类法中类目A的分类器LearnerA和TitleLearnerA对目标分类法的语料信息进行分类,通过对分类结果的分析得出源分类法的类目A与目标分类法的哪个或哪些类目能确定映射关系。
2 实验及结果分析
2.1 实验数据
IPC和CLC是两部庞大的分类体系,本实验选取分类法中和汽车相关的类目。与CLC类目相关的数据由中国科学技术信息研究所提供的中文期刊语料库选取;和IPC类目相关的数据是从知识产权专利局网站上获取的有关车辆的专利
信息。
本实验以CLC分类法中的类目U461.91(汽车的安全性)[12]所标识的所有文本(共40篇)和从CLC语料随机选择的100篇其他类目的文本作为分类的训练集。由于对分类结果进行的分析是基于统计的,所以选取了IPC语料库中标识文本数量大于50的类目作为待映射的类目(共118个类目),将这些类目所标识的文本作为分类的测试集。
2.2 结果分析
本实验采用开源的机器学习及数据挖掘软件WEKA[13]完成分类器的训练及分类测试集的工作。首先将U461.91类目标识的文档内容和文档标题分别用朴素贝叶斯、决策树(C4.5算法)分类方法进行训练,并进行十交叉检验,得到分类器的正确率、召回率、F值如表1所示。
表1 采用不同分类方法得到的分类器的对比
通过表1的实验结果可以看出,对文档内容进行分类时,使用朴素贝叶斯分类方法可以取得更好的效果,而对文档标题分类时,决策树是更好的选择。另外,对其他类目的分类实验也可以得到相同的结论,如在对U463进行分类的实验中,对文档内容用朴素贝叶斯分类的正确率是0.776,用决策树分类时为0.757,而对文档标题用朴素贝叶斯分类时正确率为0.712,用决策树时为0.741。因此,在本实验中选用朴素贝叶斯分类方法来训练得到文档内容的分类器,标题分类器的训练采用决策树方法。
然后用训练好的U461.91类目分类器对IPC文档分别按内容和标题分类以后,可以得到IPC各个类目中分类到U461.91中的文档的比例。综合两个分类器的分类准确率和分类到该类目文档的比例得到U461.91与IPC各类目间的映射关系。
mapping(A,Ι)correct(learnerA)×doc(Ι,learnerA,A)+
correct(TitleLearnerA)×doc(Ι,TitleLearnerA,A)(5)
其中,mapping(A,Ι)是两个类目A与Ι可以映射的判断依据;correct(learner)指分类器learner的准确率,是对该分类器的信任程度;doc(Ι,learner,A)指Ι类目标识的文档通过分类器learner分类到类目A的比例。
最后选择mapping值最大的n个目标分类法的类目作为与源分类法类目进行映射的候选类目,由专家进行审核得到最终结果。本实验中,U461.91的候选映射类目(n6)如表2所示。
表2 CLC类目U461.91与IPC类目映射结果
用基于交叉浏览的类目映射方法得到的结果[4]如表3所示。
由表2、3可以看出,基于机器学习的类目映射方法找到了与汽车安全相关的IPC类目信息,当然,这些类目很大程度上依赖于实验中选取的IPC 类目文档的语料信息。例如,从表3可以看到一些与安全带相关的类目信息,由于这些类目所标识的文本数量小于设定值,所以并不在本实验的测试集之中,因此,实验结果并没有与之相关的类目。
表3 基于交叉浏览的CLC类目U461.91与IPC类目映射结果
3 结语
本文根据训练集文档的标题和内容的特点,将它们分开进行训练,并根据对比实验结果分别采用决策树和朴素贝叶斯分类模型得到各自的分类器。然后利用这两种分类器对测试集的文档进行分类,最后综合两者的分类结果分析得到类目间的映射关系。实验的结果表明此方法可以找到CLC与IPC这两种分类法之间相映射的类目,具有一定的可行性。
参考文献:
[1] 刘华梅,侯汉清.近十年情报检索语言互操作研究进展[J].图书馆理论与实践,2006(4):31-33.
[2] 刘华梅.基于情报检索语言互操作技术的集成词库构建研究[D].南京:南京农业大学,2006.
[3] 戴剑波,侯汉清. 文献分类法自动映射系统的构建――以《中国图书馆分类法》与《杜威十进分类法》为例[J].情报学报,2006,25(5):594-599.
[4] 周林志.国际专利分类法与中图分类法类目映射研究[D].北京:北京林业大学,2010.
[5] DOAN A,DOMINGOS P,HALEVY A. Reconciling schemas of disparate data sources: A machine learning approach〖C〗// Proceedings of International Conference on Management of Data. New York: ACM, 2001:509-520.
[6] DOAN A,MADHAVAN J,DOMINGOS P. Ontology matching: A machine learning approach[EB/OL].[2010-10-06].citeseerx.ist.psu.edu/viewdoc/download?doi10.1.1.8.2185&reprep1&typepdf.
[7] 汉语分词系统〖EB/OL〗.〖2010-09-20〗./
[8] 代六玲,黄河燕,陈肇雄.中文文本分类征抽取方法的比较研究[J].中文信息学报,2003,18(11):26-32.
[9] 蒲筱哥.自动文本分类方法研究述评[J]. 情报科学,2008,26(3):469-475.
[10] MITCHELL T M. 机器学习[M]. 曾华军,张银奎,译. 北京: 机械工业出版社,2003.
[11] 王桂芹,黄道. 决策树算法研究及应用[J]. 电脑应用技术,2008(1):1-7.
[12] 中国图书馆分类法[EB/OL].[2010-10-08]./.