前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘技术探讨论文范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词: 数据仓库与数据挖掘; 研讨型; 教学模式; 教学实践
中图分类号:N42 文献标志码:A 文章编号:1006-8228(2012)12-52-02
Analysis on research-oriented teaching model in data warehousing and data mining
Huang Meili
(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)
Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.
Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice
0 引言
20世纪90年代兴起的数据仓库和数据挖掘是数据库研究、开发和应用中最活跃的两个领域。随着其理论及应用技术和产品的不断成熟与发展,数据仓库与数据挖掘不仅成为高等院校计算机专业、信息技术与信息管理类专业硕士、博士研究生的专业课程,而且相继在本科相关专业高年级学生中开设了该课程。
该课程是一门综合性和实践性很强的课程,其内容新且广,对于本科教学有一定的难度。本文针对课程自身特点及高年级学生学习及能力培养需要,结合自身教学实践,探讨以激发学生学习兴趣为着眼点、学生分析解决问题能力培养为目的的研讨型教学模式。
文中章节1具体介绍课程内容、教学过程中存在的问题及研讨型教学模式;在章节2中,以自身的教学实践为例,给出研讨型教学实践效果及该方法应用的注意事项;最后,是结论部分。
1 本科数据仓库与数据挖掘课程教学
1.1 课程教学内容
数据仓库与数据挖掘课程涉及两方面的教学内容:①数据仓库技术和基于数据仓库的联机分析处理应用技术。具体包括数据仓库的基本概念、创建技术和方法、数据仓库的体系结构以及OLAP的基本概念、多维数据库、OLAP的实现技术。②数据挖掘的基本概念、基本方法和基本技术(包括分类、预测、关联、聚类等),以及数据挖掘的应用。
1.2 课程在本科教学过程中存在的问题
⑴ 教学内容不统一
由于该课程是一门综合性很强的课程,涉及到的学科知识很广,加上在本科教学中开设的时间并不长,也没有得到大家一致认可的相应教材供使用,使得开设该课程的不同高校的教学内容与教学重点各不相同,即便是同一学校不同教师对于教学内容的把握上也有很大差异。
⑵ 传统教学方法的不适用性
虽然本课程涉及内容宽泛,而且是在已具备自主学习能力的本科高年级学生中开设的,但是课程的教学方法却多采用传统的以教师讲授为主、学生为辅的教学模式。
从本科教学过程中存在的问题可见:课程授课对象及课程自身的特点,决定了传统教学方法的不适用性[1-3]。因此,有必要探讨新的教学模式在具体教学实施过程中的应用。
1.3 研讨型教学模式
虽然课程涉及到的学科内容广且深,但是对于已学习高等数学,并熟悉数据库知识和具备程序设计能力的高年级学生而言,还是能较好地掌握数据仓库的建模以及经典数据挖掘算法的实现与简单应用。因此,在课程的教学实践中,我们把该部分内容作为课堂教学的重点;对于一些较难的和新的挖掘算法与技术,及其应用和最新发展趋势,则作为学生研讨内容。
作为传统的教师讲解教学模式的有益补充和提高,开展研讨型的教学模式,可以按照如下四个环节开展:
⑴ 教师出题&学生选题;
⑵ 相关文献查阅;
⑶ 报告撰写;
⑷ 课堂汇报与讨论。
第一步,由教师出题,学生选题。在学期初,就由教师给出研讨的主题供学生选择。这样既可以避免学生选题过于盲目,也可以避免最后课堂讨论阶段的研讨内容偏离课程教学主题。
第二步,相关文献查阅。在接下来的课程教学期间,学生除了保证基本的学习内容的掌握之外,还需要利用课余时间,利用各种手段查阅与选题相关的文献,为报告的撰写和汇报阶段做充分的准备。
第三步,报告撰写。经过大量的文献阅读后,学生需撰写文献阅读报告,报告的撰写格式可以参考毕业设计的要求。
第四步,课堂汇报与讨论。在课程后期,教师在每次课堂上抽取一定的时间,供学生课堂汇报,然后其他学生与教师一起针对学生的汇报内容展开讨论。该环节的开展,既开拓了学生的视野,又可以有效地避免部分学习不认真的学生的应付行为。
从教师出题到最后的学生课堂汇报与讨论,每个环节都要求学生的亲自参与。这样,在课时有限的情况下,以研讨型的教学模式开展教学,既可以保证教学内容的讲授,又能使学生主动参与到课堂教学中来,激发了学生的学习主动性,拓宽了学生的视野。
2 研讨型教学实践效果及注意事项
2.1 教学及其效果
我校在大四计算机专业学生中开设该课程。其中,理论32学时,实验16学时,共计48学时。教材采用韩家炜先生编著的《数据挖掘:概念与技术》一书[4]。该教材是得到业内广泛认可的经典教科书,但教材内容偏重理论。为了在有限的课时内,让学生尽可能掌握基本教学内容,使得研讨型教学模式得以开展,我们以李志刚编著的《数据仓库与数据挖掘的原理与应用》作为相关内容的辅助教材[5]。具体地,按如下方式进行。
2.1.1 教学内容及学时分配
教学内容围绕数据仓库与数据挖掘两条主线展开。涉及的相关内容及学时分配如表1所示。
2.1.3 考核方式
期末总成绩=平时成绩25%+文献报告25%+期末卷面成绩50%
在最近两年的研讨型教学模式实践中,我们选出有代表性的学生作品,如表3所示。
2.2 教学注意事项
研讨型教学模式适用于“数据仓库与数据挖掘”课程的教学,但是在相应课程中开展研讨型的课程教学模式需注意以下几点。
⑴ 注意授课对象的选择。文献资料的查阅、文献阅读报告的撰写以及课堂汇报是研讨型教学模式开展过程中的主要环节,而这些环节要求学生所需具备的能力,不适于在低年级学生中开展。
⑵ 注意教学模式的选用。研讨型教学模式不能代替传统的教师讲解的教学模式,而应是两者的有机结合。
⑶ 注意考核方式的改革。研讨型教学模式的开展,除占用一定的课堂教学时间之外,还需要学生花费大量的课外时间用以查阅文献资料、撰写报告等。如果采用传统的以考试为主的考核方式,那么在实践过程中可能会遇到部分学生的抵制。因此,为了提高研讨型教学模式的效果,需要对传统的以期末笔试成绩为主的评价方式进行适当改革,向研讨内容及成果倾斜,以提高学生的积极性。
3 结束语
研讨型教学模式的开展,可以有效地避免传统教学方法下以教师讲解为主,以学生为辅的填鸭式教学模式,较好地解决数据仓库与数据挖掘课程在本科教学过程中遇到的问题。
经过近几年在本科计算机专业毕业班对该课程采用研讨型教学模式的实践表明,该模式的开展不仅有效地激发了学生的学习兴趣,开拓了学生的视野,而且能够很好地为学生的毕业设计环节中有关文献查询、论文撰写及答辩等奠定基础。从列举的近两年的代表性学生研讨内容及成果中可以看到,该教学模式在高年级学生中开展是现实可行的,而且也是有效的。
研讨型教学模式的开展,需要占用一定的教学时间,如何在有限的课时内保证教学内容,并挤出足够的时间开展研讨是教师必须考虑的问题;与此同时,学生为准备研讨内容需要花费大量的课余时间,因此,如何调动学生的积极性也是该模式能否成功应用的关键因素之一。上述两方面的问题,都有待在今后的教过实践中,进一步深入细化该模式,以更好地达到教学培养目标。
参考文献:
[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,
2007.7:27-29
[2] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,
2007.23(3):209-210,214
[3] 韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高
教论坛,2011.1:94-96,99
[4] 李志刚,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版
社,2008.
关键词:竞争情报;企业竞争情报系统;热点;趋势
1 .竞争情报系统概述
企业竞争在当前日趋激烈,作为企业竞争制胜先导和基础的竞争情报,正愈来愈受到企业和学术理论界的重视,不少的企业正在或将要建立自己的竞争情报系统。
目前我国最流行的竞争情报系统的定义可以归纳为两种。第一种定义认为竞争情报系统就是计算机系统。王沙骋等指出,企业竞争情报系统是指将反映企业自身、竞争对手和企业外部环境的时间状态和变化的数据、信息及情报进行收集、存储、处理及分析,并以适当的方式给企业有关战略管理人员的计算机应用系统,是基于计算机和网络环境的、由先进的信息技术支持的企业竞争情报辅助分析计算机系统。我国讨论竞争情报涉及计算机网络的专家多数持这种看法,国外也有很多人持这种看法。
第二种定义把竞争情报系统视为人机系统。这种观点是我国竞争情报的先驱包昌火先生提出来的:竞争情报系统是以人的智能为主导、信息网络为手段、增强企业竞争力为目标的人机结合的竞争战略决策支持和咨询系统。按包昌火先生的定义,竞争情报系统核心就是人和计算机。
澳门理工学院社会经济研究所曾忠禄先生分析综合了以上三大类定义的优缺点,他认为,目前竞争情报系统的定义是存在缺陷的,它们都只包括了竞争情报体系的部分内容,缺乏全面性外,它们还有另外一个缺陷,即忽略了竞争情报系统各构成因素之间的相互联系和互相依赖关系。缺乏将各部分联系起来的“关系”,它们就不能成为“系统”。他认为,竞争情报系统是为用户的需要创造情报产品的体系,它由相互联系、相互影响的功能、结构(资源)和方法(流程)组成,各构成部分有机地联系在一起,并随着外部环境的变化而动态发展。这里的用户可以是企业,也可以是政府机构,或自己组织内部的某一部门或上级单位;情报产品既可以是文字的,也可以是图像的、口头的或其他方式的;创造过程既包括信息收集、分析,也包括撰写情报报告等。
2. 十年来我国竞争情报系统研究相关热点及部分成果
随着市场竞争的深入发展和日趋激烈,企业竞争情报系统的理论与实践必将愈来愈受到企业界和学术理论界的高度重视。本文选取了最近十年来刊登在《情报科学》、《情报杂志》、《情报学报》、《图书情报工作》等几本情报学主要核心期刊上关于竞争情报系统的论文,对其进行归纳总结,找出了我国竞争情报系统研究的主要几个热点问题。主要热点包括一下几个方面:
2.1 竞争情报与数据挖掘
简单地讲,数据挖掘是一种利用各种分析工具建构数据分析模型,从而在大型的数据库(或数据仓库)中提取人们感兴趣的知识的过程。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识一般可以表达为概念、规则、规律、模式等形式。
当前竞争情报系统的情报源越来越多,包括企业内部数据库、数据仓库、外部网络、外部数据库等等。竞争情报系统需要向用户提供面向主题的数据挖掘及深层的数据分析,要实现这些功能,就要将竞争情报系统建立在数据挖掘技术基础上。而数据挖掘对数据要求比较高,因此要在原有竞争情报系统基础上加强对数据的处理,以满足数据挖掘的要求。目前国内在此方面的研究多集中在web数据挖掘在竞争情报系统中的应用,将数据挖掘技术应用到竞争情报系统的构建。并提出了不同的基于Web挖掘技术的企业竞争情报系统结构模型。
蒲群莹在2005年第1期的情报杂志上提出的竞争情报系统模型是建立在大量竞争情报数据基础上的竞争情报系统,包含四个子系统,即竞争情报收集子系统、数据转换子系统、分析子系统、服务子系统(如图1所示)。
图1 基于数据挖掘的竞争情报系统模型
1. 收集子系统。竞争情报收集子系统主要包括各企业信息源以及各种信息收集工具,主要负责收集来自企业内部和外部的信息。
2. 数据转换子系统。数据转换子系统主要功能是为数据挖掘提供符合要求的数据,为下一步数据挖掘提供了良好的环境。
3. 分析子系统。经过转换的数据,送入竞争情报分析子系统中,该子系统主要包括数据分析以及模式发现工具,数据挖掘是其核心技术。
4. 服务子系统。竞争情报服务子系统是为整个竞争情报系统提供一个信息交流和共享的平台,它包括对内和对外两部分。
目前看来,数据挖掘是竞争情报系统处理海量数据唯一可行的技术,迄今为止这项技术并没有发展成熟,将它应用到企业竞争情报系统中还需要经过很长时间的探索,但是探讨将两者相结合的应用模式是非常必要的。
2.2 竞争情报系统与人际网络
竞争情报系统的横向描述为组织网络、信息网络、人际网络三大网络(如图2所示)。美国著名的公关专家李文斯顿给人际网络的定义:建立人际网络是一个互相交换资讯、意见、想法与相互介绍朋友、熟人、资源共享,也互相感激的关系。
图2 竞争情报系统横向描述结构图
在竞争情报系统中建立人际网络的必要性主要表现在:通过人际交流,可以充分获取信息,挖掘正式交流中所不能体现的情感信息,还可以实现隐含知识的转移和传递。人际网络是重要的非公开情报源,是企业获取竞争情报非常重要的途径和工具,而对于它在竞争情报系统中的重要性,竞争情报人员最近才认识到。事实上,人际网络的重要性体现在竞争情报工作的全过程,贯穿于情报收集、分析和服务这个情报循环(Intelligence Cycle)中,尤其突出地反映在情报收集阶段。
随着我国经济社会的发展,企业的竞争将越来越激烈,但是这些企业越来越意识到必须采取竞合策略才能更好地生存和发展,因此人际网络与竞争情报成为我国竞争情报系统研究的热点之一。
2.3 集成竞争情报系统—面向企业信息集成(EII)的CIS
面向EII的集成化CIS以现代信息技术为手段,为部门之间、企业与集成环境内其它供应链节点之间、供应链集成环境之间提供有效的竞争情报服务与集成化的决策支持。同时,根据战略目标和竞争环境的变化对企业资源重新组合集成,突破部门、组织、地域、时间和硬件设备的束缚, 实现以企业战略目标和用户需求为中心的集成与协同,形成敏捷的市场反应能力。与传统CIS相比,面向企业信息集成的CIS具有高度的集成性、敏捷性、实时性、持续性、网络化、虚拟化以及智能化。
面对企业信息集成的发展,搭建集成CIS平台,提供广泛深入的信息服务和决策支持已经成为一种新的发展方向。同时,这种集成化的CIS由于融合了先进的网络信息技术和管理理念,使其为企业部门之间、企业与外部供应链节点之间以及不同供应链集成体系之间的协作提供了集成化、平台化和系统化的信息环境,同时还可以根据企业战略规划和竞争环境的变迁对内外资源进行全面有效的整合处理和集成配置,使CIS配合企业信息集成发展的需求,进行动态决策调整、分布式信息服务和集成化的决策支持的实现成为可能。、
2.4 基于Internet与Intranet的企业竞争情报系统研究
在网络环境下,企业竞争情报系统(ECIS)以内联网(Intranet)为平台,通过互联网(Internet)与外部相连,应用信息技术和现代组织创新理论,建立起以竞争环境、竞争对手和竞争策略信息的获取和分析为主要内容的具有快速反应能力的工作体系。根据网络环境下企业竞争情报的需求特点,ECIS的基本功能应当包括竞争环境监测、市场变化预警、技术动向跟踪、竞争对手分析、竞争策略制订和企业信息安全等六个方面。
根据对国内外企业竞争情报系统运行与服务模式的分析,在网络环境下比较典型的服务模式主要有:竞争信息扫描、战略早期预警、竞争知识库建设、竞争对手分析和竞争策略模拟五种模式。
3. 企业竞争情报系统的发展趋势
从企业战略管理的角度来看,把CIS建设成企业的“中央情报局”,使之成为企业领导集团经营战略和竞争决策的思想库和参谋部,这将是企业CIS的主要目标和未来发展方向。
3.1 网络化方向
从企业竞争情报系统的具体运作角度来说,CIS的网络化趋势体现在系统运行的信息搜集和信息服务两个阶段中:信息搜集的网络化方面,企业可以定制适合自己的自动搜索软件,定期检索与本企业、本行业相关的网上情报源。这样既在一定程度上保证了信息搜集的完备性,又大大减少了信息搜集人员的工作量,使其可以专注于其他信息源的搜集处理,如加强对非公开信息的搜集工作力度。在信息服务的网络化方面,企业决策层应该可以不受时间、地域限制地接受所需的情报服务。未来更理想的服务模式是CIS根据用户的不同,提供特定的推送服务,为不同的决策人员提供不同的定制服务界面;而企业内的其他员工也可根据自己的需要,定制适合自己需要的Intranet服务。
3.2 智能化方向
随着信息技术水平的不断提高,各种新方法、新工具会应用到竞争情报系统中,比如智能化的自动搜集软件就是竞争情报系统智能化的一种表现。另外,系统的智能化分析功能、学习功能和检索功能的加入也都是未来竞争情报系统的重要发展方向。
3.3 决策化方向
竞争情报系统的工作重心将从单纯的、分散的日常性情报工作转向目的性很强的竞争对手跟踪、重大课题深入分析、竞争策略研究等方面,并日益成为企业决策的重要依据。
3.4 集成化方向
企业将在实物资源、财务资源和人力资源三类系统之间实现恰当的集成,这样将会使其能够在组织的协同作用方面以及在与竞争能力相关的产品、服务、市场反应、管理决策等方面都获得显著改善。
4. 结语
关键词:学业预警系统;B/S架构;数据挖掘;.NET技术
中图分类号:TU 文献标识码:A文章编号:16723198(2012)10016401
1绪论
1.1 选题背景
由于各方面的因素,每年到了毕业的前夕,仍有相当比例的学生不能完成基本的学分绩点,从而不能正常地毕业。学校为了使这些学生能够顺利地毕业,采取了“清考”等措施,但这些措施是被动的,带有较大的负面影响,并且也增加了教学成本。
为了解决这一问题,学校提出了学业预警系统,但目前的学业预警系统仅仅提供了学生的成绩,而没有有效地信息技术支持,需要人工来查找和发现学分绩点过低的学生,使得这种预警系统的效率不高,达不到学校的预期目的,仍不能有效地消除“清考”现象。
1.2 本课题研究的主要内容
本文是以学分制下学生培养方案和学生成绩数据库为支撑,依托数据挖掘技术的有关方法和实施工具,自动搜索数据库,并根据关联规则对学生的课程学习进行预测,从而更加智能的对学生的学业进行深入的研究,并根据专家系统对每个学生的相关信息进行分析给出相关的建议。
1.3 文章结构
第一章讨论选题背景和主要研究工作及全文结构。
第二章是系统需求分析,提出系统要实现的功能。
第三章主要介绍学业预警系统的总体设计思路、系统的框架结构等。
第四章对系统实现过程中用到的系统软件产品的选择做了简要说明。
第五章为结束语,总结论文所开展的工作和下一步工作设想。
2系统需求分析
2.1 系统总体目标
学业预警系统的总体目标:本系统能够自动录入学生学业信息,并根据学生已修课程给出相关课程的预测成绩,并能自动计算绩点与平均分,如发现可疑学生数据(绩点或平均分不够)可以对学生发出预警,并且向院系工作人员及辅导员发送预警信息,督促学生学习,达到使学生能够顺利里毕业的目的。
2.2 系统可行性分析
2.2.1 技术可行性
学业预警系统所用的数据挖掘技术能够自动录入及查询信息,能够节约人力和物力,并且此技术已相当成熟,有专门的开发平台作支撑。
2.2.2 经济可行性
现今,计算机的价格已经十分低廉,性能却有着长足的进步,它已经被应用于许多领域。所以,系统所需的开发费用并不是很昂贵,然而这套系统的成功投入使用可以节约大量人力,提高信息管理的质量,也方便学校的管理。
2.3 系统需求
2.3.1 功能划分
录入信息:录入本院学生学业信息及专业培养方案。
学业信息查看:学院登录系统查看学生的相关学业信息及预警信息。
个人预警信息查询:学生登陆系统查看自己的预警信息。
预测成绩查询:学生登陆系统查看系统对自己的学业做出的预测。
用户权限管理:系统为学生及院系工作人员设置不同的权限。
成绩管理:后台操作人员对学生的成绩进行管理。
2.3.2 功能描述
图12.4 性能需求
2.4.1 数据精确度
要按照严格的数据格式输入,否则系统不给予响应进行处理。
系统管理员具有数据修改权限,其他用户在系统开放时间过后无权进入系统。
2.4.2 时间特性
一般操作的响应时间应在1~2秒内,对软磁盘和打印机的操作也应在可接受的时间内完成。
3 系统设计
3.1 系统设计的原则和目标
适应目前及今后一段时期信息化管理的要求,系统化、结构化、模块化,保证整个系统的完整性、一致性,可适时更新升级,以满足需求变化的需要。
(1)符合人们的思维习惯。
(2)便于各种事物的安排处理。
(3)易于扩展。
3.2 系统架构设计
通过需求分析学业预警系统采用B/S结构。本系统在构架上采用分层的体系结构,将软件分为三个层次,表现层(Presentation)从用户收集信息,将用户信息传送给业务服务层;Web层用来响应浏览器客户发来的请求,并调用业务层组件,将业务层组件返回的结果发送给浏览器客户;数据层(Data)提供接口进行永久数据的存储。
3.3 数据库设计
根据学业预警系统需求分析,设计对应的数据表:
(1)学生信息表:存放与学生信息相关的信息数据。
(2)专业培养方案表:存放与专业培养方向相关的信息数据。
(3)学生学业表:存放学生的详细学业信息数据。
(4)院系信息表:存放有关学生所属院系的基础信息数据。
(5)管理员信息表:存放管理员的相关信息数据。
3.4 小结
本章首先提出了系统总体设计时遵循的设计思想即符合人们的思维习惯、便于事务的安排、易于扩展、便于人工干预,并按照上述设计思想,在确定了学业预警系统功能的结构基础上,对与系统相关的数据库表做了介绍。共设计了5个数据库基本表,各表之间通过外键连接。
4 系统实现
前面我们阐述了学业预警功能的需求,这里我们选取几个相关功能对管理功能的实现进行详细描述。
4.1 开发平台的搭建
CPU:Intel PentiumD 925
内存:DDR 400 1G
操作系统:Microsoft Windows Server 2003
开发工具: Visual Studio 2010
数据库:SQL Server 2000
4.2 用户权限设计
4.2.1 基于角色的访问控制策略
安全访问控制策略占据着至关重要的作用。为了保证资源的安全,系统一要确认使用者的身份是否合法:二要判定该使用者是否有权使用或更改某一项信息资源。基于角色的访问控制策略简单来说就是在用户(user)和访问许可权限(permission)之间引入角色的(role)的概念,把用户和权限通过角色联系起来,用户被赋予某种角色,也就拥有相应的权限。
4.2.2 身份验证
本系统中用户身份信息是由以下字段组成:用户登录账号、密码,这些字段在数据库中作为一个数据表,用户每次登录时,需输入登录账号和密码,采用表单提交用户输入的账号和密码,并通过数据库访问该数据表,进行身份标识与鉴别,并利用数据验证控件进行验证。
4.2.3 授权
授权是指准许或拒绝特定用户访问资源的过程。在该体系结构中,授权主要包括两种方式:“模块访问安全性”和“模块功能操作安全性”,且这种两种方式都是基于用户所隶属的角色来实现的。
5 结束语
本文对学业预警系统的总体规划、需求分析、系统设计等方面进行了详细研究。通过研究,加深了对各种开发模式的了解,初步了解了实现三层客户机/服务器模式的系统开发技术。
参考文献
[1]陈晓红.管理信息系统教程[M].北京:清华大学出版社,2003.
[2]任泰明.基于B/S结构的软件开发技术[M].西安:西安电子科技大学出版社,2006.
[3]彭东主.SQL Server 2000应用开发技术指南[M].北京:清华大学出版社,2000.
中图分类号:R2-03 文献标识码:A 文章编号:1005-5304(2013)04-0103-05
由于中医诊断主要根据医生的经验来决定,因此,在临床施治过程中存在较大的主观性和不确定性等问题。在中医诊断领域引进数据挖掘技术,不但符合现在多学科交叉发展的潮流,在解决实际问题上,无疑也是中医客观化进程中的又一催化剂。作为一门融合人工智能、机器学习和数理统计等方法的新型学科技术,数据挖掘在克服人类本身认知和思维长度的基础上,充分利用海量临床数据,通过模拟临床诊断推理过程来挖掘临床诊断数据中繁杂的证、症关系,对寻求中医专家的辨证规律有重要价值。目前,在该领域涉及到的数据挖掘方法较多,主要有贝叶斯网络、人工神经网络、粗糙集理论、关联分析、决策树、聚类分析、判别分析、支持向量机、多标记学习、随机森林等。笔者现对这些方法的相关应用综述如下。
1 常见数据挖掘方法
1.1 贝叶斯网络
贝叶斯网络是通过简明的图形方式结合统计理论来定性表示变量间复杂因果或概率关系的一种数据分析方法,包括网络集和概率集两部分。该方法具强大的执行高效推理任务的功能,能充分利用先验知识,而使其在诊断领域的应用价值极大。在解决中医定量诊断问题上,其体现出的功能主要表现在:揭示众多症症之间以及症与证间的复杂关系,探究证候的主要症状和次要症状,定量确定其诊断价值,这有助于确定证候诊断的标准和规范,而且建立的证候诊断模型以概率形式给出诊断结果,能有效辅助专家作出决策。因此,该方法对促进中医诊断学发展所做的贡献不可忽视。张氏等[1]对255例肺癌患者证候以症状之间的关联性及关联强度为基础,利用贝叶斯网络概括出了肺癌的证候要素,包括病机要素9个、病位要素5个及病机要素之主要症状与次要症状。曲氏等[2]对611例抑郁症患者的中医证候进行了研究,采用贝叶斯网络对抑郁症中医症状进行评定,发现拟定的中医证型包含了抑郁症的核心症状和周边症状的不同组合方式,体现了抑郁症临床多变的证候特点。范氏等[3]对收集到的1512例类风湿关节炎(RA)患者的临床数据采用基于聚类的贝叶斯网络模型,提取出了RA的7项主特征及4型的类特征,为中医辨证分型及RA中医诊断标准提供了临床依据。龚氏等[4]对2501例2型糖尿病的临床数据运用该方法分析,发现空腹血糖异常患者及糖化血红蛋白异常患者均以阴虚热盛多见,而餐后2 h血糖异常患者则以阴虚多见。王氏等[5]应用此方法通过分析474例血瘀证临床诊断数据进行血瘀证定量诊断,发现了血瘀证的7个关键症状,并与此同时建立“是否血瘀证”的分类器模型,经交叉验证发现此分类器诊断准确率达96.6%。郭氏等[6]认为,证候的复杂性表现为证候各因素之间的高维高阶性,他们运用贝叶斯网络技术对肺系疾病证候构成因素之间关联形式进行了研究,发现各因素间的联结形式是线性相关与非线性相关并存的,它们相互交织,形成复杂的网络结构,表现出典型的非线性特征。
1.2 人工神经网络
人工神经网络是在对人脑神经网络结构认识理解的基础上人工构造的新型信息处理系统。目前的神经网络模型有:用于分类、预测和模式识别的前馈式神经网络模型,用于联想记忆和优化计算的反馈式神经网络模型,以及用于聚类的自组织映射方法。其中前馈式神经网络模型是目前应用最广泛的神经网络之一。对于将其应用于中医诊断领域,陈氏[7]认为,中医学辨证施治本质上就是对众多数据信息进行处理并提取规律的过程,而人工神经网络恰恰具备较好获得数据规律的能力。人工神经网络模型的优势主要体现于其黑箱结构,这赋予人工神经网络强大的非线性拟合能力,使其能够任意精度逼近非线性函数。
但不足的是,在中医研究中,人工神经网络不能进行变量筛选,对其得到的结果也只是局部最优而非全局最优。如李氏等[8]对142例脾气虚弱及肺脾气虚证HIV/AIDS患者的主要实验指标、四诊信息的主要症状和舌象运用Clementine中的特征选择节点进行筛选,建立脾气虚弱和肺脾气虚的人工神经网络模型,发现该模型能较好地诊断艾滋病患者脾气虚弱和肺脾气虚证型,其样本模型训练集诊断的正确率和测试集诊断的正确率分别为87.25%和80.00%。傅氏等[9]认为,运用数据驱动模式建立中风人工神经网络模型,将为进行繁杂多变的中风证候的动态研究、掌握证候的动态演变规律及在不同时点进行疗效评价提供一个新的探索方向。许氏等[10]通过对心血管疾病中医临床信息数据库中的临床信息和证候类别之间的关系进行分析,发现人工神经网络尤其是OCON网络对该病常见的中医证型的识别率最高,其中心气虚证和心阳虚证分别高达92.4%、82.9%。有研究运用人工神经网络分析RA、糖尿病肾病(DN),分别建立RA和DN证候的BP网络模型,并采用三倍交叉验证的方法,发现这2种模型平均诊断准确率分别为90.72%、92.21%[11-12]。余氏[13]通过文献资料和临床资料收集选用人工神经网络等方法开展2型糖尿病证候诊断标准模型建立及对比研究,所建模型在临床数据测试样本的正确辨识率为73%。
1.3 粗糙集理论
粗糙集理论主要用于分析研究不完备数据,这是继概率论、模糊集、灰色理论之后又一个刻画不确定、不完备系统的有力数学工具。基于其具有能有效处理各种不确定、不完备信息的强大能力,有研究者认为将其用于分析中医症状-辨证要素间相关性,建立定性定量标准,有很大前景[14]。其最大优点在于不需要问题所需处理数据之外的任何先验信息,能够在保留关键信息的前提下求得知识的最小表达式。因此,将粗糙集理论引入中医,运用到中医诊断上,将可能是实现中医诊断智能化的又一个发展方向。
陈氏等[15]以450例老年人细菌性肺炎患者在就诊过程中的285项指标为研究对象,采用粗糙集方法对已经过初始数据处理的各数据进行挖掘分析,得到7种中老年肺炎的证候诊断标准,为疗效评价指标提供了客观依据。陈氏等[16]从与原发性高血压相关的古今医案中收集237例病案,对其症状和体征进行数据预处理,运用基于粗糙集理论的KDD决策分析系统Rosetta软件约简病证属性,获取到了原发性高血压肝阳上亢证的专家知识,为进一步研究原发性高血压肝阳上亢证奠定基础。刘氏[17]运用粗糙集理论对脾胃系疾病的证候诊断进行相关研究,建立了可进行辨证分型的计算机软件,并通过这一软件量化标准来判断患者所属证候,为治疗脾胃系疾病辨证提供可靠依据。谢氏[18]建立了一个基于粗集理论的中医诊断专家系统模型,以模拟中医专家诊断的过程。秦氏等[19]把粗糙集应用于中医类风湿证候诊断,并在类风湿病的各证候诊断上应用。
1.4 关联分析
在数据挖掘方法中,关联分析常用来挖掘特征之间或者数据之间的相互依赖关系,对给定的事务数据库找出满足最小支持度和最小置信度的关联规则。与其他数据分析方法不同的是,关联规则的引入,可以从大量貌似繁杂症与证的数据中,找到隐形的关联,极大促进中医诊断学的发展;并且其所得结果清晰有用,同时支持间接数据挖掘;可处理变长的数据,为寻找诊断数据中的隐性关联带来了方便,其计算的消耗量也可以预见[20]。
肖氏等[21]设计了一种基于遗传算法的正相关关联规则挖掘算法,发现胃部不适症状与处方、证候重要关联关系。陈氏等[22]通过对400例肝硬变患者进行关联分析,找出符合最小支持度和最小置信度并形成规则的中医证候气滞/气郁证和血瘀证,这表明肝硬变和气滞证、血瘀证之间关联度非常高。钟氏等[20]采用关联规则的分析算法,探求胃炎症状与“中虚气滞”辨证之间的关系,得到在中虚气滞证中,口干欲饮这个症状对辨证的影响最大。
1.5 决策树
决策树算法是一种逼近离散值函数的方法,常用来形成分类器和预测模型,是建立在信息论基础之上对数据进行分类的一种方法。岳氏[23]通过选取300例确诊为小儿肺炎患者的数据为基础,成功构建了基于决策树算法的小儿肺炎指纹辨证分类模型,准确率达84.5%。钟氏等[20]从中医胃炎数据中筛选出“中虚气滞”的病历,通过决策树,以“中虚气滞”为目标属性,根据病历中症状辨证是否与目标属性相同设置“yes”和“no”两值,再通过设置的训练样例运用ID3算法构建决策树,以判断未知中医证型的病例是否归属“中虚气滞”。查氏等[24]将397例已确诊活动期RA患者随机分为中药和西药治疗组,通过对其初诊中西医症状及检查结果采用决策树进行证病信息和疗效的相关关系探索,得出可从证候信息的角度获得药物治疗的最佳适应证,从而实现个体化治疗。徐氏等[25]对406例慢性胃炎病例用bootstrap抽样扩增,采用基于信息熵的决策树c4.5算法建立中医辨证模型,测试集模型分类符合率为81.25%。
1.6 聚类分析
聚类分析的实质就是聚集数据成类,使类间的相似性最小,而尽可能增大类内的相似性。其优点是:作为一种探索性的统计分析方法,聚类分析方法可以在对数据没有先验知识的情况下对数据资料进行分类,根据数据的内在相似或相关程度,可使得类别内数据“差异”尽可能小,类别间“差异”尽可能大,对中医药领域中的症状组合规律、证候规律等方面的研究具有一定的推动作用。但由于中医证候复杂程度较大,聚类分析在解决这些问题时存在的局限性表现在:①多结果,主观性大。此分析方法无法根据数据内部特点自主确定分为几类,需要研究者依据其学科知识和经验来确定到底聚为几类、聚到哪一类为最佳;此外,选择不同的类间距离和变量间距离的定义方法,结果将大有不同,因此,多次尝试、反复分析对于此类分析方法来说是必须的。②单分配,即变量只能被聚到某一类。在研究症状的聚类问题时,中医的一个症状常需要能被聚到不同的类中,但聚类分析只能将一个症状归入某一个类别里面。
李氏等[26]应用系统聚类的方法对276例乙肝后肝硬化的症状、体征进行分析研究,得出乙肝后肝硬化基本中医证候有湿热内蕴证、肝肾阴虚证、肝郁脾虚证、脾虚湿盛证、脾肾阳虚证、血瘀证、气(阳)虚证共7类。卢氏等[27]通过制定“中医证候临床观察表”,对106例儿童中间型β地中海贫血患者进行中医证候调查,采用聚类分析等统计学方法得出广州地区中间型β地中海贫血患儿中医证候分布特点为气血两虚证>肝肾阴虚证>脾肾阳虚证>阴阳两虚证,这为进一步规范化辨证论治提供了一定依据。何氏等[28]采用临床流行病学的方法,对143例冠心病PIC术后患者的症状、体征等临床资料进行了聚类分析,得出冠心病PIC术后患者证候分为气虚痰浊、肾虚血瘀、肝气郁结、脾气亏虚、心气亏虚、气阴亏虚共6类。黄氏等[29]应用变量聚类分析的数理统计方法,对慢性疲劳综合征(CFS)进行了中医辨证分型,并对收集到的237例CFS患者的症状、舌象和脉象等临床资料进行了变量聚类分析,得出变量聚类分析能帮助CFS在中医证候中合理分为精髓空虚、阴液亏虚、脾肾阳虚和肝火亢盛共4型,解释比例为61.68%。
1.7 判别分析
与其他统计学方法不同的是,判别分析的主要目的是建立一个线性组合,使其可用最优化的模型来概括分类之间的差异。该方法常用来根据已知数据的分类情况判断未知待分析数据的归属问题等,在证候的研究方面应用最广。
胡氏等[30]根据所收集的413例亚健康失眠患者的中医证型对证候变量进行逐步判别分析,建立判别函数式,得出亚健康失眠中医证型判别函数与临床诊断吻合良好,逐一回代法判别总一致率达81.1%。夏氏等[31]对77例慢性再生障碍性贫血(CAA)患者进行辨证分型分组,应用逐步判别分析方法建立CAA中医证型判别方程,筛选出了与判别方程最相关的6个免疫学和血常规指标。郦氏等[32]以脑梗死中医证型标准化研究结果为基础,采用逐步判别分析,建立了脑梗死各证型与观察指标间的数学判别方程。赵氏等[33]对收集符合RA诊断标准的患者按照辨证对变量进行逐步判别分析,建立了一个具有较好的判别效果的判别模型。薛氏等[34]选用已进行频数分析的文献207篇进行肝病证候的判别分析,认为肝郁脾虚证辨证标准难以脱离疾病特点。
1.8 支持向量机
支持向量机是基于统计学习和结构风险最小化原则的学习机器,可以通过核函数将低维输入空间的数据特征投射到高维数据控件,并求得最优分类的超平面。该算法的关键思想是利用核函数把一个复杂的分类任务映射,使之转化成一个线性可分问题。在许多实际学习问题中,它允许扩大的空间维数非常大,在某些情况下可能无穷大,能较好地解决小样本、非线性、高维数和局部最小等问题。支持向量机方法较适用于中医诊断数据的现状和对中医临床经验的总结。
徐氏等[35]以中医心系503个样本为例,利用支持向量机进行中医心系证候分类研究,结果表明,该方法在证候分类中能达到较高的准确率。王氏等[36]以名医诊治冠心病典型医案115例建立冠心病名医诊疗数据库,运用支持向量机方法提取到名医诊治冠心病8个主要证候要素并确定其定量诊断,阐释了证候要素应证组合规律。殷氏等[37]对舌诊数据进行主成分提取,分别建立Logistic回归和支持向量机模型,发现在小样本情况下支持向量机模型更优,敏感度达92.8%,特异度达92.3%。杨氏等[38]精选1个家系虚寒证的相关基因信息,选择间接比较实验方案进行基因芯片实验,对5例虚寒证和5例正常人差异表达基因的表达值进行建模,使用支持向量机、K近邻分类法等方法,将家系中其他人样本带入,发现其能够正确判别。在舌象诊断鉴别上,谢氏[39]依据支持向量机理论,以径向基函数作为核函数构造多分类分类器,将舌象的特征参数作为输入样本,对病证进行分类,并以肝病病证分类做了仿真。
1.9 多标记学习方法
与其他分类方法不同的是,多标记学习方法的每个研究对象不再对应于单一的概念标记,而是由单个示例(属性向量)表示并对应于多个概念标记,即一个样本和多个类标相关联。鉴于现实社会涉及到的很多真实对象往往都具多语义、多分类目标性,如疾病的证候、证型,待分类的文档、网页,生物信息学中的基因等,因此,多标记学习方法的成熟对促进这些领域的发展也就显得十分重要。然而该方法存在的一个主要问题是不能充分利用各训练样本所含概念标记之间的相关性,从而有效提高学习系统的泛化能力;此外,由于其存在复杂程度较大,运用该方法进行研究尚存在降维方法和特征选择方法较少的不足。
针对中医临床证候兼夹的多标记特点,研究人员首次将多标记学习算法引入到中医问诊的客观化研究。该研究将多标记学习结合频次分析,应用于冠心病的问诊证候模型建立,有效提高了诊断模型的识别率;在此基础上,还结合中医数据特点,提出了多标记学习算法(REAL),并结合信息增益等特征选择方法,挑选出常见证候的20个最优特征,显著提高了慢性胃炎的证候的识别率[40-41]。邵氏等[42]运用多标记学习结合混合优化的特征选择算法(HOML),用于冠心病中医问诊数据分析,建立了中医冠心病数据模型,并获得了冠心病问诊症状的最优特征子集。
1.10 随机森林
随机森林是决策树算法的一种改进,其综合思想是组合多棵bootstrap样本建立的决策树的预测,通过投票给出有效的错判率估计、分类器强度、相关性和变量的重要性等指标。该方法对每个被分析的数据都给出了重要性的评分,在某种程度上有利于有效的特征变量的挑选,降低数据维度。随机森林作为一种自然的非线性建模工具,具有很高的预测准确率,能很好地容忍异常值和噪声,不易出现过拟合,降低分类错误率;也不会出现在bootstrap样本中的OOB数据,还能为样本提供一个数据内部估计,可用来高效估计组合分类器中的泛化误差,有助于理解分类精度以及如何提高精度。
洪氏等[43]通过引入随机森林方法,对《慢性疲劳(CF)中医临床症状分级量化表》中的95个症状进行数据编码,选取CF常见证候要素的主要症状并衡量症状对各证候要素的贡献程度,得到了CF脾虚证、心虚证、肝郁证以及气虚证4个证候要素的症状集,将各症状集作为模型输入,各模型预测准确率分别为96.13%、94.75%、95.89%、94.26%。邹氏等[44]借用特定脾虚证临床数据集证明基于特征提取的分类集成模型比其他集成方法具更低的错误率,认为特征提取在降低错误率上作出了明显的贡献,但其结果是否适用于其他小样本数据尚未证实。王氏等[45]通过文献调研,推测使用随机森林提取亚健康关键症状或指标可帮助亚健康状态的判断。
2 讨论
中医临床诊断数据存在的一个显著特点是证候夹兼、数据多而繁杂、各数据之间的关系藏而不现。因此,借助现代化的信息技术手段,综合运用数理统计分析方法以进一步挖掘四诊以及证候之间的隐性关联具有重要意义。然而,在数理统计方法研究发展正处于高峰期的信息化时代,如何根据待分析的数据库的特点选择正确恰当的方法是当前数据挖掘首先要考虑的问题。
一个样本量较大的数据库,当需要进行一定的数据分类时,可能有必要对上述方法进行探索。聚类分析可满足对数据进行一定的症状的组合、证候规律的挖掘;若是在已知数据的分类情况下需要对待分析数据进行分类,判别分析恰有这方面的优势;决策树则在实现数据分类挖掘过程中的可视化方面凸显其优势;随机森林可在决策树的基础上进一步提高有效特征变量的提取率,同时还能避免数据预处理过程中的过拟合现象。当然,在临床数据分析过程中也经常出现数据样本量较小、维度较高等现象,支持向量机方法在中医领域的引进则为这些数据的分析带来新的契机。除了对数据进行分类挖掘外,数据之间的关联讨论也是数据分析必不可少的,尤其在中医诊断中探讨各症、证之间的关联领域的应用;在隐性关联分析的众多分析方法中,多标记学习法有效解决了证候夹兼的现象;粗糙集理论有利于建立定量定向标准;人工神经网络在识别证型上主要体现其强大的非线性拟合能力;此外,在探究症与证关系上,贝叶斯网络还是诊断领域的常用之法,该方法还可帮助我们进一步探讨症状集中的主次症。
总之,集各种数据挖掘方法之长于一体来对某一数据库进行挖掘分析将为中医界数据挖掘技术的成熟带来不可预料的进展。目前,大部分数据挖掘方法都只是被单一采用,即使有同时运用多种挖掘方法进行数据分析,也只是对某一数据系统运用多种方法相互比较,所获得的结果效用度较小。多重方法相互交融、相互补充、综合运用于某一数据分析系统中的研究在在中医领域尚不很成熟,或许可以成为数据挖掘在中医药研究中的进一步的模式和规则,为数理统计在中医药知识的创新和发展中开辟一条新的途径。
参考文献:
[1] 张霆,陈波,马胜林,等.基于贝叶斯网络的肺癌证候研究[C]//庆祝浙江省中西医结合学会成立三十周年论文集粹.杭州:浙江省中西医结合学会,2011:50-52.
[2] 曲森,启盛,包祖晓.贝叶斯网络模型在中医证候研究中的应用[C]//世界中联第三届中医、中西医结合老年医学学术大会论文集.北京:世界中医联合会,2010:61-63.
[3] 范建平,李常洪,吴美琴,等.贝叶斯网络在中医诊断中的应用研究[J].管理科学学报,2008,11(6):143-150.
[4] 龚燕冰,倪青,高思华,等.Ⅱ型糖尿病主要理化指标与中医证候相关性的贝叶斯网络分析[J].中华中医药杂志,2010,25(1):3l-33.
[5] 王学伟,瞿海斌,王阶.一种基于数据挖掘的中医定量诊断方法[J].北京中医药大学学报,2005,28(1):4-7.
[6] 郭蕾,王学伟,王永炎,等.论高维高阶与证候的复杂性[J].中华中医药杂志,2006,21(2):76-78.
[7] 陈伟青.浅论人工神经网络在中医学上的应用[J].河南中医学院学报, 2004,19(11):12-13.
[8] 李玉森,施学忠,杨永利,等.人工神经网络在HIV/AIDS患者主要虚证诊断中的应用[J].中华中医药杂志,2012,27(5):1269-1271.
[9] 傅勤慧,裴建,惠建荣,等.中风证候动态研究现状与展望:数据与模型驱动模式的应用[J].中西医结合学报,2011,9(12):1292-1300.
[10] 许朝霞,王忆勤,颜建军,等.基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J].北京中医药大学学报,2011,34(8):539-543.
[11] 白云静,申洪波,孟庆刚.基于共轭梯度下降算法的类风湿性关节炎BP神经网络症候模型研究[J].中国中医药信息杂志,2010,17(3):96-97.
[12] 白云静,申洪波,孟庆刚,等.基于人工神经网络的中医证候非线性建模研究[J].中国中医药信息杂志,2007,14(7):3-4.
[13] 余学庆.基于智能计算的2型糖尿病中医证候诊断方法研究[D].北京:北京中医药大学,2007.
[14] 晏峻峰,朱文锋.粗糙集理论在中医证素辨证研究中的应用[J].中国中医基础医学杂志,2006,12(2):90-93.
[15] 陈楚湘,沈建京,陈冰,等.运用粗糙集理论建立中老年肺炎中医症候诊断标准[C]//第二中国控制会议论文集.上海:中国自动化学会控制理论专业委员会,2010:40-42.
[16] 陈素玲,付爽,高云,等.基于粗糙集理论的原发性高血压肝阳上亢证辨证系统的建立[J].山东中医药大学学报,2010,34(3):201-203.
[17] 刘泉.粗糙集在脾胃系疾病中医辨证中的应用研究[D].武汉:湖北中医学院,2008.
[18] 谢国明.基于粗集理论的中医诊断模型的建立[J].数理医药学杂志, 2005,18(4):302-304.
[19] 秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的应用[J].中国生物医学工程学报,2001,20(4):357-363.
[20] 钟颖,胡雪蕾,陆建峰.基于关联规则和决策树的中医胃炎诊断分析[J].中国中医药信息杂志,2008,15(8):97-99.
[21] 肖光磊,陆建峰,李文林,等.正相关关联规则及其在中医药中的应用[J].计算机工程与应用,2010,46(6):227-233.
[22] 陈明,杨慧芳,余蕾.基于关联规则的肝硬变辨证数据挖掘研究[J].河南中医杂志,2009,29(3):258-260.
[23] 岳路.决策树算法在小儿肺炎中医临床诊断中的研究与应用[D].济南:山东大学,2011.
[24] 查青林,何羿婷,喻建平,等.基于决策树分析方法探索类风湿性关节炎证病信息与疗效的相关关系[J].中国中西医结合杂志,2006,26(10):871-986.
[25] 徐蕾,贺佳,孟虹,等.基于信息熵的决策树在慢性胃炎中医辨证中的应用[J].中国卫生统计,2004,21(6):329-331.
[26] 李毅,刘艳,寇小妮,等.乙肝后肝硬化症状学聚类研究[J].中医药导报,2012,18(2):14-16.
[27] 卢焯明,钱新华.以聚类分析法研究儿童中间型β地中海贫血的中医证候分布规律[J].中华中医药杂志,2012,27(3):607-611.
[28] 何庆勇,王阶.基于聚类分析的冠心病介入术后中医证候分类及诊断[J].中医杂志,2008,49(10):918-921.
[29] 黄小波,李宗信,陈文强,等.慢性疲劳综合征的中医证候聚类分析[J].中华中医药杂志,2006,21(10):592-594.
[30] 胡万华,陈克龙,赵娜,等.亚健康失眠患者中医证型的判别分析[J].中医杂志,2012,53(2):142-144.
[31] 夏乐敏,王运律.慢性再生障碍性贫血中医证型判别方程的建立与使用[J].中华中医药学刊,2012,30(2):409-411.
[32] 郦永平,温淑云.脑梗死证型量化分级的判别方程研究[J].中国中医急症,2012,21(1):81-82.
[33] 赵宝利,黄可儿,赵敏.类风湿关节炎中医辨证分型的判别分析[J].中华中医药杂志,2012,27(1):240-242.
[34] 薛飞飞,汪南.基于判别分析的肝病肝郁脾虚证证候特点的文献研究[J].中华中医药杂志,2011,26(6):1260-1263.
[35] 徐,王亿勤,邓峰.基于SVM的中医心系证候分类研究[J].世界科学技术―中医药现代化,2010,12(5):713.
[36] 王阶,吴荣,周雪忠.基于支持向量机的名老中医治疗冠心病证候要素研究[J].北京中医药大学学报,2008,31(8):540.
[37] 殷彬,方思行.脾虚证诊断的数学模型[J].暨南大学学报:自然科学版,2006,26(3):363-367.
[38] 杨丽萍,黄睿,张洛欣,等.用特征功能模块法挖掘一个虚寒证家系的基因表达谱[J].中华中医药杂志,2010,25(5):683-685.
[39] 谢铮桂.基于多分类支持向量机的中医舌诊诊断的研究[J].计算机与数字工程,2008,36(11):60.
[40] Liu GP, Li GZ, Wang YQ. Modelling of inquiry diagnosis for coronary heart disease in TCM by using multi-label learning[J]. BMC Complementary and Alternative Medicine,2010,10:37.
[41] Liu GP, Yan JJ, Wang YQ, et al. Application of multi-label learning using the relevant feature for each label (REAL) algorithm in the diagnosis of chronic gastritis[J]. Evidence- Based Complementary and Alternative Medicine,2012,6:3-5.
[42] 邵欢,李国正,刘国萍,等.多标记中医问诊数据的症状选择[J].中国科学:信息科学,2011,41(11):1372-1387.
[43] 洪燕珠,周昌乐,张志枫,等.基于随机森林法的慢性疲劳证候要素特征症状的选择[J].中医杂志,2010,51(7):634-638.
[44] 邹永杰,周继鹏,王桂香,等.基于特征提取的分类集成在脾虚证诊断中的应用[J].计算机应用与软件,2010,27(3):22-25.
【关键词】 共享数据; 聚变时代; 经济统计
【中图分类号】 C81 【文献标识码】 A 【文章编号】 1004-5937(2016)22-0026-03
第十届全国企业经济统计学年会于2016年7月16―18日在兰州隆重召开。会议由全国企业经济统计学会主办,兰州财经大学统计学院、重庆允升科技大数据研究中心和重庆誉锋宸数据信息技术有限公司联合承办。会议的主题是:“共享数据聚变时代下的经济统计理论及应用研究”。全国近百所高校、政府和企事业单位的200位专家学者参会。
国家统计局副局长许宪春博士针对我国当前经济发展态势作了《2016年上半年经济形势分析》报告,北京师范大学邱东教授针对空间经济比较中由购买力平价推断存在的宾大效应等问题作了《BHPPP中的纯价比假设与宾大效应的弱存在》报告,厦门大学杨灿教授基于投入产出分析的扩展框架作了《产业关联测度与关键产业甄别》报告,暨南大学刘建平教授针对我国政府统计调查体系在新时代面临的问题作了《深化我国政府统计调查体系改革的思考与建议》报告,浙江财经大学李金昌教授针对大数据时代下如何理解统计学等问题作了《统计学与大数据》报告,上海财经大学徐国祥教授针对大数据时代统计学的发展作了《大数据、云计算背景下的统计改革与创新》报告,山西财经大学李宝瑜教授针对当前统计建模要求前提条件苛刻等问题作了《特征样本重复抽样建模方法设计与应用》报告,江西财经大学罗世华教授利用分形方法在非线性时间序列中的研究作了《多重分形时间序列非线性特征辨识及其应用研究》的报告。本届会议入选论文68篇,分为经济统计与政府统计、大数据与统计学科发展以及统计学理论及应用等专题展开交流。主要学术观点综述如下:
一、经济统计与政府统计理论及应用研究
南京审计大学贾晓峰在《江苏最终需求结构与产业结构之间互动变化定量研究》中,运用江苏最新公布的2012年投入产出等数据,分析了江苏最终需求结构与产业结构的变化情况,运用投入产出模型深入研究了江苏最终需求结构与产业结构之间互动变化的数量关系及内在机理,设计出多种方案进行情景模拟分析,并提出了相应对策。
楚雄师范学院张无畏在《基于三角形中线的三次产业结构变迁路径研究》中,利用三角形中线对三次产业结构变化的六种形式及其内部关系进行了研究,结果表明:六种形式之间的变化路径以及各种形式之间可能发生转化,一定是渐进的,不能跨越;每一种形式的数学约束可以用一组不等式表示;用三角形的三条中线来划分三次产业结构的六种形式,能简洁有效地表示这六种形式及其变化。
暨南大学刘建平、陈冬进在《名录库调查――基于行政记录的统计调查方法》中,为了破解抽样调查和普查费用不断攀升、无回答率持续升高、调查效率和数据质量越来越低、难以满足社会日益增长的需要等难题,提出将基于行政记录的名录库调查作为我国官方统计调查的新思路,阐述了世界主要先进国家使用行政记录进行统计调查的基本现状,讨论了建立名录库调查的基本理论和方法并与传统的普查以及抽样调查方法进行了比较,总结了名录库调查在统计工作中的重要作用,最后提出深化我国政府统计改革的若干建议。
东北财经大学屈超、杨森森在《技术进步、技术效率与东北地区工业企业全要素生产率》中,基于数据包络分析法(DEA)的Malmquist指数方法计算了2001―2011年东北地区按注册类型分组的工业企业的全要素生产率及其构成变化,详细考察了企业的技术效率,发现东北地区工业企业在观察期内全要素生产率提高的主要因素是技术进步,技术效率的影响微乎其微;使用CCR模型和BCC模型,将技术效率分解为纯技术效率和规模效率,并得出相关结论。
暨南大学夏帆在《中国三大经济圈产业聚集现象之检验――基于微观地理数据的分析》中,使用了Duranton和Overman(2005)提出的第三代测度方法对我国三大经济圈制造业的空间聚集现象进行了检验,发现三大经济圈的大部分产业呈现出聚集特征,呈现分散特征的产业不多;通过对距离上聚集特征的考察,发现聚集总是倾向于在较小的范围内出现,一般在50公里以内;分析了各个产业的聚集程度后发现三大经济圈聚集程度最强的十个产业各不相同,且都与各自的产业特色有关。
青岛大学张迎春、袁伟萍、管琪在《基于最小间隔树法的中国地区间购买力平价试算》中指出,最小间隔树法是国际比较测度各国购买力平价的方法,有利于识别不同国家经济的相似性,并尝试将其用于中国地区间购买力平价的计算,得出相关结论。
上海财经大学郑正喜在《产业关联效应的虚拟测度理论辨析》中,辨析了产业关联效应的虚拟测度理论(HEM)研究方法,认为其核心假设的实质是改变被抽取产业的主体属性,指出应当采用完全抽取的基础假设才能构建出相对合理的测度指标,并进行了实证研究。
集美大学陆晓倩、王立凤在《厦门潜力产业选择及与台湾产业对接问题研究》中指出,选择和培育合适的潜力产业可充分挖掘区域优势,建立和发展区域主导产业并带动相关产业发展。同时运用偏离―份额分析法考察厦门的产业结构及第三产业细分行业增长差异,结果显示厦门市的第三产业尤其是生产业增长优势明显;借助区位商的定量标准探讨厦门与台湾在经济资源禀赋方面的异同,确定了厦门潜力产业选择的重点,并提出促进厦门与台湾潜力产业对接的策略。
重庆工商大学刘浩在《实施创新驱动发展战略――R&D资本化》中,通过对R&D核算方法调整的动因,阐述了核算体系中增加研发支出核算具有的重大意义,系统整理了现有核算方法的利弊,在GDP框架下对R&D资本化的核算方法作了相应分析,并结合我国实际情况,针对R&D活动核算提出对策建议。
河北经贸大学王会英在《河北省区域经济发展水平差异研究》中,选取产业结构、经济效益、经济总量、居民生活水平和经济外向性5个方面的16个指标构建评价体系,采取客观赋权方法建立加法合成评价模型,并基于2013年的统计数据对河北省的区域经济发展差异作了定量分析,提出了对策建议。
二、大数据时代统计学与统计学科发展研究
重庆工商大学李勇在《基于物联网时代的工业大数据挖掘方法及应用研究》中,针对互联网和物联网的时代特征,从大数据来源、基本特征、处理技术和大数据思维4个维度提炼出大数据的概念;阐述了数据挖掘基本方法的优势和不足;分析了物联网下工业大数据呈现的本质特性;比较分析了消费大数据和产业大数据的挖掘技术和分析方法的异同,指出工业大数据分析和挖掘中存在的难点和重点;结合工业互联网阐述了大数据挖掘技术的应用。
云南财经大学张敏的《多水平贝叶斯模型在大数据挖掘中的应用》从线性回归模型扩展到多水平线性模型,将线性回归统计学习方法的基本思路拓展到多水平线性模型,借助于贝叶斯统计方法和马尔科夫链蒙特卡罗算法,将多水平线性模型应用于大数据的挖掘中并进行了实例应用。
中南财经政法大学刘洪在《应用统计专业硕士(大数据分析方向)培养模式探索》中,从项目背景、国内外相关项目现状、数据分析师需具备的基本技能和课程体系设计4个方面,对当前大数据分析方向的专业硕士研究生人才培养进行了全方位的阐述和探索。
天津财经大学杨贵军在《“数据工程”方向课程设计》中,从全国统计学专业数据工程方向教学联盟、“数据工程”概念提出的背景、数据工程师专业人才培养和“+数据工程”技能培训4个方面,详细阐述了针对大数据时代如何从统计学科角度培养大数据人才。
重庆工商大学李禹锋在《基于互联网白酒消费市场现状的大数据分析》中,通过网络爬虫技术收集和清洗数据,借助词云图和文本挖掘技术等,对品牌销售额、品牌销量以及白酒香型、酒精度和规格的消费倾向等进行了分析,并对未来市场的消费趋势作了展望。
闽南师范大学陈立双、祝丹在《大数据推动下中国CPI测算方法创新趋向与挑战》中,基于居民消费领域大数据对居民消费者价格指数带来的机遇和挑战,分析了大数据在CPI测算中的可能应用路径,探讨了大数据推动中国CPI测算理论与方法的创新趋向和面临的挑战,探讨了大数据在中国CPI测算的方法论问题。
三、统计理论与统计应用研究
天津财经大学杨贵军、孟杰、蔡凯月在《人口年龄结构、人力资本与人口红利测度――基于超越对数生产函数模型的经验分析》中,阐述了人口红利是经济增长的重要源泉,测度人口红利对全面掌握中国人口变化规律、科学制定人口政策和经济政策具有重要的理论价值与实践意义;指出现有研究普遍仅从人口年龄结构角度测度人口红利,忽视了劳动力人力资本对经济增长的贡献。在综合考虑人口年龄结构和劳动力人力资本两个角度下,使用超越对数生产函数测度了中国的人口红利,并得出相应结论。
华中师范大学王江涛、冯元化在《如何确定即时波动率核估计量的最优窗宽》中指出,在即时波动率的各种估计量中,非参数估计量因其能准确地度量即时波动率成为研究热点,但这类估计量在应用中面临最优窗宽的确定问题。其借鉴非参数回归分析中窗宽选择的思想,以即时波动率的核估计量为例,构建了一种能从数据中准确计算出最优窗宽具体值的算法,从理论分析和数值验证方面看,该算法具有良好的稳定性、适应性和收敛速度。
厦门理工学院陈安全和浙江工商大学李海涛在《一种新的四格表独立性检验――基于回归模型的方法》中指出,传统四格表的独立性检验采用卡方检验,若采用回归模型技术将四格表中的定性变量量化后引入到模型中,同时利用回归模型中的系数显著性检验来检验四格表的独立性,在一定条件下具有等效性和一致性。
楚雄师范学院梅莹在《经济新常态下云南省新的消费增长点培育研究――云南省城镇居民消费现状分析》中,针对云南省城镇居民家庭人均可支配收入和人均全年消费性支出的数据,构建了基于扩展线性支出系统的静态和动态比较模型,得出相关结论。
重庆工商大学周世铭、付安瑶在《网络意识形态传播新特点现状分析》中,通过文献资料分析、网络爬虫技术和问卷调研分析,对旧媒体时代、互联网时代和当前新媒体时代中的主流意识形态、非主流意识形态、网络意识形态三种意识形态传播的方式和特点进行了对比分析,提出目前意识形态传播过程中呈现出新的传播特点。
河北经贸大学汤玉环在《基于VAR模型的经济发展与土地财政关系的实证研究――以河北省为例》中,基于河北省2002―2013年的数据,建立经济发展与土地财政的VAR相关模型,通过研究河北省经济发展与土地财政的作用机制,探讨土地财政对于经济发展的利弊作用,寻求地方财政与经济发展的均衡,以更好地促进河北省的经济发展。