前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇信息资源概念范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
个股方面,新能源、新能源汽车、节能环保、自贸区概念股等受到市场青睐。根据Wind资讯统计数据,2014年1月13日至2月19日,沪、深两市共有185只个股登上交易龙虎榜,折算后比上期减少15.9%。统计期内,上榜个股的区间总成交金额为793.05亿元,折算后较上期增加0.3%。其中,营业部合计买入金额138.95亿元,合计卖出金额134.91亿元,折算后分别比上期减少6.46%和3.46%。上榜个股中,深圳主板27家,中小板65家,创业板56家,沪市37家。
天威保变遭游资炒作
公开信息显示,当前,资金仍在持续不断地流出股市。上周,A股共有103亿的资金净流出,显示主力资金进场意愿依然不强烈。场内资金聚集在热点股上进行炒作,营业部买卖金额过亿的个股急剧增加。统计期内,新能源、新能源汽车概念股等受到资金青睐。根据Wind数据,统计期内,综艺股份、南洋科技、天顺风能、金贵银业、华泽钴镍、天威保变等新能源和新能源汽车概念股登上交易龙虎榜,其中以连续两个交易日涨停的天威保变最为显眼。
上周,本刊以在题为《天威保变90%跌幅之殇:豪赌新能源沦为屌丝》的文章中报道了天威保变因豪赌新能源,受到拖累,盈利能力不断减弱,并最终巨亏的事实。并进一步指出,三年多来,其在二级市场的股价已下滑90%之巨,泰山压顶之下,公司开始断臂求生,若改革到位或许迎来投资机会。
2月17日和18日,天威保变连续两个交易日涨停,两个交易日截至收盘时,均有大笔买单封死涨停板。然而,记者注意到,2月17早盘,该股以前一日的收盘价开盘,随后迅速封死涨停板,而在2月18日,早盘一度拉出一根长长的上影线,尔后才封死涨停板。
公开交易信息显示,游资在天威保变“逆袭”的过程中起到了重要的助推作用。在该股连续涨停的两个交易日,现身其前五大买入/卖出席位的均为各证券公司营业部。2月17日,前五大买入方合计买入3918万元,前五大卖出方合计卖出1391万元;次日,前五大买入方合计买入8210万元,前五大卖出方合计卖出4521万元。记者注意到,国泰君安和中信证券最为活跃。2月17日,国泰君安总部和其深圳深南东路证券营业部分别现身买1和买3席位,买入2699万元和411万元;次日,国泰君安总部再度现身买1席位,大笔买入5596万元,不过,当日国泰君安在买入的同时,也在卖出,其总部和深南东路证券营业部分别现身卖1和卖4席位,卖出2817万元和427万元。中信证券则一直坚定地卖出,其杭州朝晖路证券营业部和北京安外大街证券营业部连续两个交易日现身卖出前五大席位,合计卖出1603万元。
云计算概念是近几年互联网技术飞速发展的产物,也是新兴技术革命的排头兵。云计算服务、云计算应用也备受关注。简单的客户端,海量的信息资源,复杂高效的处理速度和储存,为这项新技术的应用空间扩展到数以千计的领域。云计算技术在信息资源共享管理中无疑会实现信息资源的吞吐量和利用效率。
【关键词】云计算 信息资源 共享管理
云计算概念是伴随着电脑和网络技术相应而生的新兴技术。随着西方发达国家互联网公司提出这一概念,云计算相关的各种服务和产品也应运而生。云计算技术利用庞大的服务器集群,完成数据存取。客户通过计算机终端的IE等浏览软件来达到信息交互和共享的目的。
1 云计算信息资源共享概述
云计算始出现于上世纪末,这一新兴概念辅一出现,就引起业界人士的广泛关注,并迅速成为最热门的概念。相对于用“网络”这个词来描述互联网来说,用“云”这个词来描述云计算这门新技术则更加贴切的展示了本身的优点:资源共享的同时按需访问、允许用户基于WEB服务器利用一切开发成果,从而达到信息资源共享的目的。云计算基础上的信息资源共享具有强大的生命力和广阔的应用前景。
2 云计算的主要优点
云计算主要优点涵盖以下方面:节省硬件开支,既不需要具有专业级硬件配置来运行相应的程序,所有的程序均立足于服务器集群,PC终端所要达到的功能仅仅是将云计算结果传输至用户桌面。对用户计算机的CPU、硬盘、内存等没有特别苛刻的要求;计算与存储能力大幅增长,云计算的计算与存储能力是不言而喻的,所有处于云计算网络中的终端,均能按照各自的需要来自由的获取云端的数据、计算结果。存储能力与传统的单机存储也不可同日而语;数据安全性较终端PC更加强大,传统计算机,意外的断电、磁碟损坏、误操作、病毒侵害等原因会造成数据的损失、系统的崩溃、信息的外泄等不良后果。而在云内,单个或者数个PC终端的停摆,对整个云系统不会造成任何影响,保证了数据的安全稳定;系统性工作的集成成为可能,传统的工作模式往往是各自为战,而在云计算网络中,一个大型的项目虽然千头万绪,但每个团队成员,均可随时获得其他成员工作进度和工作内容。这无形中就促成了分支工作的系统集成;随时、随地、随心的取用相关数据,云数据,不管用户身在何地,何时,只要用户需要,均可取用相关信息。一句话“我需要,我选择”。
3 信息资源共享存在的问题
社会在发展,人类在进步,技术在革新,人们对信息资源渴求也越来越迫切,这就对信息资源的吞吐量、质量、共享程度提出了更高的要求。目前各行业各领域内的信息资源库的建设、共享体系构建正在如火如荼的展开,但概括说来仍然存在以下两大突出问题
3.1 信息资源架构重复信息重叠造成共享率低
我国信息化建设起步比较晚,我们数字化水平还处于初级阶段。信息资源库建设和共享体系的集成还处于探索期。很多数字化的技术成果、产品目录、政策法规、专业书籍等信息由不同的组织或者部门或者因地域分别管理。相互之间达不到无缝对接,信息之间的重叠、重复在所难免。各信息资源数据库之间的横向沟通和综合维护无法统一步调。各自为战、互不往来的现状也造成了资源库规模偏小、质量不高。相近领域的信息资源重复建设、共享体系的雷同,不光造成人力、财力的极大浪费,也造成了信息检索、信息获取的难度。
3.2 数字化水平的梯度落差造成信息资源共享的困难
评价一个信息资源共享体系的好与坏、完备与单一,取决于信息化技术的水平的高低、信息化产品的先进与否、共享体系架构的优劣。我国很多信息资源共享体系都是分行业,分部门,分地域根据各自的承受能力和各自的情况分别建设,这种差别在很大程度上阻碍了,信息资源的共享。多部门、多行业由于各自的信息资源共享体系的需求不一致,所以对数字化程度的要求也不尽相同。统观全国各类各类共享体系,应该说初级信息化、过分信息化良莠不齐。这种现状的产生,造成信息资源共享人为障碍。甚至同行业同部门的不同地域之间的共享体系出现层级递增或者层级递减的现象。
4 云计算基础上信息资源共享云方案
云概念的出现,为我们提供了一种全新、全能的数据推送模式。基于IT服务的交互模式、基于互联网统一标准的传输协议、基于电子信息的传输效率都决定了云计算信息资源共享模式必将成为一种标准化的服务模式,任何目的需求,均能灵活、准确、及时到达用户终端。云模式必将完美取代传统的信息资源共享体系。构造完善的信息资源共享云方案主要需要解决以下问题:首先要保证终端网络的畅通无阻,通讯设备质量过硬,这样才能保证云端信息资源即时传输到位。终端用户作为云成员,不同成员间的相似或者相同需求才能被云端服务器,清晰辨析,分头传递。其次要保证数据安全,终端用户对于云端信息资源的安全性,权威性往往将信将疑。这就需要采用相对优质的方案来取信于用户。从而达到整个云系统内的所有成员间信息资源的有机的契合。再次充分体现对信息资源的保护性措施,云端信息资源的丰富、数据库规模的扩大需要对信息所有者相关权益的保障,才能更加有效的扩张。专利权、著作权、隐私权、肖像权等一切有可能影响用户使用感受的权益,均应得到有效的保护。如此云信息的资源共享体系的壮大才会成为可能。
5 云联盟构想
信息资源共享的完美解决方案应该是云内所有成员的共同建设的结果。因此云成员间的同心协力、步调一致、方向统一就显得尤为重要了。因此同行业内的相关部门或者成员,应该建立一个统一标准的联盟,它的职能应该是从中调处各方利益,订制合理的服务规范和管制措施,并且合理分配信息资源共享,所带来的经济效益。
6 结束语
云计算是个全新的理念,将云计算应用于信息资源共享管理,具有广阔的前景。随着云计算理念的逐步深入人心,透过“云”服务平台,每个终端用户能够方便、及时的获取所需的信息资源。随着云技术的突飞猛进、健全的法律法规、完善的职能管理机构、安全的信息保障、大幅的投资,未来云共享的发展,必然将为我们的社会带来翻天覆地的变化。
参考文献
[1]尤春花.云计算环境下图书馆信息资源共享的挑战与对策[J].图书与情报,2011(4):66-68.
[2]王平.基于云计算的信息资源增值利用模型构建[J].情报杂志,2010(07):144-148.
[3]魏晓萍,杨思洛,刘波涛.云计算在区域信息资源共享中的应用[J].图书馆研究,2011(3):26-30.
作者简介
张磊(1981-),男,安徽合肥,安徽工商职业学院网络信息中心主任,讲师。研究方向:计算机网络,数据挖掘。
关键词:本体;语义;相似度;信息检索
中图分类号:TP301 文献标识码:A
Abstract:Aimed at the defects of the traditional keyword-based retrieval model,an ontology-based semantic query-oriented information retrieval model was built.Concept of four tuple ontology was defined,the resource mapping scheme was given,ontology concept expansion strategy was formulated, the concept similarity computing algorithm of ontology was described,and the experimental comparison was carried out.The results show that precision and recall rate of ontology semantic retrieval model are higher than the traditional retrieval model,this study has some theoretical and practical value.
Keywords:ontology;semantic;similarity;information retrieval
1 引言(Introduction)
随着互联网技术的快速发展,人类已进入信息时代,尤其是当前大数据背景下网络信息资源的数量越来越庞大,其已成为全球最大的信息库,且网络信息资源随之呈现出更加复杂的特性,暴露出一些亟待解决的问题[1-3]。然而,传统信息检索模式面对文本字符串匹配的语法层面,缺乏针对信息表示及处理和理解的语义层面分析,即信息是丰富的,而知识却是贫乏的,所以依赖传统的信息检索方式已很难满足用户需求,而本体及其相关理论技术的出现为解决这一问题提供了可能。
本文将利用本体建立标签之间的语义关系,并引入语义与Agent技术,实现标注系统的语义检索,通过语义模型丰富的描述能力和强大的逻辑推理能力准确描述信息资源,以Agent组织完成用户交互、信息检索、信息过滤、结果返回,构建一种基于本体学习的能够实现语义层面分析的检索模型,以弥补传统信息检索的不足,进而从信息查全率和查准率方面改善信息检索的效率。
2 基于本体的语义检索模型构建(Construction of semantic retrieval model based on ontology)
基于领域本体的语义检索,可依据领域本体知识库对信息资源或文档进行语义标注,本体概念的语义信息可借助本体概念定义及本体概念之间的关系进行描述,因为特定专业领域的概念可通过领域本体进行描述,这样可使文档或信息资源更具有语义,且可揭示出用户检索词的语义,把从文档和用户查询抽取的关键词转换为具有语义的本体概念,实现基于关键词的语法检索到基于本体概念的语义检索的提升,其中,语义检索与传统基于关键词匹配的检索方式不同,因为语义检索基于信息理解的语义层面对信息资源及用户提交的检索请求进行分析,语义检索方式对检索条件、信息组织以及检索结果均赋予了语义成分,可从语义层面提高检索精度[4-7]。
2.1 领域本体的语义检索理念
基于领域本体的语义信息检索,其理念在于使信息资源或文档进行语义描述,借助领域本体知识库完成对文档和信息资源对象的语义标注,进而揭示出文档和信息资源对象的语义理解,及其用户检索词的语义信息,同时可实现领域本体检索词的语义扩展,最终完成理想检索结果的获取,具体检索过程为:
step1:构建并描述领域本体概念。描述领域本体概念,构建领域本体知识库。
step2:提取文档或信息资源对象特征并进行资源映射。借助领域本体概念描述及知识库构建和管理,对获取的信息资源或文档进行语义标注及资源映射,对信息资源或文档语义内涵进行揭示。
step3:制定本体概念扩展及查询语义扩展策略。在领域本体概念描述的基础上,对用户查询请求的语义信息进行揭示,并对用户检索词进行语义扩展,检索系统完成对生成的备选检索词集的检索工作。
step4:实现领域本体概念相似度算法。依赖本体概念结构图,实现本体概念语义距离计算算法、本体概念节点深度计算算法及语义综合相似度计算算法,以此服务于查询结果排序环节。
step5:对检索系统的检索结果进行排序。基于相关相似度计算算法及规则,完成用户原始检索词及检索系统返回检索结果的相似度比较,基于相似度对检索系统的检索结果进行排序并反馈给用户。
2.2 领域本体语义检索模型
领域本体语义检索模型,如图1所示。
(1)领域本体及其分类体系作为数据资源语义表征的核心,可对文档或数据资源描述给予指导。领域知识也作为查询扩展和查询结果排序的基本依据。因此,领域知识的构建和维护,如领域本体、推理规则的构建和维护,离不开领域知识管理。
(2)数据资源或文档的语义可通过标注进行语义揭示,再借助文档特征提取技术,从领域本体词汇中获取本体概念,建立数据资源或文档的语义特征域,完成数据资源库文档的自动标注,并完成标注和索引信息资源或文档的非语义特征,由此生成文档索引库和元数据库。
(3)基于文档或数据资源标注信息构建索引库,以此为依据,检索出能满足用户需求的文档或数据资源信息。
(4)实现查询扩展及结果排序,就是以领域本体生成的本体词汇库为依据,完成用户查询输入文字的分词工作,将用户查询分成本体概念集合和非本体概念集合。然后,分别对这两个集合按相似度扩展,得到两个查询候选集合,以此为依据,借助相关相似度排序算法获得排序后的查询集,最后,完成查询请求到索引库及检索库的提交环节,将查询结果按查询请求的相似度排序后,将结果推送给用户。
3 关键算法实现(Key algorithm implementation)
3.1 四元组本体内涵及其数学描述
基于四元组的本体概念描述为:,其中,表示用户,描述使用标签管理资源的用户,并且每个用户有唯一的ID号标识。表示标签,描述集合中用户使用过的标签,标签可以是任意的字符串(单词或短语),现定义标签为一组词语序列,,
,公式描述标
签映射成一组术语,术语可以是任意单词。表示资源,描述所有领域相关资源,其内容取决于用户标注集的类型,用户标注集主要由用户、标签、资源三个要素组成,即用进行描述。表示三元关系,其中元素描述用户使用标签标注收藏的资源。函数式描述用户使用一组标签定义一个资源,其中 。
为了理解用户标签含义及标签之间的关系,构建主干本体,用二元组进行描述:,
其中表示概念集,概念,是概念的唯一标识,是同义词集合,包含了概念的同义术语集合,是描述概念的短语,是将概念分类到泛化类中的词类,也可将四个元素分别记为:,,,;
表示概念集之间的关系。现定义为一组同义词集合,资源,定义一组同义词集合及里资源,,每个资源用二元组表示为:,
其中,为资源的频率分配。三元组表示关系集合中的关系,其中,,,是关系的两个关系项。
3.2 资源映射方案设计
一个标签可以映射成一个或多个概念,也有可能只有部分标签可以映射成一个或多个概念,现提供几种资源映射方法。
(1)直接映射
直接映射描述标签到概念的映射,即将每个标签映射到本体中的概念,可表示为:
3.3 本体概念扩展策略制定
(1)本体概念扩展
本体概念扩展步骤如下。
step1:对每个本体概念进行扩展。
为领域本体概念集,为两个本体概念的相似度。如果对本体概念进行语义扩展可形成,
其中集合中每个元素要么为空,要么,且,。
也就是说,可基于相关相似度计算算法扩展单个本体概念,选择相似度大于给定阈值的本体概念,并且被选取的本体概念同其他用户本体概念之间的相似度,比该被选取本体概念同当前单个本体概念之间的相似度小。
step2:构建本体概念查询集。对用户本体概念集的元素进行扩展,其中的每个概念元素都可扩展为一个扩展集,可分别从每个中进行本体概念的选取,构建本体概念查询集,查询本体概念集的组员就是从每个本体概念扩展集中选取的概念,查询本体概念集描述为:
(2)扩展关键词集合
关键词的扩展相对简单,因为关键词不是本体概念,所有扩展的集合所组成的集合为原关键词集的幂集,记为,其中的元素本身也是集合,且与用户输入的原关键词集之间的相似度计算也并不复杂,现令为幂集中的元素,则与之间的相似度计算模型为:
3.4 本体概念相似度算法
领域本体可描述特定领域中的概念及其关系,并可形成本体概念结构图,该本体图可计算本体概念相似度,其实本体概念结构图可看作为带有根节点的有向无环图,本体概念用图中的节点进行表示,概念之间的关系通过有向边进行表示,且该本体概念结构图具有树型结构的层次结构特性,及有向边和多重继承的特性。具体算法步骤如下:
step1:本体概念语义距离的计算。
基于本体概念图,本体概念的语义距离表现为连接两个概念节点的有向边的数量,记为。本体概念语义距离与本体概念语义相似度之间的关系为:两本体概念语义之间的距离越大,则这两个本体概念之间的相似度越小;反之,两本体概念语义之间的距离越小,则其之间的相似度就越大,即两者成反比关系。
step2:本体概念父节点深度的计算。
基于本体概念所体现的层次结构特点,对本体概念节点进行自顶向下的组织,及由大到小的分类,依据本体概念最近共同父节点所在层次,可知其层次越深,本体概念分类越细,从其父节点继承的语义信息就越多,其共同语义信息就越多,即这两个本体概念间的相似度就越大。现用描述两概念的最近共同父节点深度,表示两概念最近共同父节点。
step3:计算语义重合度。
本体概念之间的语义重合度计算可依据两本体概念间所包含的相同父节点个数来完成,但如果同时对本体概念语义距离和本体概念语义重合度加以考虑,则存在重复计算的可能性,因为本体概念语义距离中隐含着本体概念语义重合度信息,所以可基于本体概念语义距离和共同父节点在本体概念结构图中的深度,计算出本体概念相似度,令两本体概念 、,则、的语义相似度可通过、的语义综合距离和、共同父节点的综合深度对相似度影响的加权归一化进行表示,计算如下:
其中,为语义距离加权值,表示共同父节点的加权值,且满足,语义距离决定的相似度可通过调节参数进行调节,表示本体概念树的最大深度。
step4:本体概念综合相似度计算。
如果对用户检索词集中的本体概念进行语义扩展,可生成查询语义扩展集,记为,如果对用户检索词集中的非本体概念的关键词集进行扩展,可生成关键词集的幂集,记为,现从中取一元素,记为,该元素是一个扩展概念集,再从中取一元素,记为,该元素为一个扩展关键词集,便可形成一个提交给检索系统的检索请求,表示为(,),令用户检索词集为(,),每一个扩展的检索请求记为(,),则通过(,)和(,)相似度的计算,可得到用户检索词集和检索结果的相似度。现基于扩展关键词集相似度、扩展本体概念集相似度、分类概念集相似度,可计算出综合相似度,数学描述如下:
其中,、为调节参数,代表本体概念集相似度与综合相似度的比值,代表关键词集相似度与综合相似度的比值,且。
4 实验与结果分析(Experiment and result analysis)
本实验环境为:Windows 7操作系统,SQL SERVER 2008数据库平台,模型数据库动态链接查询实现工具为某专业数据库数据及WEB技术。建立领域本体的开发工具为:5.0的PROPERTY BROWSER环境,每个词条类的构建借助Object Property属性实现,因为Object属性可在类与类之间建立不同层次的关系描述,而且两个Object属性之间存在多种关系。如果基本父类建立完成后,还可为每个父类添加不同的子类和属性,同时还具有继承特性,即所有子类都可继承其父类的基本属性。
实验步骤为:
step1:对选取知识本体的专业领域及范围进行确定,基于自顶向下的顺序,构建本体概念和术语清单。
step2:对基础词库进行完善。
step3:依据分类体系层次,对本体实例进行添加,构建整个领域本体。
本体概念语义信息检索模型测试指标通过查准率和查全率进行衡量,分别描述为:
查全率:
查准率:
同时,借助对检索结果进行评价及对比分析,以便于全面衡量其检索效果,的计算公式描述为:
它为检验本体概念语义信息检索模型,将其与传统关键词检索模型进行实验对比分析,对抽取的某领域的标准词条进行测试,从中随机选择四个词条实验样本,分别以相同词条在本文模型和基于关键词模型中检索,实验结果详见表1、表2和图2所示。
由以上实验结果可知,领域本体概念的语义信息检索模型效率高于传统关键词信息检索模型,且语义检索的 也高于传统关键词检索,表明本体概念语义检索模型具有一定的理论及实用价值。
5 结论(Conclusion)
论文构建了面向语义查询的信息检索模型,对资源映射方案、信息概念扩展、相似度计算等进行了改进,实验结果证明该模型具有较高的查全率和查准率。今后的工作中,将继续研究本体结构中,如何查找到更多概念邻居,以减少数据稀少的影响,进而提高检索效率。
参考文献(References)
[1] Zhang Bin,et bining relation and content analysis for social tagging recommendation[J].Journal of Software,2012,23(3):476-488.
[2] 吕刚,王晓峰,胡春玲.基于本体学习的标签推荐方法研究[J].小型微型计算机系统,2015,3(3):424-426.
[3] 何继媛,窦永香,刘东苏.大众标注系统中基于本体的语义检索研究综述[J].现代图书情报技术,2011,203(3):51-56.
[4] 魏桂英,高学东,武森.基于领域本体的个性化文本信息检索[J].辽宁工程技术大学学报,2011(4):316-320.
[5] 张宗仁,杨天奇.基于自然语言理解的SPARQL本体查询[J].计算机应用,2010,30(12):3397-3400.
[6] 何伟,杨小平.基于词间语义关联性的本体扩展[J].计算机应用与软件,2011,28(11):73-76.
[7] 张胜.一种基于领域本体的语义检索模型[J].软件导刊,2014,13(3):18-21.
作者简介:
关键词:政府信息资源 知识库 政府信息分类 信息检索 非结构化数据
一、概述
从简单消息传递到信息处理,再到20世纪90年代Karl-Erik Sveiby博士提出的知识管理概念,知识作为一种资源和资产得到越来越多的重视。人类的信息包括结构化信息和非结构化信息两大类:结构化信息是指经过人工标注、整理、加工过的按特定格式排列的信息;非结构化信息是指存储格式各异,没有经过人工加工、整理过的信息,如:邮件、文本文件、视频等。从《诗经》、《史记》到《圣经》、《荷马史诗》等记载人类文明的信息都可以归入非结构化信息的行列,而结构化信息的出现,则是最近几十年随着数据库技术的发展才逐渐增多的。在政府信息当中,文件、报告、通知、函件、法规等大量的非结构化信息占据主导,Gartner的一项调查显示,人们所存储的数据中,有85%以上是非结构化信息;每过三个月,其周围的非结构化信息就会增加一倍。非结构化信息构成了政府知识的主体,因此对政府领域知识管理的核心问题是对非结构化信息的处理。
起初政府的信息是分散在堆积如山的文件中的,而知识是存在于人的头脑中的。但是随着信息化的发展,人们发现当要寻找某些知识的时候,往往无法在浩瀚的文海中找到所想要的知识,于是人们发现这些非结构化的信息作为知识的载体需要进行管理,由此出现了图书馆目录索引体系,而后出现了信息系统、OA办公系统、文件管理系统,为知识的积累和查询提供方便。随着信息化的发展,信息爆炸时代的到来,在无限的信息化系统,无限的信息孤岛中,人们寻找需要的知识的时候,可能再一次陷入迷茫的困境,人们会再一次发现找不到其所想要的知识。每当信息的载体不断地发展、不断地增加,知识就会再次淹没在浩瀚的载体之中。因此,对于知识载体建立整合机制,建立政府资源领域知识整合的标准体系变得尤为重要。
二、建立基于Ontology的领域知识库
知识是人类在改造现实世界的实践中认识和经验的总和,是人类进行智能活动的基础。知识描述是现在人工智能研究中最活跃的领域,在过去的几年中,知识描述的技术和理论经历了快速的变化和发展。Ontology最早是一个哲学上的概念,后被人工智能研究者引入计算机领域中,使用Ontology描述知识的内容。
⒈Ontology的概述
⑴Ontology的定义
由斯坦福大学的Gruber给出的Ontology的定义被普遍接受。Fensel等人对此定义进行深入分析,认为Ontology是共享概念模型的明确的形式化规范说明,包含4层含义:概念化(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)[1]。
――概念化:通过抽象出客观世界中一些现象的相关概念而得到的模型,所表现的含义独立于具体的环境状态;
――明确:指所使用的概念及使用这些概念的约束都有明确的含义,以避免对同一概念的模糊的二义性的理解;
――形式化:指Ontology是计算机可识别的,能被计算机处理的;
――共享:指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识,不是对私有的特殊知识的理解和表述。
尽管人们对于Ontology的定义不尽相同,但是通过以上这些定义可以看出Ontology的一些基本特征[2]:
――Ontology是用来描述特定领域的;
――该领域中的术语以及术语间的关系被明确的定义出来;
――使用一定机制(通常情况下是层次结构,使用Is-a,Has-a等类型关系)来组织这些术语;
――Ontology的使用者对领域中术语的含义存在一种共识。
⑵Ontology的组成
Ontology设计中,Ontology模型通过一系列基本要素来描述客观现实的世界,对领域进行建模,实现领域体系的明确描述。根据Perez分类法组织思想,并结合领域建模结构的特征,认为Ontology模型中应该包含类概念/类(Concept/Class)、属性(Attribute)、关系(Relations)、实例(Instance)等基本要素。
――概念:在Ontology中对概念明确的、格式化的描述,称为类(Class)。概念的含义很广泛,可以指任何的事物,如工作描述、功能、行为、策略和推理过程等。概念表示的是实例对象的抽象集合。
――属性:对于每个概念所具有的特性或者特征的描述称为属性。对于一个概念的属性特征有很多,在描述概念的时候,我们只采用那些和使用目的有关的属性,即有用的属性。同时按照属性的特征,可以将其分为两类:固有属性(仅属于一个概念的属性)和公共属性(属于多个概念的属性)。
――关系:对于概念之间的关系的描述称为关系,关系代表了领域中概念之间的交互作用和联系,关系之间也可能构成新的关系。概念之间存在的关系是错综复杂的,除了子类关系(subclass-of)、部分关系(part-of)、实例关系(instance-of)、属性关系(attribute-of)等基本关系以外。同描述属性选取一样,我们在刻画领域模型的时候,只选取那些和使用目的相关的关系类型来刻画领域。关系形式上可以定义为n维笛卡尔(Descartes)乘积的子集。
――规则:每个属性所应当遵循的限制称为规则。举例来说,对于概念水,具有属性温度、质量等,当温度超过100摄氏度时,水将变为水蒸气,所以,对于水的温度属性需要进行一定的限制,这种限制就是规则。
――实例:从语义上分析,概念类表示的是具有相似特征的对象的集合,实例表示的是概念所描述的一个具体对象,一个概念的实例必须具备该概念所有的属性和属性值。实例也可以具有自己特有的属性和属性值。某个领域是由具体实例通过它们之间的相互关系和作用组成的,Ontology模型只是实际应用领域在Ontology设计人员头脑中理解景象。
⑶Ontology的表示
Ontology主要用于描述领域知识包含的内容、属性。如果希望领域Ontology能够方便的建立,实现领域知识的描述和利用,就应该选择合理、有效的表示方式,使Ontology的表示具有较强的表达能力和实用性。知识的一些表示方法如逻辑语言、框架、语义网络等都可以用来表示Ontology。
①一阶逻辑谓词表示法
一阶谓词逻辑表示法是最早和使用最为广泛的知识表示方法。知识用事实和规则来表示,事实和规则的基本构成单位是谓词。谓词由谓词名和一个参数表构成,每个参数可以是常量、变量或函数。
Cycl和KIF(Knowledge Interchange Format)[3]是一阶谓词逻辑语言的代表。Cycl和KIF都基于一阶谓词逻辑,同时还具有部分的二阶谓词逻辑特性。Cycl是Cyc系统的表示语言,它是一种体系庞大而非常灵活的知识表示语言。该语言在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,在该语言的环境中配有功能很强的可进行逻辑推理的推理机。KIF是为不同计算机系统交换知识而设计的知识描述语言。KIF试图建立与不同格式的映射关系,从而实现知识表述格式的转换和系统间的交互。
②描述逻辑
在知识表示的研究中,描述逻辑(Description Logic,DL)[4]是基于对象的知识表示的形式化工具,它是一阶谓词逻辑的可判定子集,能够提供可判定的推理服务,并且继承了语义网络的研究成果,定义了一种可操作的形式化语义,以支持知识描述的无二义性和推导算法的可跟踪性。DL基于逻辑的表示机制,根据概念和概念之间的二元关系描述术语学的知识,二元关系可以用来根据必要和充分条件定义一个概念术语,概念的所有实例必须满足这些条件。DL的一个显著特性就是可以根据描述定义概念(类),描述确定对象必须满足的属性,表达描述的语言允许构造复合描述,包括对对象之间二元关系的约束。
在经过二十多年的研究与发展之后,描述逻辑已经基本趋于成熟并走向应用,它是知识表示的形式化工具,实现的系统有BACK、CLASSIC、LOOM等。由DARPA组织提出的DAML+OIL(DARPA Agent Markup Language,Ontology Inference Layer)这种本体语言即是在描述逻辑的基础上建立的。但是描述逻辑主要还只能处理静态的知识,在对动态世界的表示与推理上却无能为力,尤其是对智能主体的内部知识库的表示显得乏力,也不能对服务的动态性与交互性进行刻画。
③基于框架的表示法
框架(Frame)是Minsky于1975年提出的一种概念,是一种组织和表示知识的数据结构,用它来表示有关事物的知识的时候既可以表示出事物各方面的属性,又可以表示出它们之间的类属关系。它由框架名和一组用于描述框架各方面具体属性的槽(slot)组成。每个槽又可以根据实际情况划分为若干个“侧面”。一个槽用于描述所论对象某一个方面的属性,一个侧面用于描述相应属性的一个方面。在比较复杂的框架中,侧面还可以是子框架调用,作为对槽的进一步说明。槽和侧面所具有的属性值分别称为槽值和侧面值。在一个框架表示知识的系统中,一般都含有多个框架,为了指称和区分不同的框架以及一个框架内的不同的槽,需要分别给它们赋予不同的名字,分别称为框架名、槽名和侧面名。无论对于框架,还是槽和侧面,都可以附加一些约束条件,对于所赋值给予限制。
框架表示法是一种结构化的知识表示方法,它善于表示结构性的知识,能够把知识的内部结构和知识间的联系表示出来,同时与计算机程序所说的结构相似,便于计算机表达和处理。适合表示典型的概念、事件和行为,能够很好的体现概念间的层次结构关系,但是框架表是方法的推理能力有限,不适合表示大量推理性知识。
⑷Ontology的作用
①自然语言理解方面
自然语言的理解就是把自然语言描述的一个受限世界,变换为计算机的表示法描述的一个世界模型。领域Ontology本身作为知识实体是系统的知识库,它由概念以及概念之间的联系构成,是对领域知识的概念化的描述。它可用来进行自然语言的消歧,和进行简单的文本推理。例如,对领域词典的应用,就是可以在对自然语言文本分词的时候,标明特殊的领域词汇的词性,消除词汇在特殊环境下的歧义,在以下的语法和语义分析中起到重要的作用。而文本推理就可以利用Ontology中的缺省的知识填充空缺的意义,或者通过Ontology中概念之间的转换关系找出句子的转义。
②知识工程方面
――知识共享和重用。领域Ontology是实现领域知识共享和重用的基础,它为需要实现共享领域知识的使用者提供了公共的可共享的领域概念。开发领域Ontology的主要目的之一就是在人们和软件智能体之间对信息结构的理解提供一种可共享的、共同的理解机制,可以方便地进行知识共享和交互。通过维护、扩充领域Ontology,使得面向领域的应用系统的开发不必从头开始,大大缩短了开发的周期,节省了开发的费用。知识的重用是将知识利用在应用层中的过程,知识检索是知识重用的一个重要方面,Ontology提供的术语使精确的检索成为可能。
――知识获取。一直以来知识获取都是知识工程的一个公认的瓶颈问题,因此知识获取受到了广泛的重视和研究[5]。知识获取的途径主要有两种,一是从学科专家处获得专业知识,二是从文本或数据库中直接获取。但是,由于专家的研究领域和研究精力的局限,很难给出完整的科学体系,而且据统计90%以上的知识可以从文本中直接获取,因此对从事大规模知识获取的人员来说,从文本中直接获取知识无疑是一种更为可取的办法。但是,由于文本都是以自然语言组织而成的,而自然语言的理解在现在阶段仍然是计算机科学中的一个难题,所以想要由计算机自动获取基本上很难实现,因此,需要采用人工干预的半自动的知识获取办法。
――知识存储。Ontology概念的层次关系为知识的存放提供了很好的解决方案。本文中用关系数据库中的表格存放固定关系的概念,对于不断精化的Ontology则设计为树型结构,知识结构清晰,便于查询和利用。
――知识标准化。Ontology为人们描述目标世界提供了一组通用的词汇,而这种词汇正是实现知识系统化的基础。通用词汇和知识的系统化有利于实现知识的标准化。
⒉面向政府信息资源领域Ontology的建立
⑴需求分析
我们建立Ontology的目的,就是将人们在政府信息资源领域的知识和经验,按照计算机能够识别和处理的方式进行表示,并输入计算机的存储介质中。并利用这些专业知识,帮助系统建立政府资源信息库,并为后期对数据的检索利用和信息挖掘打下基础。
确定Ontology所包含的范围的方法之一就是列出基于Ontology的政府知识库所涉及的信息资源信息(Competency question)作为基本素材。通过资料可以得到对这个Ontology是否包含这些类型问题的足够的信息、答案或解释,是否需要特定层次的详细信息或特定专业领域的表达法等。在本系统中,我们所涉及的术语和概念都来自政府信息资源领域,收集的面向政府信息资源领域知识库,并归纳出一些知识类型,将这些信息所涵盖的范围作为判定政府信息资源Ontology的范围的依据。
具体实现时,我们在宁波市政府信息中心资料库和Internet上寻找关于政府知识领域的相关资料,并对信息资料进行分析,整理出大量政府信息资料的素材,建立如下的模型实例,由于政府信息资源广阔,无法穷举和全面,我们为说明问题,根据重要程度,主要归纳出如下这些问题类型,如表1所示。
表1 问题类型和概念类及其属性
⑵确定Ontology的表现形式
根据政府信息资源领域的特点,本系统中的Ontology以框架结构表示作为领域本体的表示形式,如图1所示。
图1 Ontology表示形式
概念的属性可以是多个,属性的描述形式包括属性名,属性取值的类型,以及侧面和注释。侧面用于对属性的含义进行约束,如时间、范围等,用于说明属性的取值约束条件,是可选项。本文中概念的属性类型,可以是数值、字符串等,也可以是概念类型,甚至是一个本体类型。注释的作用是附加说明属性的含义,也是可选项。
概念和概念之间关系的描述形式和属性描述形式相似,也是包括关系名,关系取值的类型,关系的侧面和注释。
⑶定义Ontology中概念类及其属性和属性侧面
我们再通过考察政府信息资源领域知识,以及该领域的问题库,来定义这些概念类以及它们的属性。目前我们暂时定义了经济领域和社会领域这两个概念类,用经济差距、经济理论、经济体制、经济行业、商业与市场、财政与货币政策、经济结构调整、投资增长与储蓄来刻画经济领域这个概念类,用社会分析、社会评估、社会问题、社会保障、社会心理类等属性来刻画社会领域这个概念类(如表1所示),每种问题类型对应于这两个概念类及其相关属性。可以说,问题类型和概念类及它们的属性是相互对应、相互影响的。
属性可以用不同的侧面来描述属性的值,如:值的类型、取值范围、可取值的个数和值的其他限制条件。属性的赋值类型(slot-value type)有:字符串(String slots)、数字型(Number slots)包括浮点数(Float)和整数(Integer)、时间型(Time slots)、布尔型(Boolean slots)、枚举型(Enumerated slots)、实例型(Instance slots)。对于类的每个属性,我们还要限制其取值的范围,称之为属性的域(Domain)。
⑷创建Ontology中的实体
当定义好了Ontology中的概念、概念的属性和属性的侧面,以及概念之间的关系之后,就可以采用一些抽取方法和手段来抽取对应的实体。
我们通过基于启发式规则的抽取方法从Web上和政府数据资源库里抽取出经济领域和社会领域这两个概念类的实体。
⑸列出政府数据资源库领域Ontology中的重要术语,建立领域词汇表
列举描述或解释要定义的领域Ontology中的术语,得到一个全面的术语列表非常重要,它不仅能对自然语言文本的起标示领域词汇、消除概念歧义等作用,而且也为知识共享奠定了基础。
在本文中建立的领域Ontology中包含一个领域词典,其中包含了政府数据资源库领域的领域词汇,如经济体制、货币政策、社会问题等,以下是我们如何建立该领域词典的:根据问题的集中关注程度,对概念类的各个属性进行评估,来决定是否建立词典;需要建立词典的,会采用自动方式对该属性的内容进行抽词处理,并计算每个词的权重,权重大的则表示该词对该属性比较重要,可以作为该属性的词典,而最后是否放到领域词典中则需要经过领域专家的判定,以兼顾术语收集的效率与准确率;将每个属性的词典表明相应的词性,如经济体制的词可以标为jjtz,然后加入到分词系统ICTCLAS的词典中,以后分词的时候可以用来表明特定的领域词汇。具体如表2所示。
表2 属性词典的建立情况
⑹定义Ontology中的关系
Ontology中存在的关系是错综复杂的,除了包括子类关系(subclass-of)、部分关系(part-of)、实例关系(instance-of)、属性关系(attribute-of)等基本关系以外,还有领域中所特有的各类关系。
领域中概念实体的层次关系,是领域特有关系中比较重要的一种。领域中概念实体的层次关系就表示成概念实体树的形式,概念实体树建立领域概念实体的父子关系。概念实体树在信息检索系统中有重要的作用,如对信息实体进行分类、聚类,以及进行相关性检索等。政府信息资源多维概念实体树是在对政府信息资源领域知识分析的基础上,对领域内部的“经济”和“社会”等概念及它们的实体建立关系。图2建立的是一棵关于政府信息资源库的多维概念实体树。树中的叶节点,“体制改革”、“社会福利”、“和谐稳定”、“环境保护”和“财政税收”均是政府信息资源库的实体。对于这些实体,系统采用了多种分类的方法,如“经济领域”、“社会领域”等,这构成了一棵多维概念实体树。
通过以上的方法,我们基本基于复杂的政府资源信息,用Ontology的方法,建立起政府资源领域知识库的模型,包括:信息的概念分类、概念的属性、领域词汇表和多维概念实体树。
对于将来其他的政府信息资源,我们都可以依据这个模型进行知识构建,不断完善政府信息的概念分类和领域词汇体系。政府资源领域知识库的建立是一个需要不断积累和不断完善的过程,并为知识的检索和挖掘打下基础。
三、政府领域知识库构建的意义和进一步的探索方向
根据Ontology和政府信息资源领域的特点,我们从概念定义、模型组成、分类和表示方法等几个方面对基于Ontology技术的政府资源领域知识库进行介绍和研究,并阐述了如何组织和建立领域Ontology的过程,并说明基于Ontology进行领域知识描述的重要作用。
基于Ontology技术建立政府信息资源领域知识库体系,使得政府信息的搜索和加工建立了底层构架基础。只有当我们按科学的方法建立和健全了这一构架体系,政府知识管理、知识积累和知识挖掘才变得有可能。
我们采用Ontology的思想进行政府领域知识的组建,包括政府领域词典的建立,以及Ontology中概念、属性、关系等的建立,组织和建立好领域知识库是政府知识工程中的关键,它决定着政府领域知识使用的效果和效率。当然目前我们的工作还存在着一些不足,需要将来进一步探索和改进,主要包括以下两个方面:
(1)Ontology的半自动建立。Ontology的建立过程中的很多工作由人工手动完成,需要大量的时间且容易出现出差错,特别是Ontology中词语的类型标注。下一步工作中需要研究切实可行的、用以提高系统自身学习能力的办法,使得在Ontology的建立过程中尽量减少人工干预。
(2)Ontology的扩充和更新。本文目前Ontology中的知识包含的还不够多,如概念类只有举例对经济领域和社会领域两种,需要进行进一步扩充,使之内容更加丰富,更加完善,能够处理更多的用户问题。同时,由于领域中的知识处于不断的更新变化中,因此,需要对已有的Ontology随之进行适度的更新和修改,以保证系统处理的准确性。
参考文献:
[1]邓志鸿,唐世渭.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5)
[2]Maria Auxilio Medina Nieto.An overview of ontologies[EB/OL].(2003-03-01)[2008-02-18].
作者简介:
【关键词】企业;战略信息管理;理论模型
一、前言
企业中的战略信息管理,是企业在发展过程中的一个综合性事项。随着信息技术在企业中的广泛应用,知识经济的推进以及电子商务这一形式的出现,形成了企业战略信息管理。企业战略信息管理在企业战略管理中占据着非常重要的位置,企业战略信息管理是企业信息管理在发展过程中的关键阶段,是企业内部中各种信息资源在企业战略层面上有效整合,还是企业智能战略管理中重要的部分。
二、企业战略信息管理的概述
企业在发展过程中的企业战略,是企业结合内部与外部环境的实际情况以及信息资源的获取情况,在市场经济的激烈竞争中为了持续平稳的发展进行的一项整体性的规划。战略,不仅仅只是企业发展中单一的一个概念,还是对企业战略、企业目标、企业使命、企业政策等一系列概念进行综合形成的一个概念体系,企业战略是这个概念体系中非常重要的一个环节,在概念体系中发挥着承上启下的作用。
企业信息战略在企业中的运用,有利于企业对各类信息资源的搜集与整合,促进企业的发展。尤其是企业信息战略在企业实践这一领域中的应用,与企业实践方面中的人力资源战略、开发与研究战略、财务资源战略、生产战略等一系列重要的企业实践战略,共同推动着企业在实践领域中的发展。信息战略是企业战略中重要的组成部分,是实现企业信息功能在应用中目标的总体规划,就功能这一方面而言,信息战略在企业中是一项相对独立的战略,但是从实现企业信息功能这一方面来看,信息战略在企业的应用中要与业务战略相结合。在企业信息战略中,不论信息资源有多么的重要,信息资源都处于辅助的位置,它的存在为了实现企业中的业务功能。信息战略是企业职能管理战略中的一部分,是企业的信息功能在对自身的目标、任务进行实现的过程中,所需要采取的措施、方式、计划的总的称谓。可以将信息战略划分为信息组织战略、信息技术战略、信息功能战略、信息资源战略等一系列管理战略。信息战略的应用在一定程度上就是企业战略信息管理的过程。在发展战略理论框架中,企业战略包括包括愿景(Vision)、战略目标(Strategic Objective)、业务战略(Bisiness Strategy)和职能战略(Function Strategy)四大部分。
战略的根本目的是要解决企业的发展问题。愿景是企业战略的起点,它指明了企业的发展方向;战略目标是企业战略的要求,它是明确了企业发展速度和发展质量;业务战略,包含客户战略、区域战略、产品战略和产业战略是企业战略的手段,它为企业发展提供了发展点;职能战略是企业战略的支撑,它为企业发展提供了发展能力。愿景、战略目标、业务战略和职能战略构成企业战略自上而下的四个层面,上一层面为下一层面提供方向与思路,下一层面对上一层面提供有力支撑,它们之间相互影响,构成一个有机的战略系统。发展战略框架不是一套静态的战略体系,它需要每年定期,或者经营环境出现重大变化时,进行战略检讨,根据内外部环境分析情况,进行适度的调整。发展战略框架理论在上百家企业战略咨询实践运用过,这些企业绝大部分都取得了良好的战略绩效,已经成为对企业战略发展具有重大指导意义、操作性非常强、实践效果好的企业战略方法论体系。企业信息资源管理可以分为以下几个阶段:
(1)企业信息资源中对物理因素进行控制的阶段。企业在发展过程中,对企业内部中信息资源的物理载体进行有效的管理,是企业信息资源中物理控制阶段的核心。在企业信息资源中的物理控制这一阶段中,相关的企业信息资源管理工作人员更加重视对于信息资源载体的保护以及信息资源载体在安全这一方面的保障,对企业信息资源的应用与传递并不是十分的关心。在物理控制阶段,企业信息资源的管理不够全面。(2)企业信息资源中采用自动化这一技术进行管理的阶段。企业在发展过程中,采用自动化技术对信息资源进行管理的阶段中,开始由对信息资源物理载体的控制转变为信息技术,重视对企业信息资源的处理效率与速度的提高。自动化技术在企业信息资源管理中的应用,有利于企业在信息资源这一方面进行搜集与整合时的效率、质量的提升。(3)企业信息资源中相关的竞争人员与竞争情报阶段。在企业信息资源的这一阶段中,企业在发展过程中开始分析与研究能够为企业在对相关策略进行制定时,能够为企业提高大量准确信息数据的信息系统。这一阶段中,对于企业在对内部的信息资源进行应用时的方案规划非常的正确。(4)企业信息资源中战略信息管理阶段。企业在发展过程中,企业战略资源中非常重要的一部分就是知识,对于知识的管理已经成为企业管理中关键的一个部分,在企业管理层的各个环节中都得到了有效的运用。战略信息管理这一阶段,对于企业信息资源的管理有着至关重要的作用,加速了企业在信息资源管理这一方面的发展。
三、企业战略信息管理理论模型的分析
从企业中的实践来看,企业战略信息管理是企业信息化过程中的产物。企业战略信息管理由信息资源、信息技术平台、电子商务构成,企业战略信息管理中的信息技术平台,是企业战略信息资源管理中,相关科学技术的有效提供地。企业战略信息管理中的核心是商业智能,商业智能包含了各类企业中构造与承载智能的工作人员,还包含了企业中的各类应用软件、智能产品。商业智能是企业电子商务与信息技术平台进行维系的有效中介,企业中的电子商务是信息资源管理、信息技术平台以及业务活动相结合而形成的,电子商务与网络技术紧密的联系在一起,是网络经济中的有效载体,在企业战略信息管理中的发挥着非常重要的作用。
企业战略信息管理理论模型的结构,可以分为以下几点:业务流程、信息资源管理、网络经济、电子商务、商业智能、信息技术平台以及客户与供应商。企业战略信息管理是一个综合性体系,由信息资源管理、信息技术管理、电子商务管理组成,信息技术管理在企业战略信息管理中占据着重要的位置,是企业战略信息管理的基础,核心内容是在企业中设计、构造与企业业务相结合的体系,充分的发挥信息技术在企业战略信息管理中的作用,有利于企业在管理这一方面的发展。企业战略信息管理中的核心是信息资源管理,为企业中的信息资源进行收集、分析、宣传等一系列措施,提高企业在信息资源利用这一方面的利用效率、质量,增强企业相关的产品与服务的信息化,促进企业在发展过程中的创新,加快企业的转型与改革。电子商务是企业战略信息管理的深化,在企业发展中利用相关的信息资源能力与技术手段,对企业信息资源进行有效的整合,扩大企业中个性化的服务范围,提升企业在网络市场中的竞争力。
四、结语
企业战略信息管理,包含了企业内部中的所有业务与管理的活动。企业战略信息管理在企业中相对的独立,要将企业战略信息管理的作用充分的在企业发展中得到发挥,要对战略信息进行有效的实施、控制与制定。企业战略信息管理是对企业信息战略进行实施、评测、制定的过程,企业战略信息管理在企业的发展过程中有着重要的作用,企业战略信息管理的理论模型,对于战略信息管理在企业中的作用发挥有着极大的意义。企业战略信息管理理论模型的有效构建,对于战略信息管理在企业中的规划、制度与应用,起着关键性的作用。
参 考 文 献
[1]王知津,刘念,范淑杰.基于价值链的跨国企业战略信息管理模式研究[J].情报探索.2010(3)
[2]王秀香.组织战略管理中的战略信息管理[J].图书馆学刊.2010(32)