前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇关于莲的诗句范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
该剧讲述了由原本“只是认识的姐弟关系”的男女陷入爱情后发生真正恋爱的故事。
2、《金秘书为何这样》(朝鲜语:??英语:WhatsWrongWithSecretaryKim),为韩国tvN于2018年6月6日起播出的水木连续剧,由朴俊和导演执导,郑恩英、崔宝凛、白善宇作家合作打造。
此剧讲述财阀二世、“有名集团”副会长、颜值实力兼具的男主李英俊(朴叙俊饰),和在他身边如影随形、既当秘书又当司机、能力满分的9年女秘书金美笑(朴敏英饰)的故事。
3、《虽已30但仍17》是韩国SBS电视台于2018年7月23日在月火档首播的浪漫爱情喜剧,由赵秀沅执导、赵成熙编剧,梁世宗、申惠善、安孝燮等主演。
【关键词】视点;授受句;被动句;移动句
一、“视点”的先行研究
(一)视点的概念。从语言学的角度分析,视点可以理解为发话者观察、描述某一事件时所处的位置或所采取的立场。“视点”可以是表现在词、词组、句子、语篇等不同的语言单位上的发话者对于客观事象的把握方式,它包括把握和捕捉信息时不可或缺的发话者的立场、心态、思维模式等。
(二)视点的原则。以久野暲、森田良行为首的诸多学者先后运用了视点的概念分析了语言学中的文法现象。森田指出:日本人乃至日语,离开了“自己”甚至都不能把握世界,是以“我”为中心的语言。说话者通常是以“我”为视点描述事件的发生。久野暲更提出了“共感度·说话当事人视角·视点的一贯性”这一关于视点的三原则。“共感度”:是一种“共情”能力,一种设身处地的从他人的角度看待和感觉世界的能力,即将自己同化为周围世界的一部分去看待事态的发展。“说话当事人视角”:是指说话人必须始终以自己的视角为中心,不能舍自己的视角而以别人的视角为中心。日语是“自己中心型”的语言,除了一些特殊文体,总是将视点置于说话者本身,以“自己为中心”来描述事件。“视点的一贯性”:即从某个具有贯通性的视点(即统一视点)来对事件进行描述。
通过诸多学者的阐述,我们可以把视点原则概括为以下两方面:
1. 视点制约原则。认知语言学中,把由“视点”“共感度”决定表达方式的规则称为“视点制约”。视点制约强调发话者应该根据自己的视点表述问题。同时,作者在选择视点时,应该遵循本人优先于他人,亲近者优先于疏远者,有生命的优先于无生命的规律。
2. 视点的一贯性原则。从类型学的角度来看,日语是视点一贯性很强的语言。在同一事件的描述中,要求用统一的视点来完成描述,否则会造成听话者思路上的混乱。
在以上原则的制约下,日语形成了自己独特的表达方式,下面以授受句、被动句、移动句为例展开论述。
二、视点与三种句式的关联
(一)视点与授受句
森田指出:授受表达是一种表达说话者意识的表达方式,说话者一贯从“自己的视点”出发,来把握自己与听话者的关系,与事件中的人物、事物的关系,具体的文章或谈话则在这个立场上展开。日语授受表达中授受动词的选择取决于说话者把自己的视点放在事件中谁的位置上来进行描述。
1. “あげる”系列。表示说话人(我或属于我一方的人)给对方(你或别人)某物或者为对方做某事。其中,当补语(接受者)地位比说话人高时,用“さしあげる”;同等时用“あげる”;当接受者地位低时或为动植物时用“やる”。此类表达的视点在主语(即授予者),发话者站在主语的立场上描述事件的发生。
例1 a李さんは妹に辞書をあげました。
b妹は李さんに辞書をあげました。
按照日语“以自己为中心”的视点制约原则,说话者要把授受行为中的授予者和接受者,根据与说话者的远近关系来进行区分,要从更亲近的人的立场去描述事件。因此,上述表达中,作者只能选择属于自己一方的“妹妹”作为视点对事件进行描述,反之则不太自然。因此,正确表达为b。
例2 a王さんは李さんに腕時計をあげて、李さんはその腕時計を大事にしています。
b王さんからもらった腕時計を李さんは大事にしています。
a句中前半句的视点在小王,后半句的视点在小李,违背了视点的一贯性原则,因此,正确表达应为b。日语表达中说话者的视点应该统一,否则会造成听话者思路的混乱。
“あげる”系列构成的授受表达中,无论是第一人称给第二人称,还是第一人称给第三人称,抑或是第三人称之间的授受,视点都在主语即授予者身上,说话人必须与授予者是同一方的人(作主语),否则不能用这一表达形式。在这一表达中,应遵循:视点人物作句子的主语,并且为授予方的原则。
2. “もらう”系列。表示说话人(我或属于我一方的人)从对方(你或别人)得到某物或者请求对方做某事。当授予者的地位(补语)比接受者(主语)高时,用“いただく”,其余情况用“もらう”。此类表达的视点在主语(即接受者),说话者站在主语的立场上描述事件的发生。
例3 a父は私からタバコをもらいました。
b父は友達からタバコをもらいました。
上述表达中,a违背了日语视点制约的原则,选择了父亲作为主语,显然是不正确的,正确的表达应为b,符合视点制约的原则。
由“もらう”系列构成的授受表达中,无论是第三人称授予第一人称,还是第三人称授予第二人称,抑或是第三人称之间的授受,视点都在主语即接受者身上,同时,说话人必须与接受者是同一方的人(作主语),否则不能用这一表达形式。在这一表达中,应遵循:视点人物作句子的主语,并且为接受方的原则。
3. “くれる”系列。表示对方(你或者他人)给说话人(我或我方的人)某物或者为说话人做某事。当授予者(主语)比接受者(补语)地位高时用“くださる”,其余情况用“くれる”。 此类表达的视点在补语(接受者),发话者站在补语(接受者)的立场上描述事件的发生。
例4 a私は先生に日本語を教えてくださいました。
b先生は私に日本語を教えてくださいました。
由“くれる”系列构成的授受表达中,视点要求放在接受者身上,接受者做补语,后面接助词“に”。因此,a句的表达是错误的,此句话中接受者应该为“私”,视点应该放在“私”,后面接助词“に”。正确的表达应为b。
由“くれる”系列构成的授受表达中,无论是第三人称授予第一人称,还是第三人称授予第二人称,抑或是第三人称之间的授受,视点都在补语即接受者身上,同时,说话人必须与接受者是同一方的人(作补语),否则不能用这一表达形式。在这一表达中,应遵循:非视点人物作句子的主语,并且为授予方的原则。
(二)视点与被动句
被动句是指主语是谓语动词所表示的行为的被动者、受害者。被动句是日语的常用表达句式之一,日语的被动句也与视点有着密切的关联。
被动句通常用于以下四种场合:
1. 动作主体不明或不必出现动作主体时
例5 a文明の危機を叫ぶ。
b文明の危機が叫ばれる。
a句表达的是某个特定的人的个别主张;b表达方式是将其作为一种社会现象进行了一般化的描述。日本人更倾向于第二种表达,日本人的这种想法是基于其对视点的理解。这正是久野暲提出的“共感度”的体现。日本人在理解周围事物时,通常将自己同化为周围世界的一部分去看待事态的发展。
在这种不出现动作主体的无情物的被动表达中,日本人通常将自己理解成社会中的一员来描述事件。同时,这种无情物的被动也可以表示新事物的兴起以及过去发生过的事态。
2. 与影响的施加者相比,说话人与影响的承受者关系更近时
例6 a弟は知らない男に殴られた。
b知らない男が弟を殴った。
a和b是一组相对应的主动句和被动句。受视点制约原则的影响,应从较亲近人的立场去看待事件会比较自然,更符合日语的表达习惯。在这一事项中,影响的承受着是“我弟弟”,跟说话人关系更近,当然比影响的施加者陌生的男人与说话者的关系更近。因此,选择“弟弟”作视点的被动句更符合日本人的表达习惯。
3. 为了使从句的主语与主句的主语一致时
例7 a先生が太郎を叱って、太郎は泣いた。
b先生に叱られて、太郎は泣いた。
由于受到视点一贯性原则的制约,正确的表达应使用被动句,将句中视点统一为“太郎”。
4. 表达受害的心情时
例8 a友達は私のおもちゃを壊した。
b私は友達におもちゃを壊された。
受到视点制约原则的束缚,视点的选择应该遵循本人优先于他人,亲近者优先于疏远者,有生命的优先于无生命的规律。因此,上述例句中应该选取“私”为视点进行描述。
(三)视点与移动句
移动句是由移动动词构成的句子,本文以移动动词“行く”“来る”和复合补助动词“ていく”“てくる”构成的句子作为研究对象。日语中移动句的表达同样是以自己的视点为基点,通过“行く·ていく”“来る·てくる”的使用,来描述动作行为是远离说话者还是接近说话者。
1. “来る·てくる”。当说话者的视点在(接近)移动的目的地时,其描述为“来る·てくる”。它表示向
说话者或话题人物所在的位置或方向移动,这一表达体现了日语“以我为中心”的特性,以自己为基准来描述事件。
例9 a皆帰ってきたなと思った。
b陳は日盛りの街を歩いてきたらしく……。
a句中的「帰る本身具有方向性,通过「てくる的附加进一步明确了这种方向性与说话者的关系,表示大家的移动是在朝向说话者,此时说话者的视点在(接近)移动的目的地;b句中“陈”的移动也是在朝向说话者,视点也在(接近)移动的目的地。
2. “行く·ていく”。“行く”表示远离说话者或话题人物所在位置的移动。此种表达分下述两种情况:
当说话者的视点在(接近)起点或移动主体时,其描述为“行く·ていく”;当说话者的视点远离移动主体、起点及目的地的位置时,此时描述为“行く·ていく”。
我们来看下面的例句:
例10 a父と自分と妹の良人とが歩いて行った。
b次郎は大連へ行く。
a句中说话者的视点位于走之前的出发点,移动者是说话者自身,所以是向远离起点的方向前进。b句中的视点有两种理解:一种是次郎的动作是向远离说话者的方向移动,说话者的视点在(接近)起点或移动主体;另一种是说话者的视点远离起点或移动主体及目的地的位置,属于在较远处发生的从一方向另一方的移动,因其是离开说话者所处位置的移动行为,因此用“行く·ていく”。
同一事物从起点到目的地的移动,说话者所处的视点将直接影响到所使用的移动动词。通过确定是远离说话者还是接近说话者来选择移动句。
三、结语
通过上述分析可以看出:
(一)授受句中,当说话者认为授予者是与自己关系较近的一方,接受者是与自己关系较远的外人时,用“あげる”系列表达,此时,视点人物作句子的主语,并且为授予方;当说话者认为授予者是与自己关系较远的外人,接受者是与自己关系较近的一方时,用“くれる”系列或“もらう”系列表达。其中,“くれる”系列中,非视点人物作句子的主语,并且为授予方;“もらう”系列中,视点人物作句子的主语,并且为接受方。
(二)被动句的四种表达中,要时刻注意视点的特殊原则,即:视点制约和视点的一贯性原则,要遵循“以自己为中心”,本人优先于他人,亲近者优先于疏远者,有生命的优先于无生命的制约原则,并且要在事件的描述过程中保持视点统一,要从一个视点出发叙述事件的发生。
(三)在移动句中,说话者所处的视点将直接影响到所使用的移动动词。在表示空间移动的移动句中,当作者的视点在(接近)移动的目的地时,其描述为“来る·てくる”;当作者的视点在(接近)起点或移动主体时或者当作者的视点远离移动主体、起点及目的地的位置时,其描述均为“行く·ていく”。
综上所述,“视点”问题是日语表达中的一大特色。如果不能很好地理解日本人的语言习惯及日本人的心理,就不能很好地理解日语语言中的“视点”问题,同时又受到了汉语思维的干扰,会导致学习者在学习中出现诸多的错误。授受句、被动句、移动句中都深刻的体现了视点问题的重要性,除了本文中提到的表达之外,日语形容词、代名词、副词、类义副词以及敬语表达都与视点有着密不可分的关联。在日语语言的学习中,必须认识到视点的重要性,掌握视点的特殊原则才能够真正提高日语语言的表达能力。
参考文献
[1] 森田良行.話者の視点がつくる日本語[M].ひつじ書房,2006:189-208.
[2] 澤田治美.視点と主観性―日英助動詞の分析[M].ひつじ書房,1993:303.
[3] 彭广陆.基于类型学的日汉语言对比研究—视点固定型语言与视点移动型语言[C].中国日语语言学网第71次汉日对比语言学研习会,2008.
真心离伤心最近。
不幸的人才要更坚强。
感情的戏,我没演技。
向来缘浅,奈何情深。
爱那么短,遗忘那么长。
有些事一转身就一辈子。
幸福对我说,你还太小。
有些事一转身就一辈子。
听悲伤的歌,看幸福的戏。
最初不相识,最终不相认。
不是不死心,是死不了心。
回得了过去,回不了当初。
等待,是一生最初的苍老。
我不在乎你对我的不在乎。
我在怀念,你不再怀念的。
要有多坚强,才敢念念不忘。
一个人,一座城,一生心疼。
关键词:关联数据;知识发现;述评
中图分类号: G302 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016103
Abstract This paper discusses the current status and future directions of the related studies of knowledge discovery technology based on linked data。By Using IEEE,Springer,Google Scholar and other scholarly search engines and collects papers about this subject from related conferences,such as COLD and KIELD,this paper makes a comprehensive study in this subject of research and classifies related papers according to the different knowledge discovery methods. In general,knowledge discovery based on linked data is still in the exploratory stage. There still exists some problems in the knowledge discovery based on linked data, such as the quality problem of linked data;and there is no unified framework for those methods. Getting more convenient knowledge discovery methods based on linked data and building a unified framework for them will be the focus of future research.
Key words linked data; knowledge discovery; review
海量数据与知识贫乏导致了数据挖掘和知识发现研究的出现。知识发现(Knowledge Discovery)源于人工智能和机器学习,是机器学习、 人工智能、数据库和知识库等众多学科相互融合而形成的一门适应性强的新兴交叉学科。知识是数据元素间的关系或模式,知识发现就是从大量数据中,特别是从异构的数据平台中提取出隐含的、未知的、潜在有用的并能被人们理解的规则与模式,并检查趋势、发掘出事实的高级处理过程[1]。当前有关知识发现研究主要集中在:粗糙集理论;概念格和形式概念分析;基于分类、关联规则、领域知识和图模型等领域[2]。
关联数据的与应用为知识发现提供了一个新契机,特别是关联数据预先建立了大量权威、准确的关联关系,每个数据对象包括多种属性和特征,从而为实现跨学科领域、跨数据源的精准知识发现提供有效支撑,使得基于关联数据的知识发现成为研究热点。
1 研究现状
1.1 知识发现相关技术
目前的知识发现研究主要有两大分支,即基于数据库的知识发现与基于文献的知识发现。数据库知识发现主要针对结构化数据, 基于文献的知识发现主要针对非结构化数据。知识发现的方法有统计方法、机器学习方法与神经计算方法。统计方法除了回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费舍尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)及探索性分析(主成分分析、相关分析)等方法以外,还包括模糊集方法、支持向量机方法、粗糙集等方法。常用的机器学习方法包括规则归纳、决策树、范例推理、遗传算法等。常用的神经计算方法包括自组织映射网络、反传网络等[3]。
基于文献的知识发现按照文献的相关性分为基于相关文献的知识发现、基于非相关文献的知识发现和基于全文献的知识发现[4]。由于计算机直接从非相关文献中发现新知识是非常困难的,应由计算机首先把文献中的知识单元抽取出来,构成知识库,然后再在知识库里进行发现。语义网技术通过给文档添加形式化语义信息的方式解决了计算机理解文献的问题,而关联数据是由W3C推荐的语义网最佳实践。关联数据将分散领域中的数据通过结构化描述以及数据之间的链接关联起来,形成全球巨大数据空间,即数据网络。这种数据网络资源环境为信息的最大限度共享、重用以及发行提供了保障,也为人们的知识发现活动提供了新的机遇[5]。
1.2 基于关联数据的知识发现研究进展
以“关联数据”“知识发现”等为关键词在CNKI数据库中检索发现,国内基于关联数据的知识发现研究仍处于起步阶段,相关研究数量较少且多属于理论模型研究。如李楠[6]、李俊[7]等分别总结了基于关联数据的数据挖掘相关研究,提出了基于关联数据的知识发现模型;高劲松等[8]在关联数据的知识发现过程金字塔的基础上提出了基于关联数据的知识发现模型;宋丽娜[9]提出了关联数据环境下基于知识地图的隐形知识发现模型;刘龙[10]提出了基于关联数据的知识发现过程模型。
以“consuming linked data”“application of linked data”“Knowledge Discovery”等为关键词在谷歌学术、ScienceDirect和Springer等学术搜索引擎上进行主题检索,同时总结了COLD、KIELD和LDOW等关联数据会议中有关知识发现的文献。相较国内研究,国外基于关联数据的知识发现方法更为丰富且付诸实践。根据对关联数据挖掘层次的区别,本文将基于关联数据的知识发现技术归结为3类:(1)间接挖掘,即通过格式转化将关联数据转化或特征提取将关联数据转化为适合传统数据挖掘算法的格式,如Venkata Narasimha等提出的Liddm关联数据挖掘系统[11]以及Heiko Paulheim等提出的FeGeLOD特征提取器[12]为代表;(2)直接挖掘,利用事务构建、归纳逻辑程序设计(Inductive logic programming,简称ILP)等方法直接对RDF数据进行处理,如Reza Ramezani等提出的SWApriori[13]和Gabin Personeni等提出的ILP学习方法[14]是该类的典型研究;(3)链接挖掘,即对关联数据的属性链和节点等结构进行挖掘。如Ilaria Tiddi等提出的Dedalo遍历系统[15-16]、Xiaowei Jiang等提出的频繁子图挖掘方法[17]及Kang Li等提出的深度学习方法[18]最具代表性。
2 间接挖掘
数据挖掘是基于数据库知识发现的核心步骤之一,传统数据挖掘技术主要针对关系型数据库中的数据,而根据关联数据的定义,关联数据是采用RDF数据模型并利用URI命名数据实体的数据集合,因此如何将传统的数据挖掘方法应用于关联数据成为了一个新的研究热点。间接挖掘的基本原理是针对不适用于传统挖掘算法的关联数据,通过特征提取或格式转化的方式从关联数据中提取出数值型特征,实现利用传统数据挖掘算法对关联数据进行挖掘分析的目标。
2.1 格式转化
Venkata Narasimha等提出的Liddm[11]是一个可以与关联数据有效交互的关联数据挖掘模型,它支持从不同的数据源检索、整合数据,为统计分析调整数据格式并支持数据挖掘及成果的可视化。Liddm利用SPARQL查询从关联数据云中获取数据,通过数据预处理、数据输入准备和数据挖掘等步骤进行关联数据挖掘。其中,数据查询结果以包含若干行和列的表格数据表示,行表示检索到的实例,列表示该实例一个属性的值。
数据预处理包含数据整合、数据过滤和数据分割等三个步骤。其中,数据整合是指将从多个关联数据云中多个数据源中检索的数据进行整合,整合基于每个数据源的共有关联;数据过滤指通过人工筛选掉不符合数据挖掘需求的实例;数据分割指将不同列数据分为不同的类。在完成了数据的查询和预处理后,Liddm通过数据输入准备步骤完成数据格式的转化。以Weka为例,Weka支持的数据输入格式为ARFF(Artribute-Relation File Format,属性-关联文件格式),因此可将关联名和属性转化为ARFF格式后进行挖掘。
类似的研究还包括Petar Ristoski等提出的基于RapidMiner的关联数据挖掘方法[19]。与LiDDM相似,RapidMiner也需要终端用户定义合适的SPARQL查询来获取所需数据,并将数据转化为表格数据后进行挖掘。
2.2 特征提取
Heiko Paulheim等基于关联数据的特性构建了关联数据特征提取器FeGeLOD[12],它可以从关联数据中提取数值型或二值数据特征并利用这些特征进行数据挖掘。FeGeLOD在Weka的基础上,针对LOD提出了一系列不同的提取特征方法。特征的提取包含实体识别、实际特征构建、特征选择等三个步骤,其中第二步实际特征构建是构建关联数据挖掘特征的核心步骤。目前FeGeLOD采取了6种不同的特征构建策略。第一个构造器为一个实体的每个数据属性创建了一个特征。数据属性即元素的值,如城市的名称或城市的人口数量;第二个构造器仅针对实体本身,即实体有谓词rdf:type的语句,一个实体可能属于多个类型或目录。其余四个构造器考虑了实体与其他实体的关联数。
2.3 技术分析
截至2016年9月7日,LOD中互相关联的关联数据集已达9960个,拥有超过1490亿个三元组,这些大量的结构化、语义关联的数据具有巨大的潜在价值。间接挖掘方法有效利用了关联数据的关联发现和数据整合的特性,通过数据集之间的关联帮助人们更为准确、高效的发现和获取相关数据。
然而,间接挖掘也存在着一些弊端,首先,间接挖掘需要用户构建数据查询,而构建关联数据的查询需要用户事先对关联数据集、SPARQL查询以及属性充分了解;其次,传统挖掘方法往往只针对特定类型的知识,如LiDDM仅支持关联规则的发现,由于传统数据挖掘算法本身的局限性,间接挖掘的方式未能深入挖掘关联数据内数据对象间的关联(links)。
3 直接挖掘
相对于间接挖掘,本文将可以直接对关联数据进行处理的挖掘方法定义为关联数据的直接挖掘。值得注意的是,虽然关联数据采用了RDF数据模型,但由于关联数据的节点都是唯一的,因此并非所有RDF挖掘方法都适用于关联数据。如图核方法[20-21]适用于多图的关联规则发现,而关联数据的挖掘属于Single-graph型模式挖掘型问题。直接挖掘的典型研究包括事务(transactions)构建和归纳逻辑程序设计(Inductive Logic Programming,简称ILP)等。
3.1 事务构建
ARM(Association Rule Mining,关联规则挖掘)等传统的数据挖掘算法试图寻找频繁项集(Large Itemsets),并在此基础上生成有趣的关联规则。在关联数据中进行关联规则的挖掘存在着以下挑战:数据结构的异构性、关联数据不存在准确定义的事务、实体间的关系以及终端用户在挖掘过程中的角色。为从语义网数据中构建事务,Ziawasch Abedjan等提出利用主语、谓词和对象三元组中的一项组成事务,用其余两项的值作为事务项,并从这些事务中进行关联规则的挖掘[22](见表1)。
在Ziawasch Abedjan的研究基础上,MA Nematbakhsh 和Reza Ramezani提出了SWApriori挖掘方法,SWApriori以三元组的方式从语义网数据集中获取数据并直接从中自动发现关联规则[13,23]。SWApriori的基本原理是在输入数据的实例层创建频繁二项集并将其用于后续挖掘,这些频繁二项集由实体和关联组成(实体对应对象,关联对应谓词)。
SWApriori的挖掘流程为:首先遍历统计所有对象出现的频次,选择出现在三元组中出现频次大于一定次数(人工设定的最小置信度)的高频对象,然后对这些高频对象两两组合直到产生所有长度为二的可能对象集合。如假设Saraee、Nematbakhsh 和IUT为高频对象,则有{Saraee,Nematbakhsh}、{Saraee,IUT}、{Nematbakhsh,IUT}等组合。随后,算法核实这两个对象(及对应的两个关系)是否被多个公共的主语所参引。因此,主语的数量是最重要的因素,而它们的值则不被考虑。频繁二项集合构建完成后,采取与Apriori相似的方法生成频繁多项集和关联规则。
假如最终挖掘到的频繁多项集为{(Nematbakhsh + Knows)、 (IUT + Student at)、 (M.Sc. + Degree)},其中Nematbakhsh、IUT和M.Sc是高频对象,Knows、Student at和Degree是其分别对应的关系,生成的关联规则为:
(1)Student at(IUT),Knows(Nematbakhsh)Degree (M.Sc.)
(2)Knows(Nematbakhsh),Degree(M.Sc.)Student at(IUT)
(3)Student at(IUT),Degree(M.Sc.)Knows(Nematbakhsh)
其中第一条规则表示,一个在IUT学习且知道Nematbakhsh的人一般具有M.Sc学位。
3.2 归纳逻辑程序设计
为解决LOD中大量生物医学资源缺乏有效挖掘方法的问题,Gabin Personeni等提出利用归纳逻辑程序设计方法对关联数据进行学习[14]。ILP隶属于机器学习与逻辑程序设计的交叉领域,它借助逻辑程序设计已有的理论与方法,在一阶逻辑的框架下,试图克服传统机器学习存在的问题,建立新的机器学习体系,使机器更好地模拟人的思维。ILP想要完成的任务是,让计算机考察具体的事例,然后概括出能够刻画这些事例特有属性的一般性规则。ILP允许我们从观察中学习概念的定义,如给定正例集(E+)和负例集(E-)和背景知识(B),目标是生成一系列具有一致性(Y∪B覆盖或解释每个正例集)和完备性(Y∩B不覆盖任何负例集)的规则或理论T。使用ILP进行基于关联数据的知识发现具有以下优势:首先,ILP的输入格式与关联数据格式相近;其次,领域知识可以添加到输入数据中并被ILP所学习。
基于ILP的关联数据挖掘流程分为基于专家的领域数据选择、数据整合以及基于ILP的关联数据挖掘等步骤。首先依靠领域专家建立了实体关系(entity-relationship,简称ER)模型,确定了待挖掘数据。然后建立LOD与该ER模型之间的映射并利用SPQRQL查询获取数据,数据存储于建立在实体关系模型基础上的关系数据库中。完成数据的准备工作后,作者利用Aleph(A Learning Engine for Proposing Hypotheses,ILP学习引擎)完成了ILP挖掘过程。
3.3 技术分析
直接挖掘的优点除了包括利用关联数据的特点更准确、更有效、更便捷的发现相关数据外,与间接挖掘相比,直接挖掘方法针对关联数据自身的特点对已有挖掘方法进行了改进和重构,使得这些方法更具有更强的易用性和可拓展性。
直接挖掘方法的缺点与间接挖掘相似,间接挖掘算法可以视为调整关联数据以适应传统挖掘算法,而直接挖掘可以视为改进传统挖掘算法以适应关联数据,就本质而言,它们的研究主题都是关联数据的数据资源,并对关联数据的另一重要主题――关联数据的链接则未做深入的研究。
4 链接挖掘
图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事务之间的某种特定关系,用点代表事务,用连接两点的线表示相应两个事务间具有这种关系。关联数据是一个由RDF三元组构成的有向图,图中的点对应每个资源、边对应每个属性(链接)。因此,本文将针对关联数据的链接这一研究主题的挖掘方法定义为链接挖掘。由于图的搜索空间呈指数级增长,图的挖掘是一项计算量繁重的任务,如何选择有效的挖掘策略对于能否从关联数据挖掘出有效知识的质量至关重要。根据挖掘方法的区别,我们将链接挖掘归结为启发式关联遍历挖掘、频繁子图挖掘、深度学习等三种类型并分别进行介绍。
4.1 关联遍历检索
Ilaria Tiddi等提出了Dedalo启发式关联数据遍历挖掘系统,Dedalo可以迭代检索关联数据寻找实体的共性(即共同路径)从而生成解释[15-16]。Dedalo的基本思想在于:给定一定数量的实体,在关联数据中寻找这些实体存在共同的路径(属性链,表示为wι)及终值(属性链终端的特定实体,表示为ei),这些路径加终值便构成一条簇的解释(表示为,expi=wι.ei)。基于此思想,Dedalo利用A*算法遍历关联数据寻找簇的解释。
A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法,也是许多其他问题的常用启发式算法,对于路径搜索问题,状态就是图中的节点,代价就是距离。一条路径的代价可以用启发式的指标f(x)估算,公式为: f(x)=g(x)+h(x),其中g(x)是过去的路径开销函数,表示起始节点到当前节点的已知距离,h(x)是未来路径开销函数,用来估算当前节点到目标节点的最佳路径的距离。在关联数据中,待解释簇内的项即初始节点,每个解释expi中的实体ei是目标节点。路径的开销通过信息熵估算,熵主要考虑给定路径的频率(对应g(x))及其值(对应h(x))的分布。由于在迭代遍历的过程中,事先不知道目标节点,因此在第n次迭代中将所有距初始节点距离为n的节点都视为目标节点。
关联数据的迭代遍历包含以下3个步骤:(1)URI参引,通过HTTP协议获取初始节点相关的所有RDF属性和属性值;(2)路径收集,利用URI参引从每个三元组中获取的新的属性Pi添加到已有的路径中去构建新的路径wι,新路径将通过信息熵行数进行代价估算;(3)构建簇的解释,在每一轮迭代之前都进行一次解释的构建,并通过F值对解释进行检验。
关联数据链接挖掘的相关研究还包括:Vito Claudio Ostuni等提出的基于LOD的SPrank关联推荐算法[24]以及Tommaso Di Noia等提出的利用LOD支持的关联推荐系统[25],它们的共同特点是利用链向特定实体的共有路径发现相关实体。另外,关联数据的属性链还被应用于语义相似度[26]和语义距离[27]等的计算。
4.2 频繁子图挖掘
在图的集合中发现一组公共子结构,这样的任务称作频繁子图挖掘(frequent subgraph mining),常用的频繁子图挖掘方法包括AGM、AcGM、FSG等递归发现频繁子图的方法以及gSpan、CloseGraph和FFSM等拓展频繁边得到频繁子图的方法。由于关联数据中关联模式缺乏准确正式的定义和关联数据图结构的复杂性,频繁子图挖掘方法难以直接应用到关联数据中。针对这一问题,Xiang Zhang和Cuifang Zhao等提出利用Typed Object Graph(类型化对象图,简称TOG)数据模型简化关联数据结构并利用基于gSpan的模式挖掘算法从关联数据中学习对象的关联模式[28]。TOG图通过一定的类检测策略可以为RDF图的每个实例赋予类型信息获取(见图1)。完成TOG图的构建后,对TOG图进行聚类后利用基于gSpan算法进行关联规则的挖掘。
在Xiang Zhang 等的研究基础上,Xiaowei Jiang提出了一种TOG图压缩策略进行实例层的关联数据语义挖掘[15]由于关联数据中存在大量的重复结构和相互依赖结构,因此在挖掘前可以利用这种机构特征进行图的压缩。根据关联数据的结构特征,作者提出了两种结合重复结构和压缩互相依赖结构等两种图压缩策略。压缩的核心思想是利用链向TOG中一系列高度相关实例的单个实例代表一个可压缩的图结构。在完成了图的压缩后,关联数据内的一些图结构将变成一些所谓“超节点(hypernode)”实例的内部结构,原始的关联数据图也压缩为较小的“超图(hypergraph)”。
4.3 深度学习
深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。波尔兹曼机(Boltzmann machine,简称BM)是Hinton和Sejnowski于1986年提出的一种根植于统计力学的随机神经网络。BM具有强大的无监督学习能力,能学习数据中复杂的规则。但是,拥有这种学习能力的代价是其训练(学习)过程耗时。此外,BM所表示的分布不仅无法确切计算,得到该分布的随机样本也很困难。于是Sejnowski引入了一种受限波尔兹曼机(Restricted Boltzmann machine model,简称RBM)。RBM具有一个可见层和一个隐层,层内无连接。RBM具有很好的性质,在给定可见层单元状态时,各隐单元的激活条件独立;反之,在给定隐单元状态时,可见层单元的激活亦条件独立。这样一来尽管RBM所表示的分布仍无法有效计算,但通过Gibbs采样(Gibbs sampling)可以得到RBM所表示分布的随机样本。目前RBM已经被成功运用到不同的机器学习问题[29]。
从关联数据中学习知识的主要挑战之一是如何在高效利用节点属性的同时利用关联数据的关联抽取有效信息。当前对基于关联数据的知识发现要么采取人工选择的拓扑统计表示网络结构,要么将节点属性和网络节点线性映射到一个共享隐含特征空间(shared latent feature space)。但基于统计的方法可能损失网络结构中的重要模式,基于线性映射的方法可能无法捕捉到节点和关联的非线性特征。为解决这些问题,Kang Li、Jing Gao利用深度学习理论,构建了基于受限波尔兹曼机对关联数据进行表征学习的LRBM(Restricted Boltzmann Machines for Latent Feature Learning in Linked Data,学习关联数据潜在特征的受限波尔兹曼机)模型,LRBM利用对比散度(Contrastive Divergence,简称CD)进行模型的训练避免了大规模的采样,同时模型可以与传统RMB进行“叠加”以探索节点的深层特征和节点间的高阶交互模式[16]。
LRBM不依赖任何主观选择的拓扑统计(topological statistics),可以在一个统一框架中同时获取节点和属性的特征,并根据这些特征构建节点关联以及隐藏单元之间的非线性关系。模型的核心在于节点共享隐含特征,这些隐含特征可以用来构建节点、关联关系和隐含单元的非线性关系。
作者首先用关联矩阵表示关联数据集中的节点和关联关系,定义节点i到节点j的关联L中节点i定义为关联的发送者,节点j为关联的接收者,并将每个节点的隐含表示(latent representation)定义为发送者行为Si和接收者行为Ri两部分,分别对应节点的入链和出链。因此,节点i的属性Ai与其隐含发送者行为Si和接收者行为Ri相关,且Si和Rj决定了节点i和j之间的交互。为将节点属性A、关联L和隐含特征表示R和S之间的交互建模,作者利用能量函数建立了一个隐含语义模型(Latent Factor Model,简称LFM),利用条件限制波尔茨曼机在模型加入了隐变量h以解决线性映射的问题,同时添加高斯噪声为关联关系赋予权重。最终,LRBM模型可关联数据中提取出节点属性、隐含特征S和R以及关联关系的交互特征,并可将其应用到关联预测、节点分类等知识发现活动中。
4.4 技术分析
在关联数据集合中,数据集合和数据对象之间是以某种方式关联的,对象之间的链接可能表示某种特定的模式,但这一模式通常很难用传统的统计模型去获取,因此,为该挑战提供解决方案的链接挖掘成为了新的研究热点。这一领域在链接分析、超文本和网络挖掘、关系学习和图挖掘等相关研究的交叉点上。
关联遍历挖掘、频繁子图挖掘、LRBM等分别利用了图的遍历、压缩和深度学习的方法对关联数据的链接进行挖掘,为基于关联数据的知识发现提供了全新的方法和视角,但链接挖掘存在的问题是,由于当前研究仍处于探索阶段,相关研究相对比较分散,缺少能将相关研究和应用统一到一个框架中的综合体系,这一问题阻碍了已有研究之间的相互交流以及研究成果的拓展和共享。
5 结语
关联数据通过数据间的链接支持结构化数据的关联,这种携带语义的关联遍及整个数据网络,是关联数据的核心价值。为实现关联数据的价值,早期研究更多的关注了关联数据的构建与,而随着关联数据资源的快速发展,更多的研究开始关注关联数据的应用与消费,这些研究往往集中在“关联数据的数据资源”和“关联数据的关联”等两个主题。本文所介绍的间接挖掘和直接挖掘主要关注“关联数据的数据资源”,这些研究促进了知识发现与关联数据领域之间研究体系上的拓展和融合,一方面有助于从数据挖掘和知识发现的角度去发挥关联数据的潜在价值;另一方面也可以借助数据挖掘和知识发现领域的知识解决关联数据存在的问题。链接挖掘则更多的关注了“关联数据的关联”主题,图论、深度学习等学科的引入为基于关联数据的知识发现提供了全新的视角与方法,虽然当前的研究仍比较分散缺少统一的综合框架,但这些方法和理论的引入已经为基于关联数据的知识发现提供了新的活力和可能。
总体而言,基于关联数据的知识发现技术仍处于快速发展阶段,其作为一种新的知识发现技术已经体现了巨大的价值。随着关联数据数量的飞速发展和对关联数据质量控制的加强,且已经有国内外的研究人员开始着手研究基于关联数据的知识发现统一框架,未来的研究重点将更加倾向于基于关联数据知识发现技术本身的丰富和完善。
参考文献:
[1] 苗蔚,李后卿.知识发现及其实现技术的研究概述[J].现代情报,2005(1):12-15.
[2] 李楠.基于关联数据的知识发现研究[D].北京:中国农业科学院,2012.
[3] 化柏林.数据挖掘与知识发现关系探析[J].情报理论与实践,2008(4):507-510.
[4] 张树良,冷伏海.基于文献的知识发现的应用进展研[J].情报学报,2006,25(6):700-712.
[5] 贾丽梅.基于关联数据语义相似度计算研究[D].郑州:郑州大学,2014.
[6] 李楠,张学福.基于关联数据的知识发现模型研究[J].图书馆学研究,2013(1):73-77,67.
[7] 李俊,黄春毅.关联数据的知识发现研究[J].情报科学,2013(3):76-81.
[8] 高劲松,李迎迎,刘龙,等.基于关联数据的知识发现模型构建研究[J].情报科学,2016(6):10-13,18.
[9] 宋丽娜.关联数据环境下基于知识地图的隐性知识发现模型研究[D].武汉:华中师范大学,2014.
[10] 刘龙.基于关联数据的知识发现过程模型研究[D].武汉:华中师范大学,2014.
[11] Narasimha V,Kappara P,Ichise R,et al.LiDDM:A Data Mining System for Linked Data[C].Workshop on Linked Data on the Web.CEUR Workshop Proceedings,2011:813.
[12] Paulheim H,Fümkranz J.Unsupervised generation of data mining features from linked open data[C].Proceedings of the 2nd international conference on web intelligence, mining and semantics.ACM,2012:31.
[13] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[14] Personeni G,Daget S,Bonnet C,et al.Mining Linked Open Data:A Case Study with Genes Responsible for Intellectual Disability[C].International Conference on Data Integration in the Life Sciences.Springer International Publishing,2014:16-31.
[15] Tiddi I,d'Aquin M,Motta E.Dedalo:Looking for clusters explanations in a labyrinth of linked data[C].European Semantic Web Conference.Springer International Publishing,2014:333-348.
[16] Tiddi I,d'Aquin M,Motta E.Walking Linked Data:a graph traversal approach to explain clusters[C].Proceedings of the 5th International Conference on Consuming Linked Data-Volume ,2014:73-84.
[17] Jiang X,Zhang X,Gao F,et al.Graph compression strategies for instance-focused semantic mining[C].China Semantic Web Symposium and Web Science Conference.Springer Berlin Heidelberg,2013:50-61.
[18] Li K,Gao J,Guo S,et al.Lrbm: A restricted boltzmann machine based approach for representation learning on linked data[C].Data Mining(ICDM),2014 IEEE International Conference on.IEEE,2014:300-309.
[19] Ristoski P,Bizer C,Paulheim H.Mining the web of linked data with rapidminer[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):142-151.
[20] L?isch U,Bloehdorn S,Rettinger A.Graph kernels for RDF data[M].The Semantic Web:Research and Applications.Springer Berlin Heidelberg,2012.
[21] de Vries G K D,de Rooij S.Substructure counting graph kernels for machine learning from RDF data[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):71-84.
[22] Abedjan Z,Naumann F.Context and target configurations for mining RDF data[C].Proceedings of the 1st international workshop on Search and mining entity-relationship data.ACM,2011:23-24.
[23] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[24] Ostuni V C,Di Noia T,Di Sciascio E,et al.Top-n recommendations from implicit feedback leveraging linked open data[C].Proceedings of the 7th ACM conference on Recommender systems.ACM,2013:85-92.
[25] Di Noia T,Mirizzi R,Ostuni V C,et al. Linked open data to support content-based recommender systems[C].Proceedings of the 8th International Conference on Semantic Systems.ACM,2012:1-8.
[26] Hulpus I,Prangnawarat N,Hayes C.Path-based semantic relatedness on linked data and its use to word and entity disambiguation[C].International Semantic Web Conference.Springer International Publishing,2015:442-457.
[27] Passant A.Measuring Semantic Distance on Linking Data and Using it for Resources Recommendations[C].AAAI spring symposium:linked data meets artificial intelligence,2010(77):123.
[28] Zhang X,Zhao C,Wang P,et al.Mining link patterns in linked data[C].International Conference on Web-Age Information Management.Springer Berlin Heidelberg,2012:83-94.
一、竞赛时间
寄送作品时间:
启事公布之日起至2016年3月31日
二、参赛对象
全国各省、市、自治区所属义务教育小学、初中段学生,全日制普通高级中学学生,职业高中学生。
三、参赛要求
本次竞赛以“我与足球的故事”为主题,分为征文竞赛和绘画摄影竞赛两项赛事。
活动一:征文竞赛
要求:
1.本次征文竞赛不设题目,不限体裁。为了使你的作品能够脱颖而出,我们提倡你写真人、记真事、抒真情、表真意。但务必要紧扣主题,思想积极健康,语言流畅。字数2000字以内。
2.也许某场攻防激烈的球赛,让你领略到团队协作的精神;也许某个球星的经历在你心情处于低谷时给了你奋进的力量;也许绿茵场上一个个英姿飒爽的身影和他们永不服输的精神触动过你的心弦……喜欢足球,不仅在于足球运动的活力和激情,更在于它所体现出的精神和力量。现在请拿起你手中的笔,记录下你与足球之间发生的故事吧。可以记叙,也可以抒情,还可以发表议论。
3.字迹工整、清晰会让你的作品给评委留下好的印象。当然,你也可以采用A4纸打印。但无论是手写稿还是打印稿,都请你在参赛文章的右下角注明详细的联系方式(姓名,学校,班级,联系电话),以班级或学校为单位集体参赛的要注明指导老师的联系方式,学生单独参赛的要注明家长的联系方式。
4.大赛名次固然重要,但诚实才是做人的根本。所以请你千万不要抱着侥幸的心理抄袭、套作,一旦被评委发现,损失的不仅仅是参赛资格,更是你宝贵的声誉。
5.组委会有权将所有入选的作品用于活动相关的宣传、出版、展览以及其他公益活动,并不另付稿酬。
6.所有入选作品如涉及著作权、版权、肖像权、名誉权或其他合法权利的纠纷,均由作者自行负责。
活动二:绘画、摄影竞赛
(一)绘画
1.参赛作品必须为原创,已参加过其他比赛或已公开发表的作品不得参加本次竞赛。
2.绘画作品种类包括蜡笔画、水彩画、版画、卡通画、国画、油画、素描、速写等多种形式。每幅作品最大尺寸不超过100cm×100cm。作品内容要求积极、健康、向上。只接受绘画作品原件,不接受绘画作品复印件、打印件以及电子作品,参赛作品无论获奖与否一概不予退还。
3.参赛者务必在画纸右下角注明自己的联系方式(姓名,学校,班级,联系电话),以班级或学校为单位集体参赛的要注明指导老师的联系方式,学生单独参赛的要注明家长的联系方式。
(二)摄影
1.摄影作品形式不限,彩色、黑白作品,单幅、组照均可。要求均为数码摄影作品。
2.作品文件格式为JPG格式。摄影作品请以图片的形式发送到竞赛指定的电子邮箱。图片命名方式:标题――省份+学校+班级+姓名+联系电话。例:我心飞翔――**省**学校高一年级三班李华139********。
四、参赛办法
1.此次竞赛纯属公益活动,不收取任何费用。
2.以上两项赛事,可同时参与,也可根据自己的爱好和特长选择参与其中的一项。
3.此次竞赛本着学校和学生自愿参加的原则,既可以由教育教研部门和学校在自愿的基础上统一组织学生参加,也可由学生自行报名参加。
4.欢迎各省、市、县(区)教育教研部门及学校统一组织学生参赛。
5.征文、绘画作品完成后,请将纸质作品寄至本次竞赛组委会办公室。信封上务必标明“‘我与足球的故事’征文(绘画)竞赛**年级组”字样。集体参赛者请将作品统一寄出。
各年级组参赛纸质作品统一寄至:
山西省太原市坝陵北街盛世华庭A1座21层学习报社“我与足球的故事”竞赛组委会办公室收 邮编:030009
摄影作品投稿邮箱:
竞赛组委会联系电话:
0351―3239660(小学组)
联系人:王老师
0351―3239655(初中组)
联系人:王老师
0351―3239630(高中组)
联系人:李老师
五、奖项设置
1.此次竞赛活动由山西省教育学会与学习报社邀请有关专家,联合组成评审委员会进行评奖。
2.此次竞赛分为征文竞赛和绘画、摄影竞赛两项赛事,分别设置奖项。绘画、摄影比赛统一评奖,不再分别设置奖项。
3.奖项分小学低年级组、小学高年级组、初中组和高中组四个组别。报送作品经初评、复评、终评,确定一、二等奖及优秀奖,并分别颁发奖品和证书(证书将由山西省教育学会与学习报社共同签章颁发)。
4.本次竞赛为表彰积极参赛的学校和教育教研部门,特设立“优秀组织奖”,并颁发奖牌。
5.本次活动将根据学生获奖等级的评定给辅导老师颁发相应的“优秀辅导奖”。
6.获奖名单公布时间:2016年5月。
7.获得优秀组织奖的学校可推荐参与全国教育科学“十二五”教育部规划课题《以培养学生能力为导向的教学模式研究》和中国教育学会“十二五”科研规划课题《中小学校园文化建设研究与实践》。
8.夏令营活动:获得本次活动一、二等奖的学生,将有机会参加学习报社组织的“足球伴我成长”夏令营活动。具体活动事宜,另行通知。
六、宣传表彰
获得本次竞赛一等奖、二等奖及优秀奖的选手名单将公布在学习报社网站上。获得一、二等奖的征文作品将在《学习报》各年级相应的语文学科报纸上开设专栏择优刊登。此次竞赛所有获得一、二等奖的作品将分类结集出版,具体事宜另行通知。