前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇全文检索范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
目前各行各业都开始意识到信息系统对于行业进步的影响,但是信息系统也存在着很多安全隐患。怎样才能够在文本查询以及网页的存储中达到安全高效的目的,一直是研究和关注的重点,这其中的全文检索技术和全文数据库技术成为了国内外学者研究的热点。我国信息的加密以及检索技术在目前的技术条件下发展十分迅速,并且也出现了诸多领先的技术产品,但是全密文高效检索系统的研究仍旧是当前难以解决的科题。这一问题的难点主要集中在如何才能够安全的实现在外包数据库中进行加密数据的检索以及存储。虽然原始数据具有相似性以及有序性,但是在数据加密后,很多原始特性就会失去,因而密文数据的检索难度便会加大。这也是一直困扰着我国检索系统研究技术人员的主要难点,也正是由于密文数据的这一特性,才提高了数据库的安全性。但是如何才能够在这一条件下,提高检索效率,仍旧需要进一步研究。
2系统比较
2.1传统全文索引
对于数据进行加密是一个很自然的趋势,而对密文检索技术的研究也是索引系统发展的一个趋势,其思路便是加密全文索引,从而实现密文检索。而该种加密方式依照加密粒度的不同可以将密文全文检索分成两种等级,即索引词级信息加密以及索引级信息加密。索引级信息索引直接加密密文信息的明文全文索引,在进行信息检索的过程中首先需要进行解密,即针对密文索引部分内容进行全文解密或部分内容的解密,继而在解密的基础上展开信息的检索。通过这种方式虽然能够达到密文全文检索的目的,但是需要解密后才能够检索,从本质分析仍旧是明文信息的检索,因此安全系数较低,存在隐患问题,并且为了实现索引的解密,需要增量构建,会付出较大的代价。而索引词级信息检索则是在原有检索结构的基础上通过相同的加密算法进行索引词的加密,在原有索引词级信息检索的基础上通过加密信息检索以及同一种加密算法,对原有明文索引结构进行加密,从而实现针对原有的明文检索信息进行加密的目的,实现密文全文检索。当前使用的IR模型大多都采用了索引词级密文索引,建立在Tlken词频信息构建以及便宜地址的基础之上,如果这些内容也被加密,那么在查询过程中的大量运算操作影响下,全文索引系统效率必然会大大降低,如果利用明文索引的形式,信息安全级别便会受到影响,因而传统的索引系统还需要进一步改善。
2.2Mimir密文全文索引
全文检索系统的文档资源都是海量的,全文索引都采用增量方式构建,因此采用一种稳定、高效的数据结构构建全文索引对于实现高效的密文全文检索是非常重要的。由于B+树当节点分裂时只影响原节点和父节点,因此对于全文索引的增量构建在插入索引词时可以有效地保持索引B+树的平衡性,保障全文检索效率。在明文全文检索系统中,基于明文索引中的索引词位置的递增关系,检索系统可以方便地判断一个较长的检索词是否出现在某个文档中,因此在全文检索系统中,索引词的位置信息对于较长检索词的判断是非常重要的。与直接加密索引词改造明文索引的方法不同,为了保证密文索引本身的高安全性,Mimir密文全文检索系统中并没有标识每个索引词的位置信息,因此如何实现较长检索词的匹配就成为了一个关键问题。如果能够在密文全文索引中存储文档所有可能出现的检索词,则就可以不需要索引词的位置信息。但是首先不可能穷举用户可能提出所有查询关键词,而且大量地插入较长的组合索引词也会极大地增加密文索引的空间规模,而导致密文全文检索效率的下降。同时由于被查询命中的概率很小,词长太长的索引词对于全文检索的贡献也比较小,因此必要针对Mimir系统特点设计一种不需要索引词位置信息支持的文档归档索引词提取策。
2.3系统排序算法
全文检索系统大多都被应用于海量文档检索以及处理中,因而同一条查询条件相符的,全文检索系统中需要处理的文档都是海量的,对于一个查询条件来说命中的文档数量也非常大,结果排序就是将用户最感兴趣的内容优先呈现给用户,对于一个全文检索系统的可用性来说是非常重要的。目前的全文检索系统中通常都采用基于检索关键词词频的评分机制。
2.4系统效率以及安全性分析
Mimir实现不脱密的密文全文检索服务,其安全性和搜索效率都非常重要,该节对Mimir密文全文检索系统的检索效率和安全性进行理论分析。Mimir系统有3种数据需要加密处理:索引词、索引指针和文档本身。为保障Mimir系统的安全性,以上都采用成熟的加密算法。Mimir对文档进行归档操作时,索引指针和密文文档的加密量相对很小,而密文全文索引中分词数量很大,因此会产生大量的索引词加密开销。
3结语
关键词:全文检索;公安信息化;公安业务
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。全文检索是以文本数据为主要处理对象,根据数据资料的内容而不是外在特征实现的信息检索手段。全文检索就是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立索引,当用户查询时,检索程序就根据事先建立好的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
1 关键技术
建立一个全文检索系统,首先要将源文档转化为能够进行文本查找的全文数据库,包括全文的分割处理以及检索标识的提取,这称为全文本的前处理工作。众所周知,英文是以词为单位的,单词之间以空格作为自然分界符,而中文是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准。而“词”又是自然语言处理的一个基本单位,是最小的能够独立活动的有意义的语言成分。显而易见,自动识别词的边界,将书面汉字序列切分成正确的词串的中文分词问题无疑是实现中文信息处理的首要问题。
2 全文检索系统设计
2.1 业务需求分析
全文检索系统依附于具体的公安业务系统,全文检索数据库与业务数据库进行数据对接,同步更新。
目前来说,系统的索引范围按照对象的物理分布不同分为2类:第1类是业务数据库中存在的相关数据记录内容。第2类是系统上传的各类文档附件,包括WORD,EXCEL,PDF,TXT等格式的文档。
全文检索系统实现对现有业务要素高效、准确、全面的查询分析,主要包括几部分:(1)实现对全部业务关注数据的文本抽取、信息聚集、主题描述,能通过关键词检索到相关联的主题信息。如通过人名可以查询到与之相关的人员基础库信息、关联的情报信息、关联的人员相关附件。(2)建立相关业务要素主题库,主题库包含业务要素对应的业务系统内部所有关联信息;搭建全文检索环境,提供对主题库的索引建立、排序等。(3)建立合理的结果排名权值模型,为用户提供精准的数据探查,提供对业务系统内部所有信息的全文检索,在业务系统中快速查找与关键词相关信息项。
2.2 数据库设计
全文检索数据表为Search_Content,主要包括以下几个字段。
ID:数据表的主键,唯一标识该实体。
CONTENT:人员或者情报信息的全项信息,包括人员或者情报信息的所有关联信息,以及人员或者情报信息相关的附件文档内容。
OBJNAME:检索结果的分类,包括人员、情报信息、人员附件、情报信息附件等几项内容,对检索出的结果进行分类展示。
BASEID:关联的业务数据库中的人员表、情报信息表的主键。
BASETABLE:关联的业务数据库表名,包括人员表名、情报信息表名、相关附件文档表名等。
KEYWORDS:关键字的权值,为搜索结果的排名时使用。
3 全文检索功能的实现
全文检索系统覆盖足够全面的数据范围,提供高效快速的全文、智能检索和多样化的查询和检索手段,使用户能快速在海量的汇集数据中找到相关信息,并进行一定的统计、监控、分析等应用。
3.1 信息抽取
为实现全文检索,提高整体的响应速度,系统应采取预先建立全文索引的方式。原则上,数据库表的所有字段都建立索引,做到索引信息与数据库信息完全匹配。系统应具备多数据源的混合抽取能力,并能针对各种不同业务数据源进行不同方式的扫描处理。
关键词:信息检索;搜索引擎;索引
中图分类号:G252.7文献标识码:A 文章编号:1001-828X(2011)12-0269-01
一、国内外现状及其分析
在过去的20年中,信息检索领域得到了不断的发展和壮大。现在,有关信息检索的研究包括建模、文献分类和归类、系统构建、用户界面、数据可视化、信息过滤和查询语言等。虽然信息检索正在不断成熟,但是WEB的设计、定义、基本的数据模型并不能满足于人们对信息检索的需求,因此基于java的全文信息检索引擎框架系统的设计与开发的研究势在必行。
二、系统设计
1.设计思想和原则
(1)充分利用现有工作基础和成果,进行改进、提升和整合,避免重复建设。(2)模块之间关系尽量做到高内聚低耦合,通过定义一系列的接口和抽象类提高系统的可扩展性。(3)代码编写规范化,配有一定的注释,保证代码的重用性、可读性,可以进行快速的二次开发。
2.接口设计
本系统外部提供了简单的建立索引和搜索的API,但是内部的机制却是非常复杂的,通过调用这些API用户可以实现为文件建立索引并进行简单搜索的功能。系统主要的建立索引的API如下所示。
(1)FileIndexer:索引操作的入口。该类的Index(File)方法递归遍历文件系统目录中的并同时调用相应的解析器索引其中所有的文件。(2)Properties:该类将文件的扩展名映射到能够解析以这些扩展名为后缀的文件的DocumentHandler实现类上。(3)Analyzer:系统的文本分析器。本系统运用了其子类IK_CAnalyzer进行文本解析。
3.索引结构设计
本系统中最基础的概念是索引(index)、文档(document)、域(field)和项(term),索引包含了一个文档的序列。
(1)文档是一些域的序列。(2)域是一些项的序列。(3)项就是一个字串。
域的文本可能以逐字的非倒排的方式存储在索引中。而倒排过的域称为被索引过了。域也可能同时被存储和被索引。域的文本可能被分解许多项目而被索引,或者被用作一个项目进行索引。
FileIndexer类的Index(File file)方法递归遍历文件系统目录并同时调用相应的解析器索引其中所有的文件。
4.部分程序设计代码
本框架系统并不关心数据的来源,格式,甚至文件使用什么自然语言都没有关系,只要可以把它转换成文本格式。目前系统只能索引和搜索MSWord、PDF、纯文本文件、HTML格式的文件,随着框架的进一步丰富,将会有更多格式的文件可以被本系统索引。具体的建立索引和搜索的过程如下所示。
public static void main(String[] args)throws Exception{
if(args.length!=3)
{System.err.println
("USAGE:java"+FileIndexer.class.getName()
+"-propertiesFile"+"-fileToBeIndexed"+" -indexFileSaved");
System.exit(0);
}
Properties prop = new Properties();
prop.load(new
FileInputStream(args[0]));
fileIndexer.indexBuilder.setMaxFieldLength(2048);
long start = System.currentTimeMillis();
fileIndexer.index(file);
fileIndexer.close();
long end = System.currentTimeMillis();
System.out.println(end-start);
}
上述建立索引和搜索过程应用的是FileIndexer框架,这个框架存在一个很明显的缺陷:它基于文件扩展名是正确的前提之上,并且要求所有的文件都必须带有扩展名。
本文件的文件扩展名总是.txt,而不会是其他的扩张名;有假设MS Word文档文件扩展名一定为.doc等等。本系统包含了能处理如下类型输入文件的几个解析器:
(1)HTML、HTM;(2)PDF;(3)MS Word;(4)纯文本文件.txt。
所以如果遇到了现有的框架不能处理的文件类型,而你又需要对此类型的文件进行索引从而使之可以被搜索时,这时该去扩展这个框架。为了更准确地进行框架的扩展操作,请遵循以下的几个步骤:
(1)编写一个用于解析目标文件类型的解析器,并实现DocumentHandler接口。(2)在handler.properties文件中添加你的解析器类,将此类映射到对应的文件扩展名上。(3)用上例的所示的方法运行FileIndexer程序。
三、系统测试
软件测试是一项非常重要的工作。它在软件的整个生存期中占据重要的位置,对软件的运行具有极其重要的意义。
(1)测试用例一:
索引文件:Lucene:基于Java的全文检索引擎简介.htm。
文件大小:52KB。
提取索引项(Term)个数:401。
所用时间:1094milliseconds。
(2)测试用例二:
索引文件:Lucene:my_search.txt。
文件大小:5KB。
提取索引项(Term)个数:252。
所用时间:853milliseconds。
四、总结
由于时间仓促,在这次程序设计的过程中,本软件还有不完善的地方,这有待笔者以后继续完善,恳请各位同行提出批评改进意见。
参考文献:
[1]谭浩强.C程序设计(第二版)[M].清华大学出版社,1999:298-308.
软件着作权登记申请文件应当包括:软件着作权登记申请表、软件的鉴别材料、申请人身份证明和相关的证明文件各一式一份。
1、软件着作权登记申请表
?应提交在线填写的申请表打印件,签章应为原件。
2、软件(程序、文档)的鉴别材料
?一般交存:源程序和文档应提交前、后各连续30页,不足60页的,应当全部提交;
?例外交存:请按照《计算机软件着作权登记办法》第十二条规定的方式之一提交软件的鉴别材料。
注:源程序和文档应在页眉上标注相应的软件名称和版本号,右上角应标注页码,源程序每页不少于50行,文档每页不少于30行。
3、有关证明文件
证明文件包括:申请人及人的身份证明文件、权利归属证明文件等。
①委托书及人身份证明
登记申请委托的,应当提交人的身份证明文件复印件,申请表中应当明确委托事项、委托权限范围、委托期限等内容。
②有效身份证明文件(单位的需盖公章)
?企业法人单位提交有效的营业执照副本的复印件;
?事业法人单位提交有效的事业法人证书的复印件;
?社团法人单位提交民政部门出具的有效的社团法人证书的复印件;
?其他组织提交工商管理机关或民政部门出具的证明文件复印件;
?自然人申请的,提交身份证或护照等有效证明的复印件。
③权利归属的证明文件
?委托开发的,应当提交委托开发合同;
?合作开发的, 应当提交合作开发合同;
?下达任务开发的, 应当提交上级部门的下达任务书;
?受让取得软件着作权的, 应当提交软件着作权转让协议;
?原着作权人的企业被合并或分立,由合并或分立后的其他企业享有着作权的,需要提交的证明文件包括:企业注销登记证明、股东会或董事会决议等其他证明;
?继承人继承的,需要提供的证明文件包括:被继承人的死亡证明、被继承人有效遗嘱、与被继承人的关系证明、继承人身份证明、法院的法律文书等。
关键词:建筑物区分所有权;共有权;归属问题
一、建筑物区分所有权之共有权的法律概念
我国物权法采取广义的建筑物区分所有权的概念,将建筑物区分所有权分为专有部分所有权、共有部分所有权和成员权组成。建筑物区分所有权之共有权是指建筑物区分所有权人按照法律或管理规约的规定,对区分所有建筑物的共有部分所享有的占有、使用和收益的权利。
二、建筑物区分所有权之共有权的性质
关于建筑物区分所有权之共有权的性质,学说上有很大争议。概括起来,主要有"总有说"、 "按份共有说"、"共同共有说"和"区别情况说"。笔者在比较以上各种学说后认为,建筑物区分所有权之共有权的性质为共同共有,具有人合性。理由如下:第一,从成立原因上看,建筑物区分所有权这种共同关系是基于共同居住和共同支配、共同管理的需要,这种共有虽然不同于传统的亲属身份关系,但是各个区分所有人需要长期地使用共用部分,因此,区分所有权人具有共同关系。第二,从分割限制来看,共有部分是为了更好地实现专有部分之权利而存在的一个部分,各区分所有人不得自由分割共有物,不得以专有份额请求分割共用部分。第三,从存续期间看,建筑物的使用期限大多较长,因此这种共有关系存续时间也相对较长。
三、建筑物区分所有权之共用部分范围的界定
依我国《物权法》第73、74条的规定,共用部分应解释为包括:(1)建筑区划内的道路(但属于城镇公共道路的除外);(2)建筑区划内的绿地(但属于城镇公共绿地或者明示属于个人的除外);(3)建筑区划内的其他公共场所、公用设施和物业服务用房;(4)占有业主共用的道路或者其他场地用于停放汽车的车位。此外,综合考虑日本及我国台湾地区建筑物区分所有权法的规定并根据我国的实际情况,地基、电梯、楼顶平台等一并解释为《物权法》所称的共用部分的范围。
四、建筑物区分所有权之共有权具体问题分析
(一)地下停车场的权利归属问题
我国《物权法》第74条对占用业主共有的道路或者其他场地用于停放汽车的车位的产权归属比较明晰,明确确定为归全体业主共有,属于区分所有建筑物共用部分中的法定共用部分。而规划用于停放汽车的车位、车库的归属,争议较大。有人认为,地下停车场属于"其他场地",属于业主共有,对此,最高人民法院于《〈中华人民共和国物权法〉条文理解和适用》中论述对于此款的理解时指出:"本条仅规定了占用业主共有道路、其他场地上用于停放汽车的车位,业主共有,未包括车库。……车库所占用的土地使用权,不能当然地认为属于业主共有。地下空间利用权虽包含在土地使用权之中,但其并非随专有部分的购买而当然取得……"由此可见,《物权法》中的"车位"是指室外停车场,"车库"系指地下停车场。据此,笔者认为地下停车场的归属,应当由当事人通过出售、附赠或者出租等方式约定。
最高人民法院在谈到该问题时认为:"建筑区划内的车位、车库问题涉及业主的基本权利,实践中其归属问题的判断非常复杂,如果仅仅依靠《物权法》作出判断,即采取'一刀切'的法律统一规定的方式予以解决,不尽科学亦有失简单,……在目前现行法律没有对车位、车库的归属作出明确规定的情况下,要求当事人通过合同的方式约定车位、车库的归属"。显然,采用"一刀切"的方式不能解决此类纠纷,但是《物权法》此款规定也是相当不完善的。《物权法》的规定是对当事人双方意思自治的尊重,但是实际上双方当事人地位并不对等,在这种情况下尊重当事人的意思自治而又没有相关配套设施,无异于为强势一方(开发商)侵害弱势一方(小区业主)的利益披上了合法的外衣,必将损害小区业主的利益。因此要解决这方面的纠纷,笔者的建议是直接规定地下停车场为全体业主共有,开发商将建设成本计入物业之中,由小区业主大会制定停车费收费标准,停车费由物业公司代为收取,在扣除一定的管理费用后,将其余款项划归全体业主共有。
(二)小区内绿地权利的归属问题
我国《物权法》第73条明确规定:"建筑区划内的绿地属于业主共有,但属于城镇公共绿地或者明示属于个人的除外"。可见,在无相反规定的前提下,小区内绿地应当定义为公共场所,属于全体业主共用。然而在实际生活中,经常出现开发商将窗前绿地与一楼住宅进行捆绑销售的行为。对于小区内绿地权利的归属,仅仅用《物权法》第73条规定是远远不够的,还必须有具体的细则加以补充。笔者认为,要切实保护业主对小区内绿地的共有,就必须对"明示属于个人的除外"这一开发商容易操作的部分做如下解释:开发商开发楼盘直至售楼交付前,应当是建筑区划内所有设施的所有权人。但是售楼开始后,绿地能否作为开发商"明示属于个人所有"的关键在于该绿地所占用的建设用地是否已计入业主的土地公摊面积。计入公摊面积的,为全体业主共有,开发商则无权处分,即不能"明示属于个人所有"。未计入公摊面积的,应当由开发商举证证明属于个人所有,如果开发商能够证明,那么开发商就有权对该部分绿地通过出售或赠送的方式明示属于个人所有。采此标准,就可以充分保护业主对小区内绿地的共有权,从而维护小区业主的合法权益。
(三)楼顶平台的权利归属问题
楼顶平台是建筑物的基本构造,其功能不仅在于遮风避雨,而且其载重量还直接关系到整栋建筑物的安全和使用寿命。因此,按照共用部分和专有部分区分的理论学说和规则,楼顶平台属于区分所有建筑物的共用部分,不能归属于顶层区分所有权人专有使用,应当归属于全体区分所有权人共有。然而实践中,不少开发商把楼顶平台或赠、或卖顶层业主,或由物业公司出租赚钱,更有甚者,一些开发商在楼顶修建所谓的"空中花园",以变相形式利用屋顶,显然这些行为都侵犯了其他住户或者所有业主的共有权。但是由于《物权法》没有专门提及楼顶平台的归属问题,有关这部分的规定也散见于《商品房销售面积计算分摊规则(试行)》、《物业管理条例》等一些非规范性法律文件中,而且在实际生活中的处理方式并不统一,甚至因此产生纠纷。
因此,解决楼顶平台的权属争议,笔者赞同杨立新教授的观点。杨教授认为:1,楼顶平台所有权归属于全体区分所有权人共有,原则上不能归属于顶层区分所有权人专有使用。2,开发商与个别区分所有权人约定楼顶平台的专有使用权的,不发生法律效力,顶层区分所有权人不能够取得其专有使用的权利。3,能够决定楼顶平台如何使用的,只有全体区分所有权人会议。因为首先楼顶平台关系到建筑物的防雨、寿命和安全,关系到全体区分所有权人的利益。其次,建设楼顶平台,可以增加区分所有权人的活动空间,于全体区分所有权人有益。再次,楼顶平台的开发利用,例如利用楼顶平台做广告,其所得利益应当归属于全体区分所有权人。可见这些利益与全体区分所有权人息息相关,不可予以侵害,对于这些重大利益,必须由全体区分所有权人会议决定。总之,楼顶平台由全体区分所有权人共同共有,在司法实践中,应当对全体区分所有权人提供平等保护。
参考文献:
[1]陈华彬.《建筑物区分所有权研究》[M].北京: 法律出版社,2007(7).
[2]梁慧星.《中国物权法草案建议稿附理由》[M].北京:社会科学文献出版社, 2007.