首页 > 文章中心 > 信息检索

信息检索

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇信息检索范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

信息检索

信息检索范文第1篇

【关键词】网络信息;检索

随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。

随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。

目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。

另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。

从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。

Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:

1.智能化

现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。

2.标准化

现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。

3.个性化

信息检索范文第2篇

[关键词] 向量空间 中文 信息检索 经济

信息检索( Information Retrieval) 是一个古老而又全新的话题。说它古老,因为自从有了文献便有了信息检索。当人们从中查找所需信息时,信息检索也就应运而生。只不过那时可检索的对象较少,因而检索是一个不自觉的过程。早期的信息检索主要是手工检索,人们通过“心想――手翻――眼看”的方式进行。随着社会的发展和信息量的增加,人们逐渐认识到信息检索的必要性与重要性,信息检索逐渐作为一门新兴的学科发展起来。现代信息检索是以计算机科学与技术、网络技术、光盘技术、通信技术等现代信息技术在信息存储与检索中的应用为基础发展起来的。

一、信息检索简介

1.概念

广义的信息检索范围很大,可以说从书本、报纸以及其他的各种媒体中查找人们需要的信息都可以称为信息检索。

狭义的信息检索是特指利用计算机这个高效的工具对各种信息进行检索的技术。信息检索的内容包括文本、图像、视频和音频等多种,但本文只讨论文本信息的检索技术,特别是中文信息的检索技术。

信息检索是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的信息需求(User Information Need)的技术。

2.Web信息检索

Web的出现大大地促进了信息检索技术的发展。Web上有异常丰富但又十分混乱的信息资源,其中绝大部分有用的信息还没有挖掘出来。这是因为目前还没有特别好的信息处理和检索工具。这一领域的开发仍然处于初级阶段。

3.中西文信息检索比较

在文本信息检索领域,西文信息检索的发展较为迅速。西文信息检索系统可以利用向量空间表示检索信息内容,并将自然语言处理应用于信息检索,大大提高了信息检索的准确性。中文信息的检索和英文信息的检索在很多地方是一致的,但也有一些不同。比如中文词语之间没有空格,因此在索引前需要进行词语切分。此外,与英文相比,汉语句法分析和语义理解更为困难。

4.信息检索的模型

一般有两种信息检索模型:基于统计的模型和基于语义的模型。基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档;而基于语义的模型则尝试对需求实现一定程度语法语义分析,即对自然语言文本进行一定程度的理解并重新生成查询。

基于统计的模型主要有:布尔模型(Boolean Model)、扩展布尔模型(Extended Boolean Model)、向量空间模型(Vector Space Model)以及概率模型(Probabilistic Model)等。

二、向量模型

向量模型是重要的检索模型,其主要优点在于:a、通过对特征项的加权改进了模型的检索效果;b.模型的部分匹配策略允许检索出与查询条件相接近的文献;c.相似度的引进使得能够对查询结果进行排序,以倒排文档方式提交结果。

1.文档和项的向量空间表示

首先把一个文档进行分词处理,并去除那些停用词,如“我”、“的”、“人们”等。然后对剩余的词进行合并处理。

在一个给定的集合中先对每个文档进行以上的操作,获得每个文档索引项的集合。再把所有文档的索引项进行合并,形成了一个代表整个文档集合的索引项集合,整个索引项集合表示了一个“空间”。在一个文档空间中,可以给每个索引项赋一个权值,代表这个索引项在这个文档中的地位。如表1所示,文档1的向量空间是(3,4,5),文档2的向量空间是(2,3,3)。

与文档空间相对应的一个概念是“项空间”,它是指一个索引项在文档集合中的各个文档权值的集合。如表1所示,索引项“经济”的向量空间是(4,3,0,0),索引项“金融”的向量空间是(5,3,0,5)。

于是文献和查询均可用由项构成的向量来表示:d=(t1,t2, ……,tn) 。项的权重(term weight) :对于有n 个不同的项的系统,文献D=(t1,t2,……,tn)。

2.项权值

项t k(1≤k≤n)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项t k 的权重。因此,我们一般用D=(w1,w2,…,wn)的形式表示文献。特征项的权重计算,是人为赋予的,因此主观性较强,但比较权威的确定权重的方法是运用TF - IDF 公式,即Wik = tfik/dfk=tfik ×idfk,其中tfik为特征项Tk在文档Di中的出现频率,称为项频率(term frequency);dfk则是文档集D中出现特征项Tk的文档的数量,称为文档频率;idfk为dfk的倒数,称为反转文档频率(inverteddocument frequency)。另外,还应考虑到文档的长度,否则长文档易被检出,而短文档会被漏检,所以通常还要对上面公式进行标准化处理。

假设有三个项:“经济”、“金融”和“计算机”,它们在不同文档中的权值如表1所示。

根据这个表,可以画出权值和文档的三维向量空间。

3.计算向量之间的相似程度

相似度S(Similarity):指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角θ的余弦来计算,两者夹角越小说明相似度越高。由于查询也可以在同一空间里表示为一个查询向量(见图1),可以通过相似度计算公式计算出每个文档向量与查询向量的相似度,排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关,保留该页面查询结果;如果小于则不相关,过滤此页。这样就可以控制查询结果的数量,加快查询速度。

三、以经济信息检索为例的实例分析

经济发展依赖于自然资源的开发与利用,也离不开经济信息资源的开发和利用。开发经济信息资源,实际上是对人类智力的开发,是一种知识和科学技术的开发,一种生产技能和管理技能的开发。现在,经济信息已经渗透到现代生活的各个领域,有效地地开发和利用经济信息,提高经济信息的传播速度已经成为现代经济发展的一种推动力,能够大大提高劳动者的智力水平,从而促进经济的发展。因此,在以经济建设为中心、大力发展社会主义经济的过程中,必须不断地开发和利用经济信息资源。

经济信息是一种社会资源,作用于经济活动过程,已经成为现代社会经济发展的一个先决条件。现代经济建设是一个庞大而复杂的系统,需要依据大量的经济信息去控制、指挥、协调和组织系统的内部关系,系统和系统之间也需要靠经济信息去联系,才能使经济活动达到人们预期的目标。在科学技术迅猛发展的社会里,经济信息资源显得更加重要。

假设现有一个包含4篇经济金融类相关信息文档的集合,这4篇文档如下:

D1:金融投资的对象是金融资产……

D2:金融资产是获得投资收益的资产……

D3:证券投资、基金投资和期权投资组成金融投资……

D4:获得投资收益是证券性金融投资的主要目的……

检索表达式Q为:金融投资的资产收益。

首先,需要对文档和检索表达式进行分词处理,其结果如下:

D1:金融/投资/的/对象/是/金融/资产/……

D2:金融/资产/是/获得/投资/收益/的/资产/……

D3:证券/投资/、/基金/投资/和/期权/投资/组成/金融/投资/……

D4:获得/投资/收益/是/证券/性/金融/投资/的/主要/目的/……

Q:金融/投资/的/资产/收益/。

然后除去停用词,去除后的文档如下:

D1:金融/投资/对象/金融/资产/……

D2:金融/资产/获得/投资/收益/资产/……

D3:证券/投资/基金/投资/期权/投资/组成/金融/投资/……

D4:获得/投资/收益/证券/金融/投资/主要/目的/……

Q:金融/投资/资产/收益/。

计算项的权值根据公式

各个索引项的df和idf值如表2所示

各个索引项在文档中的频度如表3所示

则各个索引项在文档中的权值如表4所示

检索表达式的权值很简单,如表5所示

采用内积法计算向量的相似度,则可以看出,文档D3与检索表达式的相似度最高,D1、D2、D4相同且低于D3。

四、算法分析总结

算法的计算复杂程度还需要进一步探讨,目前这些研究都还不够深入,许多问题还有待于进一步探讨;同时由于自然语言的复杂性,新查询向量的查全率和查准率虽然有所提高向量模型是以假设向量空间的各维之间相互正交(即各关键字之间相互独立) 为前提的,因而不可避免地存在由此带来的损失关键字间的相关性的缺点,可它把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相关程度,因而可以很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现,尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来,至今都有很强的生命力。

参考文献:

[1]雷景生林冬雪符浅浅:基于改进向量空间模型的Web信息检索技术研究[J].计算机工程, 2005, 1: 14~16

[2]王晓黎王文杰:基于向量空间模型的文本检索系统 [J].微电子学与计算机, 2006, 23: 188~190

[3]包金龙:基于向量空间模型的信息检索系统的设计 [J].情报检索, 2005, 7:44~45

[4]安茹娜:浅析经济文献信息的开发和利用[J].科技情报开发与经济,2007,12:54~55

信息检索范文第3篇

摘要:随着信息技术的发展以及药学信息资源的更新,传统药学信息检索课程的教材内容和教学形式均有不同程度的老化。为应对这一问题,应强化对药学类学生信息素养的培养,改革该课程的教材和教学形式。

关键词:药学信息检索;课程教学;改革

药学信息检索是药学类专业的必修课程,在培养学生的药学科研和工作能力方面起着不可替代的作用。在新的网络环境下,药学信息资源急剧膨胀,新技术、新手段不断涌现。然而长久以来,无论是药学信息检索的课程教材还是教学手段,仍然维持20世纪的传统,无法跟上时展的潮流,培养的学生在检索能力方面必然会有所欠缺。为了尽可能地克服这一缺陷,提高学生的信息获取能力,有必要从教学团队、教材、教学新手段等方面入手,加强本课程体系建设,更新课程内容,采用与时代接轨的新技术作为教学方法,提高学生的学习兴趣,进而培养他们获取更全面的药学信息资源的能力[1-5]。

1药学信息检索教材建设

1.1现有药学信息检索教材的不足

本教学团队在2015年调研常见药学信息检索类教材后总结了这些教材的不足之处。首先,这些教材缺乏反映药学信息最新发展的内容:①不同程度地存在外文信息量不足、新药研发相关信息和国外新上市药物信息不足、药物经济信息和药事管理信息欠缺等共性的问题。②随着计算机技术和网络信息技术的飞速发展,网络数据库检索已成为当前信息检索的主要工具,因此,药学信息检索理论应包含数据库检索常识。③文献管理工具应运而生,极大地方便了文献的检索、管理与利用,多数教材没有对该方面内容进行更新。④垂直搜索引擎自2000年左右出现后,十多年来蓬勃发展,已取得很多突破性的研究进展,典型的如学术google、soopat等,为广大科研人员进行信息检索提供了极大便利,而已出版教材对此类问题的介绍却寥寥无几。另外已出版教材中不同程度地存在内容陈旧和滞后的问题,其陈旧性主要表现在以下三个方面:①教材中手工检索、光盘检索等内容陈旧落后,而联机检索只适用于情报专业学生,不宜花费较多笔墨;②网络信息发展日新月异,很多网站的网址、格局和具体内容等都已变化,而教材再版时却缺乏修订;③很多数据库开始提供新的服务方式,其更趋于人性化和合理化。如引入文献跟踪传递、Client模式向WEB模式的转变等,出版教材中对此鲜有介绍;④目前出版的同类教材多侧重对检索工具使用方法的罗列,在将检索理论应用于具体问题方面存在不同程度的欠缺,实用性有待加强。

1.2革新药学信息教材的建议

针对上述现有教材的不足,结合药学信息资源与技术发展的趋势,一部合格的教材至少应该具备涵盖药学信息更全面、检索理论更完备、教学内容更合理、更新颖、易读性更好和实用性更强等特点。结合多年的药学信息检索教学与相关科研经验,笔者拟通过以下7个方面对药学信息检索教材进行改革。①立足全球药物研发、生产、流通、使用及药事管理等5大领域,进一步完善药学信息资源的覆盖范围。从上述5个角度出发,通过全面、系统地阐述各领域药学信息的分布、相关权威网站信息资源和权威信息检索工具,进一步拓宽药学信息资源的覆盖范围,为学生将来从事相关领域工作奠定基础。②进一步完善、改进药学信息检索的理论体系,在现有理论体系的基础上,补充讲解数据库检索常识和文献管理应用等两部分内容。③引入信息检索的新工具、新理念,进一步完善、优化和整合药学信息检索教材的内容。引入或强化对Googlescholar、百链、Markush专利检索等新检索方法的介绍。④更新教材中陈旧滞后的内容,系统性地更新重要数据库、网站的信息,保证教材内容与最新信息的一致性。⑤通过增加案例分析的比例,从而提高教材的易读性。同时,对于同类型检索工具,采用概述全部、重点阐述经典工具的原则指导教材编写。如对于期刊文献的索引检索工具,通过实例重点介绍科学引文索引(ScienceCitationIndex,SCI)的使用;对于期刊文献的文摘检索工具,通过实例详细介绍Scifinder和Pubmed的检索方法。⑥药学信息检索是一门实用性要求极高的课程,教材应重点突出实用性。教材编写时可从药学信息资源的分布规律和日常使用习惯出发,强化对权威检索工具的介绍,弱化对不常用工具的介绍。⑦新药立项调研需要获取多方面的信息,不仅涉及众多的数据库,要求调研人员具备深厚的药学信息理论知识和扎实的检索技能,同时还要求熟悉调研的基本程序。现有教材在立项调研方面着墨不多,而药学类专业学生在毕业后大部分从事药学相关工作,因此有必要在教材中引入新药立项调研的内容,帮助初学者了解新药立项调研的主要流程,为其今后从事相关工作奠定基础。

1.3新编药学信息检索教材的实践

为实践上述教材编写理念,教学团队积极申报,经专家论证和江苏省教育厅批准,《新编药学信息检索教程》(ISBN:9787564166045)获得立项为2015年江苏省高等学校重点教材(新编)。全书共分3篇,分别是基础篇、检索篇和管理利用篇。基础篇主要包括第1章的内容,讲述信息与文献的概念、文献的分类、药学信息及其分布;重点讲述信息检索的概念、检索步骤、检索效果的评价方法、文献鉴别方法与阅读文献的技巧;最后总结了数据库检索的常识。基础篇的学习为后续检索和管理利用文献奠定理论基础。检索篇包括第2、3、4、5章,按照信息资源的类型,分别讲述网站信息资源(第2章)、书籍与期刊(第3章)、特种文献(第4章)、其他药学信息资源(第5章)常用的检索系统及其使用方法。掌握这些资源的概念、特点及检索技能,是做好信息检索工作的前提与保障。管理利用篇主要包括第6、7章的内容,第6章介绍网页及文献管理的常用工具及其使用方法,重点介绍经典的文献管理软件EndNote;第7章介绍新药立项调研的内容及方法。令人欣喜的是,2016年出版的《药学信息检索与利用》(ISBN:9787117221252)也对传统教材的内容和体系作了较多的创新,这表明教学同仁们都已意识到对药学信息检索教材进行革新的紧迫性和必要性,并且进行了有益的尝试。

2药学信息检索课程的新教学形式

一般而言,传统药学信息检索的教学形式主要是教师课堂讲授,辅以少量的学生检索实践。然而近年来慕课(Massiveopenonlinecourses,MOOC)模式正深刻影响着大学教学方式的转型[3],针对药学信息检索教学仍然是课堂教授型为主的现状,教学团队在教学中引入MOOC模式,利用E-class平台建设了课程网站(图1),摄制主要教学内容的教学视频,采用平时化、小组化的形式引导学生开展“课堂外+线上”的辅助学习形式。在教学实践中,通过课程网站短小精悍的慕课视频(图2),提供暂停、回放等多种功能,由学生自我控制学习节奏;以在线交流或留言的方式提前了解学生的学习困难,在课堂上给予有效的辅导,同时以学生的相互交流促进其对知识的吸收;另外,通过课程网站若干典型的问题,帮助学生及时进行检测,使其对自身的学习情况作出判断,其结果经汇总处理后,能帮助教师进一步了解学生的学习状况。传统药学信息检索课程对学生学习质量的评测主要是通过书面考试,但学生可以在考试前突击记忆知识点,考试成绩并不能代表真实的检索水平和能力,起不到全面的考察作用。为此,笔者所在教学团队试行了综合PBL教学模式和翻转课堂(FlippedClassroom)模式的课程考核体系。该体系包括向学生小组检索任务、学生分工完成检索课题、课堂展示检索报告、小组间互相提问并交流等环节。教师在整个体系中仅扮演引导者的角色,某一小组的成绩由其他小组打分而来。但对于学生在检索和展示过程中暴露出的问题和欠缺,教师结合理论知识和实践经验对学生进行点拨,从而深化学生对相关检索技术的理解,强化学生的检索技能。通过这样的教学活动,不仅可以引导学生对药学领域的热点研究方向、焦点话题进行关注,训练他们解决实际问题的能力,还通过引入团队互评机制,使得对学生学习质量的评估更加客观化和日常化。培养药学类专业学生的良好信息素养不仅需要强化他们的药学信息检索技能,还应该使学生认识到时刻接触并掌握最新药学信息的必要性和重要性,引导学生养成平时阅读药学研究、监管、市场等相关信息的习惯。随着智能终端与移动互联网技术的发展,移动阅读正在逐渐占据学生课堂外的主要阅读时间[4-5],教育者不应排斥这一趋势,而应该顺势而为。教学团队在教学中注重发挥移动阅读的优势,将教学内容与新兴技术结合后推送给学生,通过增强内容的可读性、技术的实用性来吸引学生关注,从而达到对学生全方位的教育目的。

3总结

目前的药学信息检索类教材编写年代相对较早,存在不同程度的缺陷,难以适应新时代的教学需求。教学团队一方面从课程教学内容入手,从基础上更新教材,引入新的信息资源、检索方法与技术,使学生所学与时展吻合。另一方面,对教学形式进行革新,引入慕课、移动学习、翻转课堂、项目化任务等多种新教学手段,吸引学生的学习兴趣,强化对学生实际检索能力的训练和考察。良好的信息获取能力对于现代药学类专业学生有重要意义,可以为学生今后的工作奠定全面扎实的信息检索基础。本次教学改革以新内容、新手段革新药学信息检索课程,有利于吸引学生的学习兴趣,增强学生的学习效果,提高学生的检索能力。

参考文献

[1]杨霞.“互联网+”视阈下医学文献检索课的理性思考[J].电脑知识与技术,2016,12(30):172-175.

[2]刘玉婷,王凌,马路.医学信息检索课程现状调研及改革探讨[J].医学信息学杂志,2014,35(12):81-84+72.

[3]姬晓燕.医药文献信息检索教学的改进[J].药学教育,2012,28(4):38-40.

[4]檀律科,何华,孙忠进,等.创新意识下的药学研究生文献检索课程[J].药学教育,2011,27(2):27-29.

[5]陈丽.新时期医药院校文献检索课教学改革探讨[J].医学信息学杂志,2011,32(6):88-90.

[6]张丹.MOOC环境下我国信息素养教育研究综述[J].图书情报工作,2016,60(11):143-148.

[7]曾润喜,陈创.大学生移动阅读行为的研究进展评述[J].数字图书馆论坛,2017,13(3):60-67.

信息检索范文第4篇

当今社会,科技飞速发展,我们已经进入了信息网络化社会。快速、全面、准确地获取所需要的信息,是现代人才必备的素质。高校作为培养国家各种管理和科研人才的摇篮,必须上好信息检索课。信息检索课和其他课程既有共性,又有自身独特的规律。要想上好这门课程应解决好如下几个问题。

第一,要转变思想观念,给信息检索课以应有的地位。

很多学生,也有部分教师认为信息检索课对学生们是可有可无的,不开设此课学生照样写各种论文,照样毕业。这是一种把此课的意义和目的简单化的错误认识。

很多高校给信息检索课设定了不同的名称和地位,但多数都不能反映本课程的内在价值。现在已是信息网络时代了,这门课程同数学、语文、外语等学科一样,应是一门基础的必修课。信息检索是人人起码应具备的一种能力和手段,只不过不同专业的学生所检索的信息内容不同罢了。该课程地位不高,也是学生不重视的一个主要原因。

信息检索课应该是一门具有长远战略意义的课程,它关系到国家、民族的兴衰。

第二,加强专业教师的培养,建立一支专业教师队伍。

人是生产力中最活跃的因素,起决定作用。信息检索课对教师综合素质要求很高,不仅要有良好的信息及其检索素质,还要具备相应的计算机、图书馆学、外语知识,懂得更多其他的专业知识特别是懂自然科学各专业知识是非常重要的。

现在,很多大学都是由图书馆工作人员来承担这项任务的。图书馆人员讲此课程有其优势所在,但毕竟离专业教师水平还是有一定差距的。

教和学是教学过程中不可缺少的两个相关的方面。所以我们应大力培养专业教师,越多越好,以解决现在这方面人才的缺乏和综合素质不高的难题。要培养“复合型”人才,首先应有“复合型”的教师队伍,使信息检索课有质的飞跃。

第三,要明确信息检索课的最终目的。

教学目的明确与否,直接影响教学质量和效果。学校和教师不应该把通过此课的教学使学生获得相应的知识和能力来解决平时查资料、完成作业和写毕业论文等作为此课的最终目的,这样短视的目的势必削弱此课的重大意义和价值,降低其应有的地位。

信息检索这门课程培养的信息检索意识和能力应该是一种持久的、终身起作用的一种能力,即使学生毕业离开教师和学校到新的工作岗位时,依然能凭借这种能力及时更新、补充、获取新的信息知识,解决自学、科研、工作中的问题。

有了如此深刻的认识,必然激发教师的责任感和事业心,学生们也一定能重视起来,努力学好这门课程。

第四,正确处理理论课和实习课的关系。

每一门课程都是由特定的研究对象及其性质、特征等构成的完整理论体系,有其自身的规律和原则。如果不把这些最基本的东西讲给学生,他们就不能对本课程有一个宏观的掌握,没有此知识作为基础,学生们对实习课就心里没数,认识模糊,实习课将是盲目的,不会也不可能收到良好的效果。

我们强调理论知识的重要性,并不否定实习课的意义。这门课程实质就是让学生们在具备了一定信息知识和意识后,用其去指导实习活动,培养信息检索能力。能力是要通过实践锻炼培养出来的,本课程的最大特点之一就是实践性强,强调学生多动手,动手查找各种工具书,运用各种数据库及各种手段,去解决实际问题。因此,实习课也是此课程不可缺少的组成环节,而且有其重要的地位和作用。

我们反对因这门课程实践性强,而少传授或不传授必要的信息检索知识;也反对因传授必要的基础理论知识而轻视实践和实习。在有限的课时内,教师要根据本校实际状况和不同专业特点,灵活处理两者的关系,理论课和实习课都应有一定课时,不可偏废,这样才能获得良好的教学效果。

第五,解决好开课时机和教材问题。

开课时机的选择恰当与否,会影响教学效果。大学生在大一时忙于专业课学习,还没有必须通过信息检索来解决问题的需求。大一开设此课过早。过早开设,没有实习课做及时运用是容易忘掉理论的。我们在教学过程中发现大二是开设此课的最好时机,因为大一是基础积累阶段,到大二就产生了检索的客观需求了,这时开设,学生们会有雪中送炭的感觉,因此他们会有很大的兴趣去学习。过晚开设,不易在学校这几年里通过理论知识学习和相应的实习课培养出这种终身携带的能力。学生在高校环境中有利于培养信息检索能力的各种工具书、数据库和检索手段的帮助,走向社会后,很少有这样的机会和条件,所以在大学期间培养这种能力是必要的。

信息检索课教材五花八门,我们要根据学校的实际和培养目标来选取相应教材。我们对教材有如下要求:

第一,简明实用。教材要传授最基本的信息和检索知识及原理。作为学生的理论基础的教材,重点应放在各种工具书、数据库、联机检索、网络检索方面,这样有利于各专业学生快速掌握信息资源检索和利用的方法。

第二,全面新颖丰富。教材除了介绍传统检索方法外,还应全面细致地介绍当今国内外信息检索状况及发展趋势,提供本专业教师多年的经验与学术观点作为学生们学习此课的指导或导航,这样能快速培养学生的信息意识和相应能力,少走弯路,扩展视野。

第三,大力介绍国内外主要的信息服务机构和服务系统,使学生了解各种信息源及其质量,使教材更实用,保证学生们获得的信息全面、权威。

第四,教材应配备各种相应的多媒体。由于本课特点,如有各种多媒体的帮助,教学效果会更好。这些多媒体结合教材内容提供了大量的样例,并采取有利于学生思维方式和知识获取的相应结构设计,这种集文字、图像、音频、视频等于一体的教材,将直观和理论结合起来,充分调动了学生们的各种感官,有效提高了学生参与的兴趣和教学效果。

第五,与其他专业的关系。信息检索的速度、全面性和准确性,不仅仅取决于了解、掌握信息源和用什么方法去获取,而且还取决于对本专业知识的了解掌握情况,取决于对信息的表述语言的掌握。

世界上多数权威数据库是用英文完成的,很多学生经常跨学科进行信息检索,因此,从某种意义上说,信息检索是多学科知识的综合应用,信息检索需要多种知识和技能的支持。社会进步、科技飞速发展是用户信息变化、发展的直接动力。用户不仅仅需要本专业的学术信息,他们更需要全方位的综合信息。因此,信息检索能力和复合型人才、多学科知识是不矛盾的。

第六,与宣传、利用学校图书馆各种信息资源结合起来。

高校图书馆是学校的信息、科研中心,不仅有丰富的各种信息,更重要的是还有各种各样的信息检索工具、数据库和检索手段,是我们开设信息检索课的最好的实习基地。

首先让学生们了解、利用好本校各种信息资源是非常重要的。这些资源方便、实用,有针对性,使学生们省时省钱。教师在讲信息检索课时,有目的地让学生们了解图书馆方面的知识,让学生们知道本馆有哪些资源,在什么位置,用什么样检索工具和方法能获取。

这些不仅有利于学生们把理论与实践结合起来,有利于通过动手实践培养检索能力,达到了本课的最终目的,同时也提高了图书馆资源的利用率。

信息检索范文第5篇

Abstract: The Internet has brought convenience to the users' information retrieval, but also led to a large number of redundant information, resulting in inefficient retrieval. Semantic retrieval makes retrieval efficiency and retrieval accuracy greatly enhanced through semantic analysis of the requirements of the users to retrieve. Based on the analysis on basic elements of semantic retrieval and retrieval principle, this paper describes three common semantic retrieval systems, which embodies the advantages of semantic retrieval in network information retrieval environment.

关键词: 语义检索;本体;语义网

Key words: semantic retrieval;ontology;Semantic Web

中图分类号:TP39 文献标识码:A 文章编号:1006-4311(2013)10-0203-02

0 引言

互联网的快速发展和广泛应用,为人们提供了一个广阔的信息空间,也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制,使得大量垃圾信息混于高质量信息当中,增加了有效信息获取的难度,影响检索效率。因此,使用有效的检索工具才能使得网络信息资源为人们所充分利用。

1 网络信息资源点与检索工具

上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件(Robot、Spider等)访问浏览网页并抓取文件,并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引,建立索引数据库。当用户在搜索引擎界面输入搜索词后,搜索引擎对搜索词进行处理,按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页,并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大,无关和冗余信息较多,用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率,但对用户检索素养要求很高。针对以上问题,学者把研究对象放到对词意的挖掘上,探索实现基于概念匹配的检索技术和方法,基于本体的语义检索成为研究重点。

2 语义检索基本要素和原理

随着人工智能以及自然语言处理的发展,尤其是语义网技术的兴起,自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定,但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础,其主要任务是对信息资源进行语义表达。

本体(Ontology)原本是一个描述客观事物本质的哲学概念,是对客观存在的一个系统的解释和说明。如今,本体是一种能在语义和知识层次上描述概念体系的有效工具,用来描述概念以及概念之间的关系,通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构,是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解,通过函数(functions)、关系(relations)、原则(axioms)和实例(instances)、类(classes)这5种元素表达本体中的知识,使其具有逻辑推理和语义识别功能,帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种,依赖于编码处理,以分类模式来描述信息资源以实现检索的目的;第二种,是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展,通过消岐,明确查询的确切所指,准确反映用户的信息意图,继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上,先进行实例检索,再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索,基于本体的语义检索的优势在于体现语义信息,准确表达用户的查询意图。

3 常见语义检索系统介绍

3.1 一体化医学语言系统(UMLS) UMLS(Unified Medical Language System)作为计算机化的情报检索语言集成系统,是美国国立医学图书馆(NLM)主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具,更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源,包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱(Information Sources Map)、语义网络(Semantic Network)、专家词典(SPECIALIST Lexicon) )和超级叙词表(Metathesaurus)四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇,这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的,词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具,是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段,如属分、相关关系控制、语义等级,同时在语义规范和语义关系分析、延伸等多方面有许多创新。

3.2 语义网(Semantic Web) 为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义,通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用,从而达到更有利于人机协作的目的。资源描述框架(Re-source Description Framework,简称RDF)是语义网的核心构件。在网络中,一般用元数据对资源进行描述,而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值(Statements)、属性(Properties)和资源(Resources)构成的三元关系模式[4],实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言,元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇,还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系,同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等,通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。

3.3 WordNet WordNet是一种基于认知语言学的英语词典,它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列,并且是按单侧的意义组成的一个“单词的网络”。WordNet将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据WordNet关系分析最大的优势是能在他的单词网里通过相关关系消除歧义,因为WordNet分析主要是关系分析。WordNet在名词的语义消歧率可以超过60%。

4 结语

从以上三个语义系统来看,无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索,语义检索不需要用户使用专业的检索策略,也不需要语法严谨的检索式,用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算,分析用户的用户的语义文档信息,充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户,将用户的检索效率提升60—80%。因此,语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。

参考文献:

[1]黄敏,赖茂生.语义检索研究综述[J].图书情报工作,2008,(6):63-66.

[2]Studer R, Benjamins R, Fensel D. Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25(1-2):16l-197.