首页 > 文章中心 > 正文

农业科技搜索引擎原理分析

前言:本站为你精心整理了农业科技搜索引擎原理分析范文,希望能为你的创作提供参考价值,我们的客服老师可以帮助你提供个性化的参考范文,欢迎咨询。

农业科技搜索引擎原理分析

1系统设计与关键技术

1.1旱区农业领域本体构建

领域本体为搜索引擎提供知识组织,是基于本体的旱区农业垂直搜索引擎的核心模块。建立针对西北旱区的农业领域本体,可以提高搜索引擎的专业性和查准率。农业领域本体库的建立分为创建领域术语集、创建领域本体和本体存储等模块。本文使用基于包装器的信息抽取技术,从相关网站抽取与西北旱区农业相关的论文题目、摘要和关键词作为领域语料,经过分词和筛选得到领域术语,利用参考文献中提出的面向文本的知识发现技术来构建领域本体的方法并对其加以改进,设计了领域本体创建方法。步骤如下:Step1从网络中抽取相关论文,通过分词和筛选得到领域术语集合。Step2运用方法对领域术语集进行领域相关度判断,筛选出相关度较高的术语,从而得到领域概念集合。Step3对所得到的领域概念进行基于共现的关联分析。Step3.1基于共现分析理论来计算两两领域概念的共现频次,得到共现矩阵。Step3.2利用Jaccard系数来计算领域概念间的相关度,得到领域概念的相关矩阵。Step3.根据领域概念的相关矩阵,利用Cosine相似度求出每两个领域概念的相似度,从而得到相似度矩阵。Step4结合传统凝聚层次聚类算法和K-means算法,使用基于K-means的层次聚类算法发现领域概念间关系。Step5构建农业领域本体并存储在关系数据库MySQL中。

1.2信息采集和过滤

旱区农业垂直搜索引擎的应用是面向西北旱区农业,需要采集旱区农业相关信息,过滤掉无关信息。领域相关信息过滤是保证搜索准确度的关键因素。为了保证采集的网页信息和西北旱区农业紧密相关,本文采用主题蜘蛛和本体结合的方法按照链接过滤、信息获取、页面分析和主题相关性,判定4个部分从网络中采集并过滤西北旱区农业信息,处理流程如图2所示。首先,获取URL地址并过滤掉一些无效和重复的链接;其次,下载有效URL对应的网页,对网页内容进行解析,采用分析DOM树的信息抽取方法,清理无关Html标记,获取网页正文和新的URL;再次,对网页正文进行特征词提取;最后,进行基于本体的网页主题相关度判定,若网页与西北旱区农业主题关,则对该网页构建索引,否则抛弃。对于新的URL,则跳转到URL链接过滤步骤,循环进行信息采集和过滤。

由于主题相关性判定部分是决定网页信息采集质量的关键因素,因此本部分着重介绍主题相关性判定算法。目前,页面与主题相关性判定主要有5类方法,即根据元数据的判定、根据扩展元数据的判定、根据链接分析的判定、根据页面内容语义判定和基于特征词的向量空间模型算法。本文采用基于特征词的向量空间模型算法,但是这种方法已被证实精确度不够高,因而结合旱区农业领域本体对该算法进行改进,提高采集网页信息的正确率。利用领域本体概念及概念间结构关系对特征词进行语义丰富,判定网页与主题的相关性,从而在一定程度上实现了网页与主题在语义层面上的相关性判定。算法描述如下:Step1信息采集之前,对西北旱区农业相关的网页正文提取关键词,通过学习获取西北旱区农业主题的特征词集合其中,ωi表示特征词αi在主题特征向量中的权值。Step2运用本体概念间的关系获取特征词集合中每个特征词αi上位词、同位词和下位词,并存储在数组Ti中。Step3对采集到网页P进行分词,对每个名词s进行判断。若s在数组Ti中,则将s替换为αi;然后,统计αi对应的“信息项频率”tf和“文档频率”df来表示每个信息项的分布权重,并运用TF*IDF算法。

1.3信息检索

用户检索接口是旱区农业垂直搜索引擎与用户交互的关键,用户的查询请求往往难以通过几个关键词表达。因而,本文采用查询扩展技术来提高查全率,依据相关度的高低对结果进行排序,并根据本体的上下位关系向用户推荐相关词。

1.3.1查询扩展

一般的检索方法是通过关键字进行语法上的匹配,从而丢失了关键字的语义信息。因此需要对关键词进行扩展查询。本研究利用农业领域本体良好的概念层次结构进行逻辑推理,对用户的检索进行上位、平行和下位3种模式的查询扩展。具体查询扩展步骤如下:Step1对用户输入的查询词进行分词处理,得到有意义的查询关键词。Step2基于农业领域本体的关键词扩展。Step2.1使用关键词在本体库中进行匹配查询,通过匹配查询得到一个概念集合,若没有得到匹配结果,进入Step3。Step2.2使用概念集合中的每一个概念对本体库中的三元组进行遍历,得到对应的上位、下位和平行领域概念,把得到的概念放入关键词集合。Step3所有的关键词进入索引库进行搜索查找,得到查询结果。

1.3.2结果排序

查询结果需要按照相关程度形成由高到低的有序队列,提高查询的准确性和效率。传统的网页排序算法是计算网页和关键词的匹配程度,由于本文对用户关键词进行扩展查询,因此初始关键词和扩展关键词之间的相关度对结果排序也会造成影响。网页与关键词的匹配程度可以利用网页和关键词的相关度进行综合运算;初始关键词和扩展关键词的相关程度就是不同领域概念间的关联程度,可以通过领域概念的相似度来进行计算。本文将上述两个因素各赋予50%的权重进行计算,实现了查询结果的排序。

1.3.3相关词推荐

由于自然语言和计算机系统在解析语义上有着巨大差异,虽然进行了查询扩展,用户仍有可能对查询结果不满意。为了提高用户二次检索结果的质量,本文向用户推荐搜索相关词,通用的搜索引擎相关词推荐往往是利用信息聚类、同义词的识别和挖掘技术向用户推荐相似度较高的词语。本文结合本体的上下位关系分别向用户推荐上位词、同位词、下位词和相关词等4种不同模式的相关搜索。

2系统试验与分析

2.1系统试验

基于以上研究,本文构建了基于本体的旱区农业垂直搜索引擎平台,从万方数据知识服务平台获取2007-2011年5年内2036篇旱区农业相关论文的关键词和摘要作为领域语料,进行农业术语的分词和清洗,通过共现分析和聚类得到农业领域本体;运用垂直搜索引擎的原理进行改造,将本体作为网页采集过滤、查询扩展、结果排序和相关词推荐的标准。通过采集和过滤,对7823个农业网页构建了索引和基于本体的旱区农业垂直搜索引擎。如图3所示为基于本体的旱区农业垂直搜索引擎的某个搜索界面。该平台集成了农业领域本体的构建、Web网络信息的获取过滤和基于本体的农业信息搜索等功能。

2.2系统分析

查准率和查全率是评价传统的搜索引擎的两个重要参数:查准率是检索出的相关记录数与检索出的网页总数的比率;查全率是指检索出的记录数和网页集中所有的相关网页数目的比率。由于查全率通常不成问题且难以比较,因此在对本文构建的基于本体的旱区农业垂直搜索引擎进行性能测试时,选用查准率作为评价参数,分别使用“小麦”、“苹果价格”和“农田灌溉技术”作为关键词进行检索,查准率如图4所示。从图3和表1可以发现,通用搜索引擎百度查准率最低,主要原因是由于很多商家用"苹果"注册了非农业商品的商标;农搜的查准率也相对逊色一些,因为除了西北干旱地区,其他地区也种植苹果;基于本体的旱区农业垂直搜索引擎的搜索农业农业信息查准率最高。

3结语

1)本文在分析研究通用搜索引擎工作原理和本体论相关技术的基础上,设计并实现了基于本体的旱区农业垂直搜索引擎模型。将本体的相关技术应用到网络信息的采集及过滤、查询扩展、结果排序和相关关词推荐等功能中,提高了农业信息检索的查准率,优化了检索结果,方便了西北旱区用户检索农业信息,推广了农业科技。2)本文对基于本体的旱区农业垂直搜索引擎进行了初步研究和实验,但农业本体库中概念数目不多,农业信息的深度采集和信息增量更新等方面没有涉及。今后可以考虑在动态页面和异构信息的信息采集、信息增量更新和索引策略等方面进行研究。

作者:王超李书琴肖红单位:西北农林科技大学