首页 > 文章中心 > 搜索引擎研究

搜索引擎研究

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇搜索引擎研究范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

搜索引擎研究

搜索引擎研究范文第1篇

关键词:SEO;搜索引擎优化;网络营销

一、搜索引擎优化概述

SEO是Search Engine Optimization的缩写,翻译成中文就是搜索引擎优化,是通过研究搜索引擎的搜索规则来提高网站在搜索结果页面排名的方法。SEO的主要工作分为内部优化和外部优化,内部优化指对网页基本要素进行调整,外部优化指如何增加网站外部链接,总之优化的最终目的就是提高网站访问量,提升网站宣传能力。

二、搜索引擎工作原理

研究搜索引擎优化实际上就是对搜索引擎工作过程的逆向推理,因此,学习搜索引擎优化首先要了解搜索引擎的工作原理。搜索引擎主要包括全文搜索引擎(百度、Google),目录搜索引擎,元搜索引擎三大类。这里主要介绍全文搜索引擎的工作原理。

搜索引擎的主要工作包括:页面收录、页面分析、页面排序及关键字查询。页面收录就是指搜索引擎在互联网中进行数据采集,然后将采集到的数据存放到自己的数据库中,这是搜索引擎最基础的工作。搜索引擎是根据页面的URL地址找到网页,然后利用蜘蛛程序抓取网页。页面分析指搜索引擎对收录的页面将进行一系列的分析、处理,主要包括:过滤标签提取网页正文信息,对正文信息进行切词处理,建立关键字与页面间的索引等,为用户的查询做好准备。用户向搜索引擎提交关键字查询信息后,通常会返回多个结果页面,决定页面排序的主要因素包括页面相关性和链接权重,做优化工作的主要任务也就是想办法提高页面的相关性和链接权重,页面相关项性主要由关键字匹配度、关键字密度、关键字分布及权重标签等决定,链接权重包括内部链接权重和外部链接权重,其中外部链接权重影响较大。最后就是用户进行关键字查询。

三、网站优化实施

在说网站优化实施方案之前,先说一下搜索引擎优化的宗旨:SEO工作应该以用户为中心,围绕提高用户体验、完善网站功能而进行,不能为了优化而优化。也就是说在对网站优化时应该以满足用户需求为根本出发点,而不要采用一些欺骗搜索引擎的手段以达到提高网站排名的目的。

四、网站结构优化

网站结构包括物理结构及逻辑结构。物理结构是由页面的真实存储位置决定的结构,反映的是页面的存储层次。逻辑结构是指由页面间的链接关系所决定的结构,它反映的是页面间的链接层次关系。网站结构优化主要包括物理结构优化和逻辑结构优化。

网站物理结构优化主要是指规划合理的站点结构,尽可能减小目录深度,一般目录深度一般不超过4层,目录深度较小的页面不管对于搜索引擎还是普通用户都是有好处的,因而能得到更多的权重。也可以通过一些技术手段解决URL长度的问题,如URL重写,但此时URL就不能反映页面的真实存储位置。

网站逻辑结构优化主要是建立合理的导航结构,减少页面间的链接深度。只有具有清晰合理的网站导航结构,才能尽可能多地收录网站的页面和收录更深层次的页面。链接深度是指从源页面到达目标页面所经过的路径数。链接深度越小被搜索引擎抓取的几率就越大。减小链接深度可以采用以下方法:尽可能把重要页面的链接和栏目放置到首页;把第二、三层的栏目标题抽取到首页;建立网站地图页面,并提交给搜索引擎。

链接优化。链接分为内部链接和外部链接,是决定页面权重的重要因素。内部链接与外部链接相比外部链接对页面权重的影响更大一些。链接优化首先是链接对象的选择,链接对象会影响页面的相关性,在这方面影响最大的是文本,其次是图片,最小的是对媒体文件。也就是说超链接对象最好采用文本格式,且文本内容最好使用与页面主题相关的关键字和权重标签,如果使用图片做超链接,必须设置图片的alt属性来表达主题。

内部链接优化主要是建立强大有序的内部链接,让网站所有页面互相连通,还有一点就是保证网站中重要页面能得到更多的链接,只有这样才能提高搜索引擎对网站的收录。外部链接优化是搜索引擎优化的一项重要工作,主要指如何增加网站的外部链接数量。增加外部链接的主要方法有:登陆分类目录、交换链接和使用链接诱饵等。登陆分类目录时注意不要登陆一些低质量的分类目录,网站因此可能会受到惩罚。交换链接时注意网站主题相关性、网站质量、导出链接的数量,主题越相关,网站质量越高,导出链接数量越少网站能得到更多的权重。链接诱饵主要包括软文、广告和共享软件。

关键字优化。搜索引擎是以关键词为搜索条件进行检索的,关键字优化主要目的就是提高页面和关键字的相关性。关键字优化首先就是要寻找与页面主题相关的关键字,优先选择那些符合大部分用户搜索习惯的关键字,然后,就是对关键字的搜索量、商业价值、竞争程度进行评估,从中筛选出高搜索量、高相关性、低竞争的关键字。关键字在网页中出现的位置可谓无处不在,主要包括:title标题、meta标签、网页正文、url路径、alt属性等,关键字的密度控制在2%-8%的范围内比较合理。

五、总结

随着互联网的发展,搜索引擎优化会得到越来越广泛的引用。学习SEO其实并不难,但也不是一时就能学会的,学习SEO首先要学会多思考,多角度、多层面的去思考,去分析自己的网站;其次就是多实践,积累经验;当然还有最重要,也是最基础的一项内容,就是掌握SEO的基础知识。

参考文献:

1、吴泽欣.搜索引擎优化入门与进阶[M].人民邮电出版社,2008.

搜索引擎研究范文第2篇

关键词:搜索引擎;信息检索;互联网;网络信息量

中图分类号:TP393

文献标识码:A

文章编号:1004―373X(2008)04―074―04

伴随着互联网的爆炸性发展,网络用户想找到所需的资料如同大海捞针,为了满足人们信息检索需求,专业搜索网站应运而生了。搜索引擎(search engine)是一个信息处理系统,他以一定的策略在互联网中搜集信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,从用户的角度来看,他就是一个帮助人们进行信息检索的工具。搜索引擎以传统信息检索技术的索引模型、匹配策略等技术为基础,涉及数据库、信息检索、人工智能、统计数据分析、数据挖掘、计算机网络等诸多领域的理论和技术。

本文回顾了搜索引擎发展的简史,介绍他的分类和关键技术,并对中文搜索引擎各组成部分进行分析,最后指出了中文搜索引擎的发展趋势。

1 搜索引擎的发展、分类和性能指标

1.1发展简史

1990年由蒙特利尔的大学生Alan Emtage等人发明的Archie是搜索引擎始祖,他依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。后来,一些开发机器人(Robot)程序的编程者提出了设想:既然所有网页都可能有指向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。最早现代意义上的搜索引擎出现于1994年7月,当时Michael Mauldin将John Leavitt的Robot程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的David Filo和杨致远共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心,Yahoo也被称为第一代搜索引擎,从此搜索引擎的发展进入了黄金时代。1998年9月,同样是Stanford大学两位博士生Larry Page和Sergey Brin成功开发了新一代搜索引擎一一Google,具有比Yahoo使用的技术更快、更准确的特点,被视为第二代搜索引擎的代表。随着互联网规模的急剧膨胀,搜索引擎之间也开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。

1.2搜索引擎的类别

根据搜索引擎的系统结构、信息搜集方法、服务提供方式的区别,搜索引擎分为以下类别:

(1)机器人搜索引擎:机器人是指某个不断重复执行某项任务的自动程序,基于机器人的搜索引擎多提供对全文的检索,有时也叫作全文搜索引擎。机器人程序以某种策略对Internet进行定期搜索,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,他会自动提取网站的信息和网址加入自己的数据库,由索引器建立索引。对用户查询则由检索器检索索引库,最后将查询结果返回给用户。该类搜索引擎的优点是信息量大、更新及时、不需人工干预;缺点是返回信息量大,且有很多无关信息,用户必须从结果中进行筛选。Google、百度就是这类搜索引擎的代表。

(2)目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息按照主题分成若干个大类,每个大类再依次细分,使信息形成按主题分类和组织的树型结构。信息大多面向网站,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类有人的参与,因此其搜索的准确度是相当高的,缺点是人工维护、信息量少、信息更新慢。典型代表是:Yahoo(现已采用Robot技术)、LookSmart等

(3)元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求向多个的独立搜索引擎递交,再对返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。元搜索引擎的搜索效果始终不理想,目前还没有任何一个元搜索引擎取得强势地位。

1.3搜索引擎的性能指标

搜索引擎性能评价既要参考传统型文献检索工具的质量评价标准,如:信息组织加工及检索服务提供方式等,又要立足于用户的立场,即能满足大多数网络用户要求的搜索引擎就是一个好的搜索引擎。

在通常情况下,我们可以从以下几个方面来衡量一个搜索引擎的性能:

查全率 指搜索引擎提供的检索结果中相关文档数与网络中存在的相关文档数之比,他是搜索引擎对网络信息覆盖率的真实反映。

查准率 是搜索引擎提供的检索结果与用户信息需求的匹配程度,也是检索结果中有效文档数与搜索引擎提供的全部文档数之比。

响应时间 一般而言取决于2个因素,即与带宽有关的网络速度和搜索引擎本身的速度,只有在二者均获得可靠的技术支持的情况下,才能保证理想的检索速度。对搜索引擎来讲,查全率和查准率很难做到两全其美,影响搜索引擎的性能的主要是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。

2 搜索引擎系统架构和关键技术

搜索引擎一般由搜索器、分析器、索引器、检索器和用户接口等5大部分组成,其工作原理如图1所示:

2.1搜索器

搜索器是通过网页的链接地址来寻找网页的计算机程序,他从网站的某一个页面开始,读取网页的内容,找到网页中的其他链接地址,然后通过这些链接地址寻找下一个网页。在搜索器实现时,系统中维护一个超链队列,其中包含一些起始URL,搜索器从这些URL出发,下载相应的页面,并从中抽取出新的超链加入队列中,上述过程不断重复直到队列为空。为提高效率,搜索引擎还将Web空间按照域名、IP地址或国家域名进行划分,使用多个搜索器并行工作,让每个搜索器负责一个子空间的搜索。由于互联网上的信息太多,因此搜索器必须采用一定的搜索策略对互联网进行遍历并下载文档搜索器,目前一般采用以广度优先搜索策略为主、线性搜索策略为辅的搜索策略。搜索器主要的搜索策略有:

线性搜索策略 线形搜索策略的基本思想是从一个起始的IP地址出发,按IP地址递增的方式搜索后续的每一个IP地址中的信息,完全不考虑各站点的HTML文件中含有的超链地址。该策略只适用于小范围的全面搜索,可以发现被引用较少的新HTML文件信息源。

广度优先搜索策略广度优先搜索策略是先抓取起始 网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。广度优先搜索策略容易实现并被广泛采用,但是需要花费较长时间才能到达深层的Web文件。

深度优先搜索策略 深度优先搜索策略是早期开发搜索器使用较多的一种方法,他顺着HTML文件上的超链走到不能再深入为止,然后返回到上一个结点的HT―ML文件,再继续选择该HTML文件中的其他超链。深度优先搜索适宜遍历一个指定的站点,但不适合于搜索相当深的Web结构。

2.2 分析器

分析器对搜索器找到的网页信息进行分析,以便建立索引。其分析技术包括:分词、过滤、转换等。通常选用“词”作为文本特征的元数据,在分词时,大部分系统从全文中抽取词条,也有部分系统只从文档的某些部分(如标题等)抽取词条。中文句子的词语间没有固定分隔符、汉语语义及结构的复杂性给中文分词带来极大困难。

2.3 索引器

索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项2种,元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等。内容索引项可以分为单索引项和多索引项(或称短语索引项)2种,用来反映文档内容,如:关键词及其权重、短语、单字等。为了快速查找到特定的信息,必须将文档表示为一种便于检索的方式并存储在索引数据库中。索引数据库的格式是一种依赖于索引机制和算法的特殊数据存储格式,一个好的索引模型应该易于实现和维护、检索速度快、空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。索引器的输出是索引表,他记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系,索引表一般使用倒排形式,即由索引项查找相应的文档。索引器可以使用集中式索引算法或分布式索引算法。一个搜索引擎的有效性在很大程度上取决于索引的质量。

2.4检索器

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的检索方法有以下几种:基于关键词的检索;基于概念的检索;基于内容的检索。

如在矢量空间索引模型中,用户查询q首先被表示为一个范化矢量V(q)=(t1,w1(q);…;t,wi(q);…;tn,w。(q))。然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度,而相关度可以表示为查询矢量v(q)与文档矢量v(d)之间的夹角余弦,最后将相关度大于阀值的所有文档按照相关度递减的顺序排列并返还给用户。

2.5 用户接口

用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等。用户接口的设计和实现必须基于人机交互的理论和方法,以适应人类的思维和使用习惯。在查询界面中,用户按照搜索引擎的查询语法制定待检索词条及各种简单或高级检索条件。在查询输出界面中,搜索引擎将检索结果展现为一个线性的文档列表,其中包含了文档的标题、摘要、快照和超链等信息,用户需要逐个浏览以找出所需文档。目前一些公司和机构正在考虑制定查询选项的标准。

2.6检索结果排序

对于某个检索项,通常会返回大量的查询结果列表,其中混杂着大量的不相关文档,为了提高查询效率,搜索引擎要对检索结果进行相应排序。

(1)基于内容的相关度排序:考虑用户所查询的词条在文档中的出现情况,包括词条频率,逆文档频率,词条位置等因素,根据文档相关度决定其在检索结果集中的位置。

(2)基于超链的相关度排序:考虑一个页面被其他站点引用的次数,这基本上反映了该页面的重要性,超链的标记:艾本也对链宿页面起到概括作用。斯坦福大学研究开发的PageRank算法,不仅考虑Web页上的标题或文本,还考虑与之相连接的其他网站,通过为Web页面构造引用图,综合页面的被引用次数,以及链源页面的重要性来判断链宿页面的重要性,能够查询与用户请求相关的“权威”页面。

(3)检索结果的联机聚类:用户查询相关的文档通常会聚类的比较近,而远离与查询无关的文档。因此可利用聚类技术将结果文档集合分成若干组,同一组的文档内容相似度尽可能地大,组间相似度尽可能地小,用户只需考虑他所选择的文档所在的组。

(4)推测用户最终目的:通过各种技术推测用户没有在查询语句中表达出来的查询目的,如使用智能跟踪用户检索行为,分析用户模型,通过同类用户的行为记录推荐相关页面;使用相关度反馈机制,通过对查询请求的不断修正以提高系统搜索结果的精确度等。

3 中文分词技术

中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式不同,这是因为中文信息与英文信息有一个明显的差别:英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,主要关心中文自动分词的速度和准确度。现有的分词算法可分为3大类:基于分词词典的机械分词方法、基于理解的分词方法和基于统计的分词方法。

(1)基于分词词典的机械分词方法:这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配,是比较成熟的技术,又叫做机械分词方法。按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小)。实际使用的分词工具,只是把机械分词作为一种初分手段,此外还要利用各种其他的语言信息来提高切分的准确率。例如一种方法是特征扫描(或标志切分),首先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。

(2)基于理解的分词方法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。他通常包括3个部分:分词子系统、句法语义子系统、控制部分。在控制部分的协调 下,分词子系统可以获得有关词句的句法和语义信息来对分词歧义进行判断,即他模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,目前基于理解的分词系统还处在试验阶段。

(3)基于统计的分词方法:这种方法是对语料中的字组频度进行统计,不需要切分词典,因此也称为无词典分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此可以对语料中相邻共现的各个字的组合的频度进行统计,计算他们的互现信息。互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为这些字的组合可能构成了一个词。但该方法时空开销比较大,而且经常把不是词的常用字组当成词,例如“我的”、“之一”等。在搜索引擎领域的实际应用中,一般将机械分词方法与统计分词方法相结合,先进行串匹配分词,然后使用统计方法识别一些未登录的新词,这样既发挥了匹配分词速度快、效率高的优势,又利用了统计分词中新词自动识别和自动消除分词歧义的特点。

分词词典是影响中文自动分词的一个重要因素,其规模一般在6万条词左右,若辞典过大,则歧义现象将大大增加;而辞典过小,有些词切分不出来,同样影响分词的精度。因此,分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域,仅使用6万条词左右的分词词典是不够的,但随意向分词词典中加入新词将导致分词精度下降,一般的解决方法是使用辅助词典,其规模在50万词条左右。另外,中文自动分词的难点在于未登录词的识别和分词歧义的处理,如何处理这两个问题一直是该领域研究的热点。

4 搜索引擎的技术热点与发展趋势

随着互联网的发展,针对基于关键词搜索引擎所存在的不足,各搜索引擎网站纷纷向智能化、个性化方面发展,出现了值得关注的技术热点。

4.1 多媒体搜索技术

可用于网络检索的多媒体信息的内容特征大致包括:图像的颜色、纹理、形状等;声音的音频、响度、频度和音色等;影像的视频特征、运动特征等。这种类型的搜索引擎还不多见,并且主要用于图像检索,如QBIC、WeebSeek、ImageRover等。目前的多媒体搜索引擎覆盖面小,检索功能不够完善,效果也不太理想,因此,多媒体搜索技术尤其是音频、视频数据的检索仍是搜索引擎的一个研究重点。

4.2 用户行为分析

现在的搜索引擎是以关键字作为表达查询的主要手段的,以按相关度大小排列的文献列表为展示方式,任何人搜索同一个词都会得到同样的结果。为了克服千人一面的不足,人们逐步引入了一些个性化的技术,包括对查询输入的修正,查询结果的聚类等。但是,到目前为止,查询输入的主要方式还是关键字,查询输出的主要也还是文本列表。如何为用户的学习和工作营造一个个性化的信息空间,是未来搜索引擎应该追求的方向。

4.3智能检索技术

智能检索主要包括自然语言处理、个性化搜索等技术。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜索引擎,称之为智能搜索引擎。由于他将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。

4.4 P2P搜索技术

目前的互联网是以服务器为中心的,人们向服务器发送请求,然后浏览服务器回应的信息,而对等搜索技术P2P(Peer to Peer)将以用户为中心,所有的用户都是平等的伙伴,用户可以通过P2P共享硬盘上的文件、目录甚至整个硬盘。把这一理念具体运用到搜索引擎技术上来,P2P将使用户能够深度搜索文档,而且这种搜索无须通过Web服务器,也可以不受文档格式和宿主设备的限制,具有传统搜索引擎无可比拟优势。P2P网络的一个很大的问题在于搜索信息时所产生的网络通信量非常巨大,在时间和网络资源方面造成很大的浪费。为方便P2P网络中的信息检索,有关专家提出3种建立在特征文件基础上的检索机制:对语义路由进行详细分析,提出了一个建立在此技术和RDF技术基础上的新方法。

搜索引擎研究范文第3篇

【关键词】 Google GFS MapReduce BigTable

1 google要解决的问题

(1)WEB是非常巨大的,并且以指数级别在增长。

(2)Web中存在不同形式的资源:

Word,HTML,PDF,ASCII,Images

(3)检索时间要极短不能让用户等待。

(4)各种民族各种语言不同,需要不同的分词方法。

(5)系统能够每天承受每天上亿次的检索。

(6)优化结果的排序规则,把用户最需要的信息展现在最前面。

2 Google的分布式设计结构

Google的分布式设计是一项伟大的设计,它建立在上万台计算机上。面的上万台的复杂系统结构Google在设计系统的开始就有一个假设:“机器是会出问题的。”“容许机器出问题,但机器必需自动跳过或自动修复这些问题。”如图1所示,是一张Google分布式设计的基本结构图。

2.1 抓取部分

URL Server:存储URL列表,这些URL都是将要被抓取的对象。

Crawler:一组进行并行检索的爬虫程序,每个爬虫都有自己的DNS缓冲池,并且能够在同一时间打开300个网络连接。

Store Server:压缩并且存储爬虫爬取来的网易。

Repository:包含每个网页的全部信息,每个文档都被标记为docID,length,URL。

Indexer:解压缩文档并且解析每个文档,并把其中的连接存储在Anchors中。

Anchors:专门存储解析而来的新的连接。

URL Resolver:把相对路径URL转换为绝对路径的URL。

其中,Repository是压缩存储的,压缩率一般超过60%。

2.2 索引部分

URL Resover:将绝对路径的URL映射为docID并且存储在Doc Index中,将anchor text存储到barrels。

Indexer:解析文档,并且将倒排表分布到barrels中。

Barrels:存储倒排表,并且对倒排表进行排序。

Lexicon:内存中的hash表,左项为wordID,右项为指向其应倒排表的指针。

Sorter:创建倒排索引。

2.3 检索部分

Barrels:包含两种不同的Barrels。短的barrel只包含标题和连接的倒排表,长得barrel存储全部内容的倒排表。

Seacher:首先将用户的搜索词送入Lexicon,找到相应Barrel后,再在Barrel中进行检索,如果检索到,会返回docID,然后将这些docID送入Doc Index进行检索,并得到最终的结果。

3 Google文件系统

每个操作系统都有自己的文件系统,例如Windows下常见的FAT32,NTFS。Linux下的EXT2,EXT3.然而GFS(Google File System)是一种非常特殊可扩展的分布式文件系统,适用于大型的,分布式的、对大量数据进行访问的应用,它允许于普通硬件上,单提供不间断监控、错误检查、容错技术和自动回复等功能。可以给用户提供总体性能较高的服务。

在GFS中存有海量数据,一般一个文件会有几个GB大,数据集一般能有几个TB大。不能按照普通块大小进行文件操作,否则会引发I/O阻塞,所以必须重新设定块大小。GFS中每个块得大小为64MB。

4 MapReduce

在搜索引擎进行索引的过程中,需要处理大量数据,并且产生更多的新数据,在分布式环境下,会有上千台计算机工作,如何在这种大规模环境下工作,就是MapReduce需要具体解决的问题。

5 BigTable

因为Google体系结构中存在许多半结构化的数据,如URL,内容,Metadata,链接,anchors,pagerank,所以要设计一个能运行与分布式式环境下的数据库存储结构,这种特殊的数据库就是BigTable。

除此之外还有用户数据,用户喜好设定数据,最近的查询/检索结果,并且还有一些地理位置信息,如商店、饭馆、道路、卫星图像、用户的注释等。这些数据规模是巨大的,有上十亿的URL,并且每秒钟要承受上千次的查询,并且同样要求提供100TB+的卫星图像数据。

相对于商业数据库而言数据规模还是太大了,而且花费太高,自己设计底层功能对帮助改善性能还是很大的。

搜索引擎研究范文第4篇

关键词:搜索引擎 发展 问题 对策

1 搜索引擎组成和分类

在互联网中寻找信息要依赖搜索引擎,搜索引擎由搜索器(Robot)、索引器(Indexer)、检索器(Searcher)和用户接口等四个部分组成[2]。搜索引擎系统首先由搜索器收集网页的内容,然后索引器分析收集内容并建立索引,再由检索器响应用户的检索请示,用户输入关键字后,搜索器要用这个检索词与建立的索引器匹配,匹配后作相关性排序,最后通过用户接口将排序结果送给用户。

搜索引擎分为目录索引类搜索引擎、全文搜索引擎和元搜索引擎。基于目录的搜索引擎是按目录分类的网站链接列表。数据库由人工建立,编辑人员访问某个Web站点后,根据站点的内容和性质归类,并把站点的URL和描述放入该类别。目录索引中最具代表性的是Yahoo,国内的新浪、网易属于这一类。全文搜索引擎是名副其实的搜索引擎,它们从互联网上提取各网站信息(以网页文字为主)建立数据库,通过数据库检索与用户查询条件匹配的相关记录,按一定的排列顺序将结果返回给用户。国外具有代表性的有Google,国内著名的有百度。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。元搜索引擎没有存放网页信息的数据库,当用户查询关键字,它把用户的查询请求转换成其他搜索引擎能够接受的命令格式,并行访问数个搜索引擎来查询这个关键字,并把这些搜索引擎返回的结果经过处理后返回给用户。著名的元搜索引擎有InfoSpace,中文的元搜索引擎有搜星搜索。

2 搜索引擎行业盈利模式概述

目前搜索引擎的主要盈利模式是基于竞价排名的广告模式,具体广告主在向垂直搜索引擎购买该项服务后,通过注册一定数量的关键字,按照付费最高者排名靠前的原则,购买了同一关键字的网站按不同的顺序进行排名,出现在网民相应的搜索结果中。之后根据点击效果,搜索引擎企业向广告主收取相应的费用。

3 搜索引擎行业发展面临的问题分析

一是盈利模式单一。目前搜索引擎的主要盈利模式还是主要局限在广告业务上,如此单一的盈利模式,导致其应对风险的能力薄弱。二是行业整合力度不大。搜索引擎行业拥有巨大的资源优势,如客户资源,并未将其进行有效的整合,以利用其优势去发展其相关行业。三是专业人才偏少。搜索引擎行业是一个迅猛发展的行业,技术发展日新月异,对人才的需求非常大,一方面搜索引擎企业极其缺乏专业人才,一方面大量的求职者又无法满足搜索引擎行业的要求。四是存在侵权现象。“网络侵权”是搜索引擎服务商和营销商随时可能面临的法律难题。例如,搜索引擎营销借助互联网实现信息海量链接,链接的页面可能已经损害到用户或第三人权利,链接的设置者是否真的侵权是司法认定中的难题。

4 搜索引擎行业发展对策研究

4.1加快发展垂直搜索引擎

垂直搜索引擎是继通用搜索引擎之后的一项面向专业化,主题化的搜索技术,目前中国互联网中不断有面向新行业的垂直搜索引擎网站出现,如搜房网、面向求职的职业搜索等。

发展垂直搜索引擎,可以开拓出以下几种盈利模式:一是成为行业交易中介平台。通过和该行业的从业人员进行有效沟通,以及对该行业进行充分调研了解,对垂直搜索引擎进行不断改造和更新,使其成为电子商务的中介平台。二是为相关行业提供有效搜索数据。垂直搜索引擎可以在用户查询时对其所输入的关键字进行记录,之后在一个时间间隔内(3个月或半年)对这些关键字进行统计分析一次,就能够获取这个时间区间内用户对这个行业的各方面关注情况,这些资料对于从事该行业的企业具有参考价值。三是对行业用户提供相关广告推荐。作为竞价排名广告的有益补充,数据挖掘技术在推荐广告方面也可以发挥出它的作用。当获得一系列用户的兴趣模型,即可对这些用户进行相应的聚类分析,可以进行相应的广告投放和产品推荐。

4.2发展移动搜索

移动搜索可以挖掘出更多的盈利模式[3]。移动搜索模式要充分发挥及时定位的特点,当用户向移动搜索提交关键字查询时,搜索引擎通过用户所发送的关键字附带的头信息,判断出用户所在位置附近的基站。通过定位基站信息,查询到用户所在的大致位置信息,并将位置与关键字结对搜索结果重新组合,将相应结果返回给用户。通过与位置相结合的相关反馈,可以使用户获得更需要的搜索结果,为用户提供有价值的参考信息,并有效过滤很多无关信息。例如,通过当前用户的位置,以用户提交的某种商品名为关键字,返回给用户该商品附近的销售信息、打折排序等信息。

4.3积极发展搜索引擎上下游行业

一是向上游拓展,发展传媒事业。通过发展传媒事业,搜索引擎行业可以获得话语权,获得进入相关行业的通道。二是横向延伸,发展搜索的企业级应用,为企业定制搜索服务。三是向下游拓展,发展电子商务。搜索引擎行业的用户群中,有很大一部分是符合电子商务标准的,属于电子商务的优良客户。

4.4加强搜索引擎行业人才队伍建设

目前搜索引擎行业最紧缺的是三类人才:搜索引擎营销人才、投资管理人才和高技能专业软件人才。解决这三类人才短缺瓶颈需要一个长期努力的过程,一方面要多途径培养人才,借助政府、高校、搜索引擎企业、研究机构四方共同努力,加大力度培养本土高技能人才和营销人才;另一方面要多渠道吸引人才,创新人才政策,集聚海内外优秀投资管理人才和资本运营人才。

4.5加大对搜索引擎行业扶持力度

搜索引擎行业是互联网企业的排头兵,中国应该对有技术潜力的搜索引擎企业加大扶持力度。在经营上给予政策优惠,提高他们盈利水平,增强融资功能,满足开发新技术对资金的需求;政府应主动牵线,促进搜索引擎行业与高校和研究机构的技术交流,使搜索引擎行业可以分享高校和研究机构的研究成果,并为他们的研究提供实践机会,促进研究成果商业化。

4.6加快搜索引擎行业立法

首先,为进一步推进搜索引擎发展提供法律保障,为搜索引擎行业的行为做出明确的规范,规避潜在的经营风险。其次,为搜索引擎在版权保护方面提供法律依据。通过法律明确界定搜索引擎可以收录信息的范围,既可保证版权人的合法权益,又保证搜索引擎加入尽可能多的信息。第三,对搜索引擎营销做出行为规范。对搜索引擎营销所涉及到的诸如点击计数,虚假广告等违规行为进行规范、监督和控制。

参考文献

[1] 杨丽媪.百度的公信危机[J].东方企业文化,2009,(1):66-67.

[2] 张讯沫.搜索引擎的设计剖析[J].计算机工程与科学,2002,24(4):18-20.

搜索引擎研究范文第5篇

《报告》显示,截至2011年第三季度,搜索引擎用户规模达到3.96亿,用户增长放缓。

网民网页搜索使用惯性已经养成

百度凭借其丰富的产品线,仍旧占据极为领先的市场地位,2011年市场集中化趋势更为明显。百度对六大群体——少年用户群、大学生用户群、白领用户群、蓝领用户群、老年用户群、农村用户群的渗透率都很高,没有明显的用户渗透短板。与此同时,其他搜索引擎公司正在崛起,但是在传统网页搜索上,超过百度较为不易。

垂直搜索引擎正在兴起

随着中国网民的日益成熟,网民在仍旧是综合搜索引擎用户的同时,更多细分化的需求开始通过垂直搜索引擎满足,2011年这一趋势更为明显。在争夺垂直产品搜索用户上,三股力量在角力:综合搜索引擎、垂直搜索引擎、提品服务的网站站内搜索。目前综合搜索引擎的用户量非常大,但另外垂直搜索引擎以及网络应用站内搜索用户量增长迅速。

从产品搜索看,各有15%左右的用户使用专业垂直搜索引擎和使用购物网站站内搜索;从视频搜索看,则是视频网站站内搜索较强,比例达到23.2%,使用专业垂直搜索引擎和视频网站站内搜索的比例分别是9.9%和23.2%;音乐搜索亦是如此,在音乐网站站内搜索的比例达到28.3%,已超过通过综合搜索引擎提供的音乐搜索功能搜索的21.7%。

新搜索入口正在形成

网民使用较多的仍旧是直接上专业搜索网站的首页搜索,有81%的用户有这一习惯。其次是在浏览器地址栏里输入关键词搜索,用户比例达39.6%。网民进入搜索引擎的方式多种多样,除了以上这两种外,导航网站、浏览器搜索框、聊天工具等都是网民进入搜索引擎的重要入口,使用比例分别达到34.2%、31.4%、28.1%。

分用户群看,老年用户更习惯使用直接登录首页,使用网站首页的比例在六大群体中最高,达到84.8%。活跃度较高的大学生用户和少年用户更喜欢浏览器搜索框和聊天工具提供的搜索引擎入口,大学生用户使用浏览器搜索框的比例为42.4%,少年用户使用聊天工具提供搜索框的比例是39.1%。这预示着搜索未来的发展方向。

新闻、视频和音乐是用户最常搜索的三大内容