首页 > 文章中心 > 网络爬虫基本原理

网络爬虫基本原理

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇网络爬虫基本原理范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

网络爬虫基本原理

网络爬虫基本原理范文第1篇

[关键词]搜索引擎 主题爬行 爬行策略 爬行算法

[分类号]TP391

搜索引擎技术自诞生之日起就成为互联网中最吸引人的技术之一,各种商业化的搜索引擎已经成了人们使用互联网时不可缺少的工具。传统搜索引擎的工作原理是服务提供商利用网络爬虫(Web crawler,也被称作网络蜘蛛(Web spider)或网络机器人(robot),通过一些种子站点按照深度优先或者广度优先的搜索策略对可以爬行到的资源进行扫描、下载,并将下载的信息以快照或全文方式存储在数据库中,建立相关索引,当用户在搜索引擎的用户界面中输入搜索关键字后,搜索引擎访问数据库,返回数据库中与搜索关键字匹配的纪录。随着互联网中网页资源的快速增长,传统的搜索引擎在某些方面的缺陷也越来越明显:①搜索结果不够全面。传统搜索引擎希望镜像整个Web世界,搜索引擎追求的是尽量多的处理及存储网络爬虫爬回的网页,但不同的搜索引擎由于受到服务器位置、网络带宽、爬行算法、服务器容量等因素的影响,服务器中存储的资源是有限的,任何一个搜索引擎不可能存储并索引网络上所有的网页信息。即使是全球最大的搜索引擎Google,其索引的页面数量也仅占Web总量的40%左右。②搜索周期增加,影响信息的实效性。随着Web资源的快速增长,传统搜索引擎网络爬虫的爬行周期不断增加,数据库更新时间越来越长。每一个网页都有自己的生命周期,网页的更新速度可能会快于搜索引擎数据库的更新速度,当搜索引擎把数据库中已经过期的信息反馈给用户时,用户可能根本无法打开相关链接或者打开的是过期的网页。③搜索结果的针对性不强。用户输入一个关键字后返回很多结果,但存在大量重复,很多结果并不是用户需要的。通过对欧洲和美国9个主要的搜索引擎日志的统计分析,认为用户对于搜索结果的查看呈减少趋势。普通用户仅仅会察看搜索引擎返回的前若干条数据,对于其他搜索结果,很多用户没有耐性全部看完。不同专业背景的人,对于同一个关键词的理解可能大相径庭,同样的“苹果”一词,有人可能理解成为食品,有人可能理解成为苹果公司或者其IT产品。

鉴于传统搜索引擎的这些缺陷,一些学者提出了垂直式搜索引擎的概念,即该搜索引擎不以爬行所有的Web页面为目标,仅仅在互联网中快速爬行某一部分Web页面并存储,这样的搜索引擎既可以节约网络带宽资源,又可以缩短搜索引擎数据库的更新周期,使搜索引擎得到实时性更好的网页。De Bra等最先提出的主题爬行(topic crawling)搜索引擎通过限定爬行主题,提高了搜索精度,成为垂直式搜索引擎的代表。主题爬行技术的核心是爬行策略与算法,本文从主题爬行技术的基本原理出发,对其策略进行分类,沿着爬行策略及算法的改进,分析了主题爬行策略与算法的研究热点,为主题爬行技术的进一步研究提供参考。

1 主题爬行原理

主题爬行是在传统网络爬行技术基础上,加入文本分类、聚类以及Web挖掘等相关技术用于捕获特定主题的Web信息。主题爬行技术的应用可以提高搜索精度,降低搜索引擎对网络资源的占用,缩短搜索引擎数据库的更新周期。基于主题爬行技术的搜索引擎与传统搜索引擎最大的区别在于:该搜索引擎的网络爬虫是面向主题的。传统搜索引擎的网络爬虫在爬行过程中采用的是“通吃”策略,不分类别、不分内容全部爬行并下载;基于主题的网络爬虫在爬行前或者爬行过程中根据已经爬行的结果有选择性的进行预测下一步爬行并下载。

主题爬行过程通常由三部分构成:①分类器(clas―sifter),主要对已抓取网页的元素进行计算,判断其主题相关度,确定是否对该网页中所包含的超级链接进一步抓取;②提取器(distilIer),该模块存储待下载队列,并确定待下载队列的优先级;③爬行器(crawler),该模块在分类器和提取器的指导下,执行网页抓取工作。主题爬虫的爬行过程为爬行器根据不同的爬行策略执行爬行操作,抓取网页送人分类器中,分类器对已经抓取的网页进行处理,根据设定主题及其域值判断该网页的主题相关性,结合其他参数,确定是否对该网页包含的超级链接进一步爬行。如果爬行,则送入提取器中的队列,由提取器根据队列规则确定其爬行优先极。Chakrabarti等人 1999年正式提出了个性化主题搜索引擎的概念,该搜索引擎不以传统的关键词作为搜索内容,而是在某一限定范围内,通过计算Web页面内容与主题的相关性,决定主题爬虫是否值得进一步搜索。其中,主题是由一些范例文档来确定的,该主题爬虫实时查找与文档词典有相关性的网页,保证了搜索页面的时效性与针对性。

2 主题爬行基本爬行策略与算法

主题爬行技术的核心是爬行的策略与算法,由于主题爬虫与传统网络爬虫在爬行目标上有很大差别,因此,除了采用传统网络爬虫的爬行策略之外,主题爬虫在爬行过程中还要采用有效爬行策略与算法尽快爬到并抓取与主题相关的网页。Sotiris Batsakis等人将主题爬行策略分成三类:经典主题爬行策略、改进的主题爬行策略、基于语义的主题爬行策略。经典爬行策略主要指主题爬行的“鱼群搜索策略”(fish search),改进的主题爬行策略主要指“鲨鱼搜索策略”(sharksearch)、“最优最先(best first)搜索策略”等。

鱼群搜索策略是以“鱼群搜索算法”(fish algo―rithm)为基础的主题爬行策略,鱼群搜索算法是一种基于群体动物行为的智能优化算法,该算法模仿鱼群在觅食和繁殖时的表现,动态调整种群的个数。在鱼群搜索策略中,每个网页相当于一条鱼,如果遇到满足给定条件的相关网页,则该鱼繁殖小鱼,并对该网页发出的链接进一步探索;否则食物减少,如果一条鱼的食物减为零,则该鱼将停止寻食并放弃对该链接的爬行。鱼群搜索策略中某一超级链接是否放人提取器中待下载,取决于该链接的父链接与主题的相关性。关于待下载链接与主题的相关性,De Bra L”提出了通过比较已下载网页内容与主题关键字是否匹配,引入二元分类方法(1代表相关,O代表不相关)来计量相关性。

改进的主题爬行策略是基于鱼群搜索策略基础的改进,Hersoviei M”。提出采用向量空间模型(vectorspace model)来计量相关性,向量空间模型不以整数0、1来计量相关性,而是通过多个参数比较,采用O一1之间的实数来计量。该方法除了用已下载网页内容和主题关键词是否简单匹配来判断相关性,还通过计算

锚文本(anchor)等其他参数与主题的相关性来计量。这种改进的搜索策略比鱼群搜索策略在爬行的准确率(precision rate)和召回率(recall rate)上有很大的进步,该搜索策略被称之为“鲨鱼搜索策略”(shark search)。在“鲨鱼搜索策略”中,已下载网页中页面内容、锚文本内容、链接内容(URL)及父页(指向包含链接页面的Web页)的相关性等都作为主要参数用来计量待下载网页与主题的相关性,通过计算确定待下载网页是否进人提取器队列中。关于参数向量的选择,Cho J等提出了重要度向量,该重要度向量由几个部分构成:①已下载页面逆文献频率法(inverse document frequency,IDF)的关键词相关度;②已下载Web页的重要链接指向个数(backlink count);③已下载页面指向链接的重要度值(pagerank);⑧URL位置矩阵(10cation metrics)等四个参数作为衡量相关性的向量。

随着研究的不断深入,“鲨鱼搜索策略”也不断完善,该方法中向量空间模型的参数越多,相关性计量越准确,但参数增加使计算量也随之增加,因此,过多的参数对爬行速度有一定影响。但Zhumin Chen等”。对各种主题爬虫的运行时间进行了实验分析比较,该学者认为,相对于网络中的下载等待时间来说,相关性计算的时间很少,有时甚至不到下载时间的十分之一,因此页面相关性的计算对爬行速度的影响是可以忽略的。在“鲨鱼搜索策略”的基础上,Menczer F等提出了“最优最先”(best first)搜索策略,这一策略通过计算向量空间的相关性,把相关性“最好”的页面放入最优先下载的队列,另外,“最优最先”搜索策略采用了术语频度(TF)值计算文本相似度,减少了部分计算量。根据文献,由于只选择与主题相关性很大的链接,而忽略某些当前相关性不高但下级链接中包含很高相关性链接的网页,最优最先算法具有很大的贪婪性,该算法只能找到局部范围内的最优解,难以得到全局范围内的最优解。因此,该搜索策略只适用于小范围内的主题爬行,对于大范围的主题爬行,容易过早地陷入Web空间中局部最优子空间的陷阱。

作为一种有效表现概念层次结构和语义的模型,本体论(ontology)被广泛地应用到计算机科学的众多领域。美国斯坦福大学的知识系统实验室学者TomGruber提出了本体是概念化的显式表示,Studer在Gruber的基础上扩展了本体的概念,提出本体是共享概念模型的明确形式化规范说明。本体具有良好的概念层次结构和对逻辑推理的支持,可以解决信息源之间结构和语义的异构,W3C在2004年提出了Web本体语言(Web ontology language,OWL)的标准。基于本体的网络爬虫认为概念上使用相似术语的页面应具有一定的相关性。M.Ehrig等学者将本体应用于主题爬虫的分离器中,首先通过定义术语的相关性,建立本体术语集合,通过对已下载网页处理并对本体库的比较分析,计算其相关性,确定是否将待下载链接放入分离器,提高了主题爬行的准确度与召回率。Jason J.Jung提出基于语义主题爬行的开放式决策支持系统,该开放系统主要包括基于上下文语义的主题爬虫通过域内链接进行区域内知识发现及知识的处理,为开放式决策支持系统迅速提供知识。基于语义的主题爬行技术中,本体库的构建及完善是一项复杂的工作,因此应用范围有限。

3 爬行策略与爬行算法的改进

虽然鱼群搜索策略、鲨鱼搜索策略、最优最先搜索策略是主题爬虫常用的搜索策略,但由于互联网中网站结构的多样性及复杂性,很多学者在主题爬行算法中尝试采用其他的搜索算法实现较高准确率与召回率。相继提出了采用模糊算法、人工神经网络、遗传算法、粗集理论等方法指导主题爬虫的爬行过程。

作为最优最先搜索策略的改进,李学勇等采用模拟退火算法作为爬行的启发式搜索算法,与爬行中的“隧道技术”结合改进主题爬虫。模拟退火算法从某一较高初温出发,伴随温度参数的不断下降,结合概率突跳特性在解空间中随机寻找目标函数的全局最优解。该算法在选择优化解方面具有非贪婪性,在爬虫搜索过程中,每次除了选择评价值最优的链接,还以一定概率有限度地接收评价值次优的链接,确保有一定价值的链接有机会被选中。“隧道技术”使爬虫有机会穿过相关性低的区域进入相关性高的区域,当页面内容的相关度低于设定的阈值时,通过扩大主题范围,使更多的相关链接加入到链接优先级队列,提高相关网页的召回率。模拟退火算法是一种随机算法,虽然可以比较快地找到问题的近似最优解,但不一定能找到全局的最优解。因此,将模拟退火算法应用于最优最先搜索策略并不能完全保证主题爬行的鲁棒性。

遗传算法(genetic algorithm)是模拟生物进化论与遗传学结合的计算模型,在最优解搜索领域具有一定优势,自从密西根大学的Holland教授提出该算法后,由于其鲁棒性、自组织性强等优点,在很多方面有广泛的应用。Jialun Qin等学者采用遗传算法实现主题爬虫在特定域内的爬行,通过初始化、内容分析选择、链接分析杂交、变异等几个步骤实现主题爬虫在特定域内的爬行。根据文献,该算法的应用在某些Web页的主题爬行中具有较好的准确率与召回率。遗传算法应用于主题爬行技术中存在编码方式的确定、适应性函数的确定等问题,由于网站结构、网页类型的不同需要采取不同的标准。遗传算法也存在局部最优陷阱问题,单纯使用遗传算法进行主题爬行时也会存在无法穿越隧道的问题。

隐马尔柯夫模型(HMM)作为一种统计分析模型,在信号识别等领域有广泛的应用,隐马尔柯夫链在相关性评估应用中具有一定优势。Hongyu Liu等提出基于隐马尔柯夫模型的算法来评估待下载页面与主题之间的相关性。该系统包括三个步骤:①进行数据收集;②依据相关性模式建模;③根据模型对待下载页面评估并进行主题爬行。该算法的应用可以提高主题爬虫在分离器中的处理精度,但由于计算量的增加,会降低处理效率。

人工神经网络近来日益受到人们的关注,因为它特有的非线性、自适应性、自学习性为解决复杂问题提供了一种相对比较有效的简单方法。Hai-Tao Zhengr提出采用基于本体的人工神经网络(ANN)实现自学习爬行,系统框架分为三个步骤:①进行数据准备;②通过现有的数据集对人工神经网络进行训l练;③将训练过的主题爬虫应用于实际爬行,取得较高的准确率与召回率。人工神经网络存在训练时间长、学习算法的通用性低等缺点,所以,将人工神经网络应用于主题爬行中,也存在样本学习时间长,学习算法不具有通用性等缺点。因此,人工神经网络仅仅适用于小范围的主题爬行。

除以上算法的改进,很多学者还尝试采用其他计

算方法改善主题爬虫的搜索性能,Suman Saha等。应用粗集理论对未下载的Web页面进行预测,判断其与主题相关性,该方法提高了爬行页面的准确率,降低了噪声。Huaxiang Zhang等提出利用Q学习及在线半监督学习理论在待访问的URL列表中选择与主题最相关的URL,相关值的计算基于模糊理论及Q值理论。

虽然很多学者尝试通过不同的软计算方法改进主题爬虫,但由于互联网中网站结构与网站内容多样复杂,这些算法往往应用于某些网站时具有较高的准确率与召回率,但是应用于另一些网站时准确率与召回率会下降。主题爬虫的准确率与召回率除了受网站结构、主题爬虫的爬行策略与算法等因素的影响,还受爬行入口位置、Web服务器性能等其他相关因素影响。

4 主题爬行策略与算法的研究热点

鉴于主题爬行技术的不断发展,主题爬行策略及算法也在不断完善。目前关于主题爬行策略与算法的研究主要集中于以下几个方面:①爬行策略与爬行算法的通用性研究。互联网中不同类型网站的网页间组织形式相差很大,如何从已经下载的网页中高效、准确地判断待下载页面与主题的相关性,并根据相关性修改下载队列,是主题爬行技术能否成功的关键。目前主要通过修改爬行策略及利用各种软计算方法来实现,但很多时候对于某些网站具有很高的召回率和准确率的方法,对于另一些网站可能并不适用。主题爬行的准确率与召回率有时候与种子URL的起始位置等其他相关因素有很大关系。②“隧道技术”的研究。很多时候主题爬虫需要穿过若干个与爬行主题相关性很低的页面后才会发现一组与主题相关性很高的页面群,穿越中间相关性很低的页面需要隧道技术,如何实现隧道穿越、提高主题爬行准确度是目前很多学者研究的内容。③对于深度Web(deep Web)资源爬行策略的研究。许多深度Web资源存放在数据库中,这些数据库的访问需要用户名、密码等信息,目前常采用半人工辅助方法使主题爬虫访问数据库,如何快速、自动地发现这些数据库并访问这些深度Web资源,也是当前主题爬行技术的研究热点。

网络爬虫基本原理范文第2篇

1关键技术分析

1.1分布式计算分布式计算的基本原理是将待解的问题分解成若干个子问题,由多个独立并行的计算设备来进行计算.Hadoop是一个基于Map/Reduce的相当成功的分布式计算平台,Map/Reduce是Google的一项重要技术,是一种简化的并行计算编程模型[5].当接到一项任务时,不同的数据文件大小差异会很大,这就使线程运行的时间不一样,而整个任务的时间是由处理最大文件的那个线程所决定的,这就导致资源的浪费.所以,一种更好的方法是将输入数据分割成相同的块,大小一般为64M,这样既使有些进程处理速度快,也可以给它分配更多的数据块.Map/Reduce任务被分为Map阶段和Reduce阶段两个处理阶段.每个阶段都以键/值对作为输入和输出,由程序员决定它们的类型并具体定义Map函数和Reduce函数.Map函数是数据的准备阶段,对指定的属性进行提取,输出后的数据被存入本地硬盘.因为一旦作业处理完成,Map输出的中间结果可以被删除,如果中间结果传递给Reduce函数前失败,就由Hadoop在另一个结点上重新运行这个Map函数.中间结果被送到Reduce函数后,所有的Reduce函数对整个数据列表进行遍历,最终得到符合条件的结果.执行流程如图1所示.

1.2分布式存储HDFS最高效的访问模式是一次写入,多次读取.一个HDFS集群由一个NameNode(管理者)和一定数目的DataNode(工作者)组成.NameNode管理文件系统的命名空间,维护着文件系统树及整棵树内的所有文件和目录;DataNode是文件系统的工作节点,受NameNode和客户端的调用,根据需要存储或检索数据块,并定期向NameNode发送它们存储的块列表.当机器出现故障时,需要根据NameNo-de的块来重建文件,所以NameNode实现容错非常重要,Hadoop为此提供了两种机制.一种机制是备份那些组成文件系统元数据持久状态的文件,一般的配置是将持久状态写入本地磁盘的同时,写入一个远程挂载的网络文件系统;另一种机制运行一个辅助的NameNode,一般运行在一个单独的计算机上,它会保存合并后命名空间镜像的副本.HDFS文件系统使用副本存储策略来实现高可靠性.系统的复制因子一般为3,分别位于3个DataNode上,其中一个位于不同集群上.当一个DataNode出现故障后,其保存的数据仍然可以通过其他DataNode上保存的数据进行读取.网络断开会造成一组DataNode和NameNode失去联系,NameNode根据缺失的心跳信息判断故障情况.当一个在DataNode出现故障,这时NameNode就再复制该DataNode的副本并存储到其他DataNode上,以此来保证系统的高可靠性.当用户需要访问文件系统中的文件时,都需要向NameNode提交请求,获得相应的权限后,再对DateNode进行读或写.分布式文件系统结构如图2所示.

1.3搜索引擎技术架构作为互联网应用中最具技术含量的应用之一,优秀的搜索引擎需要复杂的架构和算法,以此来支撑对海量数据的获取、存储,以及对用户查询的快速而准确地响应.搜索引擎的信息源来自于互联网网页,通过网络爬虫将整个互联网的信息获取到本地,因为互联网页面中有相当大比例的内容是完全相同或者近似重复的,“网页去重”模块会对此做出检测,并去除重复内容.在此之后,搜索引擎会对网页进行解析,抽取出网页主体内容,以及页面中包含的指向其他页面的链接[6].为了加快响应用户查询的速度,网页内容通过“倒排索引”这种高效查询数据结构来保存,而网页之间的链接关系也会予以保存.之所以要保存链接关系,是因为这种关系在网页相关性排序阶段是可利用的,通过“链接分析”可以判断页面的相对重要性,可以对用户提供比较准确的搜索结果.由于网页数量太多,搜索引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,使用单台或者少量的机器明显是不现实的,分布式搜索引擎应运而生.Google等商业搜索引擎为此开发了一整套云存储与云计算平台,即前文介绍的Hadoop平台,使用数以万计的普通PC搭建了海量信息的可靠存储与计算架构,以此作为搜索引擎的基础支撑.大部分的HDFS程序对文件操作需要的是一次写入多次读取的操作模式.一个文件一旦创建、写入、关闭之后就不需要再修改.这个设定简化了数据一致性问题,并使高吞吐量的数据访问变得可能.网络爬虫程序可以完美地适合这个模型.搜索引擎的技术架构如图3所示.

2基于Hadoop的海运业分布式搜索引擎架构

随着经济全球化的出现,海运企业面对的是一个更大的市场空间和更激烈的竞争环境,信息的实时换要求越来越高,同时也对应用系统的全球快速部署提出了更高的要求.传统的企业IT架构给计算资源和软件留下了众多“孤岛”,因此集成和管理变得非常困难,传统的区域性计算机信息中心已经难以适应这种竞争需求,需要建立一个以数据为中心、分布式应用一体化的信息系统[7],以提高企业的核心竞争力.海运企业也有其特殊的一面,就是分公司与分支机构遍布全球各个港口,并且相互间的信息交互频繁,企业需要实时动态的查询船泊挂靠港口以及单证资料的传递信息,客户也需要随时能了解货物的运输情况.因此,基于Hadoop平台的分布式搜索引擎架构,特别适用于典型的全球性企业,尤其适用海运业,而且海运业的计算机应用系统经过几十年的发展,已经形成了一套完整的体系,如图4所示.其中,网关中心与各地区的海关、码头、堆场等服务商进行数据交换,采用全球通用的标准,例如EDI标准进行编码(UN/EDIFACT),进行双向数据交换,以达到和配合单位的数据共享,提升作业效率,降低人工录入成本.传输方式可以采用FTP或EMAIL等,主要对象和数据内容如下。Hadoop平台采用分布式存储技术,使得原来分布在各分支机构服务器上的数据处理能按照HDFS集群的方式集中在一起,成为分布式存储中心.将时效性高、处理时间集中的业务集中处理,合理分配人力资源.不但降低了人力成本,也提高了工作效率.Hadoop平台以分布式存储技术作为底层支撑,爬虫模块在搜索各个服务器的时候,定义一系列的Map/Reduce任务,下载服务器数据,分析数据,提取数据之间的关联,计算链接权重以及PageRank评分.索引模块将下载的数据解析成文本文档,并对抓取的内容进行分词,然后提取词元序列,按照重要性生成索引,方便用户检索业务数据.模拟千名用户在同一时刻对系统进行查询操作,测试数十次,响应速度很快,数据查询返回结果均在3s以内.同时也模拟进行了异地大量数据查询,例如10万条数据返回时间也均在5s以内.测试结果令人满意,如图5所示.

3结束语

网络爬虫基本原理范文第3篇

关键词 图书馆学 情报学 研究热点 信息可视化

1引言

被Web of Science(下文简称“WoS”)中的SSCI数据库收录的图书馆学情报学即INFORMATIONSCIENCE&LIBRARY SCIENCE(下文简称“LIS”)类期刊共计85种(截止2016年4月7日)。刊载在这些期刊上的研究成果,一方面反映了世界主要国家或地区LIS领域研究的热点和前沿,另一方面,也反映了际上高水平研究者的其他科研信息。以往由于载文量巨大,加之受分析技术工具的限制,研究者多是运用人工逐篇抽样阅读的方法,对国际顶级期刊的部分文献进行研究,带有较强的主观性,无法完整、客观地对某个时间段内的全部文章进行分析。专家的主观分析虽然具有一定的指导意义,但往往缺乏公允性、完整性和客观性。笔者将WoS中的与北京大学图书馆编辑的《国外人文社会科学核心期刊总览》(下文简称《总览》)中重合的27种图书馆学情报学类期刊作为研究对象,并根据2014年影响因子的高低作适当增减,运用Citespace可视化软件,对WoS中2014-2015年刊载的3287篇文献进行科学计量分析。本文要探讨的问题是:近2年国际高水平的LIS期刊的研究热点及其覆盖的科学领域、科研机构,论文的国家或地区合作情况、核心作者与核心被引作者群、核心被引期刊概况。希望本文具有如下特点:全样本数据的完整性、研究对象的时效性、分析工具的客观性以及知识图谱的直观性等,为我国研究者了解和掌握国际LIS领域的研究热点、前沿、对象、方法、研究者、研究机构、核心期刊等情况提供完整、及时、客观、直观的数据分析,减少研究者获取本领域科研情报的盲目性,提高研究效率。

2研究方法

2.1引文分析法

1955年,加菲尔德(E.Garfield)在《科学》上发文提出了一种科学文献书目系统,可剔除对虚假、过时或完整性较差的数据的任意引用,使学者们可了解到对早期论文存在的批评。引文分析法至此正式产生。引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,以便揭示其数据特征和内在规律的一种文献计量的分析方法。本文使用引文分析法,主要原因是该方法能回答以下三个问题:第一,某些文献为什么能持续成为研究者关注的核心?第二,这些核心文献中已经出现或即将出现哪些趋势?第三,某领域或学科的文献与其他学科的交叉呈现出何种关系或态势?引文分析有三种基本类型:①对引文数量进行研究,主要用于评价期刊和论文等。②对引文间的网状关系或链状关系进行研究。科学论文间存在着一种引用关系网,如A被B引,B被C引,C又被A引等,研究这种关系主要用于揭示学科的发展与联系,并展望未来前景等。③对引文反映出的主题相关性进行研究,主要用于揭示科学的结构和进行文献检索等。引文分析法的上述三种类型,分别回答和解释了上述三个问题。

2.2词频分析法与共现分析法

本文所指的“词”,即Citespace软件中的“Term”。美国著名情报学专家萨隆(G・Salon)认为,Term表示主题词、名词、标引词、情报项、文献著录项、标引与检索的信息单元等。词频分析是将文献中的多个因子联系起来的引证分析方法,它能科学地评价文献、文献作者的学术水平,揭示学科的热点、前沿以及发展趋势。共现分析法则是将文献中的各种共现信息定量化的分析方法,通过共现分析,可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用知识,并揭示研究对象所代表的学科或主题的结构与变化。在计算机技术的辅助下,共现分析在构建概念空间和实现语义检索、改进知识组织中文本的分类效果、分析文献中的知识内容关联、挖掘知识价值等方面彰显出独特的提炼和概括功能。通过软件进行词频分析与共现分析,能较好地抽取出所分析文献样本的热点、前沿趋势以及科学结构等关键情报。

2.3科学知识图谱与信息可视化方法

科学知识图谱(Mapping Knowledge Domains)是显示科学知识的发展进程与结构关系的一种图形,用可视化技术描述人类随时间拥有的知识及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系。在组织内创造知识共享的环境以促进科学技术研究的合作和深入。

信息可视化涉及计算机生成交互式信息图示的设计、开发和应用。首先要处理抽象的、非空间的数据。把非空间的数据转换成直观的、有意义的图像对该领域极其重要,这个转换的过程是一个创造性的过程,设计者可以赋予图像新的意义。本文运用科学图谱与信息可视化的理论,通过Citespace软件,将需分析的文献进行图像转化和处理,赋予客观、科学的意义。

2.4 LLR算法与PageRank算法

本研究采用LLR算法对聚类进行命名。LLR即对数似然比算法,全称Log-Likelihood Ratio。其基本原理是:假设对于类别Ci,词Wi的频度(oc),集中度(β)和分散度(丫)等指标组成向量Vji,选取聚类命名就是根据Vij来判断Wi是否可以作为类别Ci的特征词。LLR算法如下:

式中,LLR为词Wi对于类别Ci的对数似然比,p(Ci\Vij)和p(Cj\Vij)分别为在类别Cj和Cj中的密度函数。

PageRank网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种根据网页之间相互的超链接计算的技术,作为网页排名的要素之一,以Google公司创办人拉里・佩奇(Larry Page)之姓来命名的。该算法的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。文章运用Citespace中的Page-Rank算法,对相关数据结果进行PageRank排名,为数据分析提供另一个维度的视角。

3数据来源及分析工具

3.1数据来源

笔者通过WoS中的期刊引文分析报告(JCR:Journal Citation Reports社会科学版)查询2014年(2015年尚未公布)的"INFORMATION SCIENCE&LIBRARY SCIENCE”类别中被收录的所有期刊,共计85种(详见表1,以影响因子的值作降序排列)。由于这85种期刊并未完全聚焦在图书馆学情报学领域,因此,本研究结合北京大学的《总览》进行聚焦。《总览》的编撰历时2年多,由北京高校图书馆期刊工作研究会成员馆、国家图书馆等相关单位的33位图书馆专业人员参加研究,163位学科专家参加了核心期刊的定性评审,具有较高的指导意义。图书馆学情报学档案学期刊共计61种。经对比,WoS与《总览》重合的图书馆学情报学期刊共计29种,并根据检索结果以及影响因子适当增减。随之,以Web of Science核心数据库为检索库,以“出版物来源一下表27种期刊名称”和“时间跨度一2014年-2015年”,文献类型选择“Article”,语言类型选择“English”,共命中3287条文献记录,通过数据导出和处理,将文献记录以Citespace能识别的WoS输出格式导入Citespace软件中。

3.2分析工具

CiteSpace是一款着眼于分析科学文献中蕴含的潜在知识,并在科学计量学(Scientometric)、数据和信息可视化(Data and Information Visualization)背景下逐渐发展起来的一款引文可视化分析软件。本文使用Citespace 4.0.R4版本,对数据进行处理、分析、制图。此外,使用WoS自带的统计分析功能,结合Citespace的可视化分析功能,交叉配合使用。Citespace软件有多个不同版本,开发者截至笔者投稿之日,仍然在优化该软件,故该软件对某些项目的统计结果可能出现与WoS的统计有微小差异,可视为科学研究中的误差,但不影响主要数据分析。该工具已经不仅仅提供引文空间的挖掘,而且还提供知识单元之间的共现分析功能,如作者、机构、国家/地区的合作等。

4结果分析

4.1研究热点分析

研究热点可看作某研究领域中,研究者共同关注的一个或多个研究主题,笔者认为共词分析可反映目标领域的热点概况。通过Citespace对Term与Node的提取,可对3287篇文献的关键词进行共词(Co-words)聚类挖掘分析,运行结果如图1所示。该图反映了国际LIS领域近两年的热点问题,聚类号表示某词经LLR算法聚类后所在的主题。Mo-durility(M)即网络模块化评价指标,值越大,表示网络得到聚类越好,Q的取值区间为[0,1],当Q>0.3时得到的网络社团结构是显著的。Silhouette(S)是用来衡量网络同质性的指标,当其值>0.5时表示聚类结果是合理的,越接近1,同质性越高。通过LLR算法,M=0.8835,S=0.5014,得出的图谱合理、客观,研究热点聚类名称如图1、表2所示。

图1中黑色字体表示不同文献共同的关键词,“#数字”表示运用LLR算法对共同关键词提取后命名的聚类词,每个色块表示由各类不同的文献组成的具有相近研究主题的聚类。通过对关键词的聚类,得到15个研究主题,聚类间有交叉覆盖的现象,表示这些聚类之间存在研究主题上的交叉,其关系较为紧密,与其他聚类不交叉的色块表示该类主题具备较为独立的研究性质。以“#0,#1……”等形式对聚类进行编号(Cluster ID),聚类号越小,表示该聚类的经典文献数量(Size)越多,Silhouette值表示经典文献之间的紧密程度,Mean(Year)项表示平均年份,可反映聚类中文献的时效性,Top Terms即以LLR算法命名的聚类名称。经过自动聚类并结合图书馆学情报学专业知识,相关度较高的关键词聚类情况见表2。

基于LLR算法的聚类名称,可客观反映2014-2015年国际图书馆学情报学研究领域的热点问题,可将上述聚类归纳为四个方面。

(1)传统LIS领域。

布莱达(Mas-Bleda)等基于欧洲的在线出版物,使用爬虫技术对1525名高被引科学家进行研究,这是第一个对链模式高被引研究者机构网站的研究,用以确定哪些网络资源被科学家们。斯图德(Sotudeh)等使用科学计量方法与比较的方法,就女性科学家在科学生产力、影响等方面与男性科学家进行对比研究,发现虽然女性科学家人数较少,但同样有较好的科研成果和影响。拉弗蒂(Raf-ferty)等通过对八位用户的调查访谈,对基于故事图像的索引输入法进行了探讨。戈卢布(Gol-ub)等对将杜威十进制分类法(DDC)作为建立知识组织系统(KOS)增强社会标签,提高主题索引和检索信息效率进行了研究,结果表明受控词汇表索引和检索的重要性是@而易见的。苛勒(Koler)等以发表在2007年的14个国际期刊中的文献为研究对象,对土木工程领域开放获取文献的被引次数进行研究,结果表明开放不是引用的充分条件,但增加了期刊上发表文章的引用次数。阿尔瓦雷斯(A1-varez)等使用文献计量方法对虹膜识别研究领域进行了全面概述。郭(Kuo)等使用共被引方法模型对核心文献之间的关系进行了研究,实现了运用多元统计技术来构建知识结构的表征。吴(Wu)等通过对台湾大学32名被试者进行调研,研究了研究生如何看待和使用谷歌学术搜索。索步尔(A1-Shboul)等运用角色法、系统设计法等,以约旦王国的一个先进的信息通讯技术环境抽样为例,研究了集成现有的信息需求行为的模型。布龙斯坦(Bronstein)等运用分布式的信息检索自我认知量表(IRSPS)对205名学生进行匿名问卷调查,发现参与者报告了高水平的自我效能感。

(2)医学信息领域。

戈尔泰普(Gultepe)等开发了一个决策支持系统,用于患高乳酸盐血症的高危病人的生命体征的常规测量,支持实验室研究。斯塔尔茨(Stultz)等对剂量警报是否合适进行了评价,将警报与订单分类,比较了儿科医院内定制的和非客户化的恰当的剂量警告范围。贝格海莱(Baghele)等运用文献计量方法对Pubmed数据库中印度牙医的文献的趋势进行了评估,发现从1960年到2012年,每位印度牙医平均贡献了0.53篇文献。

(3)心理学与计算机科学领域。

加维兰(Gavilan)等探讨了移动广告引发的心理意象的作用及其对信任和购买意愿的中介效应。特拉(Tatry)对国与国之间的合作网络映射到可视化的强度关系进行了研究。谢(Xie)探讨了社会媒体在数字图书馆中的应用和识别等相关问题。

(4)管理科学领域。

齐(Chi)等研究了非源代码项目的特点,并在社会科学文献评价中对德国对政治科学出版物进行了研究,结果表明,非源代码项目显著提高了出版物的数量。萧(Hsiao)等运用基于意图的五个理论模型对大学生的行为意图进行调查。克拉托赫维尔(Kratochvil)等对使用在线学习进行信息素养教学进行了研究。雷德斯多夫(Leydesdorff)等测量了三螺旋协同在俄罗斯国家级、省级区域创新系统中的水平。斯瓦尔(Swar)应用社会网络分析技术的混合方法和三重螺旋指标,以网络知识的视角对南亚的信息通信技术基础设施的重要性进行了研究。

从上述领域的研究主题来看,研究热点呈现的特点是集中在传统的LIS领域,研究主题不断深化、扩展,使用的研究方法规范、科学。近2年的国际LIS研究主题中,网络计量、索引、文献计量、信息需求、信息检索是持续的研究热点。

4.2研究前沿分析

笔者认为研究前沿分析主要以共被引(CitedReference)的文献网络关系加以体现。科学计量学的奠基人普赖斯(Price)提出“研究前沿”的概念,即科学引文网络中高被引且时效性强的文献集合。他认为研究前沿能动态地反应某研究领域的本质。加尔菲尔德(Garfield)将研究的前沿定义为一组核心的高被引论文和引用论文,认为研究前沿的名称可以从论文标题中出现频率最高的词或短语中提取。陈超美认为研究前沿是一组及时、动态且有潜在研究价值的问题,研究前沿的知识基础是引证和共引痕迹。本文中,Citespace的具体操作设置是:“Term Source”部分同上文,“Node Type”部分选取“Cited Reference”选项。运行数据后,得到研究前沿聚类图,见图2。

从图2可见,将共被引文献聚类后得到16个研究主题。结合图书馆学情报学专业知识,排除相关度较小的聚类后,以“#0,#1……”等形式对聚类进行编号,聚类号越小,其聚类的文献数量越多。共被引文献的聚类情况如表4所示。

基于LLR算法的聚类名称可客观反映2014-2015年国际图书馆情报学研究领域的前沿问题,将上述聚类归纳为三个方面。

(1)传统LIS领域。

米克斯(Meeks)等对交集电子健康记录(EHR)进行研究,检查以往开发的概念模型的适用性,以实现全面了解其对英国国民健康服务(NHS)的影响。安珂尔(Ancker)等对电子健康记录的影响(EHRs)结果的个体差异性进行了研究。洛伦岑(Lorentzen)等运用网络计量学的方法,探讨了计量学和网络挖掘两个领域潜在的更紧密的联系和合作。韦加(Veiga)等通过对金融分析系统的实证研究,探讨了企业系统(ES)的成功因素。萨沃莱宁(Savolainen)等基于激励因素评价理论,研究了情绪和情感激励在信息检索过程中的五方面的影响。牛(Niu)等基于有效的科学引文角度,用文献计量法分析了科学引文索引扩展数据库中1992―2011年地球科学的相关科研情报。谭(Tan)等对1995年到2010年的科学引文索引扩展中的蛋白质学文献进行了计量分析,评估全球相关科学成果产出,发现研究人员集中在生化研究方法、生物化学和分子生物学。

(2)管理科W领域。

韦加(Veiga)等通过对金融分析系统的实证研究,探讨了企业系统(ES)的成功因素。常(Chang)等使用社会网络分析来确认天文研究机构具有强有力的国际合作关系,研究发现最强的关系体现在相关机构的跨洲科研合作。萧(Hsiao)等运用基于意图的五个理论模型对大学生的行为意图进行调查。

(3)计算机科学领域。

提图埃尔(Turel)等对管理团队提供的集中在信息技术资源的战略管理进行了研究,综合了资源和应急管理信息系统的观点与公司治理理论,检查董事会层面的IT治理的关键前因和后果(ITG)。庞(Pang)等基于资源观,尝试建立一种有效的测量技术,提出一种评估这些资源的协同效应对公司的能力影响的方法,并使用组织理论发现IT驱动的公司的战略角色资源。陈(Chen)等研究了信息技术(IT)的业务价值,该研究通过调查填补了IT的业务价值的中介作用这一空白,研究了该业务流程的灵活性和环境因素的调节作用。该研究的对象属于计算机科学领域,其研究方法则属于管理科学领域。

从上述领域的研究主题来看,研究的前沿呈现的特点是运用传统LIS方法研究跨学科领域的对象(如有机发光二极管、交集电子健康记录、金融等)。LIS在计算机科学、管理科学、医学、生物学实践领域的应用将成为今后LIS领域的研究重点。

4.3科学领域结构

科学领域结构可反应LIS领域所涉及的各个学科之间的合作、交叉关系。可从合作者的聚类、文献的聚类等方面进行探索,但最直观的方式,是直接分析由WoS导出的数据中的分类号(Category),运行结果如图3所示。

由图3和表6可知,从发文量来看(图中年轮的大小表示发文量的多少),LIS领域近两年覆盖的主要科学领域依次为:图书馆学情报学、计算机科学、健康护理科学与服务、医学信息、政府与法律、法律、商业与经济、管理领域。从PageRank维度来看,政府与法律的中性度最高,健康护理科学与服务、商业与经济次之,图书馆学情报学、计算机科学、法律、管理紧随其后。这表明,在图书情报领域的高水平成果中,受网络关注最高的是政府与法律领域。本研究样本文献构成的研究分布网络显示,上述研究领域互相交叉,这表明当前的学科研究趋势正朝着以图书馆学情报学为主,以其他相关领域为辅的多学科交叉研究的方向演化。

5结论

本文依据Citespace的引文分析及可视化功能,在识别和探讨LIS领域的研究热点与前沿动态问题过程中,得出以下结论:

首先,通过对2014-2015年SSCI数据库中27种核心图书馆学情报学期刊刊载的3287篇文献进行研究,通过关键词与主题的LLR聚类分析,发现传统图书馆学情报学、管理科学、计算机科学以及医疗信息等领域的图书馆传统服务和计量、信息需求与检索、索引、信息检索、组织工程、名称匹配算法、网络2.0、非源项、技术接受模型、三螺旋理论等主题是近两年国际LIS领域的持续研究热点。