前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇计算机爬虫技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
>> 基于网络爬虫原理的Web内容挖掘技术分析 基于陷阱技术的网络爬虫检测 基于WebKit的网络爬虫 基于模糊测试的网络协议漏洞挖掘研究 基于异步JavaScript技术的水稻病虫害图像网络爬虫设计 浅析漏洞挖掘技术 一种基于python语言的网络爬虫研究 基于Scrapy框架的分布式网络爬虫实现 基于多线程的网络爬虫设计与实现 基于网络爬虫的设计与实现 基于Websphinx网络爬虫的研究与改进 基于软件体系结构分析的漏洞挖掘技术研究 基于垂直搜索引擎的主题爬虫技术 网络论坛爬虫的设计 基于系统漏洞扫描和防病毒技术的网络安全的设计 基于网络安全的防火墙漏洞扫描技术 基于Fuzzing的软件漏洞发掘技术 基于数据挖掘技术的网络营销管理 基于主机和网络入侵检测的数据挖掘技术 基于Web的网络信息挖掘技术研究 常见问题解答 当前所在位置:l、.asp、.com、.cn等常见的字符终止的,因此,当我们对字符进行hash时,应当去除开始和结尾的常见字符,这样可以减少碰撞发生的概率。本文提出了一种新的算法----M-Interval-Hash,可以计算URL的hash值:令M=去掉常见字符后的字符长度/N,代表在URL中选取字符时间隔的字符数。N是一个按照经验来设置的参数,例如,N=3,字符长度为36,则M=12,表示选取字符的间隔是12个字符。
2.2 代码自动注入模块
在对XSS漏洞进行挖掘时,需要注入代码来测试漏洞是否存在,而在XSS中,恶意代码的注入可以是在GET请求中,也可以是POST请求。所以,在代码自动注入时,应该考虑上述两种情形。在代码注入时,测试每一个注入点,测试时按照数据库中测试代码顺序依次从数据库中取出一条记录,直到数据库中的记录为空。
2.3 漏洞检测模块
代码注入完成之后,还需要对注入的结果进行检测,以确定是否存在该漏洞。本文通过匹配漏洞特征库来判断XSS漏洞是否执行成功。从漏洞特征库读取XSS注入漏洞的测试脚本,对每个GET变量和POST变量依次进行XSS攻击。然后分析从Web服务器端返回的响应消息,看其是否满足漏洞库中该漏洞的特征。若满足,则说明存在XSS漏洞,否则不存在。
XSS的测试效果很大程度上由测试脚本的质量决定,本方案选择的脚本为OWASP所推荐的测试脚本。
3 实验结果及比较
3.1 网络爬虫模块中URL去重算法测试
为了验证本文技术方案的可行性,首先对URL去重算法进行了验证,将M-Interval-Hash算法与MD5算法进行比较。实验环境采用一台计算机,CPU为Pentium E5300,内存为2GB。软件环境为Windows XP Professional版本 2002 Service Pack2和JDK 1.6,数据库为MySQL 5.5.20。在M-Interval-Hash算法中,为了测试方便,我们取与M相关的经验参数N=8,将该算法和MD5算法比较。
4.2 XSS漏洞检测测试
为测试本文技术的可行性,对一些网站进行了扫描,并和另外两种基于爬虫的检测工具Acunetix WVS Free Edition 6.5和XSSer 1.5进行比较。第一个网站测试环境为Apache 2.2.14+PHP;第二个网站测试环境为IIS 6.0+ASP。
表1为上述两种工具和本文技术扫描结果比较。
在表1中的第二个网站中存在Form表单,所以XSSer无法检测出XSS漏洞。
本文技术、Acunetix WVS 8和XSSer 1.5对XSS漏洞扫描的时间比较见表2。
通过表1和表2的数据可看出本文XSS漏洞挖掘技术相对Acunetix WVS和XSSer两种工具来说性能更佳。
4 结束语
对于Web攻击中的大量XSS攻击,本文提出了一种基于网络爬虫的XSS漏洞挖掘技术,为了提高网络爬虫的性能,在网络爬虫模块使用了M-Interval-Hash新算法,以实现URL去重,同时为了提高网页抓取速度,采用了异步I/O完成端口模型,漏洞检测模块则使用特征库匹配技术。通过实验证明,XXS漏洞检测效果较好,在邮箱XSS漏洞的挖掘、Web网站XSS漏洞的检测等方面均有成功的应用.
[参考文献]
关键词:垂直搜索;金融信息;爬虫技术;语义网络
中图分类号:TP391.3
随着互联网的高速发展,造就了信息的空前繁荣。面对浩如烟海的信息时,企业和投资者如何有效、准确地获取他们所需的信息变得越来越迫切,因为随时随处都蕴藏着稍纵即逝的商机。以Google、百度为代表的传统搜索模式在大幅提高用户获取信息的效率同时,也日益显露出自身的瓶颈:搜索引擎的商业发展趋势,比如付费广告等无效信息越来越多,产生“搜索噪音”,金融领域的专业人士呼吁专业性的搜索引擎,我们通常所说的垂直搜索引擎,便是利用在专业领域的索引方式,下面以金融领域为例说明构建金融垂直搜索引擎所采用的关键技术以及所用到的资源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一个专业领域(例如金融、能源等),通过收集到的网页信息量,再进行一次整合,最终为专业人士提供的有一定价值的信息。它可以帮助人们在更为缩小的范围获取更具有针对性的信息。如图一所示。
2 金融垂直搜索的关键技术
2.1 金融爬虫技术。金融爬虫因为和某一领域密切相关,所以需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放人等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于专业网络爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导,如图2所示为普通爬虫和专业爬虫的比较。
2.2 结构化信息抽取技术。结构化信息抽取技术是指将网页中的非结构化数据按照一定的需求抽取成结构化数据后再存入数据库。结构化信息抽取技术是垂直搜索引擎和通用搜索引擎最大的差别,也是评判垂直搜索引擎质量的重要技术指标。
2.3 自然语言智能语义处理技术。自然语言智能语义处理技术指的是使计算机具有理解人类语言和自我学习语言的能力,并根据相应的语言要求完成具体的操作。我们使用自然语言智能语义技术来提高相关度的判定准确率,相关度模块的准确程度直接决定金融爬虫的收割效果。在这一技术中,结合中文分词和语义理解可以很好地保证系统搜集金融信息的准确率,并且可以提高金融爬虫的效率。通过金融垂直领域词典来解析相应的用户自然语言输入和金融数据内容,根据解析的语义建立主题垂直索引,涉及实体识别、语义网络、语义索引模块、垂直查询等模块。(1)实体识别。我们以识别算法为基础,开发出金融命名的自动识别算法和工具。金融行业命名实体包括所有的金融专业术语、上市公司名称、金融机构名称、著名业内人士等等。(2)语义网络。如果不了解文本中的语义就无法判断它会带来的影响,例如如果不了解“市盈率”这个词所代表的意义就不能对描述市盈率变化的新闻进行处理,因此这里需要一个针对金融文本的小型语义网络,每个节点是一个与股市相关的概念,例如“利率”、“汇率”、“股价”等。该语义网络的建立需要融入专家知识,并具有可扩展性,可以根据需要增加。(3)语义索引模块。在基于关键词的索引体系上,建立基于语义的索引体系,以便进行语义相关的计算和查询。(4)垂直查询模块。在垂直查询模块中,根据请求者的日常搜索关键词从中找到规律性,利用识别方法建立自己专业词汇的数据库。
3 金融垂直搜索中所用到的资源
对于金融垂直搜索系统,融合了网络金融、汉语分词、语义处理和领域知识学习等多项专业技术,因此系统在构建中需要相应的资源作保证,目前实现金融垂直搜索系统所用到的资源有以下一些。
3.1 词汇:(1)上市公司的名称、简称和别称;(2)投资机构的名称、简称;(3)股市相关名称,比如“大盘”、“后市”、“大小非”、“散户”、“指数”等;对于这一类词汇的获取,可以从大量Web股市文本中通过自动词汇获取与手工相结合的方式,并手工标注其感彩。
3.2 表达模式库。我们感兴趣的信息是某个主体(评论家、记者、证券研究机构等)对某个客体(股票、行业板块、大盘、宏观经济形势、后市等)的态度(观望、看多、看空等)、描述(利好、利空等)和操作(建仓、清仓、半仓、抛售等)。因此需要构建一个针对股市新闻的文本表达模式(模版)库,帮助我们对金融垂直领新闻的信息进行结构化提取,以便支持后续的研究。
表达模式可以大致分为以下几类:(1)态度,例如“A对B~”(机构对后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A强力~”(机构强力出击)、“A指出,B~”(分析人士指出)、“给A带来~”(给市场带来较大的压力);(3)逻辑,包括一些转折、递进、因果、双重否定等的逻辑表达方式。
对于那些简单的表达,不需要统计其表达模式,可以继续使用词频方式;对于稍微复杂的表达方式,需要开发自动化的工具从股市文本的语料中获取,并加以标注。
4 结束语
金融垂直搜索引擎的应用能够很好的满足金融主体的需求。对于多样化数据的专业化细分成为垂直搜索的最大技术特点,减少垃圾信息,提高搜索效率,在某些方面甚至可以提供实时的数据,最大限度地整合了现在的网页数据,为用户提供了完整的金融信息检索体验。
参考文献:
[1]梁循,杨健,陈华.互联网金融信息系统的设计与实现[M].北京:北京大学出版社,2006.
[2]梁循.网络金融信息挖掘导论[M].北京:北京大学出版社,2008.
[3]吴柏林,宋泽锋.一种基于本体的垂直搜索引擎系统模型[J].计算机工程与科学,2008(10).
[4]陈洪猛.基于垂直搜索技术的搜索引擎解决方案[J].电脑应用技术,2008(72).
[5]杜建亮.金融信息垂直搜索引擎的技术探讨[J].科学之友,2009(06).
参考文献和论文是一个整体,是不可缺少的部分,作者在文中引用了前人的研究成果就应该标注出来,然后列在论文的结尾的地方。下面是千里马网站小编采编收集的关于计算机网络论文参考文献,希望小编整理的这些文献能给大家在写作当中有所帮助。
计算机网络论文参考文献:
[1]李磊.基于计算机网络病毒的主要特性及功能的分析与研究[J].山东工业技术,2016,(01):157.
[2]丁媛媛.计算机网络病毒防治技术及如何防范黑客攻击探讨[J].赤峰学院学报(自然科学版),2012,(08):41-42.
[3]罗婷婷.网络侵害行为分析[J].湖北民族学院学报(哲学社会科学版).2015(04).
[4]刘海燕,黄睿,黄轩.基于主题爬虫的漏洞库维护系统[J].计算机与现代化.2014(08).
[5] 谭浩强.C程序设计[M].4版.北京:清华大学出版社,2010.
[6] 未来教育.全国计算机等级考试模拟考场二级C[M].成都:电子科技大学出版社,2015.
[7] 教育部考试中心.全国计算机等级考试二级教程-C语言程序设计[M].北京:高等教育出版社,2002.
计算机网络论文参考文献:
[1]姚渝春,李杰,王成红.网络型病毒与计算机网络安全[J].重庆大学学报(自然科学版),2003,26(9).
[2]吉玲峰.网络型病毒与计算机网络安全[J].计算机光盘软件与应用,2013(5).
[3]许江兰.浅谈网络型病毒与计算机网络安全[J].计算机光盘软件与应用,2011(16).
[4]伍毅强医院计算机网络设备管理及维护策略研究[J].无线互联科技,2014,1:199.
[5]汪忠乐医院计算机网络安全管理工作的维护措施[J].无线互联科技,2015,07:55-56.
[6]张波.试论医院计算机网络设备的管理措施和维护策略[J].科技创新导报,2013,24:29.
计算机网络论文参考文献:
[1]李先宗.计算机网络安全防御技术探究[J].电脑知识与技术,2015(21):33-35.
[2]罗恒辉.计算机网络信息与防御技术的应用实践刍议[J].信息与电脑,2016(2):170-171.
[3]李军.基于信息时代的网络技术安全及网络防御分析[J].网络安全技术与应用,2016(1):17-18.
[4]吴晓旭.计算机网络安全的防御技术管窥[J].智能城市,2016(4):120-121.
[5]彭龙.企业计算机网络信息安全体系的构建研究[J].科技广场,2016(5):94-98.
[6]阮彦钧.计算机网络安全隐患及防御策略探讨[J].科技与创新,2016(16):91-92.
[7]姚宏林,韩伟杰,吴忠望.计算机信息网络安全防御特征研究[J].科技创新导报,2014(21):45-46.
关键词:搜索引擎;网络爬虫;检索
中图分类号:TP311.52 文献标识码:A
1.搜索引擎介绍
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术,它旨在提高人们获取搜集信息的速度,为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。
全文搜索引擎是当前应用最为普遍的主流搜索引擎,国内外知名的有baidu,Google,Bing等。全文搜索引擎的工作原理是分词程序将爬虫程序从互联网上抓取的文章中的内容预处理后进行分词,然后计算机索引程序扫描分好的词,对每一个词建立倒排索引,并将该词在文章中出现的位置以及次数记录在数据库中,当用户检索程序在用户提交检索请求时根据数据库中事先建立的索引进行检索,并将检索结果反馈给用户。全文搜索引擎数据库的容量极大,检索的范围很广,易用性较强,然而由于知识来源较为广泛,导致重复的内容过多且繁杂,更新不够迅速。
元搜索引擎就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,是对分布于网络中的多种检索工具的全局控制机制。目前国内外有诸如360综合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的优势有效地扩大了搜索引擎的检索广度和提高了检索结果的准确率。元搜索引擎是基于多个搜索引擎上的二次整合,它没有数据库,因此相同的检索请求会导致重复检索。
垂直搜索引擎是针对某一个行业进行搜索的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再返回给用户。垂直搜索引擎是在特定的搜索领域来满足特定的搜索需求如火车票搜索、视频搜索等,其检索范围小而且是基于结构化数据和元数据的搜索,检索结果准确度高,检索时间短,所需耗费的成本低。
目录搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。它有别于其他的各类搜索引擎。
2.搜索引擎所用主要技术
搜索引擎工作流程主要有数据采集、数据预处理、数据处理、结果展示等阶段。在各工作阶段分别使用了网络爬虫、中文分词、大数据处理、数据挖掘等技术。
网络爬虫也被称为蜘蛛或者网络机器人,它是搜索引擎抓取系统的重要组成部分。网络爬虫根据相应的规则,以某些站点作为起始站点通过各页面上的超链接遍历整个互联网,利用URL引用根据广度优先遍历策略从一个html文档爬行到另一个html文档来抓取信息。
中文分词是中文搜索引擎中一个相当关键的技术,在创建索引之前需要将中文内容合理的进行分词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
大数据处理技术是通过运用大数据处理计算框架,对数据进行分布式计算。由于互联网数据量相当庞大,需要利用大数据处理技术来提高数据处理的效率。在搜索引擎中,大数据处理技术主要用来执行对网页重要度进行打分等数据计算。
数据挖掘就是从海量的数据中采用自动或半自动的建模算法,寻找隐藏在数据中的信息,是从数据库中发现知识的过程。数据挖掘一般和计算机科学相关,并通过机器学习、模式识别、统计学等方法来实现知识挖掘。在搜索引擎中主要是进行文本挖掘,搜索文本信息需要理解人类的自然语言,文本挖掘指从大量文本数据中抽取隐含的、未知的、可能有用的信息。
3.搜索引擎以及搜索引擎技术发展趋势
3.1 搜索引擎的发展趋势
随着移动业务、科技的发展和人们生活方式的改变,在未来搜索引擎将会发生明显的变化。
3.1.1 知识图谱搜索
知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。当用户发起一个搜索请求后,除了显示用户搜索的结果,其他与之相关的重要信息也将以发散图表的形式呈现出来。这一功能将在满足用户信息检索的同时,可以更好的理解用户所需要的内容。
3.1.2 个性化搜索
搜索引擎技术的通用性决定了它的普适性,从而忽略了搜索用户个体之间的差异。个性化的搜索技术可以根据不同背景、不同目的和不同时期的查询请求为不同用户提供有对性的个性化的搜索服务。个性化搜索通过采集以及分析不同的用户数据信息来学习不同用户的行为和爱好,从而实现对不同用户进行差异化信息检索的目的。
3.1.3 多媒体搜索
【关键词】网络爬虫;WEB挖掘;股票预警
1.引言
在证行业内,客户是证券公司的最重要的资产,直接关系到公司核心业绩的好坏。市场竞争的日益激烈,使得证券公司对客户的争夺加剧。一些证券公司采取以低于成本的证券交易佣金水平、“零佣金”等方式招揽客户,但是仍然收效甚微。其根本原因在于忽视客户的实际利益需求。证公司要更加注意练内功,增加服务的“含金量”,利用信息化时代的技术条件,适时建立一种个性化服务,才能够赢得客户的信赖,实现证公司和股民的共赢。
目前每一家证券公司都开通了自己的门户网站,实时股评、盘后解读、各种深度分析、个股资料、研究报告、消息等纷繁复杂。每个投资者每天都要面对成千上万条的真假资讯,查询时耗时费力。因此使他们便捷地获取真正关心的信息就显得尤为重要。一个好的证券公司,并不是要将所有能获取的信息全部展现给客户,而是要求首先建立结构化的信息采集和管理系统,然后根据客户的需要提供它们所要求的内容。而这就是本文要探讨的股票信息预警系统。
2.基于网络爬虫的股票预警系统分析
面对大量的实时证信息,只有使用自动化的手段来有的放矢的获取,才能满足用户的要求。我们结合搜索引擎所使用的网络爬虫技术,来实现股票信息预警系统。网络爬虫是一种按照一定的规则自动提取互联网信息的程序,它是搜索引擎的重要组成部分,把分散在互联网上的离散的信息收集起来,以便人们方便快捷的搜索到有用的信息。从而明显地降低了人们获取信息的难度。
本文使用由HtmlParser和 HttpClient两个开源工具构建的一个简易网络爬虫来实现股票信息预警。HttpClient提供了便利的 HTTP 协议访问,使得我们可以很容易的得到某个网页的源码并保存在本地。HtmlParser对HTML代码进行处理,将抓取下来的网页信息进行再加工,分析,抽取有用的信息,并通过短信平台将分析加工后的数据发送给用户。
使用上述方法完成股票信息预警系统的设计,实现股票价格到价提醒和股票公告信息的推送的功能。
3.股票信息预警系统设计
3.1 工作原理
预警系统由系统短信接收模块借助短信平台的WEB.SERVICE接口获取用户设置的股票预警和公告推送代码信息,将这些信息送入股票预警系统里进行处理,并写入数据库。然后利用网络爬虫对指定数据源进行实时抓取,获取到的网页股票数据返回给系统进行预警处理,抓取到的公告信息由网络爬虫提取处理后返回给系统分析,通过短信发送模块回复给用户,同时回写数据库。
根据客户实时提交的预警股票代码,拼接链接地址,放进待抓取队列,并根据股票代码建立一张动态更新股价的哈希表,然后股票工作线程按一定的时间间隔从待爬行队列中取出链接发送http请求获取源数据,分析数据,把提取出来的价格放入哈希表中。此时程序不停的比较动态更新股价的哈希表与用户设定的预警价格表,如果符合预警条件,则退出进入下一个环节短信发送,如果不符合条件,则继续比对,直到满足系统停止条件为止。
3.2 基本工作流程
4.股票信息预警系统的实现
本文采用模块式的实现方法,将预警系统分为若干部分,限于篇幅,这里主要介绍股票预警、股票信息获取、短信收发这几个模块。
4.1 股票预警设计思路
实现股票价格的预警,需要两个要素,其一是用户设定的预警价格,其二是不断变化中的实时价格。有了这两个价格就可以通过比较直到满足条件(突破上下限价格)完成预警。这些价格信息存储在数据列中,所以实现时选择使用Hashtable存储动态更新的实时股票价格表stockprice,List存储用户设定的预警价格表CurrentAletStocks。
首先将预警股票代码写入stockprice和CurrentAletStocks中,stockprice获取股票实时价格,将此价格与CurrentAletStocks正在预警的股票的上下限进行比较,如果在上下限之间,那么只更新stockprice中的当前价格;如果突破了上限或者下限价格,更新当前价格,并将突破当前价格内容信息送入短信收发模块发送给预警的用户。
4.2 股票信息获取
实时股票信息的来源主要通过调用股票公用数据接口来实现,本系统中使用了新浪股票公用数据源。从数据源获取到的实时股票信息,我们还需要对它进行解码。系统解码后的字符串信息有很多,如(股票名称、行情时间、最新价、昨收盘、今开盘、涨跌额、最低、最高、涨跌幅、成交量、成交额、竞买价、竞卖价、委比、买一-买五、卖一-卖五),而我们需要的只是现价和股票名称,所以还要通过自定义的方法Parse对字符串进行格式匹配处理从而得到我们想要的数据。
我们以新浪股票公用数据源获取股票信息为例:
⑴构建股票代码信息
例如:600250 Sh600250 如果是60开头为沪市、如果是30或者00开头为深市
⑵拼接爬取URL地址
例如:URL:http:////list=sh600250
⑶通过HttpClient发送get请求,并对获取的信息进行解码
⑷对解码后的字符串进行格式匹配处理(即方法Parse)
⑸返回所需要的正确格式
4.3 SMS短信收发模块
与用户的交互需要短信的收发,系统高峰时需要几十甚至几百条的同时收发。因此选择了目前SP(服务提供商)普遍使用的短信平台(短信网关)。
短信平台是基于中国移动、中国联通、中国电信提供的短信端口与互联网连接的基础上,实现与用户指定号码进行短信批量发送和自定义发送功能的综合平台。它分为软件单机版(带客户端)CS 结构和网络共享版BS 结构。本系统采用了网络BS结构的短信平台,借助webservice接口实现与程序的对接。
4.3.1 发送短信
访问web地址http:///smssendwebservice/
Service.asmx。调用.net中Web Services协议栈里的soap协议使用Smssend 方法:
用户名:<UsrId>string</UsrId>
密码:<UserKey>string</UserKey>
目标手机号码:<PhoneNumber>string</PhoneNumber>
短信内容:<SmsContent>string</SmsContent>
4.3.2 接收短信
调用QuerymoSms方法查询用户上行短信,访问地址:http:///httpinterface/QueryMoSms.asp?UserId=&userkey=
UserId为短信平台提供给你的账号
userkey为短信平台提供给你的账号密码
5.结束语
本文使用HtmlParser和 HttpClient构建的一个简易网络爬虫,通过详细的系统设计分析,完成股票信息获取、股票价格预警、公告提醒、短信平台收发等模块的开发,实现股票信息预警系统从而更好服务用户。
参考文献
[1]张亮.基于HTMLParser和HttpClient的网络爬虫原理与实现[J].电脑编程技巧与维护,2011,20:94-103.