前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇好的日志文章范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:天气雷达;拼图资料;日志;监控;统计
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)14-20814-02
新一代天气雷达在临近预报中发挥着重要的作用[1]。但由于单部新一代天气雷达的有效探测半径仅为230km,在利用其进行灾害性天气系统的监测和预警时,需要上下游气象站进行联防,而短时强天气具有发展速度快、强度强的特点,因此要想利用新一代天气雷达回波对中尺度天气系统的发展和移动进行监测和预报,就必须进行拼图,扩大其覆盖范围[2]。中国气象局要求各雷达站1小时将5个雷达产品通过省级通信节点机上传至国家气象信息中心,统一收集后进行全国和区域的雷达产品拼图,并将传输质量纳入到各省的年终目标考核中。如何提高传输时效、质量,将直接影响到新一代天气雷达效益的发挥和全省乃至全国的防灾减灾。为确保辖区各站雷达拼图资料 及时准确上传,研制开发了省级雷达拼图资料监控与统计系统,可以对报文传输及线路状况进行有效监控,实现网络通信业务的自动化,提高业务工作的效率[3]。
1 系统设计思路
本系统实现对辽宁省沈阳、营口新一代天气雷达站拼图资料上行传输情况实时监控和传输统计。系统定时读取9210系统中相应日志文件,和该时次所要上传文件名比较,若日志文件中有记录,表明已通过9210系统进行上传,则屏幕上显示绿灯;如果日志文件中没有记录,说明该时次雷达拼图资料报还没有上传,则在屏幕上显示红灯并显示未上传的资料名称,提醒值班人员采取相应的措施。系统每天08时(北京时)对前一天的雷达拼图资料上传情况入库,并建立统计界面,可进行单站、多站或任意时间段传输百分率的图表统计结果。
2 系统基本构成
2.1 系统的流程图
雷达站将拼图资料上传至通信节点机,通过规定进程将资料转发至国家气象信息中心宽带服务器,同时生成日志文件。实时监控对日志文件进行操作,传输质量监控首先将日志信息添加至数据库,然后使用SQL查询统计结果,进行图表显示。(图1)
2.2 系统环境
雷达拼图资料监控与统计系统由通信节点机(UNIX操作系统)、监控计算机组成,二者之间运行FTP协议。通信节点机具有每日(世界时)的日志文件,可保留30天内的日志文件。监控计算机采用Windows XP操作系统,安装监控和统计程序。软件开发在Windows下进行选择VB和Delphi语言进行混合编程,后台数据库采用microsoft的SQL server2000数据库。
3 系统功能
系统分两部分:一是根据各种报文的时效要求,进行定时的查询监控,保证该报上传的及时性;同时为了操作方便,设置了刷新功能,对沈阳、营口2站雷达拼图资料的实时监控,进行图形化界面提示和文本信息的显示;二是对任意时段内的沈阳、营口2站传输质量进行统计,生成图表直观显示,并可以生成文本文件进行上报。
4 系统的技术实现
4.1 日志文件的下载
按照中国气象局的传输要求:雷达GIF产品在正点后15分种内上传为及时报,在1小时内为逾限报,超过1小时视为缺报[4]。因此编制程序,在正点后10分钟自动从通信节点机的“/bcsy/mioswork/log”目录利用FTP协议下载当天的日志文件。日志文件命名规则为“comYYYYMMDDsnd.log”(其中YYYYMMDD代表年月日)。
4.2 实时监控
每小时的5个产品文件名均是固定的,命名规则为RAD__CCYYGGgg.XXX(其中RAD是固定的,CC为台站代号,如沈阳为SY,YY为编报日期,GG为编报时次,gg为编报分钟,正点观测编00),在下载完日志文件后,将此日志文件作为文本文件打开,利用VB的InStr函数检查当前时次的产品是否存在于日志文件中。若存在,则代表已成功上传,状态灯显示为绿色;若不存在,则代表未进行上传,状态灯显示为红色,并将未上传产品的站号、时次、产品类型添加至列表框中,同时以声音形式提醒值班员(图2)。实时监控界面代有刷新按钮,可对当前上传情况进行了解。
4.3 日志信息入库
系统设置在每日8:30(世界时0:30)下载前一天的日志文件。SQL数据库的表按照文件名、文件大小、文件接收时间、文件发送日期、发送优先级、发送线路建立字段。在Delphi中使用ADOConnection组件进行数据库的连接,adoquery组件进行日志信息的入库。首先以文本方式打开日志文件,将其中的一行分解为对应字段,使用SQL语句的append方法将上传信息添加到数据库中,进行更新。
4.4 传输质量统计
在雷达拼图传输质量统计界面中,可选择任意时段内的任意站次雷达拼图传输质量进行统计。程序利用ADOConnection组件进行数据库的连接,使用SQL查询语句对数据库进行多项查询,并将查询统计结果输出到memo组件中,可显示统计站次、统计时段、应上传文件数、及时报(含百分率)、逾限报(含百分率及逾限报站次)、缺报(含百分率及缺报站次);同时利用chart组件进行饼图的显示,如2008年3月1日至2008年3月7日沈阳、营口两站的雷达拼图传输质量统计图。(图3)
5 结束语
本系统由于采用SQL网络数据库,可以安装在局域网内任何一台计算机上。运行以来,对雷达拼图资料传输质量的提高起到很好的推动作用,传输及时率也稳定在99%以上。系统操作简单,雷达报上行传输情况一目了然。运行情况很好,使值班人员及时掌握雷达报的上传情况;另外本软件模块化的设计,移植性高,程序加以修改扩充后,可应用于其它雷达站资料的上行监控。
参考文献:
[1] 程向阳,王兴荣,胡雯,等. 雷暴天气在多普勒雷达资料上的前兆特征分析[J]. 气象科学,2003,23(4):485-490.
[2] 陈传雷,陈艳秋,孙欣. 多普勒雷达回波在辽宁一次暴雨过程中的应用分析[J]. 气象与环境学报,2006,22(5):28-31.
[3] 吕红梅,杨文霞,张玉洁,等. 雷达观测资料传输监控软件的开发与研究[J]. 山东气象,2005,25(1):35-35.
关键词:网络安全;用户上网行为;数据分析
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)15-0117-03
随着互联网技术的发展,各种网络设备功能越来越来完善,设备性能管理方面也比较智能化,在网络管理上发生了变化,不再像过去花费大量的人力忙于维护网络设备,而是要分析用户的上网行为,为用户提供一个安全稳定的网络环境。目前所得到的用户上网行为都是从网络设备上获取的,这些数据中存在脏数据[1],脏数据不符合要求,对于分析用户上网行为存在干扰。并且这些数据量非常大,而且还分散在不同的文件中,不便于以后的存储和运算。如何对这些数据进行分类、清洗并进行有效的存储是网络行为分析的一个重要问题。
文章首先介绍python程序设计语言的相关组件和功能架构,在此基础上,设计并实现了基于python语言的分析用户上网行为的分类与清洗系统,验证了系统的有效性和稳定性,并对数据的处理时间和数据的压缩比例进行分析。
1 Python程序的介绍
Python是一种解释型交互式、面向对象、动态语义、语法优美的脚本语言。自从1989年Guido van Rossum发明,经过几十年的发展,已经同Tcl、perl一起,成为目前应用最广的三种跨平台脚本语言。Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议[2] 。Python的主要特点有:
1)免费开源、简单易学
Python是FLOSS(自由/开放源码软件)之一[3]。使用者可以自由地这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。FLOSS是基于一个团体分享知识的概念。Python是一种代表简单主义思想的语言,阅读一个良好的Python程序就感觉像是在读英语一样。它使你能够专注于解决问题而不是去搞明白语言本身。Python极其容易上手,因为Python有极其简单的说明文档 。
2)速度快
Python 的底层是用 C 语言写的,很多标准库和第三方库也都是用 C 写的,运行速度非常快 。
3)高层语言
Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。
4)可移植性
由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)[4]。这些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基于linux开发的android平台。
5)面向对象
Python是一种公共域的面向对象的动态语言[5],Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。
6)可扩展性
如果需要一段关键代码运行得更快或者希望某些算法不公开,可以部分程序用C或C++编写,然后在Python程序中使用它们。
7)可嵌入性
可以把Python嵌入C/C++程序,从而向程序用户提供脚本功能。
8)丰富的库
Python标准库确实很庞大。它可以帮助处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。这被称作Python的“功能齐全”理念。除了标准库以外,还有许多其他高质量的库,如wxPython、Twisted和Python图像库等等。
9)规范的代码
Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。
2 系统架构的设计
由于网络用户上网行为数据可以从网络安全设备(如防火墙、网络认证网关)上直接采集,所采集到的数据中有很多信息是不需保存的,并且生成的日志一般都是一个2万多条记录的压缩文件。在实际的用户行为管理分析中需要对这些压缩文件进行解压、分类、清洗,然后提取有用信息,并对所提取的信息进行压缩处理,以便以后用于数据挖掘。系统结构设计如图1:
在日志处理系统结构设计中,日志解压模块实现对原始数据自动解压,并保存在以日期命名的文件夹中日志文件;日志文件夹处理模块用于处理长时间保存日志文件和日志文件夹,使处理结果生成一个带有路径的文件名列表的文本文件。这个文本文件可以使下一步数据分类、清洗模块快速定位到所要处理文件的位置和名称。根据大理大学网络用户特点设计数据的分类和清洗模块,实现把中国学生、留学生、教职工、校外人员的网络行为日志文件进行分离,并把这些日志文件中没有实际意义的记录清除,最终把分类文件分别合并到以日期命名的文件中,为以后大数据的科学计算和智能分析提供纯净的数据源。日志文件压缩模块实现对分类、清洗过后的日志文件进行压缩,提高存储效率。
3 系统的实现
3.1 目录处理模块的实现
采用python程序设计语言中的os模块,实现对目录路径和文件名的处理,第一步,将原始数据目录下的所有文件夹的路径写入到一个文本文件中,例如:D:\campus big data\Datadirectory.txt,以便数据处理时循环遍历所有文件夹,其代码实现如下:
def CreateRawdatadirectory():
data_file_path="D:\\campus big data\\Raw_data\\"
day_log_path=os.listdir(data_file_path) #日日志文件夹路径
log_files_list=[] #每天的.log文件所在目录,如D:\campus big data\data\2016-03-01
fw=open("D:\\campus big data\\Raw_Datadirectory.txt","w")
for item in day_log_path:
fw.write(data_file_path+item+"\\") #Raw_Datadirectory.txt写入
fw.write("\n")
fw.close()
第二步,生成日志文件夹文件,将每日文件夹下的所有日志文件路径写入对应文件夹下的文本文件。例如:D:\campus\bigdata \data \201 6-03-01\file_path.tx文件,在数据处理时可以快速遍历所有日志文件,其代码实现如下:
def CreateLogDirectory():
fr=open("D:\\campus big data\\Raw_Datadirectory.txt","r")
fr_s=fr.read()
log_files_list=fr_s.split("\n")
for directory in log_files_list:
fw=open(directory+"file_path.txt","w")
try:
log_filename=[fname for fname in os.listdir(directory) if fname.endswith('.log')]
for fname in log_filename:
fw.write(directory+fname) #file_path.txt文件写入
fw.write("\n")
except:
pass
fw.close()
fr.close
第三步,创建多级目录,创建处理后数据存储的多级目录。例如:Ch_students目录、Oversea_students目录、Teachers目录,用以保存不同用户的上网行为日志文件。
3.2 解压和压缩模块
根据目录处理模块所得到的路径文件,调用python提供的zipfile模块,把原始数据进行解压,并把清洗过的用户行为数据进行压缩,代码的设计如下:
解压过程:
def FromZip(file_path_prefix): #
file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"
zip_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('.zip')]
for item in zip_filename:
zip_path=file_directory+item
zfile = zipfile.ZipFile(zip_path,'r')
filename=zfile.namelist()[0]
data=zfile.read(filename)
flog=open(file_directory+filename,'w+b')
flog.write(data)
flog.close
压缩过程
def ToZip():
file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"
log_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('..log')]
for item in log_filename:
log_path=file_directory+item
f = zipfile.ZipFile('archive.zip','w',zipfile.ZIP_DEFLATED)
startdir = "c:\\mydirectory"
for dirpath, dirnames, filenames in os.walk(startdir):
for filename in filenames:
f.write(os.path.join(dirpath,filename))
f.close()
由于程序在运行时是直接调用目录处理模块所得的路径文件,这样就可以缩短程序运行的时间,提高程序的运行效率。
3.3 数据分类、清洗模块
在网络用户上网行为日志数据中,有许多信息是没有意义的,我们需要对这些数据进行分类和清洗。原始数据结构如下:
3.3.1 数据的分类
根据学校校园网络用户的特点,我们可以把用户分为教工、国内学生、国外学生。根据上网的区域可以分为办公区、教职工住宅区、学生宿舍区。利用python语言对文件快速处理的特点对用户进行分类,并分别存储在不同的文件中,代码如下:
fwrite_log=open("data_log.txt",'w') #数据处理后存文放文件
fread_log=open("2016-03-01 00-00-00..txt",'r') #打开日志文件
log_txt=fread_log.read().split('\n') #读取每一条记录
for i in range(len(log_txt)): #对每一条记录进行处理
if log_txt[i].strip('\n')!='':
if(log_txt[i].split('\t')[3])[0]=='X':
record=log_txt[i].split('\t') s_row=record[2]+'\t'+record[4]+'\t'+record[5]+'\t'+record[6]+'\t'+record[7]+'\t'+record[8]+'\t'+'\n'
fwrite_log.write(s_row)
fwrite_log.close()
fread_log.close()
3.3.2 数据清洗
根据网络用户上网行为的特点,会出现空行、重复记寻。数据清洗的重要工作就是要把这些干扰信息去除,保留有用信息,为以后的数据挖掘提供纯净的数据。在数据清洗过程中,应用python中的set()和strip()功能把重复记录和空行清除。经过清洗的数据记录数和文件大小都比原来小,表2中可以清晰的反映数据清洗前后的对比。
4 结束语
从程序的运行结果可以得出,用python编写的用户上网行为日志处理程序设计简单,运行效率高,所提取的用用户行为数据可以进一步分析,为校园网络安全提供准确的用户定位,为校园网络的带宽管理和维护提供准确的数据作为参考,并提高网络的服务质量。
参考文献:
[1] 张良均, 樊哲, 赵云龙. Hadoop大数据分析与挖掘实战[M]. 北京: 机械工业出版社, 2016.
[2] 肖建, 林海波. Python基础教程[M]. 北京: 清华大学出版社, 2003: 1-2.
[3] 北京中科红旗软件技术有限公司. 红旗Linux系统应用编程[M]. 北京: 石油工业出版社, 2012: 192.
关键词:数据挖掘;web;网络访问
中图分类号:TP393.092文献标识码:A文章编号:1007-9599 (2010) 03-0047-02
Research on Data Mining to Improve Web User Network Access Speed
Sun Wenqian
(Hechi College Campus Network Center Fengshan,FengShan546300,China)
Abtract:The implication of Data Mining in improving the network access speed, is that the law of site's being accessed have been achieved by Data Mining in web log,which aimed to change the web site's organizational structure and services by extracting interesting patterns for log user to access to the site.
Keywords:Data Mining;Web;Acess to Network
一、绪言
随着Internet技术的发展和普及,网络在创造信息高速交换的同时,数据存储量也在不断膨胀,加上每个动态页面和应用系统都在频繁访问数据库,使得互联网络中web用户对数据的访问速度不断下降。解决这个问题的途径之一就是Web日志挖掘,即根据Web服务器记录的日志对用户访问网站的情况进行分析,使用数据挖掘技术抽取日志中感兴趣的模式,得到站点的被访问规律,从而改进网站的组织结构和服务,掘出有用的关联规则、序列模式、聚类分析等知识类型。Web访问挖掘通常可以分为数据预处理、挖掘算法的应用、模式分析及知识发现这3个阶段,本文主要讨论数据预处理、挖掘算法的应用两个阶段。
二、数据预处理
数据预处理的数据源是服务器的日志文件,因此首先要将日志文件转换成数据库文件,以获得可靠的精确数据。技术上,一般将预处理阶段划分为数据清洗、页面过滤、用户识别、会话构造、路径识别这5个步骤。其模型如图1所示。
随着Web技术的进一步发展,原有的模型已不能达到很好的预处理效果,改进的Web访问挖掘数据预处理模型通常在常规数据清洗后增加了初次引擎过滤,并在会话别之后进行了二次引擎过滤,其作用是为了过滤当今广泛使用的搜索引擎对Web的访问记录。经过会话识别的服务器日志文件已经被组织成一个会话集合,通过对该会话集合的再次分析,可以将其中的非正式用户会话过滤,其中主要是针对搜索引擎的过滤,该过程称为“二次引擎过滤”。过滤方法可以采用当前比较成熟的分类、聚类等数据挖掘算法。
三、挖掘算法的应用
通过分析日志文件,我们可以寻找到那些经常被用户访问的页面及他们之间的关联规则(即频繁访问页组)。网站资源可以是网页、数据、图片、声音和文档。设x1、x2、……xm;Y1、Y2、……Ym均为网站资源,X=>Y(sup,conf)表示资源集的关联规则,其中X={X1、X2……Xm},Y={Y1、Y2、……Ym},X∩Y=空,这条规则的含义是如果资源集X被访问,那么资源集Y也会被访问。规则的支持度为sup,置信度为conf,关联规则挖掘算法的目的就是要推导出所有达到一定支持度和置信度的规则。
在这里,假定超文本系统仅仅包含有一些基本的页面。除此外我们还假设:
1.指向一个页面的连接是将这个页面作为一个整体来对待的,而不是指向页面内容的一部分;
2.在超文本系统中不存在环路;
3.在任何源节点和目标节点间最多只有一条链路。基于以上的假设,我们可以为超文本系统建立一个有向网络拓扑图,如图2所示:
在这里,有向图G=(N,E),其中N是节点的集合,E是边的集合。一个节点A(A∈N)和一个页面相对应,一条边是一个元组(A,B)∈E,和页面间的一个连接相对应;对于给定的连接(A,B)称A是源节点,B是目的节点。在这里并不假定图是连接的。如果两个页面在网络拓扑中相距较远,则表明它们之间的关联性较低,如果我们从日志信息中挖掘出它们之间有较高的访问可信度的规则,则这样的规则是用户感兴趣的。如图2的页面C和E在拓扑结构中,显示关联度较低。如果,在Web日志中发现了C=>E这样的关联规则,则兴趣度是较高的。通过这样兴趣度高的关联规则,有利于网站结构的调整。
四、结束语
随着Internet的发展,网络资源更加丰富, 数据挖掘在提高web用户网络访问速度上的研究已经成为一项重要的研究课题。Web日志数据预处理是Web日志挖掘的一个重要前提和基础,高效正确的预处理方法直接影响着挖掘的成败;而成功应用挖掘算法则大大提高规则的利用率,可以很好的用于网络拓扑结构的改善。
参考文献:
[1]易芝,汪林林,王练.基于关联规则相关性分析的Web个性化推荐研究[J].重庆邮电大学学报:自然科学版,2007,19(2)
[2]纪良浩,王国胤,杨勇.基于协作过滤的Web日志数据预处理研究[J].重庆邮电学院学报:自然科学版,2006,18(5)
[3]朱秋云.一种关联规则挖掘筛选算法设计[J].重庆工学院学报:自然科学版,2008,22(6)
作者简介
孙文乾(1966.11-),男,广西凤山人,研究方向:计算机网络技术
3 期 更 正
1、本刊2010年1月第96页文章《关于药用植物的药用成份分析》的作者:孙世琦应为:孙士琦
[关键词]电子商务数据挖掘Web日志挖掘
一、引言
随着计算机技术、通信技术和网络技术的飞速发展,电子商务的发展也有了越来越好的技术平台,许多公司都建立了自己的网站,这是公司的门户和电子商务进行的所在。Web数据挖掘是当前最前沿的研究领域,是把Internet和数据挖掘结合起来的一种新兴技术。Web数据挖掘是知识发现的特定步骤,也是最核心的部分。Web日志挖掘是Web挖掘的重要内容,其技术和方法在电子商务中有着巨大的应用空间和应用价值。如发现有价值的信息、寻找潜在客户和提供个性化服务等。
二、Web挖掘及Web日志挖掘
Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。根据挖掘的对象不同,Web挖掘可分为Web内容挖掘、Web结构挖掘和Web日志挖掘。
1.Web内容挖掘
Web内容挖掘主要从Web文档的内容中抽取出有用的知识。由于Web文档的绝大部分内容是以文本的形式存在,所以Web内容挖掘主要针对的是Web文档的文本部分,文本挖掘主要包括对Web文档文本的总结、分类、聚类、关联分析等。除了文本挖掘以外,Web内容挖掘还包括Web上的声音、图形、图像信息的挖掘、数据库中的数据挖掘和信息获取等。
2.Web结构挖掘
Web结构挖掘主要通过Web页的组织结构和超链接关系以及Web文档自身的结构信息(如Title,Heading,Anchor标记等)推导出Web内容以外的知识,可分为超链挖掘、内部结构挖掘和URL挖掘。
3.Web日志挖掘
Web日志挖掘即Web使用记录挖掘,是从用户的访问记录中抽取具有意义的模式。其数据源有服务器的日志、用户注册数据、跟踪文件的数据记录、用户访问期间的事务、用户查询、书签数据和鼠标移动点击的信息。Web日志记录挖掘应用的技术主要有路径分析、关联规则分析、序列模式分析、聚类分析、统计分析等。Web使用记录挖掘可以发现潜在的用户、改进电子商务网站的建设、增加个性化服务等。
三、Web日志挖掘的步骤
Web日志挖掘步骤主要分为源数据收集、数据预处理、模式发现、模式分析4个阶段。
1.源数据收集
源数据收集主要是Web日志文件的收集。对于一个电子商务网站来说,经过一段时间后,用户会在网站上积累大量有用的信息(如访问日志、注册信息、需求信息、定单信息、交流信息等),采用Web日志挖掘技术就可以充分利用这些有用信息,帮助电子商务网站的建设和发展。
Web日志文件主要包括以下3种类型:服务器日志文件、错误日志文件和Cookies。
2.数据预处理
Web日志挖掘首先要对日志中的原始数据进行预处理,因为从用户的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理。因此,需要通过日志清理,去除无用的记录。预处理过程是保证Web日志挖掘质量的关键步骤,下面我们来阐述数据预处理的过程。
(1)数据净化。指删除Web服务器日志中与挖掘算法无关的数据。大多数情况,只有日志中HTML文件与用户会话相关,所以通过检查URL的后缀删除认为不相关的数据。
(2)识别用户。由于本地缓存、服务器和防火墙的存在,使得识别用户的任务变得很复杂,可以使用一些启发式规则帮助识别用户。
(3)识别用户会话。用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面,我们可以获得他在网站中的访问行为和浏览兴趣。
(4)识别片段。在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录。如果当前请求页与用户上一次请求页之间没有超文本链接,那么用户很可能使用了浏览器上的“BACK”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。
3.模式发现
模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及分类聚类等。
(1)路径分析。它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。利用这些信息就可以改进站点的设计结构。
(2)关联规则。使用关联规则发现方法,可以从Web的访问事务中找到相关性。利用这些相关性,可以更好的组织站点的Web空间。
(3)序列模式。在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。发现序列模式,能够便于预测读者的访问模式,开展有针对性的服务。
(4)分类和聚类。发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类的读者。聚类分析可以从Web访问信息数据中聚类出具有相似特性的读者,在Web事务日志中,聚类读者信息或数据项能够便于开发和设计未来的服务模式和服务群体。
4.模式分析
该阶段实现对用户访问模式的分析,基本作用是排除模式发现中没有价值的规则模式,从而将有价值的模式提取出来。
四、Web日志挖掘在电子商务网站中的应用
1.电子商务网站中Web日志挖掘内容
(1)网站的概要统计。网站的概要统计包括分析覆盖的时间、总的页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。
(2)内容访问分析。内容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。
(3)客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及操作系统分析、访问来自的页面或者网站、来自的IP地址以及访问者使用的搜索引擎。
(4)访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。
(5)主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。
(6)网站栏目分析。网站栏目分析包括定制的频道和栏目设定,统计出各个栏目的访问情况,并进行分析。
(7)商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。
2.Web日志挖掘工具
已经有部分公司开发出了商用的网站用户访问分析系统,如WebTrends公司的CommerceTrends3.0,它能够让电子商务网站更好地理解其网站访问者的行为,帮助网站采取一些行动来将这些访问者变为顾客。CommerceTrends主要由3部分组成:ReportGenerationServer、CampainAnalyzer和WebhouseBuilder。
还有Accrue公司的AccrueInsight,它是一个综合性的Web分析工具,它能够对网站的运行状况有个深入、细致和准确的分析,通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期的顾客关系。
关键词:Web日志挖掘;信息无障碍;网站设计
中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)14-3261-02
The Research of the Accessibility Website Design Based on Web Log Mining
TANG Heng-yao, ZHAN Xiao-yan
(Mathematics and Computer Science College of Huanggang Normal University, Huanggang 438000, China)
Abstract: On the problems existing in the realization of current accessibility Website, we design a Web designing architecture, using the Web log mining technique to extract user interests and access priority sequence and adopting the dynamic Web page information to fill the Web page commonly used structure, realize the intelligent, personalized accessibility.
Key words: Web log mining; information accessibility; Website design
随着信息技术和网络技术的不断发展,互联网给现代人们获取信息带来极大的便利,成为人们工作生活中非常重要的组成部分。信息无障碍即万维网对任何人士(包括残障人士)都是可访问、可用的,残障人士能感觉、理解和操纵Web,与Web 互动。如何借助先进的技术,消除数字鸿沟,为残疾人提供有效的辅助手段,使他们能和健全人一样无障碍地获取网上信息,得到世界各国政府和组织越来越多的重视。
1 信息无障碍网站存在的问题
很多部分实现了信息无障碍的网站,用户每次访问时,网站语音都得从头到尾的播报网站内容,对于该用户曾经访问过本网站中部分页面内容,系统不能自动过滤掉这些已经阅读的内容,或者跳过这些已阅读信息,而是依然按照布局顺序重复播报。这对于阅读障碍的用户来说非常浪费时间和精力。避免重复浏览或者播报网站信息,将用户曾经阅读过的内容过滤掉,将没有阅读过的最新的感兴趣的网页内容优先播报给阅读障碍用户,提供智能化、个性化信息服务,是信息无障碍网站设计应该重视的问题。
2 Web日志挖掘
Web日志文件是在Web服务器上每隔一定的时间产生的记录文件,其内容包括访问用户的IP地址,访问时间、访问的页面、页面的大小、浏览器类型、响应状态等等。Web日志挖掘是对用户访问Web时服务器方留下的访问记录进行挖掘,得到用户的访问模式和访问兴趣。通过对Web站点的日志记录进行预处理,将日志数据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统的数据挖掘方法进行处理。
Web日志预处理过程:
1) 数据收集:从服务器端数据、客户端数据、服务器端进行。
2) 数据净化:删除Web日志文件中不是由用户请求,而是由浏览器自动“请求”产生的访问记录。具体包括图片和音频文件、样式文件和脚本文件、不是GET的HTTP方法、弹出式广告的记录等。
3) 用户识别:可以通过IP地址和、嵌入SessionID、cookie、软件等方法实现用户的识别,但由于本地缓存、公司防火墙和服务器的存在,要识别出每一个用户变得很复杂。可以采用一些启发式规则去识别不同用户,将IP地址,类型以及引用页面结合起来识别一个用户,也可以通过注册用户,依赖用户的合作是最好的解决办法。
4) 会话识别:用户在规定时间内对服务器的一次有效访问,通过其连续请求的页面,可以获得其在网站中的访问行为和浏览兴趣,有4种识别会话的模型:页面类型模型(page type model),参引长度模型(reference length model),最大前向参引模型(maximal forword reference model)和时间窗口模型(time window model)。最常采用的是时间窗口模型,以用户访问时间作为划分会话的分界,一般间隔时间取30min。
5) 路径补充:用户有时浏览的页面,是从本地缓存和服务器中调用的,不会向Web服务器发送请求,也就不会记录日志,而这些请求可能对后续挖掘的实施有重要作用,缺少这些页面记录可能会使挖掘结果不是很准确。为了能更精确的挖掘用户的行为模式,有必要把这些缺失的路径补充上去即路径补充。如果当前请求的页与用户上一次请求的页之间没有超文本链接,那么用户很可能使用了浏览器上的“BACK"按钮调用缓存在本机中的页面。如果用户的历史访问记录有多个页面都包含与当前请求页的链接,则将请求时间最接近的Web页的页面作为当前请求的来源。
3 基于Web日志挖掘的网站设计
3.1 网站设计架构
网站为每位存在访问障碍的用户建立网站访问记录数据库,用户访问网站页面,产生Web日志文件,通过对Web站点日志文件进行数据净化、用户识别、会话识别,将有用数据存入事务数据库,对该用户访问过的页面进行相应标记,再对事务数据库进行传统的数据挖掘,分析出该用户比较感兴趣的信息类型,为该用户对网站所有类型信息构造优先显示页面类型序列表和对每类信息未访问页面、已访问页面分别构造优先序列表,当该用户再次访问网站时利用离线分析所得的优先序列表和网站文件映射数据库将网页链接按照用户兴趣高低动态填充到网站导航框架,这样用户最感兴趣类型的网页链接总是弄够最先看到、听到,从而达到优先访问的目的。
网站设计框架如图1。
3.2 网站导航
网站导航是根据信息无障碍网站结构布局设计标准所设计的网站通用布局框架,除了包括信息无障碍要求的导航砖,通用切换等功能,还将页面设计成由几个通用的布局框架模块组成,每个框架模块将显示网站上某一种类型的网页信息链接,具体网页链接内容则根据序列表先后顺序动态填充。网站所包含的信息类型可以有很多,但在网站导航中只列出用户最感兴趣的几种类型的网页链接,随着用户兴趣的改变,其他类型的网页链接将动态的填充到相应级别的框架模块中。
3.3 兴趣提取
根据用户浏览的历史访问记录(内容信息和行为信息)、访问时间和访问频率等来分析计算用户兴趣度,用户的兴趣一般集中于某一个主题或者多个主题,系统在通过聚类进行分析将用户浏览的历史页面集自动地分成n个聚簇(n是聚类中聚类中心的数目),每一聚簇的页面集体现了用户的某类兴趣,构造形成用户的兴趣类。再利用用户的隐式信息学习提取用户兴趣集,建立树状的用户兴趣模型。
3.4 序列模式
序列模式挖掘是对关联规则挖掘的进一步推广,它挖掘出序列数据库中项集之间的时序关联规则。关联规则强调的是两个项之间的关联,序列模式则加强调两者之间的先后次序。这里我们将挖掘出两种序列表:类型序列表和页面序列表。类型序列表是通过对历史访问记录进行挖掘统计出来的网站每种类型信息访问优先等级,是一组有序项集对应表;页面序列表则是以类型挖掘权值和更新时间2个指标得出的页面访问有序集对应表。可以采用基于Apfiori算法的改进算法进行挖掘得到上述两种序列表。
3.5 序列-页面映射
根据挖掘得到的序列模式对网站的静态页面文件进行一一映射,按照兴趣高低和文件序列先后动态的填充如网站导航模块框架中。
4 结束语
该文所提出对Web日志文件挖掘提取用户的兴趣类和访问类型和页面优先序列,重构站点页面之间的链接关系,动态显示网页信息的设计框架,以适应有障碍用户的访问兴趣习惯为主要目标,在一定程度上可以避免反复无用的页面浏览和语音播报所造成的对存在访问障碍用户产生的困扰和时间精力的浪费,提高了访问效率,为消除信息鸿沟,真正做到信息人人共享发挥积极的作用。
参考文献:
[1] 王甜.自助建站系统助阵信息无障碍网站[J].互联网天地,2008(4).
[2] 刘晓政.视障网络用户的无障碍网页浏览现状及前景[J].电脑知识与技术,2008,(35).