首页 > 文章中心 > 夜书所见

夜书所见

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇夜书所见范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

夜书所见范文第1篇

知识技能:1.掌握本诗的生字、词语。2.有感情地朗读并背诵古诗。3.学会借助注释理解诗意,在此基础上体会诗人所表达的思想情感,激发和培养学生学习古诗的兴趣。

过程方法:1.反复朗读诗歌,培养学生对诗歌学习的兴趣。2.让学生展开想象理解诗句并体会诗人的思想情感。3.注重学生语文素养的培养。

情感态度和价值观:1.反复朗读体会诗人所表达的思想感情。2.激发学生学习古诗的兴趣。

教学重点:1.词语积累。2.感情朗读,理解诗意,背诵古诗。3.通过诵读悟诗情。

教学难点:1让学生借助注解.理解诗意。2.通过诵读体会诗人在诗中所流露的思想情感。

教学准备:PPT

过程设计   

一.淡话导课。

孩子们,现在是什么季节?(秋季)在这个季节最容易激发文人墨客的诗兴,古人给我们留下好多诗篇。你们知道哪些写秋天的古诗?快打开记忆的闸门找一找。(《山行》,《赠刘景文》)这节课,我们一起来学习一首写秋天的古诗,希望孩子们喜欢。板书课题《夜书所见

二.解诗题和作者

1.解诗题。

书:写    所见:(诗人)所看见的

诗人把夜晚所看见的景物写下来。

2.解作者。

你了解作者吗?让他穿越时空来给我们做一下自我介绍吧!

三.三读诗歌。

(一)一读解字词

1.初读古诗,用笔圈出诗中的生字、词语,并画出诗歌的节奏。

2.教师检查学生完成情况。

生字:萧、梧、促。   

词语:书、见、萧萧、寒声、动客情、知、挑促织、篱落。

节奏划分:2/2/3

(二)二读绘意境

1.孩子们,诗歌的文字高度凝练,一字、一词、一句话就会呈现出一幅栩栩如生的画面。请孩子们再读诗歌,边读边想,把自己读到的画面描述出来。试用“读了这首诗,我仿佛看到了------------,听到了----------,我是从诗中---------读出来的”句式说话。读完同桌之间交流。

2.抽学生班上交流,师生作评价。

(三)三读悟情感

好诗我们要反复朗读,理解诗意,才能更好地走进诗人的内心世界。

1.齐读诗歌,借助注释理解诗意。

2.抽生讲述诗意。

3.男女生互读,思考:这首诗写了秋天的哪些景物?表达了诗人怎样的思想情感?

四.指导背诵

1.读一首好诗如聆听一首美妙的乐曲,读一首好诗如欣赏一幅优美的画卷,读一首好诗如与诗人促膝交谈。好诗就让我们把它背下来,珍藏在记忆深处。孩子们,快快背下来吧,看看谁是最强大脑!

2.教师巡视并检查学生背诵情况。

夜书所见范文第2篇

36岁的李华杰就是这样用拍卖槌指挥全场的人。

“通过我的拍卖,让艺术品流动起来,并让它们的价值得到最大的体现,这就是我最喜欢这个职业的地方”,李华杰说,“不过,拍卖并不仅仅是一场财和物的交易,更是一门主持的艺术。你要有亲切但是权威口气,用词也要准确,还要读懂每一个人的表情,知道如何用眼神与台下的竞买人交流。其实一场成功地拍卖会,并不需要在结束后去统计成交率有多少,你在台上的感觉就能告诉你答案,拍卖师对全场一定要有一种掌控感。”

十多年前,国画专业毕业后,李华杰怀着对艺术的强烈兴趣,投身到艺术品拍卖这个行当。“艺术品的分类太多了,因为我本身学的就是国画,自己对于水墨最懂也最感兴趣,所以一开始就选择了字画这一类。” 十几年职业生涯的历练,让李华杰从最初的艺术青年成长为一个穿梭在艺术和商业之间、寻找完美平衡的职业拍卖师。

和瓷器等大的物件不同,字画需要具备更多地文化特质。很多人并不喜欢过于素净的东西,毕竟它们挂起来显得不是那么华丽。但是,伟大作品本身的艺术价值和文化内涵就足以吸引很多收藏家的目光。

在国画领域,活跃于20世纪的现代大家的作品广受喜爱,如傅抱石、张大千、齐白石、徐悲鸿、吴湖帆、林风眠、钱松岩等。这些大家的画作本身价值不菲,而能够参与拍卖的收藏家,自然也拥有雄厚的经济实力。在多年的拍卖实务中,李华杰最常接触的正是这群财富精英。

通常,每个拍卖行在每年春秋两季都会各举办一场大型拍卖会,每场持续一周左右,拍卖按照品类依次进行。在拍卖会开始之前,拍品会进行三天左右的预展。除此之外,各个拍卖行还会不定期地举办小型拍卖会和通讯拍卖,这些通常安排在周末。在一些拍卖的预展中,李华杰还常常扮演这些收藏家的艺术顾问,为他们讲解拍品,提供详尽的咨询。广博的知识、精准的眼光和专业的态度,让李华杰成为很多收藏家眼中的鉴赏专家。

在拍卖会之余,拍卖师还会负责艺术品的前期征集和鉴定工作――拍卖行并不会盲目地去收集艺术品,而是根据作品本身的艺术价值和收藏市场的需求来确定。与收藏家们的接触,也为李华杰把握收藏市场提供了第一手的资料。

“我常常开车去艺术馆、拍卖行,或者直接去拜访一些收藏家和艺术家,了解一下最新的艺术品动态。然后,到了拍卖季,我就要去主持拍卖会,一场可能持续四、五个小时。”李华杰笑了笑,“现在我还有很多工作计划,包括一些研究和考察,已经安排到了12月底。今年确实比较忙碌。”

终日与艺术品为伴的李华杰,对于选车也坚持自己的品位。“一般人买车的时候,可能考虑的因素都差不多,比如品牌、价位、实用性等,但是我更看重工艺的品质和细节上的设计,当然还会有一些审美方面的考虑。”李华杰说。

夜书所见范文第3篇

关键词: 数控技术 实践教学体系 探索

高职数控技术专业培养目标旨在培养懂工艺、精操作、会编程的高素质技能型数控人才。在数控技术专业人才培养过程中实践教学体系的安排是影响人才培养质量的重中之重。

1.数控技术专业实践教学体系总体思路

(1)实践教学目标

数控技术专业实践教学目标旨在通过实践教学,学生熟练掌握数控机床编程操作,熟悉电加工机床编程操作,通过实践教学体系的学习实现本专业人才培养目标。

(2)实践教学总体思路

数控技术专业实践教学包括试验教学、校内实训、校外实训、顶岗实习四大部分。在实践教学体系执行过程中采用三阶段教学模式,第一阶段基础实践教学,打基础;第二阶段专业核心技能实践教学,强化核心技能培养;第三阶段专业综合实践教学,注重数控专业综合能力的锻炼培养。

2.数控技术专业实践教学体系实施

(1)基础实践教学阶段

基础实践教学的目的是使学生掌握机械制造的基础知识,掌握普通机床的操作方法,对机械材料热处理、公差、自动控制等基础知识有所了解,为数控专业核心技能培养打基础。本阶段的实践教学内容包括:工程材料与热加工实验,机械设计实验,公差实验,液压气动实验,PLC实验,热工实训(2周),AutoCAD绘图实训(2周),车铣实训(4周),钳工实训(2周)和数控机床认识实习(2周),本阶段主要在一年级实施。

(2)专业核心技能培养实践教学阶段

专业核心技能培养实践教学阶段的教学目的是通过本阶段的学习,熟练掌握数控编程、数控机床操作,掌握自动编程、自动加工,具备电加工机床编程操作能力,满足数控加工岗位能力要求,实现核心能力培养目标。本阶段实践教学内容包括:数控编程设计(1周),数控工艺设计(1周),数控车床编程与加工(4周),数控铣床(加工中心)编程与加工(4周),线切割编程与加工(2周),CAD/CAM自动编程与加工(4周)和校企合作工作站进站学习(12周),本阶段主要在二年级实施,校企合作工作站进站学习因企业条件限制,每学期选派30名学员。

(3)专业综合实践教学阶段

专业综合实践教学阶段的教学目的是通过本阶段的学习,学生更好地进行理论与实践教学的融通,可以用综合知识解决实际加工问题,缩短学校学习与企业实际加工零件之间的距离,为学生尽快适应企业岗位打好基础。本阶段实践教学内容包括:数控毕业设计与答辩(7周),数控专业综合训练(2周)和顶岗实习(20周),本阶段主要在三年级实施。

3.数控技术专业实践教学体系中校企对接实现

(1)实践教学内容设计贴近企业产品

在专业核心能力培养阶段的实践教学,采用一体化项目教学方式。在项目设计上,负责教师邀请企业专家参与课程设计、项目设置,使项目设计更合理、更贴近企业实际,为培养符合企业需求的合格数控人才起到重要作用。

(2)利用校企合作工作站进行实践教学

数控技术专业依托国防职教集团建立了西安嘉业航空校企合作工作站,专业依托工作站,每学期安排30名学生进站进行3个月的工学交替学习,进站期间半天学习理论,半天实践学习,学校派1名教师参与教学组织,企业安排技术人员进行理论授课及相应岗位的实践指导。

(3)企业参与人才培养全过程

为了保障数控技术专业培养的毕业生符合企业需求,专业指导委员会中委员一半来自企业,参与人才培养方案的制订,确保培养方向不偏离。

课程建设过程邀请企业一线实践经验丰富的能工巧匠参与实验、实训课程项目设计,使实验实训内容更符合企业实际。

顶岗实习、工学交替过程中,企业提供设备、实际产品,企业员工参与学生培养过程。技能水平高、理论知识丰富的高级工程师对学生进行理论授课;实践经验丰富的操作人员对学生进行实践操作的指导。

4.实践教学保障体系

(1)条件保障

三阶段的实践教学要求较高的实践教学条件,包括企业的参与配合、设备、师资等。本专业投入一千万数控设备,并利用企业设备保障实践教学的顺利开展。在师资队伍方面,数控技术专业拥有专业教师30余人,高级职称10人,双师教师25人,并聘请企业专家任教为实践教学提供充足的师资条件。

(2)制度保障

学校实践教学管理处发出了一系列关于实验、实训、顶岗实习、毕业设计和技能竞赛等方面的实践教学管理文件,以保障实践教学的顺利开展。

(3)运行保障

教务处组织各专业在制订人才培养方案的过程中,明确实践教学环节,并严格要求实践教学占总课时的50%以上。在执行过程中,教务处、实践教学处、督导处、数控学院在实践教学的初期、中期、末期进行各项环节的多级检查,确保实践教学环节的落实。

夜书所见范文第4篇

数字化学习是指学习者在数字化的学习环境中,利用数字化学习资源,以数字化方式进行学习的过程。

数字化学习环境具有以下特征:

(1)数字化资源是数字化学习的基础。在数字化学习环境中,丰富的数字化教学资源是学习的基础。这些资源来自于教师和全体参与学习者,借助网络、光盘等方式进行传播。尤其是计算机网络,可以提供极其丰富的学习资源,能够向各种不同层次的学习者提供合适的学习材料,且往往还能提供很多实际应用的案例,从而满足学习过程中的各种不同需求。

(2)学习者是数字化学习环境中的主体。数字化学习环境下的学习充分体现了学习者的主体性和学习过程的个性化。可以较好地做到教学进度与学习者的学习水平相适应,教学内容与学习者的学习需求相适应,教学模式与学习者的学习策略相适应。也就是说,整个学习过程以学习者为中心,能够满足学习者个人的学习兴趣和要求。

(3)数字化学习环境中教学内容以模块化的任务驱动作为组织形式。数字化学习的过程,是学习者对数字化信息进行加工的过程,往往利用“组块”理论,把知识组织成有意义的模块。采用情景化的教学设计,将教学内容根据实际的问题组合成一个个的模块,让学生单独或小组形式进行的探索,从而学习到解决问题所需的基本知识和技能,综合各方面的材料,最终提出解决问题的方案。通过任务驱动模式,知识的学习与实际情景联系更为明确。相同的学习材料可以采用不同的组织方式,锻炼学习者解决问题的能力。

(4)数字化学习环境中的教学评价体现开放性和智能化的特点。在数字化的学习环境中,对学习者的评价不仅包括教学内容的掌握,还包括学习素质、应用效果和协作以及沟通能力等方面的评价,其内容更具有开放性,是个人素质的综合体现。同时,评价测试可以通过计算机网络来协助完成,具有智能性、高效率的特点,有利于教师的教学测试和学习者的自我评估。

2.企业构建数字化学习环境的目的和意义

在企业的信息化服务平台上构建数字化的学习环境,让企业的员工借助数字化学习而不断提升自己,对于企业的管理者、企业员工都有意义。

2.1 数字化的学习环境有利于企业员工自我知识结构的构建和更新

建构主义学习理论的观点认为,知识不是通过教师传授得到,而是学习者在一定的情境即社会文化背景下,借助其他人(包括教师和学习伙伴)的帮助,利用必要的学习资料,通过建构意义的方式而获得。在传统教学中,教师的主体地位过于突出,而学生的自我知识经验容易被忽视,不利于对人才素质的培养。在数字化学习环境中,学习者的学习不是来自于教师的讲授和对课本知识的学习,而是利用数字化平台和数字化资源提供非线性的、网络化的知识体系,通过在教师、同学之间开展协商讨论、合作学习,学习者自主开展对资源的收集利用,以探究知识、发现知识、创造知识、展示知识的方式进行学习。因此,数字化学习方式有利于学生自我知识结构的构建,强调了学习者自主学习与探究的主动性地位,能够培养学习者良好的学习素质和运用知识的能力。处于高新技术企业的员工对知识的更新学习更是有着迫切的要求,为他们创建数字化的学习环境,就可以极大地满足企业发展和员工自身素质提高的需要。

2.2 构建数字化学习环境,有利于提高企业的信息化服务质量

在企业构建数字化学习环境是为了给企业提供全方位数字化教育培训提供服务。通过该数字化学习环境的构建,为企业各类人才的培训提供电子教学平台、企业实训平台和企业自主大学等教育培训服务,搭建直播教学系统、教学资源库、教学支持系统,为企业提供支持到桌面的各种知识技能培训服务,提高园区的信息化服务质量,极大地改善投资环境。

3 构建企业园区数字化学习环境的实践

3.1 教育培训平台及其功能

在企业的电子信息综合服务平台上搭建“教育培训平台”,以此构建数字化学习环境。该平台的主要功能为企业各类人才培训提供电子教学平台、企业实训平台和企业自助大学等教育培训服务,搭建直播教学系统、教学资源库、教学支持系统,为学习者提供优良的数字化学习环境,为企业提供全方位的教育培训服务。构成如图所示

3.2 主要建设内容

3.2.1 电子教学平台(E-Learning)

提供E-Learning的应用服务,针对企业员工的管理知识、技术知识、能力素质等进行培训;以学习方式来分,可分为:实时远程教学、按需点播的远程教学、基于WEB的远程教学。线下可提供的教育资源是权威培训机构、著名大学等。包括:

1.培训管理

(1)主要针对培训框架的规划、课程的开设、报名流程管理。

(2)完善跟踪、统计、分析、监控、评估功能,并且数据可以导入课程统计。

(3)学习时间统计、人员课程统计、课程时间统计、人员时间统计; 课程图形分析、员工(学员)图形分析、学习时间图形分析。

(4)在线考试系统: 最规范的模拟考试设计,支持大规模的在线考试,支持主观题和客观题的考试,支持自动或手动判分的考试试卷生成管理、题库管理、考试设定管理 、学员答卷管理、学员考试统计、统计结果导出。

2.个人管理

主要是教育培训计划管理,内容涉及总体计划管理维护、部门计划管理维护、课程计划管理。

3.资源建设与管理

主要针对课件、题库及教师补充资料进行管理。对培训资源的维护,培训教材包括视频、音频,文本和文档等多种格式。包括:

(1)网络课程自主制作支持任何格式和载体的知识内容,包括不同格式的录像带、录音带、VCD、DVD、CD、压缩课件、各种三分屏课件、将纸质图书扫描成电子书、PPT、flash、pdf、word、html、txt、excel等音视频和文字、表格资源,并能够很方便的导入E-Learning系统中使用,解决多种知识资源不能共享和知识资源来源多元化的难题。

(2)多媒体网络课件制作系统 专门为网络培训系统配备的课件制作系统,可以让用户很方便的制作出企业所需要的标准音视频课程,操作简单,制作出来的课程,不仅可以制作成光盘,还能够和培训系统无缝集成,直接导入就可以使用,极大的节约用户的成本。

3.2.2企业实训平台

1.实训广场

企业员工按照自己所需的培训内容选择课程或组织教师培训。园区培训中心通过了解企业个性化需求和培训报名情况,针对企业员工的管理知识、技术知识、能力素质等提供的“按需定制”的培训课程和教师;授课方式主要通过E-Learning模式进行。

2.培训超市

企业员工按照自己所需的培训内容选择课程、学习资料等。园区培训中心通过了解企业个性化需求和培训报名情况,针对企业员工的管理知识、技术知识、能力素质等提供的“按需定制”的培训课程;授课方式主要通过E-Learning模式进行。

3.专业技术培训

提供各种职业技能的培训班,针对企业员工技术、员工能力素质等进行培训。

4.专题培训

提供针对企业某一主题的短期培训,如咨询培训、礼仪培训、励志培训等。通常采取座谈、互动、野营等灵活多样的培训方式。

5.认证培训

提供针对企业或团体的专业认证的培训(包括劳动技能的认证培训,技术类认证培训,企业管理类认证培训);线上通过教育培训平台采用网络接入等手段;线下通过培训班等方式。可提供著名权威培训机构如CSIP、微软认证等机构。 如,技术类认证培训、计算机等级考试、计算机资格考试、微软认证等。企业管理类认证培训:注册会计师、项目管理认证、企业管理资格证书项目。

6.就业速成班

提供各种职业技能的就业培训班,针对打工就业者的技术、能力素质等进行培训;如职业规划、计算机系统分析高级班、高级职业经理速成班、速写班等。

3.2.3企业自助大学

1.企业定制培训

一种根据企业需求调配出的培训方案。如“企业与大学生的实训平台”建设,采取线上与线下的招聘预培训制度,帮助企业提高人才招聘的准确性。

2.企业网络学院

指由企业出资,以企业高级管理人员、一流的商学院教授及专业培训师为师资,通过实战模拟、案例研讨、互动教学等实效性教育手段,以培养企业内部中、高级管理人才和企业供销合作者为目的,满足人们终身学习需要的一种新型教育、培训体系。企业网络学院主要采用E-Learning模式和传统培训方法相结合的教学方式。如“海尔大学”、“中兴学院”

3.3 教育实训平台的管理和服务运营

教育培训平台按照以下三类模式开展服务运营

(1)项目驱动模式

把有关专业的专业课教学、课程综合实训都紧密地与市场需求结合起来,把企事业一线工程实例引入实训教学中,采用项目教学法进行实训。

(2)学练一体模式

把课堂教学与实训基地及工作一线零距离接触,结合实际边看边学,边练边学,学做合一。

(3)订单模式

与各用人单位签订订单教育协议,针对用人单位的需求制定人才培养方案。完全满足订单要求,为企、事业一线培养实用型人才。

教育培训平台通过登录验证机制进行用户认证管理。通过后台的计费系统完成计费信息的采集和处理。采用会员制。按次计费或按时计费、收取第三方教育资源提供商的租用费(如租用培训超市、广场以及网上接入服务等)、企业实训基地共建费、资源下载费、接入费、广告费、协议收费等收费模式。

计费系统主要由数据采集子系统、数据处理子系统和数据库子系统三部分组成。数据采集子系统是计费系统的关键所在,所有数据源均通过适配器联入总线,再按要求入数据库,以便处理。数据库子系统将采集来的原始的计费源数据存入数据库,原始的计费源数据将由计费系统处理后生成计费和生成账单。数据处理子系统按照GUI管理配置部分的计费配置要求,根据数据库子系统的数据计算出对应的账单。

夜书所见范文第5篇

关键词: 藏文编码; 搜索引擎; 倒排索引; 网页爬虫

中图分类号:TP393.4 文献标志码:A 文章编号:1006-8228(2017)06-22-04

Research on key technologies of Tibetan web search

Zhang Yunyang

(Library of Tibet University, Lhasa, Tibet 850000, China)

Abstract: Through analyzing the characteristics of the Tibetan characters' coding in Tibetan website, and introducing the characteristics of the search engine, this paper studies the key technologies of Tibetan web search. The technologies of URL processing, the qualified crawler, inverted index, words' retrieval, sorting for results and the others for Tibetan web are discussed in detail. This paper proposes a relatively complete method for Tibetan web search, which has certain practical value for Tibetan web's information search and use.

Key words: Tibetan coding; search engine; inverted index; Web crawler

0 引言

藏族是我民族大家庭的重要成员,藏语言文字是藏族同胞在日常工作/生活中广泛使用的文字。几千年以来,藏文字作为信息文化的传播载体,对于传承藏民族传统文化、传播现代科技知识和促进地区经济的发展都发挥着重要的作用。在计算机世界中,藏文字区别于汉字和英文的最主要特征是字符编码,目前国内网站多数使用GBK编码存储信息,使用基于GBK的字体显示文字。而目前的藏文网站,为了方便兼容和统一检索,主要使用基于国际标准编码的Microsoft Himalaya字体和珠穆朗玛系列字体。

1 藏文网站字符编码技术

藏文在计算机和国际互联网的使用,在输入法和字体方面采用基于Unicode字符集的方法较为合理,方便信息共享,方便藏文广泛交流。互联网世界的藏文网站和网页,现在都倾向于使用基于Unicode的藏文字体。

通过对国内比较著名的藏文网站源码分析发现,主要的藏文网站均采用utf-8编码,即藏文字符采用国际标准编码Unicode字符集,而藏文字体采用基于Unicode的珠穆朗玛系列字体和 Microsoft Himalaya字体。国内部分藏文网站和网站的字符编码及字体分析如下。

2 网页URL处理

2.1 URL简述

URI:Universal Resource Identifier,通用资源标志符。URI通常由三个部分组成:访问资源的命名机制,存放资源的主机名,资源自身的名称[1]。

URL是URI的一个子集,它是Uniform Resource Locator的缩写,译为“统一资源定位符”,即通常说的网址。URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用统一的格式来描述各种信息资源,包括文件、服务器地址和目录等[2]。URL的格式由三部分组成:第一部分是协议(或称为服务方式);第二部分是存有该资源的主机IP地址(有时也包括端口号);第三部分是主机资源的具体地址,如目录和文件名等。

2.2 URL处理流程

网页搜索并不是对实时的网站信息进行检索,在用户提交检索提问词后,实际上是转入搜索引擎的索引数据库检索,这些索引数据库通常是由网络搜索引擎的爬虫进行采集、更新从而建立起来的。爬虫最主要的处理对象是URL,它根据URL地址取得所需要的文件内容,然后对它进一步处理,网页爬虫URL处理流程如图2所示。

3 藏文网页爬虫

3.1 爬虫“黑洞”

爬虫在搜集藏文网页的过程中,必须考虑可能出现的“黑洞”情况。爬虫黑洞是指,在抓取一张网页的链接时,链接本身是一个无限循环,导致爬虫抓取时跟着循环,浪费资源。有时一些URL看起来不同,但实际指向同一张网页,也会使爬虫陷入重复抓取的境地。

为了避免爬虫误入黑洞,一般采取两种策略。一是爬虫回避动态网页,因为动态网页常常会把爬虫带入黑洞。识别动态网页时,只需要判断URL中是否出现问题,含问号的就是动态网页。二是使用Visited表记录已经访问过的URL,凡是遇到新的URL存在于Visited表,就放弃对该URL的继续处理。例如:当遇到abcdce这样的环路链接,爬虫就会掉进去,反复抓取c、d对应的页面。使用Visited表,就能避免这个问题。

3.2 限定爬虫

藏文网页搜索使用的爬虫,是一种限定爬虫,在爬虫的功能定位上只抓取藏文的网页,本质是对网页文本所用语言的限定。藏文网页的限定爬虫,表面上是限定语言,具体操作层面需要通过限定IP、限定URL、限定charset来实现。

限定爬虫就是对爬虫所爬取的主机的范围做一些限制,通常,限定爬虫包含以下几个方面[3]:①限定域名的爬虫。比如,只抓取结尾的域名;②限定爬取层数的爬虫。比如,限定只抓取2层的数据;③限定IP的抓取。比如,只抓取自治区内的IP;④限定语言的抓取。比如,只抓取中文汉字页面。

抓取藏文网页一方面要设计限定爬虫,另一方面建立动态更新的藏文网站域名库、藏文网站主机IP库,配合限定爬虫工作。目前已有部分藏文网站在页面中加入了标记,如中国藏学网采用的是,IT网采用的是,琼迈藏族文学网采用的是。可以根据网页代码中的标记来识别判断藏文网站。藏文网站域名库和藏文网站主机IP库,需要人工操作,人为添加一些地址,这方面参照现在互联网广泛使用的“纯真IP数据库”实现。

3.3 藏文网页倒排索引

藏文网页倒排索引的建立流程如下。

第一步:抽取网页正文。网页正文是相对网页噪声而言。当今的互联网网页上,页面的很多篇幅用在广告、搜索推荐和其他链接上。网页搜索工具关注的是网页本身要表达的信息,所以在通过爬虫获取到页面源码之后,要去除那些与本文无关的噪声,抽取到网页正文。

第二步:分字。藏文文字区别于汉文,汉文是一个字使用一个编码,而藏文是对组成字的基字编码,一个完整的藏文字可能存在多个编码,这些编码按组成藏文字的方法顺序排列。藏文的分字通过藏文字分隔符 ‘ ’ 来实现,如这段藏文字,中间有四个分隔符,句末有一个断句符。在分字过程中,需要去掉一些无实际意义的字和符号,只留下有明确表意的字进行网页的检索。

第三步:对全文以字建索引。以字建索引,虽然检索过程的匹配计算量会更大,但考虑到目前藏文网页总体数量不大,应该是一种可行的提高查全率的办法。根据上一步得到的字,记录每个字在文中出现的位置,计算每个字出现的次数,建立链表。位置用于检索时的准确定位,次数用于计算字对文档的重要性,也用于相关性排序计算。

第四步:对标题建索引。大部分的Web文档有文档标题TITLE,标题反映了文档的主要内容,是搜索和导航的重要依据。标题索引以词、短语或句子为索引单位,具体根据词表匹配情况确定,如果标题匹配词表中的规范词则使用规范词,如果没有则直接以标题建索引。藏文规范词表是动态更新的。检索时以匹配标题索引为优先策略,先查询标题索引库,再查询全文索引库。

第五步:索引旄新。网站的页面信息是动态更新的,由网络爬虫抓取得到的藏文网页倒排索引库也需要更新。搜索引擎的倒排索引更新有多种方式,包括修改更新、覆盖更新和添加更新。鉴于目前上线的藏文网站数量少,网络爬虫工作周期短,藏文网页的倒排索引库更新可以采取添加更新加覆盖更新的策略。每次爬虫工作完成后,建立新的索引库,将查询引擎链接指向新的索引库,同时保留近两期的索引库,将更早的索引库删除。每次添加新的索引库后,先将之前近两期的索引库保留一段时间备用。

4 检索

藏文网页搜索工具为用户提供检索藏文网页信息,先根据用户提交的检索提问标识,去匹配索引库中的网页信息标引标识[4],然后将匹配上的结果按相关系数降序排列,匹配出的每一项条目直接指向网页源地址,同时在结果页显示每条结果的网页快照,以高亮显示匹配字符。

4.1 检索词审阅

我国于2004年和2008年先后通过的《藏文编码字符集扩充集A》、《藏文编码字符集扩充集B》两套国家标准,收录藏文字符7205个,包括现代藏文、古藏文和梵音转写的藏文字符,藏文覆盖率达到99.99%[5]。在藏文网页搜索过程中,有必要对用户输入的藏文字进行拼写检查,确认输入的每个字是正确的藏文字。将这两套国家标准收录的藏文字逐一列出,查出对应的国际编码,建立藏文国际编码字表,在用户输入检索词时使用此表来进行文字审阅。

4.2 文字匹配

藏文网页搜索,实质是将用户输入的检索提问标识与索引库中的网页标引标识进行比对,找出匹配的条目。现有的字符编码体系,对汉字是以整字编码,如“汉”的GBK编码是“BABA”,“汉”的unicode编码是“6C49”;藏文字是对构成字的每个构件进行编码,因此一个藏文字的编码实际是由一个或多个构件的性,藏文字符匹配相对汉文和英文需要更大的计算量,比对一个字实际需要比对多个编码。

文字匹配采取精确匹配和模糊匹配两种策略。优先采用精确匹配,将理论上最相关的结果反馈给检索用户。如果精确匹配命中条目很少或者没有命中条目,采取模糊匹配策略,将近似相关的结果反馈给检索用户。精确匹配是找出完全包含检索词的结果集,模糊匹配是找出语义上近似的相关结果集。应用检索理论中的缩检与扩检,当命中结果很多时,筛选最相关结果集;当命中结果很少或完全没有时,逐步减小相关系数阈值,或多或少地为用户提供一些近似相关结果集,尽量满足用户的检索需求。

4.3 结果排序

检索结果排序是网页搜索的重要一环,一般的全文检索系统,是按更新时间和点击率对结果集排序,如利用文献管理系统查阅图书时,查询结果根据图书出版时间降序排列,或者根据外借次数降序排列,突出显示热门图书。但是,用户的网页搜索需求不完全是将时效性排在第一位,网页爬虫在抓取网页更新索引时对每个网站的更新周期不一样,等级高的网站被爬取的频次高,等级低的小型网站被爬取的频次低。因此,网页搜索结果不能按网页时间排序,用户普遍更关注的是相关度[6]。

Google等大型搜索引擎使用复杂的PageRank算法进行链接分析,递归地计算网络上的全部站点排名[7]。藏文网页搜索的规模较小,可以采取简单的策略。以检索词的匹配程度作为主列排序,以信息时间作为次列排序,按相关度从大到小排序,相关度相同的按更新日期从晚到早排序。

5 结论

互联网世界的藏文字符已经趋向于使用基于Unicode的字符集和基于utf-8编码的字体,这有利于人们更多地使用藏文进行交流。目前,Google搜索已经开发了针对藏文网页的搜索功能,国内多家单位也正在研发本地化的藏文网页搜索引擎。总体来讲,藏文网页搜索还处在探索阶段,究其原因,主要有三个方面:一是多年来藏文字符编码不统一,一些藏文软件还沿用着基于国家标准的藏文字体,不兼容当前国际标准编码;二是藏文网页/网站数量较少,用藏文记述的文献信息体量巨大,但目前“搬”上网的还很少;三是藏文与汉文的混排、混检技术还处于发展中,最直接的解决办法是平台上的藏文和汉文都使用基于Unicode的字符编码,但会额外增加大量的汉文字符存储开销和网络流量开销,这也是一些大型站点保持使用GBK的原因。目前针对藏文信息处理的研究有很多,我们期待将来藏文在互联网世界更广泛更灵活的应用。

参考文献(References):

[1] 谢玉开.基于JAX-RS的面向资源架构应用研究[D].浙江理

工大学硕士学位论文,2011.

[2] 范剑波.网络数据库技术及应用[M].西安电子科技大学出版

社,2004.

[3] 王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012.4:

136-137

[4] 王沣.运用信息技术保护莽人语言文化的研究[J]. 科技情报

开发与经济,2014.11:144-145

[5] 普顿.移动电话上实现藏文信息处理的方法研究[D].大

学硕士学位论文,2009.

[6] 吕月娥,李信利.基于信息类别的网页过滤算法[J].福建电脑,

2007.2:99,122

相关期刊更多

出版发行研究

CSSCI南大期刊 审核时间1-3个月

国家新闻出版总署

北京农业职业学院学报

部级期刊 审核时间1个月内

中共北京市委农村工作委员会

百花洲

省级期刊 审核时间1个月内

中文天地出版传媒集团股份有限公司