前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇档案数字化的关键技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
面对网络时代城市建设迫切需要远程、公开、快捷的城建档案信息,面对馆藏日益增多的案卷,传统的城建档案保存方式已明显难以适应迅速发展的新趋势。以往一直采用的柜架式纸张保存和目录式管理,不仅占用了大量库房空间,管理成本高,而且易黄、易蛀,保管时易损坏;同时,城建档案数据库中分类信息复杂,靠手工查询速度慢。由于城建纸质档案量大,查阅起来耗时、耗力。传统城建档案使用的种种局限给城建档案管理提出了更高的要求,信息技术的日新月异也给城建档案工作带来了新的研究课题。这一切,都使城建档案数字化建设提上了议事日程。
2000年12月,国家档案局、中央档案馆印发的《全国档案事业发展“十五”计划》,把“加快档案信息化建设”、“加快现有档案的数字化进程”列入其中,同月国家档案局在中国档案管理现代化建设研讨会上宣布:十五期间,我国将加快数字化档案馆的建设。由此,城建档案数字化建设的问题引起了人们的关注。
城建档案信息数字化就是把纸质档案通过扫描、录入信息到计算机数据库中,以计算机存储城建档案信息。城建档案的数字化并非一蹴而就,而是一个循序渐进的过程。我们有必要对这个过程的各个环节进行深入的分析和研究,只有在有了清楚认识的基础上,才能规划好城建档案管理的数字化之路,为今后的城建档案数字化建设打好基础。
1.确定城建档案数字化指导思想与原则
城建档案数字化指导思想是:以需求为导向,以利用为目的,充分利用计算机软硬件功能,最大限度发挥人力资源和数字化加工设备能力,保护馆藏城建档案原件完好,保证数字化城建档案真实准确,更好地发挥城建档案信息资源的作用。
城建档案数字化原则是:遵循重要城建档案数字化的价值性原则、常用城建档案数字化的实用性原则、开放城建档案数字化的开放性原则、褪迹城建档案数字化的抢救性原则、解密城建档案数字化的及时性原则、目录数字化与全文数字化分步的时效性原则、城建档案数字化加工与利用同步的一致性原则。
2.城建档案数字化建设的步骤
城建档案数字化建设需要投入,特别是建设初期软硬件配置投入较大,建成后也要保持一定的运行成本。因此,要按照成本效益最大化理论,细化城建档案数字化建设的步骤,同时优化城建档案数字化的各种资源配置,根据不同的情况,进行城建档案专业人员和数字化技术人员、计算机和扫描设备的合理搭配,构建城建档案数字化投入小收益大的新模式。
2.1建立城建档案数据库
第一步,输入文件级目录。在建立数据库的过程中,可边输入边打印,一方面补齐卷内文件目录,另一方面检验输入的正确性,从而确保城建档案数据库的真实性、完整性和有效性。第二步,采用扫描仪、数码相机等设备,实现原文件信息数字化。
2.2加强电子文件的收集和积累工作
电子文件包括电子文件内容、电子文件载体和电子文件显示、修改的电子计算机软硬件平台的组合,是未来数字城建档案最主要的来源。为了确保所形成的电子文件不被丢失,保证电子文件是可存取、可利用和可理解的,必须及时对所形成的电子文件进行收集积累。电子文件的收集积累,不仅保证电子文件的真实性,还维护了它的系统性、完整性,同时,也防止了存有信息内容的载体在个人手中发生丢失、损坏,从而保护电子文件的安全,为电子文件的归档打下基础。
电子文件的收集积累范围,应严格按照国家有关规定执行。用载体传递的电子文件,要按规定进行登记、签署,对于更改处,要填写更改单,按更改审批手续进行,并存有备份件,防止出现差错。
2.3城建档案数字化与上网利用同步
城建档案数字化及管理流程重组是一个管理思想不断地变化的过程,城建档案数字化与上网利用同步即是新技术和新理念相互融合的表现。
数字化城建档案分开放与不开放两种,开放城建档案即上互联网,建立城建档案资料网站,实施资源共享,在互联网上向政府和社会提供城建档案信息查阅。
3.不断增强城建档案数字化管理的技术含量
城建档案数字化的建设过程重在管理,贵在控制。利用计算机进行城建档案数字化,任何一个逻辑错误,都会给数据的管理和使用带来麻烦或隐患。在互联网上公开不真实、不准确的档案,将在社会上产生不良影响。特别是在网络环境下的流水作业,上一道工序一定要为下一道工序负责,各道工序工作量的对等与匹配同样重要。实践证明,建立数字化进度数据库、数字化质量反馈库、城建档案利用登记数据库,通过技术手段将全面质量管理思想引入城建档案数字化建设,实现全程管理、适时控制,才能达到强化数字化城建档案质量保证体系的目的。
4.着力提高数字化城建档案的系统整体水平
[关键词]地籍档案;管理;数字化
[中图分类号]G237 [文献标识码]A [文章编号]1005-6432(2010)49-0096-03
1 当前地籍档案数字化的形势和要求
2006年国土资源部《金土工程一期建设方案》中推进信息化建设的要求和《地籍管理“十一五”发展规划纲要》中都明确指出:“要建立统一配置、管理各类数据的数据集成管理平台,实现数据的可视化管理和服务”、“地籍档案管理要实现数字化、可视化。”
长期以来,地籍档案管理采用计算机辅助与手工操作相结合的方式,采用的载体都是传统的纸质档案材料和相关电子表格、文档,按照新时期档案信息化的技术要求,要实现城市地籍档案管理数字化、可视化,还应该通过数字化加工处理,将纸质档案内容转换成计算机能够存储和识别的可视图像文件。
延吉市国土资源局于2008年2月起结合全国第二次土地调查关于“建立四级土地利用数据库和建立市县地籍信息系统”的要求,开始进行档案的扫描录入工作。委托长春市某航遥信息技术公司承担档案数字化扫描加工,预计扫描加工档案约10万宗,约200万页,数据容量3.5~5T,工期预计为4个月。主要步骤是:①将每一卷档案的所有卷内内容,即权属资料、身份证明等申请材料、地籍调查表、审批表、相关图纸、变更记录等所有内容,经过扫描,以图片格式存入计算机。②为扫描生成的图片编制以地籍号为主的十级目录文件名,并根据图片文件名中的关键字段和现有的档案信息系统实现链接。
对于今后接待的登记申请,将直接在办证大厅窗口用扫描仪进行相关材料的扫描录入,在完成土地登记后,可以直接生成地籍数字图片档案,同时形成纸质和电子两套档案数据。图片数据按文件名中的关键字段和现有的档案信息系统实现链接。该系统是延吉市国土资源局于2004年研发并开始应用的,是以JSP技术和B/S模式,以Appache和Tomnet开发服务器为平台建立的地籍档案查询系统。
2 档案数字化与数据处理的具体方法
地籍档案与一般档案相比,最突出的特点是图文并茂和地理位置相关性,既有报告、批文、合同等文本性质的档案,也有宗地草图、地籍图、宗地图等图形、图像的档案。扫描和录入时除选择合适的硬、软件设备外,还必须针对不同类别的档案材料数字化的要求、采用不同的工作流程和技术方法进行数据转换与压缩处理,以保障数字档案材料的清晰、准确和便于存储与应用。
3 文本类档案的数字化与数据处理
地籍档案的文本类档案的数字化方法此次一概采用扫描录入法(包括地籍档案原件的文头、手迹、图表、印鉴等信息)。
3.1 扫描方式
针对档案的清晰度采用不同的扫描方式,主要是黑白、灰度、彩色三种方式。对于比较清楚的纸质档案可采用黑白方式扫描,对于模糊的纸质档案采用8bit灰度方式扫描,对于有彩色图章的纸质档案采用16bit彩色方式扫描,这样既可以满足档案数字化的要求,又能减少存储空间。
3.2 分辨率
确定扫描的分辨率是档案扫描的关键环节之一。扫描的分辨率过高,扫描文件占据存储空间大、使用不方便;扫描的分辨率太低,扫描图像不清晰,满足不了数字化管理的要求。经多次试验研究,我们认为,对于负载量不重的文件材料,选择“200dpi”像素分辨率扫描比较合适、对负载量重的文件材料,载荷大的页面,当字迹看不清楚或者很难看清时,采用更高的分辨率,直到能看清楚为止。分辨率以“50dpi”为步进递增。
3.3 存储格式
扫描文件的格式有很多,其中最常用的有BMP、GIF、JPEG、PNG、TIFF和PCX等格式。BMP位图格式的特点是包含的图像信息较丰富,几乎不进行压缩,缺点是占用磁盘空间过大。GIF格式的特点是压缩比高,磁盘空间占用较少,其缺点是不能存储超过256色的图像。JPEG格式用有损压缩方式去除冗余的图像和彩色数据,能获得极高的压缩率。TIFF格式的特点是图像格式复杂、存储信息多,且支持LZW无损压缩方式,它存储的图像细微层次的信息非常多,图像质量高,故而非常有利于原稿的复制。此次我们选择的是无损压缩的TIFF格式作为扫描文件的存储格式。
3.4 扫描后的技术处理
对扫描图像的处理主要包括纠偏、旋转、去黑边、亮度和对比度的调整、色阶调整、去杂点、消蓝去污、拼接等。局部消蓝能够对字迹褪变的档案进行修复,一般情况下通过调整亮度,一页档案的大部分文字都会扫描出来,但有些地方会因太浅或太浓而看不清楚甚至看不出来,这时就需要根据不同情况,对灰度扫描后形成的图像分别设置不同的亮度比较值,然后转换成实际黑白二值文件进行存储,从而使全篇档案都能清晰地显示出来。这对于修复历史档案具有十分重要的意义。
4 图形档案的数字化与数据处理
与文本档案材料相比,图形档案材料最大的特点是空间定位性和可量测性。图形档案材料的扫描主要有两种方法,一是扫描成图像格式;二是数字化成矢量格式。后者要在扫描后,对扫描图像进行屏幕矢量化或通过特殊的软件自动矢量化,对于矢量化形式的数字化,还应该对图形要素进行分类、分层和编码。我局现有的档案管理系统已经和地籍图库实现链接,所以此次采用的是前者。
4.1 图形材料的扫描
地籍档案的图纸资料一般图幅较大,大多是A1、A0幅面,A3、A4幅面的较少。因此,图形扫描采用大幅面的扫描仪。对于1∶500、1∶2000比例尺的图纸,图面负荷不重,一般采用300dpi的扫描分辨率。对于1∶10000或更小比例尺的图纸,由于图面负荷较重,采用600dpi的扫描分辨率。
4.2 图形数字化的精度
图形数字化的精度要求较高,而且与图纸的比例尺有很大关系。一般要求不大于原图的0.3~0.5毫米。
5 扫描录入的图片文件名及目录名命名格式和具体规范
5.1 文件名总体上采用定长编码加上前缀的方式
5.3 具体规范的补充
第一,独立宗地无栋号、户号,应在相应位置补零。第二,原旧土地使用证的证号,在字头补零处理。第三,自治州一级的批件,使用证号末尾加Z,如果不满11位,在S后、证号前加零补齐,如州件证号为“2002009”,则先变为“S2002009Z”,因为位数为9位,不足11位,需在S后和“2002009Z”前补零,变为“S002002009Z”,最终变成了11位。第四,抵押档案(包括多证抵押)中装在同一档案袋中的档案袋文件,保存的目录应在其原来应有的目录下,而不是抵押档案目录中,文件名仍按“12.文件命名规则”制定。第五,关于版本修改历史:版本1.1修改了文件名称最后的页号表示前添加“_”。版本1.1.1修改了“12.文件命名规则如下”例2中栋号位数的错误。版本1.1.2的修改内容:①在“档案类别”后增加了档案变更次数内容。②对州批件的使用证号做了详细的命名规定。③对抵押档案件的目录命名和文件名命名规则做了规定。
6 档案数字化存在的问题
6.1 数字档案的凭证价值问题
第一,由于一系列技术和立法问题还未解决,数字化档案目前还不具备法律凭证效力,所以数字档案只有参考价值而无凭证价值。
第二,技术上的问题。①数字档案具有易复制、修改、删除的特点,使得档案“原件”的概念变得难以确认。②计算机硬、软件技术不断更新换代,因而无法通过载体、格式的鉴定来判定其原始性。
6.2 数字档案信息的长期存取问题
第一,存储的介质材料。数字介质,无论磁盘还是光盘的寿命都远远无法和纸质档案相提并论。
第二,机读语言格式。计算机语言平均每3个月就会问世一种,而语言之间的互换大部分存在问题。很难想象,若干年以后,我们用现行的机器语言描述的数据,还能100%的还原。
第三,对设备的依赖。数字档案必须依赖于计算机设备才能读出,如设备发生故障、系统瘫痪,电子文件就读不出来;电子文件对其他设备环境的不兼容性,使其只能在某种设备上处理,而不能在其他设备上处理;不同软件环境形成的电子文件存储在载体上,有时难以互换;电子文件加密后,不解密就无法识别;技术设备更新时,不及时解决格式转换问题,也无法读取等。
6.3 数字档案的失真问题
此次档案数字化的主要方式是扫描加工,在这一过程中造成数字档案失真的原因还有以下几个方面:其一,技术参数选择不当。针对不同色调、纸质和字迹,有时需调整不同的技术参数,如分辨率、明暗度、对比度等,选择不当会直接影响扫描的质量,造成信息丢失、图像模糊或产生额外信息,客观上造成档案原貌的改变。其二,工作失误。档案扫描是大量的重复劳动,难免有时失误。如扫错档案或打错顺序,或存错,或在建索引时链接错误等,如不及时发现,将直接导致数字化档案失真。其三,转换过程中的失真。在进行数字档案的迁移或在提供利用时,往往需要将扫描后形成的图像文件转换成另一种格式的文件,如果格式选择不当,同样会导致数据发生变化。
6.4 数字档案信息的安全问题
主要表现为:其一,计算机病毒。网络病毒的泛滥已对计算机网络系统构成严重的威胁。其二,计算机黑客。黑客对信息资源的攻击,程序设计高手可以篡改系统控制参数。其三,有窃取行为的间谍活动,窥视其机密信息进行复制或扩散。其四,有意破坏,摧毁系统的信息处理功能或破坏电子通信装置。其五,人为或偶然事故造成的威胁。如工作人员操作失误而产生的不可预知的事件、网络系统软件硬件的故障、电子系统故障引发的系统问题等,所有这些,都使数字档案信息的安全变得十分“脆弱”。
6.5 技术过时问题
在飞速发展的IT业中,电脑硬件、操作系统、应用软件及存储载体等不断地被新产品所替代,虽然绝大多数新产品承诺向下兼容,但其兼容的“代”数在跨越若干年后,旧的数字信息就很难被新的硬件设备和软件系统读出。“技术过时”的阴影一直会笼罩着数字信息。也有专家们提出的解决方案是数据迁移,但迁移却存在着一个致命弱点,就是每次迁移总会丢失一定的相关信息,这些丢失的信息积累起来会造成数字档案信息无法准确恢复原貌。
6.6 数字档案建设的标准化问题
地籍档案数字化建设提出只是近十年的事,在全国开展的情况也各有差异,而且受信息技术发展速度的影响,档案信息系统至今没有相应的具体标准可遵循。此次延吉市国土资源局扫描录入地籍档案也是全州八个县市的第一家,在吉林省也是名列前茅,具体的技术规程和方法还在实施中逐步研究探讨。还远不能达到信息标准化建设和实现档案信息资源共享。
7 结 论
在新时期地籍档案数字化在可视化查询和统计等方面具有以往档案管理无可比拟的优越性,但是也存在着由于自身的技术特点和介质特点等原因造成的不可避免的缺陷和弱点。今后的档案数字化建设的最重要环节即是实现国际标准化。在选择的硬、软件设备和选择标准的数字化与数据处理方法时,制定的数字化与数据处理工艺流程在兼顾标准化的同时一定要有前瞻性,尽可能和信息技术发展保持同步。减少信息资源和物资资源的浪费,实现阶段性的可持续的发展。
参考文献:
随着企业办公引入互联网,运用计算机参与企业档案工作也是当前要做的工作。目前企业档案的数字化建设存在着不足之处,下文将对企业档案数字化建设的认识表述相关观点以及提出相关措施。
一、企业档案数字化建设的重要性
档案是企业重要信息的存储仓库,同时又是信息利用的源头,因此档案管理工作对企业具有举足轻重的作用。随着国民经济的发展,档案的管理和利用受到了越来越多的关注,并在企业单的发展中发挥着越来越重要的作用。做好档案数字化将给企业档案工作注入新的动力,提高档案管理和利用水平。有效提升档案管理工作的效率,激活蕴藏在档案中的信息能量,使档案信息能够在更大的范围内得到更充分的利用。随着当前档案信息的数量越来越庞大,企业工作人员信息、企业业务状况等信息需要被详细存储,纸质档案记录已经无法满足现代社会的要求。和过去纸质档案相比,数字化档案具有浏览方便、容量大、不占空间等优势。
二、企业档案数字化建设的现状与问题
(一)缺乏企业档案数字化建设标准化规范体系
当前企业档案数字化建设还存在着较多的不足。例如企业档案数字化管理体系没有统一的标准,当前信息数字化管理的模式较多,对信息的分类、整理等均未实现统一。此外,当前企业对档案数字化管理的工作人?T的择选没有一套标准的选拔标准,没有专业的操作档案数字化建设的工作人员,存在存储操作失误导致信息丢失的风险。
(二)缺少整体数字化建设流程的规划与设计
当前档案的数字化建设属于实践的初期阶段,并未形成系统的操作程序。在信息收集、整合、归类、存储等环节,各个企业间的操作方式存在差异。企业同一部门内的信息存储方式不同,影响企业内部工作人员的工作效率;就不同企业间的合作而言,信息的存储程序不同,在一定程度上阻碍信息的交流与共享,阻碍企业间的进一步合作与发展。
(三)企业档案数字化建设的关键技术不成熟
企业档案数字化建设的关键技术不够成熟。企业档案数字化管理的核心技术即存储信息的技术,广义上的数字化信息存储技术包括处理信息的全过程-----对获取信息的分类、信息整合以及信息的存储设备的择选。实现信息数字化管理是整个过程最核心的环节是信息的存储设备。当前我国企业还属于信息数字化建设道路上的初学者,信息存储设备还有较大的发展空间。
(四)数字化建设中的信息安全和保密技术问题
我国企业信息数字化建设面临的难题是对于存储信息的安全问题以及保密措施。保证信息的安全以及相关的保密措施是存储信息、实现信息数字化的重要环节。存储的信息的安全得不到保障,信息保密措施得不到完善,信息的泄露和丢失,不仅花费的存储信息的人力、物力资源浪费,还存在给企业造成经济损失的风险。因此,保证信息的安全问题以及信息的保密措施是当前企业需要重视的重要环节。
三、新时期企业档案数字化建设策略
(一)加强档案数字化的软、硬件设施建设
加强档案数字化建设的设备是加快企业信息数字化管理的重要途径之一。优化人力资源、物力资源的配置,为企业档案管理部提供必要的信息存储设备。根据信息管理部分的实际操作需要,为信息管理部门提供相应的工作电脑、复印机、扫描仪、互联网以及从事信息管理的专业人员,保障企业档案数字化建设顺利实现。此外,随着企业的需求以及电子设备的更新换代,企业管理者也应当注意为相关信息存储设备升级,提高信息存储部门的工作效率。
(二)加强电子文件的收集、积累和归档管理工作
随着电脑办公的普及,以电子文件形式为主的信息载体越来越多,电子文件成为了实现档案数字化管理需要重视的问题。注重电子文档类型信息的收集、积累和归档,是保证企业大部分信息能够实现存储、安全妥善保管的重要方式。此外,电子文档的收集、归档也值得企业信息管理部门的重视。电子文档具有占地面积小,随时可进行阅读的优势,重视电子文档类信息的存储是推动企业实现档案数字化管理的有力方式。
(三)建立和完善档案数据库
建立并逐渐完善企业信息档案数据库是推动企业实现信息数字化管理的重要环节。建立信息数据库,将信息集中存储,按照相关的类别对信息进行分类存储,能够方便信息的快速查找和使用,提供企业工作人员的工作效率。此外,构建信息数据库,大量信息的集中,对于推动企业信息实现系统化管理具有积极意义。信息数据库的建立使各项信息一目了然,能够帮助信息管理部门剔除无用、存在误差的信息,保证信息的准确率。
(四)加强培训,提高档案管理人员的素质
提高档案管理工作人员的工作素质是推动实现档案数字化建设的重要途径。信息管理部门的工作人员是信息的直接处理者,因此要求工作人员具有一定的工作素质。例如工作过程需要使用操作性复杂的设备或者工作程序繁杂等情况,均是对工作人员耐心以及仔细程度的考验,提高档案管理人员的工作素质是工作完成质量和效率的保障。
一、档案基础数据库建设的紧迫性
今天,我们处于信息技术快速发展的知识经济时代,国家、城市综合服务资源库的建设是社会发展的需要,是加强政务公开、实现便民服务的一项基础性工作。我国已经在人口、法人、自然资源与宏观经济四大数据库的建设方面取得较大成效,档案作为人类社会活动的历史记载,档案资源的开发利用和档案基础数据库的建设已经成为国家信息资源建设的重要组成部分。可以说,档案基础数据库的建设已经成为各级各类档案馆面向社会提供档案资源利用服务的基本职能,成为我国整合档案信息资源、弘扬民族文化、提高民族素质的历史性课题,同时也是我们档案工作者采用现代化手段记忆当今社会改革、建设、发展真实过程,支撑社会经济发展的历史性责任和义务,更是政务公开,提高办事效率和促进科学决策的依据。
美国、加拿大、澳大利亚、德国、韩国等一些发达国家已经在档案数字化、文档一体化、数字资源长期保存、数字档案馆等方面开展了一些预言性、前瞻性和应用性研究,相继制定了电子文件管理的元数据格式与规范,研究开发档案管理信息系统、档案资源共享的网站系统的建设思路和方法。2003年2月国际档案理事会档案著录标准特别委员会正式公布了新修订的第二版《规范记录著录规则》,于2004年第十六届国际档案大会上正式颁布修订后的第二版《规范记录著录规则》,该档案著录规则对规范档案目录数据库的检索服务,建立高质量的目录中心具有重要的参考价值。发达国家的经验告诉我们,建设基础数字资源库的宗旨是遵循国际标准,构建跨区域的开放档案的共享资源库,针对公众对档案资源的利用需求提供高效率的查准、查全服务机制。
目前在我国,也有一些省市级档案馆开展数字档案馆建设,制定了符合各地区自己需求的数字档案的元数据格式规范,建立了档案目录中心,提供部分开放档案信息的检索服务功能,具有典型示范作用的有福建省档案基础数据库建设,它是基于分布式数据库,在原来单机和局域网络的基础上开发完成,它连接了若干分布式数据库,并建立了档案目录数据库,档案内容数据库,等。但是多数档案馆还没有真正建立全面的、系统的、面向公众查档需求的档案基础数据库,而只是建立了一些专门的特定主题的档案数据库,只能满足一些局部的特定的用户需求,特别是开放的档案信息资源没有实现集成,信息结构不统一,档案数据不系统、不完整、不共享,更为严重的是没有形成一个统一的能够描述数字档案资源的格式规范和建设档案基础数据库的标准方法、实现档案资源的整合、组织与存储的技术方案和行之有效的建设思路;另外,还由于建设档案基础数据库的关键技术,如海量、非结构化的数据存储解决方案,基于知识管理的数据仓库和数据挖掘等技术尚未在档案信息化领域得到广泛应用,这些因素都大大降低了档案基础数据库建设的速度和质量,致使各类档案资源难以形成一个统一的资源库整体,限制了档案资源的深层次挖掘和广泛化利用。
因此,研究档案基础数据库的元数据标准集、数字化档案信息的格式规范以及档案基础数据库建设的思路和方法、各类结构化和非结构化档案数据的组织、存储和检索利用的关键技术及整合应用方案,以及提供档案信息检索服务的有效机制将成为当前档案馆基础数据库建设的重要的基础性工作。
二、档案基础数据库建设的工作内容
建设档案基础数据库是一个长期的、复杂的系统化工程,它包括各类标准规范的制定、档案信息的组织与存储、档案资源的整合与集成、数据存储服务器和提供数据检索服务的软硬件平台的建设以及开展基础数据库建设的组织与团队及其长效服务机制的形成。而在众多的数据库建设工作中,标准规范与数据资源的滚动建设则是最基本的也是最重要的内容。
1.标准规范体系建设。包括元数据格式规范、管理规范和业务工作制度三大方面。制定数字化档案的存储标准与格式规范,明确档案数据库的存储与访问方法。包括各门类数字化档案元数据的组成、结构、描述方式、著录规则与要求;各种类型档案内容(包括文本、图形、图像、音频、视频以及非结构化信息)的描述方法、格式要求、存取方式、访问机制等;档案内容与档案元数据之间关联模型的定义、检索方式的确定;档案目录数据库和内容对象的分级存储、统一管理、集成共享方式和要求。
制定档案基础数据库建设的管理规范和制度,明确数据库建设过程中的程序化和规范化操作方法。主要包括数字化数据库的建设步骤、方法和要求;数字化档案信息的网络存储、离线备份和灾难备份与恢复的功能、性能、技术规范和管理规定;数字化档案信息的安全管理规范、备份方式与要求;备份的数字化档案信息的管理方法等;档案基础数据库的原始性保障措施,规定如何采用身份认证、数据加密、电子签名等技术确保档案的真实、完整、有效和凭证性作用;数字化档案信息的授权访问制度,定义开放档案、控制使用档案、档案的分类存储和授权管理与访问制度。
制定档案基础数据库建设的业务规范和制度,明确接收数字化档案信息和开展馆藏档案数字化加工的工作要求。主要包括数字化档案的归档、移交、接收的工作制度和内容、范围、方式、方法及安全保障要求;开展馆藏数字化加工的全过程工作方法、安全制度、保密措施、人员要求等;档案基础数据库的滚动建设与完善制度和工作要求。
2.档案信息资源滚动建设。主要包括数据库平台的建设以及数据著录、数据处理、数据整合与数据备份系统的建设。数据库平台是指存储档案数据的软硬件存储系统,包括网络存储设备的选型、安装、调试和使用,数据库管理系统,存取数据的软件平台,多门类档案数据存储方案的确定和实施,以及数据存储系统的升级、维护与持续服务的计划和工作要求等。档案数据存储系统的建设主要涉及到需求分析、方案确定、设备的购买及其与服务器的连接等内容,网络存储设备一般应与服务器的购买同步考虑。多数服务器供应商提供存储解决方案,并提供服务器与存储设备之间的集成与互联。
数据著录系统是获取档案信息的门户应用,包括档案内容信息、档案目录和标引等的录入、修改、保存以及电子文件的上传等内容,著录系统的建设主要是要将标准规范加以实施,在数据入口处将不合规范的数据进行预处理,真正将符合档案管理和保存要求的数据捕获到数据库存储系统中。
数据处理系统是实现批量数据导入、导出、挂接和规范性校验的自动化数据著录系统,一般由技术支持人员来完成,系统的建设需要根据档案业务工作的需求,总结和预先定义数据处理的标准和自动处理规则。
数据整合系统是在数据处理之前,根据档案资源管理的需要,对档案信息资源进行分门别类的整理与规范化处理,以方便实现档案信息资源的集成与共享。
数据备份系统建设的目的是提高数据的安全性,根据备份方案的不同,可以采取在线备份、脱机备份两种方式。建设数据备份系统,一方面要建立实施备份的软硬件支撑平台系统,一方面要制定备份的策略和计划,并在工作中实施和维护,同时还需要对备份的数据实行全面的管理,这三方面内容缺一不可。
三、档案基础数据库建设是实现档案资源共享、开展社会化服务的基石
社会信息化使档案信息资源面临着一个全新的生存环境与发展空间。美国档案学者杰拉尔德・汉姆先生曾指出:档案应该记载“人类生活的方方面面”,档案工作者要“创造一个反映普通百姓生活喜好、需求的全新的文献材料世界”,档案馆藏是反映“人类生活的广阔领地” ①。因此,档案资源唯有回归社会,得到最大限度的利用,才能体现档案保管的价值和作用。事实告诉我们,实现档案信息资源的集成化管理和共享化利用是档案贴近公众、服务社会的最佳解决方案。
要实现档案信息资源的共享化利用,首先必须在档案基础数据库的建设上下功夫,而档案基础数据库的建设必须在档案的形成、存储和提供利用的各个环节加以重视。档案的形成是一个从个体知识到组织知识,再到社会知识转换的文化积累、动态跟踪和滚动发展的历史记忆过程,档案的开发与利用则是人类传承文明、创新发展的进步与成长的历史形成过程。如图1所示。这两个相互衔接、彼此推动的过程,循环往复、推陈出新构成了人类社会的知识化动增长(Adaptive)和社会化自适应的档案资源形成过程模型。这表明了档案文化通过“传―承―积累―发展―传”这样一种类似于文化加工厂的生产工序,随人类自身的代代繁衍而形成民族文化的生生不已、无始无终的传承环链②。
图1档案资源的知识化共享和社会化服务过程模型
进入21世纪,我国的电子政务与各行各业的信息化已经进入了以知识管理为核心的快速提升和综合运营的重要发展阶段,信息技术的发展也把知识管理推到了一个核心重要的位置,“以知识为基础的经济社会” 的提法更表明了人们对知识和技术在经济增长中的作用有了更充分的认识。可以想象,未来的互联网是一个丰富多彩的“知识网”,是一个储存综合知识的文化资源大仓库。档案作为人类社会活动的原始记录者和忠实承载者,记录了人类的社会成果的同时也揭示着人类文化,它是民族文化遗产的重要组成部分。同时档案在文化传承中占据着举足轻重的地位,发挥着不可替代的作用, 正如张辑哲在其《维系之道―档案与档案管理》著作中所谈:“正是由于有了档案与档案管理,人类才能够不断地在继承中存在、发展,在存在、发展中延续,不断使自己真正成为一个连续的时空整体。档案与档案管理是人类社会时空统一性和连续性的维系之道……”。
档案信息资源必将会成为未来“知识网”中不可或缺的重要组成部分,因此,在开展档案信息化建设过程中,首要重要的事情是建设高质量的档案基础数据库,充分利用数据挖掘、数据分析工具提供快速检索与服务,实现档案信息资源的社会化共享,才能真正体现档案保存的价值和意义。
注释:
①.F.杰拉尔德,汉姆,刘越南译,档案边缘,《山西档案》,1999年第1期.
关键词:数字图书馆;信息数字化;存储技术;发展对策
数字图书馆是一个将信息资源以数字化方式存贮并通过网络提供即时服务的信息系统,因而信息资源数字化是实现数字图书馆的根本条件,也是数字图书馆正常运转的关键步骤。但目前高校信息数字化中由于种种原因还存在许多问题,如重复建设、知识产权、技术应用和标准与规范等问题,这些都严重阻碍了我国数字图书馆的健康发展。因此,高校在实施信息数字化建设过程中,不仅需要更新观念、统筹建设,还要规范标准、加强立法、提高馆员素质,更要加强适合我国国情的技术创新。
一、数字图书馆中的信息数字化
(一)信息数字化的内涵
从社会信息化环境来说,数字图书馆是运用计算机技术、网络技术、通信技术等多种信息技术,对不同载体和类型的信息资源进行搜集、选择和规范化处理,使之以数字化的方式存储,建立分布式的馆藏信息资源库和虚拟信息资源库,并通过网络向世界各地用户提供无时空限制服务的信息系统。数字图书馆的主要职能是搜集、保存和传递数字化信息,可以称之为数字化信息的存储和传递中心,因而信息数字化建设无论从质量还是从数量上都是数字图书馆发展的关键环节。
(二)信息数字化的关键技术
信息数字化技术包括数字化信息的生成技术、存储技术和压缩技术等,其关键技术是数字化信息的生成技术和存储技术。1.数字化信息的生成技术包括有键盘录入和非键盘录入两种方式,目前使用较多的是第二种方式。键盘录入是一种手工转换的文本模式;非键盘录入包括手写识别技术、印刷文稿扫描识别技术、语音识别技术。在信息数字化实际工作中,高校许多数字图书馆都采用两者相结合的方式来规避键盘录入的较高错误率和扫描方式对硬件的较高要求。2.数字化信息的存储技术包括直接存储技术和网络存储技术。直接存储技术是目前大多数数字图书馆的数据存贮技术,主要包括光盘塔技术、磁盘阵列技术和磁带库技术;网络存储技术包括直接附加存储(DAS)、网络附加存储(NAS)、存储区域网络(SAN)、小型计算机系统接口(ISCSI)技术和内容寻址存储(CAS)[1](P.20-21)。
二、信息数字化中存在的主要问题
虽然我国数字图书馆建设中的信息数字化工作取得了一定的进步,但由于观念和技术的落后,信息数字化建设整体上呈现出数字信息资源重复建设严重、版权保护立法不健全、缺乏有力的技术支撑、标准和规范化建设滞后等问题[2](P.13-14)。
(一)重复建设问题
由于国内各地区、各系统以及各馆之间无一个权威的协调机构,也无规划布局和分工实施计划,数字图书馆建设缺乏全局性的统一规划和政府权威部门的协调,相当多的所谓数字图书馆建设仍处于各自为政、贪大求全和相对分散的无序状态,信息资源重复现象的问题严重。近年来,我国各级政府投入了大量资金,各级各类数字图书馆都在进行数字信息资源建设,甚至引进CNKI等数据库,这种现象在各大高校数字图书馆的信息数字化中也非常普遍,在相当广的范围内存在着潜在的数字信息资源重复建设问题。
(二)知识产权问题
随着数字图书馆的开通,数据库的利用将越来越广泛,由此产生的知识产权问题就不可避免,其中争论的焦点是关于网络作品的制作、传播和使用的版权保护问题,让一些数字图书馆在实践中遭遇法律尴尬。著作权人公开指责图书馆界滥用权利,严重损害了著作权人的利益;出版界也有人认为文献信息的数字化是复制出版界的出版物,在网上出现了成千上万的复制本、使出版界的经济利益受到损害;而图书馆界则认为信息获取的主动权完全掌握在版权人手里,这样会严重地影响知识的创造和传播。因而制定网上数字化文献的著作权法律法规已成当务之急。
(三)技术应用问题
随着电子出版物的收藏和网络数字化资源的采集,图书馆越来越多的信息一入馆就是数字化的,而传统馆藏,进行数字化转化所使用的技术主要是光学字符识别(OCR)扫描录入方式。一般的OCR录入系统能够实现对各种现代书籍、简繁体书籍、报刊杂志、公文档案的录入识别,且识别率高,还能实现各种校对,然而,对于传统馆藏文献的数字化,特别对含有繁体手写汉字的古籍文献、简繁混排的中文文献、专业性强的中文文献以及难于机检的汉字文献,OCR技术目前还存在很大的误识率和拒识率,为此,需要对OCR系统进行深入的研究和改进,提高其应用的全面性,并要引入中文校对、录入。
(四)标准与规范问题
目前主要有:1.缺乏对标准规范重要性的认识;2.缺乏普遍接受和广泛应用的关键标准规范;3.缺乏对标准规范建设的系统化把握;4.缺乏对标准规范的开放描述和开放应用;5.缺乏开放、联合、共享的标准规范建设与应用机制。例如图书馆在信息资源建设过程中所采用的软件系统差异很大,如ILAS系统、图书馆集成系统等,其标准和格式都不一致,导致开发的数据库不能兼容,检索界面不一,检索途径也不同,检索语言也无统一的规范控制,无法在网上实现资源共享。
三、信息数字化发展对策
(一)加强特色数字馆藏建设
只有具有特色的数据才能赢得较高的网络访问频率,才具有资源共享的价值,也是各大数字图书馆以最小投入换取最大效益的文献信息共享模式。因此,在进行本馆的信息数字化建设时,除了需要全面考虑文献价值、用户需求、载体形态、技术可行性和著作版权等一般因素外,还需要科学而系统地考虑馆藏内容、馆藏特色,尤其是馆藏结构和馆藏级别。馆藏级别一般可以划分为永久保存级、服务级、镜像级和链接级4个基本层次。永久保存级馆藏是指具有确定的保存价值和用途,并具有惟一性的特色文献;服务级馆藏是指十分有用和必须的虚拟馆藏;镜像级馆藏是指其他数字图书馆馆藏的拷贝,与永久保存级相同的是它们都是现实馆藏,与之不同的是它缺乏惟一性;链接级馆藏则是贮存于其他数字图书馆中的数字化信息资源,其内容较为广泛,与服务级馆藏相比,它与用户的相关性要低一些。只有通过这些特色数字馆藏的建设,才能真正优化馆藏文献的结构,加快馆藏信息利用,最大限度地避免重复建设,从而提高整个社会文献资源的保障水平和信息资源的开发利用效率。
(二)从信息源头加快信息数字化建设
文献信息资源的源头在出版社和出版商,每年都有数以万计的文献资源被出版系统数字化,这个资源如能加以利用,将是一笔巨大的财富。据2001年统计,全国530家出版社的图书总量是154 526种[3](P.32-33),一年的文献资源总量就相当于一个中型图书馆文献资源的全部馆藏总量,而且还在逐年递增。如果把信息数字化的生产重任交给出版商,将会带来很大的经济效益和社会效益:一方面可以大量减少信息资源重复数字化带来的人力、物力、财力的浪费;另一方面,信息资源数据库的建设者可以通过与出版社合作取得授权来解决信息资源建设、传播中的知识产权问题,既能保护作者的知识产权,又能照顾到出版商利益,同时还能让各类文化、科技的文明成果纳入数字图书馆,使其能为更多的人服务,创造出更大的价值。
(三)开发和利用先进技术
无论是从数字图书馆建设,还是从文献信息数字化技术来说,技术问题仍然是制约着信息资源共享的主要问题。数字图书馆是采用现代高新技术的系统工程,不仅需要立项研究开发新的应用技术,而且还需要各种高新技术成果的及时转化和应用。目前,信息资源数字化的关键技术在发达国家已趋于成熟,他山之石、可以攻玉,加强技术研发工作可以从以下几个方面进行:1.从高校数字图书馆建设项目的实际出发,组织专人对信息数字化关键技术进行跟踪、研究、攻关;2.借鉴引进适合国情的国外先进技术和先进产品;3.集成和采用以国家“863”计划为代表的国内已有的科技成果;4.开发适合我们自己的先进技术,如电子信息处理技术、指引库技术、语音识别技术及信息媒介技术,同时规范有关技术标准[4](P.55-56)。
(四)促进信息数字化建设的规范化和标准化
信息数字化涉及文献描述、组织和检索多个方面,各个数字图书馆之间想共建共享信息资源,就必须统一标准。因此,图书馆数字化建设要走资源共享的道路,必须打破各自为政的局面,各图书馆文献分类编目不统一,对资源共享造成很大的障碍,在书目数据方面,数据不标准就不能保证用户从各个角度迅速、准确地检索资料。因此必须有一个数字图书馆全国中心,建立和健全全国数字图书馆使用的各种标准规范,协调规范资源库建设,解决信息数字化建设的标准化问题。根据标准,再由地区内、地区间各馆合作建库或由地区文献信息中心统一建库,各馆录用,最终达到全国的标准化。
(五)提高馆员的信息处理技术与研究人员的素质
随着信息资源概念的发展,文献信息数量和类型的增加,信息工作方式和手段的改进,图书馆的工作对象已不再局限于对传统纸质文献和某些缩微资料或视听资料的一般性收集、整理、组织、管理等工作,数字图书馆面临更多的信息载体和信息服务方式。例如,各种电子图书、网络信息资源、CD-ROM和其他电子资料已成为数字图书馆采访和处理的主要对象,这对于长期熟悉纸质文献的传统图书馆员来说就是一个巨大的挑战,同时,数字图书馆还会带来一系列需要解决的新问题,如知识产权归属品种和复本的比例、购书经费的分配等。在书刊分类和编目工作上,馆员的技术性处理工作会迅速减少,但会被赋予需要更多知识的技能才能完成的新任务。也就是说,他们可能参与更多的信息技术工作、文献信息研究和用户研究工作。总之,现在图书馆工作者应当是信息专家和信息工程师,是信息系统的设计者,也是信息用户的导航者。鉴于此,在提升数字图书馆馆员的素质上,一方面可以通过吸收一批计算机、通讯、外语方面有特长的人才充实图书馆人员队伍;另一方面应加强在职人员的培训,提高其计算机、英语和专业综合技能与素质,及时调整和优化他们的知识结构,以适应信息资源数字化建设的要求。
参考文献
[1]陈柯明.谈网络环境下数字图书馆信息存储技术应用 发展[J].图书馆界,2004,(6).
[2]梁平.我国数字图书馆建设中的几个问题[J].中华医学 图书情报杂志,2004,(13).