前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇自然语言处理范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
Abstract: This paper analyzes the role and status of morphological analysis in natural language processing from the view of the features and difficulties. Then, the author lists some typical automated segmentation algorithm in Chinese lexical analysis.
关键词: 自然语言理解;词法分析;自动分词算法
Key words: natural language understanding;morphological analysis;automatic segmentation algorithm
中图分类号:TP27 文献标识码:A文章编号:1006-4311(2010)10-0157-01
0引言
自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。计算机的出现使得自然语言研究成为可能。语言是以词为基本单位的,词汇在语法的支配下构成有意义的和可理解的句子则进一步地按一定的形式再构成篇章。词法分析是理解单词的基础,因而也是自然语言理解和处理的基础,其主要目的是从句子中切分出单词,找出词汇中的词素,从中获得单词的语言学信息并由此确定单词的词义。
1自然语言理解的难点及处理层次
自然语言也就是人类本身所使用的语言。广义上讲,自然语言理解是指机器能够执行人类所期望的某些语言功能,如回答问题、文摘生成、释义、翻译等。由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等众多因素,使得对自然语言的理解成为非常困难的研究课题[1]。语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。因此,自然语言的分析理解和处理过程也应当是一个层次化的过程。许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次。
2词法分析的在自然语言理解中的地位和作用
2.1 词法分析的特点和任务词法分析是理解自然语言中最小的语法单位――单词的基础。语言是以词为基本单位的,而词又是由词素构成的,即词素是构成词的最小的有意义的单位。词法分析包括两方面的任务[2]:第一:要能正确地把一串连续的字符切分成一个一个的词;第二:要能正确地判断每个词的词性,以便于后续的句法分析的实现。以上两个方面的处理的正确性和准确度将对后续的句法分析产生决定性的影响,并最终决定语言理解的正确与否。
2.2 不同自然语言中词法分析的特点和难点不同的语言对词法分析有不同的要求。例如,英语和汉语在词法分析处理方面就存在着很大的差异。英语语言中,由于单词之间是以空格自然分开的,而汉语则不具备英语以空格划分单词的特点,其单词的切分是非常困难的,不仅需要构词的知识,还需要解决可能遇到的切分歧义。对于词性分析和判断,由于英语单词有词性、数、时态、派生、变形等繁杂的变化,再加上英语的单词往往有多种解释,词义的判断非常困难,仅仅依靠查词典常常是无法实现的。而汉语中的每个字就是一个词素,所以找出词素是相当容易的。可见,在自然语言理解的词法分析处理中,汉语、日语、韩语等语言的词法分析的难点在于分词切词,而英语、法语等语言的难点则是词素区分。汉语自动分词是汉语语言处理和理解中的关键技术,也是中文信息处理发展的瓶颈,其困难主要在“词”的概念缺乏清晰的界定、未登录词的识别、歧义切分字段的处理三个方面。
2.3 典型的中文自动分词算法汉语连续书写导致了汉语自动分词中的歧义问题将始终存在。在汉语自动分词算法的研究中,歧义字段的处理是各种算法研究的重点。至今专家学者们研究出了一系列的自动分词算法,如:最大匹配法(Maximum Matching Method:简称MM)[3]、基于标记法[4]、约束矩阵法[5]、句模切分法[6]、基于统计语言模型(Statistical Language Models:简称SLM)的中文自动分词算法[7]、神经网络分词算法、专家系统分词算法、基于词典的中文分词算法等。MM法是最早出现的自动分词算法,是一种机械分词方法。该算法首先建立词库,将所有可能出现的词都事先存放在词库中,对于给定的待分词汉字串,采用某种策略进行匹配分词。策略有两种:一是最大匹配法,每次匹配时优先考虑长词;另一种则是最小匹配法,每次匹配时优先考虑短词。在机械分词的基础上,利用各种语言信息(如规则、语法、语义、标点、数字等)进行歧义校正,从而提高其分词的正确性。上文中提到的基于标记法、约束矩阵法、句模切分法等就属于机械匹配与切分歧义处理方法相结合的算法。基于SLM的中文自动分词方法又称为无词表分词算法。所谓无词表是指分词匹配的词表并不是事先建立的,而是利用机器学习手段从生语料库中直接获取分词所需要的某些适用知识作为分词依据的重要补充手段。该算法的核心思想是:词是稳定的汉字的组合,上下文中汉字与汉字相邻出现的概率能够较好地反映成词的可信度,因此,将相邻共现的汉字组合的频率进行统计并将其统计信息作为分词的依据。神经网络分词算法和专家系统分词算法都属于基于人工智能技术的自动分词方法。该类方法应用人工智能中的神经网络和专家系统来进行中文自动分词。周程远等人提出的基于词典的中文分词算法是在机械分词算法基础上的改进。他们综合TRIE树和逐字二分分词的特点提出分层逐字二分算法,以较小的开销来实现较快的匹配速度,从而提高自动分词的综合性能,其本质还是机械分词。
3总结
词法分析是自然语言理解的基础。本文在介绍自然语言理解处理层次的基础上,讨论了词法分析的重要性和难点,特别是汉语的词法分析中切词的难度,并列举了一些著名的自动分词算法。
参考文献:
[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,12:250.
[2]田霓光.自然语言的词法分析[J].咸宁学院学报,2008,(06):70-73.
[3]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,(03):175-177+182.
[4]亢临生,张永奎.基于标记的分词算法[J].山西大学学报(自然科学版),1995,17(3).
[5]雷西川,余靖维,卢晓铃.基于相邻知识的汉语自动分词系统研究[J].情报科学,1994,(2).
关键词:自然语言处理 语言翻译 人工智能
一、引言
近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。
二、自然语言信息处理技术简介
自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。
三、智能应用
通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。
(一)自然语言信息处理在文本方面的智能应用
在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。
如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。
关键词:3S技术 水污染 自动监测 应急处理
1引言
近年来,随着各种传感器的上天,许多国家十分重视水体的卫星遥感监测技术研究。采用计算机技术、通信网络技术、微电子技术、计算机辅助设计技术和3S(GIS、GPS、RS)等一系列高新技术对水环境综合管理的技术手段,建立水环境和部分重点污染源的在线监测系统,结合环境保护管理信息系统,并运用污染源解析的科学成果,对水环境和污染源实施有效监控。荷兰采用TM卫星数据、SPOT卫星数据以及多种水体监测数据、机载多光谱扫描数据,对水质进行了综合遥感研究;以色列通过分析100多个水体污染的SPOT卫星数据,实现了对水体污染的识别。
本项目采用3S信息技术手段,建立以远程控制及自动化技术为依托对水流域内的重点污染源进行自动监控系统,对水污染事故问题进行模拟预测分析;可以定性和定量分析在水源区域内工业开发对区域环境,尤其是对区域内的饮用水源地敏感目标的环境影响和潜在风险,并识别出区域环境风险的主导因子。同时采用环境监测、环境预测、计算机软件集成和远程通讯等技术研究开发环境风险监控预警体系,建立可视化管理信息系统。通过3S技术可以实现对水污染的全方位监测。
2污染水体遥感监测研究
2.1采用的研究方法
2.1.1对比分析法
收集长江、辽河、鸭绿江、大连沿海诸河四个流域典型示范区域,已有各类卫星遥感及相关资料,进行综合分析研究,确立环境与水污染遥感解译标志,与已有遥感资料进行对比、分析,推断国产卫星的解译力、可行程度及精度,与其它卫星数据图像进行对比,分析国产卫星的优势及差距。
2.1.2同步或准同步监测
为实现天地一体化动态模拟试验,必须开展星地同步或准同步监测。在统一监测规范和分析方法基础上,对各模拟试验进行星、地高光谱特性测量和分析实验同步或准同步监测,并求得规律特性,找出相关关系,确定适用范围。
2.1.3天地一体化模拟试验
卫星有效载荷天地一体化模拟试验是本项目的重要步骤。要确定CCD相机的不同监测对像辐射能量范围、动态范围;提出红外多光谱不同分辨率对地面的响应系数、最佳响应波段或组合波段,确定监测方法。
2.2采用的技术路线
3.构建基于GIS/GPS/RS技术的江河流域水污染事故应急处理决策支持系统
3.1系统构成与运行流程
依照运行的过程,系统主要包括数据层、模型层、评价层和用户层四个层面,各层次构成及系统运行流程见图。
3.2水污染事故模型库设计
模型库设计与开发分为三个层次,即指标管理模型、评价对象模型和评价方法模型。
3.2.1指标管理模型
系统针对一系列评价对象给出默认的、经过优化的评价指标体系,包括指标的组成、结构与权重向量等,但由于评价指标对于评价对象的影响程度在不同地区和不同时间均会有所差异。因此,评价指标体系是动态的,指标管理模型就是针对指标的这一特性进行动态管理。
3.2.2评价对象模型
评价对象模型是针对具体评价内容涉及的评价模型。按照评价内容分为江河污染现状评价、水体污染严重性评价、影响区域评价、事故灾害损失评价和污染灾害预警预报等5个方面。按照评价的深度和层次可以分为但因素评价和多因素评价两种。单因素评价主要是对单一点源污染扩散速度的现势和趋势性的评价等。多因素评价主要针对一些复杂的评价对象,利用多种指标综合反映其总体特征,挖掘隐藏与诸多数据之后的重要信息。
3.2.3水污染事故报警系统
采用航天卫星、低空遥感及地面监测相结合的技术手段,及时发现水污染事故隐患,实时提供事故污染动态变化。当发现事故时,一般通过无线对讲机或附近的有线电话向污染防治管理部门汇报,对事故发生位置的描述可采用“手持巡查报警系统”,它集成了GPS技术和GSM无线通讯技术,能够快速地将发生事故的地点和事故类别发送到指挥中心的监控系统,及时作出反应。事故报警系统采用GPS定位技术,可以精确地定位事故发生的地点(误差不超过10M),系统持有者只需轻轻一个按键,系统就会通过GSM短信息将报警信息和位置信息发送到指挥中心,同时系统还具备通话功能,可以实现现场和指挥中心的自由对话,方便进一步沟通。在事故发生一小时之内,事故应急流动监测站,监测车(船)、微航低空遥感监测均要赶赴现场,及时开展监测摄影。及时掌握水体动态变化状况,及时事故变化信息。
4 结论
该项目利用3S信息技术,实现了江河流域水污染自动预防和应急处理决策系统的研发与应用,其采用自主研发和二次开发的事故应急监视、监测系统,及时掌握水体动态变化状况,及时事故动态变化信息,及时采取应急处理措施;采用卫星遥感与江河流域水质准同步监测技术,实现天地一体化模拟实验。科学地求得卫星遥感数据与污染水体的相关关系,快速、准确的确定污染范围和污染程度,建立水质污染扩散模型,确定卫星遥感数据在水质自动监测中的适用范围;在国产软件MAPGIS平台支持下,采用GPRS无线传输技术,创建了基于3S技术的江河流域的水质自动在线实时监控系统,实现跨流域江河水质污染自动监测数据的实时传输;实现了对江河流域污染事故的应急预警。对污染事故的及时发现,提供辅助决策依据;提供了水污染事故应急处理决策支持的通用的、跨流域的计算机仿真系统,建立水污染事故、污染物输移扩散模型,为突发事件预测、预警提供快捷的技术支持,提高事故的应急处理水平,有力的辅助污染事故的监测管理。
Abstract: In natural language processing, syntactic analysis is the analysis of deep processing. The lexical analysis technology has been basically mature, semantic analysis based on the basis of syntactic analysis. Therefore, the syntactic analysis’s position is very important. At present, parsing of natural language processing becomes a bottleneck. This paper gives a simple comment about the method of syntactic analysis.
关键词: 汉语自然语言处理;句法分析
Key words: Chinese natural language processing;parsing
中图分类号:G202文献标识码:A文章编号:1006-4311(2010)17-0162-02
0引言
自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。自然语言理解是指机器能够执行人类所期望的某些语言功能,如回答问题、文摘生成、释义、翻译等。由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等众多因素,使得对自然语言的理解成为非常困难的研究课题[1]。
语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。自然语言的分析理解和处理过程也应当是一个层次化的过程。许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次,分别完成音素区分、词素划分、句子或短语的结构分析、确定语言所表达的真正含义或概念以及语言在特定环境中所产生的影响等分析工作。句法分析师自然语言处理的一个基本问题,是在句法分析的基础之上的语言层次结构分析。其目的是确定句子所包含的谱系结构和句子各组成成分之间的关系。关于汉语语言处理中的句法分析方法的研究,从20世纪80年代初以来,一直都没有停止过,先后出现了大量的分析方法。
1汉语句法分析方法及演变过程
1.1 汉语句法分析的基本理论自然语言处理中,按照处理深度的不同,大致可以将自然语言处理中的语言分析技术划分为浅层分析和深层分析两大类[2]。深层分析技术是对语言进行语法、语义和语用的分析,包括句法分析、语义角色标注等。与浅层的词法分析不同,深层的分析需要对句子进行全局分析才能得到正确的结果。句法分析在深层分析技术中处于十分关键的位置。
所谓句法分析,就是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单位和这些语法单位之间的关系,将线型的句子转化成一种结构化、层次化的结构,是自然语言理解的一个关键组成部分。句法分析的主要作用是消除单词的歧义,为后续的语义分析提供层次结构上的技术支撑,其结果可直接用于及其翻译、问答系统、信息挖掘、信息抽取等应用。
1.2 汉语句法分析方法句子是由词构成的。从结构上来说,汉语句子中的词是词根词,词内没有专门表示语法意义的附加成分,而且,汉语还缺少英语语句里面的形态变化,因此,汉语句子中词与词的语法关系依靠词序和虚词来表示。
句法分析的研究大体分为两种途径:基于规则的方法和基于统计的方法[3]。基于规则的方法是以知识为主体的理性主义方法,以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则行事描述或解释歧义行为或歧义特征。基于统计的句法分析则以某种方式对语言的形成和语法规则进行描述,形成句法分析模型。汉语语言的句法分析方法自研究以来,先后出现了中心词分析法与层次分析法相结合的方法、配价分析法、语义指向分析法等多种汉语句法分析方法[4]。
1.2.1 中心词分析法与层次分析法的结合中心词分析法也称为句子成分分析法,是汉语句法分析中传统的分析方法。该方法将句子分成主、谓、宾、定、状、补六大成分。该方法能很容易地分析出句子的格局,确定句子的句型,但无法体现出句子的结构层次。层次分析法则是基于句子语法结构的一种句法分析方法,它不注重句子成分,而是在层次的控制下切分句法结构的直接成分。该方法很容易显示和分析句子的结构层次,但却不能很好地显示句法结构的格局。将中心词分析法与层次分析法结合起来,就形成了一种优势互补的分析方法。
1.2.2 短语结构句法分析与西方语言中长句非常常见的情况不同,汉语句子以短句为主。从汉语的句法上来说,短语是不会跨越句子的分界的。因此,汉语这种句子短小的特点为提取句子中的短语减轻了难度。
短语体系的句法分析是在汉语数库(Chinese Penn Treebank:CTB)上开展的。CTB与英文Penn Treebank属于同一语法体系。汉语的短语结构句法分析方法在改进后的CTB的基础上进行,并进一步地通过EM算法获取树库中的规则来进行。由于语言上的差异,在CTB上的汉语句法分析水平与英文Penn Treebank上的分析结果还存在一定的差距。
1.2.3 基于依存关系的句法分析统计句法分析方法中需要解决的关键问题是如何发现和利用具有强消岐能力的语言特征姿势,同时保证语言知识的应用不会使模型的参数急剧膨胀而导致严重的数据稀疏问题。
在汉语的基本句型中,绝大多数句子的中心语是由动词或动词短语来担当的,而句子的中心语则支配着句子中的其他成分。通过对动词、名词和形容词等各种词的语义知识进行分析并加以分类,进而从中总结出中心词与各被支配成分之间的语义依存关系,利用这种依存关系来很好地解决上述问题。
1.2.4 基于语法功能匹配的句法分析方法一般的词性标注都是对单词或短语的词性进行标注。然后,通常情况下,一个词类是具有很多种语法功能的,并且,同一词类的不同词的语法功能的差异有可能非常大,而有的情况下,不同词类的词,其语法功能却有可能相同。基于语法功能匹配的汉语句法分析方法通过使用词和短语的语法功能集来代替现有的词类标记和短语标记,以语法功能匹配(Grammar Function Match:GFM)作为句法分析的基本方法来实现汉语的句法分析[5]。
1.2.5 基于句法语义特征的句法分析方法所谓语义特征分析法,是一种借用语义学分解语义特征的方法来解释在汉语语句中,某个格式为什么可以用这一类词语而不能用另一类词语的原因,其主要目的是解释歧义现象产生的原因。基于句法语义特征的句法分析方法通过在句法分析中加入语义信息,将句法分析与语义分析综合起来进行,从而解决句法分析中的歧义消解问题。
此外,变换分析法、配价分析法、语义指向分析法等也是比较典型的汉语句法分析方法。
1.3 汉语句法分析方法的演变过程及原因汉语句法分析的方法主要是通过国外语言学理论引进而来的,20余年来,汉语句法分析方法随着汉语语法研究的发展而不断发展。
汉语语言自然处理研究中最早的句法分析方法是上文所述的中心词分析法。这种分析法来源于西方的传统语法。后来,熙先生率先采用了变换分析法来进行汉语的句法分析。语义特征分析则是对变换分析法的改进和弥补。语义指向分析法也是随着人们开始对语义平面研究的重视而产生的一种句法分析方法,它根据句中某个成分或词语的语义指向来研究与它相关成分或词语之间的语义联系,从而将句法分析和语义分析结合起来。
相对于英语等分析语型的西方语言来说,汉语是一种孤立型的语言,两者的内部结构存在着很大的差异。从上述汉语句法分析的发展不难看出,汉语的句法分析方法的发展一直都受着西方语言学的影响。而简单地套用西方语言学的分析方法是不可取的。最近几十年来,我国的专家和学者开始将西方语言学与汉语语法研究相结合,走符合汉语自身特点的道路。
2总结
汉语自然语言处理中的句法分析是一种层次结构上的深层分析。汉语语言句法分析研究一直是汉语自然语言处理中的一个热点问题,出现了众多的分析方法。早期的句法分析器大多是简单的符号推理,然而,句法分析不是简单的符号推理,而是一种实体推理,汉语句法分析方法在汉语自身特有的孤立型特点和分析方法本身的局限性的影响下不断发展演变,使得汉语语言处理及汉语语法的研究正不断地深化,对汉语语言的分析方法也提出了更高的要求。总的来说,汉语语言的句法分析方法越来越精密、细致和科学。同时,语义分析和语法分析的结合也越来越紧密,这是汉语语法学朝着现代化科学化方向发展的必然趋势。
参考文献:
[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,(12):250.
[2]刘挺,马金山.汉语自动句法分析的理论与方法[J].当代语言学,2009,(02):100-112.
[3]袁里驰.基于依存关系的句法分析统计模型[J].中南大学学报(自然科学版),2009,(06):1630-1635.
[关键词] 数字出版 外文原著 自然语言处理 云平台 词汇提取 难句抽取
[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2014) 01-0079-05
1 引 言
随着电子计算机和互联网技术的发展, 以电子书(electronic book,ebook)为代表的数字出版物已经广泛兴起和发展起来,并由此形成了数字出版产业。数字出版平台和电子读物自身的数字化特点,使利用各种现代技术为读者提供包括娱乐和辅助学习功能在内的各种新型有效服务成为可能。多媒体技术与人工智能研究领域成果如自然语言处理等的应用,将使数字出版不仅带来信息载体、读物来源和阅读方式方面的变化,而且会使阅读过程中的学习方式、学习效果等都发生很多变化[1]。
与此同时,人类进入信息时代后,国际间的科学文化交流日益增多,了解学习不同国家的文化习俗、掌握世界新的科学技术发展动态成为个人与国家发展的前提。因此,外语的学习和使用比以往任何时代更显重要。现代社会很多人都需要阅读外文原版文学读物、学术专著和教材。但外文原版读物阅读的难点是刚开始时生词较多,有些句子不容易理解,容易产生阅读挫折,当所选读物的阅读难度和内容不合适时就更明显。对于专业文献,除了一般词汇问题外,由于强调语言的缜密性、准确性,经常会使用长句和大量专业术语,所以较一般文学读物更不容易理解。能否解决阅读中的词汇和难句障碍,是能否克服外文原版读物阅读初期的困难,进入熟练阅读过程的关键。虽然我国在外语教学方面投入很大,但效果并不理想,原因之一是许多读者没能真正进入外文原版文献的熟练阅读状态,未形成外语学习和使用实践相互促进、紧密结合的良性循环过程。缺乏应用实践,过多停留在应试和学习过程本身的外语学习严重影响了外语继续学习和终身学习,以及在实践中应用外语的动力。外文文献对扩大科研人员的研究视野、确定研究策略和方向、提高科研水平等发挥着非常重要的作用,但我国花费大量经费购买的外文文献数据库利用率较低,主要原因就是语言障碍。
目前数字出版技术、自然语言处理技术和云技术的发展,为人们改进或解决上述问题带来了可能。本文首先介绍在数字出版中应用自然语言处理技术,通过词汇抽取服务辅助外文阅读的问题,同时进一步提出在数字出版中提供难句抽取服务的建议,并对可行性进行分析及给出可供参考的抽取策略。
2 数字出版中的词汇抽取服务
在数字出版中提供词汇提取服务是把外文原著中读者可能不认识的生词提前抽取出来,给出解释,生成按词频分段,能按照页码和章节进行筛选的词汇表放到出版平台上供下载;对于专业外文书籍,不仅提供常规词汇表,还包括专业词汇表。在数字出版提供词汇抽取的最初理念由本文作者在2012年美国《出版研究季刊》中第一次提到[2],下面在介绍原理念的基础上,总结扩展分析如下。
2.1 提供词汇抽取服务有助于提高外文阅读效率
阅读外文原著一直被认为是学习外语的有效方法。认知语言学的研究表明,语言是在具体的社会环境中、在真实互动中学会的,因此强调学习者的自身参与,对于常用的表达要设法引起学习者的充分注意,让他们结合语境多加练习[3]。而文学原著阅读为学习者提供了语言习得的真实语境,可以与单词大量、密切接触,而且读上手之后不会令人心烦,因此在读者了解和学习文化知识、开发智力的同时,实现了学习单词、强化语言学习的目的。通过把词汇表下载到不同设备上显示,如电脑显示器、手机,或打印、抄写等,可以使读者在阅读过程中方便快捷地查找生词解释,如果能先以页码或章节为单位抄写生词,强化记忆,然后再阅读对应的页或章节原文,不仅容易理解原著内容,享受阅读乐趣,而且这个过程本身就是一种有效的外语学习途径。因为语言学者已经验证,要想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆新单词是较好的、也是最直接的办法[4-5]。外文原著的阅读有两种形式——纸质书阅读和电子书阅读,而词汇抽取服务可以使电子书和纸质书读者获得同样的帮助。
2.2 提供词汇抽取的技术基础
数字出版提供词汇抽取服务的主要技术基础是自然语言处理、云计算和数字出版。
首先,自然语言处理(Natural Language Processing,NLP)技术是用计算机来研究和处理自然语言的技术,始于20世纪40年代末50年代初,已成为当代计算机科学中一门重要的新型学科。词汇抽取和各种词典建设是自然语言处理技术的基础,属于成熟的技术。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易实现。对于汉语这样的表意文字,计算机自动分词的准确率还不能令人满意(大约90%)[6],影响了各种电子词典的建设速度,目前大规模地实现词汇抽取服务还有困难;但是,依靠在汉语自然语言处理技术方面几十年的研究成果和建设的各种资源,在一定范围内实施词汇抽取还是可以的。
其次,云计算是一种运算模式,能实现无处不在、便捷按需的网络访问,信息处理和存储在云数据中心完成。由于数字出版技术更新和管理费用等问题,数字出版采用云技术成为一种必然趋势[7]。数字出版提供词汇抽取服务需要云计算技术的原因在于词典建设是庞大和困难的工作。现代社会发展迅速,新词不断出现,词典的更新维护是一个重要课题,也是单个出版社无法承担的;由云平成词典建设、更新维护及词汇抽取软件的建设,以资源共享的形式提供给各出版社使用,则能够保证其有效管理和经济可行性。
再次,数字出版决定了著作原稿在各个阶段都是以电子文档形式存在的,对于任何一本原著,只需在编辑完成后把对应电子文档的格式转换成纯文本,然后利用基于自然语言处理技术设计的词汇抽取软件和电子词典即可完成词汇抽取工作。
2.3 词汇抽取策略
外文原著中的词汇量很大,专业著作或原版教材则不仅包括普通词汇,而且包含很多只能在专业词典中查到的专业术语。每个读者的外语水平也不同,遇到的生词差异很大,所以要有效地抽取符合个人情况的生词,并以方便学习的形式显示,需考虑采用合适的抽取策略。
2.3.1 普通词汇抽取
提供词汇抽取服务主要基于这样一个统计事实,即一本书包含很多词汇,但常用单词占了绝大部分。据弗兰西斯(Francis)和库切拉(Kucera)(1982)统计,在一百多万词的Brown语料库中,频率居前的1000单词就可以覆盖72%的语料库;频率居前的2000单词可以覆盖79.7%;频率居前的5000单词可以覆盖88.7%;频率居前的6000单词可以覆盖89.9%;而频率居前的15851个单词才覆盖97.8%[8]。教育心理学家、心理测量专家、语言学家和其他研究人员多年来一直使用文本样本中的单词频率统计作为估算单词难度的方法,其基本假设是文本中出现频率低的单词是难度大的单词[9]。一个读者的外语水平越高,所认识的难词、或者说低频词就越多。如果把一种语言的词汇按词频分段,语言水平高的读者生词少且趋于低频词段;外语水平较低的读者生词较多,词频段跨度较大。因此,数字出版平台可以通过采用不同的抽取策略提供不同频段的词汇表来满足不同外语水平读者的需要[10]。
2.3.2 专业术语抽取
专业外文文献中有很多专业术语,即某一学科领域所特有或专用的语汇,其词义常不为专业外读者所明白。尽管术语只占全文的 5%—10%,但它们却构成科技英语翻译与其他文体翻译的根本区别[11],需要通过专业词典解决专业术语的抽取问题。对于只涉及某一个专业的外文专著,可通过软件工具在原稿编辑完成后转换成纯文本格式,进入对应的专业词典,抽取出其中的专业术语,形成专业词汇表供读者下载。由于专业词汇也可分为常用高频词汇、核心专业词汇和低频词汇,所以,专业术语抽取时也可参考常规词汇按词频分段的方法,列出不同频段的专业词汇,读者可考虑先记住高频词汇,减少阅读困难。为了与常规词汇表相区别,每个专业术语后应添加专业标记[12]。
如果是涉及多门专业知识的综合类专著,则需要分别进入不同的专业词典进行专业术语抽取。由于专业词典一般存在一词多域多义和一词多域同义的现象,即同一词汇可能会出现在不同的专业词典中,在不同专业领域有不同的意义,也可能具有相同的意义[13]。所以,必要时需对从不同的专业词典中抽取出来的词汇进行合并,减少数据冗余,方便读者学习。
目前,对于数字出版中提供词汇抽取的探讨,还只限于文学原著或专业文献。实际上,通过考虑不同类型读物的特点,通过采取合适的抽取策略,各种类型的外文读物,包括报纸、杂志等都可以实现词汇提取,为提高外语学习效率发挥积极作用。
3 数字出版中的难句抽取服务
前面介绍了数字出版中提供词汇抽取服务的问题,实际上,还可以进一步深化这种服务,在提供词汇抽取服务的同时,提供难句抽取服务。
3.1 提供难句抽取服务的意义
外文阅读中最主要的困难是词汇问题,而句式结构复杂、成分关系多样、具有高度逻辑性的长难句是另一障碍,能否解决长难句的理解是提高阅读能力的另一个关键。对语篇整体结构、深层含义、作者态度等信息的理解非常重要,提高学生对于阅读材料的宏观把握能力已成为语言学家及语言教师们研究的重要课题之一,但是词汇和句子理解仍然是外语学习的基础。特别在学习一门外语的早期,如初、高中及至大学阶段,长难句理解都是学习中常见的困难[14-15]。如果长难句的理解能力提高,则外文阅读速度和质量将会得到极大提高。如果在读者阅读外文原著时,不仅限于生词,同时也能提前把读者不容易理解的难句抽取出来,给出解释和分析,生成能按页码、章节和字母顺序自由排序和筛选的难句表放到出版平台上供下载,则能帮助读者更好地理解这些难句。按页码、章节自由筛选,能迅速恢复其上下文语境,不仅对语言学习本身有利,同时有助于更好地理解原著。读者可以选择喜爱的章节里的生词和难句,经过有意识分析和学习,然后对那部分更好地阅读理解。
此外,在各种类别的外语日常阅读训练中,如果能集中选择一些学习者熟悉内容且感兴趣的、具有代表性的长难句,如选择一些影响较大的文学名著中的长难句进行分析和强化翻译训练,掌握规律就可以事半功倍。所以外文数字出版中提供难句抽取服务具有积极的意义。
3.2 提供难句抽取服务的可行性分析
虽然外文出版中的难句抽取服务对外语学习有积极的意义,但目前技术条件下还存在一些具体困难,需要通过某些特殊方法,采取合适策略来解决。
3.2.1 自动化难句抽取中的困难
在数字出版中实现外文难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译。这些在目前都还存在一些困难。
首先,要在外文数字出版中把难句抽取出来并通过机器翻译自动给出翻译结果,不仅涉及词长、词频和句长的计算,还需要对句子结构等进行多方面的识别和判定,因此,需要对生语料(完成编辑后的书籍原稿文档)进行预处理,即进行词汇、句法、语义等的分析,添加相应标注,把生语料变成熟语料。虽然语料库的自动标注技术已经研究多年,有一些效果较好的语料库自动标注工具软件,但该过程一般仍然需要人工干预校正。语料库标注是一项代价昂贵的工作[16],需要大量人力、物力和资金,所以在目前的技术条件下,对出版的外文读物生语料库进行标注还是不现实的。
其次, 除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。目前为止,对语篇难度(文本难度)进行的研究很多,但多数都是基于文本难度的宏观度量,对微观的诸如语篇的基本组成部分——句子难度度量研究的较少[17],缺乏精确高效的难句抽取算法[18]。
第三,对于抽取出来的难句,需要用机器翻译方法给出翻译,而目前的机器翻译水平无法保证难句翻译的准确性。
3.2.2 参考传统文本难度算法及通过人工干预实现难句提取
首先,为了解决语篇预处理和缺乏准确高效的难句识别和抽取算法等问题,可以考虑在参考传统的确定文本难度算法的基础上,在纯文本格式文件中实现自动难句提取,这样就可以避开语篇预处理问题。文本难度(也称为易读性),是指文本易于阅读和理解的程度和性质。易读性依赖于多种因素, 主要包括文章的句子平均长度、生词数和语法复杂度。英文易读性的研究始于1920年代,研究者通过不懈的努力开发出了上百个易读性公式[19]。通常易读性公式使用文本的词汇难度和句法难度来判定文本难度,词汇难度以词频和词长来衡量,句子难度以句子的长度来衡量。此外,近年来统计语言模型被引入易读性研究中[20],但是在对语料库进行预处理的基础上进行的,这里无法采用。而传统的文本难度计算中的词汇难度、词频和词长计算都可以在纯文本格式文件中完成。由云平台提供基于传统文本难度算法的难句抽取软件工具比较容易,虽然不能达到完全的抽取率,但大部分难句可提取出来。
其次,在基于传统文本难度算法进行难句提取时,应该注意成语和俗语问题。难句一般比较长,但长句不一定是难句;而含有成语和俗语的句子,有时虽然短,却难以理解。因此,可从两个方面考虑:首先是句长和句子中的词频因素。句子越长、其中词汇难度越大(词长、词频低),则句子是难句的可能性越大。其次是句中是否包含成语和俗语因素。在文学类读物中,成语和俗语较多;在专业读物中,也可能用到成语和俗语,但非常少。随着自然语言处理技术和语料库技术的发展,成语或俗语电子词典的建立日趋完善,鉴于成语和俗语对读者带来的不便,在对文学读物原著进行难句抽取时,可增加对成语和俗语因素的考虑。目前,英语是国际通用语言,对文本难度研究最成熟的也是英语,因而可尝试首先在英文读物中实现难句的自动提取。
第三,对于通过文本难度算法提取出来的难句,由于不能通过机器翻译方法给出准确的翻译结果和句子分析,可根据读物特点,从减少人力、物力需求的角度选择不同的人工翻译策略。对于文学作品中抽取出来的难句,可通过读者论坛等方法讨论解决;原版教材中的难句可由授课教师或教材引进部门组织专家翻译放到服务器上提供给学生,同时可参考通过双语平行语料库的信息服务平台等辅助完成翻译[21]。
第四,从语言水平级别划分,外文读物有很多种类,难句抽取应注意从读物本身的文本难度出发来设计难句抽取算法,以满足不同语言水平读者群的需求。
4 结 语
人类已经进入数字出版时代,自然语言处理技术在云平台的支持下将能为人们的语言学习提供多种服务。本文仅介绍和探讨了最基础的词汇和难句抽取服务,且主要是从理念上加以讨论,具体实施还需要出版社、语言学家和软件技术人员的共同努力,并在实践中持续改善。需要注意的是,虽然词汇和难句提取能对读者的阅读提供帮助,但内容和文本难度仍然是外文原著阅读能否成功的重要因素,出版社平台应提供外文书籍的内容和阅读难度分级信息。实践证明,外文原著阅读可以全方位地提高阅读者的外语水平,教师许连赞 2001年通过让学生阅读原著的方法使学生的口语能力受到了外交官的好评[22],所以,我国数字出版如能提供外文原著的词汇和难句抽取服务,将会对我国外语水平的整体提高产生积极影响。
注 释
[1][2][10]Jilan Sun. Popularizing vocabulary extraction service on digital publishing platforms[J]. Publishing Research Quarterly, 2012,28:65-72. DOI 10.1007/s12109-012-9255-6
[3]蔡金亭,朱立霞. 认知语言学角度的二语习得研究:观点、现状与展望[J]. 外语研究,2010(1):1-7
[4]李庆燊. 论英语词汇教学中的误区[J]. 教育与职业,2010(2): 176-177
[5]王淼. 中初水平学习者在外语学习环境下的偶遇词汇学习[D]. 上海:上海外国语大学,2004
[6]李兴珊,刘萍萍,马国杰. 中文阅读中词切分的认知机理述评[J]. 心理学进展,2011,19(4):459-470
[7]Ted Hill. The Inevitable Shift to Cloud-Based Book Publishing: The Next Step in the Digital Transformation of Book Publishing May be Closer than You Think[J].Publishing Research Quarterly,2012,28:1-7.DOI 10.1007/s12109-011-9249-9
[8]Francis WN,Kucera H. Frequency analysis of English usage: Lex-icon and grammar[M]. Boston: Houghton Mifflin,1982
[9]Breland,H. M. word frequency and word difficulty: A comparison of counts on four corpora[J]. Psychological Science,1996(2):96-99
[11]蔡子亮. 术语标准化与信息技术[J]. 英语科技术语的翻译,2005(2):31-32
[12]孙继兰. 外文原版教材出版提供词汇抽取服务可行性分析[J]. 科技与出版,2013(4):54-57
[13]黄河燕,张克亮,张孝飞. 基于本体的专业机器翻译术语词典研究[J].中文信息学报,2007,21(1): 17-22
[14]刘婷婷. 云南省高职高专非英语专业学生英语阅读理解长难句的障碍研究及解决方法[J].赤峰学院学报(自然科学版),2013,29(1,上):251-253
[15]何正胤. 高中英语阅读教学策略探析[J]. 湘潭师范学院学报(社会科学版),2006,28(2):179-180
[16]常宝宝,俞士汶. 语料库技术及其应用[J]. 外语研究,2009(5):43-51
[17]江少敏. 句子难度度量研究[D]. 厦门:厦门大学,2009
[18]Kim,Young-Bum; Kim,Youngjo; Kim,Yu-Seop. Sentence difficulty analysis with local feature space and global distributional difference. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C].v 7425 LNCS,p 716-722,2012,Convergence and Hybrid Information Technology - 6th International Conference,ICHIT 2012,Proceedings.
[19]章辞. 英文易读性研究: 回顾与反思[J]. 湖南工程学院学报,2010,20(3):47-51
[20]邢富坤,程东元. 基于统计语言模型的英语易读性研究[J]. 外国语学院学报,2010,33 (6): 19-24
[21]王传英. 基于双语平行语料库的信息服务平台建设[J]. 图书馆工作与研究,2010(12):79-82