首页 > 文章中心 > 网络新词

网络新词

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇网络新词范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

网络新词

网络新词范文第1篇

关键词:网络流行语;新词;构词法

[中图分类号]H030

[文献标识码]A

[文章编号]1006-2831(2013)08-0171-3 doi:10.3969/j.issn.1006-2831.2013.03.043

1 . 引言

语言是社会生活的一面镜子,反映了时代的变化,所以网络用语也可以说是当前“网络时代”的反映,与现代人紧张忙碌的生活节奏和生活观念密切相关。随着网络的飞速发展,网络用语有更加流行的趋势,也越来越反映社会生活。网民的创造力是无穷的,在网络的世界中,逐渐形成了自己特有的新词。只有掌握了英语新词的构词规律,才能在网络的世界里游刃有余。

2 . 网络用语的产生及特点

美国学者布赖特(Pride:1964)在他的《社会语言学》一书中提出了“语言和社会结构共变” 理论。语言是随着社会结构的变化而变化的,新的词语的出现也是社会结构和生活变化的产物。网络的普及对社会生活的各个方面产生深远影响,从而使得网络用语应运而生。

语言是反映社会的镜子,网络用语更是人们真实生活的一个反映。网络用语有着很强的时效性,具有一定的风向标的作用。 网络用语的自由性和多样性折射着一个社会经济发展的轨迹。它独特新颖、新奇幽默、富于情趣和个性化使得网络流行语具有了简洁明了、易记易传;便于理解和沟通、标新立异、反讽隐喻、富于张力的特点。网络用语具有娱乐性,其传播范围之广,速度之快,使得言论自由得到充分发挥,一定程度上也折射出社会情绪。

3 . 英语新词的定义和语义特征

英语新词的研究一直都是语言学家的兴趣所在。对于英语新词的定义,语言学家一直争论不休。Bussman主编的Routledge Dictionary of Language and Linguistics对英语新词作如下定义:Newly formed linguistic expression (word or phrase) that is recognized by at least part if not all of a language community as the way to denote a new object or state of affairs, be it in technology, industry, politics, culture or science(2000: 324). 英语新词指的是某一段时期内或自某一个时间点以来首次出现的词,往往是出于对新事物进行描写的需要而出现的词,也指词典上还没有收录的词,如很多词典后面增补的词语就是新词(汪学磊,2008)。《韦氏新世界词典》对新词给出的定义为:(1)新词语或已有词语衍生出的新义;(2)新词的创造及使用,旧词新义的形成及使用(冯静、臧哲慧,2012)。也许很难对新词进行准确的界定。然而,新词的定义可以从以下三种必需条件来描述:(1)该词必须是最近出现的,一般来说,时间应限制在最近几年或最近几十年;(2)单词必须被吸收入字典;(3)现有的词添加了新的含义或其意义因为社会的发展,改变了其传统意义。

英语新词的产生是为了适应社会的发展,反映了社会经济生活的变化,有以下四个语义特征:(1)新词具有宣传、多源、多意和语义变异的特点;(2)有变得更加流行的趋势:英语新词的数量剧增,来源多元化,有许多国家如英国、美国、澳大利亚、加拿大和新西兰把英语作为他们的母语。印度和新加坡等国家把英语作为第二语言。英语是世界语言,全球各地都在学习英语,英语的使用范围和影响力可见一斑。每个国家都为增加英语新词做出了自己的贡献。(3)英语新词呈现系列化的趋势。例如e- 就是指电子的,网络的。e-shopping:网上购物;e-market:电子市场;e-cash:电子现金;e-revenue:电子商务收入;e-business:网上交易;e-service:电子服务等。(4)英语新词变得越来越简单。例如dbase:数据库;online DJs:网络音乐主持人;pgdn:page down(浏览网页)下翻。

4 . 英语新词产生的途径

英语灵活多变的构词方式为新词创造提供了便利。大多数英语新词并非是凭空生造出来的,而是将原有的词或词素以意义为中心进行重新组合,将近3/4的英语新词是通过组合现有语言成分的方式构成的(杨彬,2008)。严格意义上讲,词的形成指词的形成过程。可以进一步分为两个次类:合成类和派生类。这是英语中最常见和构成能力最强的两类。

4 . 1 合成词

合成词(compound)这个术语指那些由两个或两个以上的词素构成的词,或是指由两个单独的词连接起来构成一个新的形式的构词方法(胡壮麟,2007)。

我们从以下三个方面:拼写,语音和语义来分析合成词。

4.1.1 拼写方面

拼写方面,合成词有三种拼写方式:(1)固定式(可以写成一个词)cybernaut(信息空间旅行者,网迷)(2)(用连字符)连接式pop-up ad登陆某网页自动弹出的广告(3)分离式(两部分间有一个空格)online galaxy:网络一族。具体用哪一种没有硬性要求,只是有些是约定俗成的,需要特殊对待,这与人的拼写习惯有很大关系。

网络新词范文第2篇

关键词:网络新词新语 概念 来源 特点 翻译方法

一、引言

语言是社会生活的一面镜子,而新词新语则是反映社会生活的放大镜,显微镜。在新疆少数民族地区研究新词新语能更好地发现民族语言规则、思维方式、生活习惯的异同。能更好地拉近民族的距离,让他们能顺利地交流,有助于新疆的民族团结。

二、网络新词新语概述

1. 概念

新词新语,是一个相对概念,既包括某一时段新产生的词语,也包括旧词的新义和新用法;前一年出现过的后一年依然流行,并在不同的语境赋予新的意义,这都叫新词新语。

2.来源

本文的新词新语来源于国家语言资源监测语料库。语料库中的网络新词新语主要来源于论坛发帖、娱乐话题、新闻事件、微博、动漫、电视节目等。本文具体分析的语料是2015年媒体关注的十大榜单之首:我也是醉了。

3.特点

网络新词新语最大的特点就是时效性,因为它流行于某个时期、某个时段,而过了这个时期和时段,就有新的词语替代它,所以它的“新”体现出时效性。其次是简洁性,因为很多网络新词新语形式简单,内涵丰富,是潮流和时尚的代名词,要知道来源和典故,并置于具体的语境才能看出,这也是人们喜欢使用的很重要的原因之一。再者是它的口语性,因为多使用口语的表达方式,不遵从严谨的书面语,打破固定的语法规则,这也是词汇语言学的重要研究课题之一。最后就是它的传播性,因为前几种的特点,它在不同地区、阶层、年龄段之间传播的十分迅速,这也是网络新词新语广泛用于社会生活,让人们进行交流的重要因素。

三、翻译方法探究

在以往的研究中我们发现网络新词新语的分布规律大致是:年轻群体大于年长群体,城镇群体大于农村群体。在撰写本文的同时,笔者也对本校民族学生使用网络新词新语的情况进行了调查。调查得出:汉族学生使用频率大于维族学生,低年级的学生使用频率大于高年级的学生,学生的使用频率大于老师的使用频率。

探讨翻译网络新词新语的方法。本文以2015媒体关注的十大榜单之首:“我也是醉了” 为例进行分析。在维吾尔族人的认知中,这句话只有两种意思:一是指真的喝醉酒了,翻译为haraq it∫ip mεs bolu∫;二是指为之陶醉,欣赏,翻译为mεstxu∫ bolu∫。而现在我们常用的却有以下三种意思:

1.假借醉了、不清醒的状态来表示不能理解对方的想法,实则表达对对方的不可理喻而表现出的不满。

(1)哥:“他说我不照顾孩子,好吧我也是醉了。”aka:u meni balia qarimajdu dedi,boptu mεndimu amal joq.

本句的翻译方法为意译法,翻译技巧为转换法。将“醉了”译为“amal joq”。

(2)四娘:“韩爷为何最近不来,难道说爷又醉了吗?”tθtint∫i a?t∫a εrkilεp turup :xεn begim jeqindin beri nemi∫qa kεlmεjdu,εd?ba begim kili∫ni xalimamdu?

本句的翻译方法为意译法,翻译技巧为转换法。将“醉了”译为“εd?ba begim kili∫ni xalimamdu”。

2.表现对事物、状态、行为的无力感,进而表达出一种无奈、无法交流的心理感受。

(1)她穿着比基尼那也叫艳照?看来我也真是醉了。uni? bikini kiji∫mu rε?lik syrεt bolsa,buni??a mεn rastinla amalsizimεn。

本句的翻译方法为意译法,翻译技巧为转换法。将“醉了”译为“amalsizimεn”。

(2)我跟你辩论一个身高一米四的、不男不女的、思想肮脏的小个子的人这么久,我也真的是醉了。Boji bir metir qiriq kelidi?an ,idijisi paskina,rεzil qizmu εmεs,o?ulmu εmεs bir adεm,meni? sεn bilεn ∫unt∫ε uzun tirkε∫kinimni kimmu ojlisun,mεn rastinla θzumgε“qol qojdum”。

本句的翻译方法为意译法,翻译技巧为转换法。将“醉了”译为“qol qojdum”。

3.对人物或事物的轻蔑和鄙视,表达出不屑于对其进行回应和反击。

(1)他拍的那也叫电影?我也真是醉了。Uni? i∫ligimu kino bolamdu?boldi mεn uni? bilεn tala∫majmεn。

本句的翻译方法为意译法,翻译技巧为引申法。将“醉了”译为“mεn uni? bilεn tala∫majmεn”。

(2)她的脸太美太耀眼,我想我也是真的醉了。uni? t∫iraji nahajiti t∫irajliq hεm d?εlip qilarliq,biraq mεn undaq dεp qarimajmεn。

本句的翻译方法为意译法,翻译技巧为引申法。将“醉了”译为“qarimajmεn”。

上述所例举的例子翻译成维语时采用了意译法,翻译技巧有转换法和引申法。因为维语中没有对应的词语和句子,通过对句子上下文和语境的体会,将原文换一种说法进行表达,以便读者能够理解。除此之外2015年媒体关注的网络新词新语的十大榜单还有:“有钱就是任性、主要看气质、这是什么鬼、cp、小鲜肉、脑洞大开、土豪、买买买、约吗。”如果不是时代赋予了网络新词新语另外的含义,如果不是了解网络流行语言的人,用这样的话语去和维吾尔族交流,肯定会产生语言障碍甚至是笑话和矛盾。因为民族有着不同的生活习惯、思维方式、语言艺术,没有办法去用具有强烈时代色彩的词句进行交流和沟通。网络新词新语是我们生活的一部分,而且作为年轻、走在潮流前沿的一代,使用网络新词新语成为了必然,所以为了尽可能消除民族的交流障碍,我们要努力探讨出适合网络新词新语的翻译方法。在翻译中因为网络新词新语具有实时性、时代性等特点,翻译起来十分困难,所以许多从事翻译的工作者也不愿多去涉猎。但是虽然它不规范,却是老百姓最常用、最反映社会现实和人民生活需求的语言载体。而且解决网络新词新语的翻译问题,不光是对民族有益,更是对解决青少年和中老年人群的“代沟”问题有重要作用。在进行翻译工作时,要让翻译者了解这些词句本身的语法规则,结合具体语境,联系使用现状,找出对应的词句。翻译时具体要注意以下几点:1.尽量避免对号入座式的翻译,注意选择合适的翻译方法如意译法和等值互借法等;2.翻译时要注意其生动性和艺术性,不但要忠于原意,而且还能结合这些新词新语的音、形、意以及具体语境等几个方面表现出来的突出特征使译文尽量做到生动活泼,富有艺术性;3.网络新词新语的翻译都是在交际过程中为了应付某个场合即时翻译的,没有经过深思熟虑,这些翻译会出现些许的偏离,还有就是随着时间的变化,新词新语的内涵随时发生变化,所以翻译时要结合当时的特点,及时修正过去译文中的不妥之处,重新探索新的适合的翻译方法;4.对于政治色彩浓厚的网络新词新语要尽量尊重已有的习惯译法,这样可以避免理解上的混乱,而且要有政治的高度和素养,以严谨的态度对待;5.以不同的文化视角做到灵活翻译。网络新词新语来源于政治、经济、文化、生活。对于来源不同的新词新语要采用不同的翻译方法,尤其要区分来自本民族和外来语的两种新词新语的翻译,要以不同的文化角度、思维习惯和生活方式来灵活翻译这些网络新词新语,对外来词的翻译一定要根据其来源地的文化背景和语言习惯、语法规则来翻译。

由于语言经济的原则,越来越多的人使用网络新词新语,简洁固然是网络新词的优点,但我们一定要区分现实和网络生活,如果在日常的书本上或语言中不分清语境、不理解语义就盲目使用这些文字,不仅使汉字乱了套,也会对双语学习者造成一些不必要的困扰。为了让民族融洽和谐的交流,为了将幽默、愉快、时尚的生活方式运用到生活中,理解并熟练运用网络新词是走上新时代的必经之路。

网络新词范文第3篇

在这个信息技术迅猛发展的时代,互联网已成为了人们生活当中必不可少的一部分,与此同时它也衍生出了许多丰富多彩的网络文化,特别是一些独特个性的网络语言和网络词汇。这些网络新词代表着当代年轻人的一种生活方式,它直接折射出了社会上的某一现象或时代特征。因此为了更加有效的做好对外宣传工作,译者需要充分了解网络新词的相关背景,从而准确的将网络新词进行翻译。

网络新词形成的原因及其特点

随着科学的发展和历史的进步,我们生活的方方面面都在不断的发生变化,互联网如今成为了人们生活当中重要的组成部分,人们在网络的平台上进行交流,当一个新词出现时,便会以极快的速度传播到各处。在这样的背景下,许多新的网络词语应运而生,很快被大家发现并加以利用。互联网是一个思想相对开放的地方,任何人都可以借助网络进行创作,这就大大激发了民众的创作热情,使得一大批诙谐幽默,形象生动的网络新词涌现了出来。与此同时,为了迎合观众的需求,许多影视作品也会力求新鲜而产生各种新词,尤其是在每年的春晚之后就会诞生一些有特色的新词,这些词汇一旦得到网友的热捧,就会立刻得到广泛关注。

网络新词所代表的是当下时代的文化和精神,它反映了社会的热点话题,因此它所表达的内容往往新颖独特。例如“房奴(mortgage slave)”,“被就业(to be alleged to have found jobs)”以及“酒后代驾(designated driver)”等就都反映了当今社会的生活态度。互联网为民众提供了一个充分发挥想象力和创造力的自由空间,这就使得网络上的新词常常既生动幽默又富有内涵。拿“打酱油(none of my business)”这个词为例子,传统意义上对这个词的解释为自己拿着瓶子到商店里买酱油,而在网络上谈到与自己无关的话题时,就可以用此话回帖,相当于在告诉别人你只是一个路人,一切事情与你无关。所以译者在进行翻译时,一定要准确的把握源语的意图,有效的运用各种翻译技巧,从而使目的语读者能够充分的了解这些网络新词的涵义和特点。

网络新词的翻译方法

为了更好向外界反映中国社会现阶段的变化与发展,对外宣传的翻译工作就显得极其重要,特别是新词的翻译更是占着举足轻重的地位。网络新词的出现,极大的丰富了语言的表现力,它反映着当今时代的热门话题及时代精神。因此在翻译过程中,最重要的就是要形象的向目的语读者传达源语的信息及内在意义。

翻译时,译者可逐字将译文与原文进行对照翻译,这样既保持了形式的一致,又将源语的意义完整的呈现给了目的语读者。例如“剩女”就译为了“old spinster”,“剩女”在中文中指的是一群在婚姻上得不到理想归宿的大龄女青年,而“spinster”这个词就恰恰有老姑娘的意思。还有“团购(group buying)”,“麦霸(Mic king)”“人肉搜索(human flesh research)”以及“钻石王老五(diamond bachelor)”也都使用了这样的翻译技巧。在网络新词翻译中,这样的翻译方法数不胜数,但有时也会出现无法逐字翻译的现象,比如“二奶(kept woman)”就不能被译为“second milk”,这样的翻译只会让外国人看着一头雾水,因此在翻译过程中译者要学会根据具体情况灵活的变换翻译策略。

翻译的首要目的就是用另一种语言准确的再现源语的信息,当逐字翻译无法将源语的意义再现出来时,译者就可以运用意译的方法进行翻译,也就是说译者不需要拘泥于源语的表达形式和句法结构,而只要按照符合译入语表达习惯的形式把源语的意义表现出来即可。例如“神马都是浮云”就被译为了“all is vanity”,原句中的“神马”是“什么”的谐音,这句话的意思是说什么都不值得一提,什么都无所谓。因此译者在面对此类翻译时,就需要先理解源语的意义,然后再按照其想表达的意思进行翻译。这样的翻译方法既能够帮助目的语读者轻松的理解源语信息,又减少了由于文化差异所造成的误解。

由于文化差异的存在,翻译时难免会遇到语言空缺的现象,尤其是一些网络新词,这些词语有时来自于网民的自由创作,因此他们在词汇和语法上并不是完全按照正常的思维进行组词,这样一来译者在翻译过程中就很难找到与之相对应的翻译。在这种情况下译者就可以进行创造性翻译。例如“给力”这个词就可以译为“gelivable”,相对应的“不给力”就能译为“ungelivable”。其实在以往的翻译过程中也经常有创译的存在,如“好久不见”就逐渐被人们译为了“long time no see”,虽然其在语法上是错误的,但经过长期的应用,也逐渐被人们所接受。

总结

网络新词范文第4篇

摘要:本文主要以网络新词“给力”为考察对象,试从它的产生,用法及英译角度分析该词,以探求该词对未来中英新词发展的启示和导向作用。

关键词:网络新词 给力

一、给力的产生

用百度关键词检索“给力”的使用条目,已达402 万条。检索“太给力了”,网页篇目有18 万篇,“很给力”有90.6 万篇,“不给力”有194 万篇。可见,“给力”已经成为一个网络流行词。 “给力”一词甚至还登上2010 年11 月10 日《人民日报》头版头条新闻标题――《江苏给力“文化强省”》。但“给力”一词的出处,却众说纷纭,莫衷一是。

暨南大学黄珊珊(2010)提到,“给力”本是东北方言词,但平时很少被用到。相反,意思与其不相上下的“给劲(儿)”更为常见。由吉林文史出版社出版的《东北方言词典》就收录了“给劲”而没有收录“给力”,该词典只收录了一个意思,即“使劲,起(好)作用”。搜索北大CCL 现代汉语语料库,我们会发现,里面没有含 “给力”的条例,而“给劲”(包括“给劲儿”)有8 个。

也有说“给力”一词是从闽南话演变过来的。在闽南漳州话中,“给”的读音和“自给自足”里的“给”读音相同,读作[kik] ,不是读为普通话的“gěi ”,“力”也不是读为“lì”,“给力”的闽南话是“激力”,读为 [kik-làt] 。闽南话的“莫”读为[bok],表示否定的意思。闽南漳州话“莫激力”意思为没有使劲。“不给力”即由“激力”、“莫激力”转变而来的,来自于闽南话,说更早点则是来自古中原的河洛话,非新词。

但据我们查阅的《汉语方言大词典》及相关方言资料发现, 这类词典工具书里毕竟并未收录“ 给力” 这个词。所以正如北京语言大学汉语学院的崔健教授所说:“‘给力’ 一词在中国北方和南方的语言体系中都没有‘背景’。”(程金玲2011)

郑欣荣2010年12月18日在《长江日报》头版报道中南财经政法大学新闻与文化传播学院讲师高海波博士的一项发现,据高博士考证,“给力”是中国古代官府给官员支付薪酬的一种方式,即以力役的形式向官员支付薪俸。具体而言,就是朝廷根据官员的等级,拨给数量不等的劳役,为官员免费耕种田地或提供家政服务。在刘国新编撰的由中国社会出版社出版的《中国政治制度辞典》(1990年版)中,就有“职官给力制度”词条。高博士介绍说,秦汉以来,历代朝廷都制定法律规定,百姓除纳粮外,成年男子必须为朝廷服力役和兵役。服力役的百姓,有“力”、“事力”、“吏力”、“力人”等不同叫法。所以朝廷向官员供给劳役就叫做“给力”。

无论是方言借鉴一说,还是复古一说,网络的作用都不容忽视。“给力”被频繁使用和迅速传播主要源于网络上一个名叫 “cucn201”的配音组合。这个组合的四个成员都是中国传媒大学06级的本科生。今年六月份的时候,他们将《搞笑漫画日和》(日本漫画家曾田幸助于2002 年创作的漫画)中的六集进行了中文配音。在这六集的视频中,有一个场景是这样的:师徒三人终于到达天竺,却发现所谓天竺只有面小旗子,上书“天竺”二字。悟空大呼:“不给力啊!”自此,“不给力”不胫而走。由于深受广大青年网民认可和喜爱,被越来越多的人模仿使用。

二、给力的用法及英译

2.1给力的用法

给力既可以作动词用,也可以作形容词用。作为动词使用时一般为动宾短语,相当于给予力量。“不给力”就是它的字面本意,形容和自己预想的目标相差甚远。而“给力”自然就是有帮助,有作用,给面子的意思了。比如:西安市韦郭路上宣传牌上“乘势 破题 给力 提速 崛起 实施追赶战略 谋求跨越发展 ――西安市长安区政府宣

作为形容词,意思类似于 “很好”、“牛”、“很带劲”、“酷”、“棒”、“很有意思”等。常作感叹词。另外,在实际使用中也可加一个否定前缀,如“不给力”,表示某个事件或某个人带给自己一种很失望的感觉。例如,今年春晚,继小品《美好时代》之后,朱军问大家“刚才的小品给力吗?"台下一片欢呼。

2.2给力的英译

随着给力的日益流行,它已经被别出心裁的网友造出一个新的英文单词――ungelivable(不给力)。现在已经被有道,金山词霸等网络词典收录。“un-”在英语中表示否定,可翻译为“不”;“geli”为“给力”的汉语拼音音译,后缀“-able”在英语中表示单词为形容词。这一英文新词充分体现了中西合璧的造词逻辑。从ungelivable到gelivable,美国《纽约时报》如此定义“给力”:该词字面意义为“giving power(给予力量)”,中国网友把它当形容词用,表达“cool(酷)、awesome(真棒)、exciting(爽)”等意思。国外的网络词典给了如下定义:

Gelivable adj. A Chinglish word, be able to excite, make someone feel cheerful. ge- in Chinese means give, li- means power, strength or energy.(形容词。中国式英语,使人兴奋的意思,“ge”是中文“给”的意思,“li”是力量、能量。)

Ungelivable adj.Coined by the Chinese internet users recently to describe the feeling that something is not as good as expected and not giving you the "YES! THIS IS IT!" moment. ( 形容词。中国网民造的词语,用来描述事情并不像期待那样好。)

2.3英译的形成

根据语言学家的总结,英语新词的形成方式主要包括:传统的六种构词法“复合法,缩略法,拼缀法,派生法,转化法,逆成法”;旧词获得新意;类推法;外来词的借用等。(何艳群,2008)不同于以往构词方式的是,“gelivable” 前半部分是纯粹的音译“geli”,后半部分则为典型的英语后缀“-able”,用英语中惯用的这一后缀表示该词的形容词词性, 中间因为音节需要加一辅音字母“v”,像“unbelievable”一样,读起来来朗朗上口,十足一个地道的英文单词,就连以英语为母语的外国朋友也不仅感叹一番。

2.4英译的局限性

可见,给力的英译主要是以其作为形容词来界定该词词性的。类似于汉语中一词多性的特点,虽然英语中也不乏这样的形容词动用,比如, articulate 首先作形容词表示“分明的,可听懂的”,作为动词表示“阐明”。但对于“gelivable”而言,这个带有典型形容词后缀“-able”的英译很难被以英语为母语的人们当做动词来用,显而易见,给力作为动词的汉语意思在该英译中丢失贻尽了。

三、总 结

类似于世界语,ungelivable和gelivable吸收了两个语系共同性的合理因素,更加简约和中性。该英译一方面显示了语言作为文化传播媒介的创新多变,另一方面也密切了中英文化的关联。通过以上对“给力”的产生,用法,及英译的分析讨论,笔者认为“给力”一词必会相当给力地给缩短两种语言之间的差距,为更多汉英通用的新词汇的出现打开一扇新的窗口。

参考文献:

[1]程金玲. 给力 “给力”[J]. 十堰职业技术学院学报 2011.2

[2]何艳群. 英语新词产生的社会背景及主要形成方式 [J]. 浙江万里学院学报 2008.1

[3]马思周, 姜光辉. 东北方言词典[M]. 长春:吉林文史出版社,1991.

[4]黄珊珊. 小议流行词“给力” [J]. 电影评界,2010.

[5]徐宝华,宫田一郎.汉语方言大词典[K] .中华书局, 1999.

网络新词范文第5篇

关键词 网络新词 质子串分解 互信息 F-MI

中图分类号:TP391.1 文献标识码:A

0引言

新词是未登录词的一种,即新词也是未收入在词典中的词,但它和未登录词还是有所不同。它指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语或者是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形,新词义或者新用法的词汇。

1新词获取系统流程

新词识别的信息流采集于门户网站下载的网页,组建语料库,对语料进行预处理,建立Pat Tree索引 ,然后进行术语抽取。其中术语抽取的方法采用基于卡方检验的质子串分解方法。

2网络新词识别方法

该模块是系统的核心模块。首先,对候选术语集合进行C-value参数计算,对于C-value小于给定阈值的候选术语将被从列表中删除;然后对表中的候选术语进行字符串分解,并根据分解结果计算所有候选串的F-MI参数值;最后,根据给定的F-MI阈值,淘汰掉错误的候选术语,并输出最终的术语列表。

2.1质子串分解

我们把词简单地分为两类,一类是不可再分解为更小的词汇单元的词汇,这类词我们称为质词,如“珠穆朗玛”一词,任何子串(“珠穆朗”或“朗玛”等)都不是词;另一类是由质词组合而成的词汇,这类词我们称为合词,如“社会保障体系”则是由三个质词(“社会”、“保障”和“体系”)组合而成的。对于串S,除了单字串和质串以外,都是合串,单字既不是质串,也不是合串。对于合串S,如果S可以串分解为S= S1 S2 S3…Sm,其中Si可以为质串或单字,但必须至少有一个是质串,则称S=S1 S2 S3…S m是S的一种质子串分解。

2.2串分解的F-MI

本文采用改进的互信息参数F-MI来评估一个串成为术语的可能性。参数F-MI的定义分两种:串分解的F-MI值和串的F-MI值,其中串的F-MI值的定义以串分解的F-MI为基础。

对于串S及S的一种分解S= S1 S2 S3…Sm,串分解的F-MI的计算公式为:

S表示待计算的串,F(S)表示S在文档集中出现的次数,T(S)表示S所有父串在文档集中出现的次数,而C(S)表示S所有父串的个数。

参数C-value的目标是为了提高网状术语的抽取效果。由公式3.2可知,对于极大串S,C-value(S)=F(S);而对于非极大串S,C-value参数则综合考虑了S及其所有父串之间的网状关系,例如对于极大串S1=“珠穆朗玛”及其子串S2=“珠穆朗”,如果F(S1)=F(S2),则C-value(S1)=F(S1),而C-value(S2)=0。

而参数的定义为:

其中,i表示表中的行变量,j表示列变量,Oi,j表示表单元(i,j)的观测值,Ei,j表示期望值。这里,我们取2康谋砝醇扑悖绫所示。

表2 单词质量和监督出现次数之间的依赖关系的2康谋

检验从理论上讲适用于各种大小的表,但是对于2康谋淼谋泶镄问较喽约虻ィ

=(N是语料库中二元对的总数)

2.3串的F-MI

对某一质串S= C1 C2 C3… Cm(其中Ci均为单字),质串F-MI的计算公式为:

其中,本文定义单字的C-value(C)=F(C),如质串“珠穆朗玛”的F-MI值为:

而对某一合串S,如果S的所有质子串分解为:

即共有n种分解方式,根据公式3.1,分别计算每一种串分解的F-MI值(f1,f2,f3,…,fn),则合串S的F-MI的定义为:

F-MI(S)=Max(f1,f2,f3,…,fn) (3.5)

本文术语抽取的重点是合串的抽取。而在抽取到的62190个合串中,只有4531个被Hownet收录,92%以上的合串未被收录,其原因是这些合串大部分并不属于严格意义上的词,而主要是一些短语和组合术语。另外,本文结合卡方检验对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高。

3实验结果及分析

(1)测试数据

我们下载了新浪(http://.cn)网站上从2013年1月到2013年6月的文章,共计130016篇文章,约345M。

(2)测试结果及评估

本次实验共抽取到了241998个术语,其(下转第45页)(上接第43页)中108102个被Hownet收录,占所有抽取总数的 44.67%,质串99040个(91.62%),合串9062个(8.38%);词典之外(OOV)的133896个术语中,质串18578个(占13.87%),合串115318个(占86.13%)。当我们对词典之外的进行了人工评估,并规定,在合串中只有名词性短语才被认定为是正确的词汇。正确的词汇共有204696个,总体准确率为85.41%。

(3)实验结果分析

本文网络新词抽取的重点是合串的抽取。而在抽取到的124380个合串中,只有9062个被Hownet收录,90%以上的合串未被收录,其原因是这些合串大部分主要是一些短语和组合术语,并不属于严格意义上的词。另外,本文采用结合卡方检验和互信息F-MI检测对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高(表3、表4)。

我们通过计算抽取到的术语数目与语料规模的比值来考察分析。与文献(Patrick & Dekang 2001)10M测试语料抽取到10268个术语相比(比值约1026.8),本文在约345M的测试语料上抽取到241998个术语(比值约876.8),该参数要小于前者,随着测试语料规模的增大,重复术语出现增多,所以在结果上基本是一致的。

4结语

本文介绍了基于卡方检验和质子串分解来获取网络新词,今后我们将针对参数F-MI的特点,继续对F-MI公式进行研究和改进,以提高质串的抽取效果;在今后会根据词法规则来自动过滤非名词的词汇。在本文提出的方法和实验结果的分析的基础上,我们将尝试结合自然语言处理中的文本自动分类技术,基本上自动实时动态地从Internet上抓取网页,并自动分类,对不同类别的文本集分别进行术语抽取,建立一个实时的动态的网络新词发现系统。

参考文献

[1] Frantzi K, Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark:Proceeding of COLING,1996:41-46.

[2] Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada:Canadian Conference on AI,2001:36-46.