前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇网络舆情监测系统范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
【 关键词 】 Solr平台;舆情;监测系统
1 引言
近年来,全国各地环境污染事件频繁发生,当这些污染事件发生时,民众会在很短时间内通过微博、论坛等网络平台相关消息、描述事件发生状况、评论政府应对措施与各项反应,需要注意的是,这些舆情信息在网络上的传播,会对普通民众的群体心理造成重大影响,如果处理不当还会对环境污染防治工作带来阻力,甚至发生重大公共安全。因此,需要设计并实现面向环境污染舆情的网络舆情话题监测技术,以实现对环保类舆情信息的及时发现,为政务信息公开和网络舆论回应提供技术支持。
环保类舆情话题主要是民众对身边生活环境问题的描述、建议、举报和控诉等的话题,比如工厂偷排污水、工地夜间施工、空气污染严重等。这类话题可由相关关键词的与或关系组合予以监测,例如水污染的话题可以采用“废水、污水、黑水”等关键词匹配。但在实际实现时,每类环保类话题的关键词数量都较多,关键词之间的与或关系描述比较复杂,采用传统的数据库结合文本关键词匹配的技术会遇到处理速度慢、与或等复杂逻辑匹配实现难度大等难题。
针对这些问题,本文提出采用Solr平台设计并实现环境污染网络舆情监测系统。Solr是由Apache基金会设计开发的基于Lucene的文本检索平台,利用Solr的索引和检索功能够快速查找文本,并可实现较为复杂的查询逻辑。通过实际数据的实验验证,本文所述技术具有执行速度快、复杂匹配逻辑实现难度小等优点。
2 Solr平台简介
2.1 Solr概述
Solr是一个基于Lucene的企业级全文搜索平台,它支持层面搜索、高亮显示和多种格式数据输出等功能。2006 年,Apache Software Foundation 在Lucene项目的支持下设计实现了Solr平台,并使Solr成为Apache的孵化器项目。在整个项目孵化期间,Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人,并于2007年1月正式成为Apache的子项目。
Solr具备高效灵活的缓存查询、强大的全文检索、垂直搜索、相似文献查找、配置灵活、支持多种客户端语言、索引复制、高亮显示搜索结果、日志记录、可扩展的插件体系等功能。
2.2 Solr体系架构
Solr作为一个完整的全文检索平台,具有三层体系架构。
1) 底层是全文检索工具Lucene,主要为文件建立索引、提供文本分析接口和实现高效查询。此外,底层的索引复制模块是一个独立的模块,主要用于支持分布式的索引和检索。
2) 中间层是Solr的核心层,主要包括索引处理部件和配置文件。最主要的配置文件是Solrconfig.xml和Schema.xml。Solrconfig.xml从整体上对系统进行了配置,例如索引的存放路径、字段的最大长度、写锁的超时时间、锁类型、是否压缩索引、内存索引缓冲区大小、合并因子、删除策略、自动提交策略、缓存设置等。Schema.xml主要是对索引的配置,例如分词器、字段名称、索引方法、存储方式、分词方式、唯一标识字段等。索引处理部件是在系统主动或被动的接受特定数据,按照配置文件转化成索引后用来进行实际操作的部件,例如,进行搜索、相似文献查找、拼写检查、分面检索等。
3) 上层是HTTP请求接受、处理和请求结果返回层。HTTP请求处理器根据接受到的不同请求,确定要使用的SolrRequestHandler,然后通过Solr核心层处理请求,并以XML、JSON等数据格式返回请求结果。
3 环保类舆情话题监测系统主要模块
本文所实现的环保类舆情话题监测系统的主要模块包括三个部分,分别是中文分词、创建索引和话题监测。
3.1 中文分词
中文自动分词是建立索引库的前提。中文文本中词与词之间没有天然的分隔符,这就要求在对中文文本进行分析前,需要先将整句切割成小的词汇单元,才能将文本划分为特征项并添加进索引库。在全文检索系统中,中文分词系统的速度直接影响到系统建立索引和检索文档的效率,所以需要从众多可用的分词工具包中选择符合本系统需求的中文分词系统。
目前常用的分词工具包有StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、ICTCLAS和IKAnalyzer,其中IKAnalyzer的分词方式为正向粗粒度词典匹配或正向细粒度词典匹配,由使用者根据需要指定,当遇到未被词典收录的词语时则使用二元分词方式切分。IKAnalyzer的自定义词典功能比较强大,既可以通过词典文件预先批量添加词语,也可以通过调用API的方式实时添加;同时,IKAnalyzer的分词速度和分词准确率也比较理想,可以满足本系统开发的需求。通过对分词效果、分词速度、词典的扩展性、开发难度等方面进行综合考虑,最终选择IKAnalyzer作为本系统的分词器。
3.2 创建文本索引
本系统是通过Python脚本语言来实现Solr索引创建的。首先连接Solr,然后用Solr的Add命令从数据库里将上一次索引时间之后所有新增加的舆情数据添加进Solr。接着执行Commit命令以提交任务。那么,Solr就会自动完成对新提交的文本数据创建索引。
3.3 话题监测
索引建立之后可以根据每类话题关键词的逻辑匹配规则在Solr中进行话题监测处理。
在话题监测前,首先判断这个话题是否已经基于关键词查询过,如果查询过,则接着在上次查询时间之后新增的索引文本上查询,否则查询所有文本。
在话题查询时,根据Solr的查询命令并结合实际需求构造一个查询条件,如按关键词和索引时间范围构造的查询条件为:query = "(%s) AND index_time:[%d TO *]" % (keywords, secs),然后根据该查询条件实现Solr上相关话题文本监测。
4 实验结果与分析
4.1 评价指标
实验结果评价指标为准确率(Precision)、召回率(Recall)和F1值。准确率指标代表的是识别准确性,召回率代表的是方法判断结果的查全率。理想的情况是准确率和召回率都很高,但在实际情况中,两个指标很难同时被提高,提高准确率往往以降低召回率为代价,而提高召回率往往也要牺牲准确率,因此设计方法时往往根据实际需要重点关注其中一项指标。在本系统中,环保类话题识别与监测的主要作用是找到与人工设置的话题关键词相匹配的文本,所以本系统在保证一定召回率的前提下更强调准确率指标。
4.2 实验分析
通过人工方式设置了3个话题类型,实验数据集为从网络舆情源数据中随机获取的文本20000篇,其中包含3类环保类舆情话题文本共3272篇,作为背景噪声的无关文本16728篇。话题的相关情况如表1所示,采用本文所述技术的实验结果如表2所示,在DELL R420服务器上执行话题监测处理时间仅为0.27秒。
实验结果表明,基于Solr平台的环境污染舆情话题监测系统能够比较有效的发现网络舆情数据源中与设定话题相关的发帖文本。需要注意的是话题识别与监测方法的效果受话题关键词的影响比较大,所以关键词的设置既要求准确又要求全面,根据环保舆情监控的地域因素,还要考虑当地人对某件事物的俗称。
5 结束语
本文通过研究建立基于Solr平台的环境污染舆情话题监测系统,认为建立中文分词、创建索引和话题监测三个主要模块能够比较有效的发现网络舆情数据源中与设定话题相关的发帖文本,实验结果表明本文所述系统可有效满足环保相关部门对环境污染网络舆情话题监测的需求。
参考文献
[1] 黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012,(12):246-247.
[2] 姚晓娜,祝忠明.基于分面搜索引擎Solr的机构知识库访问统计[J].中国科学院国家科学图书馆兰州分馆,2011,209(8):37-40.
[3] Apache Solr官网.http:///solr/.
[4] 薛峰,周亚东,高峰等.一种突发性热点话题在线发现与跟踪方法[M].西安交通大学学报,2011,45(12):64-69.
[5] MOHD M,CRESTANI F,RUTHVEN I.Design of an interface for interactive topic detection and tracking[C]//Flexible Query Answering Systems 8th International Conference on.Berlin,German:Springer,2009:227-238.
关键词:网络;舆情监测;技术分析;网络教育
中图分类号:TP311.52
随着社会科学技术以及互联网技术的快速兴起与发展,互联网给人们带来的信息资源也越来越广泛和深入。人们在运用互联网的同时对于内心感情以及态度的表达也越来越重视,公众的表达自由权以及诉求渠道也越来越多。因此,面对社会上日益增长的互联网舆情,必须要建立科学合理的互联网舆情收集以及分析处理支撑体系,保证互联网舆情能够实现及时、科学、全面的分析和研究,所以本文对于互联网教育舆情监测系统的研究具有很重要的参考价值。
1 互联网教育舆情监测系统概述
1.1 互联网教育舆情涵义
互联网舆情是围绕国家法律法规、生产发生的事件、人物、国家方针政策等影响民众利益的中介性关联物,民众对执政者及其颁布的方针政策的观点和态度。随着网络的出现,人们对其依赖性越来越强,互联网舆情从开始范围狭窄发展到今天遍布互联网每个角落,经历了一个漫长的时期。网络舆情代表着公众的心声,是时代进步的产物,表达在互联网空间中的政治态度和舆情传播。针对网络的特点,互联网络舆情有随意性、突发性、隐蔽性和直接性、多元性等特点。
1.2 互联网教育舆情监测系统结构
互联网舆情系统主要包括信息收集、信息处理、数据库和前端应用四个模块。其中信息收集模块支持多处理器,具有灵活的处理信息功能,能够合理应用多线程技术,根据具体情况在指定网站和给定数据中寻求原始信息的模块。
信息处理模块完成数据结构化处理,将数据按照一定规格分类,根据关键词建立全文主索引,通过对象跟踪和分析语义完成自动摘要功能。信息处理模块根据其完成功能主要有预处理子模块、全文索引模块、自动分类模块、对象跟踪子模块等。数据库系统主要完成数据存储功能,对系统中的数据保存在数据库中,为互联网应用提供平台。前端应用模块可以完成各种搜索功能,这里的搜索可以是热点事物的搜索、用户需求的关键词搜索、引擎搜索等;也可以完成自动汇总统计功能。前端应用模块包括五大子模块,具体有关键词自动推荐、管理、搜索、统计报表、采编辅助功能五大子模块。因此,在开发互联网舆情监测系统时,应该重点考虑如何才能更好地实现信息处理模块及前端应用模块的功能,如何将二者的功能打造得更完美。
2 互联网教育舆情监测系统技术探讨
2.1 互联网信息采集与预处理技术
通常情况下,互联网信息采集主要采用的是垂直搜索引擎技术,将互联网的主要信息进行自动的分类以及识别,实现信息的自动去除和自动抽取,这种处治搜索引擎技术能够比较准确地实现互联网信息的采集。主要是进行互联网主题信息的智能搜索以及下载功能,并且具有互联网信息的反屏蔽方法,随时进行互联网信息的更新搜索以及深度控制,从而根据互联网的信息实现智能下载,还能够运用模拟浏览器技术进行互联网页面信息的采集工作。在互联网相关信息的判别过程中,自动识别技术以及自动扩展功能的运用也十分广泛,自动识别技术能够保证采集的互联网信息具有一定的广度以及动态性的信息变化。除此之外,互联网教育信息的采集必须要进行信息的消重,这也是信息采集过程中必须需要的技术,一般情况下可以从URL列表进行信息的消重,还可以采用网页指纹消重技术以及以领域知识数据库为基础进行信息消重,这几种消重技术均能够有效地保证互联网信息的无重复性。
互联网信息预处理技术是对于互联网采集到的信息资源进行初步地分析以及处理工作,为下面进行互联网舆情信息的抽取以及信息内容的分析提供必要的条件,通常情况下使用的是基于统计以及规则相结合的信息分类以及过滤的技术。首先将互联网信息根据不同领域以及不同行业进行分类,并且结合现有的信息资源进行领域以及行业舆情的分析和处理。除此之外,还对互联网的信息资源进行客观上的评价以及态度上的分类处理。
2.2 舆情关键信息抽取技术
信息抽取技术中的智能节点识别技术是对网络信息快速、及时、准确的提取,提取过程中应用的是本体库和语义网络的信息提取技术。该技术可以根据需要关键词进行有目的的筛选,将关键词和属性关键词锁定,自动选择需要内容。如果所选定的关键词不存在相应的内容,那么就会根据属性关键词提取内容页面。
目前互联网舆情关键信息的抽取技术主要有网页去噪功能、智能节点识别技术以及逻辑信息抽取技术。网页去噪功能主要是根据互联网的信息进行抽取,对于噪音信号进行净化,实现信息的传输速度和质量的提高,根据不同的噪声采取不同的去噪技术。智能节点识别技术主要是对于互联网的信息进行设置相应的主题知识库,保证在进行信息的提取过程中能够自动地进行信息属性的识别以及信息特定值的识别,从而对于不同的信息进行不同的处理识别。逻辑信息抽取主要是对互联网知识库的主题信息进行属性的识别,然后进行逻辑性以及结构性的处理和抽取,保证信息的安全通用。
2.3 文本表示与主题发现技术
互联网舆情主题发现使用技术方法主要来自话题识别和跟踪领域,近年来网络舆情主题识别技术,在从传统的线性文本聚类分析向更注重内容特征的话题标引统计识别技术发展。主要的研究有以下几个方面,使用评估函数来代替TF-IDF;面向BBS的层次化关键词抽取方案,结合机器学习的方法进行关键词抽取。
2.4 网络舆情内容分析
主题聚类法与以往的方法不同,是通过机器学习对文本、查询式对象分析,将分析的聚类对象转换形式,一般将其转换为基于主题的形式。这样不仅可以使特征空间维度降低,还可以描述聚类结果。
主题聚类是我们常说的信息组织方法,综合主题法、机器学习法、数据挖掘法的优点,开发出的兼容性方法。其方法具有主题法直奔主题的优势,节省时间、目的性强、可以提高信息收集质量;空间维度降低,运行速度快。
3 结束语
近年来,互联网舆情监测以及分析系统的发展速度越来越快,并且在不同的领域也都起到了很重要的作用,但是就目前的应用来看,在相关的理论基础知识方面的研究还不是十分地科学和深入,存在一定的技术上的支持,因此在今后进行相关互联网教育舆情分析的过程中,应该不断地探索新的检测系统技术,研究新的理论支撑知识,实现互联网信息舆情及时、科学、准确的采集和处理,建立合理科学的互联网舆情监测系统方案,保证互联网舆情监测工作的顺利进行。
参考文献:
[1]王来华.舆情研究与民意研究的差异性[J].天津大学学报(社会科学版),2009(04).
[2]王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(03).
[3]申晋.基于Lucene和Nutch的林业垂直搜索引擎的研建[J].农业网络信息,2008(04).
[4]沙芸,张国英,孟凡亮.基于关键词提取的娱乐新闻文档去重算法[J].广西师范大学学报(自然科学版),2007(02).
【关键词】网络伪舆情;成因;现状;消除对策
一、网络伪舆情发展现状及成因
互联网作为继报纸、广播、电视之后的出现的新媒体,成为反应社会舆情的主要载体之一。互联网载体使网络舆情表达快捷,多元化,还为广大网民提供了互动的平台,因此使民意表达更加顺畅、便捷。但由于监管部门以及相应的法律法规的空位,再加上网民身份的大众化隐匿性和自律意识不高,这导致了网络伪舆论的不断出现。
(一)网络伪舆情及其预防发展现状
2015年5月中旬,一则“娃哈哈、可口可乐等牛奶饮料含肉毒杆菌并可能导致白血病,被紧急召回”的消息在微博、微信上被疯转,“白血病”、“肉毒杆菌”、“召回”等关键词引发了很多人的关注,让家长对这些乳制品饮料闻之色变。26日,针对此事,南国都市报记者向多部门进行求证。相关专家表示,无直接研究证明肉毒杆菌与白血病有关,该微信内容纯属谣言,同时提醒市民切勿随意传播。
近年以来,随着网络技术的不断进步,网络媒体凭借其快捷性、互动性等优势逐渐取代传统媒体,对人们的生活产生很大的影响。而网络伪舆情也随之应运而生,层出不穷。除了“牛奶饮料含肉毒杆菌”事件外,还有赴新疆旅游每位游客奖500元、朱自清《背影》因“违反交规”被逐出教材等事件纯属虚假消息,全部都是网络伪舆情。我国目前网路伪舆情预防现状如下所示:1.伪舆情监测预警手段落后,伪舆情治理思路不当;2、伪舆情判定缺乏标准体系;3、国内的网络舆情监测服务机构缺乏。
(二)网络伪舆情产生根源分析
1、环境因素
(1)网络发言的公开性与匿名性,网络的出现极大地拓宽了公众的舆论空间,网络发言具有公开性、自由性、匿名性和互动性等特点,而且不受地域、阶层、文化程度的限制。因此,网民在获知信息后,可以针对关系到自身利益或者是自己所关心的各种公共事务,包括突发事件、社会热点问题、政府决策、公众人物言行等等积极传播信息、表达观点和互动交流。
(2)网络传播信息的快捷性,传统媒体受到新闻管理要求或者是报道时效、方式的局限,无法报道一些事件,而网络媒体基于信息传播的快捷、无界等特点,往往成为第一时间的信息者。
2、管理因素
(1)首先,作为强制性的法律不多,且存在等级低,效力有限,实施上有立法空白等缺陷;同时,作为自律性的规范也不多,而由行业制定并执行的准自律和准法律的管理规范占据了主导地位。(2)其次,网络虚拟机构的管理涉及到多个部门和机构,包括公安机关、宣传机关、电信企业、工商部门等。但真正起到管理监督作用的部门很少,加上各部门没有相互协调形成联动机制。(3)最后,政府部门的引导力度不够,没有掌握舆论主动权。面对涉及到公众利益的网络伪舆情,一些地方政府选择了冷处理的方式,没有解除危机,反而招来更多非议与流言。
3、网民因素:(1)网民自身认识的偏差和行为的随意性是网络伪舆情的基本原因;(2)网络水军恶意炒作信息。
二、消除网络伪舆情的对策
(一)提高网民自身素质
在互联网时代,网民作为信息的传播者、舆论的引领者、政治的参与者和社会的监督者,其自身素质在消除网络伪舆情方面具有不可小觑的作用。
(二)建立健全管理制度
1、充分发挥新闻发言人制度优势,建立舆论引导机制
网络信息和伪舆论传播的泛滥,唤起了人们对高品质言论的追求,就像在假冒伪劣产品泛滥的时候,人们更需要从“品牌”中寻求保障一样,人们对政府部门有较多的信任和依赖。政府部门应充分发挥其影响面广泛的优势,完善新闻发言人制度,建立舆论引导机制。
2、完善相关立法,加强法制管理
我国需要一系列完整的互联网管理法律和网络舆情监督法规,从根本上保护国家、社会、公民个人的信息安全。
3、逐步实行网络实名制
‘网络是个虚拟的大环境,但它产生的社会影响却是实实在在的。“匿名制”带来的危害不仅仅是个人的,而是整个社会的。’只有逐步实现网络实名制,规范网络舆论监督,才可以在一定程度上有效遏制网络伪舆情。通过用户的真实姓名和身份登记,可以追究发帖者的法律责任。网络实名制可以减少政府在进行网络舆情监控时的难度和成本,有利于广大网民形成文明习惯和责任意识。“这体现了互联网监督部门的意识,是政府公共权力的要求。”
(三)加强网络舆情分析师的培养
我国应加强专业网络舆情分析师的培养,培养出具备很强的新闻敏感性、舆情分析研判和危机管理能力,熟悉网络舆情抽样、统计、分析工具和模型,对社会心理与网络语言文化有长期观察研究的专业人才。
〔关键词〕网络舆情;应对体系;评估指标
媒介信息已步入双向交流的Web2.0时代,直接驱动着政府社会管理方式进入网络治理时期。十报告提出:“加强和改进网络内容建设,唱响网上主旋律。加强网络社会管理,推进网络依法规范有序运行。”加强舆情信息工作、建立舆情信息机制是新媒介环境下加强党的执政能力建设、提高各级领导干部执政水平的一项重要任务。如何应对新时期、新媒介环境下复杂多变的网络舆情,从而提高新形势下网络舆情的调控能力,及时准确地掌握社会舆情动态,科学引导网络舆论,优化社会舆论环境,已成为地方政府提升社会治理能力的一个重要体现,是各级政府面临的重要课题和严峻挑战。
1 政府网络舆情应对机制体系化思路探析近年来,随着网络舆情事件的不断涌现,政府在相关事件的处置过程中积累了一定的经验,各级党政机关对网络舆论的重视程度继续增强,反应速度稳步提升,问责力度不断加大,应对能力也在持续提高。但是,当前涉政网络舆情事件的发生率仍居高不下,据中国传媒大学网络舆情研究所的《2012上半年中国网络舆情报告》显示:涉及政府领域的公务员管理和司法执法类的网络舆情事件位列2012年上半年网络舆情热点事件排名的前2位。同时,其负面效应呈逐步增大化趋势,青岛植树增绿事件、“适度腐败论”事件、陕西“天价烟”等事件的应对过程均反映出政府网络舆情应对工作中还存在着诸多不足。究其原因,首先,不论是从网络舆情自身的特点来考虑,还是从政府网络舆情应对现状所反映出的问题来看,采用单一的应对机制或仅仅依靠单个政府部门的管理是无法满足网络舆情治理需要的。其次,网络舆情是“舆情”这一社会层面定性描述的概念与“网络”这一技术层面定量表征概念的有机结合体。网络舆情的应对既涉及到引发舆情的现实热点事件的解决和相关事件社会舆论的引导,既属于政府社会管理的范畴,又涉及到在网络媒介载体上,舆情信息产生及传播的技术特性,且必须依靠网络技术手段予以事前监测和事后调控。因此,必须将微观的技术方法手段和宏观的政府管理机制结合起来,进行网络舆情的应对工作[1]。其三,当前对舆情事件的分析往往是从少数案例中推出结论,缺乏系统性和普适性,没有将众多的网络舆情事件纳入到一个分析框架中,对网络舆情的复杂性及其网络传播机制等问题研究不够深入,缺乏对事件舆情准确分析的研判体系;对网络舆情演化规律的影响因素只考虑了舆情自身的变化特征,还没有将政府干预行为作为外部影响因素进行综合分析。最后,从应对实践来看,一方面当前各级政府部门对网络舆情的应对还处于一种自发的“蛮荒”状态:有的还局限于传统的舆论宣传方法,缺乏适应信息环境下的舆情引导机制;有的虽然购买了软件公司的舆情监测软件,但不适应政府部门的特殊需求,同时单纯监测手段的提高无法解决舆情处置和舆论应对的根本性问题;另一方面,在当前公共热点事件网络舆情的应对工作中存在着政府部门间各自为政的现象,既造成软硬件设施的重复建设,又导致在公共热点舆情爆发时,部门间互相推诿或信息口径不一致的现象时有发生,以及由于各自对于舆情形势研判标准的参差不齐,导致舆论引导策略不协调甚至相互干扰的情况。鉴于以上问题,亟需构建科学系统的标准化网络舆情应对体系。
2013年3月第33卷第3期现?代?情?报Journal of Modern InformationMar.,2013Vol.33 No.32013年3月第33卷第3期网络舆情动态调适应对体系研究Mar.,2013Vol.33 No.32 网络舆情应对的动态调适体系构建“体系”一词的解释为“若干有关事物或某些意识互相联系而构成的一个整体”[2]。根据这一定义,应对体系应涵盖政府网络舆情应对过程中的重点环节,并构建相应环节的应对子体系,全面覆盖网络舆情演化周期的各个阶段,同时支持政府网络舆情应对工作的全流程。基于这一思路,应对体系的基本框架应包括政府管理、研判实务、技术方法3个层面的内容3个层面中,技术方法层是基础层,利用计算机技术、网络计量学、信息检索、人工智能等技术方法,设计网络舆情监测与分析软件,实现网络舆情信息的自动采集、属性分析、观点倾向识别、主题检测跟踪等基础。研判实务层以网络舆情监测软件为依托,进行网络舆情的信息监测和信息收集,并通过网络舆情评估指标体系的构建,以评估指标为依据,进行网络舆情研判标准的参数设定,对采集到的舆情信息特征量化处理并进行分析,从而对网络舆情进行智能化预警、演变规律分析、发展趋势预测以及应对评估总结等舆情研判的实务性工作,并将最终的舆情数据统计分析结果转化为参考性建议,为政府管理层应对机制的制定和应对措施的采用提供决策参考。政府管理层涵盖管理体制、法律法规、引导控制、应急联动等方面内容,进行具体网络舆情的网下事件处置和网上舆论引导工作。3个层面分别形成政府网络舆情应对体系的3个关键子体系:基于管理层面,构建网络舆情的政府宏观管理体系;基于实务层面,建立网络舆情的科学研判体系;基于技术方法层面,形成网络舆情信息预处理的技术方法体系。各子体系之间紧密联系,共同构成完整的政府网络舆情应对体系(如图2)。在研判体系中,引入近年来发生的热点网络舆情事件信息,构成基础案例数据库,并不断加入新近网络舆情事件,建立持续更新的网络舆情事件案例库。进而以案例库中的网络舆情事件为研究样本,对事件进行分类统计,抽取各类事件舆情信息的特征值,构造舆情分类信息特征值库。在此基础上,构造分析框架,综合分析政府在各类事件舆情的应对过程中所采取的措施,分析这些措施的实效性和针对性,并进行量化研究,将其抽象化、要素化,作为应对体系的外部影响因素(如图2中“政府干预行为因素环境变量”),并结合特征值库中不同类别舆情的特征值,进行理论分析,研究政府应对措施对于不同类别网络舆情演化过程的影响性,从而建立针对不同类别舆情的政府应对体系动态调适机制。3个子体系间有机融合,覆盖政府网络舆情应对工作的整个流程,同时,互动反馈,通过对舆情演变态势的即时统计分析和图表呈现,及时调整舆情应对策略,并基于应对的实效评估改进信息分析模式,优化体系架构,从而实现内部信息流共享,外部环境信息流动态反馈的自适应开放体系。图2 政府网络舆情应对的动态调适体系框架图
3 网络舆情应对体系的研判机理网络舆情研判的科学性和准确性直接决定着应对体系的实效性,是整个体系的功能核心。研判体系作为中间层次,在政府网络舆情应对体系的3个子体系中起到承上启下的作用,对技术体系采集到的舆情信息进行分析研判,从而为管理体系提供决策支持。研判体系所涵盖的具体工作有以下3个方面:①舆情分析。建立网络舆情评估指标体系,对相关舆情信息,进行量化分析处理,包括属性识别、信息分类、数量统计、重要性分级,同时结合人工分析,通过与之前信息分析结果相比较,研判相关舆情的观点极性和变化趋势。②舆情预警。实现危机舆情预警通报,按照评估指标体系中相关指标的计算原则,得到特定舆情的综合量化评估值,将该值与预先设定的预警信息等级相比较,超过预警阈值则自动报警,继而引入人工干预,启动政府应急方案。③舆情评估。主要是总结网络舆情应对的经验教训,评估研判模型的准确性和政府应对策略的实效性,为舆情应对体系功能改进及应急预案评估和修订提供参考依据。为保证舆情研判的科学化和标准化,必须建立完备精准的网络舆情评估指标,增强网络舆情信息甄别的客观性,并及时通过预警等级指标的判断,对危机网络舆情进行实时响应,同时有助于加强对热点事件网络舆情发展趋势的预测,辅助政府干预性措施的制定,加强网络舆情治理的实效性。网络舆情评估指标包含舆情公共指数、舆情预警指数、演化周期指数、舆情趋势指数4个评估指标集(如图3)。公共指数是描述舆情信息本身属性的参数集合,是舆情预警指数、演化周期指数、趋势预测指数的计算分析中都需要用到的基础参数集。预警指数用于判别舆情的信息敏感度及情感倾向度,并通过定义舆情等级指数,实现危机网络舆情的识别及预警。演化周期指数主要用于定义和描述舆情演化周期中各个阶段的特征,分析舆情演变规律的参数集。舆情趋势指数主要用于追踪舆情发展态势,预测舆情未来的发展态势。将上述4个评估指标集进行细化,共选取17个指数作为二级评估指标,包含33个基础评估指标。评估指标主要有数量统计、程度分析、趋势比较、描述性判断4种类型。同时对33个基础评估参数进行权重分析,并根据权重大小设置相应的分值。权重的确定是否合理,直接影响突发事件网络舆情风险评价指标体系的有效性[4]。目前,用以确定评价指标权重的方法有多种,如专家排序法、专家决策咨询法、模糊方程求解法、多元统计分析法、层次分析法,等等[5]。我们采用基于层次分析法的模糊综合评判模型与专家咨询法作为评价指标权重的确定方法,通过建立层次结构模型、构造成对比矩阵、计算权向量并做一致性检验、计算组合权向量并做组合一致性检验等一系列步骤,得到评价指标的权重。相较于其他权重确定方法来说,该方法简单明了,同时能够充分考虑和比较评价指标间的相对重要性,增加权重设计的科学性和合理性。
3.1 舆情公共指数舆情公共指数包含3个二级指标,分别是信息属性、信息基源、舆情类型。信息属性指标是反映舆情信息的基本属性。信息基源指标是说明舆情信息的来源是否基于现实事件或热点问题,并根据事件影响程度予以不同分值进行标示。舆情类型指标用于定义相关舆情所涉及事件的类型,用不同的分值标识不同类型事件性质的重要程度。各指标所属参数定义如下:信息属性:人、时间、IP地址、信息格式、来源网站、网站影响。信息基源:现实、现实热点事件/问题、非现实事件。舆情类型:舆情信息的内容或基于的现实热点事件所属的类型。网络舆情公共指数的计分项是依照各指标参数对于舆情重要性评估的影响权重来进行选取,按照上述原则,息属性指标中选取了“信息格式”和“网站影响”作为计分项,事件的图片和音频信息能体现事件的真实性,而视频信息的感染力更强。信息来源网站的权威性和人气量会直接影响信息的可信性及其传播范围,新闻网站具有采访权,的信息更具说服力,而热点论坛社区和微博的传播力强。信息基源指标根据网络舆情信息与现实事件的关联性强度进行分值的设置。舆情类型指标参照中国科学院计算技术研究所戴媛等人所遴选出的14大类舆情主题指标[6],同时根据政府相关舆情应对的紧迫程度,将舆情事件类型归纳为7大类,分别设置相应的分值。
3.2 舆情预警指数舆情预警指数包含3个二级指标,分别是话题敏感度、情感倾向度和预警等级指数。话题敏感度指标是标示舆情信息的敏感程度,将舆情监测系统采集到的信息文本进行分词处理,提取主题关键字,与预先设定的敏感目标词库中的关键词相比较,匹配一致则认为该信息为敏感信息。敏感目标词库中的关键词可设定为发帖地域、人名、机构名称以及政治倾向性词汇等,从而作为敏感信息的评判标准。情感倾向度是反映信息内容中的观点或情感倾向程度的指标,从而辨别发帖内容观点的情感倾向,并划分其倾向程度的级别。预警等级指标用于定义网络舆情的预警等级,等级越高表明舆情的影响范围越大,所导致的危机发生几率越高。各指标所属参数定义如下:话题敏感度:评判信息敏感程度,分为敏感和非敏感两项。情感倾向度:正面褒奖(最好、很好、一般),中性,负面批评(恶劣、很差、差、中性)。在综合考虑国际标准、我国相关机构管理规定及网络舆情演变特性的前提下,将网络舆情的预警等级划分为:轻警情(Ⅳ级,非常态)、中度警情(Ⅲ级,警示级)、重警情(Ⅱ级,危险级)和特重警情(Ⅰ级,极度危险级)4个等级,并依次采用蓝色、黄色、橙色和红色来加以表示[7]。网络舆情智能化预警的实现过程是:首先抽取那些能够突出反映舆情主要特征的因素,包括前述舆情公共指数中的信息属性、信息基源、舆情类型指标,以及后面要介绍的演化周期指数中表征信息热度及话题影响力的指标参数,还有预警指数中关于信息内容的话题敏感度、情感倾向度2个指标,分别进行量化处理。然后对上述3个指标集中各指数赋予一定的权重,并按照一定的关联关系进行计算,从而计算某一特定网络舆情的总指标值。最后通过比较预先定义的舆情预警指数中的预警等级指标,对总指标值所属的预警值范围作出预警等级判断,进行相应级别的警情提示。鉴于上述实现过程的分析,舆情预警指数主要用于实现危机网络舆情智能化预警功能的,其所包含的话题敏感度、情感倾向度2个指标参与舆情总指标值的计算过程,而所包含的预警等级指标是用于舆情总指标值范围的判断过程。
3.3 演化周期指数网络舆情的演化周期可分为4个阶段:萌芽阶段、发展阶段、阶段、隐退阶段。各阶段的特点对比见表1所示:
表1 网络舆情演化阶段特点对比表
阶段事件致因热度网络观点
集中性影响力舆情态势萌芽阶段模糊很低个体分数极小出现端倪发展阶段逐渐清晰迅速增加群体分散扩大波动发展阶段完全清晰稳定增高群体集中最大积聚顶点隐退阶段逐步淡化迅速收敛逐渐稳固降低逐渐消退了解了舆情演变周期的各阶段特点后,进而需要分析各个阶段的舆情要素构成以及它们的属性、之间的关系,并通过各阶段相同要素不同值的比较分析,获取舆情的变化趋势,最终归纳出网络舆情演化规律,建立相关网络舆情的演化模型。
3.3.1 萌芽阶段分析指标网站影响:用来评估网站的权威性。第一时间话题网络发帖的来源网站是否是国内外权威网站,可预测话题的影响范围及关注度。原帖属性:人、时间、IP地域、信息格式、来源网站、链接网址。信息基源:分析事件来源。发帖内容是否基于现实突发热点事件,现实事件的性质。话题敏感度:评判舆情信息的性质。事件的主题或内容是否和预先设定的敏感目标词库中的某个关键词相吻合。通过关键词所标识的特征性来判断发帖所涉及的地域、敏感人名、机构名、政治倾向等。情感倾向度:辨别发帖内容观点的情感倾向,并划分其倾向程度级别。正面褒奖(最好、很好、一般),中性,负面批评(恶劣、很差、差)。
3.3.2 发展阶段分析指标发帖数量:相关主题发帖数量周期统计。利用监测系统以日为周期,自动对主题所涉及的相同关键词发帖进行当天发帖总数统计,并观察隔日发帖数量变化趋势。互动量:统计各发帖的每日回复贴数,正反观点所占比例分布,隔日回帖数量变化趋势。影响扩散度:原帖被哪些主流网络媒体转载,主流网络媒体是否有此项主题的新闻评论贴出现,主题在网上出现的发帖地域是否扩大化,传统媒体是否报道相关主题。权威影响力:相同或相关主题的网络者及传统媒体的权威影响力如何,有否官方信息的权威。意见集中性:主题相关的网络言论中,意见是否集中,各种意见的重点及倾向是什么,之间有否关联,是否出现意见群体性趋势。话题变化度:每天的新发帖中主题的变化情况分析,是否有新观点出现,基于现实事件的话题,是否与现实事件变化同步,网络观点与现实观点是否一致。
3.3.3 阶段分析指标舆情透明度:舆情事件来龙去脉或基于的现实事件过程清晰程度及疑点聚焦。意见群体极性:各种群体意见是否综合汇集成一种或几种观点,观点的正面性或负面性。政府互动性:政府官方舆论的数量。舆情处置维度:网络舆情发展的整个过程中,政府每次应对舆情的观点、举措、效果评价。二次舆论形成度:事件解决后,对整个事件过程的回顾及评价的言论在网上所引发的再次热点讨论贴数及出现的新观点。
3.3.4 隐退阶段分析指标相关主题末段贴数:跟踪舆情解决后一定时段内网络发帖数,统计其热度变化情况。三次舆论形成度:相关主题讨论逐渐消退后,最终处理是否彻底,事件是否出现反弹,从而引发原始话题舆情终结后的后续相关舆情出现。上述各阶段舆情要素所包含的分析内容主要有数量统计、程度分析、趋势比较、描述性判断4种类型,需要计算机和人工共同完成分析工作。计算机系统完成信息数量统计和趋势比较工作,人工完成描述性判断和评论及对程度分析结果进行验证的工作。最后,舆情规律演化框架的研究需要综合以上各阶段的舆情要素,可通过历史网络舆情为案例,进行各要素分析,从而整理出普适性的舆情演化规律,进而分类总结不同性质舆情演变的特殊规律。
3.4 舆情趋势指数发帖数量:相关主题发帖数量周期统计。利用监测系统以日为周期,自动对主题所涉及的相同关键词发帖进行当天发帖总数统计。互动量:统计各发帖的每日回复贴数,正反观点所占比例分布,隔日回帖数量变化趋势。影响扩散度:原帖被哪些主流网络媒体转载,主流网络媒体是否有此项主题的新闻评论贴出现,主题在网上出现的发帖地域是否扩大化,传统媒体是否报道相关主题。权威影响力:相同或相关主题的网络者及传统媒体的权威影响力如何,有否官方信息的权威。意见集中性:主题相关的网络言论中,意见是否集中,各种意见的重点及倾向是什么,之间有否关联,是否出现意见群体性趋势。热度变化度:每日发帖数、回复数、浏览数的变化比较分析。话题变化度:每天的新发帖中主题的变化情况分析,是否有新观点出现。舆情趋势指数通过舆情信息数量变化、话题集中性、影响扩散度以及观点变化等方面的统计分析对网络舆情发展趋势进行展现,同时对照网络舆情演化周期模型,估算当前趋势所处的舆情发展阶段,从而有针对性地调整政府应对措施并为将来舆情可能的发展状况拟定好应对预案,促进政府网络舆情工作的前瞻性和主动性。
4 结 语本文提出了网络舆情应对体系的基本框架,构建了政府网络舆情动态调适的应对体系,基于网络舆情评估指标的建立,详尽分析了应对体系的舆情研判机理,为解决当前政府网络舆情应对中存在的主要问题提出了新的理论方案和实践参考。
参考文献
[1]梅松.基于电子政务的网络舆情危机治理[J].湖北行政学院学报,2011,(4):41-46.
[2]中国科学院语言研究所.现代汉语词典[M].北京:商务印书馆,1980:540.
[3]梅松.政府网络舆情治理中的主要问题及对策思考[J].电子政务,2011,(6):76-79.
[4]徐家良.政府评价论[M].北京:中国社会科学出版社,2006:35.
[5]张玉亮.基于发生周期的突发事件网络舆情风险评价指标体系[J].情报科学,2012,(7):1034-1037,1043.
随着以社会媒体为主的Web 2.0的发展和深入,以及移动终端等新媒体的普及,社会舆情的传播途径急剧扩张。网络成为反映社会舆情的主要载体之一,网络舆情影响力正积聚放大,对公共事务和政策的影响日渐深入。同时网络技术更新网络舆情信息来源不再局限与新闻评论、博客、贴吧等,随着微博、即时通信工具的广泛应用,现在新闻在网上的呈现与传播不是以小时计,而是以分秒计,近乎于实时。短时间内就可能将突发事件传播、发酵为有着重大舆论影响的事件。赢得时间就赢得了话语权,就赢得了舆论引导的主动权。把握好“黄金时间”是成功处置突发事件的第一道关口。因此,高校建立自己的互联网舆情监测分析系统[1-3],运用高科技手段对互联网敏感内容进行24小时不间断地自动监测和分析,可以提高信息收集和研判的效率和水平,进一步做好对广大师生的舆论引导工作,从而更好的维护高校形象[4, 5]。
1 需求分析
现代高校管理工作中,有一部分重要的工作是对在校师的关注的重要信息能够及时掌握,并能做出正确的引导。现有的收集信息的方式是通过网络搜索引擎、网页浏览的传统手工信息收集方式已经无法满足当前舆情监督工作的要求。手工方式监测范围主要集中在几大门户网站、论坛、微博等,覆盖面窄,难以较全面地收集到目标信息。效率低,及时性差,根本无法及时发现敏感信息,且无预警机制,突发事件容易造成被动局面。信息统计难以存档,形成规范统计数据,更不可能有规范的数据进行分析,为高校舆论引导管理工作提供分析依据。因此建立一个拥有通过网页内容的自动采集处理、专题聚焦、敏感词过滤、统计分析等功能的舆情监测系统,可以实现高校对自己相关网络舆情监督管理的需求,为高校管理层全面掌握广大师生的舆情动态提供了信息保障,并能让高校管理层对发生的舆情事件做出正确舆论引导。
2 系统功能设计
互联网舆情监测分析系统分析为系统管理、信息采集、分析处理、信息服务等功能模块,提供全方位舆情监测服务
2.1 系统管理模块
提供基于WEB平台标准网页模式的管理工作界面,使用人员通过浏览器即可方便地进行各种操作控制与远程管理。提供多频道分类和多个监控专题设置,支持无限分类和无限站点加入。支持用户自定义站点描述、起始URL、抓取深度、更新时间等各种参数配置。具备用户管理和权限分配功能,针对不同用户提供不同操作权限和个性化操作界面。
2.2 信息采集模块
该模块可以对境内外多种监控网站类型的静动态网页采集,包括新闻门户、BBS、RSS、博客、贴吧、微博及其他类似结构网站。可以对监控专题的信息采集,可针对特定事件在设定时间内进行专门采集。可以自动对信息源进行24小时不间断的实时监控能力,信息从出现到被检索到的时间间隔应为分钟级,对新信息进行实时更新和增量索引。对采集的信息提取摘要和关键字段信息,并按指定格式分字段存入全文库相应位置,便于根据需要进行数据统计。
2.3 信息分析处理
系统对采集入库的数据以下核心技术进行智能分析,对原始数据进行加工处理,关键数据提取,形成原始舆情库。对各类主题能够形成自动摘要。可以自动在搜索结果条目下显示摘要信息。这些“摘要”帮助用户迅速了解搜索结果的主要内容,提高工作效率。使用自动分类技术,基于用户配置的关键词,将收集的信息自动分类,以树型结构的方式进行展现,结构清晰便于舆情工作人员第一时间找到有价值的信息,并实现对敏感信息的有效监控。由于网络转载的现象,网络上存在大量的重复信息,可根据文档内容的匹配程度确定是否重复,对重复信息自动判断和区分,大大节省用户时间。提供了敏感字库,同时可根据用户需求对敏感词库进行设定,信息采集器在运行过程中自动识别信息内敏感词,对于包含敏感词的信息系统提供“不入库”、“入库待审”、“入库已审”等几种处理方式。系统采用基于语义的文本倾向性研究方法,对新闻、评论、论坛、博客、微博中的信息进行整句和整篇情感分析,在计算机层面先进行研判再展现给系统用户。可以利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。
2.4 信息服务模块
通过对采集入库的数据进行智能分析,根据各分类每天采集的信息生成曲线图形式的分析报表,可按每日、每周、每月、每季统计信息的更新情况。通过系统自动分类,根据预设的专题事件关键词系统自动生成专题报道,集中展示相关专题信息,统计出时间发展趋势。对于采集得到的重要敏感内容,经过网络安全管理人员处理生成舆情简报,为学校相关领导决策提供数据依据。可实时预警敏感内容发生,对已有的敏感内容信息库,通过配置预警参数,对增长异常的事件、突发事件、涉及内容安全的敏感话题及时发现并通过页面提示、电子邮件和手机短信等形式报警,通知学校相关管理人员采取措施处理。