前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇网络舆情工作总结范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
根据文件精神,XX街道深入学习落实文件要求,开展了网络环境整治专行动,现将工作开展以来情况总结如下:
一、领导重视,落实责任。XX街道党工委对本次百日攻坚活动高度重视,成立由XX同志为组长的领导小组,制定了工作计划,召开了多次工作会议,并要求所辖各社区成立工作小组,由社区书记为第一责任人开展工作,切实落实工作责任,领导责任。
二、开展网络信息生态整治活动。根据上级文件精神,XX街道在辖区内开展了XX网络生态整治专项行动,针对网络舆情和安全风险点制定了《网络舆情应急处置预案》、《网络安全风险防控预案》从而建立起来一套行之有效的网络舆情和安全风险监测汇报体系,并以“知法守法、依法上网、理性上网”为主题开展宣传活动,通过线上线下联动的方式,充分利用新媒体的优势宣传文明上网观。同时,积极开展辖区内网络从业者和公众号所有者摸排工作,依据上级数据和摸排中发现的新情况对辖区内网络从业者和公众号所有者建立台账,更好的开展日常管理和培训工作。
三、积极开展网络安全工作。针对机关工作中的涉密情况,XX街道制定了相关规定,严格涉密电脑和涉密信息的使用和传输制度,要求涉密电脑专人负责,涉密信息不得网络传输,严格内、外网电脑使用制度,切实落实好涉密信息保密工作。
一、2019年人才工作目标完成情况:
1、加强人才工作典型宣传。研究制定了《**区人才工作宣传方案》,充分利用微信公众号,全面反映我区各单位部门的工作动态、进展成效、典型经验,并择优向市级主流媒体、省级以上权威媒体进行推荐。全年累计在各级各类媒体发稿286余篇,其中《**区双创大街人才引领与平台集聚成效明显》、《金融中心玩起科技孵化年内将有20多个北京项目入驻》等特色稿件被广泛转载。
2、做好重点活动专题报道。以5月份**区人才工作宣传月活动为契机,组织新闻、直播50分、劳动日报、新闻网等市级媒体深入**一线集中采访,现场感知**人才工作成果,并集中刊发了《**区积极开展人才工作宣传月主题活动》、《**大力开展“万众创新、大众创业”活动》等稿件。
3、加强网络舆论的监测与引导。配合市网信办及市直新闻媒体,认真做好对“千人人才计划”和“海外人才引进”等重点内容的网络筛查工作,加强对我区涉及人才工作等相关内容的网络舆情监控工作,正确引导网上舆论。
二、2020年工作设想:
1.持续做好人才工作新闻宣传。围绕区委、区政府人才强区战略,弘扬工匠精神,加快培养高技能人才,助推**高质量发展的部署要求,加强宣传选题策划,着力推出一批精品稿件,不断提高新闻宣传的实效性。
2.组织开展人才工作主题采访活动。聚焦构建“1+5+1”现代产业体系和推动**高质量发展,加强主题宣传策划,在微信公众号等平台开设“智领**”专题专栏,深入基层一线,进行专题采访,报道我区优秀人才的典型事迹和经验做法。
关键词 大学生 日常管理 新媒体 工作模式
中图分类号:G645 文献标识码:A DOI:10.16400/ki.kjdks.2015.07.077
Research and Practice on the College Students’ Daily Management
Mode under the New Media Environment
YU Yong, YE Yugang, XUE Yakui
(College of Science, North University of China, Taiyuan, Shanxi 030051)
Abstract The new media age brings new ideas of the college students' daily management. The college counselors should march forward courageously in the face of new challenge. Medias of the study were wechat, fetion and microblog. The college students' daily management of the patriarch-college-dormitory new mode was designed in this study, and the working practice was carried out, which promoted the working quality of college students’ daily management.
Key words college students; daily management; new media; work mode
高校大学生的日常管理是一项十分具体、繁杂而又细致的长期性工作,主要涉及到学生的思想、学习、生活、心理等各个方面。90后作为当今大学生的主流,由于其成长环境的特殊性,具有思维活跃、个性鲜明、独立自信、勇于表现、抗挫能力弱、辨识力不强等特征。①②随着现代科技的发展和人们生活水平的提高,微信、QQ、飞信、微博等新媒体技术已经渗透到人们的学习、工作中,成为人们生活不可或缺的一部分。新媒体以其传播平台的开放性、传播主体的平等性、传播对象的互动性、传播信息的虚拟性、传播速度的即时性、传播方式的多元性、传播内容的多样性等特点③④⑤而深受90后大学生的关注和喜爱,成为他们获取和交流信息的重要渠道,这为加强大学生的日常管理提供了全新的环境和良好的机遇。但新媒体信息传播的“无屏障性”、虚拟性、多样性等特征⑥⑦⑧⑨也使涉世不深的90后大学生不能及时、正确的鉴别和把握其本质,导致大学生被骗、被害的案例时有发生,虚实世界的差异带来的大学生心理问题屡见不鲜,这都给当前大学生的日常管理带来了新的问题与挑战。因此,深入认识网络,掌握新媒体环境对大学生日常管理的影响,探索新媒体环境下大学生日常管理的有益模式,对于加强和改进大学生的思想政治教育、培育和践行社会主义核心价值观等都有着重要的现实意义,这也是摆在高校政治辅导员面前一项紧迫而重要的研究课题。
1 新媒体技术在大学生群体的应用现状调查分析
以中北大学理学院500余名本科生及500余名学生家长为调查对象,重点针对目前大学生及学生家长使用新媒体技术的现状开展问卷调查,了解学生及家长利用新媒体技术加强学生日常管理的真实意愿;并从辅导员工作的角度,讨论分析了利用新媒体技术加强学生日常管理的可行性。本次问卷共发出1000份,收回有效问卷981份。分别从大学生和学生家长两个层面提出16个问题。
调查结果显示,100%的学生在日常学习、生活中使用飞信、QQ、微信等新媒体手段;41%的学生通过新媒体手段与家长日常联系;97%的学生家长使用手机通讯工具;29%的学生家长会熟练使用新媒体技术;53%的学生不介意学校通过新媒体手段与家长联系;94%的学生家长愿意通过新媒体手段与学校实时联系。调查结果表明,在学生日常管理中,强化新媒体技术的应用是切实可行且具备条件的,学生家长对此也是支持和赞同的。大多数学生家长还是希望通过新媒体手段及时了解、掌握学生在校的学习、生活行为,共同加强对学生的日常管理。
同时,高校政治辅导员作为大学生日常管理的承担者与实施者,其既是科学、高效管理的研究探索者,又是利用新媒体手段加强学生日常管理的创新实践者。同时,辅导员也是新媒体技术的应用者,与学生有共鸣之处。在学生日常管理工作中,飞信、QQ、微信等新媒体手段的广泛应用,也为辅导员探索新媒体环境下大学生日常管理的有益模式提供了可能,其可通过模式设计―实践检验―总结推广系列思路完善大学生日常管理的有效途径,以增强其实效性,提升工作质量。
2 新媒体环境下大学生日常管理新模式实践探索
传统的高校学生日常管理模式具有点对面单向灌输说教、信息延迟滞后、缺乏互动交流、教育实效不佳等缺点,⑩已不能适应新媒体时代面向90后大学生的教育要求,亟待创新大学生日常管理的工作模式。同时,公寓作为大学生日常活动的主要场所,其在公寓内的行为直接影响高校养成教育的质量,而目前学生公寓内沉迷游戏、物品脏乱等不良生活习惯都对学生的日常管理造成严重的影响。此外,还有部分学生因家长不在身边,游离于校园外做出不良行为等等。
鉴于此,本研究利用中北大学政治辅导员进公寓的契机,实现了辅导员在公寓内与学生同吃、同住、同学习、同活动的预期目标。在此基础上,充分利用飞信、QQ、微信、微博等新媒体手段,联合学生家长对学生在公寓内、外的日常行为进行实时管理与监督,充分发挥家长、学校、新媒体技术三者各自的优势,实现公寓内、外学生言行一致的养成教育,提升学生综合素质。
在此,本研究选取了中北大学理学院1000余名本科生及2000余名学生家长作为研究对象,选用飞信、微信、微博三种新媒体手段作为研究内容,提出家―校―公寓三方共管模式,针对学生日常行为管理、心理干预、网络舆情监控等方面开展了研究与实践。学生日常管理过程包括日常事务、公寓行为、课堂行为、学风案例、常识普及、舆论引导等方面,相关新媒体条件下的工作模式分为以下三种:
2.1 微信推送互动模式
本模式适用于熟练应用网络技术的学生及家长群体,可针对学生在公寓内、外的日常行为实现实时互动管理,工作流程图如图1:
图1
作为一个微时代下诞生的主流新媒体平台,微信以其极致的多功能体验而成为人们的一种生活方式。本研究中构建了家(学生家长)―校(辅导员、班主任、任课教师)―公寓(学生宿舍)模式的班级微信群、年级微信群、专业微信群以及学院微信群,以学生公寓行为(网络应用、卫生习惯、生活作息、文化建设等)和日常管理工作(上课、早操早读、班级活动、制度落实、特殊群体等)的检查与开展为研究对象,发挥微信新媒体即时推送、实时互动、多点共鸣、音视频情感沟通等优势,联合家长,第一时间将学生不良行为消灭于萌芽状态。同时,多层面的学生―家长―学校循环“”型讨论群对学生的舆论督促力量更胜于制度约束,这对于加强学生日常管理以及良好公寓行为的养成都有着积极的推动作用。
2.2 飞信通知模式
本模式适用于网络技术受限的学生及家长群体,可针对公寓内、外的学生行为实时通知,工作流程图如下:
图2
飞信模式的优势在于信息接收端不受网络限制,学生及家长可随时收到短信通知,这对于手机通讯工具广泛普及的今天,提高信息数量、质量及效率都有着特殊的意义,基本实现了即时信息对学生及家长的瞬间全覆盖。
2.3 微博交流干预模式
本模式适用于网络虚拟班级建设,通过“人人是博主”的开放性管理形式,联合家长的教育力量,群策群力,提升日常管理工作质量,积极开展心理干预及网络舆情监控等工作,工作流程图如下:
图3
与封闭联络平台微信区别的是,微博是一种开放、高效的展示平台,其实现了博主与粉丝的差时交流与关注。本研究中构建了以“班级微博”为主的网络虚拟班级,实施“一周一人当博主”的工作模式,将现实班级工作有选择地搬迁到网络班级中,以博文的形式讲发展、谈建设、做工作,充分发挥每个人在班级建设方面的主体性,让每个同学都成为班风建设的主人。同时,鼓励家长关注并参与班级建设,关注学生的成长与思想,协同学校一起做好学生的日常管理工作。此外,透过博文及交流互动内容,班主任和家长还可了解到学生的思想状态和心理状态,在第一时间有的放矢地开展学生的心理干预、思想引导、网络舆情监控等工作,努力将学生的不良隐性问题及时纠正和治愈。
3 新媒体平台下的日常管理工作总结
中北大学理学院“新媒体中心”成立于2013年9月,当年10月开始构建微信、飞信、微博等新媒体平台,12月开始试运行。历经一年的调试应用,到2014年12月已实现稳定运行,且在班级学风建设、团日活动、宿舍文化、特殊群体跟踪教育、安全教育与管理、心理干预、文明礼仪养成等方面初显成效,学生旷课、旷操、违纪比例明显下降,宿舍良好行为习惯基本形成,班风、舍风积极向上,比、学、赶、超的格局逐渐强化,部分团结、和谐、奋进的优秀班级已成为大学生成长的“优质摇篮”。同时,学生家长参与学生日常管理的热情极高,有些家长已形成“日刷微博日留言”的生活习惯,身临其境地感受着学生成长的点点滴滴。总之,理学院在新媒体环境下的大学生日常管理新模式得到了学校、学生、家长以及老师们的广泛认可,具有深度挖掘和积极推广的现实意义。
注释
① 刘笑.90后大学生日常管理创新模式探析[J].黑龙江科学,2014.5(10):257.
② 武月明.浅议大学生日常教育管理的有效方式与途径[J].山西农业大学学报(社会科学版),2011.10(6):548-550.
③ 徐振祥.新媒体-大学生思想政治教育的机遇与挑战[J].思想政治教育研究,2007(6):64-66.
④ 张硕.新媒体背景下大学生教育管理工作探讨[J].北京教育(德育),2012(1):41-42.
⑤ 毛近菲.新媒体对高校大学生党员教育管理工作的影响及对策[J].南通职业大学学报,2013.27(2):25-27.
⑥ 蒋蕾.新媒体时代大学生思政工作的管理方法[J].理论观察,2013(11):132-133.
⑦ 汪E.新媒体对“90后”大学生思想政治教育的新挑战[J].思想教育研究,2010(1):71-74.
⑧ 蔡莉.新媒体时代大学生思想政治工作新模式构建[J].科教文汇,2014.6(C):8-9.
新闻观念方面
变被动宣传为主动创新
对于重大主题报道,媒体从业人员由于长期受既定思维局限,多将重大主题报道当作对既定主题的宣传。于是,经验性的操作成为常态,以过去的机械流程生搬硬套,将重大主题报道做成了八股式的命题作文,缺乏新鲜性。要改变这种状况,媒体从业人员应该从思想深处摆脱以被动宣传应付差事的心态,树立创新的新闻工作观念。实际上,重大主题报道是一座“新闻富矿”。重大主题报道一般是在党委、政府作出了重大决策,或配合党委、政府的中心工作推出的,而党和政府的工作都与人民群众的切身利益或长远利益紧密相关,这就为媒体创新重大主题报道提供了一个绝好的基础,那就是在党和政府想做的、群众需要做的、媒体应该做的这三者交叉点上做文章。关键在于我们能否将被动宣传变为主动创新,积极严格地按新闻规律办事,善于在“重大主题”的领域里发现、挖掘、处理富有新闻价值的报道素材,从而把重大主题报道当作媒体提升影响力的一个重要抓手。
主题策划方面
变图解式报道为多样化报道
做好重大主题报道,主动研究、周密策划是十分重要的环节。目前,面对重大主题报道,许多媒体由于思想上缺乏深刻认识,或受制于人力资源短缺等客观条件,不肯或难以在新闻策划上下大力气,甚至根本没有新闻策划,只是一味地满足于“图解式”“脸谱化”的简单机械报道方式,以致报道开掘不深、立意不高,既不叫好也不叫座。这方面的表现主要有三种形式:1.主题先行。重大主题报道应突出主题,但并不等同于“主题先行”。2.视角单一。重大主题报道策划容易落入“自上而下”的单一视角俗套。3.缺乏互动。原先囿于传统媒介技术在互动方面的缺陷,无法及时接收到受众的反馈信息。随着科技的发展,特别是互联网技术的推动,这个问题在技术层面已经得到了很好的解决,但新闻人的意识却没有与时俱进,而是仍然局限于过去的传者本位,忽视受众的参与。这也是重大主题报道虽然花费了大量的人力、物力,却无法获得预期效果的重要原因。
重大主题报道要加强传播的有效性,就必须充分利用不断发展的媒介新技术,要重视对网络资源的利用,使自身报道与网络舆情产生良性互动,将网民对党委、政府中心工作的意见、想法和需求,以适当的方式在媒体上呈现出来,从而体现主题报道的亲和力和贴近性。在具体策划中,一方面应细化重大主题,将每一个重大主题有机切分为若干小主题,一个一个来解析,以贴近受众的关注点;另一方面,在与受众互动中,对“异质思维”要有包容性,在把握正确舆论导向的前提下,多反映普通人的心声。
采访写作方面
变宏大叙事为具体描绘
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的Kmeans++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。
关键词:
潜在狄里克雷分配;主题模型;Kmeans++聚类;聚簇评价;热点话题
0引言
作为Web 2.0技术迅猛发展的产物,网络论坛使人们能更多地参与到日常话题的互动中,因此论坛成为了重要舆情的发源地与传播地。及时地发现舆情有利于政府部门的治国理政,也为企业的发展决策、危机公关处理等提供了舆论向导,因此热点话题挖掘成为了舆情监测领域的一个重要研究方向。
对于热点话题挖掘的问题,相关研究人员进行了大量的研究。丁伟莉等[1]对博客用向量空间模型建模后使用SinglePass算法进行聚类来发现其中的话题;邱立坤等[2]在对网络论坛中文本数据用向量空间建模并聚类后利用点击数与评论数对结果排序来发现热点话题;王伟等[3]对用传统向量空间模型表示的网页信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚类算法进行两次聚类来发现热点舆情。以上研究中都用到了向量空间模型表示文本,它并没有融入语义信息,这会使得语义不相关的信息出现在同一聚簇中,从而造成了主题信息的丢失,影响了聚类的效果。席耀一等[4]与刘嵩等[5]在对论坛话题追踪时利用知网语义库为词汇加入了语义信息,并用它作为文档表示模型来计算文档的语义相似度[6],这种方法在很大程度上缓解了主题丢失的问题,但论坛信息的快速更新使得这种融入了监督成分的方法仍然不能达到理想的效果,而且维护知网语义信息也是个难题。刘霄等[7]通过利用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)主题模型为Twitter数据建模来发现突发的热点话题,PLSA成功地利用概率统计的方法来为文本建模,但它并没有在文档与主题的层面上给出一个合适的概率模型,PLSA中文档的主题分布与主题中词的分布是模型的参数,它们会随着文档增多而增加,这样它只能生成给定文档集合上的模型,在新的文本加入时还要重新训练,另外当训练集有限的情况PLSA还可能会出现过度拟合的现象[8]。
本文热点话题挖掘的研究对象是网络论坛数据集,它不同于新闻网页中经过专业编辑处理过的文本,它有着自己的特点:1)口语化,帖子者来自不同的地方,也有不同的经历与背景,在表达同一观点时措辞会有很大不同,经常会有错别字或网络新词汇产生,这就使得词汇噪声较多;2)篇幅差距较大,有些帖子的论述比较多,另一类只通过帖子的标题来传达信息,这会造成词汇矩阵稀疏的问题。
针对以上研究中的不足以及论坛文本数据的特点,本文采用潜在狄里克雷分配(Latent Dirichlet Allocation,LDA)主题模型对论坛文本数据建模,在对数据集进行聚类基础上提出基于主题聚簇的评价方法对聚簇进行排名。该方法在考虑主题的关注度同时,还对聚簇内部所含主题的突发性与主题纯净度加以考虑。通过对最有可能出现热点话题的聚簇进行信息抽取后设计话题展示的方法来完成热点话题挖掘任务。
1系统整体框架
对论坛文本集预处理后用LDA主题模型建模,将文本表示由高维词汇空间映射到了低维主题空间,这样就去除了词汇噪声的影响,之后用处理规模相似的训练集进行聚类实验,从对聚类的速度与效果两方面考虑得出合适的主题噪声阈值与聚类中心数目,然后用优化聚类中心选择的Kmeans++算法对主题空间中表示的文本集合进行聚类,之后通过主题聚簇用评价方法对出现热点话题可能性赋予权重,最后从最有可能出现热点话题的聚簇中用本文提出的描述方法提取出热点话题信息作为展示。
2论坛热点话题挖掘
2.1论坛文本建模
2.1.1LDA主题模型
LDA主题模型是一种三层贝叶斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以无监督的学习方法从文本集合中发现其中隐含的语义信息。
根据LDA模型的描述,文本集合可以按以下算法生成。
2.1.2模型求解
LDA主题模型求解模型的过程就是在给定模型参数的条件下,最大化式(2)中描述的每个文档的生成概率的问题:
p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2
LDA模型求解是困难的问题,很难有精确的解法。实践中常用到的有两种不精确的解法:一种是基于变分法的EM(EstimationMaximization)算法求解[8];另一种求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一种,其理论基础是马尔可夫链收敛定理,通过构造符合马尔可夫链细致平衡条件的状态转移矩阵,让任意给定的初始分布通过转移矩阵迭代转移,使其收敛到目标分布。Gibbs Sampling算法采样公式推导起来简单而且实际应用中运行效果也十分理想。
Gibbs Sampling求解方法采用了与式(2)提到的方法所不同的思想,它不直接将φ与θ作为模型参数来估计,而是先计算后验概率p(z|w),再对模型隐含变量进行估计。以下是Gibbs Sampling算法求解LDA模型变量的步骤。
2.1.3论坛文本建模
本文采用了JGibbsLda[10]LDA建模工具对预处理后的论坛文本数据进行建模分析。参考文献[11]中LDA主题模型参数的经验值,取α=50/K, β=0.1,其中K为指定的潜在主题数,Gibbs Sampling的次数N设为1000。
Gibbs Sampling算法结束时会产生两个矩阵:
大小为M×K的文档——主题分布矩阵,其中M为论坛文档集数目;大小为K×Nw的主题——词的概率分布矩阵,其中Nw为文档集中词汇表的大小。
2.1.4主题噪声去除
通过对文档集主题分布矩阵观察发现,每个主题分布中会出现一个或几个突出的主要主题,其他次要的主题所占的比重可以忽略。为了突出主要主题的影响,采用了以下规则对主题噪声进行去除:假设每个文档的主题分布中概率值最大的为主要主题记作Tmain,它的概率记作P(Tmain),设定阈值δ,对于除主要主题外的其他任何主题Ti,如果P(Ti)
2.2主题空间Kmeans++聚类
传统的Kmeans聚类算法中,聚类中心的选择是个关键的步骤。大多数用到的随机选择的方法会导致每次聚类的结果有差别而不能很好地反映聚类的真实情况,所以对映射到低维主题空间的论坛数据采用优化聚类中心选择的Kmeans++算法[11]对论坛数据进行聚类。Kmeans++算法如下:
设D(x)为文档x到已有的聚类中心中最近的距离;X为数据点集合;
步骤1从X中随机选择一个点作为第一个聚类中心c1;
步骤2以概率分布D(x)2/∑Xx=1D(x)2选择数据点x∈X,并将它作为新的聚类中心ci,更新D(x);
步骤3重复步骤2直到找到K个聚类中心;
步骤4执行标准的Kmeans聚类算法对数据进行聚类。
对于最优聚类中心数的确定,可以在已知处理数据集规模条件下进行聚类实验,从中心数的设定对聚类质量与速度的影响选出最优值。
2.3主题聚簇评价方法
为了发现热点话题,本文提出了一种主题聚簇评价方法对出现热点话题的可能性进行权重赋值。
假设聚类中心各个主题分量的概率分布矩阵表示如下:
其中:C为聚类中心数;K为主题数;p(k,c)表示主题k分配在聚类中心c的概率,k∈K,c∈C且对于任意c∈C,∑Kk=1p(k,c)=1。
尽管聚类算法已经将主题描述不相关的帖子分开,但依然存在一些主题,它们在每个簇中的分布情况非常均衡,这样的主题因为其普遍性而少了突发的特征,本文采用主题在各聚簇中的分布均衡情况来描述主题突发性。
定义1设C为聚类中心总个数,p(k,c)为聚类中心c中主题k的概率分布值,那么主题k突发度PromDeg(k)定义如下:
PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7
当得到了各个主题的突发度后,将各维度中主题的突发度与其所占的概率加权求和,很容易得到总的主题突发度,用它作为衡量聚簇主题突发性的标准。
定义2假设PromDeg(k)表示主题k的突发度,p(k,c)为聚簇c中第k维主题的概率值,其中k∈K,K为主题数,那么聚簇c的主题突发度为:
PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8
在主题聚簇中,可以将聚簇表达的信息表示为在主题上一定概率的混合,纯净度高的聚簇可以更清楚地表达主题信息,而热点话题聚簇会因为其主题的聚集趋势明显而使得纯净度高。信息熵是信息论中度量信息量的概念,系统的状态分布越有序,信息熵越小。以聚簇的主题信息熵为依据,定义衡量聚簇主题纯净度的标准。
定义3假设K为主题数,p(k,c)为聚类中心c在第k维主题的概率,那么聚簇主题纯净度Purity(c)为:
其中γ为平滑值,防止主题信息熵为0。
为了衡量聚簇的热度,融入人为参与因素,赋予聚簇不同的关注度权重,文本采用单位时间内点击数与回复数来对聚簇的关注度进行描述。
定义4假设T2为采集时间,T1为发贴时间,φ为调整回复数与点击数的权重,repNum、clickNum分别是帖子的回复数与点击数,N为聚簇中包含的帖子总数,那么聚簇c关注度AttenDeg(c)为:
AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10
将聚簇主题突发度、主题纯净度、关注度三个评价标准综合进行考虑可以得到每个聚簇含有热点话题可能性的归一化的评价公式:
S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)
其中Cj代表了第j个聚类。
2.4热点话题提取
对聚簇按出现热点话题的可能性排序后,通过找出与聚类中心所描述的主题拟合程度最高的帖子,并抽取出最能描述热点话题的标签,来完成热点话题挖掘的工作。
由于聚类中心反映了聚簇中的平均的主题分布情况,通过找出与聚类中心语义相似度最大且关注度最高的帖子作为包含热点话题的帖子样例。本文使用JensenShannon散度[12]来计算帖子主题分布与聚类中心之间的拟合程度。JensenShannon散度公式如下:
DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,请明确。
其中M(k)表示两概率分布中同一维度上的概率均值,可用式(13)来表示:
M(k)=12(P(k)+C(k))(13)
其中:P为帖子在主题空间的概率表示,C为聚类中心在主题空间的概率表示,K为主题空间的维数。
最后找出聚簇中占比重最大的主题,统计出在此主题下出现频率最高且出现概率最大的若干个词汇作为热点话题的标签化描述。
3实验与结果分析
3.1主题噪声阈值与聚类中心数的确定
对主题空间中表示的文本进行聚类时,不同的主题噪声阈值与不同的聚类中心数目选择会对聚类的质量与速度产生不同的影响,而目前并没有合适的规则对两个值进行选择。通过对不同的主题噪声阈值与聚类中心数进行训练,选择出最优的聚类参数。
聚类效果的评价标准采用平均聚簇内误差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇内部的样本点越集中,聚类质量越高,其形式如式(14)所示:
ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)
其中:xcn 为聚类c中的第n个样本点,xc为聚类中心。
实验中选择了2763篇论坛帖子作为训练集,聚类采用Kmeans++算法,主题噪声参数范围设为[0,1],聚类中心的数目选择为[5,100]。图3与图4分别显示了不同的主题噪声与聚类中心选择对聚类质量与速度的影响。
实验结果表明:聚类中心选择不同值时,当主题噪声阈值在区间[0,0.7)时,聚类结果的ASSE值会显著降低,阈值在区间[0.7,1)时,ASSE值不会发生明显变化,为了考虑次要主题对话题描述的意义,将主题噪声阈值设置为0.75;图4中的峰值显示当主题噪声阈值设置过大,聚类中心数目较少时聚类时间开销较大且不稳定,当阈值过小,聚类中心数目多时也会出现相同的状况,考虑到聚类质量相对较优的情况下,参照图中时间开销较低的区域,将聚类中心数目选择为50,这样就可以在保证聚类质量同时提高聚类算法效率。
3.2聚簇评价与热点话题发现
本文采用的实验数据来自用户活跃的天涯论坛的经济论坛、股市论坛、理财前线、房产观澜这4个版块,通过网络爬虫采集了从2013年7月1日到7月5日的帖子共11200篇。采用LDA主题模型对预处理后的数据进行建模,主题个数K取100,模型的参数选择原则为2.1.3节中所述。主题噪声阈值设为0.75,之后将数据用Kmeans++算法进行聚类,聚类中心数N设为50,最后对主题聚簇用评价方法对出现热点话题的可能性进行权重计算。
为了详细分析主题聚簇评价效果,在图5中列出了2013年7月2日当天排名前4的聚簇各评价因子权重。从图中分析得出:虽然有些主题聚簇的突发性与纯净度得分高,但关注度很低,可以判断这是一类灌水贴,不能当作热点话题;而热点话题的特征是关注度高,而且突发度与主题纯净度得分也比较高。图中标注的是排名最高的4个话题聚簇的主题词依次是:大盘、板块、期货;货币、流动性、银行;百姓、货币、物价;收益率、期限、风险。
4结语
本文基于LDA主题模型与Kmeans++聚类算法,提出了一种在论坛中挖掘热点话题的方法。主要工作总结如下:
1)将LDA主题模型用于论坛文本数据建模中,挖掘其中语义信息,解决了论坛数据中词汇噪声多的问题,同时避免了文本表示中矩阵稀疏的问题。