首页 > 文章中心 > 社交媒体文本分析

社交媒体文本分析

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇社交媒体文本分析范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

社交媒体文本分析

社交媒体文本分析范文第1篇

关键词:金融学研究;文本大数据;数据挖掘;深度学习

在针对金融学领域进行实证研究时,传统研究方法通常选择结构化数据作为研究依据,常见类型如股票市场数据、财务报表等。大数据技术发展后,计算机技术逐渐成熟,在实证研究中可获取更加多样化的数据,非结构化文本大数据得到应用,例如:P2P网络借贷文本、财经媒体报道、网络搜索指数、上市公司披露文本、社交网络文本等。本文探讨了相关文本可读性、相似性、语气语调与语义特征等。

1.在金融学研究中文本大数据的挖掘方法

传统研究方法通常采用人工阅读方法对文本信息进行识别,因为文本数量庞大、信息构成复杂,人工识别效率较低,而且信息识别质量不稳定,信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据,利用计算机技术获取语料,对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后,在研究分析中使用文档特征,从而开展深入分析[1]。在分析文本大数据时,主要采取如下流程:(1)从众多信息来源中获取语料,对语料文档进行解析,明确文本定位,清洗数据,获得文本分词,标注词性,将其中停用词清除。(2)构建词云、词嵌入、词袋模型与主题模型。(3)分析文本情绪、可读性、相似性,分析语义关联性。(4)监督机器学习、词典语法处理[2]。

1.1获取语料

获取语料的方法主要分为两种:(1)人工获取;(2)利用网络工具爬取或抓取。其中人工获取语料投入成本较高,耗时较长,需要投入大量人力,因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量,在一定程度上降低文本大数据获取难度。在网络抓取语料时,需要借助编程语言,通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势,不仅获取文本信息耗时较短,效率较高,而且可直接使用编程语言整理内容和规范形式,为后续文本分析工作奠定基础[4]。

1.2预处理环节

获取目标语料后,前期需要预处理文本,解析、定位文本,清洗数据,标注分词与词性,最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式,文本预处理中首先需要解析富格式文档,获取文档信息。定位文本和清洗数据环节中,利用计算机程序定位文本信息[5]。在该类研究中,MD&A研究热度较高,使用正则表达式进行财务报告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心内容结构外,还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等,该类信息在文本分析中属于噪声内容,需要删除和清洗相关信息,从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词,即自然存在分词形式,也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词,根据中文语言习惯,词语为最小语言单位,可独立使用。基于此种背景,分析文本时需要专门分词处理中文文本,例如:使用Python开源“jieba”中的中文分词处理模块处理文本,股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理,完成分词。在针对中文文本进行分词处理时,其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时,需要科学选择分词方法,采用“jieba”针对文本进行分词处理时,选择分词模式是否科学直接影响分词精准度。分词处理新词时,需要用户在相应模块中自行添加新词,完善自定义词典,从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征,词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别,避免词语歧义,对语法结构进行有效识别,从而促进计算机顺利进行语义分析。词性标注时,中英文操作方法不同,词性划分英文单词要求比较严谨,利用词尾变化反映词性变化。在英文词汇中,许多固定词尾可提示详细词性信息。在处理中文词语中,并无明确词性指示,词性识别依据主要为语法、语义等。简言之,英文词性识别标记注重形式,汉语词性标记以语义为主。在处理文本信息时,需要将文本信息中停用词去除,从而保证文本挖掘信息具有较高精度。所谓停用词,即自身词义表达有限,然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度,导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂,必须结合语言习惯分析停用词,不仅需要处理特殊符号、标点符号,还需要处理连词、俚语。除此之外,应根据具体研究内容确定停用词。在进行文本情绪研究时,特定标点符号、语气词等会影响文本表达的情感信息,对于此类信息需要予以保留,从而保证文本情感程度得到准确分析。

1.3文档表示环节

文本数据为高维度数据,具有稀疏特点,使用计算机处理文本数据时难度较高,预处理实施后,必须通过特定方式表示文档信息,通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点,是文本大数据技术之一。所谓本文可视化,即使用视觉符号显示复杂内容,展示文本规律。根据生物特性,人们习惯于通过视觉获取文本信息,实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率,采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9],以此种假设为前提,文本相当于众多词语集合,采用向量化方法表达文本,在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法:(1)独热表示法;(2)词频-逆文档频率法。前者的应用优势是可行性较高,操作难度较低。例如:现有如下两个文档:(1)文档一:“经济学中文本大数据使用”;(2)文档二:“金融学中文本大数据使用”。以文档一、文档二为基础建设词表,根据词序实施词袋化处理,确定词袋向量。对于出现的词,以“1”表示,未出现的词以“0”表示。但是在实际操作中,不同词语在文档中出现频率存在差异,通常文本中高频词数量较少,许多词汇使用频率较低。为体现文档中不同词语的作用,对单词词语赋予权重。TF-IDF是计算文档定词语权重的有效方法。含有词语i文档数描述为dfi,集合中文档总量描述为N,逆文档频率描述为idfi,第j个文件中词语i频率描述为tfi,j,第j个文档内词语数量描述为aj,第i个文档内词语i权重描述为tf-idfi,j,则公式应表示为[10]其中,的前提条件是不低于1,0定义为其他情况。较之独热表示法,TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高,其重要性越高,与此同时语料库中该词汇出现频率越高,则其重要性相应降低。词嵌入处理中,主要是在低纬度连续向量空间嵌入指定高维空间,该高维空间维数包括全部词数量。在金融学领域中进行文本研究时,词嵌入技术通常采用Word2vec技术,该技术中主要使用CBOW技术与Skip-Gram神经网络模型,针对神经网络进行训练,促使其有效捕获词语中包含的上下文信息,对词语进行向量化映射,得到的向量语义信息更加丰富,信息密度更大,信息维度更低。主题模型中应用频率较高的是LDA模型,应用此种模型进行文本分析属于无监督机器学习法,通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时,将生成文档的过程分为两步,首先假定各文档具有对应主题,从这些主题中抽取一个主题,然后假定文档具有对应词汇,对比之前抽取的主题,从词语中选取一个与主题对应的词语。完成上述迭代后,将其与文档中各词语拟合,从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是,与手动编码相比,该模型性能更完善,可有效分类大规模文档。该模型做出的文本主题分类支持复制,准确性较高,而采用人工手段分类文本时较易受到主观性影响。此外,使用此种模型时,无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时,受到研究者主观因素影响,选择主题个数的数量受此影响显著,因此生成主题过程与归类文本主题时较易受到相关影响。

1.4抽取文本特征的方法

文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性,保证投资者通过阅读文本可有效理解文本信息,即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数,该类研究认为,迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时,常见的问题是,随机排序句子中词语将导致文本难以理解,然而正常文本和经过随机排序处理的文本在分析计算时,显示相同迷雾指数。不仅如此,在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷,例如,当对企业披露信息进行可读性分析时,难以有效划分年报可读性与该企业实际复杂性。基于此种背景,在针对年报文本可读性进行评价时,需要结合企业业务复杂性等影响,提出非文本因素[11]。在提取文本情绪时,通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后,该类研究即支持复制。不仅如此,建设词典时还需要融合大量金融学专业知识,从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪,针对财务报告进行语气语调分析,以及进行电话会议等进行语气语调分析等。中文大数据分析时,通常是以英文词典、词库等为模板,构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率,评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时,重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集,工作量较大,并且人工编码较易受到主观因素影响,分类效果鲁棒性较差,并且研究难以复制。其优点是分类精确度较好。

2.文本大数据分析

大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征,分析其可行性、相似性、语义特征、语气语调等,然后分析股票市场行为与文本特征等相关性。分析披露文本信息时,主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时,重点是分析文本可读性、相似性,以及分析语气语调。披露文本可读性较高时,有利于投资者有效获取公司信息,影响投资行为。迷雾指数理论认为,财务报告具有较高可读性的企业通常具有更长久的利润。此外,有研究者提出,财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时,公司为减轻此种消极影响,可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时,披露文本语气语调具有重要参考价值。相关研究认为,MD&A语气内含有增量信息,该类信息为企业长效经营能力进行预测,同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中,此种语气分散情况与经营决策具有相关性,同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时,主要关注媒体情绪,分析媒体报道着眼点,针对经济政策进行分析,了解其不确定性,此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时,主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面,主要通过搜索指数了解投资者关注度。

结语

社交媒体文本分析范文第2篇

我们都知道数据可以分为两大类,一类是数字和符号这样的结构化数据,另一类则是文本、图像和音频这样的非结构化数据。如今,IT领域谈到的“大数据”中,80%以上属于非结构化的数据,而文本又是非结构化数据中最重要的部分。尽管现有技术对数字信息进行分析有相对成熟的方案,但如何高效地分析海量文本信息一直是业界的一道难题。

微软亚洲研究院网络图形组主管研究员刘世霞博士告诉CHIP,之所以现有的文本挖掘技术不够用,首先是因为目前技术尚处于研究阶段,精准度不够;其次是因为技术的灵活性不足,很难满足不同人的需求。她和同组的副研究员崔为炜以及香港科技大学屈华民教授共同主导的TextFlow项目在破解这个难题方面提出了新的思路,他们将文本挖掘技术与可视化这种交互技术结合在一起,不仅突破了传统静态文本挖掘技术的限制,而且能让人利用直观的流式图形迅速把握海量信息的发展脉络。在国际最顶尖的信息可视化学术会议IEEE InfoVis 2011上,TextFlow论文的引发了业内人士的关注。有评委表示,“该论文的主要贡献是在海量文本分析中引入主题合并和分裂的理念,这是分析主题演化时面临的最大挑战之一,从文本挖掘和可视化两个角度来说都意义非凡。”

有趣的是,他们在论文中以自身最熟悉的领域——可视化研究作为其中一个案例,将2001年至2010年间发表在IEEE Vis和InfoVis两个学术会议上的933篇论文作为文本数据集合,通过TextFlow模型得出了与实际学术发展潮流相当吻合的图表,其结论令人信服。例如,整体上看,过去10年间Vis相关主题有日渐式微的趋势,2006年之后各个主题独立发展;InfoVis与之相反,整体的趋势是上升的,主题之间的合并和分割非常多,说明该领域的研究更活跃。

他们是如何做到的呢?崔为炜向我们解释了文本可视分析的步骤(如上图所示)。首先,主要由机器来完成海量文本的收集和预处理工作。然后,利用自然语言分析中的概率模型HDP(Hierarchical Dirichlet Process)计算出文本所属的主题(topic)。这里假设每个主题都是由一组关键词来描述的,关键词以不同的概率出现在不同的主题中,每篇文章自然也会以一定的概率属于不同的主题(注:传统聚类方法会认为每个文本只属于一个主题)。刘世霞强调,HDP模型的优势是可以自动确定文本中的主题数量,但是它只能计算出一组静态文本数据的主题,无法进一步找出主题之间的关系。2010年的时候,他们成功改进了HDP模型,将这个语言模型扩展到能处理动态的文本数据流。简单地说,就是跟踪比较T1和T2两个时刻文本内容的变化情况,由此来确定主题之间是否发生了合并或者分裂。文本分析的最后一步就是利用前面得出的主题演化结果,计算出其中的关键事件和关键词,从而更好地展示事件发展的来龙去脉。

在谈到TextFlow模型对于主题合并和分割判断的准确率时,刘世霞表示目前还没有一个固定的样本集可供测试,但把多个领域的分析结果拿给相关领域专家查看时,他们都认为结果比较准确,可以达到满足应用的水平。另外,我们还了解到TextFlow模型的主要算法本身与语言是无关的,中文与英文的区别主要在于海量文本预处理阶段的分词技术,这方面已经有成熟的技术可以完成。

William Ribarsky是北卡罗莱纳州大学Charlotte可视化研究中心创始董事,非常关注微软亚洲研究院在文本可视分析方面所做的工作,他在美国召开的一次学术会议的发言中提到刘世霞所做的交互式可视文本分析,并称“这项成果令人刮目相看”。在扑面而来的大数据时代,相信未来利用TextFlow模型可以做许多帮助企业提升生产效率的事情。崔为炜向我们演示的案例中既包括对历史新闻事件的回放,也包括跟踪社交媒体的数据预测即将发生的新闻事件。由此引申开来,所有之前难以度量的文本数据或许都能迎来一次重生的机会。在信息时代,谁能把握住信息的脉搏,谁就能更好地把握住时代的脉搏。

文章开头虚构的面试题,大家找到答案了吗?

声音

我们应该把文本挖掘技术和可视化这种交互技术结合在一起,让人去做人擅长的事情,机器去做机器擅长的事情。机器擅长做什么呢?机器比较擅长去存储,做大数据量的运算,而人有分析的能力。因此,我们的工作主要就是把人的智能和机器的计算能力结合在一起。

——刘世霞

微软亚洲研究院网络图形组主管研究员

通过对海量新闻的集合进行数据挖掘,可以知道大概发生了什么事件,但我们利用文本可视分析还可以在此基础上得出这些事件之间的关系,从而帮助人们更准确地把握信息的脉搏。

社交媒体文本分析范文第3篇

本文将首先讨论非结构数据处理流程涉及到的主要算法和技术,并在最后列出非结构化处理在典型行业的一些实际应用案例。

一 非结构化数据处理流程

非结构化处理流程主要以网页处理为例来阐述,包括三个阶段,分别是信息采集、网页预处理和网页分类。

信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程;网页预处理主要是进行一些数据清洗的工作,保证分类质量;网页分类工作则是通过数据挖掘算法训练出来的分类模型,对分类数据进行分类提炼,得出有价值的信息。

信息采集

信息采集面对的是特定的专业人群,其采集的信息只限定于特定的主题和相关的领域,出于对性能和成本的考虑其不必也不可能对整个互联网进行遍历,因此主题信息采集中通常需要研究以何种方式预测链接指向的页面与主题的相关性,并判断其是否值得访问;需要研究以何种爬行策略访问Web,以在尽可能多地采集到主题相关页面的同时尽可能少地采集到主题无关的页面。

信息采集的基本方法是通过预先设定的种子链接集,利用HTrP协议访问并下载页面,在用各种分析算法分析页面与主题的相关性之后提取出待访问的链接,预测链接指向主题相关页面的可能性,再以各种不同的爬行策略循环迭代地访问网页。

信息采集根据基于主题的不同可分为以下两类:一类是基于内容的主题信息采集:它需要建立一个针对主题的词表。另一类是基于超链接的主题信息采集:它是基于网页之间的引用关系,类似Page rank算法。

网页预处理

网页预处理部分本文主要介绍一下网页去重,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。

网页去重需要先对文档对象的特征抽取,需要将文档内容分解,由若干组成文档的特征集合表示,该步骤主要是为了方便特征比较计算相似度。之后需要针对特征的压缩编码,主要通过哈希编码等文本向数字串映射方式以方便后续的特征存储以及特征比较,起到减少存储空间,加快比较速度的作用。最后需要进行文档的相似度计算,这一步需要根据文档特征重合比例来确定是否重复文档。一般是对网页提取一个信息特征,通常是一组词,或者是词加权重,调用特定的算法,转化为一组代码,也被称为指纹。若两个页面有相当数量的相同指纹,那么可以认为这两个页面内容重复性很高。

网页分类

分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确地分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。

在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等等。

网页分类方法有SVM分类方法和朴素贝叶斯方法:其中比较推荐的是SVM分类方法,Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(SupportVector Machine,简称SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法。

典型的SVM分类有两种,一种是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;另一种是基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

典型的朴素贝叶斯分类,它可以分为模型训练、模型分类和分类结果评估三个阶段:模型训练阶段,主要计算训练集下所有类别的先验概率,以及所有特征词在每一个类别下的条件概率;模型分类阶段,对训练集建立模型;对每个待分类文档计算后验概率,后验概率大的类别为文档所属类;分类结果评估阶段:对分类结果进行抽样、人工检验。分别计算出每个类别分类的查准率和查全率,通过F―度量公式评估模型准确度。

二 自然语言处理的典型方法与应用

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

自然语言处理部分主要以舆情分析为例,舆情分析系统的数据来源有三个渠道,一是网络上公开的信息,如各大交易所每日评论,社交网络各方观点和财经门户网站。二是从合作方获取的信息,如交易信息等。三是微博、人人网等社交网络信息。

网页信息摘要

网页信息摘要需要将同一主题下的多个文本描述的主要信息,按压缩比提炼出一个文本的自然语言处理技术。对于互联网上海量的期货分析报道,如果能从中提炼出一个覆盖性强、形式简洁的摘要将具有重要的意义。

如何收集企业的战略信息?面对海量信息,一个研究员需要花费4个小时阅读相关信息。借助语义引擎,把50篇文献缩略成10余条概要,面对概要信息,一个研究员需要花费3分钟阅读相关信息,并形成思考。借助文字情绪引擎,把概要内容指数化、知识化,面对指数信息,一个研究员需要花费2秒钟阅读相关信息,并获得决策支持所需的知识。

热点事件预测

热点事件的发现与预测的算法有很多,最行之有效的方法是做大规模的逻辑回归。在大数据的背景下,我们拿到的数据是全量并非抽样,这使得类似逻辑回归等简单算法起到事半功倍的效果。通过历史事件传播数据,提取向量,并做逻辑回归出规则,就可以做很多预测。例如美国大选,疾病传播,甚至预测死亡。

维克托・迈尔-舍恩伯格写的《大数据时代》一书中就有这么几个关于热点事件预测的案例:

案例一:华尔街“德温特资本市场”公司首席执行官保罗霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。他的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。这一招收效显著――当年第一季度,霍延的公司获得了7%的收益率。

案例二:美国一个超市将女性顾客中的孕妇视作购物的黄金消费者。为了将这部分目标人群在怀孕前就争取过来,该超市通过调查罗列出几十种购物偏好,当某位顾客的收银条上集中呈现这类商品时,就会被认定为可能是孕妇或家中有孕妇,超市随后向其发送孕妇产品广告。一次,当有人以“家中并无孕妇却总是收到相关产品广告”为由控告这家超市后,却发现原来是自己还在上高中的女儿怀孕了。

案例三:2009年甲型H1N1流感病毒出现,在没有疫苗的情况下,公共卫生专家能做的只是减慢传播速度,要做到这一点,专家必须先知道流感出现在哪里,这只能依靠各地医生发现并告知疾控中心,信息肯定是滞后的。可是,Google的工程师们比疾控专家更早地判断出流感从哪里传播出来,他们依靠的就是Google所掌握的大数据。

历史相似事件可使用文档相似度比较。文档相似度比较算法首先采用TF-IDF方法把文档建模为词频向量,然后使用向量距离计算算法求得。常用的距离计算方法如:Jaccard距离、欧式距离、余弦相似度等。

情感分析

正负情感度量化统计分析一般用于分析金融机构和大众对期货产品的态度、情感和观点倾向,对行情走势往往具有十分重要的意义。通过对收集来的信息进行情感度分析后,可以统计出社会舆论对期货未来走势的观点倾向度。通过计算历史舆论观点与走势的相关度可以验证情感度分析模型的有效性。

情感词监测模块是通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,实现热点信息的实时发现。通过搜索引擎抓取情感关键词热度,计算关键词与趋势相关性。

主题词表的优劣在相当程度上影响了系统后续的信息采集内容和效果。首先,由领域专家给出相关领域的权威网站作为基础语料来源,通过对权威网站网页内容的整站抓取获得领域语料资源。之后对语料资源进行中文切分词和词频统计,获得一张高频词表。再由领域专家对高频词表中的高频词汇进行整理,人工选取出与领域相关的词语。然后,对从高频词表中选取出的领域主题词进行上位词(花是鲜花的上位词,植物是花的上位词)、下位词、同义词、近义词扩展,去除重复词汇,从而最终形成相关领域的主题词表。在信息采集系统后续的采集中还将不断收集相关领域的新词汇,在发现领域新词后加入到领域主题词表中,形成系统性的反馈机制,从而不断对主题词表进行更新维护。

正负情感度量化统计分析是从抓取的文章中进行情感度分析打分,分数范围为不等。负数越大表示负面观点强度越强,正数越大表示正面观点强度越强,0表示持有中立态度;通过情感度分析可以统计出一段时间内社会舆论对于某个话题的正负面态度,舆论压力往往可以导致市场波动。

情感词检测通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,出现频率较高的词语作为热点信息词,实现金融热点的实时发现。

趋势分析和预测

根据交易的价格曲线走势,与综合指数对比,使舆论指数趋势体现与交易价格曲线的相关性和一定的前瞻性。通过构建时间序列模型,对未来走势进行预测,如图1所示。综合指数包括各个相关因素的变化趋势(天气因素等)以及舆论指数。

三 行业应用案例

数据挖掘和自然语言处理的应用范围广泛,其中也不乏一些有意思的案例,它可能应用于运营商、银行、传统企业和券商,挑选几个具有代表性的案例与大家分享。

电信行业

某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计清洗出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。

金融行业

某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估。这些数据指数可以有效协助商业银行进行供应商风险评估。

地产行业

某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体(微信、微博等)数据,进行网络口碑监测,负面情绪被及时发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。

证券行业

社交媒体文本分析范文第4篇

【关键词】移动互联网 运营模式 澎湃新闻 今日头条

作为上海报业集团改革后问世的第一个新媒体成果,澎湃新闻自2014年推出以来,其网站、微博、微信公众平台及新闻客户端等多款新媒体产品共同推进,作为传统媒体数字化转型的样本,澎湃新闻的多媒体融合及数字化发展模式具有一定的研究意义。

今日头条则是完全脱胎于互联网环境、基于数据挖掘技术的新媒体产品,以移动客户端为主打产品。自2012年8月上线至2015年12月以来,今日头条已吸纳用户超过3.5亿,且在2014年6月获得1亿美元的C轮融资,并仍保持每天超过3500万的用户增长速度。这一基于数据挖掘技术和数据算法来完成的新媒体项目,对媒介融合和新媒体的创新发展也具有可研究价值。

一、平台:多渠道并进与专注APP的差异

(一)多渠道并进的澎湃新闻格局

媒介渠道是新闻信息流动的通路,合理有效的媒介布局是信息有效传播的基础。①向社交媒体平台延伸已成为传统媒体应对移动互联网时代的挑战、寻求生存渠道必不可少的转型方式之一。具备多元化传播渠道的澎湃新闻,不仅注重多平台内容传播,也重视不同平台间的关联性。基于网络端与移动端的使用差异,其界面设计和部分细节功能上也有所差异,而且相较于网站或WAP网页版的运作,澎湃新闻更重视对移动客户端的推广,例如其网站首页右侧顶端吸引用户的位置展示对移动端的推广信息,首页右侧则放置了微信二维码提醒用户扫码下载客户端。这种推广趋势意在表明,移动客户端在未来将会成为澎湃新闻的主要推广平台,也是其未来应对移动互联网发展进行多媒体转型的主要渠道。但重视推广移动客户端的同时,与同类新闻客户端相似,澎湃新闻也在客户端的文章结尾处提供了微博、微信等社交媒体的分享按钮,以期以此形成信息的多平台、多层次传播。

尽管如此,澎湃新闻以移动客户端为主要新媒介传播平台的渠道战略趋势仍较为明确,例如在其新浪微博和腾讯微博的每条博文中,都附有下载移动客户端的超链接,其官方微信账号的菜单栏设置有“下载APP”的按钮,且每篇推送文章结尾处也都提示读者通过“阅读原文”下载移动客户端。值得注意的是,除了澎湃新闻的官方微信之外,其运营团队还推出了包括“市政厅”等与其新闻客户端的子栏目同名的微信公众号,并分属给各自的内容团队运营,从而形成多平台紧密联系又各有专攻的渠道运作结构。

(二)以客户端为主的今日头条数据挖掘者

今日头条平台最大的特点在于它以自己的客户端为连接点,链接各大新闻门户网站的热门新闻,使其以新闻聚合工具的身份出现在媒介市场和公众视野。根据其对自身“基于数据挖掘的推荐引擎产品”而非新闻客户端的定位,今日头条得以运营、推广和盈利的基础是技术。如何实现网络媒体资源的再利用和再传播是今日头条的关注焦点。作为新闻聚合类应用,今日头条的算法模式与美国Prismatic公司有相似之处,即“收集网上资源并排序,这种排序建立在文本分析、用户喜好、社交网络普及和大数据分析的基础之上。”②这与其公司属性有关:虽然今日头条是新闻类产品,但其公司六成员工为技术开发人员,使该产品可以根据算法技术对用户偏好进行较为精准的分析与判断,并通过智能推荐方式,根据用户对推送设置的偏好,向用户实时推送信息。

同时,作为一款社交媒体,今日头条并不局限于重点打造的客户端平台,与澎湃新闻的多媒体关联运作方式相似,今日头条的客户端也通过分享功能将其与自身的微信、微博等其他社交媒体平台相关联,为用户收藏、分享或转发新闻资讯提供可能。这一方面使用户成为今日头条资讯的二次传播者;另一方面,通过用户自发传播的方式,今日头条也通过其他社交媒体平台再次推广了自己的移动客户端。

二、内容:侧重时政与海量信息的差异

(一)专注时政与思想的澎湃新闻

澎湃新闻的定位是“专注时政与思想的互联网平台”,以此定位为基础,“内容原创”成为澎湃新闻致力发展的目标和方向,同时也是其重点打造的核心竞争力。凭借上海报业集团的新闻品牌和公信力优势,澎湃新闻采集并汇聚大量原创报道,突出内容的独特性和不可替代性。而且澎湃新闻的采编队伍依托其传统媒体――《东方早报》,在内容采编观念上与传统媒体“内容为王”的核心理念相契合,使其能够利用并强化基于纸媒基础发展起来的深度报道特长,将内容集中在“时事、财经、思想、生活”四个方面,以时政新闻报道为主。同时,澎湃新闻并不拘泥于单一的新闻报道角度,而是多视角、多方面地报道同类新闻。

此外,澎湃新闻还推出“问吧”栏目,以此来汇集互联网的海量、碎片化的优秀原创内容,从而实现内容生产的规模化。这种富有针对性的内容生产方式,加之其传统纸媒的内容生产基础,使其在新媒体产品的界面设计上也继承了传统纸质媒体的特点:简洁、干净。以其移动客户端为例,首页为重大时政或财经事件的图片新闻,每则新闻的布局为上图下文,且文字不超过两行,一目了然。界面左侧的下拉菜单为不同栏目的菜单栏,右侧的下拉菜单则是为用户提供了可定制的新闻选择项目,用户也可以根据自己的偏好设置该移动客户端界面,但并不会对该客户端界面的基本布局和设计做出较大改观。

社交媒体文本分析范文第5篇

关键词:在线产品评论;文本评论;文本挖掘技术

基金项目:教育部人文社会科学研究青年基金项目:“网页中产品属性文本信息对消费者购买决策的影响机制研究”(编号:14YJC630204)

中图分类号:F724.6 文献标识码:A

收录日期:2015年5月31日

网络购物用户在网上购物时很多人都会浏览参考其他人对商品的评论信息,并且在购物后进行在线评论。2006年开始对在线产品评论的研究不断增多(李恒,2015)。由于该研究主题涉及信息系统、电子商务、消费者行为、图书与情报科学等多个不同领域的交叉,相关研究文献较难得到系统性的整理。本文拟从在线评论的特征、作用、分析技术这三个方面对这些文献进行梳理。值得注意的是,由于文献涉及范围过于广泛,为了使本文综述主题聚焦,文中关于在线评论的文献仅局限于商家购物网站的购买者评论,也称为在线产品评论。其他在线评论或者在线口碑形式不在讨论之列,比如第三方平台的评论(影评、试乘试驾评论、点评网站评论等)、社交媒体中的产品或企业评论(各类口碑、舆情、内容营销及互动等)。

一、在线产品评论特征

李恒(2015)把消费者的在线评论特征总结为分属于评论星级和文本评论两种形式下的12种维度。其中,评论星级指的是购买者对该次购物的总体评价。这种形式中没有分出更多的维度,因此评论星级就是一个维度。在文本评论这一形式中,有评论标题、评论内容一般特性、评论内容的语义特征、评论内容的时间特性这四类。在这四类中分别包含了评论标题、评论质量、评论数量、评论长度、评论差异性、评论效价、评论类型、评论可读性、评论强度、评论及时性、评论时效性等11个维度。这12个维度具体的隶属关系以及其研究焦点属性本文将其整理至表1中。接下来本文针对表1中的各种在线评论特征维度和其研究焦点属性逐一进行解释。(表1)

评论星级指的是购买者对该次购物的总体评价。这种形式中没有分出更多的维度,因此评论星级就是一个维度。通常的研究焦点在于评论星级的极端性与中立性的作用。以大部分购物网站采用的五星评分制度为例,评论星级的极端性即一星为代表的极端负面评价与五星为代表的极端正面评价,而三星反映中立态度。

接下来的文本评论中包含了网购用户有文字留言内容的评论中的各种特性的研究维度。大略可以分为文本评论标题和文本评论内容两类,文本评论标题是评论者对评论内容的文本概括,在除了在线产品评论以外的在线评论中比较常见。通过评论者自拟的标题使浏览者容易从标题的关键词以及总体情感倾向中搜索以及快速知晓评论整体内容,但是在购物网站的用户评论中设置标题的并不多,比如国内的淘宝、京东等购物网站的用户评论中均没有设置文本评论的标题。因此,本文中不再赘述。文本评论内容就是网购用户用文字留下的购买感受的评价内容,李恒(2015)将其特性分为一般特性、语义特征和时间特性三类。本文在介绍完表1这些特征之后,再对其中未包含的一些特征进行补充。

评论内容的一般特性包括评论的质量、数量、长度和差异性。其中,数量和长度比较好理解,就是该产品下购买者的累计评论的总数和评论的文字字数长度,其研究属性也是总数和字数长度的计量值。评论质量特性借鉴了霍夫兰德的说服模型中信息内容对说服效果的影响作用,强调了在线产品评论作为消费者用来参考购买的有用信息,信息的浏览者对于产品评论信息的真实性、可靠性、内容与其所评价的产品的相关性以及是否为后续购买者提供了大量有用的信息这几个方面的主观感知(郭国庆,2010;李宏,2011)。其研究属性也基本围绕这几个有关信息质量评价的主观因子展开。评论差异性,即评论离散度,能显示不同评论中购买者态度或观点上的分歧程度。其研究属性通常采用评论者对网络平台设置的评分项打分的方差或标准差来度量。

评论内容的语义特征包括评论的效价、类型、可读性和强度,这些特性都与文字评论的文本内容的表达有关。简单来说,效价代表了文本内容的词语描述中总体体现出来的情感倾向,其研究属性有正面、负面和中立(或综合)之分;类型代表了文本词语中对产品属性及其体验的描述是客观还是主观之分;可读性代表了评论文本词语中每个评论者其自身带有的语言习惯表达、拼写、词汇选择、句长句式语法等是否容易让浏览阅读的人理解,因此其研究属性也是浏览评论者的一种主观性的感知(Korfiati,2012);强度代表了评论文本词语措辞中表现出的情感态度的强烈程度,其研究属性主要集中于浏览者对负面口碑中负面情绪强度的感知程度(黎小林,2007)。

评论内容的时间特性包括及时性和时效性,这两条特性与评论的时间信息有关。评论及时性代表评论时间与购买时间的间隔远近,研究属性是评论发表的天数,但是究竟天数长好还是短更好可能并不是简单的线性关系,因此到底是否及时的判断也就比较模糊了;而时效性代表评论时间与现在(浏览时间)间隔远近,以及是否在最近有频率较高的密集评论,这反映了该产品的近期火热与流行程度,研究属性是评论浏览者对时效性强与弱的主观评价(刘逶迤、逯万辉,2010;郭国庆等,2010;龚思兰等,2013)。

其他表1中未提及的较为重要的特性还有评论者特征等等。评论者的特征包括评论者是否匿名(身份知否披露)、评论者的专业性、评论者的声誉、排名等等(Racherla P,Friske W,2012;Hyunmi et al.2012)。这个部分我们只是将这些现有研究中涵盖的特征进行了简单归类和罗列,其中有些特征在技术、功能和研究范式发展过程中会出现不同程度的交叉重叠和所属类别上的变化,在后文中会有所提及。

二、在线产品评论作用

以上谈到的是在线产品评论的特征,对于在线产品评论的功能研究者们也有所探讨。在线评论的功能一方面包含有大量产品属性、使用价值方面的描述信息可以给潜在购买者信息上的借鉴,帮助他们降低不确定性风险;另一方面评论中含有大量购买的情感体验和表达信息,对商品有强大的推荐作用,大量比较集中的正面或者负面评论会引起潜在购买者的从众行为,影响他们购买或者不购买的最终决定。遵从这些意见购买产品(Park DH,et al.2007;Duan W J,et al.2008)。关于评论功能的衡量焦点主要集中在评论信息质量(评论有用性),评论可信度和消费者态度形成与改变以及具体的销量数据等。

Mudambi和Schuff(2010)从信息经济学中信息的诊断性角度定义了评论信息质量。早期的评论信息质量的评价并不局限于文本评论,但随着研究者对评论内容特征的关注,评论质量越来越多用来反映文本评论内容对浏览者的信息参考价值。正如上文中提到对于文本评论而言评论质量包含真实性、可靠性、相关性、有用性四个方面。借鉴技术接受模型TAM中人们接收新技术会受到对新技术感知有用性的影响这一思路,评论质量中关于评论有用性的评价指标更加受到重视,并成为判断评价信息功能的主要研究变量。早期的评论有用性研究将评论星级及评论长度作为评论有用性的衡量指标,其好处是指标简单,易量化。后期产品评论研究的重点转向文本内容认知,对于文本内容有用性的划分采用了评论长度和可读性两个维度来衡量,有的研究中也将评论有用性定义为评论感知价值(Schindler&Bickart,2012)。由于当前对文本内容分析的方法是基于文本语义属性的挖掘方法,对于在线产品评论相关特征的数据采集和统计大都是通过网络信息搜索软件实现,因此目前评论有用性的衡量通常是用网站中评论有用性的排名数据统计来替代。但是并不是所有购物网站的评论系统中都会设置评论是否有用这一浏览者打分机制,并且受到文化的影响,即便网站设置了这一功能,国内的消费者也没有去给评论打分的习惯。因此这种衡量方式的有效性也一直受到争议。

研究中与评论有用性常常共同出现的一个衡量评论的功能的变量就是评论的可信度。由于在交流有关研究领域发现可信度与劝说性之间的强相关,可信度被用来作为评论信息是否对潜在消费者态度以及行为有强的劝说性的衡量指标。从信息传播的角度来说,信息源、消息和接受者是信息评价的3个主要的信息元素。因此相比于有用性,在线评论的可信度更强调从评论强度、信息源的可信度、评论间的一致性、评论累积排名等维度来度量,从已有的研究文献来看,其中又主要侧重于对信息源可信度的判断,也就是对评论者的可信度的判断(Cheung等,2009)。Lis(2013)将信息源的专业度和值得信任程度作为信息源可信度的衡量标准和评论排名一起作为评论可信度的决定因素,其中值得信任程度中包含评论内容的质量、与其他评论的一致性以及其他消费者对评论的认可这几个方面。因此,评论可信度与评论有用性是有交叉又各有侧重的两个研究变量。研究者会根据研究方法以及目标选择其中合适的变量作为对评论功能的衡量。不过由于目前侧重于文本评论数据挖掘的研究方法所限,还是以有用性的排名统计作为评论价值功能的衡量更多见。

其他还有一些研究变量,比如将浏览者看完评论信息以后持有的态度作为衡量评论功能实现的衡量指标,比如对产品的购买意愿、感知的产品质量、满意度、忠诚度等(Reyes A & Rosso P,2012;Chang & Yen,2013),以及直接用企业经营数据,比如产品的销量、企业收入、公司股价来作为评论的作用,不过后两者多用于第三方评论或者公众舆论有关的评论效果研究中,与在线产品评论有关的经营数据最主要的还是被评论产品的销量数据(Sonnier等,2011)。

三、在线产品评论分析技术

在线评论信息挖掘研究集中在信息系统、电子商务管理科学等领域。近几年,在线评论信息挖掘日益成为在线产品评论研究的热点,由于文本挖掘技术的研究进展还处于不太成熟的阶段,各领域中计算机科学和信息科学领域对文本挖掘技术的研究居多。文本挖掘技术和自然语言处理等技术现在已经能对半结构化和非结构化数据进行挖掘,在线评论的表现形式为数量众多且非结构化的文本,但是如何提高对在线评论的挖掘精确度也一直是技术研究领域关注的焦点。目前,在挖掘技术上的研究集中于信息抽取、情感分析和文本分类这三类主流研究方法。信息抽取是情感分析的基础,同时信息抽取和情感分析又是文本分类的基础。信息抽取主要是通过对评论中描述产品性能或功能的名词或短语进行关键词的抽取,情感分析是通过语义分析对评论中需要联系上下文才能理解评论者表达效价进行情感倾向的判断,挖掘出的信息结果包括抽取的主题特征 (价格、质量、外观等)、情感倾向 (正面、中立、负面)、文本类别(主题和情感类别)。以情感分析为例,当前所广泛采用的文本语义属性分析的挖掘方法是不够成熟的,无论是词语极性推测法、点互信息法、抽取主观表达式法还是构造情感词典法,都是基于文本内容字面信息的加工和处理,而文本内容所包含的潜在信息却是无法挖掘的,如说话人的语言风格所反映出的评论人所属的用户群体或专业程度等,因此仅从字面来进行情感倾向的判断存在一定的不精确性。

但是也有越来越多的学者在信息抽取和文本挖掘的基础上从实证研究角度对在线评论的有用性、对消费者态度以及商家销量的影响等进行研究。有学者利用主题特征信息抽取技术从在线评论中抽取产品特征和主题信息,并以此研究发现评论中消费者提及最多的产品主题特征并不一定对他们的满意度影响最大(You WJ,et al.2012)。Cao等(2011)运用潜在语义文本分析文本挖掘法(LSA)应用logit回归模型研究了评论星级、评论时间、评论字数、评论中包含的句子数、语义特征(评论中的情感倾向)对评论有用性投票数的影响,经过发现评论的语义特征对评论有用性影响最大。Min和Park(2012)从评论者经验这一角度出发应用文本挖掘和实证分析方法研究如何根据评论者经验识别出高质量评论。还有研究者通过对手机评论进行情感分析,识别手机是否存在过度的功能设计并以此获得更多的顾客满意度来提高销售绩效(Liu P,et al.2010)。未来随着文本挖掘技术的进步,分析精确性不断提高,相信这类结合实证方法证明在线产品评论商业应用效果的研究也会越来越多并得出更有价值的结论。

四、结语

综上所述,在线产品评论现阶段为止的研究有以下三个方面的特点:第一,研究中关于在线产品评论的一般特征,内容特征,评论者特征等等这些特征形式早期研究较多。虽然在研究发展过程中会出现不同程度的交叉重叠和所属类别上的变化,但随着购物网站评论体系设置的成熟化,这些特征形式基本稳定下来,并且主要的特征属性都集中在评论文本的特征描述中,这也说明了文本评论的重要作用。因此,现阶段的研究主要集中于评论文本内容的深度挖掘带来的新的特征属性;第二,文本挖掘技术和自然语言处理等技术现在已经能对半结构化和非结构化数据进行挖掘,而在线评论的表现形式为数量众多且非结构化的文本,如何提高对在线产品评论的挖掘精确度也一直是技术研究领域关注的焦点。正因为文本挖掘技术的研究进展还处于不太成熟的阶段,现阶段的挖掘主题比较少,情感分析精度也不够高,因此其他领域即便将现有挖掘技术应用于实证研究中,也难以得到稳定的和有价值的结论。相信未来随着文本挖掘技术的进步,这类结合实证方法证明在线产品评论商业应用效果的研究也会越来越多,并得出更有价值的结论;第三,在商业应用研究领域,如何选取合适的研究变量和指标,比如消费者行为变量及观测指标来与文本挖掘技术得到的计量数据相结合,从而实现更准确有价值的实证研究,也是在研究方法上需要继续探索和解决的问题,比如目前用网站评论有用性的排名数据统计来替代评论有用性度量的方式过于单一且准确性受到质疑。

另外,还有两个在线产品评论研究中比较集中的主题未来也可能会继续发展:一个是购买者参与评论的动机及其在社交网络中的作用;另一个是对购物网站上越来越多出现的虚假评论现象的研究,目前的研究集中在虚假评论的识别以及其影响方面,未来随着消费者的经验增加以及网站成熟运作,这方面的研究还会有新的热点出现。

主要参考文献:

[1]李恒.在线评论特征的维度综述[J].企业技术开发,2015.1.

[2]李宏,喻葵,夏景波.负面在线评论对消费者网络网络购买决策的影响,一个实验研究[J].情报杂志,2011.5.

[3]龚思兰,丁晟春,周夏伟,巢乃鹏.在线商品评论信息可信度影响因素实证研究[J].情报杂志,2013.32.11.

[4]宋晓晴,孙习祥.消费者在线评论采纳研究综述[J].现代情报,2015.1.

[5]罗彪,丛日飞.留、传、搜、用:消费者行为视角下的电子口碑研究综述与展望[J].外国经济与管理,2015.37.8.

[6]You WJ,Xia M,Liu,L,et al.Customer knowledge discovery form online reviews[J].Electron Markets,2012.7.7.