《电子技术应用》

情感倾向分析在舆情监控方面的研究

2017年微型机与应用第5期 作者:王林,李昀泽
2017/4/5 20:58:00

  王林,李昀泽

  (西安理工大学 自动化与信息工程学院,陕西 西安 710048)

       摘要:针对Hownet经典算法的应用只是侧重于词句优化方面的研究,忽视了因不同人群层次主观色彩偏差而造成的判别准确性下降问题,文章提出了一种优化Hownet判别方法。搭建阈值确定的新框架,并利用义源信息量衍生义项的方法动态更新情感词库,一方面考虑到不同人群主观色彩对倾向分析产生的影响问题,另一方面针对某一事件或话题直接得出大众情感倾向。实验表明,相较传统的Hownet方法而言,优化后的Hownet实现了对舆情倾向分析的跨人群分析,且有更高的准确性。

  关键词:义源信息量;衍生义项;Hownet算法;倾向性分析

  中图分类号:TN929.12文献标识码:ADOI: 10.19358/j.issn.1674-7720.2017.05.004

  引用格式:王林,李昀泽.情感倾向分析在舆情监控方面的研究[J].微型机与应用,2017,36(5):11-13,17.

0引言

  在舆情媒体规模、媒体种类等发展迅猛的情况下,舆情监测显得愈发重要,其中人群倾向性偏差问题尤为受到关注。研究不同领域的人群情感倾向偏差问题,是解决舆情人群主观色彩差异的重点[1],也可为众多舆情分析平台提供帮助,并可为政府监管系统对舆情的整体走势和褒贬判断提供重要依据。

  针对主观色彩偏差问题,近年来研究者提出的解决方案主要有细粒度分析法[2]、挖掘新模式二次调用[3]、情感词典逻辑结合[4]等方法。由于Hownet方法重点在于优化情感词库和解决词句[5]问题,所以利用Hownet解决主观情感差异并不常见。吕韶华等人[6]基于SimRank的跨领域情感倾向性分析算法构建潜在空间向量,实现了领域分类,但仅限于分类阶段。YZERBYT V等人[7]提出分类识别行动倾向,引入传播动力学,但只侧重于传播方式研究。魏现辉[8]提出了一种基于加权SimRank的分析模型,实现了跨领域情感分类,但倾向性分析结果准确性不高。张莹[9]提出基于异构信息源和逻辑斯谛回归模型进行情绪预测的方法,该方法是解决跨领域跨人群问题的一大突破,但是步骤过于繁琐。马凤闸[10]将经典迁移学习TrAdaBoost算法的样本迁移机制应用于情感倾向性分析,为跨领域分析做出了重大贡献,但精确度有待提高。孟佳娜等人[11]提出归纳式迁移学习,通过领域采集的关联问题解决了情感色彩的不同影响,但是侧重于领域采集研究而非倾向结果判断。由此可知,跨领域研究既要解决不同人群倾向差异,又要提高总体分析的准确度,利用机器学习或数据挖掘[1215]的方法不仅步骤繁琐,而且对整体分析结果的准确性影响很大。

  本文提出一种优化Hownet算法,该方法通过计算不同的评论文本的正倾向和负倾向的加权平均值,并利用二次分类方法确定正负倾向的单一阈值,二次分类结合单边带[5]和向量机分类[16]的优点,对主题和情感进行再分类[18],达到减少主观情感影响的目的。并采用义源衍生义项方法[2,5,1618]对Hownet词典库进行实时更新,达到区分人群的目的,最后利用Hownet算法与优化后的阈值进行对比运算。本文将针对词句分析的Hownet算法应用到分析人群主观色彩偏差上,通过对阈值的优化达到减少人群情感偏差影响的目的,大幅减小各类不同情感色彩带来的影响,也能有效解决跨领域、跨人群的主观表达问题。该优化方法也可直接针对某一话题或事件得出倾向性分析结果并提高了判断的准确性。

1相关算法描述

  1.1存在的问题和解决目标

  人群倾向偏差不是片面的一词多义,也不局限于简单的褒贬相反,而是个人主观色彩的不同。所以要从根源上对主观色彩进行区分,就要对人群进行区分,建立区分的方法。

  1.2Hownet算法优势

  (1) Hownet是自然语言处理系统,解释概念间的关系与属性,有强大的动态词典数据库;

  (2)以网状结构反映整体与部分的关系;

  (3)经典Hownet算法如下;

  Orient=∑pwsim(pword,word)-∑nwsim(nword,word)(1)

  其中,Orient为最终阈值,pword与nword分别为褒义词结果集和贬义词结果集。该方法方便理解,易于操作,词典库可动态更新。

2动态更新词典库

  2.1主题提取

  词汇信息量基本公式:

  LX$95G]Y_@88(IR]TGDKU3F.png

  其中p代表义原词汇,C(p)代表词汇p的信息量,H(p)表示词汇p出现的数量,max 表示在语义词库中的总数。

  2.2主题分类

  单边带分类是对于不同义原词汇进行分类,其基本公式为:

  H@@I[9U]]C81W7M[D~[}5)D.png

  其中n代表某个义项,即某种衍生意。假设p1有n1个义原,p2有n2个义原。c1与c2是记录下的n1与n2的数目,再计算相似度。

  2.3人群分类

  利用前两部分实现人群细分,即不用主动去分类人群,而是对不同义项进行分类:

  假设某语句w1有s1个义项,w2有s2个义项,则w1与w2的相似度为:

  ~7C2NQ%WA$TN$1K%8767@UK.png

  2.4加权平均

  最终进行正负阈值的加权平均,得到在不同人群基础上的结果:

  pword:积极词集合,nwords消极词集合

  Orient(word) >&(阈值)舆论积极

  Orient(word) <& (阈值)舆论消极

3Hownet阈值优化模型

  3.1优化步骤

  (1)根据TF/IDF权值法计算提炼主题,而不直接归类其情感倾向,且同步利用式(1)对此情感库进行更新,避免了中文表达复杂带来的情感倾向误判:

  )H(JD950KIUXJ[9(]_8FHB4.png

  其中,N表示文本集中的文本数量,n表示文本集中包含目标项的文本数量,f表示目标项出现的频数。

  可以看出,如果某个词在某篇文档出现的频率高,而在其他文档中出现的频率低,说明该词对该文档而言,具有更高的代表性,同时也应有更高的权重值。

  (2)先以向量空间模型归类主题的相似性,再以singlepass算法判断主题情感相似性,避免了因不同篇章的情感色彩强烈而带来的误判,向量空间模型算法基本公式为:

  F]3T}4E@N5G~E(Y)1`Q_WR4.png

  其中di、dj代表两个文本的sim相似度,wk代表目标项的权重值。此步骤与式(3)、(4)算法同时进行,目的在于对词库进行义项衍生分类,在分类基础上进行第二步归类。

  (3)以singlepass算法判断主题情感相似性,如果该新闻报道S是输入的第一篇报道,则将该报道当做第一个话题。后续输入的新闻报道内容向量与己有的话题内容向量进行比较用两个向量之间的余弦夹角sim(di,dj)作为衡量相似度的标准,如果其值小于设定的阈值,则认为新输入的新闻报道属于该话题,否则将该新闻报道作为一个新的话题。

  3.2原理总结

  由上面步骤可知:因中文表达中,不同句式(反问句、否定句)褒贬相反,所以采用二次分类法,对单一的向量分类或算法分类组合使用,取各自优点。向量空间模型通过权值归类主题,与TF一样避开了情感部分,主题相似的wkj与wki的取值需通过单边的情感分类,旨在确定是褒义值@+与贬义值@-,再界定中性范围,计算加权平均值@:

  ([$M{$JK1V(RJF2]V_Y%~X9.png

4试验结果与分析

  实验目的在于验证优化的Hownet方法倾向性分析模块是否实现了互联网信倾向性分析功能,且与传统方式进行比较,验证其优点。

  4.1舆情走势分析情感统计

  本文以2016年7月17日~7月19日连续两天的舆情走势为样本,以某个搜索引擎、新闻网站、论坛、微博、微信等平台为目标,得出正面、负面和中性的文本数量。

  4.2倾向性结果展示

  

003.jpg

  随着词典库的不断更新,该话题舆情呈现出细分的趋势,结果显示出更新词典库的突出效果,通过对正负面程度的统计可以判断舆情的正确走势,如图1所示。

001.jpg

  图1为舆情分析走势图,图中可看出中性情感最为突出且走势明显,可判断舆情发展主要由中性情感决定并且呈现出下降趋势。

  4.3结果分析

  4.3.1评价指标

  本文分类评价指标包括查准率、查全率和F1值。

  4.3.2算法参数选取

  (1)优化步骤首先利用式(2)对词典进行初步主题统计,在此基础上利用式(5)进行文本分类,初始值f的频率可选,先用拟固定值f=0.5。

  (2)c1与c2是记录下的n1与n2的数目,式(3)在c1与c2选取上初始值规定为c1=20和c2=30,此数据会根据后面步骤实时更新增长。

  (3)利用向量机和单边带算法统计情感分类,式(6)是建立在式(3)、(4)基础上的,对单边情感分类,随机地抽取出正负面的感情色彩文本各 500 篇,其中正面被正确识别出来的数量为 400 篇,负面被识别出来的数量为 435篇。

  (4)为了使更新词典库的义项分类与前三步模式更加紧密结合,对阈值的确定就尤为重要,初始@=1.87,第一次取400个正面的@+=0.81,435个负面@-=0.78。利用式(7)可以计算出@的加权平均值为1.122,该值小于初值,可判断走势下降。

  4.3.3对比试验

  本文利用4个评价指标对阈值进行设定,确定初始阈值@+与@-,再利用式(7)确定最终阈值,分别对传统方法与优化方法的阈值进行计算,得出正负面文本的查准率、查全率和F1值。

004.jpg

  从表2可以看出,优化后的P值、R值、F值都明显高于传统方法。

  图2为优化方式与传统方式对比图,可更清晰地说明问题:实线、点线和虚线分别代表正面、负面及平均值。由图2可以看出,优化模式(左半部)线条值都普遍高于传统模式(右半部)线条值,其原因在于对文本分类的文章,在Hownet判别时已经用衍生义项原理实现了潜在的人群分类,所以基于最终的优化阈值进行判别时,很大程度上降低了人群情感色彩偏差带来的影响。

 

002.jpg

5结束语

  本文采取优化Hownet分析方法,对某一话题在不同领域或不同平台进行倾向性分析,通过对阈值的优化界定并与传统模式相对比,验证其优化效果。优化模式合理地结合了权值提炼与机器学习分类方法,通过采用义源衍生义项的分类方法实现人群分类的目的,在此基础上优化的阈值不仅大幅削弱了不同人群层次的情感偏差影响,而且使得分析结果更加可靠,具有更高的参考价值,且对舆情总体趋势的情感倾向分析更加有利。

参考文献

  [1] YZERBYT V, DUMONT M, WIGBOLDUS D.The impact british of categorization emotions and action tendencies[J].Journal of Social onWiley Online Library,2013,23(8):62-66.

  [2] 刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博情感倾向性分析[J]. 中文信息学报,2015,29(6):159-165.

  [3] 黄高峰,周学广.一种语句级细粒度情感倾向性分析算法研究[J]. 计算机应用与软件, 2015,32(4):239-242.

  [4] YARDI S, BOYD D.Dynamic debates: an analysis of group polarization over time on twitter[J]. Bulletin of Science, Technology & Society, 2010,69(6): 066133.


继续阅读>>