《电子技术应用》

网页排序算法在社会认知管理效果评价中的应用

2016年微型机与应用第12期
邱继远,岳振军,荣传振,苏丰龙
((中国人民解放军理工大学 通信工程学院,江苏 南京 210007))
摘要: 描述了当前突发公共事件中社会认知管理的现状,针对当前突发公众事件中社会认知管理水平不高,没有统一的认知管理水平评价标准等问题,提出了应用网页排序打分的方法来对突发事件中主流媒体网络信息发布受公众关注度的情况进行评价,从而间接评价网络媒体在社会认知管理中发挥的作用。针对传统PageRank算法偏重旧网页的现象,对算法进行了改进,增加了时间权重。在Hadoop分布式计算平台上实现了该算法,并对比分析了算法改进前后的排序结果。

Abstract:

  邱继远,岳振军,荣传振,苏丰龙

  (中国人民解放军理工大学 通信工程学院,江苏 南京 210007)

  摘要:描述了当前突发公共事件中社会认知管理的现状,针对当前突发公众事件中社会认知管理水平不高,没有统一的认知管理水平评价标准等问题,提出了应用网页排序打分的方法来对突发事件中主流媒体网络信息发布受公众关注度的情况进行评价,从而间接评价网络媒体在社会认知管理中发挥的作用。针对传统PageRank算法偏重旧网页的现象,对算法进行了改进,增加了时间权重。在Hadoop分布式计算平台上实现了该算法,并对比分析了算法改进前后的排序结果。

  关键词:认知管理; 突发性公共事件; Hadoop;PageRank;时效性

0引言

  当前,国际形势复杂多变,国内改革逐步深化,各类问题和矛盾引发的突发性公共事件频繁出现。社会认知管理在处置突发事件中的作用日益凸显,它能够在突发性公共事件发生时对公众的心理活动过程进行干预和引导,从而及时有效地纠正公众认知的偏差。信息发布作为社会认知管理的主要手段,有多种方式,在大数据时代背景下,网络信息的发布是极为重要的一种方式。对网络信息发布的受关注程度进行评价,能够在一定程度上体现政府的认知管理效果。针对当前媒体网络建设水平参差不齐、信息发布受公众关注度不高、缺乏有效的信息评价机制的现状,本文致力于通过基于Hadoop[14]的网页排序技术对突发性公共事件中各网站信息发布的受关注度进行综合排序打分,找出影响关注度的主要因素,以此来推动网站信息发布水平的提升,进而提升政府的社会认知管理水平。

1当前认知管理中存在的问题

  在大数据时代,由于信息传播的速度和广度前所未有,因此政府开展认知管理活动更加困难。宋园园[5]认为,在大数据背景下的突发公共事件中,政府、媒体和公众是危机管理的三大核心力量,本文分别从这三个方面探讨当前认知管理中存在的问题。

  在政府层面存在的问题主要有:管理者缺乏社会认知管理意识,官本位思想依然存在,政府在信息系统方面还相对薄弱等。在媒体层面,存在官方媒体信息传播职能相对弱化、个别媒体单纯地只做政府的发言人和撰稿人、信息收集渠道过窄、信息发布不全不准等问题。在公众层面,存在公共危机意识薄弱、对各种媒介信息的判断能力普遍较差等问题。

  当前,由于国内外对社会认知管理的研究还没有形成统一的理论体系,缺乏对认知管理水平的评价标准。针对该问题,本文引入信息检索技术中的网页排序技术,通过对公共突发事件发生后媒体的网络信息发布受关注程度进行评价,进而对影响受关注度的因素加以分析,提出建议,提升社会认知管理水平。

2PageRank算法

  PageRank算法由斯坦福大学的PAGE L[6]提出,该排序算法根据网页间链接信息迭代计算得到。用有向图G(V,E)表示网络页面间的链接关系,其中V是网页集合,E是边集(当且仅当存在从页面i到页面j的链接时,存在相应的边)。

  计算PageRank的过程是求矩阵特征向量的过程:M表示有向图G的联接矩阵, 当存在节点j到i的边时,矩阵元素[i,j]的值为1/Nj,否则赋值0,其满足:

  x=Mx(1)

  其中,x表示各页面构成的向量。根据构成可得,矩阵M最大特征值为1;x为1对应的特征向量,使用简单迭代法对以上公式求解。M必须满足两个条件,迭代过程才会收敛:(1)M是非循环的;(2)M为强制连通。条件(1)由网络结构来保证,条件(2)通过在迭代过程中增加一个阻尼因子c来保证。新公式定义如下:

  2.png

  此时,在保证迭代收敛的同时,PageRank定义转变如下:设页面z1, z2,…,zn链接指向页面i,则

  3.png

  其中阻尼因子c为0.15,N(z)n为网页(z)n的出链个数,(1-c)为阻尼系数。

  PageRank算法中,由于网页的内外部链接需要时间的积累,收录数与反链数随着时间的积累而增加, PageRank的计算方法会使新网页PR值偏低,导致歧视新网页的现象。而公共危机发生后对信息发布时效性要求较高,故需要在传统算法的基础上添加时间权重。公众对信息的实时需求较高,网页被检索到的时间与公共事件发生的时间差值越大,则网页内容价值相对越低。信息发布时间差Td的计算公式为:

  Td=(Eq-Ec)×24+(Fq-Fc)(4)

  式中:Eq、Fq分别为检索时间的天数、小时;Ec、Fc分别为网页发布时间的天数、小时。

  3NK64KX4]PEI6DO%NWP_P11.png

  Ti表示突发公共事件发生后,信息发布距事件发生在各时间段的赋值。

3实验结果及分析

  整个实验包括数据集的获取、预处理、实验设计和结果分析四个部分。本文使用3台PC搭建Hadoop的分布式计算平台,分别为PC1~PC3。其中:PC1作Master;PC2~PC3作Slave。每台PC具体配置硬件环境为:Intel Core 2 Duo 2.20 GHz CPU;2 GB内存;300 GB硬盘;千兆网卡。软件环境为Radhat 7;Hadoop 0.20。

  3.1网页数据的获取

  本文以新闻类应用为例,网络蜘蛛负责获取网页数据, 网页来自新华网、环球网、搜狐、新浪、网易、腾讯、凤凰网等各大门户网站,设定查询时间为突发公共事件72小时以内上述网站有关的新闻报道,经过约24小时网络蜘蛛的运行共爬取5×104张符合条件的新闻网页。

  3.2实验设计及结果分析

  3.2.1实验设计

  本文分别以“青岛38元一只大虾事件”、“美军拉森号舰艇进入南海岛礁12海里事件”等查询词作为突发公共事件类应用实验参数,以PageRank值的变化量小于0.000 1作为算法收敛条件,求得事件发生后72小时内各网站报道的新闻页面的PR平均值。依据数值大小进行排名。

  3.2.2实验结果分析

  表1显示,在事件1~3中,环球网和新华网在排序中较靠后,没有较强从属关系的凤凰、网易等网页排序较靠前。事件4中,环球网和新华网排名有所提升,但仍然没有排在前列。

001.jpg 

  表2显示,在添加时间权重后,环球网和新华网排名有所下降。

  

002.jpg

  综上所述,可以得到如下启示:一是在突发公共事件中官方网站发布的消息受到的公众关注度远低于当前主流媒体所发布的消息,在综合排名中相对位置比较靠后;二是在对外的突发事件中,官方媒体排序相对较高,说明在对外事件中,公众对官网消息的认可度较高;三是在加入时间权重后,官方网站的排名更加靠后,说明官方网站消息的时效性不强,远远滞后于当前主流媒体;四是在统计中发现,官方网站发布的新闻数量和篇幅都远低于主流媒体,所报道内容不全面、不完整也是官方网页受关注度不高的原因。

4结论

  本文通过对公共突发事件和认知管理特点的研究,提出了通过PageRank排序算法对突发公共事件网络新闻报道进行关注度排名的方法,并将算法在Hadoop分布式计算平台上实现。实验结果在一定程度上能够反映各大主流媒体在突发事件的网络新闻传播中受公众关注的程度。

参考文献

  [1] RAJARAMAN A,ULLMAN J D.大数据互联网大规模数据挖掘分布式处理[M].北京:人民邮电出版社,2013.

  [2] 陆嘉恒.大数据挑战与NoSQL 数据库技术[M].北京:电子工业出版社, 2013.

  [3] 马东杰.基于IEEE 802.15.4的接人算法研究[D].秦皇岛:燕山大学,2012.

  [4] Wen Hao,Lin Chang,Chen Zhijia,et al.An improved Markov model for IEEE 802.15.4 slotted CSMA/CA mechanism[J].Journal of Computer Science and Technology,2009,24(3):495504.

  [5] 宋园园.公共危机治理中认知管理的解析与构建[J].行政领导,2012(20):1418.

  [6] BRIN S, MOTWANI R, PAGE L, et al. What can you do with a Web in your pocket Bull[J]. Data Engineering Bulletin,1998,21(1):3747.


继续阅读>>