固网漏话用户数据分析-AET-电子技术应用

固网漏话用户数据分析

2014年微型机与应用第1期

孙骏

（南京邮电大学通信与信息工程学院，江苏南京 210003）

摘要： 针对固网漏话的用户数据进行数据分析，利用SPSS Clementine软件，采用聚类分析算法，分析用户数据特征，最终得到用户遇忙话务量在各时间段上的分布、各地区用户数量的统计、各地区精准用户和普通用户的ARPU值对比以及对用户的分类。根据数据挖掘的结果，运营商可以为用户提供个性化服务，提高用户满意度和忠诚度。

关键词： 漏话数据挖掘数据分析运营商

Abstract：

Key words :

　　摘要：针对固网漏话的用户数据进行数据分析，利用SPSS Clementine软件，采用聚类分析算法，分析用户数据特征，最终得到用户遇忙话务量在各时间段上的分布、各地区用户数量的统计、各地区精准用户和普通用户的ARPU值对比以及对用户的分类。根据数据挖掘的结果，运营商可以为用户提供个性化服务，提高用户满意度和忠诚度。

　　关键词：漏话；数据挖掘；数据分析

0 引言

　　中国的通信业近年来进入了一个增长速度相对较缓的稳步增长期。如今“以客户为中心”[1]已经成为运营商竞争的新原则，同时电信企业是一个比其他企业拥有更多用户和用户数据的企业。

　　伴随着3G移动通信和移动互联网的蓬勃发展，传统固定电话逐渐淡出了人们的视线；特别是个人家庭用户，固定电话逐渐成为附属品或是奢侈的工艺品。相比个人和家庭用户，政企客户所受的冲击相对小一些。漏话问题是政企客户面临的一个大问题，为了解决这一问题，需要针对固网政企客户采取新的漏话业务。

　　如何找到这些用户、如何让用户接受漏话保护服务、如何满足用户个性化需求，是亟需解决的问题。本文通过数据挖掘技术，找到需要使用漏话保护的固网用户。漏话业务牵涉到相应的费用，不是所有的用户均需开通，应分析各时段、各地区用户的不同特征，使用一种合适的算法对用户进行划分。

1 数据挖掘和知识获取

　　数据挖掘[2]是在数据库中进行知识发现的重要方法，是从大量的表面数据中提取隐藏在其中的知识的过程。近年来，该技术发展迅速，已应用到各个领域。本文主要介绍固话漏话用户数据挖掘和分析。

2 数据挖掘技术应用于电信用户数据研究

　　2.1 固网用户数据的组成和结构

　　对于企业来说，大量的用户数据不仅有利于客户关系管理（CRM）[3]，同时也是获得用户知识的源泉。从用户知识发现的过程中可以看到，用户数据的质量会对知识发现的结果产生直接的影响，所以用户数据准备也是一项很重要的步骤。从商业系统中提取出高质量的用户数据就成为一项最主要的工作。

　　固网企业的用户数据包括用户基本信息、用户账单信息以及客服信息。数据仓库就是根据这种方式来组织的。

　　2.2 知识发现的方法和过程

　　用户知识发现概括如下：根据提出的商业目标，分析大量的用户数据，找出隐藏的和未知的规律或者丰富已知的规律，进而提出模型；最后要将数据挖掘和分析的结果转化成有商业意义的方法，然后采取进一步的行动。用户知识发现必须遵循以下几个步骤：商业理解，数据理解，数据准备，分类模型，评估应用[4]。知识发现的流程如图1所示。

　　2.3 数据挖掘建立用户分类模型

　　近年来，“以客户为中心”的电信市场开始强调为不同用户提供个性化服务，其前提条件就是用户分类。这也说明了过去的消费行为也预示了未来的消费倾向。

　　（1）商业理解

　　对用户的理解不仅是理解电信市场的开始，也是理解客户关系管理的开始。在电信企业中对用户的理解包括：用户种类，不同类中用户的本质属性区别，用户偏好，不同类别之间的用户如何通信等。

　　（2）用户数据准备

　　对用户分类的研究主要是从用户属性中得到用户特征和行为习惯。主要数据来源于用户账单信息，同时也需要从商业系统中得到一些用户的基本属性信息。

　　（3）用户分类模型

　　本文使用聚类分析对用户进行细分以建立分类模型。聚类分析是把大量数据点的集合根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组，使得每个类中的数据之间最大限度地相似、而不同类中的数据之间最大限度地不同。欧氏距离可以用来测量两个样本之间的距离，计算公式如下：

　　 4NHAEELTQUR1NH%A29X~N4J.png

　　其中比较常用的算法为K-means算法[5]，本文也将采用该算法。该算法首先指定聚类数目k，然后确定k个初始类的中心，可以由用户指定，也可以根据数据本身结构的中心初步确定每个类别的原始中心点，然后根据距离最近原则进行分类，形成新的分类，计算出新的类别中心点。按照新的中心位置，重新计算每一记录距离新的类别中心点的距离，并重新进行归类，不断地重复这一过程，直到达到一定的收敛标准。本文即采用该算法对漏话保护系统的用户数据进行分析。

3 固网漏话用户数据分析

　　3.1 关于固网漏话用户数据分析的商业理解

　　通过各种渠道调查，对固网漏话用户数据分析的目标可以概括为以下几点：

　　（1）对用户通话次数、时间段等分析，找出特征，以此来寻找目标用户；

　　（2）对用户开通漏话保护业务前后的ARPU值分析比较，分析收益的对比；

　　（3）对目标用户数据分析，从用户分类的角度来管理，设计针对性的服务，提升用户满意度。

　　3.2 系统用户数据准备

　　数据准备的过程：明确目标；制定计划；分析变量的获取；数据收集和获取；数据集成。根据当前客户关系管理基本状况和数据挖掘的目的，涉及到的人口属性变量有：性别、年龄、住址、用户职业、婚否、学历、薪资等。用户分类结束之后，再使用描述变量来进行分析说明。

　　本文选用某市电信公司运营支持系统和经营分析系统的数据，从中选取了基本客户基本信息表、客户详细话表、账单及缴费信息表、产品信息表、业务使用清单等原始数据。选择的分类变量如表1所示。

　　数据挖掘工具选择SPSS Clementine[6]。在使用该工具进行挖掘之前，需要对数据进行清洗：

　　（1）删掉不满足要求的数据：选择普通的用户；选择状态正常的用户；选择入网时间较长的用户，使数据有完整的用户周期；

　　（2）去掉异常数据：比如用于测试的号码；

　　（3）去掉极端值：不具备普遍性的极值容易产生噪声。

　　3.3 固网漏话用户数据分析结果

　　考虑到不同分类建立的有效性和简便性，以及固话用户和数据源的特点，本文采用常见的K-means算法，其高可靠性、高精准性以及低复杂度使其成为主流的聚类算法。本文选用SPSS Clementine作为数据挖掘工具进行K-means聚类分析[7-8]。使用SPSS Clementine软件进行K-means聚类分析的流程图[9]软件截图如图2所示。

　　获取原始数据并进行预处理之后，选择参与聚类的细分变量，输入簇的个数k，选择k=7，然后点击“聚类”按钮，使用K-means算法[10]对固网漏话用户数据进行聚类。经过正常值选择、极值处理等一系列的数据清洗工作，最后用于研究的记录有251 284条。

　　3.4 分析结果和解释

　　通过SPSS Clementine分析，得出遇忙话务量在各时间段上的分布，如图3所示。

　　由图3可以看出，93%的遇忙话务都出现在8∶00~18∶00的工作时段，这说明该时段遇忙话务较多，话务量流失严重，特别需要遇忙话务的解决方法。而这一时间段遇忙话务量最多的就是政企用户，这些话务量流失对政企用户将造成巨大的损失：30 000政企用户一个月遇忙话务损失达到260万次，本网超过120万次，每个月预计损失20万；以电信中等发达省份为例：符合条件的政企高端用户约为60万；每年度损失的潜在业务收入为50 000万。

　　经过分析，得到该市各地区已开通和未开通漏话保护业务的用户分布，如图4所示。C区属于政务新区，未开通漏话业务的用户较多，而F区属于工业园区，企业较多，很多用户已开通漏话保护业务，但是还有大量用户未开通该业务，所以C区和F区应该作为该业务的重点推广地区。

　　如图5所示，用于分析的用户中高端精准用户约占23%，普通用户约占77%，而高端精准用户的ARPU值远远高于普通用户，在总的收益中，高端用户贡献约占69%，这符合帕累托定律，20%的高端用户贡献80%的业务收入，80%的普通用户贡献20%的业务收入。以最小的代价，换取最高的利益，始终是企业追求的共同目标。

　　通过聚类分析，将用户分为7类，如表2所示，分别得出遇忙频率与通话时长、通话次数、出账费用之间的关系，发现均呈正比关系。通过分析寻找合适的阈值可以将这三个参数作为选择精准用户的三个条件，因此在经过比较之后，选择高频次遇忙用户的三个精准条件分别为通话次数>500次、通话时长>14 000 min、出账费用>750元。对这三个条件进行组合，满足三个条件的有1类，满足任意两个条件的共3类，仅满足一个条件的共3类，合计7类用户。经过分析，其精准度由高到低为通话时长>出账费用>通话次数。所以应该合理选择精准条件，在不同的地区选择相应的条件，并优先考虑通话时长。从所有用户中选择满足精准条件的用户，剔除已开通的用户，作为目标精准用户，最后进行分批次有效开通。

　　综上分析，固网漏话业务是一个非常有潜力的业务，解决漏话问题是提高用户满意度和忠诚度的重要途径。根据上文的分析，在8∶00~18∶00时间段，用户遇忙话务量非常多，在这段时间内，企业需要更多的漏话接入服务器，而在其他时间段可以减少接入服务器以节约成本。而在不同的地区，用户数量和精准用户的数量也不同，应该选择精准用户较为集中的地区优先推广漏话保护业务。由于精准高端用户带来的收益远远超过普通用户，所以要对经过筛选的精准用户采取针对性措施，比如在C区和F区大力宣传，以各种形式让精准客户看到该业务带来的收益，还可以电话推广为精准用户提供信息。

4 结论

　　本文将聚类挖掘方法应用到固网漏话用户数据分析中[11]，采用SPSS Clementine工具进行数据挖掘。漏话保护系统主要针对政企高端用户提出，主要目的是为了提高通话接通率，以提高政企用户的效益，达到用户和运营商的共赢。而对用户数据的分析，是为了运营商可以更好地服务于政企客户，为企业带来更多的利益，从根本上改善固网漏话问题。

参考文献

　　[1] 江哲雅．聚类挖掘在电信客户分类中的研究与应用[D]．上海：上海交通大学，2013．

　　[2] 段素花．电信运营中的客户价值模型的分析与设计[D]．成都：成都理工大学，2010．

　　[3] 巩建光．面向电信领域的数据挖掘关键技术研究[D]．哈尔滨：哈尔滨工程大学，2012．

　　[4] 穆芳．数据挖掘技术在电信大客户管理系统中的应用研究[D]．重庆：重庆大学，2003．

　　[5] 胡湘萍．基于近邻图的k-means初始中心选择调优算法[J]．计算机应用与软件，2014，31（4）：178-181，192．

　　[6] 阮桂海．SPSS for windows应用教程[M].北京：电子工业出版社，1998．

　　[7] 刘先勇．SPSS 11.0统计分析软件与应用作者[M]．北京：国防工业出版社，2002．

　　[8] 罗应婷．SPSS统计分析从基础到实践[M]．北京：电子工业出版社，2007．

　　[9] 李仁义．数据挖掘中聚类分析算法的研究与应用[D]．成都：电子科技大学，2009．

　　[10] 成娅辉．K-means算法改进及其在通信行业客户细分中的应用[D]．长沙：湖南大学，2010．

　　[11] Zhao Chunfang， Wu Yingliang， Gao Haijun. Study on knowledge acquisition of the telecom customers′consuming behavior based on data mining[D]. Guangzhou： School of Economics and Commerce South China University of Technology， 2008.

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容