文档介绍:基于通信数据的移动用户行为分析[ 摘要] 认为分析移动用户行为特征与分类, 对移动应用个性化服务的改进具有重要的参考价值。基于国内电信运营商随机抽取某市一万移动用户一周的日志记录, 其中含有 4 万余条通话记录和 2 00 余万条网络请求, 每条请求包含对应的基站标号以及基站地理位置。本研究从消费能力、通话量、网络请求量、位移量四个维度从这批数据中提取 14 种基本特征指标。利用 K-Means 聚类方法将移动用户区分成规律通话型、随机上网型、居家节约型和随机高消费型等四类用户模型。[ 关键词] 用户行为分析; 移动用户研究; 聚类分析; 数据挖掘[ 分类号] G35 1 引言随着移动通信技术的迅猛发展和广泛应用,移动终端大量普及于民众,也产生了大量用户信息记录,如何利用大数据来了解移动用户行为与习惯特征的研究不断涌现。通过对移动用户的分析与了解,许多企业与政府部门可以依据结果提供各式各样的服务与应用方案。移动用户行为分析通常是指基于地理信息涉及用户访问网络、通话的行为规律与活动研究。电信运营商通过获取用户访问移动互联网、使用移动应用及通话的行为规律, 能够有效地配置网络资源并提供具有针对性的服务。近年来,针对桌面端日志挖掘的研究层出不穷, [15, 16, 17]都是针对桌面端web 服务的后台日志挖掘入手,通过分析用户访问页面的占比、用户访问的页面顺序等对用户的行为进行建模。而针对移动用户的行为分析研究则在很多方面借鉴了桌面端的研究,同时利用移动端设备的地理位置位置记录,挖掘出用户移动轨迹模式,找出轨迹中重要的位置并结合通信数据、互联网日志数据以及移动应用数据作为研究的基础,分析挖掘移动用户的需求、行为、兴趣,甚至是通过预测用户的目的地、推测用户下一步即将到达的位置以便提供针对性的推荐服务[1,13] 。传统的移动用户轨迹分析,多数利用软件采集仿真数据,属于细时空粒度下的数据,即可以采集到用户一天中连续时间段的位置数据。 等作者着眼于用户位置数据中经常出现的地点,并根据出现时间来推测用户所处的位置是家还是公司[2]。此外, 则通过指定时间粒度,聚类用户在多日同一时间段的行动轨迹,利用稀疏数据拟合出用户在这时间段移动轨迹的目的[3] 。研究用户的移动轨迹,实现预测用户下一步位置目的的方法,包括利用贝叶斯算法、聚类、数据挖掘方法等。实际上,电信运营商服务器上的数据是粗时间粒度的,唯有请求通信或上网时才会被记录,因此用户位置变化是不连贯的,具有随机性、稀疏性的特点,不能支持用户行为轨迹直接且连续的刻画描述。谭均元等人提出了生活熵概念作为用户移动轨迹规律程度的度量[4] ,采用了个人多天时段移动序列的算法来弥补实际数据的这种不足,即通过对多天数据的分析来获得更准确的用户移动轨迹。 则结合地理信息与用户提供的上下文语义信息来增加预测准确性[5] 。梁鹏等作者则透过在 WAP 网关进行数据采集, 并对数据进行数值分析和拟合, 最后得到用户行为的统计性特征来建立用户行为分析模型[6] 。吕洋利用上网数据研究用户的网络请求行为、时间、网页应用、数据包大小等信息建立用户行为模型[7] 。 关注于移动用户上网过程中访问频率、访问时间、访问深度之间的关系[8]。 等作者则利用二分网