文档介绍:.. .. ..
第 40卷第 1期数字通信 Vol40,
2013年 2月 25日 munication 2013 71
DOI:.1001
基于数据挖掘的微博人气用户特征分析与研究
王静,黄地龙
(成都理工大学信息科学与技术学院,成都 610059)
摘要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用 Clementine软件的
这些数据进行分析。结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数
大的特征。名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。
关键词:微博;决策树;用户分析;名人效应
中国分类号:TP39 文献标识码:A 文章编号 10053824(2013)01001702
0 引言 研究方法和思路
利用 ,根据用户的名人标识以及其
微博在中国开始以不可思议的速度流行起来, 他用户信息,分析名人的用户特征。
并在人们的生活中扮演着越来越重要的角色,它逐策树模型的经典算法之一,它的基本思想是利用信
渐地改变着人们的生活、思想、行为以及我们的社会息论原理对大量样本的属性进行分析和归纳而产生
文化。针对这些变化,越来越多的专家学者将目光树的结构或规则,其目的是使系统的熵最小,以提高
转向微博,开始对其特点、传播模式以及用户群展开算法的运算速度和精确度[67]。主要包括 2个阶段:
分析研究。 1)拆分阶段。根据能够带来最大信息增益的字段
目前,新浪微博用户数已超过 1亿。仅仅两年对样本进行拆分,再根据另一个字段进行拆分,直到
时间,新浪微博就为新浪生下了一个价值几十亿美样本子集不能拆分为止。2)修剪阶段。重新检验
金的“金蛋”。那么新浪微博的用户群包括哪些人? 最低层次的拆分,对模型值没有显著贡献的样本子
他们当中的人气用户都是来自哪些行业?他们的空集进行修剪。
间分布又有什么特征?这些人群通过微博主要是为
了了解信息,还是朋友交流?为什么他们会受到这 2 实证研究
么多的关注?给我们的社会带来什么启示? 首先,利用网络爬虫通过新浪微博的 API成功
本文以新浪微博为研究对象,提取前 100名人从站点上爬取了用户信息数据及关系数据;然后,利
气用户数据作为分析数据,通过分析分类,挖掘用户用 Clementine软件的
行为特征、空间分布以及圈层特征等,找出这些问题进行分析。
的答案。了解微博在社会中的作用,了解“微博人” 研究结果
的真实想法和思想认识,将有助于社会和相关部门
微博中的明星用户通过微博发布简单的信息,
更好地把控微博的舆论方向,对建设和谐社会有着
既能满足粉丝对明星生活的好奇心理,还能为明星
积极的意义[15]。
自身做宣传,所以娱乐明星占据微博百强用户的大
1 研究设计部分,即占到总人数的 71%。而通过对百强用户的
空间特征分类研究显示,其中的 80%以上分布在北
样本来源京、台湾和香港三地。
研究所需的样本数据利用爬虫工具通过微博站此外,分