文档介绍:班级: 12 级数师 2班姓名: 谭栖希学号:201202024090 1 基于微博用户行为的数学建模和数学分析摘要: 微博作为一种新兴的交流工具,以简单快捷的操作方式、随时随地发布信息的互动形式, 在各类网络社交服务中独树一帜。本问针对不同的微博问题,提出了不同的模型和算法,过程如下: 问题一与问题二都是利用 Excel 进行综合评价模型,根据数据分析,对问题定义合适的影响因子,对不同的影响因子用极值差方法做标准化处理,得到合理的数据,使评价结果更为合理。采用组合赋权法,得到更加合理的权数,使用线型加权综合评价法得到最后的评价结果,利用 Excel 得到问题答案。问题三通过图论分析算法将 n个人看作 n 个顶点,将相互关注的好友连接起来,建立无向的图即为好友圈,通过深度优先扫描的 Tarjan 算法判断是否是无向连通图,通过广度优先算法找出连通的最大图即为最大好友圈,求出最大连通图中的边数 e,通过得到的变数 e找出最大连通图的顶点数,则找到最大好友圈的人数。问题四通过本题对大 V 的定义从而我们知道影响力越到的大 V 那么他传播消息的能力则越强,则传播的图就越大,从而我们先找出影响力最大的大 V ,依次从往小的剔除数据,建立新的邻接矩阵。当去到一定的数据时,对数据通过回归分析拟合得到了关于剔除人数和对于大 V之间的函数关系,从而解出所需要传播发布消息的最少人数。关键字:综合评价模型、图论分析算法、回归分析一、问题重述微博,作为互联网上的新兴应用,由于智能手机的普遍,使得其御用变得极其方便, 从而吸引了大量的注意力。涉及微博的很多应用问题,是值得大家注意和思考的。通常微博用户的群体数量巨大,使得如下问题的计算变得极其复杂,为了便于考虑问题,使得计算在普通的微机上也可行,我们分别考虑有 2000 个用户和 10000 个用户 2 的问题,数据文件 包含了这些用户的相互关注数据,每一行为该行号对应的用户对其它用户的关注信息。数据文件 为若干消息数据,每一行为用户发布或转发的消息编号。现在我们来解决如下问题: 问题一:在微博群体中,有的人受关注度很高,他们被称为大 V 。由于受关注度很高,他们发微博的影响力就很大,我们需要通过已知数据对大 V定义合适的影响因子, 并通过影响因子找出最具有影响力的十个大 V。问题二:每天更新的微博消息有很多,但被大量的用户转发和关注的却很少,消息的影响力不同。消息的影响力与发消息的人有关,因此,我们将通过比较受不同关注程度的人群发出微薄消息的影响力的不同程度和消息本身的价值给出计算消息影响力的值,并找出十个最具影响力的消息。问题三:在微博中,相互关注的用户称为好友,对于一个群体,如果他们相互之间均为好友,则称为好友圈。因此我们将通过图论的方法,从大 V出发找出人数最多的好友圈。问题四:假设任一微博用户发布的消息,其粉丝都会看到。如果要发布一则消息, 确保让所有的用户在不转发的情况下都能看到,去找出最少的用户数发布该消息的方案。二、符号说明 n :为样本总数; m :为实际使用样本个数; iA :为第 i个人所关注的人的集合; ijA :为第 i个人所关注的人的编号; P ij:邻接矩阵; 三、模型假设 ,与其他因素无关。 ,而与名人效应、随大流、 3 恶作剧等其他心理作用无关。 ,传播的数量会增大。 ,节点与节点之间是单向的。在一个人转发微博后,这个人的全体粉丝都能看到这条微博并决定是否转发,而非粉丝无法通过他来看这条微博。 ,再次见到该微博时他将不会转发它。四、模型建立与求解 变量说明 ix :实测数据; iw :评价指标 ix 的权重系数; iy :评价对象的综合评价值; 标准化处理对得到的样本,一般不直接拿来使用,要先进行一定的标准化处理。但由于各指标具有不同的量纲,且类型不同,故指标间具有的不可共度性难以直接进行比较。因此, 在综合评价前,必须把这些分指标按某种规律归一化到某一无量纲区。(1)对于偏大型指标(如被关注的量),数值越大,其影响力越大,若对其进行标准化处理,作极差变换即令????'' ' ' ' ' / i i i i i x x m M m ? ? ???( 1 i m ) 其中????' min ' max ' i i i i m x M x