文档介绍:数据分析与筛选
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料 进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值, 是实验、测量、观察、调查等的结果,常以数量的形式给出。
一:分析方法
列表法:
的大小或由相似系数反映出的相近性聚成 若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指 标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小
或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在 几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断 定这些样品数据为异常数据。
1、 数据在聚类分析之前要进行数据的变换,常用的方法有
a中心化变换:
x* = x 一 x(i = 1,2,3, ...m)
ij
变换后的数据均值为0而协方差不变。
:
x 一 x
x* = 7 j (i = 1,2,...n; j = 1,2,...m)
s
其中Sj是标准差;变换后的数据每个变量的样本均值为0而且标准变换后 的数据与变量的量纲无关;
2、 由聚类分析法的基本思想,即可得出
数据变换:常用的数据变换方法在上面已经详细举出。数据变换的目的时 为了便于计算和比较,或改变数据的结构;
计算n各样品两两间的距离,得到样品间的距离(常用欧式距离)矩阵D(o);
初始(第一步:i=1)n个样品各自构成一类,类的个数k=n,第i类 G = {x }(i = 1,2,...n),此时类的间距就是样品距离’然后对样品X (i = 1,2,...,n)执
i (ij) (i)
行并类过程④和⑤;
对步骤3得到的距离矩阵Di-1,合并类间距离最小的两类为一新类,此时类 的总个数k减少一类卩k二n-i+1;
计算新类与其他类的距离,得到新的距离矩阵,若合并后的总个数k仍然大 于1,重复以上的过程,
画谱系聚类图;
觉定分类个数及各类的成员。
2・4•典型例 市场占有率问题
一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企 业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所 处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市 场范围有4种测算方法:
.总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。
.目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务 的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市 场,因而它的目标市场份额总是大于它在总体市场中的份额。
.相对于3个最大竞争者的市场份额。指一个企业的销售量和市场上最大 的3个竞争者的销售总量之比。如一个企业的市场份额是30%,而它的3个 最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就 是30%三40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。 一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一 定实力。
4•相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者 的销售量之比。若高于100%,表明该企业是这一市场的领袖。
三、数据筛选
数据的筛选在数学建模中占有很