文档介绍:统计分析读书笔记阅读书籍:《R语言与统计分析》、《统计学》概述统计分析分为统计描述和统计推断两部分。描述性分析标准差(StandardDeviation)是样本数据方差的平方根,它衡量的是样本数据的离散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。标准误(英文:StandardError),也称标准误差,即样本均数的标准差(英文:StandardDeviation),是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。描述统计量统计量计算公式含义均值中位数百分位数方差数据取值分散性的一个度量样本方差样本标准差标准误sn样本均值的标准差,描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度极差偏度系数(Skewness)刻画数据的对称性指标。关于均值对称时为0,右侧更分散时为正;左侧更分散时为负峰度系数(kurtosis)数据的总体分布为正态分布时,接近0;系数为正时,两侧极端数据较多;系数为负时,极端数据较少。离散随机变量随机变量Y是一个定义在样本空间上的数值函数,样本空间中的每个事件都被指派一个Y值。离散随机变量Y是一个仅能取可数个值的变量。离散随机变量Y的概率分布是给出Y的每个可能取值Y=y以及相应概率p(y)的表、图或公式。伯努利(Bernoulli)概率分布/二项概率分布:Y=n次试验中S的次数(每次试验的两个可能结果:S和F)泊松分布Y=单位时间、面积或体积内稀有事件S发生的次数。py=λye-λy!(y=0,1,2…)随机变量P(y)μσ2*m(t)离散(一般)P(y)EY=yp(y)EY2-μ2伯努利Bernoullipy=pyq1-y其中q=1-p,y=0,1ppq二项binomialpy=nypyqn-y其中q=1-p,y=0,1,…,nnpnpq超几何py=ryN-rn-yNnnrNrN-rn(N-n)N2(N-1)泊松py=λye-λy!y=1,2,…λ=给定的单位时间、面积或体积内事件的平均数λλ几何py=p(1-p)y-1y=1,2,…1p1-pP2负二项py=y-1r-1pr1-py-rrpr(1-p)P2y=r,r+1,…多项py1,y2..yk=n!y1!y2!…yk!(p1)y1(p2)y2…(pk)yknpinpi(1-pi)负二项分布:表示直至观测到第r次成功时试验(时间单位)的次数。如直到一个设备失效的时间长度;一个顾客排队等候直到得到服务的时间长度。几何:对于r=1的特殊情况连续随机变量连续随机变量Y在区间(-∞,+∞)上的随机变量Y取不可数无穷多个值。累积分布函数F(y)=dF(y)dy?f(y)与p(y)的关系正态概率分布。密度函数为:fy=1σ2πe-(y-μ)2(2σ2)Γ型概率分布:是关于寿命长度(如计算机的使用寿命)或等待时间的连续随机变量模型;两种特殊类型,卡方随机变量和指数随机变量正态性检验:QQ图Shaprio-Wilk检验:()卡方(Chi-Square)概率分布威布尔概率分布是表示失效时间的连续随机变量模型β型概率分布是落在区间(0,1)上连续随机变量模型。贝塔(Beta,β)分布,be(α,β),均匀分布二元概率分布及抽样分布统计量的抽样分布:统计量的概率分布中心极限定理:如果n个观察值Y1,Y2,…,Yn的随机样本来自有限均值μ和方差σ2的总体,那么当n充分大时,样本均值Y的抽样分布可由正态密度函数近似。设Y1,Y2,⋯,Yn来自于有限均值μ和有限标准差σ的总体n个观测值的随机样本。那么Y的抽样分布的均值和标准差,记为μy和σy,分别是:μy=μ,σy=σn卡方密度函数: 如果n个观察值Y1,Y2,…,Yn的随机样本来自有限均值μ和方差σ2的正态分布,那么χ2=(n-1)S2σ2(S2:样本方差)的抽样分布式自由度为ν=(n-1)的卡方密度函数学生氏T分布设Z是标准正态随机变量,χ2是自由度为ν的卡方随机变量,如果Z与χ2独立,那么称T=Zχ2υ是自由度为ν的学生氏T分布。F分布如果χ12和χ22是自由度为υ1和υ2的卡方随机变量,若χ12和χ22是独立的,则称F=χ12υ1χ22υ2为分子自由度为υ1,分母自由度为υ2的F分布。相关分析《统计建模与R语言(上册)》(原假设:不相关)当(X,Y)T是二元正态总体,且ρX,Y=0,则统计量t=rxyn-21-rxy2~t(n-2)cov()–协方差矩阵cor()–相关矩阵Kendall秩相关系数:非参数相关分析偏相关分析:参数估计参数估计:在很多实际问题中,总体的分布类型已知但它包含一个或多个参数,总体的分布完全由所含的参数决定,这样就需要对参数作出估计。推断总体参数有两种方法:估计未知参数