文档介绍:数据分析和pythonPython数据分析和实战挖掘
基本篇
书推荐:《用python做科学计算》
扩展库简介
Numpy数组支持,和相应的高效解决函数
Scipy矩阵支持,和相应的矩阵数值计算模块
;[2]Spearman秩有关系数。两者所有要通过假设检查,t检查措施检查其明显性水平以拟定其有关成。正态分布下,两者效率等价。对持续测量值,更适合pearson有关系数。[3]鉴定系数r²
3、核心函数
核心是Pandas用于数据分析和Matplotlib用于数据可视化
《贵阳大数据分析师培训机构 》
Pandas核心记录特性函数
sum总和(按列)
mean算数平均值
var方差
std原则差
corr Spearman/Pearson有关系数矩阵
cov协方差矩阵
skew偏度(三阶矩)
kurt峰度(四阶矩)
describe基本描述
《贵州数据分析培训班》
cumsum依次给出前1-n个数的和
cumprod依次给出前1-n个数的积
cummax 。。最大值
cummin 。。最小值
rolling_sum(D,n)、rolling_mean。。D中相邻n个数的计算特性
《贵州大数据培训机构 》
记录作图函数,基于Matplotlib
Python核心记录作图函数
《贵阳大数据报名学习 》
plot绘制线性二维图,折线图
pie绘制饼图
hist绘制二维条形直方图
boxplot绘制箱型图 Pandas
plot(logy=True)绘制y轴的对数图形 Pandas
plot(yerr=error)绘制误差条形图 Pandas
《贵阳大数据培训中心》
作图前一般要加上如下代码
import as plt #导入图像库
[‘’] = [‘SimHei’] #用来正常显示中文标签
[‘_minus’] = False #用来正常显示负号
(figsize=(7,5))#创立图像区域,指定比例
完毕后用显示
数据预解决
数据清洗:删除原始数据集中的无关数据、反复数据、平滑噪声数据,解决缺失值、异常值等
①缺失值解决
删除记录、数据插补、不解决
常用插补措施
《贵阳数据分析人才培训》
均值/中位数/众数根据属性值类型,取均值、中位数、众数进行插补
使用固定值将缺失属性用常量替代
近来邻插补法在记录中找到和缺失样本最接近的样本的该属性值进行插补
回归措施根据已有数据和和其有关的其他变量数据建立拟合模型来估计
插值法建立合适的插值函数f(x),未知值计算得到。
拉格让日插值法、牛顿插值法。前者不灵活,增删节点要重来。Scipy库中提供前者。
例:将异常点取空,然后取缺值点前后5个值进行拉格朗日插值
②异常值解决:异常值与否剔除看状况,由于有些异常值也许具有有用信息
常用异常值解决措施
删除记录直接删除
视为缺失值视为缺失值进行缺失值的解决
平均值修正取前后两个正常值的平均
不解决鉴定其因素,若无问题直接使用进行挖掘
《贵阳大数据培训中心》
数据集成:将多种数据源合并存在一种一致的数据寄存中,要考虑实体辨认问题和属性冗余问题,从而将数据在最低层上加以转换、提炼和集成
①实体辨认:同名异义、异名同义、单位不统一
②冗余属性辨认:多次浮现、同属性不同样名导致反复
数据变换:对数据规范化解决
①简朴函数变换,如平方、开方、对数、差分运算
②规范化,也称归一化,消除量纲和取值范畴的差别,进行原则化解决。映射到[-1,1]或[0,1]内。
[1]最小-最大规范化,也称离差原则化。x*=(x-min)/(max-min);缺陷:异常值影响;后来的范畴限制在[min,max]中
[2]零-均值规范化,也称原则差规范化,解决后[0,1]。x*=(x-mean)/std
[3]小数定标规范化,移动属性值小数位,映射到[-1,1]。x*=x/10^k
③持续属性离散化:分类算法需要离散形式,如ID3、Apriori等
离散化过程就是在取值范畴内设立若干个离散花粉店,将取值范畴划分为离散区间
等宽法、等频发、基于聚类分析措施
④属性构造
⑤小波变换:信号分析手段,小波分析的理论和措施在信号解决、图像解决、语音解决、模式辨认、量子物理等领域得到越来越广泛的应用
数据规约:产生更小