文档介绍:数据预处理DataPreprocessing层测h金雷eaaui'cainee吗●●@●为什么要进行数据预处理?●●0●初始数据集的准备和变换是数据挖掘过程中重要的步骤包含大量不完整、含噪声和不一致的数据是大数据应用中典型特点。数据的预处理能有效提高数据质量,节约大量的时间和空大部分数据挖掘算法对输入数据的格式、质量以及规模有定的要求。为什么要进行数据预处理?●●@●●●●现实世界的数据是“脏的”●●0●〉随着数据规模増加,会出现很多数据质量问题√不完整(plete)√缺失值;缺乏某些重要属性;仅包含聚集数据√噪声(noisy√包含错误值、离群点(outlier)不一致由于重复存放的数据未能进行一致性地更新造成的多用户系统,更新操作未能保持同步进行而引起由于各种故障、错误造成的0001011110010cmerrorv11011110110001100011111030030100**********●●@●●●0●正确的数据vJohnDoeIjohndoe(***@I123MainStreet脏数据”举例******@123MainStreetJohnDoeIiohn.******@urate:******@132MainStreetDatedJohnDoeiohn.******@123MainStreet●●@●预处理为什么是重要的?●●●●●0●>"Noqualitydata,noqualityminingresults√数据中存在的不一致以及噪声,对很多数据挖掘算法影响较大甚至“挖据”出错误的知识;很多挖掘算法对于数据的分布等条件有限制,需要预先处理数据维数过高会引起“维数灾难”或者“过拟合”,需要进行降维等预处理。>Itisoftenpostulatedthat50-70percentofthetimeandeffortinadataminingprojectisusedintheDataPreparationPhase-----CRISP-DM●●@●●●●评价数据质量的指标-1●●0●精度(Precision):(相同量)重复测量之间的封闭性,通常用值集合的标准差度量,表示观测值与真值的接近程度。偏倚(bias):测量值对真值的偏离。包括测量仪器的不准,样本过小,抽样未随机,测量者有主观倾向等。用值集合的均值与被测量的已知值之间的差度量准确率(Δccuracy):被测量的测量值与实际值之间的接近度。表示数据测量误差的程度。准确率的重要考虑是有效数字(significantdigit)。偏倚的例子:√弹簧秤归零不准√穿鞋量身高;缺乏对数据和结果准确率的理解,将面临出现严重分析错误的风险HighprecisioLowPrecisionHighIrec●●@●评价数据质量的指标-2●●0●pleteness:记录的缺失,一个对象遗漏一个或多个属性值,实体完整性(EntityIntegrity),域完整性(DomainIntegrity),参照完整性(ReferentialIntegrity)致性(Consistency):多个数据间更新的同步,包括数据记录的规范和数据逻辑的一致性,时效性(Timeliness):是否及时更新可信性Believability解释性(Interpretability●●@●●●●认识数据●●0●Identifythetypicalpropertiesofdata数据的汇总统计●●@●●●●●●0●---DataSummarization量化的,用单个数或小集合捕获可能很大的值集的各种特征描述数据集中趋势(centraltendency))的度量:Mean(均值,mediant(中位数),mo(众数),midrange(中列数)最大和最小值的均值描述数据离散程度(dispersion)的度量:Quartiles(四分位数),interquartilerange(QR:四分位数极差,andvarianc(方差●●@●数据集中趋势(1):平均数●●0●最常见的描述数据集中趋势的统计量:算术平均数(Arithmeticmean)平均数的优点:它能够利用所有数据的特征,而且比较好算不足之处,平均数容易受极端数据的影响。12平均数的性质如下一个集合中的各个数据与算术平均数离差之和等于零:∑1(x-x)=0个集合中的各个数据与算术平均数的离差平方之和是最小的(c)=∑X-c