1 / 15
文档名称:

实验8-1-数据分析.doc

格式:doc   大小:1,273KB   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:实验8-1 数据分析
一、实验目的
理解数据挖掘的一般流程。
掌握数据探索和预处理的方法。
使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。
使用WEKA软件,对给定的数据进行预处理。
二、实验内容
在D盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。
0. 数据集介绍
银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号), age(年龄), sex(性别), region(地区), income(收入),married(婚否), children(子女数), car(是否有私家车), save_act(是否有定期存款), current_act(是否有活期账户), mortgage(是否有资产抵押), pep(目标变量,是否买个人理财计划Personal Equity Plan)。
1.数据探索之数据质量分析
新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。
【要求】
(1)请找出bank_data.xlsx表中的含有缺失值的记录。
(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。
(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性的异常值记录。
【提示】
(1)请找出bank_data.xlsx表中的含有缺失值的记录。
方法1:条件格式法
1)选取A1:L601区域。
2)开始 --> 条件格式 --> 新建规则(N)...,在"新建格式规则"对话框中,选择空值。


如图8-1所示。

图8-1 “新建格式规则”对话框
3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。如图8-2所示。

图8-2 设置条件格式
方法2:
1)缺失值定位。“开始”à“编辑 / 查找和选择”à“定位”对话框 à“定位条件”按钮。
2)“定位条件”对话框 à 选择“空值”,如图8-3所示。


图8-3 “转到(G)…”下拉菜单命令 和“定位条件”对话框
(2)绘制“income”属性箱线图和点比例图。高级筛选出异常值。
“加载项 / PHStat”à “Descriptive Statistics”à“Boxplot…”或”Dot Scale Diagram…“命令。如图8-4所示。注意选中“income”属性,如果数据区域包括标题行(E1单元格),则勾选下面的First cell contains label选项,否则,不用勾选First cell contains label选项。

(a) (b)

(c) (d)
图8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制

计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及Whisker下限和上限。
表8-1 四分位数表
箱线图
公式
数值
最小值
=MIN(E2:E601)
或=QUARTILE.INC(E2:E601,0)
5014.21
最大值
=MAX(E2:E601)
或=QUARTILE.INC(E2:E601,4)
78843.21
第一分位数
=QUARTILE.INC($E$2:$E$601,1)
17264.5
第二分位数
(中位数)
=MEDIAN($E$2:$E$601)
或=QUARTILE.INC(E2:E601,2)
24925.3
第三分位数
=QUARTILE.INC(E2:E601,3)
36172.675
Whisker上限
=QL-1.5*(Qu-QL)
-11097.763
Whisker下限
=Qu+1.5*(Qu-QL)
64534.9375
高级筛选,筛选出大于Qu,小于QL的离群点。
1)设置条件区域,如图8-5所示。
income
<-11097.7625
>64534.9375
图8-5 高级筛选“条件区域”
2)设置高级筛选。
2.数据探索之数据特征分析
建立“2-数据特征分析.xlsx”文件,导入“0-bank_data.xlsx”文件,请你用EXCEL对其进行数据特征分析。
【要求】
(1)针对age属性进行分布分析。填写8-2和8-3表。
表8-2 年龄分布分析表 表8-3 年龄数据统计表

(2)根据上一步的age属性分组,分别用EXCEL分布工具和PHSTAT

点击展开更多

分享好友

预览全文

实验8-1-数据分析.doc

上传人:精品小课件 2021/3/1 文件大小:1.24 MB

下载得到文件列表

实验8-1-数据分析.doc

相关文档