1 / 53
文档名称:

数据挖掘概念与技术.docx

格式:docx   大小:416KB   页数:53页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘概念与技术.docx

上传人:daoqqzhuanyongyou2 2020/11/15 文件大小:416 KB

下载得到文件列表

数据挖掘概念与技术.docx

文档介绍

文档介绍:数据挖掘概念与技术
第一课
分类
一、数据挖掘及知识的定义
1、 数据挖掘定义:从大量数据中提取或“挖掘”知识;
2、 数据挖掘技术:分类、预测、关联和聚类等;
3、 数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知
识表示;
4、 知识定义:知识就是“压缩”一浓缩就是精华!
1) Occam Razor:因不宜超出果之需!
2)
3)
信息论:嫡 H(X) =-工p(x)logp(x)
MDL准则:
minimum description length
终咗L第—课分类
三、SPSS软件及Logistic回归知识预备
1、回归方法分类
r连续型因变量(y)…线性回归分析
一个
因变
量丿
分类型因变量(y) —Logistic回归分析
生存时间因变量(t)…生存风险回归分析
时间序列因变量(t)…时间序列分析
多个因变量
路径分析
结构方程模型分析
分类
三、SPSS软件及Logistic回归知识预备
2、回归方法适用前提
1) 大样本,样本量为自变量个数的20倍左右;
2) 因变量或其数学变换与自变量有线性关系;
3) 扰动项(误差项)符合正态分布;
4) 自变量间不存在诸如多重共线性等关系;
5)误差项方差不变;
等等。
第一课分类
三、SPSS软件及Logistic回归知识预备
3、Logistic回归方法介绍
Logit变换
Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大
小与某些影响因此之间的关系,但由于P对X的变化在P = 0或P=1的附近不是很敏感的,或说是缓慢 的,比如像可靠系统, ,即使再改善条件和系统结构,它的可靠度增长也只能 是在小数点后面的笫三位或第四位之后,于是自然希望寻找一个P的函数形式什(P),使它在P = 0或P=1 附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用 气件反映讯p)是在P附近 的变化是很适合的,同时希望P = ()或P=1时, 驾弹大的值,因此取 晋2 “(1 [肿卩:
&(。)= In P
1- P
第一课
分类
三、SPSS软件及Logistic回归知识预备
3、Logistic回归方法介绍
Logistic回归
设因变量是一个二分类变量,其取值为=1和=0。
影响取值的个自变量分别为…则Logistic变换如
下式表示:
P
皿 口) 一炕 +0N +02/ + …
1
第一课
分类
神经网络与Logistic回归优缺点对比
1、神经网络优缺点
1) 优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非 线性拟合,能容忍缺失值,异常值的出现等;

最近更新

高一高中等差数列专题 7页

高一物理补习班,高中物理辅导班 机械振动练习.. 10页

小城市经济转型与产业升级 28页

巴松管音色特点及其音乐表现形式研究 10页

小学五年级散文作文650字(十篇) 12页

二年级家长简短经典寄语 55页

诉尽离别相思苦的伤感短句 47页

大型公共建筑节能技术应用 28页

描写树的诗句42句 43页

一年级上册语文雪地里的小画家教案 【收藏】 78页

二年级英语教师个人工作述职报告分享4篇 55页

第二章二次函数与幂函数.一等奖公开课ppt课件.. 59页

高性能同轴电缆接入系统中的相位噪声研究及其.. 2页

高压弹流油膜界面滑移特性研究的开题报告 2页

高中英语作业中回译策略的实证研究的开题报告.. 2页

脚手架工程精品课件 35页

风险社会下刑事政策的选择的开题报告 2页

风储系统功率平滑控制策略研究的开题报告 2页

预除尘离心风机初步研究及设计的开题报告 2页

预应力空心板梁和小箱梁截面优化分析开题报告.. 2页

顾客参与行为对网络购物的影响研究中期报告 2页

心血管内分泌 45页

2024年暑假社会实践心得体会[集锦15篇] 26页

计算机组装与维护第9章-输入设备课件 14页

面向钯复合膜应用进程的相关技术研究的开题报.. 2页

2024年暑假小学日记(15篇) 7页

面向现场分析的微流控免疫分析系统的研究的开.. 2页

钢材物资供货方案投标方案 7页

大班科学活动《有趣的转动》说课稿 8页

空调铜管的蚁巢腐蚀 10页