1 / 5
文档名称:

数据挖掘作业.doc

格式:doc   大小:242KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘作业.doc

上传人:相惜 2020/3/7 文件大小:242 KB

下载得到文件列表

数据挖掘作业.doc

文档介绍

文档介绍:,数据已泛化。例如,年龄“31…35”表示31到35的之间。对于给定的行,count表示department,status,age和salary在该行上具有给定值的元组数。status是类标号属性。 departmentstatusagesalarycountsalessenior31...3546K...50K30salesjunior26...3026K...30K40salesjunior31...3531K...35K40systemsjunior21...2546K...50K20systemssenior31...3566K...70K5systemsjunior26...3046K...50K3systemssenior41...4566K...70K3marketingsenior36...4046K...50K10marketingjunior31...3541K...45K4secretarysenior46...5036K...40K4secretaryjunior26...3026K...30K6 1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status分为2个部分:Department分为4个部分:Senior共计52Sales共计110Junior共计113Systems共计31Marketing共计14Secretary共计10Age分为6个部分:Salary分为6各部分:21…25共计2026K…30K共计4626…30共计4931K…35K共计4031…35共计7936K…40K共计436…40共计1041K…45K共计441…45共计346K…50K共计6346…50共计466K…70K共计8InfoD=-52165log252165-113165log2113165==-110165*-30110log230110-80110log280110+31165*-831log2831-2331log22331+14165*-1014log21014-414log2414+10165*-410log2410-610log2610==InfoD-Infodepartment==-20165*-020log2020-2020log22020+49165*-049log2049-4949log24949+79165*-3579log23575-3479log23479+10165*-1010log21010-010log2010+3165*-33log233-03log203+4165*-44log244-04log204==InfoD-Infoage==-46165*-046log2046-4646log24646+40165*-040log2040-4040log24040+4165*-44log244-04log204+63165*-3063log23063-3363log23363+8165*-88log288-08log208==InfoD-Inf