1 / 13
文档名称:

机器学习--决策树(ID3)算法及案例.docx

格式:docx   大小:20KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

机器学习--决策树(ID3)算法及案例.docx

上传人:niupai21 2022/6/13 文件大小:20 KB

下载得到文件列表

机器学习--决策树(ID3)算法及案例.docx

相关文档

文档介绍

文档介绍:机器学****决策树(ID3)算法及案例
1基本原理
决策树是一个预测模型。它代表的是对象属性与对象值之间的一种映射关系。树中每个 节点表示某个对象,每个分支路径代表某个可能的属性值,每个叶结点则对应从根节点到该 叶节点所经历的路径所表示中则返回参数0,
#如果current_label在字典中则返回current_label对应的value值
label_counts[current_label] = (current_label, 0) + 1
shannon_ent =
for key in label_counts:
prob = float(label_counts[key])/num_entries shannon_ent -= prob*log(prob, 2)
return shannon ent
3、按照给定特征划分数据集。分类算法除了需要测量信息熵,还需要 划分数据集,这就需要对每个特征划分数据集的结果计算一次信息熵, 然后判断按照哪个特征划分数据集是最好的划分方式。
#################################
#功能:划分数据集
#输入变量:data_set, axis, value
#数据集,数据集的特征,特征的值
#输出变量:ret_data_set,划分后的数据集
#################################
def split_data_set(data_set, axis, value):
ret_data_set =[]
for feat_vec in data_set:
if feat_vec[axis] == value:
#把axis特征位置之前和之后的特征值切出来
#没有使用del函数的原因是,del会改变原始数据
reduced_feat_vec = feat_vec[:axis] (feat_vec[axis+l:]) (reduced_feat_vec)
return ret_data_set 4、遍历整个数据集,循环划分数据并计算信息熵,通过计算最大信息 增益来找到最好的特征划分方式。
具体做法是,遍历当前特征中的所有唯一属性值,对每个特征划分一次
数据集,然后计算数据集的新熵值,并对所有唯一特征值得到的熵求和。
最后用所求的和值与原始信息熵相减,计算寻找最大信息增益。
######################################
#功能:选择最好的数据集划分方式
#输入变量:data_set待划分的数据集
#输出变量:best_feature计算得出最好的划分数据集的特征
######################################
def choose_best_feature_to_split(data_set):
num_features = len(data_set[0]) - 1 #最后一个是类别标签,所以特征 属性长度为总长度减1
base_entropy = calc_shannon_ent(data_set) # 计算数据集原始信息熵
best_info_gain =
best_feature = -1
for i in xrange(num_features):
# feat_vec[i]代表第i列的特征值,在for循环获取这一列的所有值
feat_list = [feat_vec[i] for feat_vec in data_set]
unique_vals = set(feat_list) # set函数得到的是一个无序不重复数 据集
new_entropy =
#计算每种划分方式的信息熵
for value in unique_vals:
sub_data_set = split_data_set(data_set, i, value) prob = len(sub_data_set)/float(len(data_set)) new_entropy += prob*calc_shannon_ent(sub_data_set)
info_gain = base_entropy - new_entropy
if info_gain > best_info_gain:
best_info_gain = info_gain
best_feature = i
return best_feature
5递归构建决策树
工作原理:得到原始数据集,然后

最近更新

甜橙金融研究报告 5页

2024年丽水莲都区引进人才(12名)历年高频难、.. 119页

小学英语集中实践活动培训总结 3页

2024年云南德宏盈江县人社局社区协管员招聘1人.. 612页

2024年保安员(初级)考试题库及解析答案 32页

物流技术的研究报告 8页

写好作文要“四多” 4页

烧烤活动方案幼儿园 7页

2024年内蒙古伊克昭盟行政职业能力测验题库(.. 147页

2024年内蒙古机电职业技术学院单招职业适应性.. 55页

2024年包头轻工职业技术学院单招职业适应性测.. 55页

2024年吉安职业技术学院单招职业适应性测试题.. 56页

2024年唐山职业技术学院单招职业适应性测试题.. 56页

2024年四平职业大学单招职业适应性测试题库全.. 53页

2024年安徽交通职业技术学院单招职业适应性测.. 57页

2024年山东电子职业技术学院单招职业适应性测.. 55页

2024年平凉职业技术学院单招职业适应性测试题.. 53页

2024年度保安员资格考试一套 32页

医学人文素质教育与医疗卫生服务体系建设 27页

2024年江苏航空职业技术学院单招职业适应性测.. 55页

2024年河北对外经贸职业学院单招职业适应性测.. 54页

医学人文素质教育与医学文化传承的关系 32页

2024年河南轻工职业学院单招职业适应性测试题.. 54页

2024年浙江宁波象山县网络民情会办中心编外招.. 88页

2024年浙江杭州市拱墅区事业单位招聘63人历年.. 59页

2024年浙江温州职业技术学院编外工作人员招聘.. 59页

2024年浙江省宁波市不动产登记服务中心招聘历.. 59页

2024年浙江省省属事业单位招聘2827人历年高频.. 88页

2024年浙江绍兴越城区教育局财基科财务人员招.. 60页

语音厅小游戏策划方案 3页