1 / 3
文档名称:

机器学习.doc

格式:doc   大小:49KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

机器学习.doc

上传人:fy5186fy 2016/8/26 文件大小:49 KB

下载得到文件列表

机器学习.doc

相关文档

文档介绍

文档介绍:这是“信息技术学科前沿”的第二次讲座,尚福华教授为我们介绍了机器学****的本质。尚教授通过介绍国辽宁舰航母的背后引出了这次的讲座,从而从侧面印证了机器学****的重要性。机器学****对科学研究的整个过程正起到越来越大的支持作用,该领域在今后的若干年内将取得稳定而快速的发展。随后介绍了机器学****角色的转变。如果我们想做出重要的贡献,首先需要把握住该领域发展的脉搏。机器学****现在似乎已经发展到一个新阶段。机器学****起源于人工智能对人类学****能力的追求,上一阶段的研究几乎完全局限在人工智能这一领域中(学****本身是目的)。而现在,机器学****已经开始进入了计算机科学的不同领域,甚至其他学科,成为一种支持技术、服务技术(学****本身是手段) 现阶段对机器学****的研究可能不应再过多地强调模拟人的学****能力。可能应该把机器学****真正当成一种支持技术(手段而非目的) ,考虑不同领域甚至不同学科对机器学****的需求,找出其中具有共性的、必须解决的问题,并进而着手研究。我们暂且把这种视角下的机器学****称为: “普适机器学****Pervasive ML)。机器学****的一般描述: 1实例集 X2概念 3目标概念 c4训练样例 x5训练样例集 D6正例,目标概念成员 7反例,非目标概念成员 8假设 h9假设集 H机器学****的目标就是寻找一个假设 h,使得 X对所有的 x,都有 h(x)=c(x) 。学****表示+评价+优化表示( Representation ) :一个分类器必须用计算机可以处理的某种形式语言来表示。反过来讲,为学****器选择一种表示,就意味选择一个特定的分类器集合。学****器可能学出的分类器只能在这个集合中。这个集合被称为学****器的假设空间( hypothesisspace ) 。如果某个分类器不在该空间中,它就不可能被该学****器学到。评价(Evaluation ):我们需要一个评价函数(亦称为目标函数或打分函数) 来判断分类器的优劣。机器学****算法内部使用的评价函数和我们希望分类器进行优化的外部评价函数有所不同。这是为了便于优化,接下来会讨论。优化( Optimization ) :最后,我们需要一个搜索方法,能够在假设空间中找到评价函数得分最高的那个分类器。优化技术的选择对学****器效率至关重要; 而当评价函数有多个最优结果时,优化技术也有助于从中选择。初学者通常会采用现成的优化方法,之后再用定制专门的优化方法来替代。泛化(Generalization )很重要:你的分类器可能会在不知不觉中受到测试数据的影响当然,保留一部分数据用于测试会减少训练数据的数量。这个问题可以通过交叉验证( cross-valida- tion )来解决:将训练数据随机地等分为若干份(如 10份),其中的每一份均可用作测试,而剩下的数据用作训练,然后将每个学****的分类器在它没见过的样例上进行测试,将测试结果取平均后,就可用来评价不同参数设置的性能。人的培训也是如此。特征工程( Feature Engineering )是关键无疑最重要的因素是所利用的特征。如果你有很多与类别非常相关的独立特征,学****起来很容易。但另一方面,如果特征与类别的关系非常复杂,你就不一定能够学到它了。通常原始数据不能直接拿来学****你需要从中构建特征。这是机器学****项目的主要工作。这通常也是最有趣的部分,在这里直觉、创造性和魔法与技术一样都很重要。初学者往往惊讶于机器学****项目中