1 / 12
文档名称:

机器学习-PLA算法.doc

格式:doc   大小:1,419KB   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

机器学习-PLA算法.doc

上传人:63229029 2017/7/26 文件大小:1.39 MB

下载得到文件列表

机器学习-PLA算法.doc

文档介绍

文档介绍:最近在跟台大的这个课程,觉得不错,想把学****笔记发出来跟大家分享下,有错误希望大家指正。
一机器学****是什么?
 
感觉和 Tom M. Mitchell的定义几乎一致,
puter program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
简而言之,就是我们想要机器在某些方面有提高(如搜索排名的质量,即NDCG提高),就给机器一些数据(用户的点击数据等各种)然后让机器获得某些经验(Learning to rank的一种模型,也就是数学公式)。这里有点需要强调,那就是提高指标,必须要有某种指标可以量化这种提高,这点还是很关键的,工业界做机器学****首先关注data,其次就是有无成型的measurement,可以使Precision/Recall,也可以是NDCG等。
 
二什么时候可以用机器学****br/> 
其实就三要素:
有规律可以学****br/>编程很难做到;
有能够学****到规律的数据;
编程很难做到可以有多种,大部分原因是系统太复杂,很难用Rule-based的东西去解决,例如搜索排名,现在影响排名的因素有超多几百种,不可能去想出这些因素的规则,因此,这时候用机器学****就是恰到好处。特别是移动互联网的今天,用户更容易接触互联网,产生的数据越来越多,那么要找到某些不容易实现的规律,用机器学****就是很好的了,这也是为啥机器学****这么火,其实我学机器学****不仅仅是一种投资(肯定它未来的发展前途),我想做的事情还有一点,就是通过它更深刻的理解人脑的学****过程,提高自己的学****效率和思维能力。
 
三具体如何用机器学****br/> 
输入是两个:1 data;2 假设集合。Data如何使用?通过提取出feature vector来使用,也就是那个training examples,假设集合是用来选取最终f的。也就是说,输出就是f(或近似f)。
 
四第一个机器学****算法:PLA(Perceptron Learning Algorithm)
课程讲述这个算法的总体思路如下(典型的提出问题,分析问题以及解决问题):
 
通过信用卡问题引入PLA;
对问题用数学抽象,并得到目标函数;
详细解释PLA迭代(学****过程;
证明PLA学****的过程可以收敛并会得到最优解;
分析PLA优缺点,并提出克服缺点的一些方法;
 
这个算法本质上是线性分类器,针对给定的feature vector给出Yes 或者 No的回答
下面是用这个算法去解决信用卡问题的数学抽象:
这里的思想在于朴素的把从用户信息抽出来的一些feature(年龄等)量化并组成vector,然后乘以一个权重向量,并设定一个阈值,大于这个阈值就表示好,小于表示不好,很明显这个式子的未知变量有两个(实际只有一个):
权重向量 wi, 1<=i<=d;
阈值,下面设为0
做一点小小的变形使得式子更加紧凑,
还有就是从这个模型可以知道,regression model也可以解决classification问题,转化的思想。下面是这个算法的核心,定义了学****目标之后,如何学****这里的学****是,如何得到最终的直线去区分data?
 
这个算法的精髓之处在于如何做到"做错能改",其循环是不断遍历feature vector,找到错误的点(Yn和当前Wt*Xn不符合),然后校正Wt,那么为什么要这样校正?因为这样可以保证Wt越来越靠近perfect直线Wf()课程像大多数课本一样,用逆向思维给予介绍,就是在给定这样能够做的情况下去证明,即证明为什么这样做可以不断接近目标,以及最终一定会停止?
下面道出了PLA终止的条件:
  
这个是比较容易想到的,如果不能用直线去区分data(线性不可分),肯定是解决不了的,所以必须要满足线性可分,其实问题的关键在于如何方便的知道某些数据是否线性可分?这个在课程中目前没有涉及,一种简单的解决方法是画出来,直观的去看,这个我觉得不是好方法。
 
这两页PPT比较复杂,其实就是在利用条件证明,下面重新组织下给出思路,因为Latex用中文不太爽,就用英文了:
 
五 PLA的优缺点
为了应对Noisy,我们不可能得到完美的直线,那么怎么衡量当前得到的直线能够满足要求呢?凭直觉,我们知道如果当前直线犯错越少越好(对所有data),于是有了下面的改进算法,Pocket PLA,本质

最近更新

全球汽车行业发展趋势及市场分类调查报告 23页

儿童的情商和情绪管理的培养与发展 28页

儿童医院进修工作中的专科医师培养与培训 25页

健康管理创业计划书 31页

住院医师规范化培训年度工作的儿科疾病诊断与.. 27页

2024年足球知识题库及参考答案【基础题】 12页

中国历史文化知识竞赛100题含完整答案(夺冠).. 14页

县乡教师选调考试《教师职业道德》题库精品(.. 43页

传统文化对医学人文素质的影响和启示 24页

关于成都饮食文化与人们饮食习惯的调查 全.. 8页

伍德灯在骨科临床中的新型应用探索 27页

伍德灯在消化系统疾病治疗中的临床应用 28页

深圳汽车方案 5页

活动推广营销方案 6页

人才引进计划在新型城镇化中的发挥 25页

机械问题研究报告 7页

春季药店活动策划方案 6页

方案介绍已制定 6页

初中学生“读”书的策略 2页

五种锻炼医药代表拜访技巧的途径 28页

互联网出行创业计划书 35页

《宋庆龄故居的樟树》说课设计 6页

租赁行李箱项目商业计划书 4页

临床医学概论课程的临床实习与实践指导 27页

临床医学专业认证自评报告对专业特长培育的启.. 25页

中药热奄包在失眠中的应用探讨 26页

中国航天科技的信息安全与网络保护措施 23页

2024 安全生产工作要点 3页

作业风险辨识及防范措施 3页

车间平面布置图检查表 3页