1 / 51
文档名称:

《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史.doc

格式:doc   大小:5,083KB   页数:51页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史.doc

上传人:布罗奇迹 2024/5/7 文件大小:4.96 MB

下载得到文件列表

《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史.doc

相关文档

文档介绍

文档介绍:该【《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史 】是由【布罗奇迹】上传分享,文档一共【51】页,该文档可以免费在线阅读,需要了解更多关于【《机器学习:发展与未来》深入浅出地介绍了机器学习及其历史 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。《机器学****发展与未来》深入浅出地介绍了机器学****及其历史《机器学****发展与未来》2017年12月在过去的二十年中,人类手机、存储、传输、处理数据的能力取得了飞速发展,亟需能有效地对数据进行分析利用的计算机算法。机器学****作为智能数据分析算法的源泉,顺应了大时代的这个迫切需求,因此自然地取得了巨大发展、受到了广泛关注。“现在是大数据时代,但是大数据不等于大价值。”我们要从大数据里面得到价值的话,就必须要有一些有效的数据分析。正因为这个原因,这几年机器学****特别热。这是从人工智能里面产生的一个学科,利用经验改善系统学****在计算机系统里面,不管是什么经验,一定是以数据的形式呈现的。所以机器学****必须对数据分析,这个领域发展到今天主要是研究智能数据分析的理论和方法。我们可以看到图灵奖连续两年授予在这方面取得突出成就的学者,这其实一定程度上也表现出了大会对此的重视。我们都知道,现在优质医学资源非常稀缺,为了缓解这个问题,国外产生了一种叫做“循证医学”的做法。以后患病了不是先去找专家,而是先去看一看文选资料,因为很可能已经有人患过,甚至已经有医生诊治过这个病,发表过论文。那么如果我们暴露里面和这个病相关的最新技术,把它汇集起来,很可能就能得到很好的解决方案。如何实现这个想法呢?第一步,我们要从这个浩如烟海的医学文献里面,把可能有关的文章汇集出来。现在有很多基础工作建设,例如在医学上有PubMed的系统,我们还可以用谷歌学术等搜索关键词,就能搜到很多文章。但这些检索出来的文章和我们真正需要的可能还有很大的距离,因为他可能只是仅仅包含搜索的关键词而已。所以第二步就需要请人类专家来过滤它们,找出到底哪些东西需要深入研究。这部分的工作量有多大呢?我们举个例子,在一个关于婴儿和儿童残疾的疾病研究里面,这个美国Tufts医学中心在第一步的筛选之后就拿到了33000篇摘要。中心的专家效率非常高,他们每三十秒钟就可以过滤1篇。但就算这样,这个工作还是要做250个小时。可想而知,就算一个医生三十秒钟看一篇文章,一天八小时不吃饭、不喝水、不休息,也需要一个多月才能完成。而且糟糕的是每一项新的研究我们都要重复这个麻烦的过程。还有更可怕的是,随着医学的发展,我们发表的论文数量也越来越多。所以如果没有其他解决途径,“循证医学”可能就没有未来了。为了解决这个问题,降低昂贵的成本,Tufts医学中心引入了机器学****技术。怎么来做呢?我们挑出大量的文章,只邀请熟练的专家判断是有关还是无关的,然后基于这个信息建立一个分类模型,用这个分类模型对剩下没有看过的文章做一次预测。其中相关的文章再请专家来审读,这样的话,专家需要读的东西就会大幅度减少。这样做之后,得到的性能指标已经非常接近、甚至一定程度上超过了原来专家过滤的效果。因为我们知道一个专家三十秒钟读一篇文章,需要连续工作一个月,而且中间出错的可能性太多。现在用机器学****来做只需要一天时间,所以被当成是机器学****对现在机器医学发展的一个很重要贡献而报道出来。这里面非常关键的一步就是我们怎么样把这个分配模型做出来,其实就是用的机器学****一张PPT说清机器学****过程现在假设把数据组织成一个表格的形式,每一行表示一个对象或者一个事件,每一列表示我刻画的对象的属性。比如说每一行指的就是“西瓜”,那最后我们特别关心的是这个“西瓜”好还是不好,我们把它叫做类别标签。之后,我们经过一个训练过程就得到了模型,今后我们拿到一个没有见过的新数据时,只要知道它的输入,把输入提供给这个模型,这个模型就可以给你一个结果,究竟是好的还是不好的“西瓜”。所以在现实生活中,我们碰到的各种各样的分类预测预报问题,抽样出来看,如果在计算机上通过数据驱动的方式来解决它,其实就是在做一个机器学****的过程。把数据变成模型要用到学****算法。有一种说法是计算机科学就是关于算法的学问。那如果从这个道理上来讲的话,机器学****其实就是关于学****算法的设计分析和每个学科领域的应用。|?人工智能的三个阶段机器学****本身确实是起源于人工智能,而我们都知道人工智能是1956年达特茅斯会议上诞生的。到今天恰恰是六十周年。那么在过去的六十年里面,其实我们从人工智能的主流技术上看,可以认为是经过了三个阶段。在最早的一个阶段,大家都认为要把逻辑推理能力赋予计算机系统,这个是最重要的。因为我们都认为数学家特别的聪明,而数学家最重要的能力就是逻辑推理,所以在那个时期的很多重要工作中,最有代表性的就是西蒙和纽厄尔做的自动定理证明系统,后来这两位也因为这个贡献获得了七五年的图灵奖。但是后来慢慢的就发现光有逻辑推理能力是不够的,因为就算是数学家,他也需要有很多知识,否则的话也证明不出定理来。所以这个时候,主流技术的研究就很自然地进入了第二阶段。大家开始思考怎么样把我们人类的知识总结出来,交给计算机系统,这里面的代表就是知识工程专家系统。像知识工程之父爱德华·费根鲍姆就因为这个贡献获得了1994年的图灵奖。但是接下来大家就发现要把知识总结出来交给计算机,这个实在太难了。一方面总结知识很难,另外一方面在有些领域里面,专家实际上是不太愿意分享他的经验的。所以到底怎么解决这个问题呢?我们想到人的知识就是通过学****来的,所以很自然的人工智能的研究就进入了第三个阶段。这时候机器学****作为这个阶段的主流研究内容,可以看到机器学****本身其实就是作为突破知识工程的一个武器而出现的。但是,事实上并没有达到目的,今天大多数的机器学****的结果都是以黑箱的形式存在的。另外一方面,为什么机器学****这么热门呢?其实恰恰是因为在二十世纪九十年代中后期,我们人类搜集、存储、管理、处理数据的能力大幅度提升,这时候迫切需要数据分析的技术,而机器学****恰恰是迎合了这个大时代的需求,所以才变得特别的重要。?