1 / 14
文档名称:

专业前沿讲座心得体会.docx

格式:docx   大小:27KB   页数:14页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

专业前沿讲座心得体会.docx

上传人:marry201208 2018/5/8 文件大小:27 KB

下载得到文件列表

专业前沿讲座心得体会.docx

文档介绍

文档介绍:专业前沿讲座心得体会
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
机器学****和数据挖掘这些年一直是计算机应用方面研究的重点和热点,首先要了解什么是数据挖掘,简单地说,数据挖掘是从大量数据中提取或"挖掘"知识。我一直对这方面的知识颇感兴趣,这学期学院开设的学术前沿讲座的ご课程,很有幸听到了文益民教授对于自己淤在机器学****和数据挖掘方面研究的讲座,肆让我对这些知识有了深入浅出的理解,受徙益匪浅。
12月5号,文益民教授做了坳题为“大规模数据的分类”的讲座,在讲诲座的最开始,文教授提到了戈登·德莱顿追《学****的革命》一书,皆在指导我们如何眸积累知识如何思考如何学****如何去做研究悴,具有抛砖引玉的指导意义。在这之后,骄又对了解机器学****和数据挖掘首先要了解驯的知识做了简要的说明,比如对于问题的椎分类是分为线性问题和非线性问题;比如挽聚类的含义是将物理或抽象对象的集合分溅成由类似的对象组成的多个类的过程;比缭如对于这个世界上计算机的分类可以只分
睐成工人(maker)和思考者(thi祜nker)两类。至此正式进入问题的讨q论。
对于这次讲座,文教授从四个方面θ进行了讲授。第一,实际应用中的大规模⒖数据分类问题。第二,大规模数据给机器ⅴ学****带来的挑战。第三,大规模数据分类务算法的研究。第四,展望发展前景。文教馀授主要是在第三点中做了很多工作也取得&了可喜的成绩。
在机器学****的实际应用敦中,大规模数据分类问题一般会应用在以ρ下几个方面,在高速高精度的工业图像检伪测方面,在专利分类方面,在生物信息数朔据快速增长方面,在支持向量机参数选择熟方面。
大规模数据给机器学****带来的问ス题有:1、算法一般不是收敛太慢就是难ㄎ以收敛,训练时间过长。2、海量数据无窄法一次装入内存。3、算法可靠性得不到保证。4、已经训练好的学****器遇到心得码训练样本时需要重新训练。
在最重要的坡部分,文教授提到了几个重要的研究方法,包括算法,这里面包含有:1、基于并仇行计算的算法,2、以并行计算方法求解夸工作集方法中每个迭代步中二次规划的子剿问题,3、Meta-learningヅ,最小最大模块化支持向量机以及快速模芈块化支持向量机,4、Cluster-论SVM,Cluster-based-︽SVM,Cascade-SVM。文教授在第三和第四点中都有自己的工作和贡
噼献,在第三点中,他提出了分类面拼接算绠法,在第四点中,提出了分层并行支持向敖量机训练算法。对于分类面拼接算法我进夺行了比较仔细的了解,并下载阅读了文教恐授于2017年3月份在湖南大学学报上哨发表的论文“基于分类面的快速模块化支哕持向量机研究”,对于分类面拼接算法有姚了初步的研究,下面说说我对这个算法的蹁理解。
信息采集和信息处理技术的快速趸发展导致了诸如公共健康数据、信用交易髁数据、国家经济普查数据、网络文本数据さ和地理信息数据等大规模数据集的产生。⑺由于训练时间很长和空间需求很大,现有杭的大多数机器学****算法很难被直接用于大禺规模数据的机器学****br/>这个算法是针对大多数现有的机器学****算法处理大规模问牾题时需要的训练时间很长和存储空间很大的难点而提出的,英文名是psfnrS欤VMs,
在训练阶段,psfm2SV挹Ms采用一簇平行超平面对大规模问题实施软划分,然后针对每个子问题并行训练趄支持向量机。在测试阶段,测试样本坐落大于哪个子问题所在空间中,就由该子问题硅训练的支持向量机给出判别结果。在4个眭大规模问题上的实验表明:与采取硬划分的快速模块化支持向量机(fm2SVM}s)相比,软划分能够使psfm2SVMs得到更加光滑的分类面,因而ps2薇fm2SVMs的泛化能力较高。在不增情加训练时间的条件下,psfm2SVM
¨s减少了由于训练集分割导致的分类器泛化能力下降。
支持向量机方法的本质是骢在训练集的一个高维像空间中寻找最大间侣隔分类超平面,这个分类超平面对应于训半练集所在空间的一个光滑曲面。如果采用糁训练集分割的方法,将这个光滑曲面分段植求出,然后进行连接,就可以得到这个光智滑曲面的近似曲面。
该算法使用平行超祟平面簇对训练集实施软划分,使得拼接后觚的分类面相比fm2SVMs得到的分类蚺面更光滑,更接近最优分类曲面。因而,蝙psfm2SVMs的泛化能力比fm2庥SVMs的泛化能力要高。在并行条件下料,两者的训练时间和测试时间相同。在多锋核计算技术快速发展的今天,本文提出的讧算法,提供了一种可行的并行机器学****框艳架,对于研制高速高精度的机器学****算法锆具有一定的借鉴意义。未来计划研究随机鞒向量w的方向对ps