文档介绍：苏州大学
硕士学位论文
一种基于李群的半监督学****算法及应用研究
姓名:徐寒香
申请学位级别:硕士
专业:计算机软件与理论
指导教师:李凡长
20090501
一种基于李群的半监督学****算法及应用研究奉中文摘要治隽税爰喽窖暗难芯肯肿矗隽嘶诶钊捍峁购图负谓峁沟陌爰喽窖澳P停隽讼咝岳钊旱陌爰喽窖八惴—,并将其应用于一类甾体隽瞬问钊旱陌爰喽窖八惴.,并将其应用于窖攵砸┪锒拘栽げ猓隽嘶赟狿的药物毒性预测模拟系统,并在通过本文的研究,一方面,丰富了半监督学****的研究内容;另一方面,将基于李群的半监督学****算法应用于医学数据集的降维以及药物的活性分析和毒性的预测分类当中,为提出的新方法找到了应用背景。者:徐寒香指导老师:李凡长半监督学****是近年来倍受人们关注的新的机器学****方法,本文将李群理论引入到半监督学****领域中,给出了基于李群的半监督学****算法。主要包括以下几方面内容:药物的活性预测;据集的降维和分类;菁系玫窖橹ぁ关键词:半监督学****李群,李群机器学****药物活性预测作一种基于李群的半监督学****算法及应用研究疚牡难芯康玫焦易匀豢蒲Щ鹣钅恐С
锄..猚,甈瞖篠甋.。.—,琇瑆甀;甌琲瓼,·琽,,琇,:’
研究生签名::夕≥摩翥日期:丝:≤:苏州大学学位论文独创性声明及使用授权的声明学位论文独创性声明学位论文使用授权声明合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律责任。苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布ǹ授权苏州大学学位办办理。导师签日
第一章引言半监督学****研究现状惴半监督学****和李群机器学****是近年来倍受人们关注的新的机器学****方法。本章分析了半监督学****的研究现状和李群机器学****的研究进展。关于半监督学****方面,介绍了当前流行的五个算法:自训练惴ǎ猩苫旌夏P偷腅惴ǎ—盗算法,蓖剖街С窒蛄炕算法,基于图的算法。利用大量的未标记示例来建立更好的分类器,减少人力物力消耗,改善机器学****性能的半监督学****在理论和实践上已引起广大研究者的兴趣,是当前机器学****研究中策边界避开数据稠密区域突谕嫉姆椒ǖ鹊取】。对这些算法实际中是这样选择的:如果数据能够形成很好的聚类,就可以选择带有生成混合模型的算法;如果特征是一个自然扩展;如果已经存在一个复杂的监督分类器,则可利用亲钤缣岢龅囊恢盅芯堪爰喽窖暗乃惴ǎ彩且恢肿罴虻サ乃惴ǎ其算法的流程图如表所示。俣ㄗ约旱母咧眯哦鹊脑げ馐钦返模中会首先利用少量的有标记数据训练出一个分类器,然后将这个分类器用最受关注的问题之一【啤目前半监督学****的方法主要包括:带有生成混合模型的算法、匝盗算法、.盗算法、直推式支持向量机唇ň能够分解为两个子集,;如果有相似特征的两个点在同一类中,则可利用基于图的算法;如果已经利用了蛟诎爰喽角榭鱿吕算法。下面就相关算法进行介绍。于对未标记数据进行分类,通常挑选置信度最高的未标记样本,连同它们的预测标记加入训练集。分类器重新训练,迭代这个过程。.一种基于李群的半监督学****算法及应用研究
.墒侥P退惴一个阈值就不去学****未标记点的方法来避免这种情况的产生。通常,生成混合模型和算法能被看作一个特殊情况下的软已经被用于现实生活中的自然语言处理任务,利用源室逑纾纾因此挠诺阍谟谄浼虻バ裕且桓龇庾八惴ǎ芾孟钟械姆掷器,但是早期的错误会被强化,导致算法性能不高。生成式模型是半监督学****的一个常用技术。它假设模型满足概率条件瑈力,此处是一个可识别的混合分布,例如高斯混合模型。此类算法是将生成式模型作为分类器,将大量的未标记数据属于每个类别的概率视为一组缺失参数,然后采用最大似然估计⒆畲蠛笱楣兰或贝叶斯算法等来进行标记估计和模型参数估计,使得混合分量能够确定;在理想情况下仅利用一个分量的有标记示例就能完全确定混合分布。此类算法可以看成是在少量有标记数据周围进行聚类,是早期直接采用聚类假设的做法。对于半监督分类而言,生成式模型通过估计数据点的联合概率分布,可以描述出表难反问。局眯哦茹兄倒欠翊笥冢ィ绻∮谀耍崞獯卧げ猓将较高置信度的样本加入到训练已标记样本集三中。注意到分类器是利用自身的预测来学****因此这个过程被称为蛘NA吮苊庖桓龇掷嗥髑炕约旱拇砦螅恍┧