文档介绍:後旦大学硕士学位论文一种基于耐撤掷嘞低车纳杓朴胧迪ⅰ院专姓系:信息科学与工程学院业:计算机应用名:鲁鹏俊指导教师:张世永教授完成日期:年学校‘茫学
摘要本文主要研究了一种基于掷嗨惴ǖ耐撤掷嘞低车纳杓朴胧迪帧N恼首先全局的介绍了系统框架,并在接下来的章节中详细描述了网络爬虫、中文分词、英文词干提取、特征提取和特征表示等关键技术细节。论文第五章引入分类算法所需要解决的二次最优化问题,并通过大问题分解、工作集选择、样本点压缩、杓频裙丶际醭晒Φ亟饩隽舜扯巫钣呕惴ㄋ荒芙饩龅大样本空间的训练过程。在此基础上,论文第六章系统地勾画出了惴ǖ姆类过程;并在第七章通过调整各种系统参数得出分类准确率高达%的好成绩。关键词:支持向量机缗莱妫卣魈崛。,,珽現甀瑆甌,,%.:琖第旯
刖吾阉饕娴难芯姆⒄时代的变迁衍生出许多不同的时尚和潮流,自在上世纪九十年代飞速发展以来,如今上网冲浪已经成为全球最为耀眼的时尚和潮流之一。已经发展成为当今世界上最大的信息库,并且成为全球范围内传播信息最主要渠道之一,其中以姆⒄棺钗Q杆佟8菝拦又荽笱Р死中的一项研究表明【】,到年路菔保鯥洗笤加诘趁妫笤的速度增长,而且这种增长速度将会越来越快,按这个速度即使保守的估计,现在上也将有亿以上的趁妗I厦娴拇统数据只是针对静态页面而言,而另一项关于动态信息的研究表明【年路菔保チM洗笤加腤相关文档,信息量共计有左右。根据难芯俊浚耆路菔保琁弦丫拥有约,个站点,其大大促进了姆⒄埂目前,各类机构纷纷建立镜悖蛏缁岱⒉即罅啃畔ⅰ用户可以通过它们去了解各个公司的产品、营销促销活动、用户手册和参加虚拟用户培训,可以进入政府机构去查找它们的设置与功能,文件报告,统计数据,法规条例,研究或投资项目,可以连入大专院校去了解专业与课程,教师学生名单,招生就业信息,科研项目和成果介绍,可以检索图书情报机构的服务功能,目录索引,电子图书期刊,数字化图片和音响资料,接受联网咨询服务和联网借阅服务等。可以说,N颐墙⒘艘桓鲂碌纳罨肪常梢源又辛私獾剿枰5募负跞何信息,并可以方便的获得所需的多数信息。网络上蕴含着非常丰富的信息资源,但要从这个信息海洋中准确方源中找到所需要的信息已经成为困扰网络用户的一大难题。为了解决这一问题,从世纪年代起人们就开始了诸如琖琕燃焖鞴ぞ撸便的找到自己所需要的信息,是非常困难的。如何快速、准确的从浩瀚的信息资—暌弧猨一第垂●
基于谌莸难芯糠较本文研究方向从年代中期又出现了检索腤搜索引擎技术,并以此构造检索所有各类网络信息资源的集成化支撑体系。目前上存在的搜索引擎数目没有确切的统计,保守的估计应该在鹊取A硗饣褂屑赴俑龅区性的搜索引擎,如我国的百度、搜狐、新浪和网易,欧洲的、甤、等;除此之外,还出现了各种形形色色的专业搜索引擎,如用于找工作的⒅泄⒉磐灰窖阉饕鍴逃阉饕等。目前,占住统治地位的鏊阉饕嬷饕J荊琘,百度和网络搜索引擎的出现大大提高了人们准确获取相关信息的能力。然而,信息量如此之大,加上各种专业术语在各个学科中的交叉引用绮《静唤龀鱿在医学,也出现在计算机科学扇帕怂阉鹘峁淖既仿省A硗猓畔⒎⒉颊的冗余表述或者大篇的讨论也削弱了用户的信息获取能力。为此,最近又出现了基于谌莸难芯浚ǎ和匙远掷嗉际酢⑼尘劾嗉际酢⒄RL崛『颓基于以上给出的一些背景知识,可以知道基于谌莸难芯坑兄谔岣呷们获取信息的能力。本着这个思想,本文主要研究了网页的自动分类技术。分类是指将数据映射到预先定义好的类别之中。因为在分析测试数据之前,类别就已经被确定了,所以分类通常被称为有指导学习,分类算法要求基于数据属性值来基于神经网络和基于规则的五大类算法。比较典型的有贝叶斯分类算法、向量空上千以上。目前主要的搜索引擎有、、、向性识别等技术。定义类别。在网页分类系统之中,往往都是根据出现在网页中的词条来界定数据属性。关于分类的算法有很多,大概可以分为基于统计、基于距离、基于决策树、间算法算法、神经网络算法和支持向量机算法鹊取N南住显示向量空间算法、贝叶斯算法、惴ǖ氖匝榻峁缦拢、第彻●
本文的组织值贝叶斯文献【】显示了贝叶斯算法、改进贝叶斯算法、决策树和惴ㄔ谒特定领域较好主导地位。为此,本文选用了惴ㄗ鑫M撤掷嗟乃惴ā5比唬A耸视大容量样本的学习,此文不再是单纯的采用文献【恐懈龅腟二次最优解法,也不仅仅是采取传统的最速梯度下降算法嵌源笕萘垦镜憬行分解,分而治之。全文从网络爬虫、分词、特征选取、特征表示、昂分类过程都进行了完备的阐述,使得各个模块有机紧凑的组合成为一个系统,并嗥W魑O低车氖匝槭荩峁砻鳎罕鞠低车淖既仿蚀锏ブ撸皇为一个较好的研究题材。·第一章将概括的给出网页分类系统的框架,并为每一个具体的模块作出简要刂范杂ν乘诒镜匚募淖橹琔过滤的设计和奖镜匚募影射的设计和实现。封闭查封闭准封闭开放查开放准开放算法全率确率