文档介绍:扬州大学
硕士学位论文
基于大规模类别体系的网页分类及在商品分类中的应用研究
姓名:陈沧
申请学位级别:硕士
专业:管理科学与工程
指导教师:沈洁
20100501
要摘近年来,随着互联网信息技术的广泛应用,电子文本不断地快速累积,数量的人力。对用户而言,自动分类的结果可以视为一种分类提示,这对于减轻人工分析文本、人工文本归类方面的工作有相当大的帮助。本文从商品网页角度切入,得在大规模类别体系下,网页分类算法实验数据的组织与评价方式多种多样,而行方式爬行站点,通过提交一组待采集的网页刂房J际占荨6杂谔⒒诳缥牡倒叵档耐撤掷嘌芯俊C娑源蠊婺@啾鹛逑担愦卫啾鹧芯身的词语集合,而忽略了其中文档间的链接关系。本文从文档间的特殊关系,如⒒诓愦卫啾鹛逑档纳唐贩掷嘌芯俊T诘缱由涛窠灰字校啾鸲际前凑特殊特征,比如某些商品根据商品的品牌名称就可以得到其所属的分类类别,即其品牌的特征性区分度很高。基于这一点,我们在研究中准备了一部描述商品品大到难以对它们进行有效地管理与利用。因此,管理信息系统中对文本分类自动化的需求也就越来越迫切。如何利用自动化的技术快速有效地协助人们对文本文件、网页数据等进行分类已经成为当前信息服务与知识管理方面的重要课题。自动分类可以减少人工劳动的工作量,在实际应用中至少可以节省一半以上主要针对互联网商品数据信息管理领域做了以下几个方面的工作:⒒诖蠊婺@啾鹛逑档氖莶杉ぷ鳌M缰械氖萘颗哟笄沂莘植相对分散,大部分的网页都没有经过标注,特定领域的信息也不易获取,这就使且数据规模都较小,数据集质量也比较差。因此,做好基于大规模类别体系的数据采集工作,形成一个大规模基准数据集会给研究者带来很大帮助。本文提出了一种基于类别分布的采集策略,并在此基础上设计一个大规模采集系统,支持并定领域如淘宝网的数据采集,我们针对网站的个性化设置编写符合网站设计的定向爬虫来抓取所需的特定信息。策略是一个很好的选择。但在文本分类研究中的层次分类研究中多数利用文档自父子关系、兄弟节点关系等入手,进行大类别数即大规模类别情况下的文本层次分类研究。商品间一个树状层次结构来进行分类的。在进行商品分类研究时,考虑到商品的牌的词典供中文分词时调用。另一方面,本文在分类时引入一种“区分式”朴素
贝叶斯分类器模型来进行分类。实验证明,基于“区分式铀乇匆端狗掷嗄P关键词:大规模类别,层次分类,网页分类,商品分类的分类效果要比标准贝叶斯分类模型效果好。
瓼,.琩,琣畐,瑃...:.琲,猻瑆甀,,瓼瑂瑆猟甃.
.痺:,甌瑂琤瑃..瓹甇琽,,”盢.’,
鲆学位论文作者签名:帚每学位论文作者签名:’弦、弘签字日期:沙D阥月签字日期:D辏录尤扬州大学学位论文原创性声明和版权使用授权书签字日期:痮年乱学位论文原创性声明本人声明:所呈交的学位论文是在导师指导下独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含其他个人或集体已经发表的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文版权使用授权书本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交学位论文的复印件和电子文档,允许论文被查阅和借阅。本人授权扬州大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。导师签名:
第绪论选题背景近年来,随着信息技术的广泛应用,电子文本不断地快速累积,数量大到人工难以对它们进行有效地管理与利用。因此,在传统的管理信息系统中对文本分类自动化的需求也就越来越迫切。如何利用自动化的技术快速有效地协助人工对文本文件、网页数据等进行分类已经成为当前信息服务与知识管理方面的重要课题,也是信息管理与信息系统专业,特别是管理信息系统方向在互联网发展阶段中碰到的一个问题。由这个问题引申出的两大技术为搜索引擎技术与文本分类技术。文本分类的目的是对文本进行分门别类地加工处理,使得文本易于管理、利用。文本分类可将非结构化的资料转换成结构化的信息,它是信息组织、主题分析与知识管理的重要工具。在互联网发展日新月异的今天,海量网页信息的涌现使得文本自动分类技术的处理对象从普通文本扩展到网页信息。根据中国互联网络信息中心月发布的《第次中国互联网络发展状况统计报告》显示,“网页的规模反映了互联网的内容丰富程度。自年开始,中国的网页规模基本保持翻番增长,年网页数量达到诟觯暝龀ぢ食%。’’从应用角度来讲,└魇礁餮男畔ⅲ⑷米约禾峁的信息加入到已有的类别或重新建立的新类别中。正是在这个阶段,万维网上的数