文档介绍：山东理工大学
硕士学位论文
基于神经网络的文本挖掘在专利自动分类中的研究与应用
姓名:马芳
申请学位级别:硕士
专业:情报学
指导教师:王效岳
20090416
摘要缆鲻绢郝柯郴驶柿柯鼠颉獆量曼曼鼍量——■鼍暑曼——■量皇量量■———量鼍置罾●—鼍量曼—■—量皇量置—■——苛苛俊A苛俊V胠曼量专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号H欢壳暗淖ɡ掷嗳匀徊捎檬止げ僮鳎匀手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。专利自动分类是指在给定的分类体系下,根据专利文本的内容晏狻⒄R自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络惴ㄊ迪肿ɡ淖远掷唷T诖讼低持校主要包括特征向量构建和分类模型构建两部分内容。在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统宰ɡ谋窘蟹执剩诖嘶∩希疚慕獻类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益和互信息对专利文本特征进行降维处理。最后,采用经典的权重计算公式羗计算特征词在向量空间模型械娜ㄖ担保A颂逑植煌谋疚恢眯畔⒍愿梦谋厩侄鹊牟钜欤出了一种考虑位置信息进行加权来计算特征词权重的方法算法在分类模型构建过程中,采用径向基函数神经网络訬掷喾椒ㄍ瓿勺利文本的训练和分类。在分类过程中,首先通过稻劾喾ǘ允淙氲难盗费揪类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用掷嗥髟谧ɡ谋咀远掷嘀芯哂薪侠硐关键词:专利:自动分类;文本挖掘;径向基函数神经网络的性能,测试平均V翟ヒ陨稀山东理工大学硕士学位论文撞
,荳:;...,甌,.琲.,.甌瑃%.;,,.瑄,甌;
图表目录图谋就诰蚩蚣堋图谋咀远掷嗔鞒掏肌惴ㄔ硎疽馔肌图斯ど窬DP汀图钢殖<木断蚧耐仄私峁埂图ɡ远掷嘞低衬?橥肌图ɡ远掷嘞低巢愦瓮肌图执使δ芙缑妗图特征空间参数设置界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图问柚媒缑妗图词频统计结果界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯ㄖ亟峁缑妗均值聚类结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯泶峁图分类结果界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图分类结果统计界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯煌ㄖ丶扑惴椒ǖ腇当冉稀图不同特征选择方法的值比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表饕狪砺搿表牡担罹卣蟆表霾呔卣蟆表掷嘟峁植急怼表瓾魈饷枋觥表髦魈饫辔牡捣植肌表执式峁厥獯释臣啤山东理工大学硕十学位论文
时间:赫多月/导师潞鎪帆川年㈣口日时间。叩年多月户日马殇研究生签名:蜀殇独创性声明关于论文使用授权的说明C艿难宦畚脑诮饷芎笥ψ袷卮诵本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得山东理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明研究生签名:本人完全了解山东理工大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件和磁盘,允许论文被查阅和借阅;学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容,可以采用影印、缩印或扫描等复制手段保确的说明并表示了谢意。存、汇编学位论文。
第一章引言研究背景及意义世纪是信息化的时代,信息资源已成为现代社会中最重要的战略资源之一。专利信息是人类智慧的结晶,记载了人类社会发明创造的成就和轨迹,包含着经济发展、科技创新和战略决策等所需要的最重要的信息资源,是全世界最全面、最新的技术情报源。随着计算机技术和网络技术的飞速发展和广泛应用,各行各业积聚了大量、甚至是海量的数据。数据量的急剧膨胀,使我们淹没在数据和信息的汪洋大海中,产生了“数据爆炸,知识贫乏奈侍庥胂窒蟆6诩ぴ龅氖荼澈笠刈判矶嘀匾5男畔ⅲ需要新技术、自动地对其进行更高层次的分析,以便更好地利用这些数据,从而有效解决数据丰富性及知识贫乏性的矛盾。需要是发明之母,数据挖掘技术被认为是解决上述问题、使数据得到有效利用的一种重要方法和手段,并在实践中显示出了强大的生命力。文本挖掘是从数据挖掘