文档介绍:⑧∥菇办写硕士学位论文的领域知识自动抽取技术的研究论文题目:基于分类号:密级:公开单位代码:学号:作者姓名学院称专业指导教师合作导康琪计算机科学与技术学院计算机系统结构马军教授月日
原创性声明和关于论文使用授权的说明糯期:叫沙逮壅盈丝导师签日期:型ǎ篒加原创性声明关于学位论文使用授权的声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。C苈畚脑诮饷芎笥ψ袷卮斯娑日
,≯Ⅵ弋。一,.
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.国内外发展和研究现状⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文研究的主要内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第耊信息抽取相关技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.基于自然语言处理的信息抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于模式匹配的信息抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于网页结构的信息抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于峁沟男畔⒊槿本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第翫惴枋觥基本技术与定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..昵┞!⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第率笛榉治鲇胩致邸⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第滦髀邸璱山东大学硕士学位论文日.
参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯山东大学硕士学位论文实验设置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.性能评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.效率评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第陆崧塾胝雇攻读学位期间发表的学术论文目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
山东大学硕士学位论文⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.艏窼猇⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯一⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...................⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.....................................................................⋯⋯⋯⋯⋯⋯⋯⋯.......................................⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
山东大学硕士学位论文.....................................................
摘要山东大学硕士学位论文随着互联网的高速发展及其各种τ玫目焖僭龀ぃ缟系男畔⒐婺<本扩大。网络已经成为人们生活中重要的知识库,人们对高效地获取信息的需求尤为迫切。在网络的海量数据中,包含了大量的半结构化的领域知识,例如电影、书籍和酒店等等,这些领域知识与我们的生活秘密相关。目前,虽然可以通过搜索引擎从海量数据中进行信息检索,但是搜索的结果并不是非常可靠。而这些领域知识往往来自供应商的后台数据库,同时基于关键字匹配的搜索引擎由于自身的限制,不能索引这些嵌入在半结构化的网页中的领域知识。如何从大规模的网站中自动抽取并组织这些领域知识成为信息抽取研究的热点。畔⒊槿〖际梢源影虢峁够耐持谐槿∈荩⒁越峁够姆绞酱娲⒃谑菘庵小本文在分析当前畔⒊槿〖际醯幕∩希帽昵┞肪都际代替骼幢硎綡术牡怠8帽硎痉椒ù蟠蠼档土吮昵┑氖浚高了算法的性能。针对半结构化的网站,提出了一种新的基于淖远取领域知识的算法:,。利用本体来统一标注同一领域中抽取的半结构化数据,便于存储和查询。首先利用基于标签路径技术的聚类算法对目标网页进行聚类,过滤掉噪音网页,只抽取包含详细信息的半结构化网页。根据标签路径技术,提出一种新的模式定义。对同一类别的