文档介绍：西安电子科技大学
硕士学位论文
基于GHMM的Web文本信息抽取技术研究与系统设计
姓名:王静
申请学位级别:硕士
专业:计算机应用技术
指导教师:刘志镜
20080101
摘要状态转移序幼蟮接遥缓蟠由螻对含有多媒体的二维空间的网页来说也并随着互联网的高速发展,丫晌U飧鍪澜缟献畲蟮男畔⒗丛础H绾位取有用的畔⒃蚴谴蠹颐媪俚墓餐侍猓琖信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,还并未考虑网页文本的特殊性。另外,信息抽取也很少涉及语义的理解。目前,信息抽取常用的模型是隐马尔可夫模型,它因易于建立、适应性强、抽取精度高等优点而日益受到研究者的关注,但该模型仅适用于普通文本,对含有更多其他信息的网页来说也并不合适。通过对网页的分析,谋拘畔⑼ǔ包含更多输出属性比如:词条,版面以及格式属性。考虑到传统隐马尔可夫模型的状态转移过程中仅将单一词条属性作为观测输出特征,我们将多重属性词条,版面以及格式属性魑R矶煞蚰P凸鄄馐涑鎏卣鳎佣牍阋逡马尔可夫模型。对于纯文本,传统的且缘ヒ挥锞湮P畔⒊槿〉幕镜ノ唬浼偕璧不合适。通过对网页的分析,我们发现网页的视觉版面结构由不同的块组成,而且这些块之间还有一定的逻辑关系。本文利用基于可视化的网页分割算法对网页进行分块,得到一种更适用于网页的基于版面结构的状态转移序列。由于任一时刻出现的观测输出矢量概率不仅依赖于系统当前状态,而且依赖于系统在前一时刻所处的状态,所以本文提出了基于二阶链的改进的广义隐马尔可另外,针对网页的语意分析,本文采用了一种基于角色标注的命名实体识别方法,其基本思想是:针对网页文本,结合角色表的规则,采用改进广义隐马尔可夫模型进行角色标注,在角色序列的基础上,进行字符串识别,最终实现命名实体的识别,进而实现了从车慕峁辜坝镆辶椒矫娑孕畔⒌某槿本文通过对当前招聘网站上海量的招聘信息进行定题畔⑼诰蚝托畔⒊取,开发了基于的谋镜某槿∠低砏。本文首先介绍了本信息抽取技术的基本概念,然后通过对趁娴姆治觯軼页面的特点并结合角色标注的实体识别技术,从趁娼峁购陀镆辶椒矫妫τ酶慕模型对畔⒔谐槿 W詈螅ü笛樗得鞲慕墓阋逡矶煞蚨于网页信息抽取有很好的效果,同时也提出了系统的不足和未来的发展研究方向。关键词:数据挖掘信息抽取广义隐马尔可夫模型命名实体识别夫模型。
,甌琹琣甌.,,,.,—.疭甌,【.,.瑆,.,甌,甇瑂,,
—篋琤,
导师签导师签名:。么』二趔夯ィ丝星茎创新性声明关于论文使用授权的说明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其他教育机构的学位或证书而使用过的材料。与我一同工作过的同志对本研究所做的任何贡献已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。C艿穆畚在解密后遵守此规定本学位论文属于保密在——年解密后适用本授权书。日期.】厶、.‘.
第一章绪论弟一早珀下匕课题背景本课题研究的是萃诰蛑械囊桓龇种А!獁曲信息抽取,是国家自然畔⒊槿〖际醯姆⒄褂胂肿应用是从医疗领域的獗ǜ婧鸵皆撼鲈杭锹贾谐槿⌒畔⒏袷科学基金项目“分布式数据挖掘优化技术”己的一个组成部分。课题的主要研究任务是构建基于诰蛴胄畔⒊槿∠低常⒔氐愣ㄎ辉赪环境下特定信息——针对招聘信息的文本挖掘与抽取。随着因特网的普及,试匆丫晌H嗣腔袢⌒畔⒑椭J兜闹匾G馈资源覆盖了人们生产、生活的方方面面,如电子商务、网上银行以及人们的休闲娱乐活动如上网冲浪、网络游戏等,都时刻和因特网关联。可以说,人们的交互信息不可避免地出现了电子化、网络化、海量化的特点。在这些试粗校藏了大量有价值的知识。如何快速高效地获取这些知识,已经成为数据挖掘研究的一项重要内容,并因此产生了新的研究领域,即萃诰颉由于系男畔⒈ㄊ降脑龀ぃ飧绾位袢∮杏眯畔⒋戳思ù蟮牟便。另外,人们不再满足于自己去寻找信息,而是转向应用信息代理。信息代理从大量的资源网站收集资源,然后根据用户的需求或兴趣过滤和转换信息,再将处理后的信息发送给用户。但是,由于各个网站资源的异构性,很难准确地从大量的网页资源中发现用户需