文档介绍:本人签名:——创新性声明关于论文使用授权的说明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其他教育机构的学位或证书而使用过的材料。与我一同工作过的同志对本研究所做的任何贡献已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。日期本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。C艿穆畚在解密后遵守此规定本人签名:导师签名:
摘要关键词:文本挖掘信息抽取条件随机场模型韵随着互联网的高速发展,丫晌J澜缟献畲蟮男畔⒗丛础H绾位袢∮用的畔⒃蚴谴蠹颐媪俚墓餐侍猓琖信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,对网页文本的特殊性考虑不足。另外,信息抽取也很少涉及语义的理解。针对这些问题,本文以当前招聘网站上海量的招聘信息为试验数据,来进行定题畔⑼诰蚝托畔⒊槿〉研究。本文围绕韵蟪槿≈械墓丶际跽箍Q芯俊Mü訵页面特点的分析,实现趁娴淖远指睿佣竦弥魈馕谋尽=魈庑畔⒊橄蟪蒞对象,从而根据韵蟮奶卣骼唇蠾对象的命名实体以及实体关系的识别,并且通过实验说明改进的模型对于信息抽取有很好的效果,最后提出了系统的不足和未来的研究方向。具体的研究内容包括:首先,针对网页是二维的特点,根据网页的结构和文本内容特征,提出了基于网页的多重特征表示方法,实现了对于网页语义层面的特征表示。为了体现网页各个区域差异,采用二维模型对其建模,将传统的乒愕轿倍矶可夫模型,由此本文提出了基于伪二维隐马尔可夫模型的网页自动分割技术。其次,根据槿⌒畔⒌奶氐悖隬对象的概念。将结构特点和文本特点这两种一维特征相结合,并且进一步将这种一维特征抽象为语义纹理的二维特征,从而实现了从对象本身进行抽取方法的改进,并为后文利用一维特征对对象实体的识别,以及二维特征对韵笫堤搴褪粜怨叵档氖侗鹱鲎急浮再次,针对韵蟮囊晃卣鳎覹文本的结构特点和内容特点进行了分析,采用统计模型和实体特征相结合的方法,提出了一种P停该模型不同的层次来进行韵蟮氖堤逡约笆粜缘氖侗穑绕涫钦攵砸恍└丛的嵌套实体的识别,从而将职位名、机构名、地名、时间等命名实体的识别放在统一的框架下完成。最后,传统模型多利用谋镜慕峁购湍谌萏氐憬惺堤宓奶卣髅枋觯且需要依赖于树进行建模。本文在传统模型的基础上,将结构和内容特征抽象为语义纹理,用二维特征来进行对象实体及其属性的特征描述,提出一种针对韵蟮腍信息抽取模型。该模型采用一种逆向过程,通过语义来发现结构,而不像传统方法是通过结构来发现语义,解决模型对网页结构过度依赖的问题,使得模型对韵笫侗鸬淖既沸愿摺
—甦,,瓼,甒,诵,甒琭甌瞖甌.,..,瞖.,甧】畐甋甌,。
,,,.甦.,.
目录第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.课题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文的研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文研究的意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第二章畔⒊槿〖际酢畔⒊槿〖际醯姆⒄褂胂肿础畔⒊槿〖际踝凼觥畔⒊槿〖际醺拍睢畔⒊槿〉姆掷唷畔⒊槿〉墓丶际酢实体抽取的常用方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..臣颇P头椒ā关系抽取的常用方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...》椒ā畔⒊槿〈嬖诘奈侍狻畔⒊槿√逑到峁埂畔⒊槿∠低车钠拦辣曜肌小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第三章统计机器学习模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯隐马尔科夫模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯龌疚侍獾奶岢觥.
堤逯械挠τ谩最大熵马尔科夫模型介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..模型的定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..模型的标记偏置问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..‘⋯.条件随机场模型介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.跫婊∧∈〉〉母怕始扑恪三种模型的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第四章趁婀δ芸榈奶卣鳌趁娴奶氐恪格式分