文档介绍:望坠期:垫±:苏州大学学位论文独创性声明:本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作论文作者签名:出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。日
飙础盟———————————————————————————————————————一——一期::在——年一月解密后适用本规定。//’苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献信息情报中心、中国科学技术信息研究所蚍绞莸缱映霭嫔、中国学术期刊馀贪电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索。涉密论文口本学位论文属非涉密论文口论文作者签导师签日
增量式莼袢〖际跹芯中文摘要随着姆伤俜⒄梗珼性毯撕A康目晒┓梦实男畔ⅲ⑶一在迅速增加。高速增长的畔⒁丫晌H嗣腔袢⌒畔⒌囊桓鲋匾@丛础但由于其本身异构性和动态性的特征,用户必须面对和克服信息发现的主要问题。随着在本地集成葜匾P缘耐瓜裕珼莼袢∥侍庹艿皆嚼越多的学者的关注。本文针对莼袢〉南喙丶际踅猩钊胙芯浚⒏出了增量式的数据获取解决方案。本文的主要研究内容如下:栽隽渴紻数据获取技术的研究背景进行了深入的分析,在此基础上给出了本文的研究目的及意义。杓屏艘桓龌谕ㄓ盟阉饕娴氖菰捶⑾峙莱妫赐ü治鏊阉饕娴姆回结果来发现领域表单的聚焦爬虫。瓿闪艘惶淄暾氖菰磁卸ḿ胺掷喾椒ǎ渲邪ㄒ幌盗泄宋扌П淼サ启发式规则和基于计算表单相似度的数据源分类方法。治隽艘恢諻记录的自动抽取方法,该方法通过视觉特征抽取锹迹之后运用二维混合条件随机场进行数据标注。圆糠至煊駾菘獾谋浠德首隽说餮校岢隽艘恢终攵訢脑隽炕袢〔呗裕直鹪谑菰醇逗筒檠始恫煌6壬戏峙湎略刈试础此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步验证了本文提出的方法是有效的。关键词:菰捶⑾郑隽炕袢。荼曜作者:卓林指导老师:崔志明淌蒉嫒〖际跹芯
,琣齰瑃.·“痠瓸.·瑃.,,
篋珼,琁猰,
目录第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文组织⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第二章数据获取技术综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.畔⒓杉芄埂相关研究鹤鳌菰捶⑾钟敕掷嗉际跹芯肯肿础荼曜⒓际跹芯肯肿础隽炕袢〖际跹芯肯肿础传统搜索引擎的数据获取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..砏爬虫的工作流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..砏爬虫的搜索策略⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..砏爬虫的更新方式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.传统搜索引擎在煊虻牟蛔恪械氖莼袢〖际酢莼袢》》绞健脑隽炕袢》绞健莼袢≈械墓丶侍狻璴本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~第三章菰捶⑾旨胺掷喾椒ā数据源发现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..淼ゾ劢古莱妗数据源判定⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.数据源分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.分类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第四章数据抽取与标注⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.赨的实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯:.
数据标注模酗⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.对包含数据记录的文本块建模⋯⋯