文档介绍:鬻壁隋日学位论文作者签名:闰坼,分同月飞一独创性声明签字日期:矽月分日利学位论文版权使用授权书、,,,≯噎寥本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表本学位论文作者完全了解江西师范大学研究生院有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ名年签矽作文期位字学签示谢意。沦~日ⅲ琲飞,;:。,,
摘要随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一大难题。电子商务网站具有动态趁妗⒁趁娼峁够潭雀咭约靶畔⑹烤大且内容丰富等特点。实际上,电子商务网站属于珼傅氖存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度搜索就是针对兴阉鳌不仅信息量大,而且具有面向某一领域、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜索,通过模拟关键词的填充和提交,来获取我们需要的页面。通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很多,但从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方法有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人本文的主要内容及创新点如下:⑸杓埔桓龉丶士饨涌冢沟孟低晨梢越邮芄丶士馕募文本文件,关键词之间以回车符隔开ü丶士馕募诘墓丶室灰坏既胫料低持校于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那一部分关键词,即达到关键词增量更新的目的。⑻崛〉缱由涛裢镜腍绰耄ü訦绰虢蟹治觯崛出网站中包含查询表单的那部分源码。根据这部分源码,利用控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得每一个关键词所对应的初始页面。工编写抽取规则的方法。
、!瘛
甒’’,..甋,瓺瑃.,,瓵瑃甤.:’,’琭,’.琽琤瓺,
’甀疕,’琣.‘”,籛’.’琤“—”,,,.’;’篋;;
录要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第滦髀邸本文主要内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⒊槿〉⒊槿」ぞ進目课题的研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯.搜索引擎研究综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第耊信息抽取研究综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.畔⒊槿⊙芯糠⒄瓜肿础畔⒊槿〉姆椒ā畔⒃⒊槿〈嬖诘奈侍狻简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.的优势与局限性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..摘..........................................................、
.低车哪勘辍关键词库接口设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⒊槿∠低称啦狻第律疃人阉饔胄畔⒊槿∠低场设计目标与思路⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..杓频幕舅悸贰系统的整体框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..丶士饨涌诘脑隽扛律杓啤查询表单的处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..