文档介绍:;重庆邮电大学硕士学位论文’墅兰皇坚菀铊防璺矬┮畹┧勘望二墨垒┑﹊里曼论文题目:基王焦莸孥约宄隼汗呵荡怪钡姘鲍盟宝鱼遮盐陈治昂英文题目、●.,
警论文作者签名砸缉签字嗍唧等朔学位论文柘者签依签字呼叼年,蝈导师签名:修寿傻铆’⋯舢⋯嗍Ⅲ签字日期:。竽阩律傺独创性声明学位论文版权使用授权书人已经发表或撰写过的研究成果,也不包含为获得重迭整鱼太堂或其他教育重庆邮电太堂重废邮电太堂本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅’和借阅。本人授权可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ,●‘~
随着№姆伤俜⒄梗琖男畔⒘吭嚼丛酱螅ㄓ盟阉饕娼媪傩畔摘要于提高信息抽取自动化程度,监控竞争对手的市场策略,以及衍生新的商业模式。采集、检索等方面更大的挑战。随着电子商务的蓬勃发展,网上商品的交易越来越频繁,更多的消费者通过搜索引擎来寻找和购买在线产品,但是用户常常难以快速、准确地从海量信息中找到自己所需的且可比较的信息。为解决这些问题,比较购物垂直搜索应运而生。本文旨在通过畔⒊槿⒅形姆执省⑿畔⑷诤系认喙卮怪彼阉骷际醵酝页信息进行处理,使计算机能够自动完成商品信息抽取和融合,最后呈现给用户一个完整的商品信息视图,提供一个初步的比较购物垂直搜索系统模型。它有助本文针对网页噪音和网页非结构化信息抽取模板生成复杂度高的问题,提出一种基于模板的快速网页文本自动抽取算法。该算法对网页噪音预处理,将其鹘峁菇斜昵〩成洌ü远盗返你兄悼焖倥卸ㄍ车闹饕2分,根据数据块中的嵌套结构获取网页文本抽取模板。然后使用网页文本主题分析和正则模板匹配等技术,实现一套针对商品信息的在线抽取方法。为了增加商品垂直搜索的准确性,维护日益更新的商品名词,本文提出了基于主题的自适应的分词方法,使用候选词典和专业词库来指导分词和歧义消除,能有效地提高专业领域中分词的准确率。本文进行了系统的总体设计、数据库表结构设计;对关键模块的设计引入甶疲徊⒔岷弦恍┛T纯蚣芏圆糠窒低衬?楹偷撞闶毙虻鞫冉惺迪帧文中介绍了主要模块的实现细节,并根据抽取的商品信息属性,提出相应的数据融合策略。最后以图书商品为例进行了系统运行实验。实验运行结果表明:本文相关算法和设计是可行的,系统能够完成初步的设计目的,为进一步的扩展打下基础。关键词:信息抽取,非结构化信息,自适应,数据融合,比较购物垂直搜索
幻術Ⅱ咖姗缸‰琣穕鐂渴鑑锄蟘蟚魊瞖锄。眦鲥∈鳌総鷅吼砒皿瑂膇鷈面姗餹蟆痮姗蚵襛硫谢臼徼珻撕猻瞔籶甌餺廿曲馗譴軻緇鷇廿曲鷌:觤鷇硎鷇诵斌蛔齞畂;觚籭ⅰ韇阤】珼琾帅,蚻也;騦趌—絪’,缸厅,培琤鏼縧.,穜也堪譺芏珼,廿琭籭也豫由琯阛,觞廿仃,仇琲,,誩瑃餓’瑃σ睱阛:Ⅱ
飁锄瓵階,:蚵嬲篒撕Ⅷ锄‘膐,锄ぁ辭畇∽.诅缸蛐矧量莎巧Ⅱ.琲鬿廿琤【仃,也玎址也面咀诅Ⅱ辳Ⅱ觞;Ⅱ,阛一.
目录摘!ぁぁぁぁぁぁぁぁぁぁぁぁぁぃ骸ぁぁぁぁぁぁぁぁぁぁぁぁぁぁぁ⋯··;·⋯.⋯·⋯第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究背景及目的⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国内外的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...畔⒊槿⊙⒄瓜肿础本文的主要工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文体系结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第二章畔⒊槿〖按怪彼阉飨喙丶际酢畔⒊槿畔⒊槿∥⒊槿『托畔⒓焖鞯那稹弧璴畔⒊槿±⒊槿∠低成杓频姆椒ḿ捌兰壑副辏垂直搜索相关技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。:⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第三章基于模板的快速网页文本信息自动抽取算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.相关工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于模板的快速网页文本信息自动抽取算法⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··算法运行实