文档介绍:浙江大学计算机科学与技术学院
硕士学位论文
一个基于语义信息提取的互联网情报挖掘系统的设计与实现
姓名:黄朝晖
申请学位级别:硕士
专业:计算机应用技术
指导教师:姜晓红;陈华钧
20100301
摘要随着的高速发展,丫晌J澜缟瞎婺W畲蟮墓ü彩菰础人们可以从袢⌒畔ⅲ梢酝ü齏与其他人交流,可以在瞎蚕碜约的信息。然而由于莨婺H绱伺哟螅绾未又锌焖僮既返募焖鞯接没要的信息是一个急迫需要解决的问题。针对这一问题,在信息检索领域中的数据挖掘便应运而生,并且伴随着姆⒄苟甘芄刈ⅰ数据挖掘它建立在信息检索、数据挖掘以及知识管理等技术的基础上,通过对大量的牡到行分析来获得隐含的知识和模式,从而帮助人们更好的进行信息检索和决策制定。本文分析了萃诰虻难芯磕谌莺脱芯孔纯觯杓撇⑹迪至艘桓龌谟义信息提取的互联网情报挖掘系统,具体的内容包括:迪植⒎治隽薟页面提取、网页正文提取、自然语言处理以及关键字信息抽取等子系统模块;岢霾⑹迪至擞镆骞叵低嫉墓菇P停媚P陀猛嫉男问奖硎痉墙峁够的文本数据巾的语义关系;迪至艘恢制捣弊油纪诰蛩惴ǎ盟惴ú煌诘ゴ康纳疃缺槔凸愣缺历算法,在效率上优越于前两者;本文将该算法应用于挖掘潜在的频繁语义子图,得到具有一定客观性的语义关系图;岢霾⑹迪至艘恢只贚的此阉魉惴ǎ肔解析频繁子图,从而获得具有标注关系的语义关系罔。关键词:萃诰颍暾奶崛⒆匀挥镅源怼⑵捣弊油纪诰颉⒂镆关系图、浙江大学硕士学位论文
.癢甒,甈琧甌琣’’,琩,琒.:甀瑂,..,,琻,:’
图目录图..泄舐酵竟婺1浠图系统体系结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图语义图挖掘流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图正文提取界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图关键字提取界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图频繁子图挖掘界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图通用爬虫流程作图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图聚焦爬虫工作流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图权威页和中心页⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图一个权威也和中心页密集链接的集合⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图网页噪声实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图某一刚站的例子⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图中文分词流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图一个蛔疃搪肪洞智蟹掷印图.‘个名称实体标注实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一图句子子图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图深度优先搜索树结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图标号图表示方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.惴ā算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..解析频繁图的流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯此阉魉惴ā图频繁图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图语义关系图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图文本图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.浙江大学硕士学位论文
表目录表几种图挖掘算法时间复杂度分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..浙江大学硕士学位论文
钇食第滦髀息发布和传输方式。自上个世纪九十年代肷逃靡岳矗琺更是以迅雷不文档,显然,删上已充斥着空前庞大的网页信息。背景息获取与信息共享媒介。在互联网上发展最快最迅猛的胛随着信息技术的高速发展以及计算机的普及,互联网已形成了一个庞大的信技术,以其方便的使用方式和续纷的表选方式,已逐渐成为互联阿上最重要的信及掩耳之势在仝球范围内发展壮人。第一个真正意义上的网页⋯的山现距离现在的近年问,州页的数量一直早指数增睦。据英国公司的报告,,。而年;日,统计称其搜索引擎到互联网谏淄晔浅薼万亿个图V泄チM缧畔⒅行于年路⒉嫉牡《中国互联网络发展情况统计报告》檬莶话‥下的网站数1ǜ显示截至年拢泄臼从蛎⒉嵴咴谥泄衬诘耐臼锏万个,比年末增长啊蠭目人陆同站规模变化第镕论罔鞷
而且自“阅读式”,,其中的~个重要目标是使系男畔⒏咏峁够5壳癐上的畔⒕蟛糠只故前虢峁够畔ⅲ庑┬畔⒔橛谖藿峁故莺屯耆ń峁化数据,还不能完全被计算机理解。还有许多各种类型的数据,例如:结构化表格、无结构化的文本以及各式各样的多媒体文件。自肷逃煤螅琖信息涉及了多个领域,涵盖了生活中的方方面面,包括体育、教育、文化、艺术、军事、新闻、商业等领域。大部分商用趁不仅包含用户需要的内容信息,还有很多导航条