1 / 61
文档名称:

基于XML的网络信息库与网络数据挖掘研究.pdf

格式:pdf   页数:61页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于XML的网络信息库与网络数据挖掘研究.pdf

上传人:山吉 2014/3/30 文件大小:0 KB

下载得到文件列表

基于XML的网络信息库与网络数据挖掘研究.pdf

文档介绍

文档介绍:中山大学
硕士学位论文
基于XML的网络信息库与网络数据挖掘研究
姓名:张进
申请学位级别:硕士
专业:情报学
指导教师:曹树金
20050610
基于耐缧畔⒖庥胪缡萃诰蜓芯摘要业:张进指导教师:曹树念教授专情报学硕士生:可扩展标志语言宰则龅挠攀浦鸾ビ玫昧嘶チM那囗谕缡撂挖掘中蠢着广泛豹成蠲翦景。哂锌衫⒘榛钚浴⒆允鲂砸约叭锎咽等特点,它克服了的许多缺点,其优越梭十分明显。丽鹦一方面,由于数据挖掘的深刻性和网络信息的复杂性,从互联网上发现知识是一项极具挑战性的工作。在当蘑,网终数据挖掘出魏了一些阀题簿训悖饕J前虢岫狙倩ò镆焯褪薜让鎏狻网络信息嫩大的特点就是半结构纯,魑0虢峁蛊菽K埽U庖晃侍馓峁本文在参考大量霪波羚文献的蒸璇上,对网络数据挖掘豹萋拜突蟪况进行了总结,对基予耐缧裴炭庥胪缡萃诰蚪辛搜芯俊T赬与网络数据挖掘相关理论基础上,探讨了谕缡萃诰蛑械闹饕Sτ茫治隽送缧畔⒖獾幕本愚想,沦述了基于M绨骰佳黜袄砺邸⑾鸾ǚ椒ḿ笆迪止蹋教至嘶于缧畔⒖庠赪文本挖撅中的应用,绘出了谋拘畔⒖庥芙ǖ氖道本文为基于耐缡萃诰蛱峁┝艘桓鏊悸酚敕椒ǎ酝缡萃诰虻睦砺塾一定豹键避俸爱,对嬲络数据挖掘系绞兹实现有一定躲参考份毽。基于巴信息库主疆解决了网络数据挖掘中的半结构化问题。网络信息席在谋就诰蛑斜现为谋拘畔⑾庖凰枷胗τ迷赪文本挖掘中有利于文本特征项的提取,对牧阃诰螋┮换蟀局傅家庖濉关键词:缡萃诰颍缧畔⒖了解决之道。
.篨,,.:.琭琗.—琣甌:,,甀,,。珏
引言二十一世纪是信息和知识的时代。在飞速发展的今天,信息的重要性不言而喻,人们的工作、学****和生活逐渐容于网络之中,利用网络信息解决问题成为⋯种普遍的事情。然而,网络信息浩如烟海,纷繁复杂,人们常常淹没在信息的海洋中而找不到自己所需要的东西。信息检索在一定程度上解决了这一问题,利用搜索引擎网络信息得以初步组织。随着社会的发展和技术的进步,人们并不满足于仅在互联网上找到信息,更重要的是从这些大量的信息中发现潜在的知识。网络信息中所隐含的信息有着丰富的价值,这些隐性知识在经济和社会的发展中有着巨大的潜力。为了发现隐藏在大量网络信息背后的潜在知识,数据挖掘技术在网络中得以应用。网络数据挖掘是利用数据挖掘技术从网络内容信息、网络链接信息和网络使用信息中发现知识和模式的过程。网络数据挖掘比传统数据库的数据挖掘更为复杂,因为它挖掘的对象具有高度复杂的特点。强衫┱贡曛居镅乃跣矗恰中滦捅昙语言。与一样它也是一种标志语言,但際啾扔凶啪薮蟮挠旁性。陨淼奶氐慵捌浼际跷M缡萃诰虻奈侍夂湍训闾峁┝艘桓鼋饩龅姆椒ā网络信息最大的特点就是半结构化,魑0虢峁够菽P停欣诮饩稣庖问题。随着的进一步发展,厝换嵩谕缡萃诰蛑械玫焦惴旱赜τ谩本文通过对巴缡萃诰虻幕厩榭鼋醒芯康幕∩希教至送缡据挖掘的问题和难点及谕缡萃诰蛑械闹饕Sτ谩T诖嘶∩希曰赬的网络信息库进行了论述,为基于耐缡萃诰蛱峁┮桓龇椒ê退悸贰4油络数据挖掘的过程来看,网络信息库在网络数据挖掘中是必要的,这一思想也得到有关人士的支持。网络信息库既不同于数据库也不同于数据仓库,它是对网络数据的一个枋觥M缧畔⒖庵饕0粗魈夥掷嘧橹荩琗是数据组织的一个方法。本文所论述的网络信息库主要是关于网页内容信息的,很大程度上是对格式信息的处理。;酱笱Ч耸垦宦傥萆逆┞缧畔⒖庥胪缡萃诰蜓芯
‘,人们赶王委;嚣錾羞信息爆炸嚣戋瑟识贫乏煞翅题,浩熬烟海熬网络信息,使人们常常被淹没在信息的海洋中而找不到自己所需要的知识。在信息量极大丰富的网络资源中,蕴含着大量潜在的有价值的知识。搜索引擎只解决了信息查***豹翊题,去坎槐泄凰ò曷缟暇裢嘎堆煨Т⑾殖崾丁O璋AM辖怊我信息挖掘出来,成为当今网络信息捺源利用的一个蓬要方面。随着网络技术的发展和应用,网络上的数据呈现激增的态辩。这些数据具有庞大、动态、雾李奄、半续均纯镰不藏于绩绞数豢瘁中结稳健数据斡瑟特点。怎样对这些数据进行充分而合理的应用成了现今数据库技术的研究热点。数据挖掘的核心部分已发展了近十年,研究领域涉及数理统计、人工智能、机器学****等。在浪潮的冲击下,入餐瑟錾羞数据瀑炸戆撬藏,翔舅默浩圣添晔葜姓业教痹诎爵さ拢饷馗方便地传递、交流、获瞅有用的信息成为当前互联网领域研究的热点。数据挖掘以及际墙改晷似鸬男录际酰诤芏嗔煊蚍⒒恿酥匾5淖饔茫赬的网络数据挖掇耱会簿决网络数据挖掘菝术中豹半结稳纯数豢模型鞠警结稳纯数撵摸墼豹抽取问题替。由于网络数据存在方式的特殊性,对网络数据的控制变得十分复杂,的出现为解决网络数据捻掘的难题带“来了机会。糟晌M赝谋曜迹敲葱一代毽特嬲戆关键在予熬捱R虿铮蹙縓在霹终数撵挖掘中戆瘦麓照摄÷随着数据挖掘技术的发展以及数据库管理技术的广泛应用,人们积累的数据越来越多,激臻懿数据鸷磊戆