文档介绍:华东师范大学
硕士学位论文
基于本体的知识发现实证研究——以二手房领域本体为例
姓名:周舒
申请学位级别:硕士
专业:情报学
指导教师:王仁武
20100401
关键词:本体,数据仓库,知识发现论文摘要随着数据库数据存储和应用技术的发展,企业运行过程中产生的数据也在以几何级数增长,这就需要在海量数据中获得满足特定需要的数据,从而为企业管理者提供决策支持。数据挖掘和知识发现褪窃谡庖槐尘跋虏一词最早是年掠诿拦滋芈墒姓倏5牡谝唤旃蔏学术会议上正式形成。定义为笆谴邮菁惺侗鸪鲇行У摹⑿掠钡摹⑶痹谟杏的,以及最终可理解的模式的非平凡过程”。一个完整的知识发现体系结构由数据源、数据存储、数据挖掘引擎和前端工具构成。其中数据存储层的主要内容就是数据仓库,数据仓库的建立就是异构数据集成的过程,也是知识发现的基础和核心。数据仓库之父瓿霭娴币皇樘岢龅亩ㄒ灞还惴航邮埽菏莶挚馐且桓雒嫦主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从定义看出,数据仓库具有实现人机交互的语义特性,可以通过语义建模使得知识发现的数据源能够被计算机推理和判断,实现复杂数据源的知识发现。本体最早是来源于哲学的概念,在计算科学人工智能领域,美国斯坦佛大学知识系统实验室的钤缣岢霰咎灞还惴航邮艿亩ㄒ澹骸氨咎宓氖歉拍钅型的明确的规范说明。佣ㄒ蹇梢钥闯觯咎迕枋龅摹⑹窍质凳澜绱嬖诘母拍模型,其本质是用于实现人机之间以及机器与机器之间的交互。作为语义建模的基础,将本体工程引入到知识发现之中可以有助于解决异构数据集成的问题,使用描述的菇ǖ撞闶菰从兄谥J斗⑾帧基于本体的知识发现实证研究,将本体与知识发现相结合,主要基于本体构建数据仓库,再在这一数据仓库上进行知识发现这一逻辑。完成了以下一系列的工作:对现实世界二手房领域的术语进行了面向对象的分析:使用镅源建了二手房领域本体:通过填充二手房领域本体实例的方式,将采集来的异构数据统一纳入了本体的框架之中,形成了袷降氖菰矗欢砸旃故菰唇了数据集成和知识熔合操作;分析并设计了二手房领域的数据仓库;进行将本体的实例导入到数据仓库之中;结合数据挖掘的相关算法和本体的语义特性对多维数据进行简单数据挖掘实验。通过实验来探究本体对知识发现整个体系和整个过程的作用,提出了本体一方面可以作为构建数据源和进行脑J荩另一方面可以利用语义的特性与数据挖掘算法结合对知识发现进行一定的支持。基于木体的知识发现实证研究“一
摹于本体的知谚⑾终芍ぱ芯,—;—”琻,猼琩玡,:,.猳瓸瑅甀,:’疉,猚,產,:—:猟一.“””痠甀琤,琱:篎琣篈
周鱼硕士学位论文答辩委员会成员名单姓名职称单位备注范并思教授华东师大主席侯经川陆建平副教授
⑾钟胧莶挚庀喙馗拍知识发现:一词最早出现在年旅拦滋芈烧倏5牡趌旃柿:先斯ぶ悄苎趸嵋樯蟦辏J斗⑾侄ㄒ逦#褐J斗⑾质从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程乜4佣ㄒ蹇梢钥闯觯J斗⑾终庖还痰亩韵笫且丫嬖诘氖菁合人工智能,通过采用特定的算法,对数据集进行模式识别,数据预处理,数据转换,聚类等一系列过程,最终发现知识。知识发现能够实现的功能包括分类,聚集,关联,序列,偏差和结果可视化。著名的沃尔玛啤酒与尿布案例就是进行关联规则知识发现的典型。从数据流分析,知识发现的数据由数据源开始,经过墓探胧莶挚猓偻ü髦质萃诰蛩惴ǎ允萁胁檠治觯到用户需要的结果。一个完整的知识发现体系需要包含数据层,引擎层和用户层。数据层包括数据源和数据存储,引擎层则采用数据挖掘算法进行驱动,最后通过前端工具与用户进行交互。数据层是包括静态的物理上的数据源和动态的逻辑上的数据存储。数据源一般包括结构化的数据库叵敌褪菘猓占涫菘猓嫦蚨韵笫菘獾和非结构化的各种数据源信息,文本等J荽娲⒃蚴嵌允菰唇惺侗鸷预处理的过程,包括抽取,清理,集成和变换,最后统一进行装载。这一过程称为。通过菥屯骋唤肓数据仓库,数据仓库是知识发现工作的基础:同时,知识发现也成为数据仓库工程应用中的一个独立和重要的方面。引擎层主要的工作就是进行数据挖掘,建立各种数据挖掘模型,运用各种算法进行数据的处理,常用的算法包括有统计分析法,决策树法,神经网络法,粗糙集法,遗传算法等。用户层的前端工具则包括了数据分析、数据查询、数据报表工具以及结果可视化工具等,主要是与用户进行交互的接口。一般常见的知识发现体系结构图如下所示:一、绪论蚐基于本体的知识发现实证研究琍,百度百科词条疞://—
数据层引擎层用户层书中提出——数据仓库图J斗⑾痔逑到峁雇本文研究的主要对象和目标集中在数据层,也就是从数据源和数据仓库入变化的数据集合,用于支持管理决策。数据仓库的最大特点就是面向主题,面向主题是指从信息本身的内容通过不同进行宏观上的