文档介绍:摘要传统的信息由于缺乏统一的语义描述,充斥着大量繁杂重复信息,面对这些让信息具有语义,使计算机能够理解信息含义,进而对信息进行加工处理,能从由于中文信息的特殊性和复杂性,使得中文信息处理难度相对较大,而信息语义化的要求则对中文信息处理提出了更高要求。用户不再仅仅满足获取直接信息,而需要获得更多的隐含语义信息,数据挖掘正是为了满足这一需求诞生的。但传统的数据挖掘需要领域专家协助,并依靠数据驱动,逐渐不能满足用户的需求。而本体作为客观知识的语义形式化描述,在数据挖掘中引入基于本体的语义的语义数据挖掘技术,给出了其工作流程和原理,并对涉及的领域本体构建、语义标注和语义推理等关键技术进行了分析研究,给出了切实可行的解决方案,为语义数据挖掘技术的应用奠定了良好的基础。最后基于技术模型设计并实现了一个中文信息语义检索系统。该系统以参考背景知识自行构建的煊虮咎遄魑VJ犊猓帽咎迕枋鲇镅設的语义推理能力,对同时,系统为了克服领域局限性,系统还实现了全文检索功能,提供了更好的用海量信息,如何快速、有效地从“信息海洋”中获取人们所需的信息成为难题。根本上解决这一难题,更好地实现信息共享。分析技术,有助于解决信息处理的语义化问题,为实现中文信息语义挖掘做出贡献。论文结合信息产业部电子产业发展基金项目的开发,对中文信息的语义数据挖掘技术进行了系统的研究。首先分析了中文信息处理的特点及各项关键技术,并对中文分词技术进行了深入探讨,实现了一种采用正向最大匹配和词典分词算法的中文分词器。然后在深入介绍了本体论相关知识之后,提出了一种基于本体检索词进行推理扩展,来获得更准确的用户意图,返回更准确的检索结果信息。户体验、更完整的功能和更可靠的系统性能,初步实现了信息检索智能化。关键词:中文信息处理:本体:语义数据挖掘:信息检索硕士学位论文
知识水坝为您整理
急と苈荐时けけぞタ寥肌瓼篴咖珊,’珊珊Ⅱ.曲“.,琣,,甅琲”甀琣..瑃’—.甇瓺“,,.,—緇,.Ⅱ,,琫...琤Ⅱ甀瑃一
知识水坝为您整理
篊;甀籗騠“騌
鼍渺咋日期:洲年牛月萑翘藕盈日期:≥庐昴暝耡湖南大学学位论文原创性声明学位论文版权使用授权书日期:≯卯移年铲月≥多日荔其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于⒈C芸冢年解密后适用本授权书。⒉槐C茑颉朐谝陨舷嘤Ψ娇蚰诖颉啊獭导师签名:
⒋淼钠惹行互联网自诞生以后发展迅猛,早就成为全球最大的信息库。截至年底,我国网民数已达到亿人,同时互联网中文信息的年增长率超过了%【俊;联网最基础的功能即提供信息。面对互联网上的海量信息,如何快速、有效地从“信息海洋”中获取我们所需的信息成为难题。正是在这样的背景下,数据挖掘和信息检索成为信息处理中不可或缺的两种服务。。而随着信息检索智能化的需要,各种数据挖掘技术开始应用到信息检索中。如同想让机器代替人类劳动一样,让计算机能够理解信息的含义,进而能够代替人类进行思考决策,一直是我们的一个梦想。本文结合中文信息处理的特殊性,在数据挖掘中引入了语义推理技术,并将其运用到信息检索系统中,提高了信息检索的效率,在最大程度上消除了无用信息,避免了歧义,使得中文信息的数据挖掘和信息检索技术朝着智能化的方向进一步迈进。发明了统一资源定位符⒊谋敬湫议和超文本标记语言,建立了第一个万维网的原型系统【。语言的特点决定了万维网上的信息内容很难被机器所理解,从而制约了一些对万维网上的海量信息进行自动化处理应用的开发。虾A康男畔⑵惹幸G笠砸种能够理解数据语义的方式进行交换和管理,当前基于的际跞春难满足要求,大量的工作需要人工参与,并造成“信息孤岛”的产生【。为此,。语义万维网是当前万维网的扩展,目的是将互联网变成一个巨大的全球化的知识库,家和计算机专家的艰辛努力,中文信息处理技术在数据挖掘、信息分类、信息提取、自动问答、信息检索、信息推送和数字化图书馆等方面取得了非常惊人的成年月,网,这个知识库不但能够满足人们浏览信息的需要