文档介绍:数据挖掘中的文本挖掘
张聪
关于数据挖掘和文本挖掘
文本挖掘的主要研究方向
目录
Contents
文本挖掘过程
结语
数据挖掘与文本挖掘
Data Mining and Text Mining
数据挖掘般是指从大量的数据中
自动搜索隐藏于其中的有着特殊关系性
属于 Association rule learning)的信
息的过程。数据挖掘通常与计算机科学有
关,并通过统计、在线分析处理、情报检
索、机器学****专家系统(依靠过去的经
验法则)和模式识别等诸多方法来实现上
述目标。
文本挖掘般指文本处理过程中产
生高质量的信息,其主要处理过程是对大
川强提高
量文档集合的内容进行预处理、特征提取
结构分析、文本摘要、文本分类、文本聚
加快
类、关联分析等操作。高质量的信息通常
通过分类和预测来产生,如模式识别。
推进
文本挖掘的分类
文本摘要
基于单文档的文本挖掘
信息提取
文本分类
文本挖掘
文本聚类
基于文档集的文本挖掘
本过滤
文档作者归属
因素分析
文本挖掘的主要研兖方向
Main Research Direction of Text Mining
网络浏览
●文本检索
文本
●文本分类
挖掘
●文本聚类
●文档总结
网络浏览
◆文本挖掘技术可以通过分析用户的网络行为等,帮助用户更好地寻找有用信息
◆二个期型的例子是C的NbN6he这是个在线用户向导可根
击行为
为用户进行导航。
文本检索
◆文本检索主要研究对整个文档文本信息的表示、存诸、组织和访问,即根据用户
的检索要求,从数据库中检索岀相关的信息资料。
◆主要检索方法有三种:布尔模型是简单常用的严格匹配模型;概率模型利用
词条间和词条与文档间的概率相关性进行信息检索;向量空间模型在于将文
档信息的匹配问题转化为向量空间中的矢量匹配问题处理。
文本分类
◆文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别
这样用户不仅可以方便地阅读文档,而且可以通过限制搜索范围来使文档查找
更容易
◆近年来涌现出了大量的适合于不同应用的分类算法,如:基于归纳学****的决
策树、基于向量空间模型的K-最近邻、基于概率模型的 Bayes分类器、神
经网络、基于统计学****理论的支持向量机方法等