文档介绍:1 1报告人:钟星文本挖掘文本挖掘研究概况 1项目研究流程图 2具体研究步骤 3研究结果以及需要改进的地方 4 2 2 文本挖掘研究概况——文本数据数据挖掘大部分研究主要针对结构化数据,如关系的、事务的和数据仓库数据。现实中大部分数据存储在文本数据库中,如新闻文章、研究论文、书籍、 WEB 页面等。存放在文本数据库中的数据是半结构化数据,文档中可能包含结构化字段,如标题、作者、出版社、出版日期等,也包含大量非结构化数据,如摘要和内容等。 3 3 文本挖掘研究概况——文本检索文本数据分析和信息检索: 信息检索研究的是大量基于文本的文档信息的组织和检索,如联机图书馆系统、联机文档管理系统和 WEB 搜索引擎。信息检索研究的典型问题是根据用户查询(描述所需信息的关键词),在文档中定位相关文档。 4 4 文本挖掘研究概况——文本检索 5 5 查全率查准率被检索到的文档中实际与查询相关的文档所占的百分比与查询相关的文档中实际被检索到的文档所占的百分比文本检索的基本度量文本挖掘研究概况——文本检索方法 6 6 文档秩评定文档选择查询是对选择相关文档指定约束条件,典型方法是布尔检索模型查询是按相关的次序评定所有文档的秩。即将查询中的关键词与文档中的关键词进行匹配,根据匹配查询的程度给每个文档打分文本检索方法文本挖掘研究概况——索引与查询处理技术 7 7 特征文件倒排索引是一种索引结构(维持两个散列索引表,文档表和词表) 是一个存储数据库中每个文档的特征记录的文件文本索引技术查询处理技术:创建倒排索引,查找包含关键词的文档,检索系统可以迅速回答关键词查询文本挖掘研究概况——文本维度归约潜在语义索引( LSI )——最流行的文档维度归约算法,基于 SVD (奇异值分解) LSI 基本思想:提取最具代表性的特征,同时最小化同构错误。 SVD 分解词-文档矩阵: X=U ∑V’∑是X的奇异值, U、V为左右奇异向量 LSI 目标函数: 约束为 8 8 a XX aX aa Xa TTa T a opt max arg min arg 2???1?aa T文本挖掘研究概况——文本维度归约局部保留标引( LPI ):提取最有判别力的特征 LPI 基本思想:保留局部信息(相邻文档可能涉及相邻主题, LPI 的映射能够使设计相同语义的文档尽可能靠近) LPI 目标函数: 约束为 9 9 a XLX aSxaxaa TTa ijj Ti Ta opt min arg )( min arg 2???? 1?a XLX a TT文本挖掘研究概况——文本维度归约概率潜在语义标引( PLSI ):类似于 LSI ,通过混合概率模型实现维度归约。 PLSI 基本思想:文档中有 k个潜在的公共主题,使用文档的混合权重,得到 k个新的语义维。 10 10