文档介绍：第12章文本挖掘
在浩瀚的文本中找到所需信息。
*
1
.
第12章文本挖掘
引例
文本挖掘
Date
2
.
引例
乒乓球女团中国夺冠，第33金超越雅典奥运创造历史[文本1]第12章文本挖掘
在浩瀚的文本中找到所需信息。
*
1
.
第12章文本挖掘
引例
文本挖掘
Date
2
.
引例
乒乓球女团中国夺冠，第33金超越雅典奥运创造历史[文本1]
神舟六号轨道舱正常运行60天取得大量科学数据[文本2]
乒乓男单决赛颁奖中国三虎将包揽金银铜牌[文本3]
前三段文本中哪两段文本在内容上更接近？
如果前两段文本各代表一类文本，那么，你认为第三个文本应该归为其中的哪一类？
Date
3
.
引例
在文本规模较小、文本量较少的情况下，可以通过人工手段完成。
大规模、大数量的文本情况下，如何完成？
Date
4
.
文本挖掘
文本信息检索概述
基于关键字的关联分析
文档自动聚类
文档自动分类
自动摘要
Date
5
.
文本信息检索概述
信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程，人们借助某种检索工具，运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息。
信息检索是一种不确定性检索，用户在检索信息时，并不知道信息源里是否有符合需要的东西。
Date
6
.
文本信息检索概述
基本概念：
信息检索的度量方式
基于模型的检索
基于相似性的检索
文档间相似性计算举例
Date
7
.
1. 信息检索的度量方式
查准率（Precision）是检索到的文档中的相关文档占全部检索到的文档的百分比，它所衡量的是检索系统的准确性
查全率（Recall）是被检索出的文档中的相关文档占全部相关文档的百分比，它所衡量的是检索系统的全面性
Date
8
.
2. 基于模型的检索
模型的种类：
布尔模型：文档和查询式都表示为特征项的集合，运用集合运算来检索。
向量空间模型：文档和查询式都表示为高维空间中的向量，通过对代数的向量运算进行检索。
概率模型：文档和查询式是通过概率理论形式化为概率分布，建立在概率运算的基础上。
Date
9
.
检索模型包含的三个要素：
文本集
用户提问
文本与用户提问相匹配
Date
10
.
布尔模型：将用户提问表示成布尔表达式，查询式是由用户提问和操作符and、or、not组成的表达式，运用几何运算来检索。
向量空间模型：有一特征表示集，特征通常为字或词。用户提问与文本表示成高维空间向量，其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定，通过对代数的向量运算进行检索。
概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q，可以将所有文档d分为两类，一类与查询相关(集合R)，另一类与查询不相关(集合N, 是R 的补集)，建立在概率运算的基础上。
Date
11
.
3. 基于相似性的检索
根据一个文档集合d和一个项集合t，可以将每个文档表示为在t维空间R中的一个文档特征向量v。
向量v中第j个数值就是相应文档中第j个项的量度。
计算两个文档相似性可以使用上面的公式
Date
12
.
4. 文档间相似性计算举例
以前述三个文档为例，构建一个基于所有文档的词典。
词典内容：北京大学,体育馆,乒乓球,团体,决赛,中国队,总比分,奥运会,金牌,女子团体,雅典奥运会,男子单打,检测数据,神舟六号,轨道舱,太空,科学试验,金融,银行,监管,市场,经营,国际,货币,人民币
v1 = { 1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0 }
v2 = { 0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0 }
v3 = { 1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0 }
Date
13
.
基于关键字的关联分析
基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合，然后发现其中所存在的关联性
关联分析对文本数据库进行预处理，生成关键字向量，根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果，然后调用关联挖掘算法
与关系数据库中关联规则的挖掘方法相似。
Date
14
.
文档自动聚类
1、什么是文档自动聚类
2、