1 / 39
文档名称:

文本挖掘.ppt

格式:ppt   大小:444KB   页数:39页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

文本挖掘.ppt

上传人:yixingmaoj 2018/3/11 文件大小:444 KB

下载得到文件列表

文本挖掘.ppt

相关文档

文档介绍

文档介绍:2018/3/11
1
第5章文本挖掘
2018/3/11
2
主要内容
文本挖掘的背景
文本挖掘的过程
特征抽取
特征选择
文本分类
文本聚类
模型评价
2018/3/11
3
文本挖掘的背景
传统的自然语言理解是对文本进行较低层次的理解,主要进行基于词、语法和语义信息的分析,并通过词在句子中出现的次序发现有意义的信息。
文本高层次理解的对象可以是仅包含简单句子的单个文本也可以是多个文本组成的文本集,但是现有的技术手段虽然基本上解决了单个句子的分析问题,但是还很难覆盖所有的语言现象,特别是对整个段落或篇章的理解还无从下手。
将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge Discovery in Text).
2018/3/11
4
文本挖掘的背景(续)
文本挖掘与数据挖掘的区别:
文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;
数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识
因此,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。
2018/3/11
5
提纲
文本挖掘的背景
文本挖掘的过程
特征抽取
特征选择
文本分类
文本聚类
模型评价
2018/3/11
7
提纲
文本挖掘的背景
文本挖掘的过程
特征抽取
特征选择
文本分类
文本聚类
模型评价
国内外研究状况
2018/3/11
8
文本特征抽取
定义:文本特征指的是关于文本的元数据
分类:
描述性特征:文本的名称、日期、大小、类型等。
语义性特征:文本的作者、标题、机构、内容等。
2018/3/11
9
特征抽取(feature extraction)
预处理
去掉html一些tag标记
禁用词(stop words)去除、词根还原(stemming)
(中文)分词、词性标注、短语识别、…
词频统计
TFi,j: 特征i在文档j中出现次数,词频(Term Frequency)
DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)
数据清洗:去掉不合适的噪声文档或文档内垃圾数据
文本表示
向量空间模型
降维技术
特征选择(Feature Selection)
特征重构(Re-parameterisation,如LSI)
2018/3/11
10
文本表示
向量空间模型(Vector Space Model)
M个无序标引项ti (词条项, 特征),词根/词/短语/其他
每个文档d可以用标引项向量来表示
权重计算,N个训练文档
WM*N= (wij)
词项的权重: {0,1}, tf(词频=term frequency), tf*idf,