文档名称：

文本挖掘与web数据挖掘.ppt

格式：ppt 大小：1,203KB 页数：81页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

文本挖掘与web数据挖掘.ppt

上传人:daoqqzhuanyongyou2 2018/7/17 文件大小：1.17 MB

下载得到文件列表

文本挖掘与web数据挖掘.ppt

相关文档

文档介绍

文档介绍：2018/7/17
第8章文本挖掘与Web 数据挖掘
文本挖掘
Web数据挖掘>>
案例五:跨语言智能学术搜索系统>>
案例六:基于内容的垃圾邮件识别>>
文本挖掘
分词
文本表示与词权重计算
文本特征选择
文本分类
文本聚类
文档自动摘要
2018/7/17
分词
分词(词切分)是指将连续的字序列按照一定的规范重新组合成词序列的过程
英文:单词之间以空格作为自然分界符,容易
中文:词没有一个形式上的分界符,难
中文分词极具挑战性的问题
歧义切分问题:[研究/生]物;学生会|学生会玩魔方
未登录词问题:新词(木有、凡客体),人名等
分词法主要分为以下三大类:基于词典的方法、基于统计的方法、基于语法分析的方法
2018/7/17
基于词典的分词法
正向最大匹配
从左开始算起,最大是指从一个设定的长度开始匹配,直到第一个匹配成功就切分成为一个词
逆向最大匹配
与正向最大匹配相似,区别在于从右至左匹配
例子:研究生命起源
正向匹配结果:研究生/命/起源
逆向匹配结果:研究/生命/起源
特点:简单,易实现;正确率受词典大小限制
2018/7/17
基于统计的分词法
假设:词是稳定的单字组合,直观地,在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词
只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典(统计)分词法
基于统计模型的分词方法是研究热点,如基于隐马尔可夫的方法、基于最大熵的方法
特点:精度高、词性标注、命名实体识别;需要语料作支撑
2018/7/17
基于中文语法的分词方法
通过让计算机模拟人对句子的理解,达到识别词的效果
其基本思想就是在分词的同时进行句法、语义分析,利用句法和语义信息来处理歧义现象
包括三个部分:分词子系统、句法语义子系统、总控部分
特点:由于汉语语言知识的笼统、复杂性,基于理解的分词系统还处在试验阶段
2018/7/17
常见分词工具
ICTCLAS
中国科学院计算技术研究所开发
采用层叠隐马尔可夫模型
中文分词,词性标注,命名实体识别,新词识别
支持C/C++/C#/Delphi/Java等主流开发语言
imdict-Chinese-analyzer
ICTCLAS中文分词程序基于Java的重新实现
采用基于隐马尔科夫模型的方法
直接为Lucene搜索引擎提供简体中文分词支持
2018/7/17
常见分词工具(续)
IKAnalyzer
采用特有的“正向迭代最细粒度切分算法”
基于Java语言开发的轻量级开源分词工具包
60万字/秒的高速处理能力
简易中文分词系统SCWS
hightman 个人开发
采用标准C开发
提供 C接口、PHP扩展(源码、WIN32的DLL文件)
2018/7/17
常见分词工具(续)
盘古分词
Framework的中英文分词组件
中文未登录词识别、人名识别、多元分词等功能
支持英文专用词识别、英文原词输出、英文大小写同时输出等
单线程分词速度为390 KB/s,双线程分词速度为690 KB/s( Core Duo GHz )
其它
Paoding(庖丁解牛分词)、HTTPCWS、-CEDICT等
2018/7/17
文本表示与词权重计算
目前文本表示主要是采用向量空间模型(Vector Space Model,VSM)
每个文本被表示为在一个高维词条空间中的一个向量
词条权重wi,j一般采用TF×IDF方法来计算得到
2018/7/17