1 / 1
文档名称:

搜索引擎中的中文分词技术 武汉天英网络培训.doc.doc

格式:doc   页数:1
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

搜索引擎中的中文分词技术 武汉天英网络培训.doc.doc

上传人:wz_198614 2014/9/24 文件大小:0 KB

下载得到文件列表

搜索引擎中的中文分词技术 武汉天英网络培训.doc.doc

文档介绍

文档介绍:搜索引擎中的中文分词技术武汉天英网络培训
中文分词是将一句话或一个短语按照日常阅读习惯进行机械分解。英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,我很喜欢搜索引擎,分词的结果是:我|很喜欢|搜索引擎。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。
中文每个字都可以直接作为一个词来使用,没有断词,正因为此它才多变。虽然多变,但是在表达上灵活。但是对于搜索引擎来说这是非常难以解决的问题。在中文分词当中,天英网络营销学院认为有三种难分类型。
1、交集型歧义
假设“ABC”是一个由A、B、C三个汉字构成的字串,如果“AB”、“BC”都是词,那么计算机在切分时可以把“ABC”切分为“AB/C”,也可以切分为“A/BC”。这种切分歧义称为交集型歧义。
2、组合型歧义
如果“AB”是词、“ABC”也是词,那么产生的切分歧义称为组合型歧义。
3、混和型歧义
混和型歧义是包含交集型歧义和组合型歧义的切分歧义。
目前解决这些问题主要通过字典和统计学的方法。
首先我们先说说字典分词法。字典一般采用前缀树和后缀树的数据存储结构。什么是前缀树呢?其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。后缀树就是从右向左扫描一遍。
统计学的方法,虽然字典分词已经解决了很多分词上出现的问题。但是面对很多新出的词汇,分词也面临着挑战。统计学的分词方式是基于概念和信息学方面的知识进行处理。基本原理就是寻找那些经常一同出现的字,总是相互的字很有可能构成一个词。为此需要分析大量内容。即使到现在中文分词还在不断发展,还没有一个分词方法能彻底解决一切问题。

最近更新

风电场发电量预测模型 37页

2025年全南县幼儿园教师招教考试备考题库附答.. 30页

非热压膜分离技术 34页

2025年内蒙古体育职业学院单招职业适应性测试.. 42页

2025年内蒙古锡林郭勒盟单招职业倾向性考试题.. 44页

2025年南丹县幼儿园教师招教考试备考题库附答.. 31页

2025年南京邮电大学马克思主义基本原理概论期.. 13页

2025年南昌县招教考试备考题库带答案解析 31页

2025年南阳科技职业学院单招职业倾向性考试题.. 43页

肩关节强直病理生理学探讨 36页

绿色舞台材料应用 39页

2025年咸丰县幼儿园教师招教考试备考题库及答.. 30页

2025年哈尔滨职业技术大学马克思主义基本原理.. 12页

2025年四川应用技术职业学院马克思主义基本原.. 12页

绿色酒店认证标准与市场影响 35页

肺间质纤维化纳米技术应用研究 23页

高血压脑病认知功能障碍的发病机制 35页

高温高压化学反应的优化研究 35页

2025年宁夏财经职业技术学院单招综合素质考试.. 44页

2025年安徽林业职业技术学院马克思主义基本原.. 12页

2026年龙猫观后感400字 6页

耐药性表型与临床表现关联 35页

2025年宣化科技职业学院马克思主义基本原理概.. 13页

2025年密云县招教考试备考题库附答案解析(夺.. 30页

2025年山东医学高等专科学校马克思主义基本原.. 13页

2025年山西电力职业技术学院马克思主义基本原.. 12页

2025年巨野县招教考试备考题库带答案解析(夺.. 31页

2025年广东省外语艺术职业学院马克思主义基本.. 13页

2025年广灵县招教考试备考题库附答案解析(必.. 32页

2025年庆阳职业技术学院马克思主义基本原理概.. 12页