文档介绍:该【中文分词词性标注系统 】是由【duzw466】上传分享,文档一共【29】页,该文档可以免费在线阅读,需要了解更多关于【中文分词词性标注系统 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。中文自动分词系统IRSEG设计与实现
单击此处添加副标题
高立琦 王卓然
CLICK HERE TO ADD A TITLE
大纲
CONTENTS
中文分词的意义和用途
01
IRSEG系统框架设计
02
数学模型与原理分析
03
“N最短路径”的算法设计
04
基于局部Bigram模型的未登录词识别模块
05
系统评测
06
202X
中文分词的意义和用途
IRSEG系统框架设计
数学模型与原理分析
系统评测
“N最短路径”的算法设计
基于局部Bigram模型的未登录词识别模块
大纲
中文分词的意义和用途
汉语的特点
最小书写单位为字
最小表意单位为词
词与词之间没有书写边界
分词系统的用途
各种中文信息处理系统的基础模块
自然语言处理
信息检索
…
中文分词的意义和用途
IRSEG系统框架设计
数学模型与原理分析
“N最短路径”的算法设计
基于局部Bigram模型的未登录词识别模块
系统评测
大纲
IRSEG系统框架设计
歧义字段处理
搜索最优结果
保留N个最优结果
输出
重叠词识别
文本断句
未登录词识别
汉字原子切分
资源: 词典资源,未登录词知识库等
构建分词有向图
贰
壹
叁
中文分词的意义和用途
数学模型与原理分析
基于局部Bigram模型的未登录词识别模块
IRSEG系统框架设计
“N最短路径”的算法设计
系统评测
大纲
设S=c1c2…cn为输入汉字序列,W=w1w2…wm为切分词序列。
1
根据贝叶斯公式:
3
则:
5
分词系统的任务是,找到一种切分结果W*,满足:
2
假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型)
4
为了实现上的方便,我们对上述公式取负对数,得到:
6
信道噪声模型
数学模型与原理分析
数学模型与原理分析(续)
结 合 成 分 子
构建分词有向图
通过最短路径搜索,即得最优(概率最大)结果:
结合 / 成/ 分子
中文分词的意义和用途
IRSEG系统框架设计
数学模型与原理分析
“N最短路径”的算法设计
基于局部Bigram模型的未登录词识别模块
系统评测
大纲