1 / 36
文档名称:

基于Wikipedia的中文命名实体识别研究.ppt

格式:ppt   大小:5,990KB   页数:36页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Wikipedia的中文命名实体识别研究.ppt

上传人:buhouhui915 2017/12/9 文件大小:5.85 MB

下载得到文件列表

基于Wikipedia的中文命名实体识别研究.ppt

文档介绍

文档介绍:基于Wikipedia的中文命名实体识别研究
中山大学计算机科学系潘家铭
指导老师: 汤庸教授,肖菁老师
2017/12/9
1 /36
基于Wikipedia的中文命名实体识别研究
研究意义、现状及目标
理论探究
命名实体识别系统设计与实现
测试方案与结果
总结与展望
报告提纲
2017/12/9
2 / 36
报告提纲
研究意义、现状及目标
理论探究
命名实体识别系统设计与实现
测试方案与结果
总结与展望
2017/12/9
3 /36
中文命名实体识别的意义
中文自动分词
(CWR)
命名实体识别
(NER)
中文自然语言处理
中文信息处理
(CNLP)
“词”是否有清晰的界定
分词和理解孰先孰后
分词歧义消解
未登录词的处理
文献[1~12]
基础步骤
没有天然的识别标志
开放类,内容庞大
随着时间推移而扩展
形式不统一
多出现歧义
文献[13~18]
用于中文信息检索、中文文本自动校对、机器翻译、汉语语音合成、语音识别等等具体应用[1]
重点、难点
流行的应用
2017/12/9
4 /36
存在的问题
未登录词的问题;
需要大规模词典的支持;
不同类型命名实体的识别问题的统一解决;
现存方法多数需要人手标注语料,没有成熟的自动标注方法。
中文命名实体识别的研究现状
现有的成熟方法
中文分词的方法:[20]
基于词典方法[21]
基于统计方法[22,7,8]
混合方法[12,20]
命名实体识别的方法:
基于规则方法[34]
基于统计方法[14]
混合识别方法[18,35,36]
机器学****解决方案
隐马尔可夫(HMMs) 、最大熵(MEMs) 、支持向量机(SVMs)用于解决序列标注问题得到广泛研究。
[13,49,19]
CRFs模型用于解决序列标注问题(STP),包括命名实体识别问题。
2017/12/9
5 /36
探究非人工标注专用语料库在命名实体识别应用的可行性(引入Wikipedia 数据库)。
对开源百科全书数据库的数据进行提取并建立索引以便提取,作为词典来应用
定义中文命名实体特征,使用CRFs模型进行识别任务的训练和测试。
定义相适应的研究机器学****模型和中文Wikipedia数据库结合应用的方法和效果
本论文的研究目标及工作
中文命名实体识别研究的意义
中文命名实体识别研究的现状
英文Wikipedia数据库是研究热点
使用Wikimedia提供的中文Wikipedia数据库,包括数据Wikipedia文章文本以及链接等数据。
使用开源搜索引擎Indri对中文Wikipedia建立索引,并创建结合Wikipedia本身组织特点的词典,作为系统的语料库。
使用了CRF++开源模型作为建模框架,定义了SYSUNER识别器的中文命名实体识别特征模板和相关的数据结构。使用该模型进行了训练。
引入了N-最佳选取算法(N-Best)、词典动态更新等机制,提高识别系统的性能。
对系统进行开放性对比测试和优化,得到实验结果。
2017/12/9
6 /36
报告提纲
研究意义、现状及目标
理论探究
命名实体识别系统设计与实现
测试方案与结果
总结与展望
2017/12/9
7 /36
中文Wikipedia
包含人类所有知识领域的百科全书。
允许了大众的广泛参与,信息得到及时有效更新。
内容开放,便于进行研究
巨大的条目数量及数据量
规范的分类
特殊的标注方法,可用于信息提取
2017/12/9
8 /36
中文Wikipedia的结构特点
消除歧义页
可利用于识别实体的别名
重定向页,
可利用提取命名实体
实体分类,
用于辨别命名实体的类型
实体间用链接(link)相互指向,链接可被提取
使用几种常用的结构,能获取实体的重要信息
Wikipedia内容经过规范的标注,能使用程序提取
实体之间形成网状关系,可使用迭代方式提取实体关系
2017/12/9
9 /36
中文Wikipedia源代码转换
Wikipedia标签可被提取,
转换成标注文本的格式
可用于机器学****模型训练的自动标注语料
2017/12/9
10 /36