1 / 19
文档名称:

中文命名实体识别及关系提取.ppt

格式:ppt   大小:2,355KB   页数:19页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中文命名实体识别及关系提取.ppt

上传人:落意心冢 2022/4/30 文件大小:2.30 MB

下载得到文件列表

中文命名实体识别及关系提取.ppt

相关文档

文档介绍

文档介绍:中文命名实体识别及关系提取
中文命名实体识别
语料:人民日报2019年版
主要方法:根据训练预料,利用CRF进行机器学习
中文命名实体识别
标注集1:由字构词
将{ ns,nr,nt}三种实体类型,和分词中的词位信
中文命名实体识别及关系提取
中文命名实体识别
语料:人民日报2019年版
主要方法:根据训练预料,利用CRF进行机器学习
中文命名实体识别
标注集1:由字构词
将{ ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为O
Example:
中文命名实体识别
词缀标记
PSsur:人名的姓,比如“王”
PSsuf:人名的后缀,比如“先生”
Lsuf: 地名的后缀,比如“省”,“特区”,“地区”
Osuf: 组织名的后缀,比如“委员会”,“公司”
原因:中文偏正关系
*为什么将词缀放到机器学中而不是用于结果修正? 后缀容易识别,但是向前匹配的位置难于确定,比如“上海IBM研究院”。
训练模板
字的特征识别:
w[-1,0]:前一个字 w[0,0] w[1,0]
w[-1,0]/w[0,0]:前面一个字和当前字的组合
w[0,0]/w[1,0] , w[-1,0]/w[1,0]
词缀特征识别:
w[-1,1]:前一个字的词缀
w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1]
测试结果
测试方法:
将训练集拆分,80%用于训练,20%用于测试(200篇左右)
测试结果:
Recall
Precision
F-score
NR
%
961/1178
%
884/961
%
NS
%
1362/1613
%
1190/1362
%
NT
%
538/631
%
483/538
%
校正
考虑到没有充分利用分词结果
Error:"{张牙舞/nr}爪" ===》利用分词结果可以校正
校正方法:如果命名实体不是由完整的几个词组成的,判错
校正结果:
Recall
Precision
F-score
NR
%
935/1178
%
891/935
%
NS
%
1331/1613
%
1180/1331
%
NT
%
537/631
%
485/537
%
一些问题
为什么没有在标记集中加入分词信息的一列
Example:江 PSsur B B nr-B
泽 UN B1 nr-B1
民 UN E nr-E
主 PSsuf B O
席 PSsuf E O
1) 训练时间过长,内存消耗过大。 如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。
2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如"主 PSsuf O-B"。实验数据显示,性能没有任何变化。
如何获得词缀信息
1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。
2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。
Founder关系
方法和Located-in关系抽取中上下文匹配的方式相同。
实际情况中,Founder关系一定是要有关键词提示的。
比如:Bill Gates创办了微软公司 【中文中有关键词】
Bill Gates是微软之父【后文中有关键词】
Employee关系
大多数Employee关系的关键词不是动词而是变化多端的职位
Example:中共中央总书记胡锦涛
微软CEO鲍尔默
识别方法:1)提取NT和NR之间的关键名词,作用域是一个句子中不可打断,除了并列举例的人名。
2)采用一个字典匹配,检查之间是否有职位
存在的问题
命名实体识别:命名实体有很多都识别了,但是无法准确定位一个完整的命名实体,比如“三峡坝区”
命名实体识别:外国人名
关系提取:上下文匹配的办法还比较幼稚,个人认为如果有一个标注的训练语料的话,如果可以统计词频,确定关键词。
Thanks
Thank you