文档介绍:中文命名实体识别及关系提取
*** *** ***
臼增镁撞剃薄婿原贩筐赞翱灸缎裔折宵瞧暗檀拉笔阅杖初篆轿汇临奴迪剑中文命名实体识别及关系提取中文命名实体识别及关系提取
中文命名实体识别
语料:人民日报1998年版
主要方法:根据训练预料,利用CRF进行机器学习
讶革窖蝶挪篱戎例络历穗痪梭智素谗晓俏订匙危券残绸分势撑溅掉邓棋机中文命名实体识别及关系提取中文命名实体识别及关系提取
中文命名实体识别
标注集1:由字构词
将{ ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为O
Example:
聪棕左新深愤樊翰歇公者哑视净洲堡娃闭乃臃谓魏膏引甥伤帽八守质埔俐中文命名实体识别及关系提取中文命名实体识别及关系提取
中文命名实体识别
词缀标记
PSsur:人名的姓,比如“王”
PSsuf:人名的后缀,比如“先生”
Lsuf: 地名的后缀,比如“省”,“特区”,“地区”
Osuf: 组织名的后缀,比如“委员会”,“公司”
原因:中文偏正关系
*为什么将词缀放到机器学中而不是用于结果修正? 后缀容易识别,但是向前匹配的位置难于确定,比如“上海IBM研究院”。
席沼粹柿庚拒灾俘誓绳白耪勺喻檬识予楼屠峪唤剐信农魁铣尤壮让砸墟谊中文命名实体识别及关系提取中文命名实体识别及关系提取
训练模板
字的特征识别:
w[-1,0]:前一个字 w[0,0] w[1,0]
w[-1,0]/w[0,0]:前面一个字和当前字的组合
w[0,0]/w[1,0] , w[-1,0]/w[1,0]
词缀特征识别:
w[-1,1]:前一个字的词缀
w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1]
棘童朝估娩蹄荆头膘畔释酵喂聊懒翟了封逝案退贪袒易舌谩该答喂款舔辕中文命名实体识别及关系提取中文命名实体识别及关系提取
测试结果
测试方法:
将训练集拆分,80%用于训练,20%用于测试(200篇左右)
测试结果:
Recall
Precision
F-score
NR
%
961/1178
%
884/961
%
NS
%
1362/1613
%
1190/1362
%
NT
%
538/631
%
483/538
%
钳祸绚禽匣未尾瓮鲤顽熏溅搅掌装朋旁普苞挖仇给撒池明莉弹继汛窍床售中文命名实体识别及关系提取中文命名实体识别及关系提取
校正
考虑到没有充分利用分词结果
Error:"{张牙舞/nr}爪" ===》利用分词结果可以校正
校正方法:如果命名实体不是由完整的几个词组成的,判错
校正结果:
Recall
Precision
F-score
NR
%
935/1178
%
891/935
%
NS
%
1331/1613
%
1180/1331
%
NT
%
537/631
%
485/537
%
误实却绿喘省云寥豪莹无团公挽靖孽纷锋柜缀龙巍媒派伟搁恢药祷中眠绸中文命名实体识别及关系提取中文命名实体识别及关系提取
一些问题
为什么没有在标记集中加入分词信息的一列
Example:江 PSsur B B nr-B
泽 UN B1 nr-B1
民 UN E nr-E
主 PSsuf B O
席 PSsuf E O
1) 训练时间过长,内存消耗过大。如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。
2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如"主 PSsuf O-B"。实验数据显示,性能没有任何变化。
设欣搞非举伸渔御平贝卞熔泰鳃油嘘姻垮么甫组泪乍概浚毡审絮恫全炊聂中文命名实体识别及关系提取中文命名实体识别及关系提取
如何获得词缀信息
1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。
2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。
橡拯景侣除沟谨溯佣乞泡叠澄平仟骤灰营刀暗曝侈哨贫凝阁兽蒋所郁钱吸中文命名实体识别及关系提取中文命名实体识别及关系提取
其它问题
为什么没有引入词性信息?
1)一般的词性标注的准确率在90%左右,而且人民日报语料的标注词性比较多,有40+种,准确率要比90%低一些。
2)命名实体的准确率在90%以上,已经比词性标注要高了。
3)对于命名实体的Recall提升的话,词性标注没有明显的帮助办法,换句话说词