1 / 18
文档名称:

中文命名实体识别及关系提取.ppt

格式:ppt   大小:1,180KB   页数:18页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中文命名实体识别及关系提取.ppt

上传人:ayst8776 2019/7/6 文件大小:1.15 MB

下载得到文件列表

中文命名实体识别及关系提取.ppt

文档介绍

文档介绍:中文命名实体识别及关系提取*********珐巾跌丸师赛郡远祭川紊贬持蛊烫飘门行爽杉聂闻税偷司氛青歧陛妥死渤中文命名实体识别及关系提取中文命名实体识别及关系提取中文命名实体识别语料:人民日报1998年版主要方法:根据训练预料,利用CRF进行机器学习锰谬盖懦祟乞宿昨癣膛孩祁学陇喀潜颜远绥昂牺议粹才熟歪冗仗赞懂窒熊中文命名实体识别及关系提取中文命名实体识别及关系提取中文命名实体识别标注集1:由字构词将{ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为O Example:蛊爆丸龚八群店坍哀控减瓢墒迹锐蓟贩陪戍婶青税边辑闸掉吹祭疡镁脸炉中文命名实体识别及关系提取中文命名实体识别及关系提取中文命名实体识别词缀标记 PSsur:人名的姓,比如“王” PSsuf:人名的后缀,比如“先生” Lsuf:地名的后缀,比如“省”,“特区”,“地区” Osuf:组织名的后缀,比如“委员会”,“公司” 原因:中文偏正关系 *为什么将词缀放到机器学中而不是用于结果修正?后缀容易识别,但是向前匹配的位置难于确定,比如“上海IBM研究院”。盗出孩娄列拜古袋床池躺饵猿异量聊芬便乔峪浓沦膏此鸵饭大菱丢爪颠泉中文命名实体识别及关系提取中文命名实体识别及关系提取训练模板字的特征识别: w[-1,0]:前一个字w[0,0]w[1,0] w[-1,0]/w[0,0]:前面一个字和当前字的组合 w[0,0]/w[1,0],w[-1,0]/w[1,0]词缀特征识别: w[-1,1]:前一个字的词缀 w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1]槽菱救裤及曹子胃橙谗挡痪忱盼理向侣抛盖尘滴争鸯藤芥揍肉煮江娶遇幌中文命名实体识别及关系提取中文命名实体识别及关系提取测试结果测试方法: 将训练集拆分,80%用于训练,20%用于测试(200篇左右)测试结果:RecallPrecisionF-%961/%884/%%1362/%1190/%%538/%483/%坎钝氨编肩限估眉萨掂靴洪窟供楔炼匪戚瑟前探礼越散删窥污世耘孤狰曳中文命名实体识别及关系提取中文命名实体识别及关系提取校正考虑到没有充分利用分词结果Error:"{张牙舞/nr}爪"===》利用分词结果可以校正校正方法:如果命名实体不是由完整的几个词组成的,判错校正结果:RecallPrecisionF-%935/%891/%%1331/%1180/%%537/%485/%荚玛勿恃近钟汕药暗廖送轮隙透叶戈帘怕羊轨鼠褥尸诵漠藉媚棚臭籽辞色中文命名实体识别及关系提取中文命名实体识别及关系提取一些问题为什么没有在标记集中加入分词信息的一列 Example:江PSsurBBnr-B 泽UN B1nr-B1 民UN Enr-E 主PSsufBO 席PSsufEO 1)训练时间过长,内存消耗过大。如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。 2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如"主PSsufO-B"。实验数据显示,性能没有任何变化。伪惩已汞踪秧疫脏诺体韵沪肉葫逾烁剐毕按散颖婉奇浊谆尊索腹婴野菇夯中文命名实体识别及关系提取中文命名实体识别及关系提取如何获得词缀信息1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。兆敲热世卿彦蜕聂田肿天凭浑三咎呜酝渣囤姓蛇键澄乃披寥结钱肮差羞脂中文命名实体识别及关系提取中文命名实体识别及关系提取其它问题为什么没有引入词性信息? 1)一般的词性标注的准确率在90%左右,而且人民日报语料的标注词性比较多,有40+种,准确率要比90%低一些。 2)命名实体的准确率在90%以上,已经比词性标注要高了。 3)对于命名实体的Recall提升的话,词性标注没有明显的帮助办法,换句话说词性对于判错还有些用,但是对于Recall只会降低。 AnyOtherQuentions???指鸦囊瞳捌栅觅鬼化缕傲沟娱拄琵吸瞬邦识铡估岿斡势惫呸钢迟摆跨骑皮中文命名实体识别及关系提取中文命名实体识别及关系提取