文档介绍：命名实体识别项目报告
张坚
修改历史
日期
版本
修改内容
2009-6-18

建立大纲,完成部分实验数据分析
2009-6-19

完成实验数据分析部分
2009-6-19

完成源程序说明
2009-6-19

完成总结部分
2009-6-19

局部文字校对与润饰
目录
1. 项目简介 4
2. 特征的选取 4
3. 数据的预处理 4
4. 序列标注工具的选择 4
5. 实验步骤及结果分析 4
实验一 4
实验二 5
实验三 5
实验四 6
实验五 6
实验六 7
分词粒度过大 8
错误分词 8
没有利用机构前后缀特征 9
模棱两可之处 9
长名称的复合机构名 10
实验七 10
实验八 11
实验九 12
实验十 13
实验十一 14
6. 总结 15
7. 附录 16
项目托管 16
源程序结构说明 16
项目简介
本项目旨在练****所学的图模型来解决自然语言处理中的基本问题—命名实体识别。
特征的选取
实验中所提取的特征包括:
字的特征:这是最基本的特征。
分词特征:包含始末位置特征,用“B”表示是分词的开头,用“I”表示分词的中间或结尾;分词自身作为特征,如“中国”;分词的首尾字为特征:如“培训班”中“培”和“班”。
词性特征:一种是将整个分词的词性特征赋给附属的每个字,如“中国/ns”转换成“中/ns”和“国/ns”;另一种是在词性特征中夹带有分词的始末位置特征,如“中国/ns”转换成“中/B-ns”和“国/I-ns”。
命名实体的前后缀特征:将训练集中高频的姓氏如“张”、“王”等,机构名高频后缀字如“系”、“会”等,以及地名高频后缀字如“州”、“路”等分别赋以“PP”、“OS”和“LS”以指示可能人名前缀、机构名后缀和地名后缀。
数据的预处理
我们使用了中科院的分词器ICTCLAS30为原始数据添加了分词和词性特征列。
将训练数据的首70%(768728行)作为模型训练用,末30%(343502)作为评测用。
序列标注工具的选择
我们选择了CRF++ 。
评测工具我们选择CoNLL-。
实验步骤及结果分析
实验一
仅考虑前后字的特征,不使用Bigram。设计的特征模版如下:
# Unigram
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[-1,0]/%x[0,0]
U05:%x[0,0]/%x[1,0]
测试得到的结果如下:
LOC: precision: %; recall: %; FB1:
ORG: precision: %; recall: %; FB1:
PER: precision: %; recall: %; FB1:
可见效果很差,特别是机构名。
实验二
在实验一的特征模版之上应用Bigram:
# Bigram
B
所得的测试结果如下:
LOC: precision: %; recall: %; FB1:
ORG: precision: %; recall: %; FB1:
PER: precision: %; recall: %; FB1:
发现各项指标都得到了巨大的提升,特别是Precision,因此之后的实验都将应用Bigram。
实验三
由于前述实验仅仅利用了前后和自身字的一元特征和二元共现特征,各项指标还不是很好,本次试验增大了前后字特征的窗口大小到2,特征模版如下:
# Unigram
U02:%x[-2,0]
U03:%x[-1,0]
U04:%x[0,0]
U05:%x[1,0]
U06:%x[2,0]
U08:%x[-2,0]/%x[-1,0]
U09:%x[-1,0]/%x[0,0]
U10:%x[0,0]/%x[1,0]
# Bigram
B
实验结果如下:
LOC: precision: %; recall: %; FB1:
ORG: precision: %; recall: %; FB1:
PER: precision: %; recall: %; FB1:
F值提高了2到3,这说明了大小为2的前后字窗口引入了更多有用的特征。
实验四
继续增大前