1 / 5
文档名称:

基于半监督学习的命名实体识别的方法.doc

格式:doc   大小:15KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于半监督学习的命名实体识别的方法.doc

上传人:平儿 2022/8/3 文件大小:15 KB

下载得到文件列表

基于半监督学习的命名实体识别的方法.doc

相关文档

文档介绍

文档介绍:基于半监督学****的命名实体识别的方法
摘要:命名实体识别是信息抽取中基础且关键的一项子任务。本文根据不同领域文本的特性,设置了通用的特征模板,利用半监督学****的方法,对新闻文本和桥梁文本分别进行了命名实体识别。实验表明,仅使用少量基于半监督学****的命名实体识别的方法
摘要:命名实体识别是信息抽取中基础且关键的一项子任务。本文根据不同领域文本的特性,设置了通用的特征模板,利用半监督学****的方法,对新闻文本和桥梁文本分别进行了命名实体识别。实验表明,仅使用少量标注的语料也可以达到较好的识别效果。
关键词:命名实体识别;自学****方法;半监督学****br/> 中图分类号: 文献标识码:A 文章编号:1007-9416(2020)01-0207-02
命名实体识别概述
随着信息技术的发展,网络数据出现飞速增长的趋势,并呈现出多源异构等大数据特征。对其进行信息抽取,获得有效信息对于文本数据分析具有重要的研究意义。
命名实体识别是信息抽取过程中十分基础且关键的一项子任务。命名实体识别是指识别出文本中例如人名,地名,时间或组织名等具有特定意义的实体。
大多数命名实体识别的方法都是基于规则[1]的方法或基于监督学****2]的方法。其中基于规则的方法需要专业人员去设置规则模板,但是规则之间可能会出现冲突,且可移植性和扩展性差。基于监督学****的方法十分依靠大量的标注文本,在通常情况下标注文本是极难获取的,且使用人工标注的成本較大。因此,只需要少量标注语料的基于半监督学****的命名实体识别方法成为了领域内研究的热门。
2 研究现状
命名实体识别一直是自然语言处理领域研究的基础性问题,其本质可看作序列化数据标记问题[3]。
早期的命名实体方法是在限定文本领域、限定语义单元类型的条件下进行的,采用的是基于规则与词典的方法。Rau等人采用启发式算法与人工编写规则相结合的方法,首次实现了从文本中自动抽取公司名,但扩展性差,规则制定费时费力。
Wang等人采用有监督的统计学****方法,针对于临床医学的记录进行命名实体识别,利用大量的标注样本进行条件随机场模型(conditional random fields,CRF)的学****的成绩。
条件随机场是Lafferty等人于在隐马尔可夫模型(HMM)和最大熵模型(MEMM)的基础上提出的一种概率式判别模型。它可以充分结合观察序列中的多种特征信息,来克服HMM中严格的强独立性假设问题。以上的方法都需要大量的标注语料作为数据支撑,仅需少量语料的半监督学****方法[4]也取得一定成就。Jonnalagadda等人在医学领域采用了半监督CRF的方法对临床医学实体进行识别,并提出了分布式语义方法,%。Ke等人在少量标注语料的情况下, 结合大量的未标注语料,应用协同训练算法实现中文组织名的识别, 协同训练CRF模型和SVM模型,最终模型F值比单个模型F值高出10%。
设X与Y为随机变量,P(Y|X)是在给定X的条件下,Y的条件概率分布。设P(Y|X)为条件随机场,X取值为x的条件下,Y取值为y的条件概率如下公式:
自学****方法是有监督和无监督学****相结合的统计机器学****方法,其可通过大量未标注语料与