1 / 8
文档名称:

搜索日志中命名实体识别.pdf

格式:pdf   大小:540KB   页数:8页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索日志中命名实体识别.pdf

上传人:changdan5609 2021/11/12 文件大小:540 KB

下载得到文件列表

搜索日志中命名实体识别.pdf

相关文档

文档介绍

文档介绍:总第 259 期 2015 年 第 6 期
搜索日志中命名实体识别*
任育伟 1 吕学强 1 李 卓 2 徐丽萍 2
1(北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101)
2(北京城市系统工程研究中心 北京 100089)
摘要: 【目的】搜索日志中命名实体识别对于优化搜索意图, 提高搜索引擎服务质量存在重要意义。【方法】利
用种子命名实体和模板匹配原则抽取候选命名实体并聚类, 聚类后进行候选命名实体识别特征抽取, 包括频次、
不同模板数、模板权重特征。融合这些特征构造命名实体识别权重计算公式, 并合理调整特征影响参数。【结果】
对根据权重提取的命名实体进行标注和统计, 发现 ******@500 值平均达到 75%左右, 比 Paşca 方法高出 7%。【局限】
对模板敏感性弱的命名实体不能精确抽取。【结论】通过计算该方法抽取结果指标 ******@N 值, 并和其他方法抽取
结果指标进行比较, 证明该方法的有效性。
关键词: 搜索日志 模板权重 类 K-means 聚类 特征权重 种子命名实体
分类号: TP391


1 引 言 命名实体识别的方法不属于主流抽取方法, 它不但需
要大量的精确标注语料进行模型训练, 还需要有信息
据 CNNIC 的统计报告[1]显示, 截至 2014 年 6 月
量大的上下文信息, 而搜索日志即使进行 Session 聚类
底, 我国搜索引擎网民规模达到 亿, 较 2013 年底
后提供的上下文信息仍然很有限。因此, 简单有效的
增长 1 442 万人, 互联网普及率为 %。搜索引擎作
基于模板进行命名实体抽取的方法成为研究的主流。
为互联网的基础应用, 是网民获取信息的重要工具,
本文在前人研究的基础上, 对命名实体抽取模板
用户规模达 亿, 使用率达到 %, 使用率在所