1 / 4
文档名称:

基于关键词和命名实体识别的新闻话题线索抽取.pdf

格式:pdf   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于关键词和命名实体识别的新闻话题线索抽取.pdf

上传人:sdhdjhty 2014/1/18 文件大小:0 KB

下载得到文件列表

基于关键词和命名实体识别的新闻话题线索抽取.pdf

文档介绍

文档介绍:第 28卷第 12期计算机应用与软件 Vol
2011年 puterApplicationsandSoftware
基于关键词和命名实体识别的新闻话题线索抽取
钱哲怡李芳
(上海交通大学计算机系中德语言技术实验室上海 200240)
摘要如何自动结构化新闻话题,从不同角度和不同侧面了解新闻话题,解决网络新闻信息过载的问题成为研究的热点。提出
将新闻话题进行线索化的观点,根据抽取线索算法得到关键词和命名实体集合作为每一条线索主旨,并将新闻报道归类到线索中作
为其内容来结构化新闻话题。实验结果表明,该方法在线索精度和文档划分评测指标上都有较好的效果,能够较清晰地展现话题的
不同线索,以帮助用户了解新闻话题的发展脉络。
关键词命名实体识别线索抽取线索文档划分
中图分类号 文献标识码 A
KEYWORDANDNAMEENTITYIDENTIFICATIONBASED
NEWSTOPICTHREADEXTRACTION
QianZheyi LiFang
(UDSSJTUJointResearchLabforLanguageTechnology,puterandEngineering,ShanghaiJiaoTongUniversity,Shanghai200240,China)
Abstract anizenewstopic,understandnewstopicfromdifferentanglesandaspectstosolvetheproblemof
,.,according
tothethreadextractionalgorithm,keywordsandnameentityaggregationsareobtainedaseachthreadtheme,thenclassifynewsreportsinto

anddocumentdividingassessmentindicesandcanmoderatelyclearlydemonstratedifferentthreadsoftopictohelpusersunderstandthenews
topicdevelopmentskeleton.
Keywords Nameentityidentification Threadextraction Threaddocumentsdividing
在此背景的基础上,本文提出了根据线索的抽取来结构化新
0 引言闻事件的方法。利用命名实体抽取的算法抽取命名实体,通过关键
词和命名实体的抽取得到线索的主旨,再根据代表不同线索的关键
随着计算机信息技术的发展和互联网的普及,新闻报道借词和命名实体对新闻报道文章进行划分,得到代表线索的内容。
助互联网这个具有强大时效性的平台向大众传播新闻报道,新
闻报道也成为了人们获取信息的主要来源之一。 1 相关工作
目前各大门户网站及主要的搜索引擎公司都提供热点新闻
专题服务,即在一个版面内,将围绕某一事件或