1 / 4
文档名称:

基于语义关联的中文网页主题词提取方法研究倡.pdf

格式:pdf   页数:4
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于语义关联的中文网页主题词提取方法研究倡.pdf

上传人:799474576 2013/8/12 文件大小:0 KB

下载得到文件列表

基于语义关联的中文网页主题词提取方法研究倡.pdf

文档介绍

文档介绍:第 28 卷第 1 .1
2011 年 1 月 Vol .2011No
Application Research puters Jan
基于语义关联的中文网页主题词提取方法研究倡
1 1 2 1
李芳芳, 葛斌, 毛星亮, 汤大权
( 4 技术国防科技重点实验室, 长沙 410073;
C ISR
室, 长沙 410011)
摘要: 提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和“知网”计算词语间的语义
相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权
重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本
方法在查准率、召回率和 F1 测度值上均有一定的提高,当提取主题词个数为 7 时,本方法召回率和 F1 测度值达
到最大值,且分别较传统方法最大值提高了 %和 %。
关键词: 语义关联; 中文网页; 主题词; 权重
中图分类号: 301畅6 文献标志码: 文章编号: 1001唱3695(2011)01唱0105唱03
TP A
: /. .
doi j issn
Thematic words extraction from Chinese Web pages based on semantic relations
唱 1 , 1 , 唱 2 , 唱 1
LI Fang fang GE Bin MAO Xing liang TANG Da quan
( Laboratory of C4ISR Technology National Defense Science Technology, National University of Defense Technology, Changsha 410073,
&
China; 2. News Management Office of Publicity Department of Hunan mittees, Changsha 410011, China)
Abstract: . , 唱
This paper proposed a new thematic words extraction, method based on semantic relations. Firstly used sliding win
dow and to calculate semantic similarity between words to form the, candidate noun pairs Then generated undirected
graph. based on, these noun pairs to show the semantic links between them. and based on the graph to model the weight of
words Finally selecte