1 / 63
文档名称:

基于基因表达式编程的中文文本关键词提取算法研究.pdf

格式:pdf   页数:63
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于基因表达式编程的中文文本关键词提取算法研究.pdf

上传人:cherry 2014/5/4 文件大小:0 KB

下载得到文件列表

基于基因表达式编程的中文文本关键词提取算法研究.pdf

文档介绍

文档介绍:杭州电子科技大学
硕士学位论文
基于基因表达式编程的中文文本关键词提取算法研究
姓名:管瑞霞
申请学位级别:硕士
专业:计算机应用技术
指导教师:陆蓓
20091201
杭州电子科技大学硕士学位论文
摘要
当前计算技术特别是因特网技术发展迅猛,信息技术正深刻地影响着人们
的生活。Blog、电子文献以及数据内容形成了文本的数据海洋,亟需为用户提
供高效的文本信息处理服务。文本信息处理包括文本分类、文本聚类、文本挖
掘和近似查询处理等内容,而文本关键词提取在上述方面有着广泛的应用,它
不仅是进行这些工作不可缺少的基础和前提,也是互联网上信息建库的一项重
要工作。文本关键词的自动提取是信息检索和摘要生成的基础,在 Web 页检索、
文档聚类、文档摘要提取、文本挖掘等方面都有广泛的应用。关键词提取
(keywords extraction ),其目的是自动生成准确反映文本主题的关键词,被认为
是信息检索等技术的预处理过程。国外对该技术的研究比较早且比较深入,已
经取得了不少研究成果;但中文关键词提取的研究相对落后,存在大量开发问
题。虽然经过众多研究者的努力,取得了一定的进展,但仍然还有很多问题有
待进一步研究和解决。
首先,简要介绍了自然语言处理、文本信息预处理和特征项等相关知识,
分析和比较了常用的关键词提取算法,讨论了用于英文关键词提取的 GenEx 系
统、朴素贝叶斯提取算法以及处理汉语文本的 PAT TREE、最大熵模型等相关
工作,并进行了归类。
然后,基于三个文本特征项,提出了考虑候选词权重计算的中文文本关键
词提取算法 TFLD(term frequency, location & distance algorithm),该算法基于词
频、区域位置以及分词距离次序三种特征项属性。TFLD 算法的关键是词语权
重计算模型的构造。本文引入 GEP 技术来优化求解该计算模型,以 GEP 进化
个体与训练样例间的关键词有序序列差异的总方差作为进化的适应度函数,通
过 GEP 进化算法使得关键词提取算法词语权重公式的表达式结构满足优化阈
值的约束。在对词语权重公式进行优化结构的基础上,引入了 LMS(Least Mean
Square)法则训练该关键词提取模型的调节因子。
最后,TFLD 算法与其他方法通过评价实验进行比较。结果表明,该方法
有效提高了关键词提取的精度。

关键词:关键词提取,基因表达式,特征项,中文文本
I
杭州电子科技大学硕士学位论文
ABSTRACT
Due to the the rapid development of technology, information
technology is profoundly affecting people's lives. Blog, electronic documents and
data content make up the ocean of data, the highly effective text information
processing service is needed urgently for the users. Text information processing
consists of text categorization, text clustering, text mining and approximate query
processing. In all these aspects, keywords extraction is widely used. It is not only
indispensable for information retrieval, but also used as an important step to build
the library. The aim of keywords extraction is select the subject words automatically
which reflect the content accurately. Although there are considearable research effort
overseas, research work on Chinese keywords extraction still in its infancy.
Firstly, the basic concepts of natural language processing, t

最近更新

2026年工贸试题-考试题库完整 42页

2026年干部廉政知识测试题及答案(全国通用).. 14页

2025青海海东水务集团有限责任公司招聘3人参考.. 51页

2025齐商银行社会招聘备考题库附答案解析 45页

2026上海银清企业服务有限公司招聘考试备考题.. 49页

2026中国农业科学院第一批招聘(农业环境与可.. 45页

2026年广西机电职业技术学院单招职业技能测试.. 45页

2026云南省面向东北林业大学选调优秀毕业生笔.. 36页

2026内蒙古到东北大学 定向选调(选聘)应届优.. 48页

2026哈尔滨银行成都分行秋季校园招聘笔试参考.. 37页

2026年廉政教育测考试题库(完整版) 14页

2026年C语言专升本真题(培优) 13页

2026年廉政知识测试题及答案(新) 14页

2026年廉政纪律知识测试题(网校专用) 14页

2026年廊坊燕京职业技术学院单招职业适应性考.. 43页

2026年成都银杏酒店管理学院单招职业技能考试.. 42页

2026年保安知识测试题(含答案) 15页

2026年党员培训党建知识测试题(含答案) 25页

2026年党纪条例知识测试题完整版 18页

2026年内江职业技术学院单招职业适应性测试题.. 45页

2026年永州职业技术学院单招职业技能测试题库.. 44页

2026年江西现代职业技术学院单招职业适应性考.. 44页

2026年法官廉政知识测试题一套 14页

2026年危化品安全生产知识题库及参考答案【新.. 41页

2026年注册税务师考试题库含答案【b卷】 47页

2026年叉车操作科目2考试题库及答案(真题汇编.. 14页

2026年反恐怖知识测试题参考答案 12页

2026年反恐防控知识测试题附参考答案(巩固).. 13页

2026年古典音乐期末试题及完整答案 15页

2025年江西信息应用职业技术学院单招职业适应.. 127页