1 / 49
文档名称:

改进TFIDF和谱分割的关键词自动抽取方法研究.pdf

格式:pdf   页数:49
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

改进TFIDF和谱分割的关键词自动抽取方法研究.pdf

上传人:quality 2014/1/22 文件大小:0 KB

下载得到文件列表

改进TFIDF和谱分割的关键词自动抽取方法研究.pdf

文档介绍

文档介绍:⑨⋯⋯硕士学位论文改进推追指畹墓丶自动抽取方法研究论文作者:肖根胜
⑨易锄厶’觑硕士学位论文:篜’
⑨华中师范大学学位论文原创性声明和使用授权说明作者签名:肖赧乙日期:伊田阥月拈日学位论文版权使用授权书原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。究向学段保非定硕士学位论文’
⑨摘要关键词是指文档中具有专指性且能够反映文档主题的词语或短语。采用自动化技术从文档中抽取出关键词的过程称为关键词自动抽取。关键词自动抽取是文本自动处理中分类、检索和文摘等工作的基础与关键技术之一。按照理论依据不同,关键词抽取的方法可以分为:统计分析、语言分析和人工智能等方法。关键词抽取的统计分析方法根据统计信息计算词语或短语的权重,从中抽取权重大的若干词语或短语为关键词。算法是一种应用较广的权重计算统计分析方法。该算法选用词语或短语的频率与反文档频率某嘶幢硎咎卣飨畹娜ㄖ怠M耆ɑ词频的传统惴ǹ赡艹鱿至嚼嘞窒螅河行┎荒艽砦牡抵魈獾牡推荡蔍值却很高;有些能够很好地代表文档主题的高频词等春艿汀1疚淖酆峡悸谴语或短语的词频、词性、词长以及在文档中出现的位置,设计了一种改进的算法。词语同现频率是关键词抽取统计分析方法中的一个重要的信息。单纯地利用候选关键词的同现频率加权计算候选关键词的权重,进行关键词的抽取,效果不佳。为了进一步提高关键词抽取的准确性,本文将基于图像分类的谱分割方法应用于关键词抽取,设计了基于谱分割的关键词抽取方法。其主要思路是首先对文本中的候选关键词基于词语同现频率建立相似图,使用谱分割方法对图中候选关键词进行分类,统计候选关键词所在分类的词语总数,根据候选关键词的改进岛秃蜓关键词所在类的词语总数计算候选关键词的权重,排序后权重值较大的若干候选关键词即为抽取的关键词。论文选用“中国论文下载中心”⒖萍己途萌的论文各W魑J笛榈氖菁7直鹩没诖车腡方法、基于改进的椒ê突谄追指罘椒ǔ槿」丶省J笛榻峁砻鞲慕腡方法关键词抽取的准确率、召回率和值明显高于传统的椒ā;谄追指畹姆椒ㄊ三者中关键词抽取效果最好的。关键词:改进黄追指睿还丶食槿硕士学位论文’
⑨.甌甌,,.琣仃..硕士学位论文...琄::瑂瓹.:,.:’.
”“:籗;甀Ⅱ
⑨录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第一章绪论⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.〗⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第二章关键词抽取的相关技术⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯.文本预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯词语权重计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.性能评价⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第三章基于改进墓丶首远槿》椒ā关键词基本特征⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.特征综合加权⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于改进墓丶首远槿》」丶屎喜ⅰ.惴枋觥第四章基于谱分割的关键词自动抽取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图谱理论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.基于谱方法的图分割⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯目硕士学位论文...........................................................’
⑨参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯...」」⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第五章实验及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.实验预备⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第六章总结和展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..论文总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.下一步研究工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.硕士学位论交’
⑨第一章绪论课题背景及研究意义从语言的诞生到文字的出现,各种信息就一直伴随着我们;再从计算机的发明到难该头⒄梗畔⒂胛颐堑纳蠲懿豢煞至恕P畔⑹且桓龀橄蟮母拍睿又是一个无处不在的实际事件。现代信息科学将信息定义为两次不定性之差【俊K着信息时代的发展,信息的表现形式也变得多种多样,如何有效的接收、存储、转化和传送各种各样的信

最近更新

2025年克拉玛依职业技术学院单招职业技能考试.. 43页

2025年兰州交通大学马克思主义基本原理概论期.. 12页

2025年兰州财经大学马克思主义基本原理概论期.. 12页

网络切片技术 35页

2025年内江职业技术学院单招职业适应性测试题.. 44页

2025年内蒙古工业职业学院马克思主义基本原理.. 13页

绿色生产模式下的饲料成本效益分析 21页

2025年凤翔县招教考试备考题库附答案解析(夺.. 30页

2025年勐海县招教考试备考题库带答案解析(必.. 30页

2025年华东理工大学马克思主义基本原理概论期.. 12页

高温耐腐蚀薄膜材料探索 31页

网络安全与能效管理的协同策略 27页

2025年南京航空航天大学马克思主义基本原理概.. 13页

2025年南充职业技术学院单招职业倾向性测试题.. 45页

2025年南昌航空大学马克思主义基本原理概论期.. 12页

绿色勘查方法研究 35页

网络攻击防御策略-第1篇 50页

2025年厦门安防科技职业学院马克思主义基本原.. 12页

风荷载与桥梁振动耦合效应研究 35页

高性能编程优化 38页

网络信息流可视化 31页

2025年吉林电子信息职业技术学院单招职业适应.. 45页

2025年吉林职工医科大学马克思主义基本原理概.. 12页

2025年吕梁师范高等专科学校马克思主义基本原.. 13页

谷物加工产业价值链重构研究 35页

2025年咸阳职业技术学院单招职业技能测试题库.. 45页

高危患者抗凝策略 35页

2025年商丘学院单招职业倾向性考试题库附答案.. 45页

2025年嘉兴职业技术学院单招职业适应性考试题.. 44页

2025年四川化工职业技术学院马克思主义基本原.. 13页