1 / 106
文档名称:

文本挖掘预处理相关基础技术分析与应用的研究(可复制毕业论文).pdf

格式:pdf   页数:106
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文本挖掘预处理相关基础技术分析与应用的研究(可复制毕业论文).pdf

上传人:mkt365 2013/12/17 文件大小:0 KB

下载得到文件列表

文本挖掘预处理相关基础技术分析与应用的研究(可复制毕业论文).pdf

文档介绍

文档介绍:文本挖掘预处理相关基础技术分析与应用研究摘要本论文将在对比分析并发现现有文本挖掘技术存在不足的基础上,提出改进文本预处理精度的算法。文中涉及的主要技术包括文本收集、文本预处理、处理后的文本的中文分词、预抽取训练样本及使用椒ń形谋狙盗泛文本分类等。通过对系统功能的分析,本研究把系统分成了文本预处理、中文分词、文本特征向量的提取、文本特征向量的训练和分类等四部分。在文本特征向量的提取、文本特征向量的训练和分类部分中,作者研究了一种基于词的文档频率和信息增益相融合的的方法,这种方法不仅相对简单,有层次感,而且在保证分类器性能的基础上,可以允许我们适当地选择训练样本,减少支持向量,从而提高难盗泛头掷嗨俣取=幼沤樯芰幕纠砺垡约澳壳癒方法在文本分类中的应用情况,以及如何使用没竦玫奈谋咎卣飨蛄考捌淙ㄖ乩瓷墒淙胛牡担形谋狙盗和分类的过程。本课题实现了文本收集、文本预处理和中文分词等文本挖掘的关键技术,并在研究的基础上提出了一套特征抽取及文本挖掘的方案,为后续的研究奠定了基础。关键词:中文分词向量空间模型罱诜椒ㄎ谋就诰绪论
,蹴...’簍,,,
瑃,.,瑆甌绪论
独创性虼葱滦声明关于论文使用授权的说明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它本学位论文属于保密在旦年解密后适用本授权书。本人签名:日期:复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑导师签名:
第一章绪论本论文的研究背景年来随着数据仓库和计算机网络的广泛应用,加上使用先进的信息自动生成、采集和存储工具,社会所拥有的信息量大增:首先是九十年代以来,以惊人的速度发展起来,它容纳了海量的各种类型的一手和二手信息,包括文本信息、图片信息、声音信息、视频信息等;条形码技术和射频技术在商业上的普遍使用使得物与物、机器与机器之间的通信信的顾客购买商品信息,物流系统大量的物品流动和位置数据等;先进的现代科学观测仪器的使用每天也在生产巨量的数据,如各种同步卫星每小时国移动运营商的彩铃业务、定制短信业务、博客业务、手机报业务等等,⒒缁嵋孕畔⒘魑:诵睦创工业文明突出的特点是以大规模的工业基地和商业基地为二元中心来带动物流、资金流和人流的,这个时代,⒓痹信息化社会,社会的运转就是智能化系统的运转;社会的历史就是数据的历史。近息成为数据管理的一个重要方向,如超级市场上的低趁刻於家4娲⑸贤虮传回地球的遥感图像数据就达千兆纸冢近几年来,基于文本内容的移动通信增值业务的发展,数据量更是成倍增长,如中录数十万乃至上百万用户咨询、订购、消费和支付的数据。
发展的一个重要标志,信息的流动也主要是随着交通网络运行的。当社会从工业文明向信息文明演进的时候,信息网络的地位逐步提升,并成为带动工业化实现跨越网络信息化使社会的核心资源打破时空得以广泛共享,从而使市场全球化,经济一体化,利益共同化。未来世界的商业中心、金融中心同时也必须是信息网最发达的升级,就会被淘汰。以中国邮政为例,它所拥有的人员和网点可以说都是中国最多重要原因是缺乏智能化的的信息支撑系统,管理手段过于陈旧,结果是物流配送准随着信息化进程加快,信息在社会各行业各领域的地位将日益重要并逐步成为最主要的管理对象。这个时代是按人们占有信息、处理信息、利用信息的能力来衡量你的,还必须有对应的处理能力和应用能力。当信息量大到一定程度后,如果没有科于数据仓库的系统日益受到重视的一个重要原因。信息将成为一种产品,以信息为核心的价值设计和价值传递将成为一种产业。当前商,而中国移动则由移动通信专家变为移动信息专家,如何将强大计费系统所记录的用户信息、业务信息、位置信息、市场反馈信息等生产成市场所需要的信息产品,将成为这一转型成败的关键。未来,除了传统对信息的传输业务之外,各类市场信息的分检和分发将成为电信运营商越来越重要的服务。另外,由于电信市场竞争的加剧,传统语音业务资费水平的持续下降,如何利用强大数据库支撑下的经营分析来实现精细化管理,提高效率,降低成本,也是各大运营商在

最近更新

最新全国政法队伍教育整顿知识竞赛试题库及参.. 40页

最新全国政法队伍教育整顿知识竞赛试题库附参.. 40页

最新煤气操作证考试题100道附完整答案(网校专.. 39页

2025年光纤预制棒项目建议书 61页

2025年便携式计算机项目发展计划 61页

跨学科主题学习视域下高中英语阅读教学实施策.. 31页

2025年资阳环境科技职业学院单招职业技能测试.. 44页

考虑降雨强度时间模式不确定性的边坡可靠度分.. 7页

2025年长春早期教育职业学院单招职业适应性考.. 45页

2025广西贵港市港北区第四初级中学招募高校毕.. 49页

2025河北雄安人才服务有限公司招聘医疗类岗位.. 46页

胖东来基层员工9886元月薪标准解析 60页

2026年三峡电力职业学院单招职业技能考试模拟.. 43页

2026年党员廉政知识试题(精练) 14页

2026年内蒙古美术职业学院单招职业技能测试题.. 44页

2026年大一c语言期末试题(夺冠系列) 13页

2026年武夷山职业学院单招综合素质考试题库附.. 45页

2025广东云浮市发展和改革局遴选公务员3人参考.. 49页

2026年信阳涉外职业技术学院单招职业技能考试.. 44页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年湖南省建设工程工程量清单计价办法(新).. 51页

2025年江西信息应用职业技术学院单招职业适应.. 127页

2025年江西信息应用职业技术学院单招职业倾向.. 73页

喝酒给老婆的检讨书 6页

vae乳液低温发泡工艺 29页

《口蹄疫》ppt课件 42页

自然条件对城市的影响 48页

DL T 5783-2019《水电水利地下工程地质超前预.. 36页

德国科隆柯伦巴艺术博物馆_建筑空间解析 14页