1 / 129
文档名称:

文本分类和聚类中若干问题的研究(可复制论文).pdf

格式:pdf   页数:129
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文本分类和聚类中若干问题的研究(可复制论文).pdf

上传人:mkt365 2013/11/6 文件大小:0 KB

下载得到文件列表

文本分类和聚类中若干问题的研究(可复制论文).pdf

文档介绍

文档介绍:文本分类和聚类中若干问题的研究摘要文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。随着信息化时代的到来,文本分类和聚类的重要性日趋显著,其研究工作已经不仅仅是科学家的兴趣所在,世界上许多国家和地区的政府及工业界都十分关注并积极投身于文本分类和聚类领域的研究。本文针对文本分类和聚类中亟需解决的海量应用、分类精度以及理解深度等问题,开展了以下创新性研究:第一,探讨了基于统计模型的文本分类。主要研究了传统的统计模型方法在文本分类领域中的应用。首先,研究了基于贝叶斯方法的文本分类技术。在此基础上,利用加权的方法提出了一种改进的贝叶斯算法。其次,研究了如何利用无标签样本进行学习的问题。通过采用转导推理,整合了无标签样本和有标签样本的学习。最后,探讨了字符级统计方法在文本分类中的应用。此外,通过把垃圾邮件过滤和短信分类任务的解决贯穿始终,将这一部分的研究内容在其上逐一实现。实验结果表明,本文的方法不仅易于工程实现,能够联合无标签样本学习,而且可以较好地在分类速度和精度之间进行折衷,以达到快速准确处理海量文本信息的能力。第二,探讨了基于分类器集成的文本分类。主要研究了基于简单多数投票策略的分类器集成问题。首先,给出了一个分类器错误的分解式分解诶砺壑っ鞯幕∩希岢隽艘桓瞿芄恢甘痉掷器集成性能的指标借由线性规划方法,分析了基于简单多数投票策略的分类器集成性能的理论上下界。最后,探讨了可能达到集成性能理论上界的两种途径:选择性分类器集成;基于副暧呕的分类器集成。此外,我们将这部分所研究的方法应用于垃圾邮件过滤任务。实验结果表明,本文的方法能够很好地提高集成后文本分类
知识水坝***@pologoogle为您整理
器的精度,具有良好的应用前景。第三,探讨了基于非线性方法的文本聚类。我们期望能够将传统的文本聚类处理提升到“理解”的层次。将文本聚类处理领域的研究,从长期专注于“语法”层次的研究,演进到“语义”的层次。首先,通过使用流形学习工具,研究了中文词汇在语义空间掷嗫占的分布情况,这部分研究将为迸一步基于语义的特征选择工作打下良好的基础。在此基础上,利用实浣辛硕绦啪劾嗟难芯俊J笛榻果表明,本文的方法能够更好地反映文本之间的内在联系。关键词:文本分类和聚类统计模型分类器集成流形学习圾邮件过滤短信处理垃Ⅱ
知识水坝***@pologoogle为您整理
锄畂姗】韙甀Ⅱ’.赳‰鷖嬲鷇印膍痳鱫锄甜氏甌艄甅痶。锄协姗协鷜っ髄锄,猘..Ⅵ厅..Ⅳ.,斌;鹳鮅瓵瑆“,,;騨瑃珊
砌誗鷉锄劬咖懈啦鶬,研簂鯿緄瞮私蟚锄璫甌锄锄丘猤由鱝羔秂賁:鷇鷐够鷐瓸鹤,辧‘‘’鷗眈雒弛璐瓵膖’印’∞丘.“张∞∞鰐印:;船曲甒懈騦∞鲫、∞,.,仃斌琫纳。靶虹,瑆癶琣.ⅡⅣ
日期:—:边日期:选骸叮阂襋创新性声明关于论文使用授权的说明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。,本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它本学位论文不属于保密范围。适用本授权书。本人签名:导师签名:口期:复制手段保存、汇编学位论文。
第一章绪论引言国人一向激赏“以文载道,以文立人”的处世哲学。曹丕‘典论·论文骸案俏如今,随着“的迅猛发展和日益普及,一方面使得人们可以更加方便快捷源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都会造成巨大的些信息,并快速、准确、全面地从中找到用户所需要的信息是当前文本信息处理支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地的问题,而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。虽然文本分类和聚类章,经国之大业,不朽之盛事。”孔子;“言之无文,行之不远”

最近更新

2025年贵州工贸职业学院单招综合素质考试模拟.. 40页

2025年贵州建设职业技术学院单招综合素质考试.. 40页

2025年贵州文化旅游职业学院单招职业倾向性测.. 40页

2025年贵州电子信息职业技术学院单招职业技能.. 40页

2025年贵州省铜仁地区单招职业适应性考试模拟.. 40页

2026年新疆轻工职业技术学院单招职业适应性考.. 41页

2025年贵州装备制造职业学院单招职业适应性测.. 40页

2025年贵州轻工职业技术学院单招职业适应性测.. 41页

2025年贵阳幼儿师范高等专科学校单招职业适应.. 42页

2026年景德镇艺术职业大学单招职业技能考试模.. 42页

2025年赣南卫生健康职业学院单招职业倾向性测.. 41页

2025年赣西科技职业学院单招职业倾向性测试模.. 40页

2026年林业往年单招试题及答案1套 43页

2026年柳州铁道职业技术学院单招职业技能测试.. 42页

2025年辽宁地质工程职业学院单招职业技能考试.. 40页

2026年榆林职业技术学院单招职业倾向性考试模.. 42页

2026年永州师范高等专科学校单招综合素质考试.. 41页

2025年辽宁省铁岭市单招职业适应性测试模拟测.. 40页

2025年辽宁石化职业技术学院单招职业技能考试.. 40页

2026年江苏省宿迁市单招职业倾向性考试模拟测.. 43页

2025年辽宁轻工职业学院单招职业倾向性考试模.. 40页

2025年辽宁铁道职业技术学院单招职业适应性考.. 40页

2025年达州中医药职业学院单招综合素质考试题.. 41页

2025年连云港师范高等专科学校单招职业技能测.. 41页

2025年通化医药健康职业学院单招职业适应性测.. 41页

2025年遵义职业技术学院单招职业技能测试模拟.. 41页

2025年邯郸科技职业学院单招综合素质考试模拟.. 40页

2025年国家开放大学《建筑力学》章节测试参考.. 13页

【人教版英语字帖】七年级下册单词表衡水体字.. 42页

食品安全自查、从业人员健康管理、进货查验记.. 9页