1 / 44
文档名称:

基于朴素贝叶斯方法的中文文本分类研究.pdf

格式:pdf   页数:44页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于朴素贝叶斯方法的中文文本分类研究.pdf

上传人:cherry 2014/4/1 文件大小:0 KB

下载得到文件列表

基于朴素贝叶斯方法的中文文本分类研究.pdf

文档介绍

文档介绍:河北大学
硕士学位论文
基于朴素贝叶斯方法的中文文本分类研究
姓名:李丹
申请学位级别:硕士
专业:计算机应用技术
指导教师:袁方
2011-06
摘要
摘要
计算机与网络技术自出现以来,发展迅速,并日趋完善,互联网已成为获取信息的
主要来源。由于网络中大部分信息是文本数据,作为有效组织与管理文本数据重要基础
的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯理论的朴素贝叶斯分
类方法具有简单、有效、速度快的优点,成为文本分类算法的重点研究内容之一。
本文首先对文本分类涉及到的中文分词、文本向量表示及特征权重计算等关键技术
做了比较详细的分析研究;然后针对朴素贝叶斯文本分类的模型以及常用特征选择方法
对朴素贝叶斯文本分类的性能影响进行了详细的研究与分析;最后,设计并使用 Java
在 MyEclipse 平台上实现了基于朴素贝叶斯方法的中文文本分类系统。
本文重点分析了多变量伯努利模型与多项式模型,通过实验对比得出在中文文本分
类中多项式模型优于多变量伯努利模型。为了进一步提高分类精度,本文对多项式模型
的平滑因子进行了改进,实验表明具有良好的分类效果。由于朴素贝叶斯分类模型是建
立在属性之间条件独立性假设之上,因此特征选择的好坏与否对分类精度有较大影响。
本文通过实验表明信息增益和χ 2 统计量是朴素贝叶斯文本分类较好的特征选择方法。

关键词文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择

I
Abstract
Abstract
Since the technology puter work appeared, it had been developed very
rapidly. Network has ing one of the most mainly-used information source. Because
most of the information in work is text data type, automatic text categorization which is
the important basic of anization and management text data has e an
important study field. Naive Bayes classification method is based on the Bayesian theory,
which is accepted as simple and effective probability classification method and has e
one of the important contents in the text categorization.
Firstly, the paper studies key technologies of the text categorization that includes
Chinese text segmentation, representation of text vector and feature weighting. After that,
Naive Bayes text classification model and the affect of feature selection method on
performance of Naive Bayes text classification is studied. At last, java on MyEclipse to
realize Chinese text categorization system based on Naive Bayes method is plished.
This paper mainly analyzes Multi-variate Bernoulli Model and Multinomial Model. By
experiment, the effect of Multinomial Model is better than Multi-variate Bernoulli Model in
the Chinese text categorization. In order to increase classification accuracy,smoothing factor
of Multinomial Model is improved. The exper

最近更新

山东证监局会计准则更新培训章节件二股份支付.. 61页

《药物的理化性质对》 83页

全息图制作方法和通过该方法制作的全息图 2页

2025年哺乳期乳房炎症治疗攻略 16页

光源在液晶玻璃基板检测系统中的应用研究 2页

关于客服的辞职报告范文(13篇) 18页

人教版八年级上册物理第六章质量与密度 34页

大学工作计划范文(28篇) 81页

2025年慢性咳嗽治疗与诊断宝典 27页

二零二五年度企业国际化发展员工对赌协议 7页

2025年单室模型静脉给药动力学研究 44页

二零二五年度企业内部员工贷款业务合同样本 7页

二零二五年度代养猪养殖基地合作养殖与技术培.. 9页

二零二五年度人工智能学徒工就业合同协议样板.. 8页

2025年刮痧疗法功效与正确操作要点 13页

产品可靠性定量指标 41页

二零二五年度中医养生文化拜师协议 8页

二零二五年度个人门面转租协议书(艺术工作室.. 8页

2025年想念一个人的个性签名 12页

2025年儿童脑瘤治疗与症状解析 55页

二零二五年度个人租赁别墅区露天停车位合同 8页

艺术舞蹈老师简历模板 1页

借款合同模板(电子版) 5页

服装设计合作协议书 5页

全国学前教育普及普惠区创建工作方案 5页

煤炭资源地质勘查设计编写提纲 14页

硫酸铵生产硫酸钾的可行性方案 31页

上墙岗位职责图牌 6页

燃烧器控制器LFL说明 10页

发展党员党员大会议程 3页