1 / 44
文档名称:

基于朴素贝叶斯方法的中文文本分类研究.pdf

格式:pdf   页数:44页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于朴素贝叶斯方法的中文文本分类研究.pdf

上传人:cherry 2014/4/1 文件大小:0 KB

下载得到文件列表

基于朴素贝叶斯方法的中文文本分类研究.pdf

文档介绍

文档介绍:河北大学
硕士学位论文
基于朴素贝叶斯方法的中文文本分类研究
姓名:李丹
申请学位级别:硕士
专业:计算机应用技术
指导教师:袁方
2011-06
摘要
摘要
计算机与网络技术自出现以来,发展迅速,并日趋完善,互联网已成为获取信息的
主要来源。由于网络中大部分信息是文本数据,作为有效组织与管理文本数据重要基础
的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯理论的朴素贝叶斯分
类方法具有简单、有效、速度快的优点,成为文本分类算法的重点研究内容之一。
本文首先对文本分类涉及到的中文分词、文本向量表示及特征权重计算等关键技术
做了比较详细的分析研究;然后针对朴素贝叶斯文本分类的模型以及常用特征选择方法
对朴素贝叶斯文本分类的性能影响进行了详细的研究与分析;最后,设计并使用 Java
在 MyEclipse 平台上实现了基于朴素贝叶斯方法的中文文本分类系统。
本文重点分析了多变量伯努利模型与多项式模型,通过实验对比得出在中文文本分
类中多项式模型优于多变量伯努利模型。为了进一步提高分类精度,本文对多项式模型
的平滑因子进行了改进,实验表明具有良好的分类效果。由于朴素贝叶斯分类模型是建
立在属性之间条件独立性假设之上,因此特征选择的好坏与否对分类精度有较大影响。
本文通过实验表明信息增益和χ 2 统计量是朴素贝叶斯文本分类较好的特征选择方法。

关键词文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择

I
Abstract
Abstract
Since the technology puter work appeared, it had been developed very
rapidly. Network has ing one of the most mainly-used information source. Because
most of the information in work is text data type, automatic text categorization which is
the important basic of anization and management text data has e an
important study field. Naive Bayes classification method is based on the Bayesian theory,
which is accepted as simple and effective probability classification method and has e
one of the important contents in the text categorization.
Firstly, the paper studies key technologies of the text categorization that includes
Chinese text segmentation, representation of text vector and feature weighting. After that,
Naive Bayes text classification model and the affect of feature selection method on
performance of Naive Bayes text classification is studied. At last, java on MyEclipse to
realize Chinese text categorization system based on Naive Bayes method is plished.
This paper mainly analyzes Multi-variate Bernoulli Model and Multinomial Model. By
experiment, the effect of Multinomial Model is better than Multi-variate Bernoulli Model in
the Chinese text categorization. In order to increase classification accuracy,smoothing factor
of Multinomial Model is improved. The exper

最近更新

2025年度城市排水系统改造包清工承包合同模板.. 9页

2025年度地铁枢纽地下车位租赁专项合同 8页

2025年度土方车辆运输合同(含冷链运输服务).. 8页

2025年度土地储备中心土地委托管理合同 8页

2025年度国际医疗器械展览会承办合同 9页

2025年度回迁房项目配套教育资源引进及合作办.. 9页

2025年度商铺房屋租赁合同(附带租赁期间设施.. 7页

2025年度商品房租赁市场租赁保证金合同 7页

2025年度商业地产租赁合同(含租期调整机制).. 9页

2025年度员工租赁住房安全管理及责任协议 8页

2025年度同股不同权股东协议范本:创业公司股.. 7页

2025年度合同审查与合规性审查要点解析 7页

2025年度合伙人解除合同协议书:关于Z公司业务.. 7页

2025年度变压器安装与智能化监控系统集成合同.. 9页

2025年度原木木材环保认证收购合同 9页

2025年度卫浴行业品牌营销与推广合同 8页

2025年度医院药品配送与患者用药指导服务合同.. 9页

2025年度医疗诊所与保险公司合作开展健康管理.. 9页

2025年度医疗器械注册与审批代理服务协议 9页

2025年度劳动合同规范文本(人力资源培训师).. 8页

2025年度劳务借工人员技能培训协议范文 8页

2025年度办公室装修及室内空气净化合同 9页

2025年度分钟学会合同封面制作与印刷一体化服.. 8页

2025年度出租房安全免责协议范本(租赁期间房.. 8页

2025年度农村山里墓地买卖及使用权转让协议书.. 9页

2025年度农村别墅建设与乡村旅游教育培训合同.. 9页

专题3.5直线与圆的位置关系(6个考点)[含答案.. 50页

2025年应急交通工程装备项目发展计划 57页

中药燥湿化痰机制的分子机理研究-全面剖析 26页

高校教师发展(教师培训) 77页