1 / 3
文档名称:

朴素贝叶斯算法.docx

格式:docx   大小:18KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

朴素贝叶斯算法.docx

上传人:kunpengchaoyue 2022/9/29 文件大小:18 KB

下载得到文件列表

朴素贝叶斯算法.docx

文档介绍

文档介绍:该【朴素贝叶斯算法 】是由【kunpengchaoyue】上传分享,文档一共【3】页,该文档可以免费在线阅读,需要了解更多关于【朴素贝叶斯算法 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。
用高效朴素贝叶斯算法对Web新闻文本进行分类模型的设计
算法结构
我们要判别一个文本的类别,就要计算出该文本属于各类别条件概率,根据贝叶斯原理可以得出:
p(cId)=
ii
p(d|c)p(c)
iii—
P(d)
i
)
然后比较各类别条件概率大小,选择类别条件概率最大者为该文本分类,如下
)
c=max{p(c}|d)}
ii
而要计算出p(cId),先要先验概率p(dIc),其计算方法如下:
iiii
先将d展开其变成由一个由词语为单位组成的词组向量,即d={w,w,ww,},然后ii123n
得出:
p(dIc)=p(w,w,w,..
ii123
.,wIc)=
ni
np(wiw)
ii
)
i=1
而p(c)则是训练样本各类别文本数量与训练样本总数之比,计算公式如下:i
)
amount(c)
p(c)=1
iICI
至于p(d)它是表示每篇训练文档出现的概率,因为都一样,所以在实际计算时可以不用考i
虑。
所以实际计算p(cId)的公式可以估算为
i
p(cId)xnp(wIc)p(c)()
iiii
i=1
由式()可知p(cId)xp(wIc)p(wIc)p.(.)p(c),然而
i1i2inii
p(wIc)p(wIc)p(.)这样多个小数连续相乘最后的结果会非常小导致出现下溢
1i2ini
问题,令计算结果无效。为解决这个问题,)计算p(cId)时需要做一些数i
学转换来防止出现这个数值下溢问题,,如下:
ln(p(cId))xnln(p(wIc))+ln(p(c))()
iiii
i=1
特征提取
本文将采用jieba分词模块来对文本进行分词及提取有代表性的关键词作为特征,jieba分词模块自带的词库中包含着每个词的词频(TF)及反文档频率(IDF),每个词的TF值,IDF值均由原作者通过大量文本训练统计出来的,所以具有一般性,使用该方法得到的关键词用人工标准来判断能反映出文本主题。当使用jieba分词模块的提取关键词功能时,它会对在对文本进行分词的同时会利用每个词的TF值及IDF值计算出每个词的权重(Weight=TF*IDF),然后根据权重大小对词进行排序,至于返回前多少歌词则由用户设定。另外,在使用提取特征词功能的时候还能去除标点符号及对文本主题无意义的停用词。根据jieba分词模块提取关键词的方法可知,它直接可以对单个文本提取关键词,利用这个特点,在对待分类文本也作关键词提取处理,只保留当中有代表性的关键词,这样既能大大减少生成词向量的时间又能提高分类准确率。
设计算法采用朴素贝叶斯算法作为文本分类算法时,因其每个特征出现概率相互独立且每个特征重要程度相等的假设,所以选择一种高效的特征选择方法显得尤为重要。本文运用jieba中文分词模块的TF-IDF标准对训练新闻文本进行特征选择,实现一个基于朴素贝叶斯的文本分类模型。
训练算法
模型的训练是利用已转换为词向量的训练文本计算出每类文本的先验概率p(d|c),ii其计算过程的伪代码如下:
foreachdocument丘trainingdataset:
foreachclass丘trainingdataset:ifawordappear丘document:increasethecountforthewordforeachclass丘trainingdataset:foreachwordwdocument:dividedthecountofeachwordbytotalcountofwordstogetthepriorprobabilityreturnthepriorprobability
训练结果为四个由四类文本所包含的词在该类文本所出现的概率组成的长度为23368数组,如下:
军事类:[---…,--]财经类:[---...,--]体育类:[---...,--]社会类:[---...,--]注:因为各个词出现的概率都作了取自然对数的处理,所以均为负值。

表1
军事类新闻
财经类新闻
体育类新闻
社会类新闻
查全率
%
%
%
%
查准率
%
%
%
%
调和平均值
%
%
%
%
注:调和平均值=查全率X查准率X2/查全率+查准率。
表2
军事类新闻
财经类新闻
体育类新闻
社会类新闻
查全率
%
%
%
%
查准率
%
%
%
%
调和平均值
%
%
%
%
先对待分类文本进行关键词提取,每篇提取前20个权重最大的词,再转换成词向量,然后与模型训练计算出来的先验概率p(d|c)一起计算出文本属于每一类文本的概率ii
p(c|d),然后比较大小,选择概率最大的并判别文本属于哪个类别,输出类别标签。ii
实验测试结果如表1所示。
从实验结果可以看出,对待分类文本采用TF-IDF算法提取关键字后,再运用朴素贝叶斯算法对文本进行分类,各类新闻文本都取得不错的分类效果,尤其军事类与财经类新闻的查准率调和平均值都超过了99%。分类速度约为900篇/min。
如不对待分类文本进行关键词提取,直接利用模型进行分类,其测试结果如表2所示。从表2各指标来看均比表1有所下降,尤其是体育类新闻的查准率下降最为明显,%,不仅如此,又因生成词向量速度大大降低,其平均分类速度也大幅下降,只有89篇/min,下降了约90%。

最近更新

蝶鞍开口形态学特点与垂体瘤生长方式关系研究.. 2页

蚕丝文化符号对中华农耕社会集体意识的表达 2页

藏族低音运用及审美心理研究——以“佐盖”为.. 2页

蓝绿激光在海水绕流中的传输特性研究 2页

葛根素在肝纤维化大鼠体内药动学及药物相互作.. 2页

莫里斯·多布的经济史思想探析 2页

英语专业学生道歉言语行为的调查研究 2页

若干分子的低能量电子贴附解离动力学成像研究.. 2页

芳纶玻纤针刺毡的阻燃性能研究 2页

艺术学领域中的复杂性研究 2页

航空发动机用W形金属密封环特性研究 2页

自体与同种异体肌腱重建膝关节前十字韧带早期.. 2页

腹膜透析患者成纤维细胞生长因子23与骨代谢及.. 2页

脊髓NMDA受体在IBS慢性内脏痛敏及针刺对其疗效.. 2页

胰岛素抵抗与非酒精性脂肪性肝病内质网应激关.. 2页

胃癌中COL4α3和BTG3表达的临床病理意义及相关.. 2页

肾肉瘤样癌细胞系的建立和肾癌噬菌体展示肽库.. 2页

肝肾亏虚型卵巢储备功能下降的临床疗效研究 2页

肖邦第一叙事曲(NO.1OP.23)演奏分析与教学启示.. 2页

聚乙烯醇的熔融加工性能研究 2页

2024年户外游玩小常识 5页

2023年上海市宝山区友谊路街道宝山三村社区工.. 16页

高中地理教学案例 2页

夸人服务好的评语6篇 13页

拉杆孔处理标准工程施工方案 7页

英威腾GD100系列变频器产品说明书V1.6 92页

1 1 深圳市住房和建设局关于开展附着式升降脚.. 11页

各厂家FTU对比 19页

读者满意度调查问卷,小学生篇一:图书馆读者.. 12页

化学常识72154 10页