文档介绍：: .
问题描述用高效朴素贝叶斯算法对Web新闻文本进行分类模型的设计算法结构根据贝叶斯原理可以
我们要: .
问题描述用高效朴素贝叶斯算法对Web新闻文本进行分类模型的设计算法结构根据贝叶斯原理可以
我们要判别一个文本的类别，就要计算出该文本属于各类别条件概率,得出：
p(c|di)』di!：)p(Ci)p(di)()然后比较各类别条件概率大小，选择类别条件概率最大者为该文本分类，如下c=max{p(G}|dj}()而要计算出p(G|di)，先要先验概率p(di|G),其计算方法如下:
先将di展开其变成由一个由词语为单位组成的词组向量，即di={W!,W2,W3…,Wn,}，然后得出:
np(di|c)=P(W1,W2,W3,...,Wn|(Wi|Wi)
()而p(c)则是训练样本各类别文本数量与训练样本总数之比，计算公式如下:
,、amount(ci)p(Ci)=—w()至于p(di)它是表示每篇训练文档出现的概率，因为都一样，所以在实际计算时可以不用考虑。
所以实际计算p(c|d)的公式可以估算为n
p(Ci|d)：T丨p(Wi|Ci)p(Ci)\=1
()由式()可知p(c|d^p(w-!|ci)p(w2|ci)p(wn|G)p(cJ，然而
P(W1|Ci)p(W2|c)P(W.|c.)这样多个小数连续相乘最后的结果会非常小导致出现下溢问题，令计算结果无效。为解决这个问题，我们在使用式()计算p(ci|d)时需要做一些数学转换来防止出现这个数值下溢问题，，如下：
nln(p(Ci|d))：i〕In(p(w|Ci))ln(p(cj)()i=1
特征提取本文将采用jieba分词模块来对文本进行分词及提取有代表性的关键词作为特征，jieba分词模块自带的词库中包含着每个词的词频(TF)及反文档频率(IDF)，每个词的TF值，IDF值均由原作者通过大量文本训练统计出来的，所以具有一般性，使用该方法得到的关键词用人工标准来判断能反映出文本主题。当使用jieba分词模块的提取关键词功能时，它会对在对文本进行分词的同时会利用每个词的TF值及IDF值计算出每个词的权重(Weight=TF*IDF)，然后根据权重大小对词进行排序，至于返回前多少歌词则由用户设定。另外，在使用提取特征词功能的时候还能去除标点符号及对文本主题无意义的停用词。根据jieba分词模块提取关键词的方法可知，它直接可以对单个文本提取关键词，利用这个特点，在对待分类文本也作关键词提取处理，只保留当中有代表性的关键词，这样既能大大减少生成词向量的时间又能提高分类准确率。
设计算法采用朴素贝叶斯算法作为文本分类算法时，因其每个特征出现概率相互独立且每个特征重要程度相等的假设，所以选择一种高效的特征选择方法显得尤为重要。本文运用jieba中文分词模块的TF-IDF标准对训练新闻文本进行特征选择