文档介绍：朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
 
贝叶斯准则:
使用朴素贝叶斯进行文档分类
 
朴素贝叶斯的一般过程
(1)收集数据:可以使用任何方法。本文使用RSS源
(2)准备数据:需要数值型或者布尔型数据
(3)分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好
(4)训练算法:计算不同的独立特征的条件概率
(5)测试算法:计算错误率
(6)使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。
 
准备数据:从文本中构建词向量
 摘自机器学****实战。
[['my','dog','has','flea','problems','help','please'], 0
['maybe','not','take','him','to','dog','park','stupid'], 1
['my','dalmation','is','so','cute','I','love','him'], 0
['stop','posting','stupid','worthless','garbage'], 1
['mr','licks','ate','my','steak','how','to','stop','him'], 0
['quit','buying','worthless','dog','food','stupid']] 1
以上是六句话,标记是0句子的表示正常句,标记是1句子的表示为***。我们通过分析每个句子中的每个词,在***句或是正常句出现的概率,可以找出那些词是***。
:
[python] view plaincopy
# coding=utf-8  
  
def loadDataSet():  
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],  
    ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],  
    ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],  
    ['stop', 'posting', 'stupid', 'worthless', 'garbage'],  
    ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],  
    ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]  
    classVec = [0, 1, 0, 1, 0, 1]  # 1代表侮辱性文字,0代表正常言论  
    return postingList, classVec  
  
def createVocabList(dataSet):  
    v