文档介绍:。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。在搜索引擎中,文本分类主要有这些用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时候会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的url所属的类别来推断检索串的类别等等。,文档模型有3种:向量空间模型,布尔模型和概率模型,其中我们常用的是向量空间模型。向量空间模型的核心描述如下:p1EanqFDPw文档<Document):文本或文本中的片断<句子或段落)。特征项<Term):文档内容用它所包含的基本语言单位来表示,基本语言单位包括字、词、词组、短语、句子、段落等,统称为特征项。DXDiTa9E3d特征项权重<TermWeight):不同的特征项对于文档D的重要程度不同,用特征项Tk附加权重Wk来进行量化,文档D可表示为<T1,W1;T2,W2;…;Tn,Wn)RTCrpUDGiT向量空间模型<VectorSpaceModel):对文档进行简化表示,在忽略特征项之间的相关信息后,一个文本就可以用一个特征向量来表示,也就是特征项空间中的一个点;而一个文本集可以表示成一个矩阵,也就是特征项空间中的一些点的集合。5PCzVD7HxA相似度<Similarity):相似度Sim<D1,D2)用于度量两个文档D1和D2之间的内容相关程度。当文档被表示为文档空间的向量,就可以利用欧氏距离、内积距离或余弦距离等向量之间的距离计算公式来表示文档间的相似度。jLBHrnAILg其中特征选取是文本表示的关键,方法包括:文档频率法<DF)、信息增益法和互信息法等等。在做特征选取之前,一般还要进行预处理的工作,要对先对网页降噪。另外在实际的分类中,除了利用文档的内容特征之外,可能还会用到实际应用中所特有的特征,比如在网页分类中,可能用到url的特征、html的结构特征和标签特征等信息。xHAQX74J0X分类的基本步骤是这样的:定义分类体系,将预先分类过的文档作为训练集,从训练集中得出分类模型,然后用训练获得出的分类模型对其它文档加以分类。,技术上比较成熟的一个领域。目前分类算法主要分下面这些:其中比较常用的是:支持向量机<SVM)方法、朴素贝叶斯(NB>方法、神经网络<NN)方法、K近邻<KNN)方法、决策树<DecisionTree)方法等。Zzz6ZB2Ltk支持向量机<SupportVectorMachines,SVM)由Vapnik在1995年提出,用于解决二分类模式识别问题。它通过寻找支持向量来确定决策面,并使分类间隔最大。SVM方法提供了解决“维数灾难”问题的方法。SVM方法较好的理论基础和它在一些领域的应用中表现出来的优秀