文档介绍::..空气质量分类研究0引言城市空气质量与人类身体健康密切相关,空气小的FM5>FMo>sq、g等对呼吸道疾病、心血管疾病都有显著影响。随着人们生活水平的不断提高。当今屮国工业不断发展,环境问题成为人们关注的焦点,环境人气污染成为影响人类健康的一个主要环境风险。因此,依据大气污染指标值预测城市空气质虽级别,对政府及相关部门出台相对应的环境政策及釆取和应的环境保护措施有重要意义。支持向量机(SVM,SupportVectorMachine)是山Vapnik提出的一*中建立在统计学习理论基础上的机器学习算法。由于它能够在很大程度上克服“维数灾难”和“过学习”等缺点,特别适合用来解决小样木、非线性和高维模型式识别的分类预测问题。标准的支持向量机学习算法可以归结为求解一个受约束的二次型规划(QuadraticProgramming,QP)问题,但是随着训练数据集规模增人,将出现训练速度慢、效率降低、算法复杂等问题。通常的解决方法是化繁为简,训练算法按照某种迭代策略(例如支持向量机结合决策树),将原有大规模QP问题分解成一系列小的QP问题,然后反复求解小的QP问题,由小的QP问题的解构造岀原有人规模QP问题的近似解,并使该近似解逐渐收敛到最优解。当前各类训练算法所面临的主要困难时如何对人规模的QP问题进行分解,以及如何选择合适的工作集是当前训练算法所面临的困难,也是各个算法优劣Z所在。本文尝试使用SVM和哈夫曼树解决上述问题。通过构建一种基于支持支持向量机和决策树的多分类器,将一个大的多分类问题分解成多个小的2分类问题,然后利川2分类SVM一一解决,最终解决搜索所带来的多分类问题。决策树的每个非叶了节点是一个2分类SVM分类器,叶子节点对应所冇类别,分类路径到达叶子节点,表明木次分类结束。本文提出训练模型的构造过程是口下而上的,以此构造的分类模型具有减少错误积累、避免局部最优解、平衡错误和分类速度快等优点。,能处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,可推广到预测和综合评价等领域的分类原理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,•对于线性町分•给定i川练样本集(曲・”•)“=•…,仁*wRj{±1(.超平面记作(w・x)+/>=()•为便分类面对所冇样本正确分类并且具备分类问隔•就妥求它满足约束(w•x)+bM1d= ・(1)可以计算出分类间隔为・因此构造瑕优超平IIwII向的问题就转化为在约束式下求为了解决这个约束最优化问题•弓I入Lagrange函数来实现对偶变尿的优化求解•最终得到最优分类超平[了li(H**•X)+/?'=0・其屮W•是垠优权(ft向凰•厂足最优佩置•而最优分类函数为(fx)=sgn{(wxx)+b}=.对于线性不可分情况,,:x—旅x)以特征向量旅X).代替输入向量x,则可以得到最优分类函数为"(fx)=sgn(w-^(x)