文档介绍:江�┐笄�编号—����—���硕士学位论文增量式��腤�文本分类研究��亟±�来弁视τ米部��】全生曼旦论文答辩日期�】至笙鱼旦申请学位级别专业名称论文提交日期学位授予单位和日期江苤太堂��月������答辩委员会主席评阅人�����������分类号�筶��圣鲤垒:窆坌珏密级’
学位论文版权使用授权书\哗则裂溅学位论文作者签名:了主绎沙,纱年本学位论文属于不保密吖刎��月,�铡�江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊�馀贪�电子杂志社有权保留本人所送交学位论文的复印件和电本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊�馀贪�电子杂志社将询。论文的公布��ǹ��授权江苏大学研究生处办理。指导教师签名:
醐:硎啤易月��独创性声明�骶�本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己注明引用的内容以外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:�√
要摘文本特征向量存在相关性大,维数高的特点。支持向量机对于特征相关性问题不敏感,处理高维度问题具有较大优势。��喜坏ù嬖诤A课谋拘畔ⅲ���更新速度很快。经典支持向量机难以有效处理大规模并且实时更新的训练集,因此进行有效的基于支持向量机的��谋驹隽垦�熬哂兄匾5氖导始壑怠�现有的基于支持向量机的增量式��谋痉掷嗨惴ㄖ饕4嬖谙铝形侍猓��由于缺乏对整个训练集期望风险的控制,算法易于对训练集产生过量匹配,同时随着增量学习的进行,容易导致支持向量冗余;��孀旁隽垦盗芳�牟欢霞尤耄�可能导致支持向量机的不平衡分类问题;��С窒蛄炕�饕J钦攵粤嚼喾掷辔�题,然而��谋痉掷嗟氖导视τ茫�枰=饩龆嗬喾掷辔侍猓�虼巳绾胃咝У�将两类分类问题推广到多类分类问题成为一个亟待解决的问题。本文贡献如下:��岢隽艘恢只�谥С窒蛄炕�腤�文本的快速增量分类的��甋�算法。将增量训练集中不违反��跫�腤曲文本特征向量剪除,克服了��文本训练集规模巨大,造成支持向量机训练效率低的缺点。通过计算支持向量集的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中,不断加入新文本特征向量而导致增量学习的训练时间消耗加大,分类效率下降的问题。实验结果表明与经典增量支持向量机相比,其分类精度保持在�%,而其分类器的训练和分类效率提高了一倍。��岢隽嗽隽渴嚼嗉尤ㄖС窒蛄炕�牟痪�釽�文本分类的���算法。增量训练集中,违背��跫�奈谋咎卣飨蛄拷ū患尤氲鼻把盗芳�H欢��加入新的��谋咎卣飨蛄靠赡艿贾虏黄胶夥掷辔侍狻U攵哉飧鑫侍猓�岢龆�于不同类别的��谋咎卣飨蛄考右圆煌�啾鹑ㄖ担�⑼ü�W尤核惴ㄈ范ǜ�权值,以克服不同类别的文本特征向量数目差异而对分类产生的不利影响。实验结果表明在不均衡训练集下,�二��惴ňǘ仍���%.�.�ブ�洌��捎镁�典支持向量机的分类精度仅为�.����%。��岢隽嘶�贒���途霾呤鞯亩嗬郬�文本分类的�.��惴ā�针对二叉树的多类支持向量机的��谋痉掷嗨惴ㄖ校��诶嗉渚嗬氲亩�媸�生成算法没有充分考虑类内分布的影响,导致“误差积累�窒螅�岢隽艘恢旨�江苏大学硕士学位论文
顾类间距离和类内分布的相似性度量方法,以构建更加合理的二叉树。实验结果表明在多类��谋痉掷嘀校�ü�孟嗨贫榷攘糠椒ㄐ纬傻幕�诙�媸鞯亩嗬�支持向量机的分类精度提高了�%左右。关键词:文本分类,增量学习,��跫��С窒蛄浚�尤ㄖС窒蛄炕�江苏大学硕士学位论文
曲����������������:������;����������������������,�������痵�����瓻������������瓵����������瓾�������瓼�����琲�����,�����.��������猚����琩���%,���江苏大学硕士学位论文��瓺���������琒�����甌�����.�
.������—��江苏大学硕士学位论文�������������瑆������瑆����.�ヒ���%,����.�ィ���%.����.�����������琲���������甌����.���������猚������,���%.�������,��������,��”������簍�������,���������������.
目录第四章��隽垦�暗腤�文本不平衡分类算法⋯。第二章基