1 / 63
文档名称:

面向互联网的中文问题分类技术研究-计算机科学与技术专业毕业论文.docx

格式:docx   大小:443KB   页数:63
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

面向互联网的中文问题分类技术研究-计算机科学与技术专业毕业论文.docx

上传人:wz_198613 2019/4/10 文件大小:443 KB

下载得到文件列表

面向互联网的中文问题分类技术研究-计算机科学与技术专业毕业论文.docx

相关文档

文档介绍

文档介绍:摘要随着信息加速膨胀,人们发现越来越难找到自己需要的信息。搜索引擎的诞生,在一定程度上缓解了这个矛盾。但是,搜索引擎返回的结果太多,而且有时候结果并不是用户所需要的。问答系统试图直接返回人们最关心的结果,可是现灾害处于实验室研究阶段。腾讯、百度、雅虎等著名互联网公司,推出一个在线问答系统,不过用户所提问题是由其他用户回答。人们浏览其他用户所提问题时,习惯按照一定的类别浏览,如何将用户所提的各种各样的问题自动分类,成为本文研究的重点。面向互联网的中文问题分类系统,是由语料构建、特征选择、权值计算和分类器等几个部分组成。在类别多,层次多,而且没有标准的训练与测试语料的情况下,如何保证较高的分类准确率,是整个系统的关键所在。腾讯公司提供问答对作为语料。在对该语料去除噪声和平衡处理后,作为训练和测试集。本文采用基于密度的聚类算法去除噪声,使用OverSample和UnderSmaple方法平衡语料。引入规则分类器解决一些类别召回率低的问题。由于类别多而细,采用层次分类方法,每层分类器相互独立。而层次分类有大类分错,小类一定分错的缺点。因此,层次分类器通过采用输出概率值,将各个层次的概率值加权相乘的方法,减少分类时因层次传递导致的错误。同时,根据用户特点,采用返回三个候选结果,供用户选择的方式,既可以提高分类的准确率,又可以便于用户浏览。实验表明,聚类算法有效地处理了不均衡数据集的样本噪声问题,OverSample和UnderSample方法的简单可行性。层次分类在解决多类别分类问题时有较好效果,推荐多个类别结果会极大地提高系统性能。关键词 问题分类;DBSCAN;规则分类;层次分类AbstractAstheinformationisdevelopingrapidly,,,,BaiduandYahoohavelaunchedanon-lineQAsystem,buttheuser'’question,ordingtoacategory,,featureselection,,andthereisnostandardcorpus,,DBSCANisusedtoidentifynoisesample,,,,hierarchicalclassifierdecreaseserrorsbymeansofoutputtingratevalueand