1 / 112
文档名称:

基于文本的数据挖掘论文.doc

格式:doc   页数:112页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

基于文本的数据挖掘论文.doc

上传人:小泥巴 2015/11/7 文件大小:0 KB

下载得到文件列表

基于文本的数据挖掘论文.doc

文档介绍

文档介绍:目录
第一部分基于文本的数据挖掘 1
第一章绪论 1
1
1
2
第二章基于支持向量机理论的分类机设计 2
3
3
4
9
第三章支持向量分类器的具体编程实现 12
12
12
15
第四章程序运行结果和结果分析 23
23
23
30
第五章论文结论 31
31
33
参考文献 34
代码 36
外文资料 45
中文译文 56
第二部分论文 67
第一章基于支持向量机算法和其他算法在文本分类中的性能比较 67
1 支持向量机的基本思想和算法 67
2 支持向量机算法和其他算法的性能比较 71
3 支持向量机的优缺点 73
参考文献 74
第二章 Bifurcations of a Homogenous Diffusive 74
Introduction 75
1. Steady state bifurcation 77
2. Conclusion 82
References 83
第三章基于主题和文档的文本文摘构件库 83
1 文本摘要的意义及该领域技术发展现状 84
2 文本摘要的技术分析方法 85
3 Luhn、LSA摘要算法实现 85
4 性能评价 90
参考文献 91
第四章基于web的实验室管理系统设计与开发 93
1 引言 93
2 系统设计 94
3 实验室管理系统的分析 98
4 实验室管理系统的实现 100
参考文献 103
第五章人工神经网络的发展及应用 104
1人工神经网络的发展 105
2 人工神经网络的特性 107
3 人工神经网络的应用 107
参考文献 108
第六章对人工神经网络的初步认识 108
1 人工神经元模型的提出 108
2 神经元的结构及模型 108
3 人工神经网络的特点 109
4 人工神经网络计算机与传统计算机的比较 110
第一部分基于文本的数据挖掘
第一章绪论

对数据的分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。因此在科学技术、工农业生产以及工商业领域,数据分类、文本分类都起着至关重要的作用,例如人类基因序列的识别、电子商务、图书的分类、搜索引擎、动植物的分类等。同时,随着计算机技术的飞速发展,人们现在可以利用计算机自动的或者辅以少量的人工帮助,对大量的数据进行快速、准确的分类,人们称这种自动(半自动)的分类方法为分类器。近年来, 的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的网络文本库不断涌现。为了便于在海量文本库中搜寻、过滤、管理这些文本,基于人工智能技术的文本自动分类方法成为人们研究的焦点。机器学****中所谓的文本分类,即是对所给出的文本,给出预定义的一个或多个类别标号。
按文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动分类和基于信息过滤和用户兴趣的自动分类。基于分类体系的分类一般要经过特征提取、文本表示、分类模型训练和分类几个步骤。基于信息过滤(Information Filtering)的自动分类的目的是为用户自动过滤掉那些用户所不感兴趣的信息从而为用户提供个性化服务,节省用户时间。
文本分类作为组织和管理数据的一种有力手段,可以被应用于抽取符号知识、发布新闻、过滤电子邮件、学****用户兴趣从而个性化网页服务等方面。目前常用的文本分类器有K-最近邻分类器(K-NN Classifier), NaïveBayes 分类器和支持向量机分类器(Support Vector Machines Classifier)等。

文本分类是文本挖掘(Text Mining)[19]的一个重要应用方面。文本挖掘是由数据挖掘衍生而来的。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。因此,数据挖掘也体现在对一些事实或观察数据的集合中寻找模式并提出决策支持的过程。
预处理后数据
选择善而从择择择
预处理
转换
挖掘
分析和同化
 
被转换的数据
被选择的数据
逻辑数据库
被同化的知识
被抽取的信息
 
 
 
 
 
图1-1 数据挖掘流