1 / 108
文档名称:

运动神经元病的临床、神经电生理与基础研究.pdf

格式:pdf   页数:108
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

运动神经元病的临床、神经电生理与基础研究.pdf

上传人:banana 2014/1/22 文件大小:0 KB

下载得到文件列表

运动神经元病的临床、神经电生理与基础研究.pdf

文档介绍

文档介绍:西安建筑科技大学硕士论文
数据挖掘中海量数据处理算法的研究与实现
专业:计算机软件与理论
硕士生:苗苗苗
指导教师:王玉英副教授
摘要
数据挖掘就是从大量的数据中提取出有用的、有价值的信息或者人们所感兴
趣的知识的一种处理过程。但是随着不断迅速发展的信息互联网和数据库技术,
已经迫使海量数据的处理成为数据挖掘领域所要解决的一个重要课题。
本文以“电信数据挖掘系统的设计与开发”的项目为研究背景,通过对海量数
据处理技术的研究,提出了使用内存映射文件技术对海量数据进行初步处理的方
法;通过对海量数据挖掘算法及粒计算理论知识的研究,本文提出了两种数据挖
掘算法:一种是基于矩阵压缩的 Apriroi 算法(MC-Apriori),这种算法是在经典
Apriori 算法基础上的改进,把事务数据转化为 0-1 矩阵,并按照 Apriori 性质及其
推论对矩阵进行反复压缩,进而得到各项频繁项集,此算法也在一定程度上减少
了数据规模及其计算量;一种是基于粒计算的关联规则挖掘算法(Grc-AR),此
算法是在 MC-Apriori 算法的基础上引入粒计算的思想,把海量数据集划分成若干
个小数据集,然后对各个小数据集进行操作,并对结果进行整合,得到最终结果。
本文以某市移动用户的通话记录为数据样本,分别实现了这两种算法,并对实验
结果进行了分析与比较。
实验结果证明这两种算法均没有失去算法的有效性,但在实际处理海量数据
时,Grc-AR 更适合处理海量数据集,算法的可伸缩性好。最后并从海量的电信数
据集中,提取出了一些有价值的信息,给电信运营商提供了决策支持。
关键词:数据挖掘;海量数据处理;MC-Apriori 算法;粒计算;Grc-AR 算法
西安建筑科技大学硕士论文

The Research and Implementation of the Algorithms of
Massive Data Processing In Data Mining

Specialized Subject: Computer software and theory
Master: Miao Miaomiao
Tutor: Associate Prof. Wang Yuying
Abstract
Data Mining is a process to extract interesting and useful knowledge from data
following the development of and database technology, processing
huge data sets has been an important topic in data mining.
The paper takes the project of "the design and development of munications
data mining system "as research background. With the research of massive data
processing technology, the paper put forward a way of deal with massive data using
memory-mapped file. Through the research of massive data mining algorithms and
theoretical knowledge of puting, this paper presented two kinds of data
mining algorithms: one is based on pression Apriroi algorithm
(MC-Apriori).The algorithm is the improvement of classic Apriori algorithm, it made
transactional data into 0-1 matrix and pression matrix in accordance with
the Apriori nature and its corollary, and then get the frequent itemsets,this algorithm is
also to some extent reduced the data size putation. The oth