1 / 5
文档名称:

大数据呼唤数据集成新思维.doc

格式:doc   大小:105KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据呼唤数据集成新思维.doc

上传人:ying_zhiguo03 2016/11/21 文件大小:105 KB

下载得到文件列表

大数据呼唤数据集成新思维.doc

相关文档

文档介绍

文档介绍:1大数据呼唤数据集成新思维人类已经进入以数据为中心的时代,也即:“大数据”时代。在这个时代里,数以亿计的计算机和移动设备正在持续地创造着越来越多的数据。爆炸式增长的、结构化、非结构化数据创造着巨大的机遇,如何从如此庞大而复杂的数据中挖掘出企业需要的商业价值成为所有企业面临的挑战。大数据意味着包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。不管是大交互数据,还是大交易数据,处理分析非结构化数据一直以来都是数据处理的难点。数据集成作为挖掘数据价值的重要一步在整个数据分析中具有重要的作用。对于绝大多数企业而言,信息系统建设通常具有阶段性和分布性的特点,该特点不可避免的导致了“信息孤岛”现象的存在。“信息孤岛”就是指不同软件间,尤其是不同部门间的数据信息不能共享,造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,严重地阻碍了企业信息化建设的整体进程。为解决这一问题,人们开始关注数据集成研究。数据集成就是将若干个分散数据源中的数据,逻辑地或者物理地集成到一个统一的数据集合中。其核心任务是将相互关联的分布式异构数据源集成到一起,让用户以透明的方式访问这些数据源,以便消除信息孤岛现象。2数据集成市场正处于黄金时代著名信息技术研究咨询公司Gartner在其发布的“2013年数据集成工具魔力象限报告”中表示,对集成选项功能完整性的需求在快速上涨。随着数据碎片化程度的不断加剧,企业希望能够有一款灵活的产品,能够快速融入到现有的数据管理投资中,并提供更多的功能。数据集成可以满足人们不断增长的信息需求,使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,实现数据源的凝聚放大效应,形成以业务为驱动的动态数据价值链。大数据技术的发展为数据管理开辟了一条新的道路,这也为数据集成创造了新的机会。在这种情况下,数据集成就从传统的数据提取、转换和加载过程(ETL)变成了更加灵活的数据提取、加载和转换的方法(ELT)。在过去,ETL形式中的数据集成通常是“一个自包含过程”,它只是简单的专注于将干净、合并的数据从源系统迁移至目标数据仓库。但是,现在情况变得不同了,现在数据可以存在于任何地方,如果用户需要在另一个系统上使用,只要在需要的时候调用就可以了。Gartner认为,市场上对集数据集成、数据质量以及主数据管理于一体的工具需求在不断的增长。高质量的数据对于数据集成项目的成功具有关键的作用,而不关心数据质量的数据集成注定将会失败。除了与数据质量和主数据管理更好的集成以外,用户还希望工具能够支持更加广泛的数据集成风格与功能。3包括Hadoop等大数据技术,以及NoSQL数据库技术在内的技术对数据集成工具的开发都产生了重大影响。未来数据集成工具发展的重要方向就是支持分布式架构的集成。包括低成本,基于订阅模式的收费方法以及基于云在内的交付模式,也是未来数据集成市场的一个发展方向。多方挑战考验数据集成单纯地看,数据集成在现实应用中是一个非常简单的问题,也就是对多源数据进行清理和转换,然后将数据加载到适当的数据存储区中以便进行下一步的分析和处理。但是,事实却不是这么简单。数据集成面临着多方挑战。首先是技术方面的挑战。最具针对性的挑战包括:多种源和多种不同的格式;结构化、半结构化和非结构化数