1 / 10
文档名称:

大数据的来源与数据采集方法.ppt

格式:ppt   页数:10页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据的来源与数据采集方法.ppt

上传人:yzhlyb 2016/6/4 文件大小:0 KB

下载得到文件列表

大数据的来源与数据采集方法.ppt

文档介绍

文档介绍:大数据的来源社交媒体如微博、微信、人人网、 facebook 等, 通过这些大众常用的社交平台,可以分析用户平时在这些社交媒体上的行为动向,归纳出用户的喜好或关注点, 这些能够为企业挖掘用户需求提供重要依据。越来越多的机器配备了连续测量和报告运行情况的装置。这些机器传感数据也属于大数据的范围。一些视频、音频设备等产生的数据如一些大型超市,通过监控器观察消费者在超市购物的整个流程,从而对商品进行合理摆放, 促进对某些商品的间接促销。企业内部本身的一些行业数据等等。大数据的数据采集方法系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如 Hadoop 的Chukwa , Cloudera 的Flume ,Facebook 的Scribe 等,这些工具均采用分布式架构,能满足每秒数百 MB 的日志数据采集和传输需求。网络数据采集方法:对非结构化数据的采集网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用 DPI 或DFI 等带宽管理技术进行处理。其他数据采集方法对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。谢谢观赏 thankyou 9 .1 5