文档介绍:如何借助海量舆情分析数据优化自身业务
在一家企业刚刚起步的时候,想要了解整个市场行情应该怎么做呢?我们没有原始数据的积累,只能依靠外部数据作为整体参考。理论都知道通过舆情大数据分析,但是具体的操作方法却实施起来还是有点难度。
今天就主要干货具体的操作方法。在讲方法前,我们先引出一个“外部数据”这一概念,尤其是“Open Data”这片“数据蓝海”,“他山之石,可以攻玉”,从海量的外部数据中获取可以对自身业务起到指导作用和借鉴意义的insight,借助外部环境数据来优化运营和产品设计。
下图是本文的行文脉络:
在谈及外部数据的重要性之前,让我们先简单的看一看数据分析的四种类型。
1. 四种常见的数据分析类型
按数据分析对于决策的价值高低和处理分析复杂程度,可将数据分析归为如下图所示的4种范式:
从上图可以看到,越远离坐标原点,沿坐标轴正向延伸,价值度就越高,分析处理的难度也就越大。对于数据分析师而言,“描述型分析”、“诊断型分析”和“预测型分析”最为常见,而“规范型分析”涉及比较高深的数据挖掘和机器学习知识,不是我们接下来讨论的重点。
描述型数据分析
描述型分析是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法,是上述四类中最为常见的数据分析类型。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性(如平均值、中位数和众数等)和离散型(反映数据的波动性大小,如方差、标准差等)。
诊断型数据分析
在描述型分析的基础上,数据分析师需要进一步的钻取和深入,细分到特定的时间维度和空间维度,依据数据的浅层表现和自身的历史累积经验来判断现象/问题出现的原因。
预测型数据分析
预测型数据分析利用各种高级统计学技术,包括利用预测模型,机器学习,数据挖掘等技术来分析当前和历史的数据,从而对未来或其他不确定的事件进行预测。
规范型数据分析
最具价值和处理复杂度的当属规范型分析。
规范型分析通过“已经发生什么”、“为什么发生”和“什么将发生”,也就是综合运用上述提及的描述型分析、诊断型分析和预测型分析,对潜在用户进行商品/服务推荐和决策支持。
2. 对外部数据中的分析很重要
经过上面对四种数据分析类型的描述,笔者认为现有的基于企业内部数据的数据分析实践存在如下几类特征:
大多数的数据分析仅停留在描述性数据分析上,未触及数据深层次的规律,没有最大限度的挖掘数据的潜在价值;
数据分析的对象以结构化的数值型数据为主,而对非结构化数据,尤其是文本类型的数据分析实践则较少;
对内部数据高度重视,如用户增长数据,销售数据,以及产品相关指标数据等,但没有和外部数据进行关联,导致分析的结果片面、孤立和失真,起不到问题诊断和决策支撑作用。
由此,我们必须对企业之外的外部数据引起重视,尤其是外部数据中的非结构化文本数据。
对于文本数据的重要性.
3. 外部数据的几种常见类型
外部数据是互联网时代的产物,随着移动互联时代的兴起,外部数据的增长呈现井喷的趋势。各个领域的外部数据从不同角度刻画了移动互联时代的商业社会,综合这些外部数据,才能俯瞰到一个“全息式”的互联网版图。
按互联网行业和领域的不同,外部数据包括且不限于:
阿里(淘宝和天猫):电商大数据
腾讯(微信和QQ):社交网络大数据
新浪(新浪微博和新浪博客):社交媒体大数据
脉脉:职场社交大数据
谷歌/百度:搜索大数据
优酷:影视播放大数据
今日头条:阅读兴趣大数据
酷云EYE:收视大数据
高德地图:POI大数据
4. 外部数据的获取/采集
随着互联网时代对于“Open Data(开放数据)”或“Data Sharing(共享数据)”的日益倡导,很多互联网巨头(部分)开放了它们所积累的外部数据;再者一些可以抓取网络数据的第三方应用和编程工具不断出现,使得我们可以以免费或付费的方式获得大量外部数据(在获得对方允许和涉及商业目的的情况下),最终的形式包括未加工的原始数据、系统化的数据产品和定制化的数据服务。
以下是一些常见的外部数据分析和采集工具:
指数查询
(1)百度指数
(2)微指数
(3)优酷指数
(4)谷歌趋势
(1)火车头
(2)Data Scraping
(3)八爪鱼
社会化媒体监测与分析平台
新浪舆情通
5. 外部数据分析的应用场景
最先对外部数据高度重视的先行者其实是政府机构,它们利用大数据舆情系统进行网络舆情的监测,但随着大数据时代的向前推进,外部数据的应用场景也越来越多,包括且不限如下方面: