文档介绍:躲不开的大数据
提起大数据,很多人都有一个误解,过去我们认为,随着人类信息记录技术和传输技术的发达,以及成本越来越低,我们的数据记录就从一些小数据慢慢变成一个巨大的数据包,大数据是这样吗?错!大数据的本质不在于它的大,而在于它的全!我们是通过多维的、多角度的记录一个世界,或者一个人的真相和行为轨迹,我们来判断它原本的本来面目。
很多人一提大数据,就把它当做一个高大上的事物来对待,其实所谓的大数据,更多的是一种理念,今天,我就将我对大数据的理解和大家做一个分享。(1’02”)
【Part 1】
大数据有一个关键词,叫做“交叉复现”,或者叫做“交叉复用”。什么意思呢?我举一个例子。
在时装界有个大品牌叫Prada,它在纽约的旗舰店最近几年就搞了一个小改革,每一件衣服上都有一个芯片,当这件衣服被拿到试衣室的时候,试衣室有一个记录仪,就记录一次,说明这件衣服进过试衣室,但这件衣服是不是被买了,这个探测器不管。过去的所谓的商业数据就是进、销、存,我进货多少、销出去多少、库存有多少,它只记录这些信息,这叫大数据吗?这不叫大数据,因为它虽然数据量非常大,但是它记录的是一个单维信息,可是当Prada做了这个小实验,虽然只记录一个并不太大的一个数据规模,但是由于它角度变了,于是大数据的规模就突然一下出来了,大家想啊,原来
Prada只能知道我哪件衣服好销,但是有一类衣服是这样的,大家一看很喜欢,摘下来到试衣间试,试完了之后,因为某种缺陷,大家把它撂下了,没买,所以当这两个数据,就是柜台边的销售数据和试衣间里面的试衣数据,两个一碰,Prada就能找出一些衣服的地款型,它们很好看,第一感觉很好,但是卖不掉,一定是因为有什么缺陷,把这个缺陷改进完了,等于Prada就马上多了几款热销的品种,所以在商业上,这样多维的交叉复现就这样用起来了。(2‘07”)
再比如说,互联网金融,虽然现在学术界对其争论非常多,但它一定是一种先进的方式,因为它正在用大数据的方法,一点一点地去逼近在传统社会中要用极高的成本去解决的一个问题,就是信用差别。传统的银行要决定给一个贷款客户办理贷款业务,这得下多少功夫啊!这得老师傅带一个团队,做各种各样的调查,最后发现信用不错,我们放心把钱借给你。可是在互联网时代,所有的信用判别,要用大数据的方法,它的成本会低到不像话,比如一家互联网金融公司,他做P2P的贷款,你要找这家公司贷款,它只要你填一个简单的表格就行了:姓名、住址、电话号码、你的单位、你的工资卡的卡号,就是证明有人正常给你发工资,你有基本的信用记录,就行了!你申请贷款几万、几十万,就这么给你了!那你说这不是不负责任嘛?对,在传统社会看来,这就叫不负责任,但在大数据时代来看,未必如此。他可以通过多个信息、通过交叉复现得知你很多东西,比如说你的住址,这是不是一个好的小区,你住不住得起好房子?那你说我填一个假地址行不行?不行的!大数据交叉验证,它可以到你微博上看呀,看你微博在哪儿发,因为发微博,最多的可能性一个是家、一个是单位,你如果有单位,因为你有工资卡,对不对?那另外一个点,发微博最多应该就是你家,那你常住的地址和你填的这个地址是不是吻合,这就是交叉去验证。然后再比如说,它能够知道你每个月交的电费,它就知道你家里的电器的使用量,这基本上也可以衡量出一个人的生活水平和收入水平。再比如说,它