文档介绍:数据分析师待遇数据分析:寻求Python最优计算性能
1、场景描述
在数据统计分析过程中,求累计值(总和)是最常见的统计指标之一,市面上的多种流行数据库均支持的查询方法基础以下:
select sum(c) from table_name;
当数据量在小规模时,sum只是一瞬间的事情,让你感觉电脑真牛逼啊,我掰手指头要算半天的数,它竟然能够这么快,下面是1万多条数据的字段求和,只用了8ms。
不过当数据量不停增加到一个量级时,比如说,先定个小目标:一亿条订单求总额,你能够尝试在常规的数据库上实施一样的语句需要多长时间。
在我的电脑上实施这么的查询,大约需要10s。
或更大的量级,十亿、百亿、万亿?你一秒钟给我算出来,哈哈,电脑也算懵逼了。
采取分布式存放、分布式计算,是现在处理大规模计算的通用方法,让你吃100个馒头,估量一礼拜也吃不完,做慈善,一人一个分给班里的同学,几分钟就没了,吃不完的那个放学别走。
2、举栗说明
今天我们不讲分布式计算,先看看怎样在单机上达成最优的计算性能。
以下的示例,用python语言模拟求1亿条订单金额的平均值。
大家注意:中国小学生以后的课程全部有python了,在未来编程是个基础技能。
首先用传统的For Loop方法
还是一亿条数据跑分
结果:
看来也不快啊,花了十几秒,python在没有特定优化的前提下,比Java,Go语言慢了不少。
内置 sum函数上场
不过我们知道python有内置的sum函数,是不是会快一点?让我们来试试:
结果:
不到十秒,快了一点点,但还是不理想。
神兵numpy
听说有个numpy库,能够向量化(vectorization)实施多种运算,牵到台上看看:
结果:
哎呀48毫秒,真心牛逼啊,足足快了几百倍,比Go、Java全部快,不信你能够自己写个Go语言的版本对比一下。
没完
听说还有个叫numba的,看简写nb也很NB,要不把刚才的那