1 / 10
文档名称:

加快Python算法的四个方法Dask.docx

格式:docx   大小:225KB   页数:10页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

加快Python算法的四个方法Dask.docx

上传人:jiyudian11 2022/5/15 文件大小:225 KB

下载得到文件列表

加快Python算法的四个方法Dask.docx

文档介绍

文档介绍:加快Python算法的四个方法(四)Dask
mm
J
相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不 已,接下来我们围绕四个方法来帮助大家加快一下Python的计算时间,减少大家在算法上的供每月数据(可以来自diff文件)
与Dask Arrays相似,Dask DataFrameS通过将文件划分为块并将这些块的计算函数并行化,从 而对不适合内存非常大的数据文件进行并行计算。
import as dd
df = ("BigFile(s).csv", blocksize=50e6)
现在,你可以应用/使用pandas库中可用的大多数功能,并在此处应用。
agg = (["column"]).aggregate(["sum", "mean", "max", "min"])
= new_column_names #请查看n otebook
df_new = ((), on="column", how="left")
().head()
c)Bag:
Dask Bag包并行处理包含多个数据类型元素Python的list相似对象。当你尝试处理一些半结 构化数据(例如JSON Blob或日志文件)时,此功能很有用。
import as db
b = ("")
(1)
Daskbag逐行读取,.take方法输出指定行数的元组。
Dask Bag在这样的Python对象集合上实现例如map,filter,fold,和groupby等操作。它使 用Python迭代器并行地完成这个任务,占用的内存很小。它类似于PyToolz的并行版本或 PySpark RDD 的 Python 版本。
filtered = (lambda x: x["Name"]=="James")\
.map(lambda x: x["Address"] = "New_Address")
()
延时
如果你的任务有点简单,并且你不能或不想使用这些高级集合来执行操作,则可以使用低级调 度程序,。 迟计算。
import as delay
***@delay
def sq(x):
return x**2
***@delay def add(x, y):
return x+y
***@delay
def sum(arr):
sum=0
for i in range(len(arr)): sum+=arr[i]
return sum
你可以根据需要在这些函数之间添加复杂的交互,使用上一个任务的结果作为下一个任务的参 数。Dask不会立即计算这些函数,而是会为你的任务绘制图形,有效地合并你使用的函数之间 的交互。
inputs = list((1,11))#