专栏名称: 编程派
Python程序员都在看的公众号,跟着编程派一起学习Python,看最新国外教程和资源!
目录
相关文章推荐
Python爱好者社区  ·  64k!确实可以封神了! ·  2 天前  
Python爱好者社区  ·  近4年不租房睡车里省10万元!41岁程序员回 ... ·  昨天  
Python爱好者社区  ·  强的离谱!CNN,yyds ·  昨天  
Python开发者  ·  外网热议:为什么 DeepSeek ... ·  14 小时前  
51好读  ›  专栏  ›  编程派

安利一个Python大数据分析神器!

编程派  · 公众号  · Python  · 2020-11-18 11:40

正文

请到「今天看啥」查看全文


并行处理数据就意味着更少的执行时间,更少的等待时间和更多的分析时间。
下面这个就是Dask进行数据处理的大致流程。

2、Dask支持哪些现有工具?
这一点也是我比较看中的,因为Dask可以与Python数据处理和建模的库包兼容,沿用库包的API,这对于Python使用者来说学习成本是极低的。而像Hadoop、Spark这种大数据处理是有很高的学习门槛和时间成本的。
目前,Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等,光是这几项我觉得就足够用了,至少对于常用的数据处理、建模分析是完全覆盖得掉的。

3、Dask安装
可以使 用 conda 或者 pip, 或从源代码 安装dask
conda install dask
因为dask有很多依赖,所以为了快速安装也可用下面代码, 将安装运行Dask所需的最少依赖关系集
conda install dask-core
再有就是通过源来安装。
git clone https://github.com/dask/dask.git
cd dask
python -m pip install .
4、Dask如何使用?
Numpy、pandas
Dask引入了3个并行集合,它们可以存储大于RAM的数据,这些集合有 DataFrame、Bags、Arrays 。这些集合类型中的每一个都能够使用在RAM和硬盘之间分区的数据,以及分布在群集中多个节点上的数据。






请到「今天看啥」查看全文