成欢阁在线播放,国产搞逼视频,美女网站色在线观看,yw在线观看,九九在线,少妇人妻一级A毛片,国产免费理论片,mv国产剧苏语棠

大家好，歡迎來(lái)到 Crossin的編程教室！

今天給大家推薦一款提升數(shù)據(jù)分析代碼效率的工具：Dask

1、什么是Dask？

Pandas和Numpy大家都不陌生了，代碼運(yùn)行后數(shù)據(jù)都加載到RAM中，如果數(shù)據(jù)集特別大，我們就會(huì)看到內(nèi)存飆升。但有時(shí)要處理的數(shù)據(jù)并不適合RAM，這時(shí)候Dask來(lái)了。

Dask是開(kāi)源免費(fèi)的。它是與其他社區(qū)項(xiàng)目（如Numpy，Pandas和Scikit-Learn）協(xié)調(diào)開(kāi)發(fā)的。

官方：https://dask.org/

Dask支持Pandas的DataFrame和NumpyArray的數(shù)據(jù)結(jié)構(gòu)，并且既可在本地計(jì)算機(jī)上運(yùn)行，也可以擴(kuò)展到在集群上運(yùn)行。

基本上，只要編寫(xiě)一次代碼，使用普通的Pythonic語(yǔ)法，就可在本地運(yùn)行或部署到多節(jié)點(diǎn)集群上。這本身就是一個(gè)很牛逼的功能了，但這還不是最牛逼的。

我覺(jué)得Dask的最牛逼的功能是：它兼容大部分我們已經(jīng)在用的工具，并且只需改動(dòng)少量的代碼，就可以利用自己筆記本電腦上已有的處理能力并行運(yùn)行代碼。而并行處理數(shù)據(jù)就意味著更少的執(zhí)行時(shí)間，更少的等待時(shí)間和更多的分析時(shí)間。

下面這個(gè)就是Dask進(jìn)行數(shù)據(jù)處理的大致流程。

2、Dask支持哪些現(xiàn)有工具？

這一點(diǎn)也是我比較看中的，因?yàn)镈ask可以與Python數(shù)據(jù)處理和建模的庫(kù)包兼容，沿用庫(kù)包的API，這對(duì)于Python使用者來(lái)說(shuō)學(xué)習(xí)成本是極低的。而像Hadoop、Spark這種大數(shù)據(jù)處理是有很高的學(xué)習(xí)門(mén)檻和時(shí)間成本的。

目前，Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等，光是這幾項(xiàng)我覺(jué)得就足夠用了，至少對(duì)于常用的數(shù)據(jù)處理、建模分析是完全覆蓋得掉的。

5、總結(jié)

以上就是Dask的簡(jiǎn)單介紹，Dask的功能是非常強(qiáng)大的，且說(shuō)明文檔也非常全，既有示例又有解釋。感興趣的朋友可以自行去官網(wǎng)或者GitHub學(xué)習(xí)，之后也會(huì)分享使用Dask進(jìn)行機(jī)器學(xué)習(xí)的一些實(shí)例。

如果文章對(duì)你有幫助，歡迎轉(zhuǎn)發(fā)/點(diǎn)贊/收藏~

作者：東哥起飛

來(lái)源：Python數(shù)據(jù)科學(xué)

_往期文章推薦_

8個(gè)提升Python數(shù)據(jù)分析效率的代碼技巧

如需了解付費(fèi)精品課程及教學(xué)答疑服務(wù)

請(qǐng)?jiān)?strong style="max-width: 100%;overflow-wrap: break-word !important;box-sizing: border-box !important;">Crossin的編程教室內(nèi)回復(fù): 666

安利一個(gè)提升python數(shù)據(jù)分析效率的神器