本周優(yōu)秀開源項(xiàng)目分享,Python ML的核心數(shù)據(jù)框、無模型中文 NLP 工具包 等7大開源項(xiàng)目
?vaex 適用于Python,ML的核心數(shù)據(jù)框
Vaex是一個高性能Python庫,用于懶惰的Out-of-Core DataFrame(類似于Pandas),以可視化和探索大型表格數(shù)據(jù)集。
它在N維網(wǎng)格上以每秒超過十億(10 ^ 9)的樣本/行計(jì)算統(tǒng)計(jì)數(shù)據(jù),例如平均值,總和,計(jì)數(shù),標(biāo)準(zhǔn)差等。
可視化使用直方圖,密度圖和3d體積渲染完成,從而允許交互式探索大數(shù)據(jù)。
Vaex使用內(nèi)存映射,零內(nèi)存復(fù)制策略和惰性計(jì)算來獲得最佳性能(不浪費(fèi)內(nèi)存)。
關(guān)鍵特性:
即時打開龐大數(shù)據(jù)文件(內(nèi)存映射)
核外數(shù)據(jù)框
快速分組/聚合
快速高效的合并
集成到Jupyter和Voila中以實(shí)現(xiàn)交互式筆記本和儀表板
項(xiàng)目地址:
https://github.com/vaexio/vaex/
?Semantic-Search 使用Transformers等進(jìn)行語義搜索
使用感知嵌入的簡單應(yīng)用程序可以將文檔投影到高維空間中,并使用余弦相似度找到大多數(shù)相似度。
目的是演示和比較模型。要進(jìn)行大規(guī)模部署,必須計(jì)算并保存文檔嵌入,以快速搜索和計(jì)算相似性。
第一次加載需要很長時間,因?yàn)樵搼?yīng)用程序?qū)⑾螺d所有模型。除了運(yùn)行6個模型外,即使在CPU中,推理時間也是可以接受的。

演示文本包含有關(guān)每個主題的4個句子:Apple,操作系統(tǒng),Java和Python。
可能會看到語義搜索效果很好,只過濾了有關(guān)特定查詢的文檔,即使查詢中文檔中沒有俗套的單詞也是如此。
項(xiàng)目地址:
https://github.com/renatoviolin/Semantic-Search
?JioNLP 無模型中文 NLP 工具包
JioNLP 是一個提供常用 NLP 功能的工具包,宗旨是直接提供方便快捷的解析、詞典類、深度學(xué)習(xí)模型加速的面向中文的工具接口,并提供一步到位的查閱入口。幫助開發(fā)者解決基礎(chǔ)的 NLP 需求和操作。
功能主要包括:文本清洗,去除HTML標(biāo)簽、異常字符、冗余字符,轉(zhuǎn)換全角字母、數(shù)字、空格為半角,抽取及刪除E-mail及域名、電話號碼、QQ號、括號內(nèi)容、身份證號、IP地址、URL超鏈接、貨幣金額與單位,解析身份證號信息、手機(jī)號碼歸屬地、座機(jī)區(qū)號歸屬地,按行快速讀寫文件,(多功能)停用詞過濾,(優(yōu)化的)分句,地址解析,新聞地域識別,繁簡體轉(zhuǎn)換,漢字轉(zhuǎn)拼音,漢字偏旁、字形、四角編碼拆解,基于詞典的情感分析,色情數(shù)據(jù)過濾,反動數(shù)據(jù)過濾,關(guān)鍵短語抽取,成語詞典、歇后語詞典、新華字典、新華詞典、停用詞典、中國地名詞典、世界地名詞典,基于詞典的NER,NER的字、詞級別轉(zhuǎn)換,NER的entity和tag格式轉(zhuǎn)換,NER模型的預(yù)測階段加速并行工具集,NER標(biāo)注和模型預(yù)測的結(jié)果差異對比,NER標(biāo)注數(shù)據(jù)集分割與統(tǒng)計(jì),文本分類標(biāo)注數(shù)據(jù)集的分割與統(tǒng)計(jì)。
特性:
正則抽取與解析
文件讀寫工具
詞典加載與使用
實(shí)體識別(NER)算法輔助工具集
文本分類
項(xiàng)目地址:
https://github.com/dongrixinyu/JioNLP

deepdow是一個Python包,用于投資項(xiàng)目組合優(yōu)化和深度學(xué)習(xí)。它的目標(biāo)是促進(jìn)對在一個前向計(jì)算中執(zhí)行權(quán)重分配的網(wǎng)絡(luò)的研究。
deepdow嘗試合并投資組合優(yōu)化中兩個非常常見的步驟:
預(yù)測市場的未來發(fā)展(LSTM,GARCH等)
優(yōu)化問題設(shè)計(jì)和解決方案(凸優(yōu)化,...)
它通過構(gòu)造層流水線來實(shí)現(xiàn)。最后一層執(zhí)行分配,所有先前的層充當(dāng)特征提取器。整個網(wǎng)絡(luò)是完全可微的,可以通過梯度下降算法優(yōu)化其參數(shù)。
特性:
所有層都建立在torch上并且完全可區(qū)分;
集成了可微凸優(yōu)化(cvxpylayers);
實(shí)現(xiàn)基于聚類的投資組合分配算法;
多種數(shù)據(jù)加載策略(RigidDataLoader,F(xiàn)lexibleDataLoader);
通過回調(diào)與mlflow和tensorboard集成;
提供各種損失,例如銳化比,最大跌幅,...;
易于擴(kuò)展和定制;
CPU和GPU支持。
項(xiàng)目地址:
https://github.com/jankrepl/deepdow
? detr Transformers端對端物體檢測

PyTorch訓(xùn)練代碼和DETR(DEtection TRansformer)的預(yù)訓(xùn)練模型。我們用Transformer代替了整個復(fù)雜的手工物體檢測管道,并用ResNet-50匹配了Faster R-CNN,使用一半的計(jì)算能力(FLOP)和相同數(shù)量的參數(shù)在COCO上獲得了42個AP。在PyTorch的50行中進(jìn)行推斷。
與傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)不同,DETR將對象檢測作為直接設(shè)置的預(yù)測問題。它由基于集合的全局損失(通過二分匹配強(qiáng)制唯一預(yù)測)和Transfromer編碼器-解碼器體系結(jié)構(gòu)組成。
給定固定的學(xué)習(xí)對象查詢集,則DETR會考慮對象與全局圖像上下文之間的關(guān)系,以直接并行并行輸出最終的預(yù)測集。由于這種并行性質(zhì),DETR非??焖俸透咝?。
我們認(rèn)為,對象檢測不應(yīng)該比分類困難,也不需要復(fù)雜的庫來進(jìn)行訓(xùn)練和推理。DETR的實(shí)現(xiàn)和實(shí)驗(yàn)非常簡單,我們提供了一個獨(dú)立的Colab筆記本,展示了如何僅用幾行PyTorch代碼進(jìn)行DETR推理。
訓(xùn)練代碼遵循了這個想法-它不是一個庫,而是一個帶有標(biāo)準(zhǔn)訓(xùn)練循環(huán)的main.py導(dǎo)入模型和標(biāo)準(zhǔn)定義。

項(xiàng)目地址:
https://github.com/facebookresearch/detr
? FinancialDatasets 金融文本數(shù)據(jù)集


推薦研究方向:
Embedding (Word2Vec, Bert, 等)
實(shí)體識別 - NER
無監(jiān)督聚類: 基于企業(yè)描述信息, 進(jìn)行競品聚類
企業(yè)行業(yè)分類
標(biāo)題總結(jié) - Text Summary
序列分類 - Sequence Classification
項(xiàng)目地址:
https://github.com/smoothnlp/FinancialDatasets
? mmfashion 基于PyTorch的用于視覺時尚分析的開源工具箱
MMFashion是一個基于PyTorch的開源視覺時尚分析工具箱。這是香港中文大學(xué)多媒體實(shí)驗(yàn)室開發(fā)的開放式mmlab項(xiàng)目的一部分。

項(xiàng)目特性:
靈活:模塊化設(shè)計(jì),易于擴(kuò)展
友好:外行用戶的現(xiàn)成模型
全面:支持各種時裝分析任務(wù)
功能:
時尚屬性預(yù)測
時尚識別與檢索
時尚地標(biāo)檢測
時尚解析和細(xì)分
時尚兼容性和推薦
項(xiàng)目地址:
https://github.com/open-mmlab/mmfashion
一網(wǎng)打盡:從 Mask RCNN到Y(jié)olo v4

共6大實(shí)戰(zhàn)項(xiàng)目

課程大綱如下



CV博士授課

在售價399元的課程,今天大家可以使用優(yōu)惠券按照299元購買,有興趣的小伙伴抓緊搶購,先報先占位!
優(yōu)惠券:?645A777EDB
購買流程:
復(fù)制優(yōu)惠券>掃描二維碼>點(diǎn)擊直接購買>點(diǎn)擊優(yōu)惠券>輸入優(yōu)惠券
掃碼搶占名額???
(報名過程中,有任何問題請加客服微信:julyedukefu12)
戳↓↓“閱讀原文”查看課程詳情!
