【NLP】GitHub 上有哪些有趣的關(guān)于 NLP 的Python項目?
知乎上有人提問:GitHub 上有哪些有趣的關(guān)于 NLP 的Python項目?
先來說說什么是NLP?
自然語言處理(NLP)的重點是使計算機能夠理解和處理人類語言。計算機擅長處理結(jié)構(gòu)化數(shù)據(jù),如電子表格;然而,我們寫或說的很多信息都是非結(jié)構(gòu)化的。
自然語言處理的目標是使計算機能夠理解非結(jié)構(gòu)化文本并從中提取有意義的信息。多虧了spaCy和NLTK等開源庫,我們只需幾行Python代碼就可以實現(xiàn)許多NLP技術(shù)。
說到Github上的NLP項目,這里強烈推薦一個36.9K star的倉庫:「funNLPPublic」
https://github.com/fighting41love/funNL
這是一個中文NLP項目,作者聲稱是NLP民工的樂園: 幾乎最全的中文NLP資源庫

我仔細看了該項目資源的結(jié)構(gòu),主要是分為各類行業(yè)詞庫、語料庫、分詞處理工具、語義判別工具、正則應用工具、NLP開源算法、行業(yè)技術(shù)報告、各種NLP處理框架等等
凡是中文領(lǐng)域NLP沾邊的地方,作者通通匯總了相關(guān)資源,對初學者來說是不錯的一個檢索倉庫。
雖然看起來比較亂,作者沒有去做詳細的歸類,但良心在于很全,能讓你輕松地玩轉(zhuǎn)各種nlp知識,也不失趣味。
下面分別舉例一些資源,供大家參考,詳細的可以去github倉里自行查找
行業(yè)詞庫、語料庫(IT、汽車、醫(yī)學、動物、財經(jīng)、法律等)

NLP論文、行業(yè)報告

PDF文檔處理

語音處理工具

行業(yè)應用場景

nlp框架和工具

當然上述案例只是該項目的一小部分,我看了下總共有將近400個NLP資源,非常全。
其他關(guān)于NLP的好項目也很多,比如NLP-progress、HanLP、spaCy、jina等等,大家可以自己去探索下。
往期精彩回顧
適合初學者入門人工智能的路線及資料下載 (圖文+視頻)機器學習入門系列下載 中國大學慕課《機器學習》(黃海廣主講) 機器學習及深度學習筆記等資料打印 《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎(chǔ)下載 機器學習交流qq群955171419,加入微信群請掃碼:
