文本挖掘
文本挖掘是一種從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù),也是自然語言處理的熱門話題。本書主要介紹整潔數(shù)據(jù)的文本挖掘與分析。整潔數(shù)據(jù)具有簡單且新穎的結(jié)構(gòu),對(duì)其進(jìn)行分析會(huì)更有效、更容易。本書的所有代碼都是基于R語言來編寫的,采用tidytext軟件包以及其他整潔工具來挖掘文件中的有用信息,并用圖形展示出來,這對(duì)理解文本內(nèi)容非常有幫助。本書提供了非常有用的真實(shí)案例,這會(huì)為對(duì)文本分析工作感興趣的人提供有價(jià)值的信息。
Julia Silge,Stack Overflow 數(shù)據(jù)科學(xué)家,負(fù)責(zé)復(fù)雜數(shù)據(jù)集分析及與不同受眾進(jìn)行技術(shù)主題交流。 擁有天體物理學(xué)博士學(xué)位,熱愛簡·奧斯汀和制作美麗的圖表。
David Robinson,Stack Overflow 數(shù)據(jù)科學(xué)家,普林斯頓大學(xué)定量與計(jì)算生物學(xué)博士。喜歡開發(fā)開源R包,包括 broom、gganimate、fuzzyjoin 和 widyr,還喜歡撰寫統(tǒng)計(jì)、R和文本挖掘等方面的博客。
評(píng)論
圖片
表情
