Spark機(jī)器學(xué)習(xí).pdf

向AI轉(zhuǎn)型的程序員都關(guān)注了這個號??????
人工智能大數(shù)據(jù)與深度學(xué)習(xí) ?公眾號:datayx

PDF 獲取方式
關(guān)注微信公眾號 datayx? 然后回復(fù)?spark??即可獲取。
AI項目體驗地址?https://loveai.tech
《Spark機(jī)器學(xué)習(xí)》
內(nèi)容提要
彭特里思著的《Spark機(jī)器學(xué)習(xí)》每章都設(shè)計了 案例研究,以機(jī)器學(xué)習(xí)算法為主線,結(jié)合實例探討了 spark的實際應(yīng)用。書中沒有讓人抓狂的數(shù)據(jù)公式, 而是從準(zhǔn)備和正確認(rèn)識數(shù)據(jù)開始講起,全面涵蓋了推 薦系統(tǒng)、回歸、聚類、降維等經(jīng)典的機(jī)器學(xué)習(xí)算法及 其實際應(yīng)用。
???? 本書適合互聯(lián)網(wǎng)公司從事數(shù)據(jù)分析的人員,以及 高校數(shù)據(jù)挖掘相關(guān)專業(yè)的師生閱讀參考。
目錄
**章 Spark 的環(huán)境搭建與運(yùn)行
1.1 Spark 的本地安裝與配置
1.2 Spark 集群
1.3 Spark 編程模型
1.3.1 SparkContext類與SparkConf類
1.3.2 Spar
1.3.3 彈性分布式數(shù)據(jù)集
1.3.4 廣播變量和累加器
1.4 Spark Scala 編程入門
1.5 Spark Java 編程入門
1.6 Spark Python 編程入門
1.7 在*** EC2 上運(yùn)?
1.8 小結(jié)
第2章 設(shè)計機(jī)器學(xué)習(xí)系統(tǒng)
2.1 MovieStream 介紹
2.2 機(jī)器學(xué)習(xí)系統(tǒng)商業(yè)用例
2.2.1 個性化
2.2.2 目標(biāo)營銷和客戶細(xì)分
2.2.3 預(yù)測建模與分析
2.3 機(jī)器學(xué)習(xí)模型的種類
2.4 數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)系統(tǒng)的組成
2.4.1 數(shù)據(jù)獲取與存儲
2.4.2 數(shù)據(jù)清理與轉(zhuǎn)換
2.4.3 模型訓(xùn)練與測試回路
2.4.4 模型部署與整合
2.4.5 模型監(jiān)控與反饋
2.4.6 批處理或?qū)崟r方案的選擇
2.5 機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu)
2.6 小結(jié)
第3章 Spark 上數(shù)據(jù)的獲取、處理與準(zhǔn)備
3.1 獲取公開數(shù)據(jù)集
3.2 探索與可視化數(shù)據(jù)
3.2.1 探索用戶數(shù)據(jù)
3.2.2 探索電影數(shù)據(jù)
3.2.3 探索評級數(shù)據(jù)
3.3 處理與轉(zhuǎn)換數(shù)據(jù)
3.4 從數(shù)據(jù)中提取有用特征
3.4.1 數(shù)值特征
3.4.2 類別特征
3.4.3 派生特征
3.4.4 文本特征
3.4.5 正則化特征
3.4.6 用軟件包提取特征
3.5 小結(jié)
第4章 構(gòu)建基于Spark的推薦引擎
4.1 推薦模型的分類
4.1.1 基于內(nèi)容的過濾
4.1.2 協(xié)同過濾
4.1.3 矩陣分解
4.2 提取有效特征
4.3 訓(xùn)練推薦模型
4.3.1 使用MovieLens 100k數(shù)據(jù)集訓(xùn)練模型
4.3.2 使用隱式反饋數(shù)據(jù)訓(xùn)練模型
4.4 使用推薦模型
4.4.1 用戶推薦
4.4.2 物品推薦
4.5 推薦模型效果的評估
4.5.1 均方差
4.5.2 K 值平均準(zhǔn)確率
4.5.3 使用MLlib內(nèi)置的評估函數(shù)
4.6 小結(jié)
第5章 Spark構(gòu)建分類模型
5.1 分類模型的種類
5.1.1 線性模型
5.1.2 樸素貝葉斯模型
5.1.3 決策樹
5.2 從數(shù)據(jù)中抽取合適的特征
5.3 訓(xùn)練分類模型
5.4 使用分類模型
5.5 評估分類模型的性能
5.5.1 預(yù)測的正確率和錯誤率
5.5.2 準(zhǔn)確率和召回率
5.5.3 ROC曲線和
5.6 改進(jìn)模型性能以及參數(shù)調(diào)優(yōu)
5.6.1 特征標(biāo)準(zhǔn)化
5.6.2 其他特征
5.6.3 使用正確的數(shù)據(jù)格式
5.6.4 模型參數(shù)調(diào)優(yōu)
5.7 小結(jié)
第6章 Spark構(gòu)建回歸模型
6.1 回歸模型的種類
6.1.1 *小二乘回歸
6.1.2 決策樹回歸
6.2 從數(shù)據(jù)中抽取合適的特征
6.3 回歸模型的訓(xùn)練和應(yīng)用
6.4 評估回歸模型的性能
6.4.1 均方誤差和均方根誤差
6.4.2 平均**誤差
6.4.3 均方根對數(shù)誤差
6.4.4 R-平方系數(shù)
6.4.5 計算不同度量下的性能
6.5 改進(jìn)模型性能和參數(shù)調(diào)優(yōu)
6.5.1 變換目標(biāo)變量
6.5.2 模型參數(shù)調(diào)優(yōu)
6.6 小結(jié)
第7章 Spark構(gòu)建聚類模型
7.1 聚類模型的類型
7.1.1 K-均值聚類
7.1.2 混合模型
7.1.3 層次聚類
7.2 從數(shù)據(jù)中提取正確的特征
7.3 訓(xùn)練聚類模型
7.4 使用聚類模型進(jìn)行預(yù)測
7.5 評估聚類模型的性能
7.5.1 內(nèi)部評價指標(biāo)
7.5.2 外部評價指標(biāo)
7.5.3 在MovieLens數(shù)據(jù)集計算性能
7.6 聚類模型參數(shù)調(diào)優(yōu)
7.7 小結(jié)
第8章 Spark應(yīng)用于數(shù)據(jù)降維
8.1 降維方法的種類
8.1.1 主成分分析
8.1.2 奇異值分解
8.1.3 和矩陣分解的關(guān)系
8.1.4 聚類作為降維的方法
8.2 從數(shù)據(jù)中抽取合適的特征
8.3 訓(xùn)練降維模型
8.4 使用降維模型
8.4.1 在LFW數(shù)據(jù)集上使用PCA投影數(shù)據(jù)
8.4.2 PCA和SVD模型的關(guān)系
8.5 評價降維模型
8.6 小結(jié)
第9章 Spark **文本處理技術(shù)
9.1 處理文本數(shù)據(jù)有什么特別之處
9.2 從數(shù)據(jù)中抽取合適的特征
9.2.1 短語加權(quán)表示
9.2.2 特征哈希
9.2.3 從20 新聞組數(shù)據(jù)集中提取TF-IDF 特征
9.3 使用TF-IDF模型
9.3.1 20 Newsgroups數(shù)據(jù)集的文本相似度和TF-IDF特征
9.3.2 基于20 Newsgroups 數(shù)據(jù)集使用TF-IDF訓(xùn)練文本分類器
9.4 評估文本處理技術(shù)的作用
9.5 Word2Vec 模型
9.6 小結(jié)
**0章 Spark Streaming在實時機(jī)器學(xué)習(xí)上的應(yīng)用
10.1 在線學(xué)習(xí)
10.2 流處理
10.2.1 Spark Streaming介紹
10.2.2 使用Spark Streaming緩存和容錯
10.3 創(chuàng)建Spark Streaming應(yīng)用
10.3.1 消息生成端
10.3.2 創(chuàng)建簡單的流處理程序
10.3.3 流式分析
10.3.4 有狀態(tài)的流計算
10.4 使用Spark Streaming進(jìn)行在線學(xué)習(xí)
10.4.1 流回歸
10.4.2 一個簡單的流回歸程序
10.4.3 流K-均值
10.5 在線模型評估
10.6 小結(jié)
閱讀過本文的人還看了以下文章:
TensorFlow 2.0深度學(xué)習(xí)案例實戰(zhàn)
基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測
《基于深度學(xué)習(xí)的自然語言處理》中/英PDF
Deep Learning 中文版初版-周志華團(tuán)隊
【全套視頻課】最全的目標(biāo)檢測算法系列講解,通俗易懂!
《美團(tuán)機(jī)器學(xué)習(xí)實踐》_美團(tuán)算法團(tuán)隊.pdf
《深度學(xué)習(xí)入門:基于Python的理論與實現(xiàn)》高清中文PDF+源碼
python就業(yè)班學(xué)習(xí)視頻,從入門到實戰(zhàn)項目
2019最新《PyTorch自然語言處理》英、中文版PDF+源碼
《21個項目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實踐詳解》完整版PDF+附書代碼
《深度學(xué)習(xí)之pytorch》pdf+附書源碼
PyTorch深度學(xué)習(xí)快速實戰(zhàn)入門《pytorch-handbook》
【下載】豆瓣評分8.1,《機(jī)器學(xué)習(xí)實戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車行業(yè)完整知識圖譜項目實戰(zhàn)視頻(全23課)
李沐大神開源《動手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計學(xué)習(xí)方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼
將機(jī)器學(xué)習(xí)模型部署為REST API
FashionAI服裝屬性標(biāo)簽圖像識別Top1-5方案分享
重要開源!CNN-RNN-CTC 實現(xiàn)手寫漢字識別
同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過不了?
前海征信大數(shù)據(jù)算法:風(fēng)險概率預(yù)測
【Keras】完整實現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個項目,讓你掌握深度學(xué)習(xí)圖像分類
VGG16遷移學(xué)習(xí),實現(xiàn)醫(yī)學(xué)圖像識別分類工程項目
特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊
如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識別手寫中文網(wǎng)站
中科院Kaggle全球文本匹配競賽華人第1名團(tuán)隊-深度學(xué)習(xí)與特征工程
不斷更新資源
深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python
?搜索公眾號添加:?datayx??
機(jī)大數(shù)據(jù)技術(shù)與機(jī)器學(xué)習(xí)工程
?搜索公眾號添加:?datanlp
長按圖片,識別二維碼
