EasyML圖形化機(jī)器學(xué)習(xí)系統(tǒng)
EasyML(Easy Machine Learning)是一個簡單機(jī)器學(xué)習(xí)系統(tǒng)。
在該系統(tǒng)中,一個學(xué)習(xí)任務(wù)被構(gòu)造為一個有向非循環(huán)圖(DAG/directed acyclic graph),每個節(jié)點(diǎn)表征一步操作(即機(jī)器學(xué)習(xí)算法),每一條邊表征從一個節(jié)點(diǎn)到后一個即節(jié)點(diǎn)的數(shù)據(jù)流。
任務(wù)可被人工定義,或根據(jù)現(xiàn)有任務(wù)/模板進(jìn)行克隆。在把任務(wù)提交到云端之后,每個節(jié)點(diǎn)將根據(jù) DAG 自動執(zhí)行。圖形用戶界面被實(shí)現(xiàn),從而可使用戶以拖拉的方式創(chuàng)建、配置、提交和監(jiān)督一項(xiàng)任務(wù)。
系統(tǒng)包含三個主要組件:
不僅能實(shí)現(xiàn)流行的機(jī)器學(xué)習(xí)算法,也能實(shí)現(xiàn)數(shù)據(jù)預(yù)處理/后處理、數(shù)據(jù)格式轉(zhuǎn)變、特征生成、表現(xiàn)評估等算法。這些算法主要是基于 Spark 實(shí)現(xiàn)的。
能讓用戶以拖放的方式創(chuàng)造、安裝、提交、監(jiān)控、共享他們的機(jī)器學(xué)習(xí)流程。機(jī)器學(xué)習(xí)庫中所有的算法都可在此開發(fā)環(huán)境系統(tǒng)中獲得并安裝,它們是構(gòu)建機(jī)器學(xué)習(xí)任務(wù)的主要基礎(chǔ)。
該服務(wù)基于開源的 Hadoop 和 Spark 大數(shù)據(jù)平臺建立,在 Docker 上組織了服務(wù)器集群。從 GUI 上接受一個 DAG 任務(wù)之后,在所有的獨(dú)立數(shù)據(jù)源準(zhǔn)備好時(shí),每個節(jié)點(diǎn)將會自動安排運(yùn)行。對應(yīng)節(jié)點(diǎn)的算法將會依據(jù)實(shí)現(xiàn)在 Linux、Spark 或者 Map-Reduce\cite 上自動安排運(yùn)行。
