UMAD-SZU大數(shù)據(jù)管理分析系統(tǒng)
UMAD (Universal Management and Analysis of Data) 是致力于實(shí)現(xiàn)通用的大數(shù)據(jù)管理分析系統(tǒng)的項(xiàng)目。該項(xiàng)目利用度量空間的高度抽象性的特點(diǎn),將各種各樣的數(shù)據(jù)類型抽象到度量空間之中,而所有的索引算法都針對度量空間這一數(shù)據(jù)結(jié)構(gòu)進(jìn)行設(shè)計(jì),以此達(dá)到算法通用的目的。
項(xiàng)目基于 jdk12.0.2 實(shí)現(xiàn),為了更好地支持中文,全部編碼統(tǒng)一采用 UTF-8。項(xiàng)目目前支持 DNA、RNA、Peptide、Spectra、 Image 和 Vector 數(shù)據(jù)庫的建立和相似性搜索。實(shí)現(xiàn)了常用的支撐點(diǎn)選擇算法,如 FFT、CENTER、RANDOM 等;常用的數(shù)據(jù)劃分算法,例如 Balanced、ClusteringKMeans、CGHT 和 GHT 等。
評論
圖片
表情
