2021年最值得期待的科技股是如何“與虎謀皮”的?

2月1日,大數(shù)據(jù)公司Databricks宣布完成10億美元的融資,公司估值達到280億美元。與2019年10月完成的F輪融資相比,飆升了近5倍。
依靠開源軟件起家的軟件公司,商業(yè)化過程中,都不可避免地會與云服務(wù)商有利益糾葛。但這家由Apache Spark初始成員創(chuàng)立的大數(shù)據(jù)公司,在這輪融資中,卻出乎意料地贏得了全球最大的三家云服務(wù)商亞馬遜云服務(wù)、谷歌云、微軟,以及SaaS巨頭Salesforce等的投資。
“與虎謀皮”的背后是怎樣的需求匹配?Databricks手中究竟有幾張王牌?

01
與云服務(wù)商“共舞”的兩種道路
在典型的開源商業(yè)模式下,軟件免費,廠商會收取支持和服務(wù)費用,如典型的“紅帽模式”。在本地部署的軟件世界里,這種模式或許可行,但到了新的云計算世界,就很難找到自己的位置。
通常來說,依靠開源軟件發(fā)展的軟件公司,會面臨著兩條截然不同的發(fā)展道路。
一條就是修改許可協(xié)議,然后依靠許可協(xié)議,走上與云服務(wù)商的合作發(fā)展之路。
1月15日,全球著名的大數(shù)據(jù)搜索與實時處理公司Elastic公司CEO Shay Banon就突然發(fā)文宣布:開源軟件Elasticsearch和Kibana的其中一項開源許可協(xié)議將發(fā)生變更。
Elastic聲稱,此次許可協(xié)議變更對大部分免費使用默認發(fā)行版的社區(qū)用戶沒有影響,主要限制的是云服務(wù)提供商。
這并不是Elastic第一次更改開源許可協(xié)議。早在2018年,Elastic就曾更改過一次開源許可協(xié)議。
同樣,在開源領(lǐng)域,早在2018年,數(shù)據(jù)庫軟件MongDB、Redis Lab、圖數(shù)據(jù)庫Neo4j等,就修改過相關(guān)的開源許可協(xié)議,試圖改變其在數(shù)據(jù)庫商業(yè)化方面面臨被云服務(wù)商“吸血”的困境。
隨后,MongoDB與阿里云、騰訊云達成合作協(xié)議,走上共贏之路。而與AWS等云服務(wù)商的合作在破局。目前,還很難說誰是贏家。
同時可以看到,近些年來,云服務(wù)提供商一直在使用開源產(chǎn)品,修改其代碼,并開發(fā)托管(收費)服務(wù)解決方案版本。然而,修改后的代碼將無法作為開源代碼加以訪問。而且,云服務(wù)商的商業(yè)行為也妨礙了開源軟件公司商業(yè)化。
在開源許可下,如何實現(xiàn)盈利,實現(xiàn)更健康的發(fā)展,則成為開源軟件公司面臨的最大挑戰(zhàn)。
另一路發(fā)展路徑則是與云服務(wù)商合作,放長線,釣大魚。
公有云在歐美國家已經(jīng)成為主流。如果無法擊敗云服務(wù)商,那就加入他們。
首先成功的是數(shù)據(jù)倉庫軟件SnowFlake。它將自己變成了數(shù)據(jù)云服務(wù)商,并成為云服務(wù)商的用戶,通過提供PaaS平臺和SaaS服務(wù),擴大云服務(wù)商和自己的收益。
剛剛提到的Databricks更是如此。Databricks的CEO Ali Ghodsi曾經(jīng)表示,公司是依靠開源軟件發(fā)展,但卻有意識地將Databricks的業(yè)務(wù)模式與典型的開源商業(yè)模式區(qū)分開來。

Databricks ?CEO Ali Ghodsi
這種策略的一個很好的例子就是Databricks與Microsoft Azure合作。Databricks用戶可以直接通過其Azure帳戶購買其產(chǎn)品。本質(zhì)上,Azure已成為Databricks產(chǎn)品的分銷商,以增加雙方的收入。
Azure也獲得了通過每個新的Azure上Databricks群集出售更多計算基礎(chǔ)結(jié)構(gòu)和存儲的好處。當然,此模型的挑戰(zhàn)是要有足夠的杠桿作用來協(xié)商公平的收益分享協(xié)議。
當然,Databricks不與微軟合作,也擁有龐大且忠誠的開發(fā)人員社區(qū),因此它具有與云服務(wù)商進行談判的實力。
02
投資Databricks,云服務(wù)商看重什么?
2020年,云服務(wù)商們曾錯過了收割數(shù)據(jù)倉庫服務(wù)商SnowFlake IPO紅利的機會。
2020年9月,云原生的數(shù)據(jù)倉庫提供商SnowFlakeIPO時,市值達到330億美元,此后不斷攀升,一度超過1000億美元。但是云服務(wù)商卻沒有抓住這一投資機會。
因此,當Databricks融資時,幾大云服務(wù)商集體出動,就不足為怪了。
另外,由于云原生將成為新一代數(shù)據(jù)架構(gòu)的主流標準,因此公有云所提供的對象存儲、彈性計算、按需使用等特性在架構(gòu)設(shè)計時需要重新設(shè)計。除了公有云廠商的標配服務(wù)外,如 SnowFlake、Databricks 等跨云平臺的第三方服務(wù)提供商自然也受到用戶和資本市場的追捧。
目前,大數(shù)據(jù)云服務(wù)Databricks正在尋求直接在美國上市,它被投行認為是2021年最值得期待的科技股公開發(fā)行之一。華爾街的投資人估計, Databricks上市時,其市值可能會達到350億美元,甚至可能高達500億美元。
Databricks公司創(chuàng)建于2013年創(chuàng)立,專注于機器學習、流數(shù)據(jù)處理、數(shù)據(jù)湖和SQL分析。2020年Databricks年經(jīng)常性收入(ARR)將達到4.25億美元,比2019年同期增長了75%。
Databricks之所以脫穎而出,并成為大數(shù)據(jù)領(lǐng)域的一面旗幟,源于其四張王牌。
首先,Databricks最大的成功源于它幫助公司實施Apache Spark版本。這是大數(shù)據(jù)技術(shù)Hadoop技術(shù)的替代方案,用于存儲客戶大量不同類型的數(shù)據(jù)。Spark是2009年在伯克利開發(fā)一個大數(shù)據(jù)開源項目。目前,Spark已經(jīng)取代Hadoop MapReduce成為大數(shù)據(jù)默認的計算引擎。
“成立Databricks的目的是繼續(xù)加速Spark的改進,增加程序的功能、穩(wěn)定性和對開源社區(qū)的貢獻。另一方面是將其放在易于使用的軟件包中,那就是Databricks云服務(wù)?!盌atabricks的CEO Ali Ghodsi 曾經(jīng)表示。
Databricks提供了一個基于Spark的云托管平臺,使客戶可以在一個環(huán)境中實施其整個大數(shù)據(jù)方案——從數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換、交互式處理,到數(shù)據(jù)產(chǎn)品。它使用機器學習、圖形處理以及構(gòu)建和運行數(shù)據(jù)產(chǎn)品,提供交互式可視化,釋放數(shù)據(jù)價值。

Databricks Cloud先進的群集管理功能,使企業(yè)能夠在幾秒鐘內(nèi)啟動,并調(diào)整大小和拆除群集。最重要的是,它豐富的工具集使企業(yè)可以交互式查詢和可視化數(shù)據(jù)并構(gòu)建交互式儀表板。
Spark之于Databricks,就像Hadoop之于 Cloudera,或者NoSQL數(shù)據(jù)庫之于MongoDB。Spark確實是Databricks公司規(guī)劃的關(guān)鍵部分,但也只是多元化SaaS產(chǎn)品的一個組成部分。
其次, DataBricks迄今為止所做的最大的創(chuàng)新應該是 Delta Lake,有超過 80%的用戶在使用它。它是 Databricks 最有價值的項目,盡管它沒有Spark那么有名。而且DataBricks選擇了將Delta Lake開源,從而解決數(shù)據(jù)倉庫與數(shù)據(jù)湖的融合問題。
第三張王牌是Koalas。它將Pandas社區(qū)的數(shù)據(jù)科學創(chuàng)新帶給了Spark用戶。Koalas可以讓數(shù)據(jù)科學家在筆記本電腦上使用Pandas編程,然后調(diào)用幾個API就可以將工作負載部署到大型的分布式Spark集群上。
最后一張王牌是MLFlow。它為數(shù)據(jù)科學家構(gòu)建、測試和部署機器學習模型這個復雜的過程提供標準化的工具。MLFlow的下載量以每月80萬的速度增長,而且比 Spark 有更多的貢獻者。而且Databricks將MLflow項目捐贈給Linux基金會,并正式成為一個開源項目。兩年前,開源一來,該平臺每月下載超過200 萬次。
03
“共舞”中如何保持自我?

然而,Databricks也將迎來新的問題。
比如公共云提供商AWS、Microsoft Azure等都提供Apache Spark開源軟件的托管版本,所以難免不會優(yōu)先推廣自己的產(chǎn)品,而這勢必會與Databricks的核心產(chǎn)品Spark云服務(wù)展開競爭。
如何應對這種局面呢?Ghodsi表示,并不會把這些云服務(wù)商視為競爭對手,因為它們的客戶也需要技術(shù)服務(wù)支持。
同樣,SaaS租賃模式還為 Databricks 的資產(chǎn)提供了適當?shù)谋Wo。Databricks的核心知識產(chǎn)權(quán)并不存在于它所贊助的開源軟件項目中。事實上,Databricks 最有價值的知識產(chǎn)權(quán)存在于用來監(jiān)控和管理云端軟件的工具和技術(shù),它們不會像經(jīng)典的開源模式那么容易被泄露。
Ghodsi 說:“在云端,用戶租賃Databricks的服務(wù),我們負責保證安全性、可靠性和可用性,負責監(jiān)控,確保服務(wù)保持運行狀態(tài),并保持最新,讓用戶高枕無憂。”
“我們每天需要在AWS上啟動一百萬個虛擬機,確保正常運行,這也就是用戶付費的原因?!?/p>
Databricks使用開源工具如Kubernetes為各種數(shù)據(jù)工程、數(shù)據(jù)分析和機器學習負載提供伸縮能力,還開發(fā)了專有軟件來保證云服務(wù)的可用性。
為了滿足用戶大數(shù)據(jù)應用新需求,把數(shù)據(jù)倉庫和數(shù)據(jù)湖融合的技術(shù)正在進行。當Synapse 將數(shù)據(jù)倉庫和數(shù)據(jù)湖服務(wù)捆綁在一起時,Databricks推出了數(shù)據(jù)湖/數(shù)據(jù)倉庫融合Lakehouse“湖屋”。
數(shù)據(jù)倉庫保存定義良好的結(jié)構(gòu)化歷史數(shù)據(jù),以便運行快速、重復的分析查詢,通常使用 SQL,常用于核心業(yè)務(wù)報告。
數(shù)據(jù)湖包含來自多個數(shù)據(jù)源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)治理可能很弱,重復或沖突的數(shù)據(jù)可能很常見。數(shù)據(jù)科學團隊通常使用數(shù)據(jù)湖執(zhí)行探索性分析,包括數(shù)據(jù)發(fā)現(xiàn)和可視化,以及機器學習模型培訓。
"數(shù)據(jù)湖屋",融合數(shù)據(jù)湖/數(shù)據(jù)倉庫平臺,其數(shù)據(jù)湖平臺Delta Lake也非常適合數(shù)據(jù)倉庫工作負載。結(jié)合其機器學習功能,包括Spark MLlib和MLflow,Databrick將自己視為一個全面的分析和AI平臺。
Ali Ghodsi 透露了公司的終極目標:構(gòu)建世界上第一個企業(yè) AI 平臺,Databricks手里握著幾張王牌。
在企業(yè)計算領(lǐng)域,未來會選出一兩個AI 平臺作為標桿,就像之前出現(xiàn)的數(shù)據(jù)庫、ERP、CRM、HR 軟件等標桿企業(yè)一樣。但目前還沒有出現(xiàn)AI平臺標桿企業(yè),盡管一些玩家如AWS、微軟和 Salesforce等已經(jīng)躍躍欲試。


