李沐:創(chuàng)業(yè)一年,人間三年!
共 5546字,需瀏覽 12分鐘
·
2024-08-14 21:49
Datawhale干貨
作者:李沐,CMU,BosonAI 聯(lián)合創(chuàng)始人
給小伙伴匯報(bào)一下LLM創(chuàng)業(yè)第一年的進(jìn)展、糾結(jié)和反思
在A(yíng)mazon呆到第五年的時(shí)候就想著創(chuàng)業(yè)了,但被疫情耽擱了。到第7年半的時(shí)候,覺(jué)得太癢了,就提了離職。現(xiàn)在想來(lái),如果有什么事這一輩子總要試下的,就蹭早。因?yàn)檎骈_(kāi)始后會(huì)發(fā)現(xiàn)有太多新東西要學(xué),總感嘆為啥沒(méi)能早點(diǎn)開(kāi)始。
名字:BosonAI的來(lái)源
創(chuàng)業(yè)前做了一系列用Gluon命名的項(xiàng)目。在量子物理里,Gluon是把夸克綁在一起的一種玻色子,象征這個(gè)項(xiàng)目一開(kāi)始是Amazon和Microsoft的聯(lián)合項(xiàng)目。當(dāng)時(shí)項(xiàng)目經(jīng)理拍拍腦袋名字就出來(lái)了,但取名對(duì)程序員來(lái)說(shuō)很困難,我們每天都在糾結(jié)各種文件名和變量名。最后新公司干脆就用玻色子(Boson)來(lái)命名了。希望大家能get到“Boson和費(fèi)米子組成了世界”這個(gè)梗時(shí)會(huì)會(huì)心一笑。但沒(méi)料到很多人會(huì)看成Boston。
“我來(lái)波士頓了,找個(gè)時(shí)間碰碰?” “哈?可我在灣區(qū)呀??”
融資:簽字前一天領(lǐng)投方跑路
22年年底的時(shí)候想到兩個(gè)用大語(yǔ)言模型(LLM)做生產(chǎn)力工具的想法。碰巧遇到張一鳴,就向他請(qǐng)教。討論之后他反問(wèn):為什么不做LLM本身呢?我的下意識(shí)退縮:我們之前在A(yíng)mazon的團(tuán)隊(duì)做了好幾年這個(gè),得上萬(wàn)張卡,和blabla這么一大堆困難。一鳴呵呵表示:這些都是短期困難,眼光得看長(zhǎng)遠(yuǎn)點(diǎn)。
我的優(yōu)點(diǎn)是聽(tīng)勸,真就去做LLM了。湊齊了數(shù)據(jù)、預(yù)訓(xùn)練、后訓(xùn)練、和架構(gòu)各方向負(fù)責(zé)人的創(chuàng)始團(tuán)隊(duì),就去融資了。運(yùn)氣不錯(cuò),很快拿到了種子投資。但錢(qián)還不夠買(mǎi)卡,得去拿第二輪。這一輪領(lǐng)頭是一家非常大的機(jī)構(gòu),做了幾個(gè)月文檔、商討條款。但在簽字前一天,領(lǐng)頭說(shuō)不投了,直接導(dǎo)致了跟投的幾家退出。很感激剩下的投資方,還是做完了這一輪,拿到了做LLM的入場(chǎng)券。
今天反思的話(huà),當(dāng)時(shí)蹭著資本市場(chǎng)熱情還在,其實(shí)可以繼續(xù)融資,說(shuō)不定也跟其他友商一樣,現(xiàn)在十億現(xiàn)金在手。當(dāng)時(shí)擔(dān)心融資太多,會(huì)不好退出,或者被架到天上去了?,F(xiàn)在想來(lái),創(chuàng)業(yè)就是想逆天改命,想什么退路呢?
機(jī)器:第一批吃螃蟹的人
有了錢(qián)后就去買(mǎi)GPU。問(wèn)各個(gè)供應(yīng)商,統(tǒng)一回復(fù)是H100交貨得一年以后了。靈機(jī)一動(dòng),直接給老黃寫(xiě)郵件。老黃秒回說(shuō)他來(lái)看下。一個(gè)小時(shí)后超微的CEO就打電話(huà)過(guò)來(lái)了。多付了些錢(qián),插了個(gè)隊(duì),20天后拿到了機(jī)器。很榮幸早早的吃到了螃蟹。
螃蟹吃到懷疑人生,遇到了各種匪夷所思的bug。例如GPU供電不足導(dǎo)致不穩(wěn)定,后來(lái)靠超微工程師修改bios代碼打上補(bǔ)??;例如光纖的切開(kāi)角度不對(duì),導(dǎo)致通訊不穩(wěn)定;例如Nvidia的推薦網(wǎng)絡(luò)布局不是最優(yōu),我們重新做一個(gè)方案,后來(lái)Nvidia自己也采用了這個(gè)方案。至今我都不理解,我們就買(mǎi)了不到一千張卡,算小買(mǎi)家吧。但我們遇到的這些問(wèn)題,難道大買(mǎi)家沒(méi)遇到嗎,為啥需要我們的debug?
同時(shí)我們還租了同樣多的H100,一樣是各種bug,GPU每天都出問(wèn)題,甚至懷疑是不是這個(gè)云上就我們一個(gè)吃螃蟹的。后來(lái)看到Llama 3的技術(shù)報(bào)告說(shuō)他們改用H100后,訓(xùn)練一次模型被打斷幾百次,對(duì)字里行間的痛苦,很是共情。
如果對(duì)比自建和租卡的話(huà),租三年成本和自建成本差不多。租卡的好處是省心。自建的好處有兩個(gè)。一是三年后如果Nvidia技術(shù)還遙遙領(lǐng)先,那么它能控制價(jià)格使得GPU仍然保值??。另一個(gè)是自建的數(shù)據(jù)存儲(chǔ)成本低。存儲(chǔ)需要跟GPU比較近,不管是大云還是小GPU云,存儲(chǔ)價(jià)格都高。但一次模型訓(xùn)練可以用幾TB空間存checkpoint,訓(xùn)練數(shù)據(jù)存儲(chǔ)是10PB起跳。如果用AWS S3的話(huà),10PB一年兩百萬(wàn)。這錢(qián)用來(lái)自建的話(huà),可以上100PB。
商業(yè):感恩客戶(hù),第一年收支平衡
非常幸運(yùn)的,我們第一年收入和支出是打平的。我們支出主要在人力和算力上,感謝Openai的財(cái)力和Nvidia的瑤瑤領(lǐng)先,這兩項(xiàng)支出都挺大的??。我們的收入來(lái)源是給大客戶(hù)做定制的模型。很早就上LLM的公司大都是因?yàn)镃EO非常有決策力,他們沒(méi)被高昂的算力和人力成本嚇到,果斷的去推動(dòng)內(nèi)部團(tuán)隊(duì)配合嘗試新技術(shù)。非常感恩客戶(hù)給了我們喘氣的時(shí)間,不然這個(gè)幾個(gè)月我又是奔波在各個(gè)投資人那里。
接下來(lái)應(yīng)該會(huì)有更多公司才嘗試使用LLM,不論是自己產(chǎn)品的升級(jí),還是降本增效。原因是一方面技術(shù)成本在降低,另一方面行業(yè)領(lǐng)先者(例如我們客戶(hù))會(huì)陸續(xù)放出基于LLM的產(chǎn)品出來(lái),把行業(yè)卷了起來(lái)。
我們也在關(guān)注LLM在toC上的落地。上一波頂流例如c.ai和perplexity還在找商業(yè)模式,但也有小十來(lái)家LLM原生應(yīng)用收入還不錯(cuò)。我們給一家做角色扮演的創(chuàng)業(yè)公司提供了模型,他們主打深度的玩家,打平了收入和支出,也是厲害的。模型能力還在進(jìn)化,更多模態(tài)(語(yǔ)音、音樂(lè)、圖片、視頻)在融合,相信接下來(lái)還會(huì)有更有想象力的應(yīng)用出現(xiàn)。
整體來(lái)說(shuō)行業(yè)和資本還是急躁的。今年好幾家成立一年多但融資上十億的公司選擇退出。從技術(shù)到產(chǎn)品就是一個(gè)很長(zhǎng)的過(guò)程,花2、3年實(shí)屬正常。算上用戶(hù)的需求的涌現(xiàn),可能得花更長(zhǎng)時(shí)間。我們專(zhuān)注當(dāng)下在迷霧中探路,對(duì)未來(lái)保持樂(lè)觀(guān)。
技術(shù):LLM認(rèn)知的四個(gè)階段
對(duì)LLM的認(rèn)知經(jīng)歷了四個(gè)階段。
第一階段是Bert到GPT3,感受是新架構(gòu),大數(shù)據(jù),這個(gè)可以搞。我們?cè)贏(yíng)mazon的時(shí)候也是第一時(shí)間進(jìn)去做了大規(guī)模的訓(xùn)練和在產(chǎn)品上的落地。
第二階段是剛創(chuàng)業(yè)的時(shí)候GPT4了放出來(lái),大受震撼。大半原因來(lái)自技術(shù)不公開(kāi)了。根據(jù)小道消息估算一次模型訓(xùn)練一個(gè)億,標(biāo)數(shù)據(jù)成本幾千萬(wàn)。很多投資人問(wèn)我復(fù)現(xiàn)GPT4成本得多少,我說(shuō)3-4億要把。后來(lái)他們中一家真一把投了大幾億出去。
第三階段是創(chuàng)業(yè)的第一個(gè)半年。我們做不動(dòng)GPT4,那就想著從具體的問(wèn)題出發(fā)吧。于是開(kāi)始找客戶(hù),有游戲的、教育的、銷(xiāo)售的、金融的、保險(xiǎn)的。針對(duì)具體的需求去訓(xùn)練模型。一開(kāi)始市面上沒(méi)有好的開(kāi)源模型,我們就從頭訓(xùn)練,后來(lái)很多很好的模型出來(lái)了,降低了我們成本。然后針對(duì)業(yè)務(wù)場(chǎng)景設(shè)計(jì)評(píng)估方法,標(biāo)數(shù)據(jù),去看模型哪些地方不行,針對(duì)性提升。
23年年底時(shí),驚喜發(fā)現(xiàn)我們的Photon(Boson的一種)系列模型在客戶(hù)應(yīng)用上的效果都打贏(yíng)GPT4了。定制模型的好處是推理成本是調(diào)用API的1/10。雖然今天API已經(jīng)便宜很多,但我們自己技術(shù)也同樣在進(jìn)步,仍然是1/10成本。另外,QPS,延時(shí)等都更好控制。這個(gè)階段的認(rèn)知是對(duì)于具體應(yīng)用,我們是可以打贏(yíng)市面最好模型的。
第四階段是創(chuàng)業(yè)的第二個(gè)半年。雖然客戶(hù)拿到了合同里要的模型,但還不是他們理想中的東西,因?yàn)镚PT4還遠(yuǎn)不夠。年初時(shí)發(fā)現(xiàn)針對(duì)單一應(yīng)用訓(xùn)練,模型很難再次飛躍。回過(guò)頭想,如果AGI是達(dá)到普通人類(lèi)水平,客戶(hù)要的是專(zhuān)業(yè)人士的水平。游戲要專(zhuān)業(yè)策劃和專(zhuān)業(yè)演員、教育要金牌老師、銷(xiāo)售要金牌銷(xiāo)售、金融保險(xiǎn)要高級(jí)分析師。這都是AGI加上行業(yè)專(zhuān)業(yè)能力。雖然當(dāng)時(shí)我們內(nèi)心對(duì)AGI充滿(mǎn)敬畏,但感覺(jué)是避不開(kāi)的。
年初我們?cè)O(shè)計(jì)了Higgs(上帝粒子,Boson的一種)系列模型。主打通用能力緊跟最好的模型,但在某個(gè)能力上突出。我們挑選的能力是角色扮演:扮演虛擬角色、扮演老師、扮演銷(xiāo)售、扮演分析師等等。24年年中的時(shí)候迭代到第二代,在測(cè)試通用能力的Arena-Hard和AlpacaEval 2.0上,V2跟最好的模型打得有來(lái)有回,在測(cè)試知識(shí)的MMLU-Pro上也沒(méi)差很遠(yuǎn)。
Higgs-V2是基于Llama3 base,然后做了完整的post-training。我們無(wú)法像Meta那樣花大錢(qián)標(biāo)注數(shù)據(jù),所以V2比Llama3 Instruct好,原因應(yīng)該還是主要來(lái)自算法的創(chuàng)新。
然后我們做了個(gè)評(píng)估角色扮演的評(píng)測(cè)集,包含按照人設(shè)扮演,和按照?qǐng)鼍鞍缪?。怪不好意思是自己的模型在自己的榜單上拿了第一。但模型?xùn)練中是沒(méi)有碰評(píng)測(cè)用的數(shù)據(jù)。因?yàn)檫@個(gè)評(píng)測(cè)集一開(kāi)始就是想自用,希望能真實(shí)反映模型能力,所以要避免模型overfit數(shù)據(jù)集。但做評(píng)測(cè)的同學(xué)想寫(xiě)技術(shù)報(bào)告,所以放出來(lái)了。有意思的是,按角色扮演的測(cè)試樣本來(lái)自c.ai,但他們家的模型能力是墊底的。
第四階段的認(rèn)知是,好的垂直模型通用能力也不能弱,例如reasoning,instruction following這些能力垂直上也是需要的。長(zhǎng)遠(yuǎn)來(lái)看,通用和垂直模型都得朝著AGI去。只是垂直模型可以稍微偏科一點(diǎn),專(zhuān)業(yè)課高分,通用課還行,所以研發(fā)成本稍微低一點(diǎn),研發(fā)方式也會(huì)不一樣點(diǎn)。
那第五階段認(rèn)識(shí)呢?現(xiàn)在仍在進(jìn)行中,希望能很快分享。
愿景:人類(lèi)陪伴
說(shuō)來(lái)慚愧,我們蒙頭做技術(shù),給客戶(hù)做定制,然后再慢慢想我們自己追求什么愿景。我們?nèi)タ纯蛻?hù)想要什么、我們自己想要什么、未來(lái)可能需要什么。我自己的話(huà),多年前我憧憬有個(gè)機(jī)器人保姆能幫我?guī)?、陪他們,因?yàn)楦蛇@個(gè)我覺(jué)得很難,而且也不太理解娃當(dāng)前的認(rèn)知和想法。我希望工作上有個(gè)非常厲害的虛擬助手能跟我一起發(fā)明新的東西。等我老了也想有很有意思的機(jī)器人陪著。我對(duì)于未來(lái)的預(yù)測(cè)是,生產(chǎn)工具越來(lái)越發(fā)達(dá),一個(gè)人完成之前一個(gè)團(tuán)隊(duì)才能完成的事情,導(dǎo)致人類(lèi)更加個(gè)體獨(dú)立,大家都忙著追求自己的事情,從而更加孤獨(dú)。
這些綜合在一起,我們把愿景定成了“人類(lèi)陪伴的智能體”。一個(gè)情商很高的,智商在線(xiàn)的智能體。算換成現(xiàn)實(shí)中的人的話(huà),應(yīng)該會(huì)是一個(gè)專(zhuān)業(yè)團(tuán)隊(duì)。例如你想讓它陪你玩,那它是專(zhuān)業(yè)策劃+演員。陪你運(yùn)動(dòng),那么鼓勵(lì)師+專(zhuān)業(yè)運(yùn)動(dòng)教練。陪你學(xué)習(xí),那么能把你不懂的講懂。模型的好處是,它能做長(zhǎng)期的陪伴,真的了解你。而且可以“真心為你”。
不過(guò)目前技術(shù)離愿景還挺遙遠(yuǎn)。當(dāng)下技術(shù)就能陪著聊聊。很多場(chǎng)景下聊得也不是那么好,內(nèi)容匱乏,智商情商有時(shí)都不在線(xiàn)。都是當(dāng)下要解決的問(wèn)題。如果有小伙伴做這一塊的海外應(yīng)用,歡迎聯(lián)系我們。
團(tuán)隊(duì):有挑戰(zhàn)的事情得靠團(tuán)隊(duì)
創(chuàng)業(yè)之后才真正覺(jué)得團(tuán)隊(duì)的重要性。在大廠(chǎng)的時(shí)候,覺(jué)得自己是個(gè)螺絲釘,團(tuán)隊(duì)成員是螺絲,甚至團(tuán)隊(duì)也是個(gè)螺絲釘。但創(chuàng)業(yè)團(tuán)隊(duì)就是一輛車(chē)。車(chē)小點(diǎn),但能跑,能載重,轉(zhuǎn)彎靈活,各個(gè)角落都能去。公司成立不久的時(shí)候,米哈游老蔡來(lái)看了眼,看見(jiàn)所有人在一間房子里,他感慨說(shuō)小團(tuán)隊(duì)真好。
不方便的地方當(dāng)然也是有的,時(shí)刻要看有沒(méi)有油,不好走的路得小心別把車(chē)震散架了。每個(gè)成員都很重要,沒(méi)有冗余,一個(gè)人不給力,就可能是一個(gè)輪胎沒(méi)氣。人也寶貴,走一個(gè)人就可能少一個(gè)輪胎。
以前我選項(xiàng)目會(huì)選自己能主導(dǎo)開(kāi)發(fā)的。但這也意味著問(wèn)題不是很有挑戰(zhàn)性。創(chuàng)業(yè)選了個(gè)很大的問(wèn)題去做,只能全靠團(tuán)隊(duì)了。別看本文里用了大量的“我”,其實(shí)工作都是團(tuán)隊(duì)做的。沒(méi)了團(tuán)隊(duì),我可能得轉(zhuǎn)行去賣(mài)課了。
個(gè)人追求:名還是利?
到目前為止我都靠跟著內(nèi)心的聲音做決定,工作后再去讀博、去做視頻、去創(chuàng)業(yè)。創(chuàng)業(yè)需要強(qiáng)烈動(dòng)機(jī)的支撐,才能克服層出不窮的困難。這需要對(duì)自己的動(dòng)機(jī)做更深入的分析。
動(dòng)機(jī)要么來(lái)自欲望,要么來(lái)自恐懼。十年前我可能更熱衷名利,但到了現(xiàn)在的年紀(jì),覺(jué)得金錢(qián)的邊際效用已經(jīng)不高,名聲帶來(lái)的情緒價(jià)值也已經(jīng)很小。我深層的動(dòng)機(jī)來(lái)自對(duì)生命可能沒(méi)有意義的恐懼。先不說(shuō)宇宙的浩瀚,就是在人類(lèi)的歷史長(zhǎng)河,一個(gè)人也只是一粒沙。意外的到來(lái),迅速的消失。地球上生活過(guò)一千億人,絕大部分人不會(huì)在歷史上留下痕跡。我家家譜上那些人名,我?guī)缀醵疾徽J(rèn)識(shí)。
那么一個(gè)人的存在的意義是什么呢?小時(shí)候曾因?yàn)橄氩磺暹@個(gè)問(wèn)題而抑郁。所以潛意識(shí)里,我想去創(chuàng)造價(jià)值,獲得存在的意義。我選擇“上進(jìn)”,去提升自己的創(chuàng)造價(jià)值的能力;選擇錄長(zhǎng)視頻和寫(xiě)教材,創(chuàng)造教育價(jià)值;選擇去寫(xiě)讀博、工作、創(chuàng)業(yè)的總結(jié),描述里面的糾結(jié)和困難,創(chuàng)造事例的價(jià)值;選擇去創(chuàng)業(yè),團(tuán)結(jié)很多人的力量去創(chuàng)造更大價(jià)值。
后記
「去年跟宿華在斯坦福散步,他拍著我肩膀說(shuō):“跟我說(shuō)句實(shí)話(huà),你為什么想創(chuàng)業(yè)呀?”當(dāng)時(shí)候不以為然:“就是想換個(gè)事情做做”。然后宿華笑了笑。」
「現(xiàn)在我懂了,因?yàn)樗?jīng)歷了創(chuàng)業(yè)酸甜苦辣。如果今天再來(lái)回答這個(gè)問(wèn)題,我會(huì)說(shuō):“我就是腦子抽了”。但也慶幸當(dāng)時(shí)沒(méi)想到會(huì)那么不容易,所以一頭扎進(jìn)來(lái)了。否則,大家看到的可能是「工作十年反思」。我覺(jué)得今天我寫(xiě)的故事更有意思些。」
「致敬所有創(chuàng)業(yè)人。」
-End-
(最后廣告下沐神公司的招聘信息(灣區(qū)和溫哥華)https://jobs.lever.co/bosonai 有做出海應(yīng)用的小伙伴也請(qǐng)聯(lián)系沐神 [email protected])
