作為今年上半年最火的創(chuàng)業(yè)賽道,大模型已經(jīng)堪稱“百模大戰(zhàn)”。根據(jù)中國(guó)科學(xué)技術(shù)信息研究院《中國(guó)人工智能大模型地圖研究報(bào)告》,截至5月28日,國(guó)內(nèi)10億級(jí)參數(shù)規(guī)模以上大模型,至少已經(jīng)發(fā)布了79個(gè)。最近看一篇報(bào)道,里面提到一個(gè)數(shù)據(jù),國(guó)內(nèi)市場(chǎng)上已有130家公司在做大模型。
以終為始。從投資角度來(lái)看,預(yù)判大模型的終局是什么樣的,才能有助于我們?nèi)ニ伎际忻嫔系哪男┕局档每春谩碾娚唐脚_(tái)大戰(zhàn)一路看過來(lái)(有誰(shuí)還記得想做平臺(tái)最后一地雞毛的凡客嗎?),在科技賽道,絕大多數(shù)時(shí)候轟轟烈烈的“百云大戰(zhàn)”“千團(tuán)大戰(zhàn)”,99%玩家是黯然退出,只剩下贏家通吃。
縱觀這些年的贏家通吃賽道,基本可以用兩個(gè)詞概括:新平臺(tái)、新基建。如何理解呢?通常這類玩家,為一個(gè)產(chǎn)業(yè)提供了新的平臺(tái),通過技術(shù)變革的方式建立起產(chǎn)業(yè)新的基礎(chǔ)設(shè)施——類似高速公路、水電氣等基建,讓原有的產(chǎn)業(yè)鏈參與者能夠加入到新平臺(tái)來(lái),享有技術(shù)變革的紅利。
什么是大模型?第一,顧名思義是規(guī)模大,網(wǎng)絡(luò)參數(shù)達(dá)到百億規(guī)模;第二,通用性,是指不限于專門問題或領(lǐng)域;第三,涌現(xiàn)性,即產(chǎn)生預(yù)料之外的新能力。大模型的大規(guī)模和通用性,決定了其將是具備普適性的“新平臺(tái)、新基建”,其從一個(gè)行業(yè)遷移到另一個(gè)行業(yè)的應(yīng)用場(chǎng)景時(shí),成本低,易遷移。
可以斷言,放在大模型這一賽道,依然將是贏家通吃的終局。
那么,現(xiàn)在“百模大戰(zhàn)”的玩家里,誰(shuí)將笑到最后?大體來(lái)分,目前大模型的玩家有兩類,一類是大廠拉起的團(tuán)隊(duì),另一類是創(chuàng)業(yè)公司。這里可以有把握地說(shuō),在這個(gè)百模大戰(zhàn)中,大廠優(yōu)先。
我們可以參考另一個(gè)行業(yè)云計(jì)算的發(fā)展走向。當(dāng)年云計(jì)算興起的時(shí)候,國(guó)內(nèi)也出來(lái)很多創(chuàng)業(yè)公司玩家,但最終市場(chǎng)份額集中于大公司。根據(jù)IDC發(fā)布的2022年全球云計(jì)算IaaS市場(chǎng)追蹤數(shù)據(jù)來(lái)看,市場(chǎng)份額TOP10玩家都是中美的大公司,包括美國(guó)的亞馬遜、谷歌、微軟、IBM,中國(guó)的阿里、華為、騰訊、百度等。
后面我們會(huì)進(jìn)一步分析。不過這里先看看制約大模型的三個(gè)要素:數(shù)據(jù)、算力和算法。
先說(shuō)數(shù)據(jù)。
數(shù)據(jù)是大模型發(fā)展的壓艙石,除了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)數(shù)據(jù)之外,老百姓生活生產(chǎn)中產(chǎn)生的數(shù)據(jù)都是未來(lái)大模型要提升智能水平的必要數(shù)據(jù)源。目前,數(shù)據(jù)壁壘是真實(shí)存在的問題。高質(zhì)量的中文語(yǔ)料數(shù)據(jù)對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō)是個(gè)很大的挑戰(zhàn),數(shù)據(jù)的積累需要時(shí)間和經(jīng)驗(yàn)。對(duì)于像百度這樣常年累月通過搜索等多個(gè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)應(yīng)用積累起數(shù)據(jù)的公司來(lái)說(shuō),可以說(shuō)一開始就領(lǐng)先了至少幾個(gè)身位。
給AI喂下什么質(zhì)量的數(shù)據(jù),才能訓(xùn)練和迭代出什么水平的AI。
再說(shuō)算力。
通用大模型需要24×7連續(xù)訓(xùn)練,調(diào)度多個(gè)算力中心、協(xié)調(diào)資源,以云的方式提供智能服務(wù),這對(duì)算力有很大的需求。隨著參與大模型訓(xùn)練的企業(yè)越來(lái)越多,用來(lái)訓(xùn)練大模型的數(shù)據(jù)量越來(lái)越大,對(duì)推理的要求也越來(lái)越高,大模型的應(yīng)用會(huì)越來(lái)越廣。在以上因素綜合影響下,短期內(nèi)很難能夠滿足市場(chǎng)的算力需求。
這就意味著,大模型公司必須擁有穩(wěn)定的、靠譜的、能保障安全運(yùn)轉(zhuǎn)的算力。這顯然利于在云計(jì)算深耕布局的大廠。
當(dāng)年云計(jì)算創(chuàng)業(yè)公司,面臨大廠的夾擊,窄縫求生,專攻一個(gè)垂直行業(yè)的云計(jì)算市場(chǎng)——比如游戲行業(yè)。但是,游戲行業(yè)遭遇監(jiān)管重創(chuàng)的時(shí)候,云計(jì)算需求也大大降低,這導(dǎo)致該云計(jì)算創(chuàng)業(yè)公司的業(yè)務(wù)不穩(wěn)定,反過來(lái)又影響使用該家公司服務(wù)的客戶。
這也是為什么大模型和云計(jì)算同樣是贏家通吃的原因之一——大玩家能夠提供更為穩(wěn)定、可靠的服務(wù),成為客戶的優(yōu)先選擇。
最后說(shuō)算法。
大模型最底層的競(jìng)爭(zhēng)力來(lái)自算法。算法需要龐大的高級(jí)人才和長(zhǎng)期積累。相比百度這樣長(zhǎng)期投入AI的高科技企業(yè),后來(lái)者就缺乏相應(yīng)的儲(chǔ)備了。
為什么現(xiàn)在看起來(lái)有很多的公司做大模型呢?因?yàn)楝F(xiàn)在有開源的大模型和很多公開的論文可供參考,所以起步上會(huì)簡(jiǎn)單很多。但要做好大模型的門檻還是高的,像現(xiàn)在的GPT4沒有公開后續(xù)技術(shù)細(xì)節(jié),國(guó)內(nèi)很多大模型就很難繼續(xù)發(fā)展。
在SuperCLUE不久前發(fā)布的最新測(cè)評(píng)榜單中,可以看到,憑“硬實(shí)力”說(shuō)話,還是大廠更勝一籌,其中百度最新版本的文心一言,在中文領(lǐng)域已經(jīng)超過了GPT-3.5,僅次于GPT-4。
IDC發(fā)布的《AI大模型技術(shù)能力評(píng)估報(bào)告2023》中,就圍繞著產(chǎn)品技術(shù)、服務(wù)生態(tài)以及行業(yè)應(yīng)用三大維度,考察大模型的10余項(xiàng)指標(biāo),對(duì)國(guó)內(nèi)主流大模型進(jìn)行評(píng)估。其中,百度文心大模型獲得綜合評(píng)分、算法模型、行業(yè)覆蓋等多項(xiàng)第一。在服務(wù)能力、生態(tài)合作等方面,幾大主流大模型也可謂是各有千秋。
這無(wú)疑體現(xiàn)了,大廠在大模型競(jìng)賽中的絕對(duì)優(yōu)勢(shì)。在產(chǎn)品技術(shù)和行業(yè)應(yīng)用上,遠(yuǎn)勝過二三線的競(jìng)品。比如排名第一的文心大模型,據(jù)其官方透露,已經(jīng)有15萬(wàn)家企業(yè)申請(qǐng)接入文心一言測(cè)試,百度智能云與300多家生態(tài)伙伴,在超過400個(gè)場(chǎng)景中已取得相當(dāng)不錯(cuò)的測(cè)試效果,并聯(lián)合多家企業(yè)單位合作發(fā)布了11個(gè)行業(yè)大模型。
越多的應(yīng)用場(chǎng)景,能形成越多的反饋,從而對(duì)模型進(jìn)行更好的調(diào)整;而模型也因此產(chǎn)生更多的經(jīng)濟(jì)價(jià)值,可獲得更多的資金投入,反哺自身。
需要指出的是,大模型高昂的訓(xùn)練成本和研發(fā)投入,讓眾多入局者望而生畏。有企業(yè)家斷言,每年5000萬(wàn)到1億美元的花費(fèi),只是千億級(jí)大模型訓(xùn)練的入場(chǎng)券。某個(gè)創(chuàng)業(yè)者高調(diào)宣布投資5000萬(wàn)美元入局大模型時(shí),海通證*的電子研究首席分析師鄭宏達(dá)發(fā)朋友圈直言說(shuō):“5000萬(wàn)美元夠干什么的?大模型訓(xùn)練一次就花500萬(wàn)美元,訓(xùn)練10次?”四個(gè)月之后,該創(chuàng)業(yè)公司被收購(gòu),出局。
當(dāng)年共享單車也是百團(tuán)大戰(zhàn),打得頭破血流,結(jié)果笑到最后的是美團(tuán)。無(wú)他,資金充足。在以年計(jì)、甚至以十年計(jì)的競(jìng)爭(zhēng)中,這種重資本重研發(fā)的賽道,毫無(wú)疑問是利于大公司的。在大公司中,我們還要看人工智能是不是公司的主業(yè),是不是公司的核心競(jìng)爭(zhēng)力所在。比如百度10年研發(fā),為人工智能投入上千億元。從近三年的研發(fā)投入來(lái)看,2020年研發(fā)費(fèi)用為195.1億元,研發(fā)占比為18.2%;2021年研發(fā)費(fèi)用為249.4億元,研發(fā)占比為20%;2022年百度研發(fā)費(fèi)用為233.2億元,研發(fā)占比為19%。
這是一場(chǎng)漫長(zhǎng)的、看不到終點(diǎn)的長(zhǎng)跑,競(jìng)爭(zhēng)的韌性將左右最后的結(jié)果。
需要額外指出的是,人工智能對(duì)數(shù)據(jù)的需求以及其對(duì)人類社會(huì)的沖擊力,使得國(guó)家監(jiān)管會(huì)成為一個(gè)很重要的考慮因素。7月13日,國(guó)家網(wǎng)信辦、發(fā)改委、科技部、工信部等七部門正式發(fā)布了《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱“《辦法》”),《辦法》將自2023年8月15日起施行。其中提出國(guó)家堅(jiān)持發(fā)展和安全并重、促進(jìn)創(chuàng)新和依法治理相結(jié)合的原則,采取有效措施鼓勵(lì)生成式人工智能創(chuàng)新發(fā)展,對(duì)生成式人工智能服務(wù)實(shí)行包容審慎和分類分級(jí)監(jiān)管。
在2023WA-IC期間,由國(guó)家標(biāo)準(zhǔn)委指導(dǎo)的人工智能標(biāo)準(zhǔn)化總體組宣布,我國(guó)首個(gè)大模型標(biāo)準(zhǔn)化專題組組長(zhǎng)由上海人工智能實(shí)驗(yàn)室與百度、華為等企業(yè)聯(lián)合擔(dān)任,現(xiàn)場(chǎng)進(jìn)行了證書頒發(fā)并正式啟動(dòng)大模型測(cè)試國(guó)家標(biāo)準(zhǔn)制訂工作。在“百模大戰(zhàn)”的現(xiàn)狀下,此舉被解讀為大模型行業(yè)迎來(lái)“國(guó)家隊(duì)”陣容。
以贏家通吃的終局為前提下,我們判斷是,在僅有幾家通用大模型的基礎(chǔ)上,將有多個(gè)領(lǐng)域的垂直大模型。龍頭企業(yè)研發(fā)通用+中小企業(yè)研發(fā)應(yīng)用,這種模式成為破局關(guān)鍵。