作者|真梓(微信ID:315159284)
Ray(微信ID:raylazy)
編輯|石亞瓊
把冷板凳坐熱的不僅有國(guó)內(nèi)的半導(dǎo)體企業(yè),還有一眾國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商。36氪不久前統(tǒng)計(jì),在2020-2021年獲得融資的國(guó)產(chǎn)數(shù)據(jù)庫(kù)公司超過(guò)40家。僅2021年一年,獲得新一輪融資的企業(yè)就多達(dá)20家。
這股風(fēng)潮一直延續(xù)到2022年。近期,36氪分別報(bào)道了云原生實(shí)時(shí)數(shù)倉(cāng)廠商「飛輪科技」天使輪和天使+輪獲超3億元融資,以及分布式數(shù)據(jù)庫(kù)和AI PaaS平臺(tái)「天云數(shù)據(jù)」數(shù)億元D輪融資的消息。值得一提的是,拿下超3億元融資的「飛輪科技」,成立時(shí)間尚不足半年,不得不說(shuō)是一個(gè)十分亮眼的融資成績(jī)。
更多被風(fēng)投布局的項(xiàng)目還隱匿在水下。36氪了解到,即使在過(guò)冬論調(diào)四起的當(dāng)下,仍有一些大廠光環(huán)加身的創(chuàng)業(yè)公司,大概率將以超出想象的價(jià)格完成新一輪融資。
種種跡象表明,這可能是國(guó)產(chǎn)數(shù)據(jù)庫(kù)里程碑式的時(shí)代。至少過(guò)去,中國(guó)數(shù)據(jù)庫(kù)領(lǐng)域從未發(fā)生過(guò)這種連年持續(xù)的融資勝景。
作為一種對(duì)數(shù)據(jù)進(jìn)行增刪改查和分析的基礎(chǔ)軟件,數(shù)據(jù)庫(kù)起源于美國(guó),發(fā)揚(yáng)于歐美,國(guó)產(chǎn)數(shù)據(jù)庫(kù)的應(yīng)用長(zhǎng)期處于追隨者地位。一個(gè)核心節(jié)點(diǎn)是,自上世紀(jì)80年代后IBM、Oracle等海外關(guān)系型數(shù)據(jù)庫(kù)廠商紛紛入華,拿下金融、電信等領(lǐng)域核心客戶后,國(guó)內(nèi)關(guān)系型數(shù)據(jù)庫(kù)市場(chǎng)(尤其是OLTP)幾乎被外企壟斷。也正因起步晚,又錯(cuò)失這一主流戰(zhàn)場(chǎng),長(zhǎng)期以來(lái)國(guó)內(nèi)數(shù)據(jù)庫(kù)企業(yè)寥寥可數(shù)。直到2010年,叫得出名字的公司只有兩位數(shù)。
反觀現(xiàn)在,在公開(kāi)盤點(diǎn)中,已有超200個(gè)國(guó)產(chǎn)數(shù)據(jù)庫(kù)浮出水面。這其中不僅有歷史較久的關(guān)系型數(shù)據(jù)庫(kù),還包括圖數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)等新型數(shù)據(jù)庫(kù)。在每個(gè)細(xì)分領(lǐng)域,都有被VC高價(jià)追逐的早期項(xiàng)目。
若順著半導(dǎo)體爆火的思路深究,國(guó)內(nèi)創(chuàng)投風(fēng)向的轉(zhuǎn)換或被視作這一現(xiàn)象出現(xiàn)的動(dòng)因。但更本質(zhì)的邏輯是,一方面,中國(guó)在過(guò)去10年間深入?yún)⑴c了移動(dòng)浪潮,在電商、游戲、直播等場(chǎng)景中打磨了IT能力;另一方面,自1999年第一批國(guó)產(chǎn)數(shù)據(jù)庫(kù)企業(yè)陸續(xù)成立開(kāi)始,各廠商已開(kāi)啟長(zhǎng)達(dá)20年的實(shí)踐之路,相對(duì)減少了與國(guó)際對(duì)手的能力差距。
所以,市場(chǎng)需求的迭代,和廠商們持續(xù)積累的產(chǎn)品能力,才是改變這場(chǎng)游戲規(guī)則的主因。在此基礎(chǔ)上,國(guó)產(chǎn)化替代和全球化開(kāi)放的機(jī)會(huì),又讓國(guó)產(chǎn)玩家們走近舞臺(tái)中央。
天時(shí)地利具備,這場(chǎng)發(fā)起源于2020年、綿延至2022年的國(guó)產(chǎn)數(shù)據(jù)庫(kù)投資熱,其實(shí)是技術(shù)演進(jìn)和需求迭代下的必然結(jié)果。而投資趨勢(shì)更加硬核,成為這場(chǎng)必然的加速器。
為更深入地觀察這場(chǎng)變革,本文將從數(shù)據(jù)庫(kù)的技術(shù)演進(jìn)角度入手,探討國(guó)產(chǎn)數(shù)據(jù)庫(kù)的成長(zhǎng)動(dòng)因,同時(shí)基于新鮮一手信息和歷史資料,剖析當(dāng)下國(guó)產(chǎn)數(shù)據(jù)庫(kù)面臨的機(jī)遇與挑戰(zhàn)。具體而言,我們將重點(diǎn)解釋以下問(wèn)題:
1.多種類型數(shù)據(jù)庫(kù)的演進(jìn)邏輯和分類維度
2.當(dāng)下數(shù)據(jù)庫(kù)領(lǐng)域出現(xiàn)的技術(shù)規(guī)律
3.國(guó)內(nèi)外數(shù)據(jù)庫(kù)廠商成長(zhǎng)環(huán)境的差異
4.當(dāng)下數(shù)據(jù)庫(kù)廠商的不同商業(yè)路徑,及分野原因
5.選擇不同商業(yè)化路徑的數(shù)據(jù)庫(kù)廠商,分別會(huì)面臨怎樣的挑戰(zhàn)
在文末,我們也將對(duì)相關(guān)廠商進(jìn)行分類,為讀者展示更全面的國(guó)產(chǎn)數(shù)據(jù)庫(kù)圖譜,以期幫助讀者進(jìn)一步了解行業(yè),理解當(dāng)下的行業(yè)全景。
一. 產(chǎn)品:分類維度多種多樣,技術(shù)規(guī)律逐漸趨同
數(shù)據(jù)庫(kù)形形色色:歷史演進(jìn)下的必然
作為一種歷史悠久的基礎(chǔ)軟件,數(shù)據(jù)庫(kù)的產(chǎn)生離不開(kāi)飛速變化的數(shù)據(jù)生態(tài)。過(guò)去近60年間,隨著信息化、數(shù)字化、智能化浪潮一次次襲來(lái),數(shù)據(jù)的規(guī)模和使用方式都發(fā)生了巨大變化。
據(jù)國(guó)際數(shù)據(jù)公司(IDC)的監(jiān)測(cè),近幾年全球大數(shù)據(jù)儲(chǔ)量的增速每年保持在40%左右,2016年增長(zhǎng)率甚至高達(dá)到87.21%。具體數(shù)據(jù)上,2016年-2019年四年間全球大數(shù)據(jù)儲(chǔ)量分別為16.1ZB、21.6ZB、33.0ZB、41ZB,儲(chǔ)量迅速上升。
當(dāng)數(shù)據(jù)量飛速上漲,各種基于大數(shù)據(jù)的應(yīng)用層出不窮,承載這一切想象力的基礎(chǔ)軟件——數(shù)據(jù)庫(kù),也從早期的關(guān)系型,演化出包括圖數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、流式數(shù)據(jù)庫(kù)、內(nèi)存數(shù)據(jù)庫(kù)、向量數(shù)據(jù)庫(kù)、數(shù)據(jù)湖等在內(nèi)的多種功能形態(tài)。產(chǎn)品架構(gòu)也從單機(jī)向分布式、云原生等形態(tài)擴(kuò)展。一個(gè)證明,如今DB- Engines上覆蓋的數(shù)據(jù)庫(kù)已有約400個(gè)。
看著紛繁復(fù)雜的產(chǎn)品形態(tài),很難想象,最初數(shù)據(jù)庫(kù)想解決的問(wèn)題,其實(shí)非常簡(jiǎn)單。
上世紀(jì)六十年代,IBM等先驅(qū)開(kāi)發(fā)了最早用于管理數(shù)據(jù)的系統(tǒng),“數(shù)據(jù)庫(kù)”這個(gè)名字就此出現(xiàn)。當(dāng)時(shí),數(shù)據(jù)庫(kù)主要用來(lái)管理如倉(cāng)庫(kù)存貨清單、圖書館借閱記錄一類信息,要解決的兩大核心問(wèn)題分別是信息的存儲(chǔ)與查詢。
比如,當(dāng)圖書館中一本書被借走,對(duì)應(yīng)的借閱信息能被記錄并寫入數(shù)據(jù)庫(kù),讀者可基于數(shù)據(jù)庫(kù)內(nèi)的信息直接查詢這本書是否已歸還。人們發(fā)現(xiàn)把數(shù)據(jù)拆成不同的表單,并將其中的聯(lián)系對(duì)應(yīng),就能更高效管理信息。這種數(shù)據(jù)庫(kù)也被稱為關(guān)系型數(shù)據(jù)庫(kù),是最傳統(tǒng)也最常見(jiàn)的數(shù)據(jù)庫(kù)種類。
后來(lái),隨著數(shù)據(jù)種類的變化,人們又逐漸開(kāi)發(fā)了適應(yīng)不同場(chǎng)景的新型數(shù)據(jù)庫(kù),如專注于文檔存儲(chǔ)的文檔型數(shù)據(jù)庫(kù),記錄傳感器每時(shí)每秒產(chǎn)生的數(shù)據(jù)的時(shí)序型數(shù)據(jù)庫(kù)等。
而隨著數(shù)據(jù)量的增大,一臺(tái)機(jī)器已無(wú)法滿足數(shù)據(jù)的存儲(chǔ)與處理要求,因而出現(xiàn)了新的數(shù)據(jù)庫(kù)架構(gòu),如采用多臺(tái)機(jī)器的分布式數(shù)據(jù)庫(kù)、基于內(nèi)存的內(nèi)存型數(shù)據(jù)庫(kù)。
到云計(jì)算時(shí)代,又出現(xiàn)了依托于云平臺(tái)的云原生數(shù)據(jù)庫(kù),讓數(shù)據(jù)庫(kù)也能享受云計(jì)算的彈性與便捷。從管理小小的一間圖書館,到互聯(lián)網(wǎng)時(shí)代的大數(shù)據(jù)分析,隨著數(shù)據(jù)量的擴(kuò)大與數(shù)據(jù)類型的增多,針對(duì)不同場(chǎng)景、采用不同架構(gòu)的數(shù)據(jù)庫(kù)種類也越來(lái)越多。
一個(gè)基本事實(shí)是,當(dāng)前全世界的數(shù)據(jù)庫(kù)產(chǎn)品至少多達(dá)數(shù)百種。而作為一種對(duì)數(shù)據(jù)進(jìn)行查詢、存儲(chǔ)、修改和分析的軟件,由于討論語(yǔ)境的側(cè)重點(diǎn)不同,數(shù)據(jù)庫(kù)也存在多種不同分類方式,每種分類各有側(cè)重。
所以,綜合技術(shù)演進(jìn)、用戶存儲(chǔ)查詢的數(shù)據(jù)特征、數(shù)據(jù)規(guī)模,以及行業(yè)認(rèn)可度等維度,我們將從數(shù)據(jù)格式、擴(kuò)展能力、分析能力以及使用場(chǎng)景四個(gè)角度對(duì)數(shù)據(jù)庫(kù)進(jìn)行分類。
數(shù)據(jù)庫(kù)分類維度
根據(jù)數(shù)據(jù)格式分類:數(shù)據(jù)格式通常被分類為結(jié)構(gòu)化(structured)數(shù)據(jù)和非結(jié)構(gòu)化(unstructured)數(shù)據(jù),其中非結(jié)構(gòu)化數(shù)據(jù)又包括文檔型(document)數(shù)據(jù)以及鍵值對(duì)(key-value)等多種類型。
在數(shù)據(jù)庫(kù)領(lǐng)域中,最常見(jiàn)的是結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)會(huì)有固定的格式,如網(wǎng)購(gòu)的時(shí)候,一般會(huì)有訂單號(hào)、用戶 ID、商家 ID 等信息,對(duì)于不同的網(wǎng)購(gòu)交易來(lái)說(shuō),每筆交易信息的格式都一樣,因此用戶可以事先定義好數(shù)據(jù)的格式(schema),此時(shí)通常會(huì)使用關(guān)系型(relational)數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)。有些數(shù)據(jù)更側(cè)重文本信息,比如微博、博客,有大段文字信息,與之對(duì)應(yīng)的就是文檔型(document)數(shù)據(jù)庫(kù)。有些數(shù)據(jù)則是簡(jiǎn)單的鍵值對(duì)(key-value),例如用戶的 ID 與頭像,通常會(huì)有一一對(duì)應(yīng)的關(guān)系,這時(shí)候可以在鍵值對(duì)型的數(shù)據(jù)庫(kù)中存儲(chǔ)這些信息。
根據(jù)擴(kuò)展能力分類:數(shù)據(jù)庫(kù)可分為單機(jī)型、分布式型以及云原生型。單機(jī)型數(shù)據(jù)庫(kù)通常只在一臺(tái)機(jī)器上運(yùn)行,因而維護(hù)起來(lái)比較簡(jiǎn)單,但擴(kuò)展能力有限,比如最常被用作個(gè)人博客后端的數(shù)據(jù)庫(kù) MySQL,足以勝任幾百篇博客的備份存儲(chǔ),以及一天幾千次的訪問(wèn)量;分布式數(shù)據(jù)庫(kù)一般被部署在多臺(tái)機(jī)器組成的集群中,可以在一臺(tái)或多臺(tái)機(jī)器損壞的時(shí)候,通過(guò)多臺(tái)機(jī)器之間的備份機(jī)制,保證業(yè)務(wù)不被干擾;云原生數(shù)據(jù)庫(kù)則被部署在云端,如阿里云或者 AWS 上,由數(shù)據(jù)庫(kù)廠家進(jìn)行機(jī)器的維護(hù)管理,用戶只需要按讀取次數(shù)和存儲(chǔ)空間的大小進(jìn)行付費(fèi)。
根據(jù)分析能力分類:數(shù)據(jù)庫(kù)有 OLTP、OLAP 和 HTAP 三大類。OLTP 類數(shù)據(jù)庫(kù)通常用來(lái)支持在線交易,如網(wǎng)購(gòu)時(shí),每筆新的訂單都對(duì)應(yīng)一條新的數(shù)據(jù)記錄,OLTP 類數(shù)據(jù)庫(kù)需要在極短的時(shí)間內(nèi),將這條新的記錄存儲(chǔ)下來(lái);OLAP 類數(shù)據(jù)庫(kù)則更多的對(duì)應(yīng)離線數(shù)據(jù)分析,如分析某個(gè)商家當(dāng)月的銷售總額時(shí),需要掃描當(dāng)月所有訂單并把它們的金融累加起來(lái),這時(shí)候需要讀取多條記錄,但用戶通??梢缘却龓追昼姷綆仔r(shí);HTAP 型數(shù)據(jù)庫(kù)則同時(shí)支持 OLTP 和 OLAP 兩種類型的操作,來(lái)進(jìn)行實(shí)時(shí)的數(shù)據(jù)監(jiān)控,比如說(shuō)當(dāng)檢測(cè)到某一瞬間訂單量突然下降時(shí),HTAP 型數(shù)據(jù)庫(kù)可以提醒用戶對(duì)系統(tǒng)進(jìn)行檢查并及時(shí)排除故障。
根據(jù)使用場(chǎng)景分類:除了以上提到的幾種常見(jiàn)的數(shù)據(jù)格式,一些特殊的使用場(chǎng)景下用戶會(huì)使用專門的數(shù)據(jù)庫(kù)。對(duì)于物聯(lián)網(wǎng)設(shè)備每時(shí)每刻都在產(chǎn)生的信息,時(shí)序數(shù)據(jù)庫(kù)會(huì)特意根據(jù)數(shù)據(jù)產(chǎn)生的時(shí)間來(lái)組織底層存儲(chǔ)結(jié)構(gòu),因而更加高效;圖數(shù)據(jù)庫(kù)更適用于可以抽象為點(diǎn)和線的信息,比如銀行的交易流水,每個(gè)賬戶可以看作一個(gè)點(diǎn),兩個(gè)賬戶之間的轉(zhuǎn)賬可以當(dāng)作一條邊,使用圖數(shù)據(jù)庫(kù)能更快地追溯錢款的走向;此外,常見(jiàn)的場(chǎng)景還有文本檢索、流式數(shù)據(jù)分析、MapReduce 分析等,這些相應(yīng)的大數(shù)據(jù)工具,也可以看作是廣義的數(shù)據(jù)庫(kù)擴(kuò)展。
市面上的數(shù)據(jù)庫(kù)公司都有自己的側(cè)重,不同公司之間的業(yè)務(wù)重點(diǎn)不同,也會(huì)存在重疊,因此在多個(gè)維度下,一個(gè)特定的數(shù)據(jù)庫(kù)通常會(huì)被分入多個(gè)不同的類別,比如 MySQL,既是結(jié)構(gòu)化數(shù)據(jù)庫(kù),又是單機(jī)型數(shù)據(jù)庫(kù)以及 OLTP 型數(shù)據(jù)庫(kù)。
開(kāi)源、分布式、分析能力被看重,技術(shù)規(guī)律逐步趨同
數(shù)據(jù)庫(kù)種類繁多已經(jīng)是不爭(zhēng)事實(shí)。不過(guò)從更宏觀的產(chǎn)業(yè)迭代角度,數(shù)據(jù)庫(kù)領(lǐng)域的技術(shù)演進(jìn),已經(jīng)隨著需求變遷而產(chǎn)生一定共識(shí)。在這一層面,通過(guò)查閱資料并盤點(diǎn)新興的數(shù)十家數(shù)據(jù)庫(kù)公司,我們發(fā)現(xiàn)在全球范圍內(nèi),數(shù)據(jù)庫(kù)領(lǐng)域已經(jīng)產(chǎn)生如下技術(shù)趨勢(shì):
代碼開(kāi)源成為主流
當(dāng)前,開(kāi)源已是全球議題。多家公司都選擇將核心代碼開(kāi)源來(lái)獲取用戶,擴(kuò)展功能閉源來(lái)產(chǎn)生利潤(rùn)。選擇開(kāi)源并與社區(qū)共同開(kāi)發(fā)數(shù)據(jù)庫(kù)內(nèi)核的有國(guó)外的PostgreSQL、MongoDB與CockroachDB,國(guó)內(nèi)的TiDB等。這樣做的好處是降低用戶嘗試的成本,畢竟對(duì)于開(kāi)源代碼,用戶可以自己免費(fèi)編譯、部署與試用。同時(shí),用戶也可以根據(jù)自己的需要去直接調(diào)整源代碼,使數(shù)據(jù)庫(kù)更切近自身需求。此外,來(lái)自開(kāi)源社區(qū)的愛(ài)好者們也可以貢獻(xiàn)自己的代碼,討論相關(guān)功能,并可以從源代碼的層面去解決用戶遇到的疑難雜癥。再者,開(kāi)源也被不少中小公司視作獲得客戶信任的一種方式。
不過(guò),關(guān)于開(kāi)源和商業(yè)化之間的爭(zhēng)論也從未停止。于是,對(duì)于一些進(jìn)階功能,商業(yè)公司可能會(huì)選擇閉源,比如MongoDB的企業(yè)級(jí)數(shù)據(jù)保護(hù)功能是閉源并收費(fèi)的。而部分云數(shù)據(jù)庫(kù)則選擇始終閉源,如Snowflake,畢竟大部分用戶并沒(méi)有能力在云端部署云原生的數(shù)據(jù)庫(kù),而只能直接使用云數(shù)據(jù)庫(kù)的相關(guān)服務(wù)。
分布式可以讓數(shù)據(jù)庫(kù)更強(qiáng)大
在互聯(lián)網(wǎng)時(shí)代之前,單機(jī)型數(shù)據(jù)庫(kù),如MySQL,可以滿足大多中小網(wǎng)站的數(shù)據(jù)需要,而銀行則使用中大型機(jī),單價(jià)不菲。在如今的大數(shù)據(jù)時(shí)代,單機(jī)已經(jīng)沒(méi)辦法滿足人們對(duì)數(shù)據(jù)庫(kù)的性能要求,而分布式技術(shù),通過(guò)增加機(jī)器的數(shù)量,可以更經(jīng)濟(jì)實(shí)惠的解決用戶的數(shù)據(jù)需求,近些年新興的數(shù)據(jù)庫(kù)公司也多采用分布式的架構(gòu),如TiDB、MongoDB等。開(kāi)源與分布式同時(shí)也為用戶提供了更多選擇,用戶不再被局限在某兩三種數(shù)據(jù)庫(kù)的選擇題里,而運(yùn)行這些數(shù)據(jù)庫(kù)的機(jī)器也可以是性能較好的家用機(jī),不再是以前成本令人生畏的中大型機(jī),更多的中小公司有能力選擇性能更為強(qiáng)大的分布式集群作為數(shù)據(jù)解決方案。
但在某些實(shí)操場(chǎng)景中,分布式是否真的可以降本增效還存在爭(zhēng)議。有國(guó)內(nèi)從業(yè)者指出,分布式和單機(jī)型數(shù)據(jù)庫(kù)適用的場(chǎng)景不一。具體而言,他認(rèn)為由于分布式相較于單機(jī)會(huì)存在性能瓶頸,所以跨節(jié)點(diǎn)的大數(shù)據(jù)量查詢場(chǎng)景可能會(huì)存在瓶頸。另外,數(shù)據(jù)庫(kù)的投入需要衡量不同架構(gòu)的硬件成本、運(yùn)維成本等多個(gè)維度,采用何種架構(gòu)才能降本增效是一個(gè)綜合性命題,不能一概而論??蛻魬?yīng)該依照自身業(yè)務(wù)需求綜合評(píng)判。
對(duì)數(shù)據(jù)庫(kù)廠商而言,分布式帶來(lái)了新的架構(gòu)變化
大公司的數(shù)據(jù)庫(kù)通常會(huì)采取多層架構(gòu),像積木一樣,將數(shù)據(jù)庫(kù)分為分析層,事務(wù)層,存儲(chǔ)層等層次,不同的數(shù)據(jù)庫(kù)可能會(huì)使用同樣的底層代碼。如螞蟻集團(tuán)的時(shí)序數(shù)據(jù)庫(kù)CeresDB就基于OceanBase 分布式存儲(chǔ)引擎底座。這樣做的好處是提高了代碼的使用率,減少了重復(fù)勞動(dòng),同時(shí),數(shù)據(jù)庫(kù)的各個(gè)層次都可以交由專門的團(tuán)隊(duì)負(fù)責(zé),提高工程師的專注度。此外,新的架構(gòu)也帶來(lái)了新的挑戰(zhàn),如在單機(jī)型數(shù)據(jù)庫(kù)中,數(shù)據(jù)的存儲(chǔ)與計(jì)算天然就在同一臺(tái)機(jī)器中進(jìn)行,而對(duì)于分布式和云原生數(shù)據(jù)庫(kù)來(lái)說(shuō),則需要想辦法進(jìn)行存算分離,以便于存儲(chǔ)層和計(jì)算層可以獨(dú)自擴(kuò)展,有些用戶可能需要更多的存儲(chǔ)空間,其它用戶則可能需要更強(qiáng)的計(jì)算能力,這樣大家可以各取所需。
數(shù)據(jù)庫(kù)即服務(wù)讓產(chǎn)品使用越來(lái)越簡(jiǎn)單
在最近的三十年里,對(duì)用戶來(lái)言,數(shù)據(jù)庫(kù)從最初需要付費(fèi)購(gòu)買使用許可的軟件,變成了可以自己編譯運(yùn)行的開(kāi)源代碼,再變成需要自己采購(gòu)多臺(tái)機(jī)器組成機(jī)群來(lái)調(diào)度使用的分布式系統(tǒng),最后又成為只需要按數(shù)據(jù)的讀取次數(shù)付費(fèi)的云數(shù)據(jù)庫(kù)服務(wù)(即Database-as-a-service)。
云原生數(shù)據(jù)庫(kù)讓用戶省去了數(shù)據(jù)庫(kù)集群維護(hù)、性能擴(kuò)展的煩惱,也帶來(lái)了新的按讀取次數(shù)收費(fèi)的模式:比如在微軟CosmosDB的serverless收費(fèi)模式下,用戶并不知道微軟到底維護(hù)了多少臺(tái)機(jī)器,只需要關(guān)心自己對(duì)CosmosDB的讀取次數(shù)并以此付費(fèi),數(shù)據(jù)庫(kù)集群的擴(kuò)展管理工作則由用戶交給微軟來(lái)統(tǒng)一調(diào)度負(fù)責(zé),用戶則可以減少工程師團(tuán)隊(duì)規(guī)模并降低宕機(jī)風(fēng)險(xiǎn)。
費(fèi)用與安全性方面,對(duì)大部分中小公司來(lái)說(shuō),使用大廠的服務(wù)也比自行維護(hù)數(shù)據(jù)庫(kù)集群更經(jīng)濟(jì)可靠,畢竟大廠可以招聘成百上千的數(shù)據(jù)庫(kù)領(lǐng)域?qū)<襾?lái)專注提升數(shù)據(jù)庫(kù)服務(wù)。此外,云廠商的數(shù)據(jù)庫(kù)通常會(huì)與云廠商的主機(jī)有更密切的結(jié)合,用戶會(huì)更傾向于在某家云廠商進(jìn)行一站式的采購(gòu),使用同一家云廠商的主機(jī)與數(shù)據(jù)庫(kù)。只是這樣用戶也加大了對(duì)云廠商的依賴,當(dāng)云服務(wù)中斷的時(shí)候,用戶的業(yè)務(wù)通常也會(huì)受影響。
云平臺(tái)使多地區(qū)的數(shù)據(jù)服務(wù)成為可能
依托于云平臺(tái),用戶可以在美國(guó)的東西海岸,或者中國(guó)的北京、深圳等地輕松建立多個(gè)數(shù)據(jù)中心,使用本地的數(shù)據(jù)中心來(lái)服務(wù)本地用戶,以此減少消息延遲并滿足數(shù)據(jù)本地化的合規(guī)要求,并且,用戶也可以在異地進(jìn)行數(shù)據(jù)備份。而在云時(shí)代之前,這些多地操作需要很高的成本,因?yàn)檫@意味著要在不同地區(qū)部署多個(gè)機(jī)房,當(dāng)時(shí)只有少數(shù)大廠才能做到。
數(shù)據(jù)庫(kù)的分析能力越來(lái)越被看重
傳統(tǒng)數(shù)據(jù)庫(kù)分為OLTP(在線交易型)與OLAP(在線分析型)兩大類型,而近些年HTAP(混合型)數(shù)據(jù)庫(kù)也更受歡迎,成為新的業(yè)界發(fā)展方向。這是因?yàn)樵诖髷?shù)據(jù)時(shí)代,數(shù)據(jù)的分析價(jià)值越來(lái)越大,比如抖音等軟件,需要根據(jù)統(tǒng)計(jì)結(jié)果來(lái)提升自身推送服務(wù)的精準(zhǔn)度,這就需要數(shù)據(jù)庫(kù)與機(jī)器學(xué)習(xí)等工具有更緊密的融合,也需要數(shù)據(jù)庫(kù)能更高效得存儲(chǔ)并查詢海量數(shù)據(jù)。此外,新興的數(shù)據(jù)使用場(chǎng)景也帶來(lái)了新興的數(shù)據(jù)庫(kù)細(xì)分市場(chǎng),如文檔型數(shù)據(jù)庫(kù)多使用MongoDB存儲(chǔ),物聯(lián)網(wǎng)數(shù)據(jù)則需要流式數(shù)據(jù)庫(kù)或者時(shí)序數(shù)據(jù)庫(kù)來(lái)實(shí)時(shí)存儲(chǔ)查詢,也帶來(lái)了新的創(chuàng)業(yè)機(jī)會(huì)。
二.商業(yè)化:漫漫蟄伏期過(guò)后,國(guó)產(chǎn)數(shù)據(jù)庫(kù)打開(kāi)新世界
追隨者的前行
產(chǎn)品力是科技公司的立身之本,商業(yè)化是公司綜合能力的"試金石"。但早前,由于技術(shù)源自國(guó)外、市場(chǎng)多被外企壟斷等因素,國(guó)內(nèi)數(shù)據(jù)庫(kù)廠商一直帶著"追隨者"的標(biāo)簽踽踽前行,商業(yè)想象力并不充足。
不過(guò)近5~10年,情況發(fā)生了顯著變化。在墨天輪的盤點(diǎn)中,我們可以看到有超過(guò)200個(gè)國(guó)產(chǎn)數(shù)據(jù)庫(kù)已浮出水面,這其中不僅包括歷史較久的關(guān)系型數(shù)據(jù)庫(kù),還包括圖數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)等新型數(shù)據(jù)庫(kù)。
抽絲剝繭地去看,這種現(xiàn)象的出現(xiàn),和國(guó)內(nèi)數(shù)據(jù)庫(kù)行業(yè)的持續(xù)積累息息相關(guān)。
其實(shí)在早前,中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)研究的開(kāi)展并不算晚。1977年,數(shù)據(jù)庫(kù)學(xué)組成立于安徽黃山會(huì)議,當(dāng)時(shí)即定位于進(jìn)行該領(lǐng)域的教學(xué)、科研等。但不可否認(rèn),國(guó)外產(chǎn)品在應(yīng)用落地上的持續(xù)搶先,讓國(guó)內(nèi)客戶首先采用了國(guó)外產(chǎn)品,也讓國(guó)產(chǎn)廠商在實(shí)踐中也多依賴于開(kāi)源產(chǎn)品,從而錯(cuò)失了自主產(chǎn)品的產(chǎn)業(yè)化機(jī)會(huì)。
但在近20年里,由于新場(chǎng)景的出現(xiàn)和移動(dòng)浪潮的興起,國(guó)產(chǎn)數(shù)據(jù)庫(kù)的實(shí)踐也多了起來(lái)。最典型的例子就是,互聯(lián)網(wǎng)廠商出于自身的業(yè)務(wù)訴求,而自行開(kāi)展數(shù)據(jù)庫(kù)產(chǎn)品的打磨。
也正在這些實(shí)踐中,國(guó)產(chǎn)數(shù)據(jù)庫(kù)的產(chǎn)品應(yīng)用逐步和國(guó)際接軌,縮減了差距。
前文提到,全球數(shù)據(jù)庫(kù)領(lǐng)域已經(jīng)產(chǎn)生代碼開(kāi)源、分布式架構(gòu)、分析能力更被看重等技術(shù)趨勢(shì)。這些技術(shù)幾乎已形成全球共識(shí),中國(guó)也不例外。
比如,分布式系統(tǒng)的理念主要來(lái)自于Google于2003~2006年發(fā)布的三篇論文。在這段時(shí)間里,國(guó)內(nèi)第一批數(shù)據(jù)庫(kù)公司,人大金倉(cāng)、武漢達(dá)夢(mèng)、南大通用相繼成立。曾有老牌國(guó)產(chǎn)數(shù)據(jù)庫(kù)高管告訴36氪,公司在10年前支持某大型央企的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)時(shí),就被明確要求采用分布式技術(shù)。
開(kāi)源在國(guó)內(nèi)的興起也值得一提。過(guò)去許久,開(kāi)源在國(guó)內(nèi)一直是“小眾運(yùn)動(dòng)”。但2021年,隨著PingCAP等公司更為人所知,再加上國(guó)內(nèi)扶持基礎(chǔ)軟件生態(tài)的決心,開(kāi)源也邁上新臺(tái)階。2021年,開(kāi)源被寫入《“十四五”軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃》,這被視作開(kāi)源在國(guó)內(nèi)取得的一項(xiàng)里程碑。順此趨勢(shì),36氪也觀察到長(zhǎng)期處于強(qiáng)監(jiān)管要求下的金融領(lǐng)域,也在2021年開(kāi)展了一系列開(kāi)源軟件使用方式的探討。不過(guò)另一方面,年底Log4J 2安全漏洞的爆發(fā),又讓開(kāi)源軟件的安全性備受質(zhì)疑。企業(yè)如何在開(kāi)放中平衡安全,成為新的話題。
不論是早期就被順利實(shí)踐的分布式趨勢(shì),還是突如其來(lái)的開(kāi)源熱潮,都意味著在過(guò)去20年間,國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商一直在關(guān)注國(guó)際趨勢(shì),并積累了一定技術(shù)能力。再加上國(guó)產(chǎn)化、云生態(tài)帶來(lái)的新市場(chǎng)機(jī)會(huì),時(shí)至當(dāng)下,眾多國(guó)產(chǎn)數(shù)據(jù)庫(kù)迎來(lái)萬(wàn)象更新的時(shí)代。
以占據(jù)市場(chǎng)主流關(guān)系型數(shù)據(jù)庫(kù)為例,過(guò)去在中國(guó)乃至全球OLTP市場(chǎng)中亮相的常是外企,直到2015年左右才零星出現(xiàn)了幾家新興的國(guó)產(chǎn)廠商。但近期36氪觀察到,至少在不少?gòu)S商對(duì)外發(fā)布的信息里,OLTP產(chǎn)品的數(shù)量已經(jīng)超出了預(yù)期(當(dāng)然,其中不少是基于國(guó)外開(kāi)源產(chǎn)品的迭代)。其中除卻新興廠商的面孔,也有老牌數(shù)據(jù)庫(kù)公司發(fā)布相關(guān)產(chǎn)品。
另一方面,圖和時(shí)序等方向的國(guó)產(chǎn)廠商也不斷涌現(xiàn)。比如在圖數(shù)據(jù)庫(kù)中,當(dāng)前我們觀察到的國(guó)產(chǎn)產(chǎn)品就有十余個(gè)。而且由于這些領(lǐng)域整體較新,國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商暫時(shí)還不需要挑戰(zhàn)完全具備壟斷優(yōu)勢(shì)的巨頭。曾有國(guó)產(chǎn)圖數(shù)據(jù)庫(kù)廠商對(duì)外表示,當(dāng)前全球范圍內(nèi)的圖數(shù)據(jù)庫(kù)公司,不少都還走在完善產(chǎn)品的過(guò)程中。
總的來(lái)說(shuō),國(guó)產(chǎn)數(shù)據(jù)庫(kù)百花齊放的表象背后,其實(shí)隱藏著更巨大的商機(jī)——當(dāng)國(guó)內(nèi)產(chǎn)業(yè)不再和國(guó)際脫軌,數(shù)據(jù)庫(kù)廠商們面前呈現(xiàn)出國(guó)際化和國(guó)產(chǎn)替代兩種商業(yè)路徑。
國(guó)際化,還是國(guó)產(chǎn)替代?
不可否認(rèn),當(dāng)前國(guó)產(chǎn)數(shù)據(jù)庫(kù)的產(chǎn)品力還有提升空間。比如不久前曾有一些調(diào)研顯示,國(guó)內(nèi)OLTP類數(shù)據(jù)庫(kù)在部分場(chǎng)景中(如數(shù)據(jù)量大、高并發(fā)、變化速度快)和Oracle等公司的產(chǎn)品依然存在差距。
但值得肯定的是,如今這種商業(yè)路徑選擇權(quán)的出現(xiàn),在過(guò)去漫長(zhǎng)的蟄伏期里是難以想象的——畢竟只有滿足了技術(shù)基本不脫鉤的基本條件,全球化或者國(guó)產(chǎn)替代的機(jī)會(huì)才能擺在眼前。而在這個(gè)迄今為止,國(guó)內(nèi)數(shù)據(jù)庫(kù)行業(yè)最好的時(shí)代中,當(dāng)前國(guó)產(chǎn)廠商們面臨的“幸福煩惱”是,選哪條路更合適?
在很大程度上,國(guó)際化和國(guó)產(chǎn)替代,是涇渭分明的兩條路。選擇不同路線的公司,往往也會(huì)具備一些顯性特點(diǎn)。
在主營(yíng)國(guó)際化的路徑中,一些新興的國(guó)產(chǎn)數(shù)據(jù)庫(kù)公司多強(qiáng)調(diào)云原生、數(shù)據(jù)庫(kù)即服務(wù)等標(biāo)簽,希望讓產(chǎn)品區(qū)別于上一代數(shù)據(jù)庫(kù)。產(chǎn)品之外,這類新興廠商的集中特點(diǎn)大致包括,創(chuàng)立時(shí)間不久(多成立于2017年—2021年之間)、擁抱開(kāi)源、受雙幣基金追捧等。
而在國(guó)產(chǎn)替代的世界里,在滿足資質(zhì)的條件下,不少成立許久的國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商主要基于關(guān)系型產(chǎn)品延伸,希望幫助客戶完成降低成本和自主可控的目標(biāo)。在這一目標(biāo)的指引下,這些廠商多具備成立時(shí)間較久、投資方多為人民幣基金,以及主打國(guó)內(nèi)大中B客戶等特點(diǎn)。
這是兩種完全不一樣的公司。而這分岔路背后所隱藏的,是國(guó)內(nèi)外商業(yè)環(huán)境的整體性差異。
在歐美市場(chǎng),公有云與數(shù)據(jù)庫(kù)結(jié)合的路徑已被證明可行。Gartner近期的一份報(bào)告顯示,全球數(shù)據(jù)庫(kù)廠商的市場(chǎng)份額正借助云的能力獲得增長(zhǎng)。報(bào)告中提出,過(guò)去10年間,堅(jiān)定公有云戰(zhàn)略的廠商,在數(shù)據(jù)庫(kù)市場(chǎng)份額中的排名大多獲得了提升,這其中不僅包括亞馬遜、谷歌等自有數(shù)據(jù)庫(kù)產(chǎn)品的公有云廠商,也包括獨(dú)立數(shù)據(jù)庫(kù)公司Snowflake等。這樣做的好處很明顯,首先,數(shù)據(jù)庫(kù)公司可以和云廠商一起服務(wù)同一個(gè)客戶。另外,數(shù)據(jù)庫(kù)公司還可以復(fù)用云廠商的生態(tài),減少不必要的資源消耗。而數(shù)據(jù)庫(kù)即服務(wù)的模式,也建立于云基礎(chǔ)之上。
這也是不少關(guān)注出海的國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商,和看好它們的投資人所認(rèn)可的方向。但回到國(guó)內(nèi),由于國(guó)內(nèi)外在商業(yè)環(huán)境上的差異,這一模式難以完全復(fù)制。
原因不難理解。將公有云與數(shù)據(jù)庫(kù)的結(jié)合落地,需要云廠商、數(shù)據(jù)庫(kù)公司和客戶的多方協(xié)作。以被國(guó)內(nèi)對(duì)標(biāo)多次的Snowflake為例,其目前支持Amazon AWS、Google Cloud與微軟Azure三家云平臺(tái)。在不少解讀中,它也因?yàn)樵诠性粕暇邆渲辛⒌谌降纳矸荻绕?。時(shí)至今日,Snowflake依然不支持私有云環(huán)境。
回到國(guó)內(nèi),Gartner在今年三月發(fā)布的指南中提出,國(guó)內(nèi)甲方業(yè)務(wù)向公有云遷徙的趨勢(shì),是中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)增長(zhǎng)的一大動(dòng)因。不過(guò),這一趨勢(shì)至少在當(dāng)前并未大規(guī)模落定,不少大B客戶依然會(huì)出于安全、信任等方面的考慮,提出私有云或?qū)S性频慕ㄔO(shè)、更新需求。而且,目前國(guó)內(nèi)私有云的市場(chǎng)格局也相對(duì)分散,這導(dǎo)致的一個(gè)現(xiàn)象是,底層架構(gòu)不統(tǒng)一,國(guó)產(chǎn)數(shù)據(jù)庫(kù)公司單純依賴公有云廠商合作的必要性沒(méi)有海外充足。
具體在產(chǎn)品落地層面,36氪了解到,早前由不同云廠商搭建的私有云和現(xiàn)在公有云的平臺(tái)架構(gòu)有所差異,針對(duì)公有云環(huán)境的數(shù)據(jù)庫(kù)并不能被無(wú)縫部署到不同的私有云上。對(duì)比國(guó)外,美國(guó)的私有云與公有云的標(biāo)準(zhǔn)會(huì)更統(tǒng)一一些,如微軟為美國(guó)國(guó)防部以及一些美國(guó)公司(如可口可樂(lè))搭建的私有Azure云平臺(tái)雖然在物理上與公有云獨(dú)立,但在底層架構(gòu)上會(huì)更兼容現(xiàn)有的公有云軟件,也為云數(shù)據(jù)庫(kù)公司向這些私有云的客戶銷售自家產(chǎn)品提供了可能。
產(chǎn)品架構(gòu)不統(tǒng)一、格局分散只是一部分難點(diǎn)。下一個(gè)問(wèn)題是,目前還有不少私有云廠商也會(huì)主打信創(chuàng)云路線。而能做進(jìn)國(guó)產(chǎn)替代市場(chǎng)的企業(yè),往往需要具備背景合格、產(chǎn)品適用于黨政和金融等業(yè)務(wù)場(chǎng)景、服務(wù)細(xì)致等能力。面對(duì)這些要求,獨(dú)立數(shù)據(jù)庫(kù)廠商應(yīng)該找準(zhǔn)自身定位。
另一方面,當(dāng)前國(guó)內(nèi)云生態(tài)競(jìng)爭(zhēng)愈發(fā)激烈,云廠商的自有產(chǎn)品如何與獨(dú)立數(shù)據(jù)庫(kù)廠商合作,也是下一個(gè)值得討論的問(wèn)題(當(dāng)然,這一問(wèn)題海外也存在)。這種情況下,獨(dú)立數(shù)據(jù)庫(kù)公司能否依靠產(chǎn)品力等其他特點(diǎn)獲得合作伙伴和客戶的肯定,更成為重中之重。
總體而言,國(guó)內(nèi)廠商短期內(nèi)或許無(wú)法將海外優(yōu)解復(fù)刻到國(guó)內(nèi)。這也在很大程度上造成了數(shù)據(jù)庫(kù)公司商業(yè)路線的分化——對(duì)大多數(shù)人而言,是出海尋找真正的公有云+數(shù)據(jù)庫(kù)模式,還是抓緊國(guó)產(chǎn)化浪潮,此時(shí)更像是單選題。
三. 國(guó)際化VS國(guó)產(chǎn)化:不同的機(jī)會(huì),不同的挑戰(zhàn)
曾有長(zhǎng)期深耕數(shù)據(jù)庫(kù)領(lǐng)域的投資人告知36氪,數(shù)據(jù)庫(kù)公司的商業(yè)化路線,幾乎從創(chuàng)業(yè)第一天起就板上釘釘。在全球化和國(guó)產(chǎn)化的兩個(gè)不同世界里,廠商亦要具備不同的通關(guān)能力。
出海:最好的Global,是成為真正的Local
在出海路線中,國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商首先會(huì)遇到產(chǎn)品上的競(jìng)爭(zhēng),同時(shí)也要適應(yīng)不同國(guó)家客戶的使用習(xí)慣和銷售方式。
這三大關(guān)卡的任何一環(huán)出了差錯(cuò),都可能導(dǎo)致全球化戰(zhàn)略的失敗。在這其中,技術(shù)和產(chǎn)品力是首要前提——如果技術(shù)底蘊(yùn)不深,產(chǎn)品做不到全球范圍內(nèi)的相對(duì)領(lǐng)先,那么征戰(zhàn)海外大概率是場(chǎng)竹籃打水。而在這一前提之下,銷售、市場(chǎng)方面的門門道道,也在持續(xù)影響著企業(yè)出海的成功率。
這樣的例子不是沒(méi)有發(fā)生過(guò)。36氪了解到,五六年前曾有一家細(xì)分領(lǐng)域的頭部軟件公司決定征戰(zhàn)北美市場(chǎng),但最終卻由于產(chǎn)品無(wú)法適應(yīng)當(dāng)?shù)囟鴶”保?其實(shí)它的產(chǎn)品能力很強(qiáng),但美國(guó)和國(guó)內(nèi)的數(shù)據(jù)傳輸格式不同,給國(guó)外的產(chǎn)品基本要重做。"一位接近這家公司的行業(yè)人士回顧。這導(dǎo)致的結(jié)果是,這家公司重新打磨產(chǎn)品花費(fèi)成本過(guò)高,難以在不同市場(chǎng)中平衡,最終中美兩邊的業(yè)務(wù)都受到一定影響。
但經(jīng)過(guò)一段時(shí)間的持續(xù)摸索,在一些頭部公司眼中,如今這三重挑戰(zhàn)似乎都能指向同一個(gè)解法——“開(kāi)源+云”,這是既受國(guó)外同行的啟發(fā),也是國(guó)內(nèi)企業(yè)在出海需求下的自主摸索。在這一思路中,開(kāi)源是依靠全球開(kāi)發(fā)者的力量收集反饋、打磨產(chǎn)品的方式。同時(shí),這也能讓產(chǎn)品更契合當(dāng)?shù)乜蛻羰褂昧?xí)慣,并產(chǎn)生對(duì)品牌的認(rèn)知。而云戰(zhàn)略的好處上文也已提及,不僅能讓數(shù)據(jù)庫(kù)等基礎(chǔ)軟件廠商復(fù)用其生態(tài)能力,還能讓公司的整體運(yùn)營(yíng)更標(biāo)準(zhǔn)化。
在理想狀況下,這是一條將產(chǎn)品打磨和商業(yè)化緊密結(jié)合的路。但回到現(xiàn)實(shí),不論是建設(shè)開(kāi)源生態(tài)還是堅(jiān)持云戰(zhàn)略,都需要付出不少努力。
尋求與公有云的契合之道,是一家公司管理層需要持續(xù)思考、堅(jiān)定投入的戰(zhàn)略問(wèn)題。做到這件事的基本前提包括,挑選可以協(xié)作的云廠商,并基于此將產(chǎn)品打磨標(biāo)準(zhǔn)、適合云交付,以及培養(yǎng)公司的服務(wù)能力。
首先,選擇合作伙伴可能牽涉到廠商的技術(shù)投入。實(shí)操方面,數(shù)據(jù)庫(kù)廠商自身的技術(shù)架構(gòu)通常也會(huì)依托并受限于底層云平臺(tái)。如Snowflake早期選擇依賴AWS的S3作為存儲(chǔ)層,數(shù)年后才支持了Google與微軟的云平臺(tái)。
另外,踐行云戰(zhàn)略的過(guò)程中還會(huì)存在一些另類的考驗(yàn)。"現(xiàn)在要思考的是,我們要從一家產(chǎn)品、技術(shù)導(dǎo)向的公司,轉(zhuǎn)而更強(qiáng)調(diào)自己的服務(wù)、運(yùn)營(yíng)能力。"有正處于轉(zhuǎn)型期的公司高管坦言。這是公司整體定位的轉(zhuǎn)變,其中必然伴隨著不少企業(yè)文化、組織,乃至心理上的沖擊?!暗@可能也是優(yōu)勢(shì),畢竟我們是真的勤勞,服務(wù)體驗(yàn)可能更好?!庇袉T工這樣鼓勵(lì)自己。
相較之下,開(kāi)源的考驗(yàn)更滲透進(jìn)細(xì)枝末節(jié)。
在很多人的共識(shí)中,一家公司是否能做好開(kāi)源,可能是“氣質(zhì)”決定的。一般來(lái)說(shuō),理想的創(chuàng)始團(tuán)隊(duì)需要具備國(guó)際化視野,比如擁有在國(guó)外技術(shù)領(lǐng)域長(zhǎng)期求學(xué)、工作的經(jīng)歷就是一個(gè)加分項(xiàng)。另外,團(tuán)隊(duì)還要對(duì)當(dāng)?shù)劁N售習(xí)慣有所認(rèn)知,做好商業(yè)化和開(kāi)源之間的平衡。
這些基礎(chǔ)要求聽(tīng)起來(lái)似乎不難,但具體的落地節(jié)奏卻仍值得細(xì)致推敲。
36氪在過(guò)去一段時(shí)間內(nèi)發(fā)現(xiàn),國(guó)內(nèi)有不少數(shù)據(jù)庫(kù)團(tuán)隊(duì)正在規(guī)劃出海細(xì)節(jié)。但就算是一些在國(guó)內(nèi)已經(jīng)搭建起開(kāi)源生態(tài),受到使用者肯定的廠商,在面臨出海時(shí)依然會(huì)產(chǎn)生擔(dān)憂。
“主要是擔(dān)心文化問(wèn)題。開(kāi)源生態(tài)的建設(shè)在不同國(guó)家也存在文化差異,讓融入當(dāng)?shù)馗永щy?!庇薪ㄔO(shè)開(kāi)源生態(tài)近五年的數(shù)據(jù)庫(kù)廠商負(fù)責(zé)人表示,其公司在建立海外分部時(shí),會(huì)計(jì)劃將國(guó)外辦事處和國(guó)內(nèi)分開(kāi)獨(dú)立運(yùn)營(yíng),希望降低雙方互相干擾的可能性。類似的細(xì)節(jié)還能數(shù)出不少,比如有創(chuàng)業(yè)者要求公司所有的文檔都是英文;還有社區(qū)的運(yùn)營(yíng)人員認(rèn)為自家產(chǎn)品使用門檻較高,需要琢磨海外頭部公司程序員的喜好,進(jìn)行針對(duì)性推廣等等。
無(wú)數(shù)的細(xì)節(jié)證明,最好的Global,是成為真正的Local。這是不少新興國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商孜孜以求的出海效果。
國(guó)內(nèi)市場(chǎng):國(guó)產(chǎn)替代正當(dāng)時(shí),金融信創(chuàng)或是下一個(gè)機(jī)會(huì)
在第二條路線中,主打國(guó)產(chǎn)替代的數(shù)據(jù)庫(kù)廠商們需要滿足背景“正規(guī)”、服務(wù)意識(shí)強(qiáng),以及產(chǎn)品自主可控、可用的要求。出于當(dāng)前國(guó)產(chǎn)替代的進(jìn)度,我們認(rèn)為在黨政、金融等領(lǐng)域,尤其是金融信創(chuàng)的進(jìn)展將給這類廠商提供更廣闊的空間。
原因不難推斷。
首先,黨政領(lǐng)域是國(guó)產(chǎn)替代的排頭兵。這些行業(yè)中,客戶的國(guó)產(chǎn)替代已經(jīng)進(jìn)行了一段時(shí)間,存量相較之前略微下降。相較而言,黨政中的“下沉市場(chǎng)”會(huì)是接下來(lái)國(guó)產(chǎn)替代的重點(diǎn)。而2020年金融信創(chuàng)一期試點(diǎn)推行,2021、2022年的相關(guān)工作也在按計(jì)劃推進(jìn),市場(chǎng)空間更為廣闊。
第二,金融客戶向來(lái)重視IT投入。在疫情未散的前提下,它們是為數(shù)不多IT預(yù)算充裕的客戶。從數(shù)據(jù)看,2020年啟動(dòng)的金融信創(chuàng)一期試點(diǎn),要求信創(chuàng)基礎(chǔ)軟硬件采購(gòu)額占到其IT外采的5%-8%;2021年金融信創(chuàng)二期新增100余家試點(diǎn)單位,信創(chuàng)基礎(chǔ)軟硬件在IT外采中占比要求提高至10-15%。當(dāng)然,這些預(yù)算既囊括基礎(chǔ)硬件,也包含操作系統(tǒng)、中間件等其他基礎(chǔ)軟件,數(shù)據(jù)庫(kù)所占比例暫不得而知。但根據(jù)一些券商調(diào)研,信創(chuàng)的出現(xiàn)在過(guò)去兩年內(nèi)整體提升了一些客戶的IT投入。當(dāng)金融信創(chuàng)進(jìn)一步放開(kāi),相信包括數(shù)據(jù)庫(kù)在內(nèi)的基礎(chǔ)軟硬件廠商都會(huì)因此受惠。
第三,出于業(yè)務(wù)特點(diǎn)和由此帶來(lái)的強(qiáng)監(jiān)管要求,金融客戶對(duì)用作核心業(yè)務(wù)產(chǎn)品的可靠、可用性考量超過(guò)了其他種種。這雖然帶來(lái)了不少挑戰(zhàn),但同時(shí)也讓不少技術(shù)能力較強(qiáng),且具備完整知識(shí)產(chǎn)權(quán)的廠商更有機(jī)會(huì)參與其中。
過(guò)去一段時(shí)間內(nèi),36氪觀察到不少數(shù)據(jù)庫(kù)廠商正在持續(xù)布局金融信創(chuàng)。但談及真正落地,其中的難度也不可忽視。
首先從產(chǎn)品層面,不同數(shù)據(jù)庫(kù)架構(gòu)不同,國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商需要重視自身的產(chǎn)品兼容性,減少遷移過(guò)程可能給客戶帶來(lái)的問(wèn)題。另外,現(xiàn)在不少客戶是從非核心業(yè)務(wù)做起,再逐步開(kāi)展對(duì)核心業(yè)務(wù)的數(shù)據(jù)庫(kù)替代工作。36氪了解到,從過(guò)去的一些替代實(shí)踐經(jīng)驗(yàn)看,廠商需要從業(yè)務(wù)提出之初就和客戶一起共創(chuàng),不斷根據(jù)其需求打磨產(chǎn)品,最終完成上線。這一過(guò)程可能耗費(fèi)三年以上的時(shí)間。
再者,信創(chuàng)是一個(gè)系統(tǒng)工程,從下層的基礎(chǔ)軟硬件到上游的應(yīng)用系統(tǒng)均屬其中。數(shù)據(jù)庫(kù)廠商作為其中的一個(gè)角色,也需要和各類廠商合作,為客戶提供解決方案式的體驗(yàn)。這其中,產(chǎn)品間的兼容是一個(gè)重頭戲。我們了解到,有廠商每年花費(fèi)在不同廠商、不同產(chǎn)品適配工作上的資金達(dá)到千萬(wàn)元級(jí)別。
當(dāng)然還需要明確的一點(diǎn)是,目前狹義的國(guó)產(chǎn)替代主要指關(guān)系型數(shù)據(jù)庫(kù)層面。但在其他類型中,如圖數(shù)據(jù)庫(kù)領(lǐng)域,國(guó)內(nèi)產(chǎn)品也有一定替代國(guó)外產(chǎn)品的空間。而且,出于各種考慮,不少外企也有退出國(guó)內(nèi)市場(chǎng)的動(dòng)作。這部分空余的市場(chǎng)空間也是國(guó)產(chǎn)廠商的新機(jī)會(huì)。
總而言之,國(guó)產(chǎn)替代對(duì)國(guó)內(nèi)不少企業(yè)而言意味著新空間,但這勢(shì)必也是一場(chǎng)攻堅(jiān)戰(zhàn)。主攻于此的數(shù)據(jù)庫(kù)廠商需要具備戰(zhàn)略定力,在產(chǎn)品、服務(wù)等方面針對(duì)性地進(jìn)行長(zhǎng)期投入。
四. 多種多樣的參與者(按公司和其主要產(chǎn)品劃分)
不論是技術(shù)規(guī)律還是商業(yè)規(guī)律,都要落地到具體公司的實(shí)踐中。在這一章節(jié),36氪將按照不同分類,細(xì)致展示我們觀察到的數(shù)據(jù)庫(kù)領(lǐng)域參與者。
需要提前聲明的是,以下公司及產(chǎn)品主要按照首字母排序,沒(méi)有引申意義上的先后之分;另外,下文展示也不代表行業(yè)全貌,歡迎讀者持續(xù)補(bǔ)充行業(yè)玩家;再者,由于數(shù)據(jù)庫(kù)分類維度眾多,一個(gè)數(shù)據(jù)庫(kù)可能具備多種特點(diǎn),本文展示僅提供參考價(jià)值。
數(shù)據(jù)庫(kù)分類維度
按分析能力:OLTP 及 HTAP類型
根據(jù)分析能力,數(shù)據(jù)庫(kù)可以分為 OLTP 與 OLAP 兩大類。一方面,數(shù)據(jù)庫(kù)要支持?jǐn)?shù)據(jù)記錄的增加修改,如網(wǎng)絡(luò)商城的交易(transaction),這類操作被稱為 OLTP(在線事務(wù)處理, Online Transaction Processing),另一方面,數(shù)據(jù)庫(kù)也需要支持復(fù)雜的查詢操作,比如說(shuō)某個(gè)地區(qū)一個(gè)月之內(nèi)銷售額超過(guò) 10 萬(wàn)元的商家所在的城市,這類操作被稱為 OLAP(在線分析處理,Online Analytical Processing)。此外,近些年有些新的數(shù)據(jù)庫(kù)可以同時(shí)支持 OLTP 與 OLAP 操作,因此被稱為 HTAP 型(混合事務(wù)分析處理,Hybrid transactional/analytical processing),另外,由于HTAP是兩種功能交織的產(chǎn)品,在本文中將會(huì)與OLTP和OLAP一同介紹。具體某個(gè)HTAP產(chǎn)品放在OLTP板塊還是OLAP板塊,主要依據(jù)公開(kāi)資料中的描述進(jìn)行判斷。但整體而言,HTAP兼具兩種功能,這里的分類僅供讀者參考。
OLTP 型數(shù)據(jù)庫(kù):?jiǎn)螜C(jī)型、分布式和云原生
單機(jī)型
數(shù)據(jù)庫(kù)最初的應(yīng)用場(chǎng)景之一是賬本。大家外出購(gòu)物時(shí),家門口的小賣部的老板可能會(huì)用紙和筆來(lái)通過(guò)寫寫畫畫的方式,記錄下每天的銷售額和對(duì)應(yīng)的貨物清單,而大型超市則是通過(guò)掃碼槍來(lái)自動(dòng)記錄生成售貨記錄,比如說(shuō)在今天的下午三點(diǎn),賣出一瓶礦泉水,價(jià)格是 1 塊錢。在這里,“下午三點(diǎn)、礦泉水、1 塊錢”這三條信息,便會(huì)作為一條記錄(record),被存儲(chǔ)到數(shù)據(jù)庫(kù)中,以備將來(lái)查詢。
對(duì)于個(gè)體商家來(lái)說(shuō),一般來(lái)講一臺(tái)計(jì)算機(jī)就能存儲(chǔ)并處理所需數(shù)據(jù),所需要的軟件也就是單機(jī)數(shù)據(jù)庫(kù)?,F(xiàn)在比較常見(jiàn)的單機(jī)數(shù)據(jù)庫(kù)有 MySQL 與 PostgreSQL。前者最早發(fā)布于 1995 年,由一家瑞典公司研發(fā),后者則是在 1996 年由美國(guó)加州大學(xué)伯克利分校立項(xiàng)。這兩者都秉承著開(kāi)源,免費(fèi)的原則,同時(shí)擁有成熟的社區(qū)與豐富的文檔,因此廣受中小企業(yè)的歡迎。
分布式
單機(jī)型數(shù)據(jù)庫(kù)可以解決小商戶的數(shù)據(jù)管理痛點(diǎn)。當(dāng)生意越做越大時(shí),客戶需要的數(shù)據(jù)量也許會(huì)超出現(xiàn)有機(jī)器的存儲(chǔ)能力。對(duì)于這種業(yè)務(wù)擴(kuò)張的需求,業(yè)界一般有兩種手段,一種是縱向擴(kuò)展(scale up),也就是通過(guò)購(gòu)買更先進(jìn)的硬件,在現(xiàn)有機(jī)器數(shù)量不變的情況下,對(duì)現(xiàn)有的機(jī)器進(jìn)行升級(jí)。這種手段的好處是機(jī)器的數(shù)量比較小,管理起來(lái)更加方便,也不需要采取更復(fù)雜的軟件架構(gòu)。銀行業(yè)更傾向于采用這樣的手段,銀行業(yè)使用的機(jī)器,比如工商銀行采用的 IBM 大型機(jī),性能之強(qiáng)勁,價(jià)格之高昂,也不是中小公司能承受的,坊間相傳這樣的一臺(tái)大型機(jī)售價(jià)幾千萬(wàn)人民幣甚至更高。
另一種更親民的手段則是橫向擴(kuò)展(scale out),通過(guò)增加更多機(jī)器的手段來(lái)提供更強(qiáng)的存儲(chǔ)與查詢能力。這時(shí)候我們就需要用到分布式數(shù)據(jù)庫(kù)了。分布式數(shù)據(jù)庫(kù)在設(shè)計(jì)之初,就面對(duì)的是多臺(tái)機(jī)器的場(chǎng)景,同一套數(shù)據(jù)庫(kù)軟件,被部署到多臺(tái)機(jī)器上,這些機(jī)器彼此通過(guò)網(wǎng)絡(luò)進(jìn)行連接,從而形成一個(gè)數(shù)據(jù)庫(kù)集群(cluster)。在這個(gè)宏大的集群中,通過(guò)一定的分割(partition)算法,每臺(tái)機(jī)器都會(huì)分配到自己能夠處理的一小塊數(shù)據(jù)。同時(shí),多臺(tái)機(jī)器之間可以互相的實(shí)時(shí)備份(replication),這樣就算是有一臺(tái)甚至多臺(tái)機(jī)器出現(xiàn)故障的時(shí)候,這個(gè)分布式數(shù)據(jù)庫(kù)集群依然可以正常工作。得益于親民的價(jià)格以及良好的擴(kuò)展性,分布式數(shù)據(jù)庫(kù)被視為業(yè)界最近的發(fā)展方向。
云原生
以前的數(shù)據(jù)庫(kù),需要軟件公司或者互聯(lián)網(wǎng)公司自己采購(gòu)機(jī)器,并且在這幾臺(tái)或幾十臺(tái)機(jī)器上部署單機(jī)或者分布式的數(shù)據(jù)庫(kù),這種方式也被稱為本地部署(on-premise)。時(shí)至今日,云計(jì)算使得大家可以通過(guò)在云上租機(jī)器,甚至租服務(wù)的方式,來(lái)使用數(shù)據(jù)庫(kù),這被稱為云端部署(off-premise, cloud computing)。一方面,現(xiàn)有的分布式數(shù)據(jù)庫(kù)可以從本地移到云端,來(lái)更方便大家使用,并把數(shù)據(jù)庫(kù)的安裝,部署和維護(hù)工作都交給云平臺(tái)上的專業(yè)人士完成,另一方面,云原生(cloud-native)數(shù)據(jù)庫(kù)也帶來(lái)了一些新的思路:
更易擴(kuò)展(better scalability): 當(dāng)需要更多機(jī)器的時(shí)候,在云端可以在幾分鐘的時(shí)間里完成租用新機(jī)器并添加進(jìn)數(shù)據(jù)庫(kù)集群的操作,而如果數(shù)據(jù)庫(kù)是部署在本地的話,大家不太可能在短時(shí)間內(nèi)購(gòu)買新的物理機(jī)來(lái)增加集群中機(jī)器的數(shù)量。如今的一些云數(shù)據(jù)庫(kù)服務(wù),會(huì)在后臺(tái)進(jìn)行機(jī)器的增減,在用戶業(yè)務(wù)量突然增大的時(shí)候,自動(dòng)進(jìn)行性能的擴(kuò)展,不需要用戶操心具體的機(jī)器數(shù)量。
多租戶出租(multi-tenant): 傳統(tǒng)數(shù)據(jù)庫(kù)更多的是只服務(wù)一位客戶,在云端則沒(méi)有這個(gè)限制,一臺(tái)數(shù)據(jù)庫(kù)機(jī)器可以滿足多位客戶的不同的讀寫需求。在做好不同客戶之前的數(shù)據(jù)隔離的前提下,通過(guò)服務(wù)更多客戶,云數(shù)據(jù)庫(kù)可以進(jìn)一步壓縮成本,降低收費(fèi)標(biāo)準(zhǔn)。
異地備份: 大型的互聯(lián)網(wǎng)公司會(huì)有數(shù)據(jù)異地備份的需求,一方面是應(yīng)對(duì)某一地區(qū)的數(shù)據(jù)中心完全失效的情況,比如說(shuō)發(fā)生火災(zāi)或地震這種大規(guī)模的不可抗力,另一方面,也是為了減少不同地區(qū)之間的數(shù)據(jù)延遲(latency),像是美國(guó)的東西海岸,中國(guó)的北京和深圳,都隔著遙遠(yuǎn)的距離,如果所需的數(shù)據(jù)在本地區(qū)的數(shù)據(jù)中心中有備份,那就不需要再?gòu)钠渌貐^(qū)讀取數(shù)據(jù)。中小型公司一般不會(huì)有異地機(jī)房,因此借用云廠商的基礎(chǔ)設(shè)施,可以更好的保證自身數(shù)據(jù)安全。
云原生數(shù)據(jù)庫(kù)有兩類重量級(jí)玩家,一種是云廠商本身,如 Amazon 的 AWS、微軟的 Azure,這種云廠商自身的數(shù)據(jù)庫(kù)可以很好地和自身的其它服務(wù)結(jié)合起來(lái),比如 AWS 的機(jī)器(VM)可以更快的讀取 AWS 的數(shù)據(jù)庫(kù),而讀取其它地方的數(shù)據(jù)庫(kù)就要慢一些。同時(shí),云廠商為自家數(shù)據(jù)庫(kù)提供了同樣高質(zhì)量的客服。另一類玩家則是獨(dú)立的第三方數(shù)據(jù)庫(kù)公司,如 MongoDB 的云數(shù)據(jù)庫(kù),用戶可以選擇依托 AWS,Azure 或者 Google Cloud,不管用戶依托哪個(gè)云平臺(tái),用戶都能享受 MongoDB 同樣的服務(wù)。這樣做的好處是,用戶不受限于某家特定的云廠商,因而在定價(jià)方面有了更多的自主權(quán)。另外,當(dāng)某一家云廠商發(fā)生問(wèn)題的時(shí)候,用戶可以快速遷移到同地區(qū)的另一家云廠商,使自己的客戶不受影響。
在這一部分,我們重點(diǎn)羅列的公司和產(chǎn)品有:
阿里巴巴:AliSQL
簡(jiǎn)介:AliSQL 是基于 MySQL 官方版本的一個(gè)分支,由阿里云數(shù)據(jù)庫(kù)團(tuán)隊(duì)維護(hù),目前也應(yīng)用于阿里巴巴集團(tuán)業(yè)務(wù)以及阿里云數(shù)據(jù)庫(kù)服務(wù)。該版本在社區(qū)版的基礎(chǔ)上做了大量的性能與功能的優(yōu)化改進(jìn)。尤其適合電商、云計(jì)算以及金融等行業(yè)環(huán)境。
阿里巴巴:PolarDB
簡(jiǎn)介:PolarDB 是阿里巴巴自主研發(fā)的下一代關(guān)系型分布式云原生數(shù)據(jù)庫(kù),目前兼容三種數(shù)據(jù)庫(kù)引擎:MySQL、PostgreSQL、高度兼容 Oracle 語(yǔ)法。計(jì)算能力最高可擴(kuò)展至 1000 核以上,存儲(chǔ)容量最高可達(dá) 100T。經(jīng)過(guò)阿里巴巴雙十一活動(dòng)的最佳實(shí)踐,讓用戶既享受到開(kāi)源的靈活性與價(jià)格,又享受到商業(yè)數(shù)據(jù)庫(kù)的高性能和安全性。
百度:BaikalDB
簡(jiǎn)介:BaikalDB 是百度推出的一個(gè)分布式增強(qiáng)型結(jié)構(gòu)化數(shù)據(jù)庫(kù)系統(tǒng)。它支持 PB 級(jí)結(jié)構(gòu)數(shù)據(jù)的順序和隨機(jī)實(shí)時(shí)讀/寫。BaikalDB 兼容 MySQL 協(xié)議,支持 MySQL 風(fēng)格的 SQL 方言,用戶可以通過(guò)它無(wú)縫將數(shù)據(jù)存儲(chǔ)從 MySQL 遷移到 BaikalDB。
柏睿:Rapids TXDB
簡(jiǎn)介:Rapids TXDB 是一款企業(yè)級(jí)交易型數(shù)據(jù)庫(kù)系統(tǒng),是柏睿數(shù)據(jù)基于 OpenGauss 開(kāi)發(fā)推出并提供技術(shù)支持服務(wù)的商業(yè)發(fā)行版本,可為各行業(yè)客戶的交易型(OLTP)應(yīng)用場(chǎng)景提供安全、穩(wěn)定、快速的聯(lián)機(jī)事務(wù)處理支持。
達(dá)夢(mèng)數(shù)據(jù)庫(kù):DM8
簡(jiǎn)介:DM8是達(dá)夢(mèng)公司在總結(jié)DM系列產(chǎn)品研發(fā)與應(yīng)用經(jīng)驗(yàn)的基礎(chǔ)上,推出的新一代自研數(shù)據(jù)庫(kù)。DM8融合了分布式、彈性計(jì)算與云計(jì)算的優(yōu)勢(shì),對(duì)靈活性、易用性、可靠性、高安全性等方面進(jìn)行了改進(jìn),支持超大規(guī)模并發(fā)事務(wù)處理和事務(wù)-分析混合型業(yè)務(wù)處理。
國(guó)網(wǎng)信通和創(chuàng)意信息聯(lián)合發(fā)布:思極有容
簡(jiǎn)介:“思極有容”數(shù)據(jù)庫(kù)是一款國(guó)產(chǎn)自主可控的分布式關(guān)系型數(shù)據(jù)庫(kù),支持國(guó)產(chǎn) CPU、操作系統(tǒng)生態(tài),支持云平臺(tái)和容器。在安全方面,設(shè)定多種權(quán)限訪問(wèn)、審計(jì)、流量控制機(jī)制,實(shí)現(xiàn)真正資源隔離。產(chǎn)品采用當(dāng)前分布式技術(shù),提供多種隔離級(jí)別,保障完整分布式事務(wù)。
瀚高數(shù)據(jù)庫(kù):HighGo DB
簡(jiǎn)介:HighGo DB是一款企業(yè)級(jí)OLTP數(shù)據(jù)庫(kù)。其專注于企業(yè)級(jí)市場(chǎng),在承擔(dān)海量數(shù)據(jù)、高并發(fā)的復(fù)雜業(yè)務(wù)應(yīng)用方面表現(xiàn)較為突出,能夠滿足企業(yè)級(jí)應(yīng)用對(duì)數(shù)據(jù)管理的需求。
航天紫光:CASICloud DBCP
簡(jiǎn)介:航天天域數(shù)據(jù)庫(kù)管理系統(tǒng) CASICloud DBCP 是由北京航天紫光科技自主研發(fā)的基于無(wú)共享架構(gòu)的企業(yè)級(jí)分布式關(guān)系型數(shù)據(jù)庫(kù),具備高性能、高可用、跨平臺(tái)、線性擴(kuò)展等特性,并且具備強(qiáng)事務(wù)處理能力,同時(shí)支持分析。
恒生電子:LightDB
簡(jiǎn)介:LightDB 是恒生電子股份有限公司研發(fā)并將長(zhǎng)期支持的一款同時(shí)支持在線事務(wù)處理與在線分析處理的融合型分布式數(shù)據(jù)庫(kù)產(chǎn)品。它是一款基于 PostgreSQL 的關(guān)系型數(shù)據(jù)庫(kù),99%兼容 PostgreSQL,主要針對(duì)金融業(yè)務(wù)場(chǎng)景優(yōu)化。
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院:Cedar
簡(jiǎn)介:Cedar是由華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院基于OceanBase 0.4.2研發(fā)的高通量、可伸縮、高可用的分布式關(guān)系數(shù)據(jù)庫(kù)。
華為:openGauss
簡(jiǎn)介:openGauss是一款開(kāi)源關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),采用木蘭寬松許可證v2發(fā)行。openGauss內(nèi)核深度融合華為在數(shù)據(jù)庫(kù)領(lǐng)域多年的經(jīng)驗(yàn),內(nèi)核源自PostgreSQL,并著重在架構(gòu)、事務(wù)、存儲(chǔ)引擎、優(yōu)化器等方向持續(xù)構(gòu)建競(jìng)爭(zhēng)力特性,在ARM架構(gòu)的芯片上深度優(yōu)化,并兼容X86架構(gòu)。
京東:StarDB
簡(jiǎn)介:StarDB 是京東自主設(shè)計(jì)研發(fā)的一款金融級(jí)國(guó)產(chǎn)分布式數(shù)據(jù)庫(kù),支持海量數(shù)據(jù)高并發(fā)在線事務(wù)處理,具備無(wú)感分布式、金融級(jí)高可用、高度兼容 MySQL、彈性伸縮、安全合規(guī)、智能運(yùn)維管控等重要功能特性。
巨杉數(shù)據(jù)庫(kù):SequoiaDB
簡(jiǎn)介:SequoiaDB 巨杉數(shù)據(jù)庫(kù)是一款金融級(jí)分布式數(shù)據(jù)庫(kù),目前在超過(guò) 50 家大型銀行核心生產(chǎn)業(yè)務(wù)規(guī)模應(yīng)用,主要面對(duì)高并發(fā)聯(lián)機(jī)交易型場(chǎng)景提供高性能、可靠穩(wěn)定以及無(wú)限水平擴(kuò)展的數(shù)據(jù)庫(kù)服務(wù)。
科藍(lán):Goldilocks DBMS
簡(jiǎn)介:Goldilocks DBMS 是由科藍(lán)軟件研發(fā)的擁有獨(dú)立知識(shí)產(chǎn)權(quán)的 RDBMS,適合需要 24 小時(shí)穩(wěn)定運(yùn)行和高性能的交易型單機(jī)版及分布式系統(tǒng)使用。
螞蟻集團(tuán):OceanBase
簡(jiǎn)介:OceanBase 是由螞蟻集團(tuán)完全自主研發(fā)的企業(yè)級(jí)分布式關(guān)系數(shù)據(jù)庫(kù),基于分布式架構(gòu)和通用服務(wù)器、實(shí)現(xiàn)了金融級(jí)可靠性及數(shù)據(jù)一致性,擁有 100%的知識(shí)產(chǎn)權(quán),始創(chuàng)于 2010 年。OceanBase 具有數(shù)據(jù)強(qiáng)一致、高可用、高性能、在線擴(kuò)展、高度兼容 SQL 標(biāo)準(zhǔn)和主流關(guān)系數(shù)據(jù)庫(kù)、低成本等特點(diǎn)。
南大通用:GBase 8s
簡(jiǎn)介:GBase 8s是天津南大通用數(shù)據(jù)技術(shù)股份有限公司自主研發(fā)的企業(yè)級(jí)分布式事務(wù)型數(shù)據(jù)庫(kù)。支持分布式部署、集中式部署、共享存儲(chǔ)高可用部署、支持兩地三中心高可用部署。GBase 8s適用于OLTP 應(yīng)用場(chǎng)景。
GBase 8c
簡(jiǎn)介:分布式交易型數(shù)據(jù)庫(kù)GBase 8c是一款shared nothing架構(gòu)的分布式交易型數(shù)據(jù)庫(kù),具備高性能、高可用、低成本、資源調(diào)度精細(xì)化、集群運(yùn)維智能化等特性,可以為金融核心系統(tǒng)、互聯(lián)網(wǎng)業(yè)務(wù)系統(tǒng)和政企業(yè)務(wù)系統(tǒng)提供安全、穩(wěn)定、可靠的數(shù)據(jù)存儲(chǔ)和管理服務(wù)。
PingCAP:TiDB
簡(jiǎn)介:TiDB 是 PingCAP 公司自主設(shè)計(jì)、研發(fā)的開(kāi)源分布式關(guān)系型數(shù)據(jù)庫(kù),是一款同時(shí)支持在線事務(wù)處理與在線分析處理的融合型分布式數(shù)據(jù)庫(kù)產(chǎn)品。目標(biāo)是為用戶提供一站式 OLTP、OLAP 、HTAP 解決方案。TiDB 適合高可用、強(qiáng)一致要求較高、數(shù)據(jù)規(guī)模較大等各種應(yīng)用場(chǎng)景。
熱璞數(shù)據(jù)庫(kù):HotDB Server
簡(jiǎn)介:HotDB Server 是一款實(shí)現(xiàn)數(shù)據(jù)容量和性能橫向擴(kuò)展的交易關(guān)系型分布式事務(wù)數(shù)據(jù)庫(kù)產(chǎn)品。它兼容主流數(shù)據(jù)庫(kù)協(xié)議和 SQL92/SQL99/SQL2003 標(biāo)準(zhǔn)語(yǔ)法,支持自動(dòng)水平拆分和垂直拆分,能在數(shù)據(jù)存儲(chǔ)分布式化環(huán)境下為應(yīng)用提供集中式數(shù)據(jù)庫(kù)的操作體驗(yàn)。
人大金倉(cāng):KingbaseES
簡(jiǎn)介:KingbaseES是一款面向事務(wù)處理應(yīng)用,兼顧簡(jiǎn)單分析應(yīng)用的企業(yè)級(jí)關(guān)系型數(shù)據(jù)庫(kù),產(chǎn)品融合了金倉(cāng)在數(shù)據(jù)庫(kù)領(lǐng)域多年的產(chǎn)品研發(fā)經(jīng)驗(yàn)和企業(yè)級(jí)應(yīng)用經(jīng)驗(yàn),可滿足各行業(yè)用戶多種場(chǎng)景的數(shù)據(jù)處理需求。
神舟通用:神通數(shù)據(jù)庫(kù)管理系統(tǒng)
簡(jiǎn)介:神通數(shù)據(jù)庫(kù)管理系統(tǒng)是天津神舟通用數(shù)據(jù)技術(shù)有限公司自主研發(fā)的大型通用數(shù)據(jù)庫(kù)產(chǎn)品,擁有全文檢索、層次查詢、結(jié)果集緩存、并行數(shù)據(jù)遷移、雙機(jī)熱備、水平分區(qū)、并行查詢和數(shù)據(jù)庫(kù)集群等增強(qiáng)型功能,并具有海量數(shù)據(jù)管理和大規(guī)模并發(fā)處理能力。
騰訊:TDSQL MySQL版
簡(jiǎn)介:TDSQL MySQL版(TDSQL for MySQL)是部署在騰訊云上的一種支持自動(dòng)水平拆分、Shared Nothing 架構(gòu)的分布式數(shù)據(jù)庫(kù)。TDSQL MySQL版 默認(rèn)部署主備架構(gòu),提供容災(zāi)、備份、恢復(fù)、監(jiān)控、遷移等全套解決方案,適用于 TB 或 PB 級(jí)的海量數(shù)據(jù)庫(kù)場(chǎng)景。
騰訊:TDSQL PostgreSQL版 (原TBase)
簡(jiǎn)介:TDSQL PostgreSQL版(TDSQL for PostgreSQL, 原 TBase)是騰訊自主研發(fā)的分布式數(shù)據(jù)庫(kù)系統(tǒng),具備高 SQL 兼容度、完整分布式事務(wù)、高安全、高擴(kuò)展、多級(jí)容災(zāi)等能力,成功應(yīng)用在金融、政府、電信等行業(yè)核心業(yè)務(wù)中。
萬(wàn)里開(kāi)源:GreatDB
簡(jiǎn)介:GreatDB 分布式是一款原生分布式關(guān)系型數(shù)據(jù)庫(kù)軟件,具有動(dòng)態(tài)擴(kuò)展、數(shù)據(jù)強(qiáng)一致、集群高可用等特性。采用 shared-nothing 架構(gòu),基于數(shù)據(jù)冗余與副本管理確保數(shù)據(jù)庫(kù)穩(wěn)定可靠,基于數(shù)據(jù) sharding 與 mpp 技術(shù)實(shí)現(xiàn)高性能,并具備動(dòng)態(tài)擴(kuò)展數(shù)據(jù)節(jié)點(diǎn)能力。目前已廣泛應(yīng)用于金融、運(yùn)營(yíng)商、能源、政府、互聯(lián)網(wǎng)等行業(yè)核心系統(tǒng),兼容國(guó)產(chǎn)操作系統(tǒng)、芯片等國(guó)產(chǎn)軟硬件生態(tài)。
新華三:SeaSQL DRDS分布式事務(wù)數(shù)據(jù)庫(kù)
簡(jiǎn)介:H3C SeaSQL DRDS是一款實(shí)現(xiàn)數(shù)據(jù)容量和性能橫向擴(kuò)展的交易關(guān)系型分布式事務(wù)數(shù)據(jù)庫(kù)產(chǎn)品。它兼容主流數(shù)據(jù)庫(kù)協(xié)議和 SQL92/SQL99標(biāo)準(zhǔn)語(yǔ)法,支持自動(dòng)水平拆分和垂直拆分,能在數(shù)據(jù)存儲(chǔ)分布式化環(huán)境下為應(yīng)用提供集中式數(shù)據(jù)庫(kù)的操作體驗(yàn)。
星環(huán)科技:KunDB
簡(jiǎn)介:KunDB 是星環(huán)分布式交易型數(shù)據(jù)庫(kù)。公司介紹,其實(shí)高度兼容 MySQL、Oracle的國(guó)產(chǎn)分布式交易型數(shù)據(jù)庫(kù),為企業(yè)核心業(yè)務(wù)數(shù)據(jù)庫(kù)建設(shè)提供完備的能力支撐和可靠的國(guó)產(chǎn)化遷移方案。
亞信科技:AISWare AntDB
簡(jiǎn)介:AntDB是一款通用企業(yè)級(jí),高可用、高性能的原生分布式關(guān)系型數(shù)據(jù)庫(kù),憑多年技術(shù)累積面向電信、政務(wù)、能源、金融、交通等行業(yè)精心打造。該產(chǎn)品采用了原生分布式架構(gòu),實(shí)現(xiàn)了在線彈性伸縮和分布式強(qiáng)一致,全面兼容MySQL、PostgreSQL 并支持SQL 2016標(biāo)準(zhǔn)。
易鯨捷:QianBase xTP
簡(jiǎn)介:面向大中型銀行的新一代云原生分布式核心交易數(shù)據(jù)庫(kù)。
云和恩墨:MogDB
簡(jiǎn)介:MogDB 是云和恩墨基于 openGauss 開(kāi)源數(shù)據(jù)庫(kù)進(jìn)行定制、推出的企業(yè)發(fā)行版。
澤拓科技:昆侖數(shù)據(jù)庫(kù)
簡(jiǎn)介:昆侖數(shù)據(jù)庫(kù)是澤拓科技研發(fā)的NewSQL分布式關(guān)系數(shù)據(jù)庫(kù),面向TB和PB級(jí)別海量數(shù)據(jù)處理,以高吞吐量和低延時(shí)處理海量高并發(fā)讀寫請(qǐng)求。它提供事務(wù)ACID保障,高可擴(kuò)展性,高可用性和透明的分庫(kù)分表數(shù)據(jù)處理功能。
中興通訊:GoldenDB
簡(jiǎn)介:針對(duì)銀行 OLTP 業(yè)務(wù),中興通訊分布式數(shù)據(jù)庫(kù) GoldenDB 為業(yè)務(wù)帶來(lái)傳統(tǒng)單機(jī)數(shù)據(jù)庫(kù)無(wú)法提供的計(jì)算及擴(kuò)展能力,提供高可用、高可靠、資源調(diào)度靈活的數(shù)據(jù)庫(kù)服務(wù),支持金融行業(yè)已有業(yè)務(wù)升級(jí)及創(chuàng)新業(yè)務(wù)快速部署的需求。
Amazon:Aurora
簡(jiǎn)介: Amazon Aurora 是一種與 MySQL 和 PostgreSQL 兼容的關(guān)系數(shù)據(jù)庫(kù),專為云而打造,既具有傳統(tǒng)企業(yè)數(shù)據(jù)庫(kù)的性能和可用性,又具有開(kāi)源數(shù)據(jù)庫(kù)的簡(jiǎn)單性和成本效益。Amazon Aurora 的速度最高可以達(dá)到標(biāo)準(zhǔn) MySQL 數(shù)據(jù)庫(kù)的五倍、標(biāo)準(zhǔn) PostgreSQL 數(shù)據(jù)庫(kù)的三倍。它可以實(shí)現(xiàn)商用數(shù)據(jù)庫(kù)的安全性、可用性和可靠性,而成本只有商用數(shù)據(jù)庫(kù)的 1/10。Amazon Aurora 由 Amazon Relational Database Service (RDS) 完全托管,RDS 可以自動(dòng)執(zhí)行各種耗時(shí)的管理任務(wù),例如硬件預(yù)置以及數(shù)據(jù)庫(kù)設(shè)置、修補(bǔ)和備份。Amazon Aurora 采用一種有容錯(cuò)能力并且可以自我修復(fù)的分布式存儲(chǔ)系統(tǒng),這一系統(tǒng)可以把每個(gè)數(shù)據(jù)庫(kù)實(shí)例擴(kuò)展到最高 128TB。它具備高性能和高可用性,支持最多 15 個(gè)低延遲讀取副本、時(shí)間點(diǎn)恢復(fù)、持續(xù)備份到 Amazon S3,還支持跨三個(gè)可用區(qū)復(fù)制。
Amazon:Keyspaces
簡(jiǎn)介:Amazon Keyspaces(for Apache Cassandra)是一種可擴(kuò)展、高度可用、托管式 Apache Cassandra 兼容數(shù)據(jù)庫(kù)服務(wù)。借助 Amazon Keyspaces,用戶可以繼續(xù)使用當(dāng)前的相同 Cassandra 應(yīng)用程序代碼和開(kāi)發(fā)人員工具在 AWS 上運(yùn)行 Cassandra 工作負(fù)載,而無(wú)需預(yù)置、修補(bǔ)或管理服務(wù)器,并且不需要安裝、維護(hù)或操作軟件。Amazon Keyspaces 是無(wú)服務(wù)器服務(wù),因此您只需為實(shí)際使用的資源付費(fèi),并且該服務(wù)會(huì)根據(jù)應(yīng)用程序流量自動(dòng)擴(kuò)展和縮減表。
Apache Cassandra
簡(jiǎn)介:Apache Cassandra(一般被簡(jiǎn)稱為 C*)是由 Facebook 開(kāi)發(fā)并開(kāi)源的分布式數(shù)據(jù)庫(kù)系統(tǒng),具有良好的擴(kuò)展性,可以動(dòng)態(tài)的在運(yùn)行過(guò)程中進(jìn)行機(jī)器數(shù)量的加減,但并不支持太過(guò)復(fù)雜的 SQL 操作。Cassandra 采用寬列存儲(chǔ)模型,每一行數(shù)據(jù)都由唯一的 key 標(biāo)識(shí),并可以有多列,類似于二維的鍵值存儲(chǔ)。Cassandra 本身開(kāi)源,并由開(kāi)源社區(qū)進(jìn)行維護(hù),因此眾多云廠商基于開(kāi)源版本,都提供了各自的 Cassandra 云服務(wù)。
Cockroach Labs:CockarochDB
簡(jiǎn)介: CockroachDB的目標(biāo)是打造一個(gè)開(kāi)源、可伸縮、跨地域復(fù)制且兼容事務(wù)的 ACID 特性的分布式數(shù)據(jù)庫(kù)。據(jù)介紹,它不僅能實(shí)現(xiàn)全局(多數(shù)據(jù)中心)的一致性,而且保證了數(shù)據(jù)庫(kù)的生存能力,就像 Cockroach(蟑螂)這個(gè)名字一樣,是打不死的小強(qiáng)。CockroachDB 的思路源自 Google 的全球性分布式數(shù)據(jù)庫(kù) Spanner。其理念是將數(shù)據(jù)分布在多數(shù)據(jù)中心的多臺(tái)服務(wù)器上,實(shí)現(xiàn)一個(gè)可擴(kuò)展,多版本,全球分布式并支持同步復(fù)制的數(shù)據(jù)庫(kù)。2021年12月,Cockroach Labs進(jìn)行了F輪融資,共融資2.78億美元,估值50億美元。
Couchbase
簡(jiǎn)介: Couchbase 是一個(gè)高性能、分布式、面向文檔的NoSQL數(shù)據(jù)庫(kù)。Couchbase 提供了一些和其他一些領(lǐng)先的NoSQL數(shù)據(jù)庫(kù)相似的功能或者增強(qiáng)功能。Couchbase是MemBase與couchDB這兩個(gè)NoSQL數(shù)據(jù)庫(kù)的合并的產(chǎn)物,擁有CouchDB的簡(jiǎn)單和可靠以及Memcached的高性能。Couchbase于2021年7月在美國(guó)納斯達(dá)克交易所進(jìn)行IPO,目前市值8億美元左右。
FaunaDB
簡(jiǎn)介:FaunaDB是一個(gè)靈活,用戶友好的,支持事務(wù)的數(shù)據(jù)庫(kù)。Fauna支持原生GraphSQL,同時(shí),F(xiàn)auna的數(shù)據(jù)庫(kù)服務(wù)是以安全可擴(kuò)展的云API的形式來(lái)提供,以此來(lái)讓用戶無(wú)需操心數(shù)據(jù)庫(kù)的機(jī)器數(shù)量,擴(kuò)展,分片,備份等諸多問(wèn)題。2020年7月Fauna進(jìn)行了A輪融資,共計(jì)2700萬(wàn)美元。
Google:Google Cloud Spanner
簡(jiǎn)介: Cloud Spanner是一項(xiàng)完全托管式用于關(guān)鍵任務(wù)的關(guān)系型數(shù)據(jù)庫(kù)服務(wù),可提供全球范圍的事務(wù)一致性、自動(dòng)同步復(fù)制功能以實(shí)現(xiàn)高可用性,以及對(duì)兩種 SQL 方言的支持:Google 標(biāo)準(zhǔn) SQL(ANSI 2011 及擴(kuò)展程序)和PostgreSQL。
Google:Google Bigtable
簡(jiǎn)介:Bigtable是Google研發(fā)并商用的全代管式可擴(kuò)縮的 NoSQL 數(shù)據(jù)庫(kù)服務(wù),用于處理大規(guī)模分析和運(yùn)營(yíng)工作負(fù)載,可用性達(dá) 99.999%。其具有以下的特點(diǎn):延遲時(shí)間始終在 10 毫秒以內(nèi),每秒可處理數(shù)百萬(wàn)個(gè)請(qǐng)求; 非常適合個(gè)性化、廣告技術(shù)、金融技術(shù)、數(shù)字媒體和 IoT 等使用場(chǎng)景; 可根據(jù)用戶的存儲(chǔ)需求無(wú)縫擴(kuò)縮;重新配置時(shí)無(wú)需停機(jī); 采用適合機(jī)器學(xué)習(xí)應(yīng)用的存儲(chǔ)引擎設(shè)計(jì),可提升預(yù)測(cè)效果; 可輕松連接到 Google Cloud 服務(wù)(例如 BigQuery)或 Apache 生態(tài)系統(tǒng)。
IBM : DB2
介紹:IBM DB2 是美國(guó) IBM 公司開(kāi)發(fā)的一套關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),它主要的運(yùn)行環(huán)境為 UNIX(包括 IBM 自家的 AIX)、Linux、IBM i(舊稱 OS/400)、z/OS,以及 Windows 服務(wù)器版本。DB2 主要應(yīng)用于大型應(yīng)用系統(tǒng),具有較好的可伸縮性,可支持從大型機(jī)到單用戶環(huán)境,應(yīng)用于所有常見(jiàn)的服務(wù)器操作系統(tǒng)平臺(tái)下。DB2 采用了數(shù)據(jù)分級(jí)技術(shù),能夠使大型機(jī)數(shù)據(jù)很方便地下載到 LAN 數(shù)據(jù)庫(kù)服務(wù)器,使得客戶機(jī)/服務(wù)器用戶和基于 LAN 的應(yīng)用程序可以訪問(wèn)大型機(jī)數(shù)據(jù),并使數(shù)據(jù)庫(kù)本地化及遠(yuǎn)程連接透明化。DB2 以擁有一個(gè)非常完備的查詢優(yōu)化器而著稱,其外部連接改善了查詢性能,并支持多任務(wù)并行查詢。DB2 具有很好的網(wǎng)絡(luò)支持能力,每個(gè)子系統(tǒng)可以連接十幾萬(wàn)個(gè)分布式用戶,可同時(shí)激活上千個(gè)活動(dòng)線程,對(duì)大型分布式應(yīng)用系統(tǒng)尤為適用。
MariaDB:MariaDB Enterprise、SkySQL
簡(jiǎn)介:MariaDB 是 MySQL 數(shù)據(jù)庫(kù)在 Oracle 公司之外的獨(dú)立分枝,由原 MySQL 團(tuán)隊(duì)的部分創(chuàng)始成員開(kāi)發(fā),并高度兼容 MySQL。這些 MySQL 團(tuán)隊(duì)成員擔(dān)心 MySQL 被 Oracle 公司收購(gòu)之后,會(huì)帶來(lái)一系列的法律和產(chǎn)權(quán)問(wèn)題,因此創(chuàng)立了一條新的開(kāi)源分支。如今MariaDB也在進(jìn)行迭代,比如SkySQL是MariaDB Enterprise數(shù)據(jù)庫(kù)的云服務(wù)版本,提供database-as-a-service (DBaaS)功能。其整合了豐富而強(qiáng)大的數(shù)據(jù)庫(kù)功能,簡(jiǎn)單易用,并且高度自動(dòng)化。
Microsoft:Azure Cosmos DB
簡(jiǎn)介: Azure Cosmos DB 是一種用于現(xiàn)代應(yīng)用開(kāi)發(fā)的完全托管式NoSQL數(shù)據(jù)庫(kù)服務(wù)。具有有保證的個(gè)位數(shù)毫秒級(jí)響應(yīng)時(shí)間和由SLA支持的99.999%可用性、自動(dòng)、即時(shí)的可伸縮性,以及用于MongoDB和Cassandra的開(kāi)放源代碼API。借助統(tǒng)包數(shù)據(jù)復(fù)制和多區(qū)域?qū)懭?,在世界任何地方都能進(jìn)行快速讀寫操作。
Microsoft:SQL Server
簡(jiǎn)介:SQL Server 是 Microsoft 公司推出的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。具有使用方便可伸縮性好與相關(guān)軟件集成程度高等優(yōu)點(diǎn),可跨越從運(yùn)行 Microsoft Windows 98 到運(yùn)行 Microsoft Windows 2012 的大型多處理器的服務(wù)器等多種平臺(tái)使用。
MongoDB Inc.:MongoDB
簡(jiǎn)介:MongoDB 是一種面向文檔的數(shù)據(jù)庫(kù)系統(tǒng),主要管理類似于 JSON 格式的文檔型數(shù)據(jù)。由總部位于美國(guó)紐約的MongoDB Inc.公司研發(fā),并于 2009 年首次發(fā)布開(kāi)源版本。MongoDB 采用主從式架構(gòu),以此來(lái)保證數(shù)據(jù)的高可用性與可靠性。用戶可以自行部署 MongoDB 集群,也可以付費(fèi)使用 MongoDB 的云數(shù)據(jù)庫(kù)服務(wù)。
MySQL
簡(jiǎn)介:MySQL 是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),現(xiàn)屬于 Oracle 旗下產(chǎn)品,是最流行的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)之一。MySQL 軟件采用了雙授權(quán)政策,分為社區(qū)版和商業(yè)版,由于其體積小、速度快、總體擁有成本低,尤其是開(kāi)放源碼這一特點(diǎn),一般中小型網(wǎng)站的開(kāi)發(fā)都選擇 MySQL作為網(wǎng)站數(shù)據(jù)庫(kù)。
Oracle:Oracle Database
簡(jiǎn)介::Oracle Database,又名 Oracle RDBMS,或簡(jiǎn)稱 Oracle。是 甲骨文公司的一款關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng) 。它在數(shù)據(jù)庫(kù)領(lǐng)域一直處于領(lǐng)先地位的產(chǎn)品,可以說(shuō)是世界上流行的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)。
PostgreSQL
簡(jiǎn)介:PostgreSQL 是一種特性非常齊全的自由軟件的對(duì)象-關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(ORDBMS),是以加州大學(xué)計(jì)算機(jī)系開(kāi)發(fā)的 POSTGRES4.2 版本為基礎(chǔ)的對(duì)象關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。PostgreSQL 支持大部分的 SQL 標(biāo)準(zhǔn)并且提供了很多其他現(xiàn)代特性,如復(fù)雜查詢、外鍵 、觸發(fā)器、視圖、事務(wù)完整性、多版本并發(fā)控制等。同樣,PostgreSQL也可以用許多方法擴(kuò)展,例如通過(guò)增加新的數(shù)據(jù)類型、函數(shù)、操作符、聚集函數(shù) 索引方法、過(guò)程語(yǔ)言等。另外,因?yàn)樵S可證的靈活,任何人都可以以任何目的免費(fèi)使用、修改和分發(fā)PostgreSQL。
YugabyteDB
簡(jiǎn)介:YugabyteDB是一款開(kāi)源,高性能,云原生的分布式數(shù)據(jù)庫(kù),致力于兼容PostgreSQL所有的特性。它適用于需要高實(shí)時(shí)性,高可靠性與高數(shù)據(jù)一致性的云原生應(yīng)用,同時(shí),它提供了高擴(kuò)展性,高容錯(cuò)性與全球部署的可能。
按分析能力:OLAP 型與HTAP型數(shù)據(jù)庫(kù)
前文講到的數(shù)據(jù)庫(kù)大多是 OLTP 類型,更關(guān)注于對(duì)交易與線上業(yè)務(wù)的支持,而分析型的 OLAP 數(shù)據(jù)庫(kù)則更有助于用戶了解自己的業(yè)務(wù)現(xiàn)狀,并對(duì)已有的數(shù)據(jù)進(jìn)行分析處理。OLTP 和 OLAP 有很大的交集,但是側(cè)重點(diǎn)不一樣,比如說(shuō)網(wǎng)絡(luò)商城的 OLTP 數(shù)據(jù)庫(kù)需要應(yīng)對(duì)非常多的用戶,非常高的并發(fā)量,但每條交易可能只是短短的一條購(gòu)買記錄,而 OLAP的用戶則多為企業(yè)內(nèi)部人員,需要周期性的對(duì)數(shù)據(jù)進(jìn)行分析,比如生成周報(bào)來(lái)分析產(chǎn)品銷量。OLAP 數(shù)據(jù)庫(kù)的并發(fā)量要低很多,畢竟一般只限內(nèi)部人員使用,但是數(shù)據(jù)的讀取量會(huì)大很多,經(jīng)常需要對(duì)這一周的所有用戶購(gòu)買數(shù)據(jù)進(jìn)行逐一掃描,相關(guān)的查詢也會(huì)更加復(fù)雜,因此需要更長(zhǎng)的查詢時(shí)間,比如幾小時(shí)之后才能生成對(duì)應(yīng)的周報(bào)。
在OLAP型數(shù)據(jù)庫(kù)中,比較常見(jiàn)的概念之一是數(shù)據(jù)倉(cāng)庫(kù)。進(jìn)入云時(shí)代以來(lái),為了更好的分析數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)的概念應(yīng)運(yùn)而生。用戶在產(chǎn)生數(shù)據(jù)的同時(shí),把相應(yīng)的數(shù)據(jù)上傳到數(shù)據(jù)倉(cāng)庫(kù)中,之后就可以在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行相應(yīng)的查詢。在數(shù)據(jù)倉(cāng)庫(kù)這個(gè)領(lǐng)域最引人注目的玩家就是前面提到的 Snowflake。作為軟件史上最大的IPO之一,Snowflake上市當(dāng)天股票就翻番,現(xiàn)在的市值在450億美元左右。
這一章節(jié)我們將盤點(diǎn)業(yè)內(nèi)的 OLAP 型數(shù)據(jù)庫(kù),以及一些兼容OLTP與OLAP操作的HTAP型數(shù)據(jù)庫(kù)。同樣如前文提及,具體某個(gè)HTAP產(chǎn)品放在OLTP板塊還是OLAP板塊,主要依據(jù)一些公開(kāi)資料中的描述判斷。但整體而言,HTAP兼具兩種功能,這里的分類僅供讀者參考。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
Apache Doris
簡(jiǎn)介:Apache Doris是由百度開(kāi)源并貢獻(xiàn)給Apache的MPP架構(gòu)OLAP數(shù)據(jù)庫(kù),以極速易用的特性被業(yè)內(nèi)所熟知,支持標(biāo)準(zhǔn)SQL并兼容MySQL協(xié)議,僅需秒級(jí)響應(yīng)時(shí)間可返回海量數(shù)據(jù)下的查詢結(jié)果,可有效支持實(shí)時(shí)分析、交互式分析等多種需求場(chǎng)景。
Apache HAWQ
簡(jiǎn)介:Apache HAWQ是面向企業(yè)用戶的先進(jìn)大規(guī)模分布式分析型數(shù)據(jù)庫(kù),完整支持SQL規(guī)范并提供優(yōu)秀的大數(shù)據(jù)分析性能表現(xiàn)。Apache HAWQ于2018年8月15日正式畢業(yè)。
Apache Kylin
簡(jiǎn)介:Apache Kylin? (麒麟)是一個(gè)開(kāi)源的分布式大數(shù)據(jù)分析數(shù)據(jù)倉(cāng)庫(kù);它旨在提供大數(shù)據(jù)時(shí)代的OLAP(在線分析處理)能力。通過(guò)在 Hadoop 和 Spark 上革新多維立方體和預(yù)計(jì)算技術(shù),Kylin 能夠在數(shù)據(jù)量不斷增長(zhǎng)的情況下實(shí)現(xiàn)接近恒定的查詢速度,將查詢延遲從幾分鐘減少到亞秒級(jí)。
阿里巴巴:AnalyticDB
簡(jiǎn)介:AnalyticDB 是阿里云自主研發(fā)的云原生數(shù)據(jù)倉(cāng)庫(kù),采用存儲(chǔ)計(jì)算分離+多副本架構(gòu),支持最大 5000 節(jié)點(diǎn)規(guī)模的彈性擴(kuò)容,對(duì)復(fù)雜 SQL 查詢速度比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)快 10 倍以上。不同于復(fù)雜、高門檻的大數(shù)據(jù)體系,AnalyticDB 高度兼容 MySQL、PostgreSQL,Oracle 應(yīng)用遷移成本低,可對(duì)萬(wàn)億級(jí)別的數(shù)據(jù)進(jìn)行實(shí)時(shí)的多維度分析透視,極大地提升了企業(yè)挖掘數(shù)據(jù)價(jià)值效率。
柏睿:分布式分析型數(shù)據(jù)庫(kù) Rapids UXDB
介紹:Rapids UXDB 是一款具備大規(guī)模并行處理能力的企業(yè)級(jí)關(guān)系型數(shù)據(jù)庫(kù),采用 MPP 架構(gòu),支持 1000+節(jié)點(diǎn)擴(kuò)展。面向智能數(shù)據(jù)分析(OLAP)應(yīng)用場(chǎng)景,提供 EB 級(jí)數(shù)據(jù)的復(fù)雜數(shù)據(jù)分析能力。
達(dá)夢(mèng)數(shù)據(jù)庫(kù):達(dá)夢(mèng)分析型大規(guī)模數(shù)據(jù)處理集群DMMPP
簡(jiǎn)介:達(dá)夢(mèng)分析型大規(guī)模數(shù)據(jù)處理集群軟件(DMMPP)是基于達(dá)夢(mèng)數(shù)據(jù)庫(kù)管理系統(tǒng)研發(fā)的完全對(duì)等無(wú)共享式的并行集群組件,支持將多個(gè)DM8節(jié)點(diǎn)組織為一個(gè)并行計(jì)算網(wǎng)絡(luò),對(duì)外提供統(tǒng)一的數(shù)據(jù)庫(kù)服務(wù),最多可支持1024個(gè)節(jié)點(diǎn),支持TB到PB級(jí)的數(shù)據(jù)存儲(chǔ)與分析,并提供高可用性和動(dòng)態(tài)擴(kuò)展能力,是超大型數(shù)據(jù)應(yīng)用的高性價(jià)比通用解決方案。
鼎石縱橫:StarRocks
簡(jiǎn)介:StarRocks 是一款開(kāi)源的新一代極速全場(chǎng)景 MPP 數(shù)據(jù)庫(kù)。它采用新一代的彈性 MPP 架構(gòu),可以高效支持海量數(shù)據(jù)的多維分析、實(shí)時(shí)分析、高并發(fā)分析等多種數(shù)據(jù)分析場(chǎng)景。它采用了全面向量化技術(shù)。StarRocks 的目標(biāo)是成為新一代流批融合的極速湖倉(cāng)(Lakehouse)。
東方國(guó)信:CirroData-AP
簡(jiǎn)介:CirroData-AP 分布式云化數(shù)據(jù)庫(kù)面向海量數(shù)據(jù)分析型應(yīng)用領(lǐng)域,便于用戶管理全量數(shù)據(jù),進(jìn)行快速的統(tǒng)計(jì)分析,進(jìn)而獲得數(shù)據(jù)驅(qū)動(dòng)的商業(yè)洞察。CirroData 采用了計(jì)算和存儲(chǔ)分離的技術(shù)架構(gòu),融合了分布式存儲(chǔ)和 MPP 并行計(jì)算的各自優(yōu)勢(shì),不但可以實(shí)現(xiàn)云平臺(tái)上的伸縮擴(kuò)展能力,而且可以提供隨需部署的能力。
東軟:思來(lái)得數(shù)據(jù)倉(cāng)庫(kù)
簡(jiǎn)介:Neusoft Select Data Warehous(簡(jiǎn)稱東軟思來(lái)得)是東軟專家團(tuán)隊(duì)基于MPP架構(gòu),采用Pivotal Greenplum開(kāi)源平臺(tái)打造的擁有自主知識(shí)產(chǎn)權(quán)的,適用于云原生環(huán)境的分布式數(shù)據(jù)庫(kù)。為企業(yè)提供海量數(shù)據(jù)的管控及并行處理的能力,為IT架構(gòu)的靈活擴(kuò)展提供數(shù)據(jù)底座。
飛輪科技:SelectDB
簡(jiǎn)介:基于Doris內(nèi)核的云原生發(fā)行版SelectDB,是運(yùn)行在云上的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù),為用戶和客戶提供開(kāi)箱即用的能力。據(jù)介紹,其主要的特色功能體現(xiàn)在:充分發(fā)揮彈性云計(jì)算、彈性云存儲(chǔ)的優(yōu)勢(shì),實(shí)現(xiàn)高性價(jià)比;提供可視化、易用的管控平臺(tái)和用戶交互開(kāi)發(fā)平臺(tái)。
跬智科技:Kyligence
簡(jiǎn)介:Kyligence全場(chǎng)景OLAP,通過(guò)有機(jī)融合 Apache Kylin 與 ClickHouse,全面覆蓋各類分析場(chǎng)景,用戶無(wú)需維護(hù)復(fù)雜的數(shù)據(jù)平臺(tái),即可獲得統(tǒng)一的查詢分析體驗(yàn)。
瀚高數(shù)據(jù)庫(kù):HGDW
簡(jiǎn)介:瀚高數(shù)據(jù)倉(cāng)庫(kù)是一款基于大規(guī)模并行技術(shù)的數(shù)據(jù)倉(cāng)庫(kù)軟件,具備無(wú)共享、高性能、高可用、擴(kuò)展容易、海量數(shù)據(jù)處理等特性??梢詾槌笠?guī)模數(shù)據(jù)管理提供高性價(jià)比的通用計(jì)算平臺(tái),廣泛用于支撐各類數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)。
火山引擎:ByteHouse
簡(jiǎn)介:ByteHouse 是火山引擎基于ClickHouse研發(fā)的一款分析型數(shù)據(jù)庫(kù)產(chǎn)品,能夠?qū)?PB 級(jí)海量數(shù)據(jù)進(jìn)行高效分析。目前,在字節(jié)跳動(dòng)內(nèi)部,ByteHouse已經(jīng)支持了80%的分析應(yīng)用,能夠高效賦能精準(zhǔn)營(yíng)銷、廣告效果評(píng)估、增長(zhǎng)分析等多種場(chǎng)景。
聚云位智:Linkoop DB/ZettaBase
簡(jiǎn)介:這是一款擁有內(nèi)核專利的純國(guó)產(chǎn)自研企業(yè)級(jí)人工智能數(shù)據(jù)庫(kù),吸收了 MPP 庫(kù)和 Hadoop 兩種技術(shù)路線的特長(zhǎng),以企業(yè)級(jí)分析型數(shù)據(jù)庫(kù)能力為基礎(chǔ)核心,增強(qiáng)了流式計(jì)算和人工智能計(jì)算能力,并且可以統(tǒng)一使用 SQL 驅(qū)動(dòng)。當(dāng)前公司產(chǎn)品已經(jīng)覆蓋了電信、公安、軍工、金融等領(lǐng)域,場(chǎng)景包括智慧醫(yī)療、智能制造、精準(zhǔn)營(yíng)銷、輿情分析等場(chǎng)景。
酷克數(shù)據(jù)科技:HashData
簡(jiǎn)介:HashData數(shù)據(jù)倉(cāng)庫(kù)融合了MPP數(shù)據(jù)庫(kù)的高性能和豐富分析功能、大數(shù)據(jù)平臺(tái)的擴(kuò)展性和靈活性,以及云計(jì)算的彈性和敏捷性,以創(chuàng)新性的元數(shù)據(jù)、計(jì)算和存儲(chǔ)三者分離的架構(gòu),提供了傳統(tǒng)解決方案做不到的高并發(fā)、彈性、易用性、高可用性、高性能和擴(kuò)展性。
浪潮:K-DB(m 版)分析型數(shù)據(jù)庫(kù)
簡(jiǎn)介:K-DB(m 版)是大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)和并行計(jì)算框架,可以支撐 PB 級(jí)數(shù)據(jù),結(jié)構(gòu)化和半結(jié)構(gòu)化分析型數(shù)據(jù)庫(kù)。其產(chǎn)品可作為數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖中的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、庫(kù)內(nèi)數(shù)據(jù)計(jì)算挖掘平臺(tái),支撐決策支持、數(shù)據(jù)挖掘等高級(jí)分析場(chǎng)景,幫助用戶降低成本和提高效率,從數(shù)據(jù)中獲取對(duì)業(yè)務(wù)的洞察和預(yù)測(cè)。
南大通用:GBase 8a
簡(jiǎn)介:GBase 8a分析型數(shù)據(jù)庫(kù)的主要市場(chǎng)是商業(yè)分析和商業(yè)智能市場(chǎng)。產(chǎn)品主要應(yīng)用在政府、黨委、安全敏感部門、國(guó)防、統(tǒng)計(jì)、審計(jì)、銀監(jiān)、證監(jiān)等領(lǐng)域,以及電信、金融、電力等擁有海量業(yè)務(wù)數(shù)據(jù)的行業(yè)。
偶數(shù)科技:OushuDB
介紹:OushuDB 是由 Apache HAWQ 創(chuàng)始團(tuán)隊(duì)打造的新一代云原生數(shù)據(jù)倉(cāng)庫(kù),該產(chǎn)品采用了存儲(chǔ)與計(jì)算分離技術(shù)架構(gòu),具有 MPP 的優(yōu)點(diǎn),還具有彈性,支持混合工作負(fù)載和高擴(kuò)展性等優(yōu)點(diǎn)。
人大金倉(cāng):KingbaseAnalyticsDB
介紹:KingbaseAnalyticsDB是一款采用shared-nothing分布式架構(gòu),具有高性能,高擴(kuò)展性能力的MPP數(shù)據(jù)庫(kù)產(chǎn)品。適用于數(shù)據(jù)倉(cāng)庫(kù)、決策支持、高級(jí)分析等分析類應(yīng)用場(chǎng)景。
睿帆科技:雪球 DB/Snowball
介紹:分布式分析型數(shù)據(jù)庫(kù)雪球 DB 是睿帆科技自主研發(fā)的一款基于 PB 級(jí)數(shù)據(jù)在線高并發(fā)極速即席查詢的聯(lián)機(jī)分析處理(OLAP)MPP 列式數(shù)據(jù)庫(kù)管理系統(tǒng)。
可提供 PB 級(jí)數(shù)據(jù)的在線多維查詢和分布式存儲(chǔ),特別適用于海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、高并發(fā)查詢、高吞吐即席查詢(Ad-hoc)、多維分析和實(shí)時(shí)查詢場(chǎng)景,能夠?qū)崿F(xiàn) PB 級(jí)數(shù)據(jù)超高的壓縮比,節(jié)省硬件成本。
數(shù)變科技:Databend
簡(jiǎn)介:Databend 是一個(gè)使用Rust研發(fā)、開(kāi)源的、完全面向云架構(gòu)的新式數(shù)倉(cāng),致力于提供極速的彈性擴(kuò)展能力,打造按需、按量的Data Cloud 產(chǎn)品體驗(yàn)。
石原子:AtomData
簡(jiǎn)介:AtomData是石原子自研的高并發(fā)低延時(shí)下一代PB級(jí)云原生數(shù)據(jù)倉(cāng)庫(kù),可以對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)的多維分析透視和業(yè)務(wù)探索分析,將數(shù)據(jù)分析和價(jià)值化從傳統(tǒng)的離線數(shù)倉(cāng)轉(zhuǎn)化為在線實(shí)時(shí)分析模式。
騰訊:TDSQL-A ClickHouse 版
簡(jiǎn)介:TDSQL-A ClickHouse 版(TDSQL-A for ClickHouse,TDACH)是騰訊云數(shù)據(jù)庫(kù)團(tuán)隊(duì)在 ClickHouse 社區(qū)版基礎(chǔ)上,適配騰訊定制化數(shù)據(jù)庫(kù)專用硬件,進(jìn)行了功能增強(qiáng)和性能提升,并且完善了高可用能力而形成的一套分析型數(shù)據(jù)庫(kù)產(chǎn)品。
天云數(shù)據(jù):HUBBLE
簡(jiǎn)介:Hubble是一款自主研發(fā)的國(guó)產(chǎn)分布式HTAP數(shù)據(jù)庫(kù)。具備超高并發(fā)、多源異構(gòu)、全量SQL支持等功能特性,能同時(shí)支持金融級(jí)的在線交易和大規(guī)模數(shù)據(jù)分析的場(chǎng)景,已在多家大型股份制銀行落地應(yīng)用,同時(shí)服務(wù)支撐證券、保險(xiǎn)、能源、政府等眾多領(lǐng)域。
星環(huán)科技:ArgoDB
簡(jiǎn)介:Transwarp ArgoDB 是星環(huán)科技自主研發(fā)的分布式分析型閃存數(shù)據(jù)庫(kù),可以替代 Hadoop+MPP 混合架構(gòu)。支持標(biāo)準(zhǔn) SQL 語(yǔ)法,提供多模分析、實(shí)時(shí)數(shù)據(jù)處理、存算解耦、混合負(fù)載、數(shù)據(jù)聯(lián)邦、異構(gòu)服務(wù)器混合部署等先進(jìn)技術(shù)能力。其介紹,通過(guò)一個(gè) ArgoDB 數(shù)據(jù)庫(kù),就可以滿足數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、OLAP、AETP、聯(lián)邦計(jì)算等各種需求。
炎凰數(shù)據(jù):炎凰數(shù)據(jù)平臺(tái)2.0
簡(jiǎn)介:炎凰數(shù)據(jù)?產(chǎn)品提供從采集、導(dǎo)入、存儲(chǔ)、分析、可視化和告警等一系列服務(wù)。提供客戶靈活地管理海量多源異構(gòu)數(shù)據(jù),快速分析數(shù)據(jù)特征,實(shí)現(xiàn)異常預(yù)測(cè)、智能應(yīng)對(duì)的解決方案
易鯨捷:QianBase MPP
簡(jiǎn)介:針對(duì)數(shù)據(jù)查詢分析、企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)、商業(yè)智能、物聯(lián)網(wǎng)和大數(shù)據(jù)等領(lǐng)域設(shè)計(jì)的一款大規(guī)模并行處理分析型數(shù)據(jù)庫(kù)產(chǎn)品。
致大盡微科技:TensorBase
簡(jiǎn)介:TensorBase是用開(kāi)源的文化和方式,構(gòu)建的一個(gè)Rust下的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù),服務(wù)于海量數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)和分析。
DuckDB Labs:DuckDB
簡(jiǎn)介:DuckDB 是一款開(kāi)源的嵌入式OLAP數(shù)據(jù)庫(kù),被用作嵌入其他程序以進(jìn)行快速SQL查詢分析,因而被稱為"OLAP數(shù)據(jù)庫(kù)中的 SQLite"。DuckDB具有簡(jiǎn)單易用,快速,開(kāi)源等特點(diǎn),并支持包括事務(wù)在內(nèi)的多種功能。DuckDB背后的商業(yè)化公司DuckDB Labs總部位于荷蘭阿姆斯特丹。
Google:Google Big Query
簡(jiǎn)介: Big Query是伸縮能力極強(qiáng)且經(jīng)濟(jì)實(shí)惠的無(wú)服務(wù)器多云數(shù)據(jù)倉(cāng)庫(kù),幫助用戶提升業(yè)務(wù)敏捷性。用戶可以批量上傳數(shù)據(jù)并進(jìn)行分析。Big Query有以下的特點(diǎn):利用內(nèi)置機(jī)器學(xué)習(xí)技術(shù)的平臺(tái),安全且可伸縮,使更多的用戶可以獲取數(shù)據(jù)洞見(jiàn);通過(guò)靈活的多云分析解決方案,以存儲(chǔ)在多種云環(huán)境內(nèi)的數(shù)據(jù)推動(dòng)業(yè)務(wù)決策;大規(guī)模運(yùn)行分析的三年期總擁有成本 (TCO) 比其他云數(shù)據(jù)倉(cāng)庫(kù)低 26%–34%
Pivotal:Greenplum
簡(jiǎn)介:Greenplum是一款基于PostgreSQL的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)軟件。Greenplum支持50PB(1PB=1024TB)級(jí)海量數(shù)據(jù)的存儲(chǔ)和處理,Greenplum將來(lái)自不同源系統(tǒng)的、不同部門、不同平臺(tái)的數(shù)據(jù)集成到數(shù)據(jù)庫(kù)中集中存放,并且存放詳盡歷史的數(shù)據(jù)軌跡,業(yè)務(wù)用戶不用再面對(duì)一個(gè)又一個(gè)信息孤島,也不再困惑于不同版本數(shù)據(jù)導(dǎo)致的偏差,同時(shí)對(duì)于IT人員也降低管理維護(hù)工作的復(fù)雜度。
Snowflake Inc.:Snowflake
簡(jiǎn)介:Snowflake是一種云原生數(shù)據(jù)倉(cāng)庫(kù),提供基于云平臺(tái)的數(shù)據(jù)存儲(chǔ)與查詢服務(wù)。它支持Amazon AWS S3,微軟Azure和Google Cloud三種不同的云平臺(tái)。其背后的Snowflake Inc.公司成立于2012年7月,并于2020年9月在紐約證券交易所上市。
Teradata
簡(jiǎn)介Teradata的數(shù)據(jù)倉(cāng)庫(kù)使用“無(wú)共享(shared nothing)”架構(gòu),各個(gè)服務(wù)器之間擁有獨(dú)立內(nèi)存和處理能力,增加服務(wù)器與節(jié)點(diǎn)即增加可儲(chǔ)存的資料量,并由數(shù)據(jù)庫(kù)軟件集中管理各服務(wù)器間的承載負(fù)荷量 。2010年,Teradata加入文字分析功能,借此追蹤非結(jié)構(gòu)性資料(如文書檔案)或半結(jié)構(gòu)性資料(如試算表),并可應(yīng)用于商業(yè)分析,例如使用資料倉(cāng)庫(kù)追蹤公司資料,如銷售、客戶偏好、產(chǎn)品位置等。Teradata于2007年在紐約證券交易所上市。
Yandex:ClickHouse
簡(jiǎn)介:ClickHouse是一個(gè)用于OLAP的開(kāi)源列式數(shù)據(jù)庫(kù)。ClickHouse最早由俄羅斯IT公司Yandex為Yandex.Metrica網(wǎng)絡(luò)分析服務(wù)開(kāi)發(fā)。ClickHouse允許分析實(shí)時(shí)更新的數(shù)據(jù),并以高性能為目標(biāo),此外ClickHouse還有以下的特點(diǎn):真正的列式數(shù)據(jù)庫(kù): 沒(méi)有任何內(nèi)容與值一起存儲(chǔ);線性可擴(kuò)展性: 可以通過(guò)添加服務(wù)器來(lái)擴(kuò)展集群;容錯(cuò)性: 系統(tǒng)是一個(gè)分片集群,其中每個(gè)分片都是一組副本;能夠存儲(chǔ)和處理數(shù)PB的數(shù)據(jù);SQL支持。其背后的ClickHouse Inc.公司位于美國(guó)舊金山灣區(qū),同時(shí)在荷蘭阿姆斯特丹有分部。2021年10月,該公司進(jìn)行了B輪融資,共計(jì)融資2.5億美元。
按照使用場(chǎng)景
3.1 圖數(shù)據(jù)庫(kù)
傳統(tǒng)數(shù)據(jù)庫(kù)更像是一張張 Excel 表,數(shù)據(jù)一行行的寫入數(shù)據(jù)庫(kù)。而有些信息,比如說(shuō)銀行轉(zhuǎn)賬,記錄更多的是點(diǎn)和邊的信息,轉(zhuǎn)賬時(shí)我們可以把每一個(gè)用戶看作是一個(gè)點(diǎn),每一筆交易看作是一條邊,這樣在進(jìn)行交易查詢的時(shí)候,用戶可以沿著邊,一步步的去查詢資金的流向。如果使用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行查詢,比較耗時(shí)耗力,需要在大量的交易信息里,查詢到某位特定用戶的交易信息,之后再返回大量的交易信息里,查詢下一筆交易信息以及相應(yīng)的客戶,這就需要對(duì)數(shù)據(jù)進(jìn)行很多輪查詢。圖數(shù)據(jù)庫(kù)則專門應(yīng)對(duì)這樣的場(chǎng)景,采用以邊為主的存儲(chǔ)與查詢方式,可以更快的順著一條條邊進(jìn)行信息的查詢。因?yàn)橹饕幚睃c(diǎn)和邊的信息,這些點(diǎn)和邊構(gòu)成了一張張圖,對(duì)應(yīng)的數(shù)據(jù)庫(kù)就叫作圖數(shù)據(jù)庫(kù)。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
Apache HugeGraph
簡(jiǎn)介:HugeGraph是一款易用、高效、通用的圖數(shù)據(jù)庫(kù),實(shí)現(xiàn)了Apache TinkerPop3框架及兼容Gremlin查詢語(yǔ)言。支持百億以上的頂點(diǎn)(Vertex)和邊(Edge)快速導(dǎo)入,并提供毫秒級(jí)的關(guān)聯(lián)查詢能力,并可與Hadoop、Spark等大數(shù)據(jù)平臺(tái)集成以進(jìn)行離線分析。主要應(yīng)用場(chǎng)景包括關(guān)聯(lián)分析、欺詐檢測(cè)和知識(shí)圖譜等。
百度:BGraph
簡(jiǎn)介:百度自研的原生圖數(shù)據(jù)庫(kù)引擎,能支持超大規(guī)模的圖數(shù)據(jù),具有極高的查詢性能,您可將它應(yīng)用在知識(shí)圖譜、金融風(fēng)控、推薦引擎和公共安全等場(chǎng)景。
創(chuàng)鄰科技:Galaxybase
簡(jiǎn)介:Galaxybase 是中國(guó)自主知識(shí)產(chǎn)權(quán)的通用商業(yè)化分布式圖數(shù)據(jù)庫(kù)。Galaxybase 改變了傳統(tǒng)數(shù)據(jù)存儲(chǔ)的方式,以一種更為靈活的基于“對(duì)象”和其間“關(guān)系”的圖數(shù)據(jù)結(jié)構(gòu),將分散的不同種類的原始數(shù)據(jù)連接在一起形成一個(gè)關(guān)系網(wǎng)絡(luò),打通數(shù)據(jù)孤島,通過(guò)自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、圖挖掘等人工智能算法,提供用戶從關(guān)系角度分析問(wèn)題的能力,幫助其完成實(shí)時(shí)決策。
華為:GraphBase
簡(jiǎn)介:GraphBase是基于FusionInsight HD的分布式圖數(shù)據(jù)庫(kù),基于HBase的分布式存儲(chǔ)機(jī)制,能夠支持百億節(jié)點(diǎn),千億關(guān)系的海量數(shù)據(jù),提供基于Spark的數(shù)據(jù)導(dǎo)入和基于Elasticsearch的索引機(jī)制,在推薦、關(guān)系分析和金融反欺詐等領(lǐng)域有廣泛應(yīng)用。
極致嬴圖:Ultipa
簡(jiǎn)介:據(jù)36氪2021年的報(bào)道,公司介紹,Ultipa的性能被客戶稱為“核動(dòng)力”引擎,在計(jì)算速度上以三角形計(jì)算為例,其速度可達(dá) 3 億個(gè)三角形/秒——這樣的速度在某種程度上已經(jīng)挑戰(zhàn)了現(xiàn)有計(jì)算機(jī)系統(tǒng)的物理極限;在計(jì)算深度上,可做 30 層的深度穿透及關(guān)聯(lián)發(fā)現(xiàn),并能夠方便的構(gòu)建復(fù)雜的模型并與數(shù)據(jù)相關(guān)聯(lián)。
螞蟻集團(tuán):TuGraph
簡(jiǎn)介:TuGraph 是螞蟻集團(tuán)聯(lián)合清華大學(xué)自主研發(fā)的大規(guī)模全棧圖計(jì)算系統(tǒng),是高效存儲(chǔ)、計(jì)算和分析海量圖數(shù)據(jù)的一站式平臺(tái),支持在線、近線和離線模式,能夠在萬(wàn)億邊圖上進(jìn)行實(shí)時(shí)查詢,其處理規(guī)模和性能均達(dá)到了國(guó)際領(lǐng)先水平,已獲得規(guī)?;瘧?yīng)用,成為螞蟻集團(tuán)各種業(yè)務(wù)風(fēng)控能力的重要支撐,在數(shù)字支付、數(shù)字服務(wù)、數(shù)字金融等核心業(yè)務(wù)中,顯著提升了風(fēng)險(xiǎn)行為的實(shí)時(shí)識(shí)別能力和調(diào)查分析效率。
另一家圖數(shù)據(jù)庫(kù)廠商費(fèi)馬科技已被收購(gòu),產(chǎn)品和技術(shù)目前融合進(jìn)了TuGraph。
夢(mèng)圖數(shù)據(jù)庫(kù):GDM
簡(jiǎn)介:GDM 是四川蜀天夢(mèng)圖數(shù)據(jù)科技有限公司自主研發(fā)的分布式圖數(shù)據(jù)庫(kù)管理系統(tǒng)。
GDM 采用分布式架構(gòu),支持橫向擴(kuò)展,能夠滿足大數(shù)據(jù)時(shí)代海量數(shù)據(jù)的存儲(chǔ)需求?;趫D理論,GDM 針對(duì)圖數(shù)據(jù)模型進(jìn)行了優(yōu)化存儲(chǔ),在兼顧性能和存儲(chǔ)空間上做了平衡,采用多節(jié)點(diǎn)并行計(jì)算,能夠提高大圖、超大圖的圖計(jì)算能力。GDM 支持分布式事務(wù),能同時(shí)滿足 OLTP 和 OLAP 需求。
歐若數(shù)網(wǎng):Nebula
簡(jiǎn)介:Nebula Graph 一款開(kāi)源、分布式圖數(shù)據(jù)庫(kù),擅長(zhǎng)處理超大規(guī)模數(shù)據(jù)集。Nebula Graph 采用存儲(chǔ)計(jì)算分離架構(gòu),支持水平擴(kuò)展,利用 RAFT 分布式 concensus 協(xié)議來(lái)實(shí)現(xiàn)金融級(jí)的高可用,類 SQL 查詢語(yǔ)言降低了 SQL 程序員遷移成本。
騰訊:TGDB
簡(jiǎn)介:騰訊云數(shù)圖 TGDB(Tencent Graph Database)是騰訊云推出的原生分布式并行圖數(shù)據(jù)庫(kù),以原生方式實(shí)現(xiàn)屬性圖,高效存儲(chǔ)關(guān)聯(lián)數(shù)據(jù),支持千億級(jí)節(jié)點(diǎn)大圖的高效查詢和關(guān)聯(lián)分析。
圖特摩斯科技:AbutionGraph
簡(jiǎn)介:其結(jié)合了圖數(shù)據(jù)庫(kù)(GDB)的簡(jiǎn)潔拓?fù)潢P(guān)系、數(shù)據(jù)倉(cāng)庫(kù)(ROLAP+MOLAP)、時(shí)序知識(shí)圖譜的新穎存儲(chǔ)思想,首創(chuàng)動(dòng)態(tài)知識(shí)圖譜數(shù)據(jù)倉(cāng)庫(kù)(Graph Hybrid OLAP),集多種先進(jìn)存儲(chǔ)技術(shù)于一身,實(shí)現(xiàn)數(shù)據(jù)高效存儲(chǔ)與分析。幫助企業(yè)快速構(gòu)建數(shù)據(jù)運(yùn)營(yíng)能力,滿足個(gè)性化定制需求,解決既往圖數(shù)據(jù)庫(kù)產(chǎn)品無(wú)法滿足的場(chǎng)景。
維佳星科技:TigerGraph
簡(jiǎn)介:TigerGraph可以在幾小時(shí)內(nèi)加載上TB的數(shù)據(jù),并支持超過(guò)十跳的圖數(shù)據(jù)查詢。TigerGraph同時(shí)支持ACID事務(wù)操作,數(shù)據(jù)分片,數(shù)據(jù)庫(kù)的橫向與縱向擴(kuò)展。TigerGraph適用于反欺詐,物聯(lián)網(wǎng),AI與機(jī)器學(xué)習(xí)等場(chǎng)景,并被中國(guó)移動(dòng),Wish與Zillow等客戶采用。
星環(huán)科技:Transwarp StellarDB
簡(jiǎn)介:Transwarp StellarDB 是一款為企業(yè)級(jí)圖應(yīng)用而打造的分布式圖數(shù)據(jù)庫(kù),用于快速查找數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,并提供強(qiáng)大算法分析能力。StellarDB 克服了萬(wàn)億級(jí)關(guān)聯(lián)圖數(shù)據(jù)存儲(chǔ)的難題,通過(guò)自定義圖存儲(chǔ)格式和集群化存儲(chǔ),實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法提供的低延時(shí)多層關(guān)系查詢,在社交網(wǎng)絡(luò)、金融領(lǐng)域都有較大應(yīng)用潛力。
中科知道:PandaDB
簡(jiǎn)介:為實(shí)現(xiàn)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的融合管理和關(guān)聯(lián)查詢分析,“中科知道”采用智能屬性圖模型,基于 Neo4j 開(kāi)源版本,設(shè)計(jì)并實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)智能融合管理系統(tǒng) PandaDB。該系統(tǒng)實(shí)現(xiàn)了結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的高效存儲(chǔ)管理,并提供了靈活的 AI 算子擴(kuò)展機(jī)制,具備對(duì)多元異構(gòu)數(shù)據(jù)內(nèi)在信息的即席查詢能力。
字節(jié)跳動(dòng):ByteGraph
簡(jiǎn)介:ByteGraph是字節(jié)跳動(dòng)自研的分布式圖數(shù)據(jù)庫(kù)。ByteGraph 支持有向?qū)傩詧D數(shù)據(jù)模型,支持 Gremlin 查詢語(yǔ)言,支持靈活豐富的寫入和查詢接口,讀寫吞吐可擴(kuò)展到千萬(wàn) QPS,延遲毫秒級(jí)。據(jù)介紹,ByteGraph 支持頭條、抖音、 TikTok、西瓜、火山等幾乎字節(jié)跳動(dòng)全部產(chǎn)品線。
Amazon:Neptune
簡(jiǎn)介:Neptune是AWS上的圖數(shù)據(jù)庫(kù),其底層依托于AWS S3存儲(chǔ)平臺(tái),支持快速進(jìn)行圖數(shù)據(jù)的查詢與處理,并支持多種開(kāi)源API接口。
ArangoDB Inc.:ArangoDB
簡(jiǎn)介:ArangoDB支持鍵值型,圖數(shù)據(jù),與文檔數(shù)據(jù)三種不同的數(shù)據(jù)格式,并以統(tǒng)一的AQL語(yǔ)言進(jìn)行數(shù)據(jù)查詢與處理。ArangoDB開(kāi)源免費(fèi),采取分布式架構(gòu)。ArangoDB Oasis是由其背后的ArangoDB Inc.公司提供的云數(shù)據(jù)庫(kù)服務(wù)。2021年10月ArangoDB Inc.進(jìn)行了B輪融資,共計(jì)2780萬(wàn)美元。
JanusGraph
簡(jiǎn)介:JanusGraph是Linux基金會(huì)旗下的一款高擴(kuò)展性的分布式開(kāi)源圖數(shù)據(jù)庫(kù),針對(duì)于數(shù)十億量級(jí)的點(diǎn)和邊的應(yīng)用場(chǎng)景專門優(yōu)化。JanusGraph支持事務(wù)特性以及幾千名用戶的并發(fā)交易,以及復(fù)雜的圖數(shù)據(jù)分析查詢。
NEO Technology:Neo4j
簡(jiǎn)介:在Neo4j中,所有的數(shù)據(jù)都被存儲(chǔ)為點(diǎn),線,或者點(diǎn)和線的標(biāo)簽的形式,每個(gè)點(diǎn)或者每條邊都可以有多個(gè)標(biāo)簽。Neo4j的核心組件開(kāi)源,但諸如在線數(shù)據(jù)備份與高可用性的進(jìn)階功能的代碼則是閉源的。2021年6月Neo4j公司進(jìn)行了3.25億美元的F輪融資。
3.2 時(shí)序數(shù)據(jù)庫(kù)
現(xiàn)如今,隨著物聯(lián)網(wǎng)的普及,越來(lái)越多的設(shè)備開(kāi)始產(chǎn)生實(shí)時(shí)數(shù)據(jù),比如路邊的監(jiān)控?cái)z像頭,每天就會(huì)產(chǎn)生數(shù)據(jù)量巨大的信息。物聯(lián)網(wǎng)設(shè)備產(chǎn)生的信息量之大,如果以一行行的方式寫入傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),則很快會(huì)面臨存儲(chǔ)與查詢性能上的瓶頸。同時(shí),對(duì)于這些信息,用戶可能更關(guān)注最近一周的數(shù)據(jù),比如說(shuō)一小時(shí)前的氣溫,而對(duì)去年甚至更久遠(yuǎn)的信息,用戶只關(guān)心一個(gè)大概的統(tǒng)計(jì)學(xué)上的趨勢(shì),比如說(shuō)去年某個(gè)月的平均氣溫,而不需要非常具體的數(shù)據(jù)。此外,物聯(lián)網(wǎng)設(shè)備的數(shù)量可能十分龐大,如果我們把全國(guó)的監(jiān)控?cái)z像頭當(dāng)成是同一套物聯(lián)網(wǎng)系統(tǒng),那設(shè)備總數(shù)會(huì)達(dá)到上億甚至十幾億的規(guī)模。
時(shí)序數(shù)據(jù)庫(kù)針對(duì)這樣的場(chǎng)景,采用不同的底層架構(gòu),可以幾十上百倍得加速存儲(chǔ)與查詢物聯(lián)網(wǎng)設(shè)備時(shí)時(shí)刻刻產(chǎn)生的海量信息。時(shí)序數(shù)據(jù)庫(kù)也可以看作是一種特殊的以時(shí)間為主線的流式數(shù)據(jù)庫(kù)。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
阿里云:TSDB
簡(jiǎn)介:阿里云時(shí)間序列數(shù)據(jù)庫(kù) ( Time Series Database , 簡(jiǎn)稱 TSDB) 是一種集時(shí)序數(shù)據(jù)高效讀寫,壓縮存儲(chǔ),實(shí)時(shí)計(jì)算能力為一體的數(shù)據(jù)庫(kù)服務(wù),可廣泛應(yīng)用于物聯(lián)網(wǎng)和互聯(lián)網(wǎng)領(lǐng)域,實(shí)現(xiàn)對(duì)設(shè)備及業(yè)務(wù)服務(wù)的實(shí)時(shí)監(jiān)控,實(shí)時(shí)預(yù)測(cè)告警。
百度云:TSDB
簡(jiǎn)介:時(shí)序時(shí)空數(shù)據(jù)庫(kù) TSDB 是用于存儲(chǔ)和管理時(shí)間序列數(shù)據(jù)及地理空間數(shù)據(jù)的專業(yè)化數(shù)據(jù)庫(kù),為時(shí)間序列數(shù)據(jù)及地理空間數(shù)據(jù)提供高性能讀寫和強(qiáng)計(jì)算能力的分布式云端數(shù)據(jù)庫(kù)服務(wù)。
螞蟻集團(tuán):CeresDB
簡(jiǎn)介:CeresDB是螞蟻集團(tuán) OceanBase 推出的時(shí)序數(shù)據(jù)庫(kù)產(chǎn)品,該數(shù)據(jù)庫(kù)將為用戶提供安全可靠的數(shù)據(jù)查詢和存儲(chǔ)管理服務(wù),解決監(jiān)控運(yùn)維、物聯(lián)網(wǎng)等場(chǎng)景中,時(shí)間序列數(shù)據(jù)的高吞吐、橫向擴(kuò)展等難題。它是基于OceanBase分布式存儲(chǔ)引擎底座的時(shí)序數(shù)據(jù)庫(kù)產(chǎn)品,適用于物聯(lián)網(wǎng) IoT、運(yùn)維監(jiān)控、金融分析等行業(yè)場(chǎng)景。
諾司時(shí)空:CnosDB
簡(jiǎn)介: CnosDB是一個(gè)專注于時(shí)序數(shù)據(jù)場(chǎng)景的時(shí)序型數(shù)據(jù)庫(kù),適用于各種時(shí)序場(chǎng)景,如服務(wù)器指標(biāo)、應(yīng)用程序指標(biāo)、性能指標(biāo)、函數(shù)接口調(diào)用指標(biāo)、網(wǎng)絡(luò)流量數(shù)據(jù)、探測(cè)器數(shù)據(jù)、日志、市場(chǎng)交易記錄等。CnosDB有如下的特點(diǎn):全面與InfluxDB 1.X 穩(wěn)定版兼容;開(kāi)源分布式集群,產(chǎn)品永久免費(fèi);支持海量時(shí)間序列線:在海量標(biāo)簽、海量時(shí)間序列線的情況下,依然能夠高效實(shí)現(xiàn)分布式迭代器及查詢優(yōu)化;低成本/碳中和:高效的存儲(chǔ)引擎可充分發(fā)揮硬件性能,并在高效壓縮存儲(chǔ)的同時(shí)保障查詢效率;強(qiáng)大完整的生態(tài):可集成市面上主流的采集、存儲(chǔ)、分析、可視化等工具。CnosDB由北京諾司時(shí)空科技有限公司開(kāi)發(fā),2021年07月21日成立于北京市。
四維縱橫:MatrixDB
簡(jiǎn)介:MatrixDB 是四維縱橫推出的超融合型分布式數(shù)據(jù)庫(kù)產(chǎn)品,是同時(shí)支持在線事務(wù)處理(OLTP)、在線分析處理(OLAP)和物聯(lián)網(wǎng)時(shí)序應(yīng)用的超融合型分布式數(shù)據(jù)庫(kù),具備嚴(yán)格分布式事務(wù)一致性、水平在線擴(kuò)容、安全可靠、成熟穩(wěn)定、兼容 PostgreSQL/Greenplum 協(xié)議和生態(tài)等重要特性。為萬(wàn)物互聯(lián)的智能時(shí)代提供智能數(shù)據(jù)核心基礎(chǔ)設(shè)施,為物聯(lián)網(wǎng)應(yīng)用、工業(yè)互聯(lián)網(wǎng)、智能運(yùn)維、智慧城市、實(shí)時(shí)數(shù)倉(cāng)、智能家居、車聯(lián)網(wǎng)等場(chǎng)景提供一站式高效解決方案。
濤思數(shù)據(jù):TDengine
簡(jiǎn)介:為物聯(lián)網(wǎng)而生的大數(shù)據(jù)平臺(tái) TDengine 是濤思數(shù)據(jù)推出的一款開(kāi)源的專為物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、IT 運(yùn)維等設(shè)計(jì)和優(yōu)化的大數(shù)據(jù)平臺(tái)。除核心的快 10 倍以上的時(shí)序數(shù)據(jù)庫(kù)功能外,還提供緩存、數(shù)據(jù)訂閱、流式計(jì)算等功能,最大程度減少研發(fā)和運(yùn)維的復(fù)雜度。
騰訊云:CTSDB
簡(jiǎn)介:騰訊云時(shí)序數(shù)據(jù)庫(kù)(TencentDB for CTSDB)是一種高效、安全、易用的云上時(shí)序數(shù)據(jù)存儲(chǔ)服務(wù)。特別適用于物聯(lián)網(wǎng)、大數(shù)據(jù)和互聯(lián)網(wǎng)監(jiān)控等擁有海量時(shí)序數(shù)據(jù)的場(chǎng)景。
智臾科技:DolphinDB
簡(jiǎn)介:DolphinDB 是由浙江智臾科技有限公司研發(fā)的一款高性能分布式時(shí)序數(shù)據(jù)庫(kù),集成了功能強(qiáng)大的編程語(yǔ)言和高容量高速度的流數(shù)據(jù)分析系統(tǒng),為海量結(jié)構(gòu)化數(shù)據(jù)的快速存儲(chǔ)、檢索、分析及計(jì)算提供一站式解決方案,適用于量化金融及工業(yè)物聯(lián)網(wǎng)等領(lǐng)域。
InfluxData, Inc.:InfluxDB
簡(jiǎn)介:InfluxDB是一套由InfluxData, Inc.公司開(kāi)發(fā)的開(kāi)源時(shí)序型數(shù)據(jù)庫(kù)。它由Go語(yǔ)言實(shí)現(xiàn),致力于更高效得查詢與存儲(chǔ)時(shí)序型數(shù)據(jù)。InfluxDB被廣泛應(yīng)用于物聯(lián)網(wǎng)的實(shí)時(shí)數(shù)據(jù)與計(jì)算機(jī)系統(tǒng)的后臺(tái)監(jiān)控等場(chǎng)景。InfluxDB的核心部分開(kāi)源,但I(xiàn)nfluxData將用于支撐InfluxDB集群水平擴(kuò)展的組件作為閉源產(chǎn)品單獨(dú)銷售。
3.3流式數(shù)據(jù)處理
傳統(tǒng)數(shù)據(jù)庫(kù)在載入數(shù)據(jù)的時(shí)候,為了提高效率,有時(shí)會(huì)采取批處理的方式,分批加載數(shù)據(jù),比如說(shuō)數(shù)據(jù)倉(cāng)庫(kù)常用的ETL操作(Extract,Transform,Load的縮寫,指將數(shù)據(jù)從來(lái)源處經(jīng)過(guò)抽取,轉(zhuǎn)換,加載進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以供查詢的過(guò)程),經(jīng)常將數(shù)據(jù)打包成一個(gè)個(gè)批次,每一塊會(huì)有多條數(shù)據(jù),分批次進(jìn)行處理查詢。這樣雖然總體效率會(huì)有提高,但是查詢某條數(shù)據(jù)的時(shí)候,經(jīng)常要等這條數(shù)據(jù)所在的一整個(gè)批次都被加載完才可以,導(dǎo)致查詢的實(shí)時(shí)性會(huì)有下降。
流式數(shù)據(jù)庫(kù)則將數(shù)據(jù)看作是一條連續(xù)的,永不終止的河流,每收到一條數(shù)據(jù),都會(huì)對(duì)這條數(shù)據(jù)進(jìn)行加載和存儲(chǔ),并提供更為實(shí)時(shí)(real-time)的查詢功能。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
Apache Flink
簡(jiǎn)介:一個(gè)開(kāi)源流處理框架,其核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。Flink以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序,F(xiàn)link的流水線運(yùn)行時(shí)系統(tǒng)可以執(zhí)行批處理和流處理程序。
Apache Kafka
簡(jiǎn)介:它是歸屬于Apache基金會(huì)的一個(gè)開(kāi)源流數(shù)據(jù)處理系統(tǒng),致力于為實(shí)時(shí)數(shù)據(jù)處理提供一個(gè)統(tǒng)一、高吞吐、低延遲的平臺(tái)。Kafka采用“發(fā)布/訂閱消息隊(duì)列”的形式來(lái)在計(jì)算機(jī)的不同組件中傳遞消息,發(fā)布者將自己要發(fā)布的消息以話題的形式組織,不同的接收者可以選擇訂閱不同的話題,Kafka則負(fù)責(zé)將這些消息準(zhǔn)確無(wú)誤的在發(fā)布者與接收者之間進(jìn)行傳遞。Kafka背后的商業(yè)公司Confluent Inc.于2021年6月在納斯達(dá)克證券交易所上市。
柏睿:全內(nèi)存分布式流數(shù)據(jù)庫(kù) Rapids StreamDB
介紹:柏睿數(shù)據(jù)自主研發(fā)的兼顧批處理和流處理的分布式全內(nèi)存流數(shù)據(jù)庫(kù)系統(tǒng),由 SQL 編譯器和優(yōu)化器、MPP 執(zhí)行引擎、數(shù)據(jù)庫(kù)存儲(chǔ)引擎等核心組件構(gòu)成。不僅如此,該系統(tǒng)還兼容多個(gè)主流操作系統(tǒng)如 windows 與 linux,以及各大編程語(yǔ)言接口如 C++,JAVA,Python,C#。
EMQ:HStreamDB
簡(jiǎn)介:HStreamDB 是一款專為流式數(shù)據(jù)設(shè)計(jì)的, 針對(duì)大規(guī)模實(shí)時(shí)數(shù)據(jù)流的接入、存儲(chǔ)、處理、分發(fā)等環(huán)節(jié)進(jìn)行全生命周期管理的流數(shù)據(jù)庫(kù)。它使用標(biāo)準(zhǔn) SQL (及其流式拓展)作為主要接口語(yǔ)言,以實(shí)時(shí)性作為主要特征,旨在簡(jiǎn)化數(shù)據(jù)流的運(yùn)維管理以及實(shí)時(shí)應(yīng)用的開(kāi)發(fā)。
奇點(diǎn)無(wú)限:RisingWave
簡(jiǎn)介:RisingWave是開(kāi)源云原生的支持SQL的流式數(shù)據(jù)庫(kù)。其致力于幫助用戶建立基于云的低開(kāi)發(fā)成本,低運(yùn)營(yíng)成本與低性能成本的實(shí)時(shí)應(yīng)用。有了RisingWave,數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家與工程師可以輕易得使用SQL來(lái)查詢流式數(shù)據(jù),并挖掘數(shù)據(jù)背后的價(jià)值。RisingWave背后的Singularity Data(奇點(diǎn)無(wú)限公司)成立于2021年,已經(jīng)完成數(shù)千萬(wàn)美元的融資。
Timeplus
簡(jiǎn)介:Timeplus解決的核心問(wèn)題是在滿足實(shí)時(shí)高效的基礎(chǔ)上,在統(tǒng)一的分析引擎上對(duì)實(shí)時(shí)流式分析和歷史分析能力的融合,從而縮短從復(fù)雜多樣的實(shí)時(shí)數(shù)據(jù)到實(shí)時(shí)業(yè)務(wù)價(jià)值的時(shí)間(Time-To-Value)。同時(shí)以SQL為統(tǒng)一分析語(yǔ)言,在保證超低延遲和超強(qiáng)性能 的前提上,依然提供了強(qiáng)大的數(shù)據(jù)分析能力。Timeplus設(shè)計(jì)了一個(gè)以時(shí)間為核心的統(tǒng)一實(shí)時(shí)分析引擎。支持多層計(jì)算模型,兼顧流式和歷史分析。
Materialize
簡(jiǎn)介:Materialize 是一個(gè)用 Rust 編寫的流式數(shù)據(jù)庫(kù)。它在數(shù)據(jù)更改時(shí)在內(nèi)存中維護(hù) SQL 查詢的結(jié)果。傳統(tǒng)數(shù)據(jù)庫(kù)在發(fā)出 SELECT 語(yǔ)句時(shí)進(jìn)行評(píng)估,而 Materialize 會(huì)預(yù)先要求查詢,并在新數(shù)據(jù)到達(dá)時(shí)逐步計(jì)算結(jié)果。Materialize 中的讀取速度快、可擴(kuò)展且無(wú)需計(jì)算,支持將更新推送到客戶端。
VoltDB, Inc.:VoltDB
簡(jiǎn)介:VoltDB是一個(gè)企業(yè)級(jí)數(shù)據(jù)平臺(tái),VoltDB為各應(yīng)用提供流式數(shù)據(jù)實(shí)時(shí)決策上的支持。VoltDB將洞察立即付諸實(shí)踐,幫助打造更靈活、更智能的數(shù)據(jù)驅(qū)動(dòng)型企業(yè)。
3.4 內(nèi)存數(shù)據(jù)庫(kù)
一般的數(shù)據(jù)庫(kù)都針對(duì)硬盤上的數(shù)據(jù)讀寫,值得一提的是有些公司偏偏劍走偏鋒,研發(fā)基于內(nèi)存的數(shù)據(jù)庫(kù)?;趦?nèi)存的數(shù)據(jù)庫(kù)一般會(huì)快很多,但面對(duì)的風(fēng)險(xiǎn)則是斷電后數(shù)據(jù)有可能丟失,因此多被用來(lái)緩存數(shù)據(jù),加速數(shù)據(jù)查詢,而不是作為數(shù)據(jù)的主要存儲(chǔ)媒介。目前,業(yè)界也在期待新的存儲(chǔ)硬件的成熟,希望能帶來(lái)數(shù)據(jù)庫(kù)的變革。
阿里巴巴:Tair
簡(jiǎn)介:云原生內(nèi)存數(shù)據(jù)庫(kù)Tair(Redis企業(yè)版)是阿里云推出的支持高并發(fā)低延遲訪問(wèn)的云原生內(nèi)存數(shù)據(jù)庫(kù),完全兼容Redis數(shù)據(jù)結(jié)構(gòu)和API。支持主從與集群架構(gòu),采用多樣存儲(chǔ)介質(zhì)應(yīng)對(duì)不同數(shù)據(jù)溫度場(chǎng)景,并提供全球多活、數(shù)據(jù)閃回、大熱Key探測(cè)與優(yōu)化、和豐富的數(shù)據(jù)模型等特性,賦能大規(guī)模高性能要求的在線數(shù)據(jù)業(yè)務(wù)。Tair從2009年開(kāi)始正式承載集團(tuán)緩存業(yè)務(wù),歷經(jīng)天貓雙十一、優(yōu)酷春晚、菜鳥(niǎo)、高德等業(yè)務(wù)場(chǎng)景的磨練。
柏睿:全內(nèi)存分布式數(shù)據(jù)庫(kù) RapidsDB
簡(jiǎn)介:柏睿數(shù)據(jù)自主研發(fā)的基于分布式架構(gòu)的全內(nèi)存數(shù)據(jù)庫(kù),關(guān)鍵組件包括 SQL 編譯器及優(yōu)化器、MPP 執(zhí)行引擎、數(shù)據(jù)庫(kù)存儲(chǔ)引擎等,性能對(duì)標(biāo) Oracle TimesTen 和 SAP HANA。
快立方:Qcubic
簡(jiǎn)介:Qcubic 內(nèi)存數(shù)據(jù)庫(kù)是快立方自主研發(fā)的關(guān)系型內(nèi)存數(shù)據(jù)庫(kù),致力于解決海量高頻事務(wù)處理,具有高性能、高并發(fā)、高可用、低延時(shí)特性。公司介紹,其核心技術(shù)指標(biāo)比傳統(tǒng)數(shù)據(jù)庫(kù)提升10倍以上。
Pika
簡(jiǎn)介:Pika是一個(gè)可持久化的大容量redis存儲(chǔ)服務(wù),最早由360奇虎公司研發(fā)并開(kāi)源。
Oracle:TimesTen
簡(jiǎn)介:TimesTen是Oracle旗下的基于內(nèi)存的OLTP數(shù)據(jù)庫(kù),其致力于高穩(wěn)定性與彈性擴(kuò)展。TimesTen屬于關(guān)系型數(shù)據(jù)庫(kù),支持橫向的分布式擴(kuò)展。
Redis Labs :Redis
簡(jiǎn)介:Redis 是基于內(nèi)存的分布式鍵值對(duì)存儲(chǔ)數(shù)據(jù)庫(kù)。與基于硬盤的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)不同,Redis 為了實(shí)現(xiàn)更高的性能,將數(shù)據(jù)存儲(chǔ)在多臺(tái)機(jī)器的內(nèi)存中,以此來(lái)實(shí)現(xiàn)更快的讀寫速度,此外,Redis 也不支持關(guān)系型數(shù)據(jù)庫(kù)的表單存儲(chǔ),而是只支持最簡(jiǎn)單的鍵值對(duì)存儲(chǔ)。因?yàn)槠浠趦?nèi)存的特性,Redis 多被用于計(jì)算機(jī)系統(tǒng)的緩存層(cache),一方面使系統(tǒng)更快速,并減輕底層數(shù)據(jù)庫(kù)的壓力,另一方面即使斷電,也只會(huì)丟失緩存中的數(shù)據(jù),而底層的數(shù)據(jù)依然由其它的數(shù)據(jù)庫(kù)存儲(chǔ)在硬盤中,不會(huì)使底層的數(shù)據(jù)永久丟失。
SAP:HANA
簡(jiǎn)介:SAP HANA是一款基于內(nèi)存的列存儲(chǔ)的關(guān)系型多模數(shù)據(jù)庫(kù),支持實(shí)時(shí)數(shù)據(jù)分析與多種ETL操作。SAP HANA Cloud是其對(duì)應(yīng)的云服務(wù)版本。
3.5 多模數(shù)據(jù)庫(kù)
隨著數(shù)據(jù)種類的增加,數(shù)據(jù)庫(kù)經(jīng)常要處理存儲(chǔ)不同格式不同來(lái)源的數(shù)據(jù),因而多模數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生。多模數(shù)據(jù)庫(kù)支持更多的數(shù)據(jù)類型,并提升更為靈活的查詢接口,以此來(lái)幫助用戶應(yīng)對(duì)新的數(shù)據(jù)挑戰(zhàn)。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
阿里云:Lindorm
簡(jiǎn)介:Lindorm 是阿里云推出的一款適用于任何規(guī)模、多種類型的云原生數(shù)據(jù)庫(kù)服務(wù),支持海量數(shù)據(jù)的低成本存儲(chǔ)處理和彈性按需付費(fèi),提供寬表、時(shí)序、搜索、文件等多種數(shù)據(jù)模型,兼容 HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL 等多種開(kāi)源標(biāo)準(zhǔn)接口,適合元數(shù)據(jù)、日志、賬單、標(biāo)簽、消息、報(bào)表、維表、結(jié)果表、Feed 流、用戶畫像、設(shè)備數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)、傳感器數(shù)據(jù)、小文件、小圖片等數(shù)據(jù)的存儲(chǔ)和分析。
矩陣起源:MatrixOne
簡(jiǎn)介:MatrixOne 是面向未來(lái)的超融合云和邊緣原生 DBMS,它通過(guò)簡(jiǎn)化的分布式數(shù)據(jù)庫(kù)引擎支持跨多個(gè)數(shù)據(jù)中心、云、邊緣和其他異構(gòu)基礎(chǔ)架構(gòu)的事務(wù)、分析和流工作負(fù)載。
另外,前文還介紹過(guò)MatrixDB、HANA也具備多模特點(diǎn),在此不再贅述。
3.6 數(shù)據(jù)湖與MapReduce相關(guān)
為了更好的整合數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)一般要求用戶提前定義好數(shù)據(jù)庫(kù)中表單的結(jié)構(gòu)(schema),比如說(shuō)一張公司員工的表單,可能會(huì)有人員的姓名,部門,加入公司的時(shí)間等等,這些所需的信息一般來(lái)講是可以提前定義好的。不過(guò),隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的格式也越來(lái)越靈活多變,有時(shí)候事先并沒(méi)有辦法定義好數(shù)據(jù)格式。比如微博,用戶每發(fā)一條微博,除了微博本身的文字信息外,在新版本的微博中,用戶可以選擇上傳地理位置信息,而老版本的微博就沒(méi)有地理位置信息,在將來(lái)的新版本微博中,又可能會(huì)有其它的新的信息。如果我們每添加一種新的信息,就對(duì)數(shù)據(jù)庫(kù)的表單結(jié)構(gòu)進(jìn)行更改,這樣表單的結(jié)構(gòu)會(huì)很復(fù)雜,畢竟需要兼容所有微博里可能有的信息,而有些信息可能只有極少數(shù)微博才有。
數(shù)據(jù)湖,作為數(shù)據(jù)庫(kù)的一個(gè)新的分枝,提供了更靈活的數(shù)據(jù)格式。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,同一張表單里的每一行數(shù)據(jù)都有相同的字段,而在數(shù)據(jù)湖中,用戶在插入數(shù)據(jù)的時(shí)候,通過(guò) JSON 等格式,每一條數(shù)據(jù)都有可以有不同的字段,比如說(shuō)某位公司員工的信息里有(年齡:25, 入職時(shí)間:2022 年 1 月 1 日),而另一位退休員工的信息則是(年齡:65,退休時(shí)間:2020 年 1 月 1 日)。通過(guò)這樣不同的字段,數(shù)據(jù)湖可以提供更靈活的格式,方便用戶寫入擁有不同字段的數(shù)據(jù)。只是,這樣不規(guī)則的數(shù)據(jù),雖然在寫入的時(shí)候更加便捷,但在讀取查詢時(shí)會(huì)有更多效率方面的挑戰(zhàn)。
MapReduce則是一種新的大數(shù)據(jù)工具,由Google于2004年研發(fā),之后業(yè)界依據(jù)Google的相關(guān)論文,開(kāi)發(fā)出開(kāi)源版本的Hadoop與Spark等工具。MapReduce通常會(huì)被用在數(shù)據(jù)湖的數(shù)據(jù)分析階段,因此在這里我們將MapReduce與數(shù)據(jù)湖放在一起介紹。MapReduce將大數(shù)據(jù)的處理分為Map(映射)和Reduce(歸約)兩個(gè)步驟,比如說(shuō)用戶想統(tǒng)計(jì)紅樓夢(mèng)的120回章節(jié)中,“林黛玉”的名字出現(xiàn)的次數(shù),如果用戶有六臺(tái)服務(wù)器的話,用戶可以讓每臺(tái)服務(wù)器各自統(tǒng)計(jì)20章節(jié)中“林黛玉”出現(xiàn)的次數(shù),把120回分為六個(gè)20回的這一步,就被稱為Map,這樣這20回可以被不同的機(jī)器單獨(dú)處理,之后,用戶再將六臺(tái)機(jī)器得到的名字次數(shù)加起來(lái),就可以得到“林黛玉”名字出現(xiàn)的總的次數(shù),這個(gè)相加的操作被稱為Reduce,因?yàn)槭前?份數(shù)據(jù),歸約成了一份數(shù)據(jù)。
相比關(guān)系型數(shù)據(jù)庫(kù),MapReduce的查詢功能更加靈活,并且不要求底層數(shù)據(jù)結(jié)構(gòu)化,因而MapReduce經(jīng)常被用來(lái)處理非結(jié)構(gòu)化的數(shù)據(jù),因而與NoSQL數(shù)據(jù)庫(kù)一起,被當(dāng)作非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)處理工具。
在這一部分,我們關(guān)注到的公司和產(chǎn)品有:
阿里云:E-MapReduce
簡(jiǎn)介:開(kāi)源大數(shù)據(jù)開(kāi)發(fā)平臺(tái) E-MapReduce(簡(jiǎn)稱 EMR),是運(yùn)行在阿里云平臺(tái)上的一種大數(shù)據(jù)處理的系統(tǒng)解決方案。開(kāi)源大數(shù)據(jù)開(kāi)發(fā)平臺(tái) EMR 構(gòu)建于云服務(wù)器 ECS 上,基于開(kāi)源的 Apache Hadoop 和 Apache Spark,讓用戶可以方便地使用 Hadoop 和 Spark 生態(tài)系統(tǒng)中的其他周邊系統(tǒng)分析和處理數(shù)據(jù)。EMR 還可以與阿里云其他的云數(shù)據(jù)存儲(chǔ)系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)(例如,阿里云 OSS 和 RDS 等)進(jìn)行數(shù)據(jù)傳輸。開(kāi)源大數(shù)據(jù)開(kāi)發(fā)平臺(tái) EMR 的 SmartData 組件是 EMR Jindo 引擎的主要存儲(chǔ)部分,為開(kāi)源大數(shù)據(jù)開(kāi)發(fā)平臺(tái) EMR 各個(gè)計(jì)算引擎提供統(tǒng)一的存儲(chǔ)優(yōu)化、緩存優(yōu)化、計(jì)算緩存加速優(yōu)化和多個(gè)存儲(chǔ)功能擴(kuò)展。
H3C:E-MapReduce
簡(jiǎn)介:E-MapReduce 數(shù)據(jù)平臺(tái)服務(wù):提供豐富的大數(shù)據(jù)組件即服務(wù),包括但不限于分布式文件系統(tǒng)、NoSQL 數(shù)據(jù)庫(kù)服務(wù)、內(nèi)存數(shù)據(jù)庫(kù)服務(wù)、離線計(jì)算、流式計(jì)算、內(nèi)存計(jì)算、SQL on Hadoop 等服務(wù),同時(shí)還提供自研統(tǒng)一 SQL 服務(wù),可兼容標(biāo)準(zhǔn) SQL,對(duì)外提供統(tǒng)一的數(shù)據(jù)查詢/分析服務(wù),提升平臺(tái)的整體易用性。
大應(yīng)科技:Aloudata
簡(jiǎn)介:Aloudata 是一站式的敏捷數(shù)據(jù)工作臺(tái),基于 AI 增強(qiáng)的湖倉(cāng)引擎,提供自助式的數(shù)據(jù)準(zhǔn)備和閃電般的查詢能力。Aloudata致力于讓企業(yè)無(wú)需搭建復(fù)雜ETL鏈路,業(yè)務(wù)人員即可自助完成數(shù)據(jù)處理和分析,讓每一個(gè)業(yè)務(wù)需求和創(chuàng)意都能及時(shí)獲得數(shù)據(jù)支撐。
Databricks
簡(jiǎn)介:Spark與Hadoop是業(yè)界最主要的開(kāi)源MapReduce工具,而Databricks是由Spark的創(chuàng)立者成立的商業(yè)公司,致力于為用戶提供更好的大數(shù)據(jù)分析工具。公司的主要發(fā)力點(diǎn)為數(shù)據(jù)湖與云計(jì)算,其開(kāi)發(fā)的Delta Lake項(xiàng)目將數(shù)據(jù)湖與機(jī)器學(xué)習(xí)結(jié)合起來(lái),方便數(shù)據(jù)科學(xué)家在格式并不規(guī)整的數(shù)據(jù)湖中進(jìn)行數(shù)據(jù)分析。此外,Databricks也在微軟的Azure與Google Cloud上提供Spark的云服務(wù)。2021年8月,Databricks完成了第八輪融資,共融資16億美元,估值38億美元。
HBase與Hive
簡(jiǎn)介:HBase是一個(gè)開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)(NoSQL),運(yùn)行于HDFS文件系統(tǒng)之上,為 Hadoop 提供類似于BigTable 規(guī)模的服務(wù)。HBase的表能夠作為MapReduce任務(wù)的輸入和輸出。Hive是一種用類SQL語(yǔ)句來(lái)協(xié)助讀寫、管理那些存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)上大數(shù)據(jù)集的數(shù)據(jù)倉(cāng)庫(kù)軟件。Facebook為了解決海量日志數(shù)據(jù)的分析而開(kāi)發(fā)了Hive,后來(lái)開(kāi)源給了Apache軟件基金會(huì)。HBase與Hive都屬于Hadoop生態(tài)的一部分,其對(duì)應(yīng)的商業(yè)化公司有Amazon AWS,Cloudera等。
3.7 文本搜索
文本搜索引擎和數(shù)據(jù)庫(kù)有很多相似的地方,因此我們?cè)谶@里將它列為一種特殊的數(shù)據(jù)庫(kù)。與文檔型數(shù)據(jù)庫(kù)的相似點(diǎn)在于,文本搜索引擎需要加載大量的文檔,建立文本索引,并對(duì)這些文檔依據(jù)關(guān)鍵字進(jìn)行查詢,同時(shí),分布式的文本搜索引擎一樣要處理數(shù)據(jù)在多臺(tái)機(jī)器上的分片與備份。不同之處在于,文本搜索引擎更關(guān)注于關(guān)鍵字搜索,因此會(huì)提供更多的語(yǔ)法工具,比如說(shuō)中文的分詞工具,英語(yǔ)單詞的單復(fù)數(shù)變換工具等等。此外,文本搜索引擎收錄的文檔可能字?jǐn)?shù)很多,但是更新頻率較低,因而通常會(huì)禁止用戶對(duì)已經(jīng)存錄的文檔進(jìn)行修改,而鼓勵(lì)用戶將修改后的文檔當(dāng)成是全新的文檔另行存儲(chǔ)加載。而數(shù)據(jù)庫(kù)通常會(huì)支持?jǐn)?shù)據(jù)的更新修改。此外,文本搜索引擎也不支持?jǐn)?shù)據(jù)庫(kù)的事務(wù)操作。
ElasticSearch
ElasticSearch 是開(kāi)源的分布式文本搜索引擎,是當(dāng)前最受歡迎的企業(yè)搜索引擎。ElasticSearch 本身更關(guān)注于搜索,與支持增刪改查的傳統(tǒng)數(shù)據(jù)庫(kù)不同,ElasticSearch 只支持文檔的增加與刪除,并不支持文檔內(nèi)容的修改。ElasticSearch 本身有一定的存儲(chǔ)功能,多被用于只讀類型的文檔存儲(chǔ),此外,ElasticSearch 也不支持分布式事務(wù)。ElasticSearch 背后的 Elastic 公司在 2018 年 10 月在紐約證券交易所上市。
3.8向量檢索引擎
在人工智能領(lǐng)域,用戶進(jìn)行模型訓(xùn)練時(shí)會(huì)將數(shù)據(jù)進(jìn)行壓縮轉(zhuǎn)換,變成相應(yīng)的向量(vector),比如說(shuō)把一張張圖片變成相應(yīng)的向量,之后根據(jù)這些向量之間的距離來(lái)判斷對(duì)應(yīng)照片的相似度。隨著人工智能的發(fā)展,向量檢索的速度成為AI領(lǐng)域的瓶頸之一,而向量檢索引擎正是解決這一問(wèn)題的手段之一。
賾睿信息科技:Milvus
簡(jiǎn)介:Milvus是上海賾睿信息科技有限公司(Zilliz)研發(fā)的海量特性向量檢索系統(tǒng)。Milvus依托GPU加速,提供極速特征向量匹配以及多維度數(shù)據(jù)聯(lián)合查詢(特征、標(biāo)簽、圖片、視頻、文本和語(yǔ)音等聯(lián)合查詢)功能,并且支持自動(dòng)分表分庫(kù)和多副本,能完美對(duì)接TensorFlow、Pytorch和MxNet等AI模型,可實(shí)現(xiàn)百億特征向量的秒級(jí)查詢。
Faceboook Faiss
簡(jiǎn)介:Faiss是由Facebook研究院(FAIR)研發(fā)并開(kāi)源的進(jìn)行高效向量查詢檢索的代碼庫(kù)(library),它支持對(duì)不同大小的向量集的檢索,同時(shí)也實(shí)現(xiàn)了多種參數(shù)調(diào)優(yōu)的算法,可以用作人臉識(shí)別,基因?qū)Ρ鹊扔猛尽?/p>
Proxima
簡(jiǎn)介:Proxima 是阿里巴巴達(dá)摩院系統(tǒng) AI 實(shí)驗(yàn)室自研的向量檢索內(nèi)核。Proxima BE是 Proxima 團(tuán)隊(duì)開(kāi)發(fā)的服務(wù)化引擎,實(shí)現(xiàn)了對(duì)大數(shù)據(jù)的高性能相似性搜索。目前,其核心能力廣泛應(yīng)用于阿里巴巴和螞蟻集團(tuán)內(nèi)眾多業(yè)務(wù),如淘寶搜索和推薦、螞蟻人臉支付、優(yōu)酷視頻搜索、阿里媽媽廣告檢索等。
Vearch
簡(jiǎn)介:Vearch 是對(duì)大規(guī)模深度學(xué)習(xí)向量進(jìn)行高性能相似搜索的彈性分布式系統(tǒng),支持多種數(shù)據(jù)模型,如空間、文檔、向量和標(biāo)量。
(注:36氪對(duì)基礎(chǔ)軟件保持持續(xù)關(guān)注,通過(guò)和數(shù)十位行業(yè)人士溝通,以及多方收集資料完成了本文。但由于資源、視角有限,本文難免出現(xiàn)錯(cuò)誤、片面等問(wèn)題,歡迎各位讀者指正交流。)
參考文獻(xiàn):
《深氪|鏖戰(zhàn)!國(guó)產(chǎn)數(shù)據(jù)庫(kù)》,36氪
《2022年的企服投資:基礎(chǔ)層,還是應(yīng)用層?|2022展望》,36氪
《解讀開(kāi)源的2021:從“開(kāi)發(fā)者亞文化”,變成主流軟件開(kāi)發(fā)模式》,InfoQ
《產(chǎn)業(yè)調(diào)研:混沌初開(kāi)的國(guó)產(chǎn)數(shù)據(jù)庫(kù)市場(chǎng)》,計(jì)算機(jī)文藝復(fù)興
《中國(guó)數(shù)據(jù)庫(kù)管理系統(tǒng)市場(chǎng)指南》,Gartner
《2020年中國(guó)行業(yè)大數(shù)據(jù)市場(chǎng)現(xiàn)狀及發(fā)展前景分析,未來(lái)五年市場(chǎng)規(guī)?;?qū)⒔?萬(wàn)億元》,前瞻研究院
產(chǎn)品介紹部分主要來(lái)源于企業(yè)官網(wǎng)和其他公開(kāi)資料,部分參考自墨天輪、DB-Engines、維基百科、百度百科,另感謝36氪作者楊逍對(duì)本文的貢獻(xiàn)。
好了,這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里,如果大家網(wǎng)絡(luò)推廣引流創(chuàng)業(yè)感興趣,可以添加微信:80709525 備注:發(fā)貨聯(lián)盟引流學(xué)習(xí); 我拉你進(jìn)直播課程學(xué)習(xí)群,每周135晚上都是有實(shí)戰(zhàn)干貨的推廣引流技術(shù)課程免費(fèi)分享!